av激情亚洲男人的天堂国语,日韩欧美精品一中文字幕,无码av一区二区三区无码,国产又色又爽又刺激的a片,国产又色又爽又刺激的a片

手把手教你寫網絡爬蟲(6):分布式爬蟲

手把手教你寫網絡爬蟲(6):分布式爬蟲

作者:佚名 2018-05-22 15:30:30

開發(fā)

后端

分布式 對于分布式爬蟲系統(tǒng)來說,假設1臺機器能10天爬完一個任務,如果部署10臺機器,那么1天就會完成這個任務。這樣就用可以接受的成本,讓系統(tǒng)的效率提高十倍。之前介紹的單機架構師達不到這種效果的,是時候介紹信的架構了!

十載的新巴爾虎左網站建設經驗,針對設計、前端、開發(fā)、售后、文案、推廣等六對一服務,響應快,48小時及時工作處理。成都營銷網站建設的優(yōu)勢是能夠根據用戶設備顯示端的尺寸不同,自動調整新巴爾虎左建站的顯示方式,使網站能夠適用不同顯示終端,在瀏覽器中調整網站的寬度,無論在任何一種瀏覽器上瀏覽網站,都能展現(xiàn)優(yōu)雅布局與設計,從而大程度地提升瀏覽體驗。創(chuàng)新互聯(lián)公司從事“新巴爾虎左網站設計”,“新巴爾虎左網站推廣”以來,每個客戶項目都認真落實執(zhí)行。

本系列:

  • 《手把手教你寫網絡爬蟲(1):網易云音樂歌單》
  • 《手把手教你寫網絡爬蟲(2):迷你爬蟲架構》
  • 《手把手教你寫網絡爬蟲(3):開源爬蟲框架對比》
  • 《手把手教你寫網絡爬蟲(4):Scrapy入門》
  • 《手把手教你寫網絡爬蟲(5):PhantomJS實戰(zhàn)》

筆者以前看過一個電影叫《Who Am I – No System Is Safe》,劇中的黑客老大“Who Am I”就用代理來隱藏自己,躲避FBI和其他黑客組織的追蹤。

taskId:flag:crawler:info
Filed value 說明
totalCnt 10000 抓取的url總數:抓取完成,不管成功失敗,都加1
failCnt 0 抓取的url失敗數:抓取失敗,加1
switch 1 任務狀態(tài):0:停止,1:啟動,2:暫停,3:暫停啟動
priority 1 任務優(yōu)先級
retryCnt 0 重試次數
status 0 任務執(zhí)行狀態(tài):1:進行中,2:完成
Ref 0 url引用數:每消費一個url,減1;生成一個url,加1。等于0則任務完成
maxThreadCnt 100 任務的***線程數
remainThreadCnt 10 剩余可用線程數
lastFetchTime 1496404451532 上一次抓取時間

taskId:flag:parser:info

Filed value 說明
totalCnt 10000 解析總數:解析完成,不管成功失敗,都加1
failCnt 0 解析失敗數:解析失敗,加1
crawlerStatus 0 爬取狀態(tài):0:進行中,2:完成
ref 10 url引用數:crawler每保存一個網頁,加1;parser每解析完成一個網頁,減1。等于0不說明任務完成。若crawlerStatus等于2,ref等于0,則任務完成。

taskId:flag:filter:info

Filed value 說明
totalCnt 10000 清洗總數:清洗完成,不管成功失敗,都加1
failCnt 0 清洗失敗數:清洗失敗,加1
crawlerStatus 0 解析狀態(tài):0:進行中,2:完成
ref 10 url引用數:parser每保存一條數據,加1;filter每清洗完成一條數據,減1。等于0不說明任務完成。若parserStatus等于2,ref等于0,則任務完成。

流程控制 – failover

如果一個Crawler_core的機器掛掉了,就會開始數據恢復程序,把這臺機器所有未完成的任務恢復到公共緩存中。


文章名稱:手把手教你寫網絡爬蟲(6):分布式爬蟲
網頁鏈接:http://uogjgqi.cn/article/djpdosh.html
掃二維碼與項目經理溝通

我們在微信上24小時期待你的聲音

解答本文疑問/技術咨詢/運營咨詢/技術建議/互聯(lián)網交流