掃二維碼與項目經(jīng)理溝通
我們在微信上24小時期待你的聲音
解答本文疑問/技術(shù)咨詢/運(yùn)營咨詢/技術(shù)建議/互聯(lián)網(wǎng)交流
網(wǎng)絡(luò)爬取(Web scraping,請詳見:http://www.prowebscraper.com/blog/web-scraping-using-php/)是普通商業(yè)網(wǎng)站的常規(guī)功能之一。不同的網(wǎng)站在不同的應(yīng)用場景下,會用到不同的爬取任務(wù),其中包括:產(chǎn)品信息和股票價格等方面。

成都創(chuàng)新互聯(lián)長期為數(shù)千家客戶提供的網(wǎng)站建設(shè)服務(wù),團(tuán)隊從業(yè)經(jīng)驗10年,關(guān)注不同地域、不同群體,并針對不同對象提供差異化的產(chǎn)品和服務(wù);打造開放共贏平臺,與合作伙伴共同營造健康的互聯(lián)網(wǎng)生態(tài)環(huán)境。為云龍企業(yè)提供專業(yè)的成都做網(wǎng)站、網(wǎng)站建設(shè),云龍網(wǎng)站改版等技術(shù)服務(wù)。擁有十載豐富建站經(jīng)驗和眾多成功案例,為您定制開發(fā)。
與此同時,在網(wǎng)站系統(tǒng)的后端開發(fā)中,網(wǎng)絡(luò)爬取也是備受關(guān)注。在程序員的圈子內(nèi),您會經(jīng)常聽到:又有人開發(fā)創(chuàng)建了高質(zhì)量的解析器或“爬蟲”之類的新聞。
在本文中,我們將和您探討一些實用的網(wǎng)絡(luò)爬取庫與工具,以滿足您直接抓取網(wǎng)站信息和數(shù)據(jù)的業(yè)務(wù)需求。
在PHP環(huán)境中,您可以通過如下工具庫,來進(jìn)行與網(wǎng)絡(luò)抓取相關(guān)的各項操作:
1. Goutte
簡介:
特征:
環(huán)境要求:
需要具有PHP 5.5以上和Guzzle 6以上(見下文)的環(huán)境。
文檔鏈接:
https://goutte.readthedocs.io/en/latest/
擴(kuò)展閱讀:
https://menubar.io/php-scraping-tutorial-scrape-reddit-with-goutte
2. Simple HTML DOM
簡介:
特征:
環(huán)境要求:
需要具有PHP 5以上的環(huán)境。
文檔鏈接:
http://simplehtmldom.sourceforge.net/manual.htm
擴(kuò)展閱讀:
http://www.prowebscraper.com/blog/web-scraping-using-php/
3. htmlSQL
簡介:
特征:
環(huán)境要求:
文檔鏈接:
https://github.com/hxseven/htmlSQL
擴(kuò)展閱讀:
https://github.com/hxseven/htmlSQL/tree/master/examples
4. cURL
簡介:
環(huán)境要求:
文檔鏈接:
http://php.net/manual/ru/book.curl.php
擴(kuò)展閱讀:
http://scraping.pro/scraping-in-php-with-curl/
5.Requests
簡介:
特征:
環(huán)境要求:
需要具有PHP 5.2以上的版本。
參考文檔:
https://github.com/rmccue/Requests/blob/master/docs/README.md
6. HTTPful
簡介:
特征:
環(huán)境要求:
需要具有PHP 5.3以上的版本。
文檔鏈接:
http://phphttpclient.com/docs/
7.Buzz
簡介:
特征:
環(huán)境要求:
需要具有PHP 7.1版本。
文檔鏈接:
https://github.com/kriswallsmith/Buzz/blob/master/doc/index.md
擴(kuò)展閱讀:
https://github.com/kriswallsmith/Buzz/tree/master/examples
8. Guzzle
簡介:
特征:
環(huán)境要求:
需要具有PHP 5.3.3以上版本。
文檔鏈接:
http://docs.guzzlephp.org/en/stable/
擴(kuò)展閱讀:
Scraping products from Walmart with PHP, Guzzle, Crawler and Doctrine
結(jié)論
綜上所述,每一種網(wǎng)絡(luò)爬取工具都具有自己的特點(diǎn)和環(huán)境要求。希望上述羅列能夠幫助您更好地了解這些PHP庫與工具。您可以從中挑選出適合于自己網(wǎng)站系統(tǒng)的工具進(jìn)行試用與調(diào)試。

我們在微信上24小時期待你的聲音
解答本文疑問/技術(shù)咨詢/運(yùn)營咨詢/技術(shù)建議/互聯(lián)網(wǎng)交流