av激情亚洲男人的天堂国语,日韩欧美精品一中文字幕,无码av一区二区三区无码,国产又色又爽又刺激的a片,国产又色又爽又刺激的a片

Python實現(xiàn)網(wǎng)頁爬蟲基本實現(xiàn)代碼解讀

Python是一款功能強大的計算機程序語言,同時也可以被看做是一款面向?qū)ο蟮耐ㄓ眯驼Z言。它的功能特點比較突出,極大的方便開發(fā)人員應用。在這里我們先來一起了解一下有關Python市縣網(wǎng)頁爬蟲的方法。

創(chuàng)新互聯(lián)建站專注于平邑企業(yè)網(wǎng)站建設,成都響應式網(wǎng)站建設公司,成都商城網(wǎng)站開發(fā)。平邑網(wǎng)站建設公司,為平邑等地區(qū)提供建站服務。全流程按需定制網(wǎng)站,專業(yè)設計,全程項目跟蹤,創(chuàng)新互聯(lián)建站專業(yè)和態(tài)度為您提供的服務

今天看到一個網(wǎng)頁,又因為在家里用電話線上網(wǎng),一直在線閱讀很麻煩。所以就寫了個簡單的程序把網(wǎng)頁抓下來離線閱讀,省點電話費:)這個程序因為主頁面鏈接到的頁面都在同一個目錄下,結構很簡單,只有一層。因此寫了一些硬編碼做鏈接地址的分析。

Python實現(xiàn)網(wǎng)頁爬蟲代碼如下:

 
 
 
  1. #!/usr/bin/env python  
  2. # -*- coding: GBK -*-  
  3. import urllib  
  4. from sgmllib import SGMLParser  
  5. class URLLister(SGMLParser):  
  6. def reset(self):  
  7. SGMLParser.reset(self)  
  8. self.urls = []  
  9. def start_a(self, attrs):  
  10. href = [v for k, v in attrs if k == 'href']  
  11. if href:  
  12. self.urls.extend(href)  
  13. url = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJingShuoShenMo/' 
  14. sock = urllib.urlopen(url)  
  15. htmlSource = sock.read()  
  16. sock.close()  
  17. #print htmlSource  
  18. f = file('jingangjing.html', 'w')  
  19. f.write(htmlSource)  
  20. f.close()  
  21. mypath = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJingShuoShenMo/' 
  22. parser = URLLister()  
  23. parser.feed(htmlSource)  
  24. for url in parser.urls:  
  25. myurl = mypath + url  
  26. print "get: " + myurl  
  27. sock2 = urllib.urlopen(myurl)  
  28. html2 = sock2.read()  
  29. sock2.close()  
  30. # 保存到文件  
  31. print "save as: " + url  
  32. f2 = file(url, 'w')  
  33. f2.write(html2)  
  34. f2.close() 

以上就是我們?yōu)榇蠹医榻B的有關Python實現(xiàn)網(wǎng)頁爬蟲的實現(xiàn)方法。

【編輯推薦】

  1. 深度講述Python標準語言特性
  2. 深度剖析Python語言奧秘
  3. 探秘簡單強大的Python語言
  4. 對Python測試問題全解析
  5. 幾分鐘教會您Python程序配置問題

文章題目:Python實現(xiàn)網(wǎng)頁爬蟲基本實現(xiàn)代碼解讀
本文路徑:http://uogjgqi.cn/article/dhcgdgs.html
掃二維碼與項目經(jīng)理溝通

我們在微信上24小時期待你的聲音

解答本文疑問/技術咨詢/運營咨詢/技術建議/互聯(lián)網(wǎng)交流