小屋創作

日誌2019-10-23 02:29

簡易爬蟲

作者:Arjer

import urllib.request as ur                  #連網mod                                                               
url = ' 網址'         #目標網頁                                                                                               
request =ur.Request(url, headers={                                                                                  
    
"User-Agent":"----------"                                                                                                 
})        #建立Request物件,附加上Request Headers資訊(由網頁抓)                               
with ur.urlopen(request) as response:          #抓取網頁上data                                         
    data = response.read().decode('utf-8')                                                                         
#print(data)                                                                                                                       
import bs4                                    #解析原始碼mod                                                          
root = bs4.BeautifulSoup(data, "html.parser")    #讓BeautifulSoup解析HTML文件          
#print(root.title.string)                                                                                                        
titles = root.find_all("div",class_="title")     #找出符合類別定義('class_='的標籤('div')       
#print(titles)                                                                                                                       

for title in titles:                    #for迴圈找出網頁中所有符合的檔案(用find只會抓最新一個)
    if title.a !=None:                  #排除不存在的標籤後抓取data                                          
        print(title.a.string)                                                                                                      

0

0

LINE 分享

相關創作

今年難道是2014年

【通知】落日餘痕 06/01 角角者上架,17整點更新。

XPERIA 1VI 鉑金銀開箱

留言

開啟 APP

face基於日前微軟官方表示 Internet Explorer 不再支援新的網路標準,可能無法使用新的應用程式來呈現網站內容,在瀏覽器支援度及網站安全性的雙重考量下,為了讓巴友們有更好的使用體驗,巴哈姆特即將於 2019年9月2日 停止支援 Internet Explorer 瀏覽器的頁面呈現和功能。
屆時建議您使用下述瀏覽器來瀏覽巴哈姆特:
。Google Chrome(推薦)
。Mozilla Firefox
。Microsoft Edge(Windows10以上的作業系統版本才可使用)

face我們了解您不想看到廣告的心情⋯ 若您願意支持巴哈姆特永續經營,請將 gamer.com.tw 加入廣告阻擋工具的白名單中,謝謝 !【教學】