日誌2020-06-01 18:10
PTT Beauty 板圖片爬蟲 (上)作者:Yotsuba
import requests response = requests.get('https://www.ptt.cc/bbs/Beauty/M.1563888394.A.F76.html') print(response.text) |
import requests params = {'from' : '/bbs/Beauty/M.1563888394.A.F76.html', 'yes' : 'yes'} response = requests.post('https://www.ptt.cc/ask/over18', data = params, allow_redirects = False) cookies = response.cookies response = requests.get('https://www.ptt.cc/bbs/Beauty/M.1563888394.A.F76.html', cookies = cookies) print(response.text) |
2020-06-02 08:37Yotsuba:重導向就是重導向
當今天請求一個網站時,請求完畢它有可能透過 JS 把你導向另一個網站
像是 "登入成功,3 秒後會跳轉頁面" 就是一個例子
在這個例子中,POST 其實會被重導向,會變成請求了兩個網頁
而我們要的是第一個 cookie,結果因為重導向讓 cookie 被覆蓋掉了
所以這裡就把重導向關閉 (requests 重導向預設是開啟)
但如果今天是使用 Session 物件就沒這問題了
之後還是寫一篇文章解釋一下重導向比較好
2020-07-15 17:53Yotsuba:Chrome 按 F12 撈封包來的
可以參考整篇文章的第 3 張圖片