日誌2020-08-22 20:38
Dcard API 2.0版本 爬蟲說明作者:Jia
說明 | 請求方法 | 路徑 |
全部文章 | GET | /posts |
看板資訊 | GET | /forums |
看板內文章列表 | GET | /forums/{看板名稱}/posts |
文章內文 | GET | /posts/{文章ID} |
文章內引用連結 | GET | /posts/{文章ID}/links |
文章內留言 | GET | /posts/{文章ID}/comments |
2021-01-15 20:28Jia:剛剛試過...確實一般的方式會被擋掉>< (回傳403)
你可以將 r.text 儲存成 html 網頁檔查看。
後來我是用 cloudscraper 套件解決(https://pypi.org/project/cloudscraper/),
雖然有時還是會沒辦法,不過重試幾次就行了
(如果你有找到更好的辦法,一定要告訴我~
2021-01-19 22:57Jia:我將 requests 的結果存成 html 打開來看:
https://imgur.com/a/e7qUOPB
Dcard 應該是使用 Cloudflare 的服務(CDN),
可能最近有設定什麼、有發生什麼事,不知道
然後它會擋掉我們 requests 的請求[e36]
但用瀏覽器(包括Selenium)就可以順利顯示
2023-03-05 13:58Jia:我寫 Dcard 爬蟲已經是 3 年前了XD 現在的情狀我也不太清楚,希望有遇到的人可以分享~
2023-10-03 22:11Jia:這我沒有試過,可能只能在網路上搜尋看看