小屋創作

日誌2020-08-28 00:20

puppeteer 爬蟲漫畫網站

作者:戠弈翔

之前寫過一篇 python selenium 來爬漫畫網站。
那麼最近有在碰 node js  就在想說用 JavaScript 寫爬蟲吧!
所以選擇 puppeteer 這個套件來寫爬蟲。

簡短來介紹一下這個套件。
puppeteer selenium 都是瀏覽器自動化的套件
python 裡面都有這兩個套,但我們這次不是使用 python 來爬蟲
puppeteer 這個套件是 google 所開發專案
puppeteer 官方API
使用方法,其實跟 selenium 功能大同小異

那讓我們來想該如何爬蟲,其實做法跟 這一篇
是一樣的思考方式。

首先先去抓出圖片的網址,先用 chrome 瀏覽網頁
在按 F12 進入 開發人員工具 選最上面 console 輸入已下

就會跑出以下結果,這樣我們就獲得圖片的網址

圖片網址獲得後,那麼頁數是不是也能透過類似的方法來取得呢?
答案是可以的,因為這些都是前端 JavaScript 基本的語法應用

頁數取得方法,一樣的作法。如下!


當我們就能夠取得 圖片網址、頁數 時,就能夠能開始寫我們的爬蟲了。
一樣的想法,使用 puppeteer 去瀏覽所需的網頁,在把圖片下載
這樣就能夠爬取所需的資料。

經驗、學習就像積木一樣,每一塊大小形狀都不同
學的東西越多越廣,卻好像都組合不起來
現在是這樣,但不代表以後都是如此
日後這個屬於自己的作品,都是靠自己一點一滴的組裝起來

githun 完整程式碼

2

0

LINE 分享

相關創作

2024-5-19的迷因增刊號

[達人專欄] 懶洋洋的孩子

[達人專欄] [三格漫畫]時間魔術師!?

留言

開啟 APP

face基於日前微軟官方表示 Internet Explorer 不再支援新的網路標準,可能無法使用新的應用程式來呈現網站內容,在瀏覽器支援度及網站安全性的雙重考量下,為了讓巴友們有更好的使用體驗,巴哈姆特即將於 2019年9月2日 停止支援 Internet Explorer 瀏覽器的頁面呈現和功能。
屆時建議您使用下述瀏覽器來瀏覽巴哈姆特:
。Google Chrome(推薦)
。Mozilla Firefox
。Microsoft Edge(Windows10以上的作業系統版本才可使用)

face我們了解您不想看到廣告的心情⋯ 若您願意支持巴哈姆特永續經營,請將 gamer.com.tw 加入廣告阻擋工具的白名單中,謝謝 !【教學】