小屋創作

日誌2019-12-18 20:44

以 colab進行gensim 訓練中文詞向量

作者:速趴pe吉do

本文參考連結點我
還有我


請先確認環境
Runtime type:Python 3
Hardware accelerator:GPU

1.掛載 google drive
from google.colab import drive
drive.mount('/content/drive/')

2.將[中文詞向量訓練教學檔案]下載,將目錄指定至word2vec-tutorial
!git clone https://github.com/zake7749/word2vec-tutorial.git

import os
os.chdir('/content/drive/My Drive/colab/word2vec-tutorial')

3.前往維基百科:資料庫下載挑選更近期的資料並將其丟至word2vec-tutorial,不過請特別注意一點,我們要挑選的是以 pages-articles.xml.bz2 結尾的備份,而不是以 pages-articles-multistream.xml.bz2 結尾的備份,否則會在清理上出現一些異常,無法正常解析文章。

4.配置gensim
! pip3 install --upgrade gensim

5.初始化WikiCorpus後,能藉由get_texts()可迭代每一篇文章,它所回傳的是一個tokens list,我以空白符將這些 tokens 串接起來,統一輸出到同一份文字檔裡。這邊要注意一件事,get_texts()受wikicorpus.py中的變數ARTICLE_MIN_WORDS限制,只會回傳內容長度大於 50 的文章,詳細可見wikicorpus.py檔案,這邊我們只需輸入下列命令即可執行。
! python3 wiki_to_txt.py zhwiki-20190820-pages-articles.xml.bz2

6.安裝jieba並進行測試
!pip3 install jieba

import jieba

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))


7.測試後發現有簡體中文,需加上一道繁簡轉換的手續。然而我們的語料集相當龐大,一般的繁簡轉換會有些力不從心,這邊我們採用OpenCC進行轉換
!sudo apt-get install opencc

!pip3 install opencc

import opencc

! sudo opencc -i wiki_texts.txt -o wiki_zh_tw.txt -c s2tw.json

8.轉換完後利用segment.py進行斷詞
! python segment.py wiki_zh_tw.txt

9.訓練詞向量
! python3 train.py

10.輸入demo.py並進行測試
! python3 demo.py

4

2

LINE 分享

相關創作

二服(卡雷兒)突破系統限制,利用匠師技能(全壘打擊)攻擊玩家藝者百減狀態,秒殺。

全部都想要,代表沒有抉擇的能力

【開箱】JLab JBuds ANC 3 真無線藍牙耳機評測|內建充電線,不到 2000 元的降噪耳機!

留言

開啟 APP

face基於日前微軟官方表示 Internet Explorer 不再支援新的網路標準,可能無法使用新的應用程式來呈現網站內容,在瀏覽器支援度及網站安全性的雙重考量下,為了讓巴友們有更好的使用體驗,巴哈姆特即將於 2019年9月2日 停止支援 Internet Explorer 瀏覽器的頁面呈現和功能。
屆時建議您使用下述瀏覽器來瀏覽巴哈姆特:
。Google Chrome(推薦)
。Mozilla Firefox
。Microsoft Edge(Windows10以上的作業系統版本才可使用)

face我們了解您不想看到廣告的心情⋯ 若您願意支持巴哈姆特永續經營,請將 gamer.com.tw 加入廣告阻擋工具的白名單中,謝謝 !【教學】