Happy Coding Lab
Happy Coding Lab,分享平日 Coding 的各種知識分享,快樂學習、快樂成長。
02
04
NLP 系列- 如何在word2vec訓練時讓WikiCorpus保留數字(digit)? NLP 系列- 如何在word2vec訓練時讓WikiCorpus保留數字(digit)?
訓練 word2vec model(後面簡稱w2v) 時的中文語料第一選擇通常就是 Wikipedia 的語料庫(最後一次查看有`3651160篇文章`),而 w2v 本身又支援直接處理 wiki 的 bz2檔案產出對應格式的中文,不過他會先做一些預處理例如:移除標點符號、所有的數字,但我又想要留下這些東西怎麼辦呢?我們來繼續看下去!
2021-02-04