訓練 word2vec model(後面簡稱w2v) 時的中文語料第一選擇通常就是 Wikipedia 的語料庫(最後一次查看有`3651160篇文章`),而 w2v 本身又支援直接處理 wiki 的 bz2檔案產出對應格式的中文,不過他會先做一些預處理例如:移除標點符號、所有的數字,但我又想要留下這些東西怎麼辦呢?我們來繼續看下去!
2021-02-04