Happy Coding Lab
Happy Coding Lab,分享平日 Coding 的各種知識分享,快樂學習、快樂成長。
02
04
NLP 系列- 如何在word2vec訓練時讓WikiCorpus保留數字(digit)? NLP 系列- 如何在word2vec訓練時讓WikiCorpus保留數字(digit)?
訓練 word2vec model(後面簡稱w2v) 時的中文語料第一選擇通常就是 Wikipedia 的語料庫(最後一次查看有`3651160篇文章`),而 w2v 本身又支援直接處理 wiki 的 bz2檔案產出對應格式的中文,不過他會先做一些預處理例如:移除標點符號、所有的數字,但我又想要留下這些東西怎麼辦呢?我們來繼續看下去!
2021-02-04
01
13
10
14
14
08
登山系列-玉山一日單攻(主峰)攻略&紀錄 登山系列-玉山一日單攻(主峰)攻略&紀錄
登上玉山的計畫從2020/03就開始了,但一路上可以的時間都一直抽不到簽,超級沒有籤運,與排雲山莊非常的沒有緣分,後來就開始改抽玉山單攻,很幸運的在8月改制後(先搶先贏改成電腦選)就中籤了,由於當初在網路上很多資料其實有點舊了,所以希望寫一篇來紀錄一下!
2020-10-08
08
23
23
07
06
Python 系列- 如何乾淨移除網址url中的追蹤碼? Python 系列- 如何乾淨移除網址url中的追蹤碼?
在處理跟網址相關的程式的時候大家應該都會有一個困擾,明明就都會導到一樣的網址,但是網址卻都不一樣,因為後面帶了各式各樣的來源追蹤碼追蹤網站流量,最常見的就是 GA UTM 以及 facebook 的追蹤 tag 了,這樣會導致計算流量時重複計算的困擾,此篇小記事就是來解決這個問題的拉!
2020-07-06
06
14
04
1 / 4