文章歷程 | Happy Coding Lab

Happy Coding Lab

Happy Coding Lab

Happy Coding Lab，分享平日 Coding 的各種知識分享，快樂學習、快樂成長。

Happy Coding Lab

Happy Coding Lab，分享平日 Coding 的各種知識分享，快樂學習、快樂成長。

2021

02

04

NLP 系列- 如何在word2vec訓練時讓WikiCorpus保留數字(digit)?

NLP 系列- 如何在word2vec訓練時讓WikiCorpus保留數字(digit)?

訓練 word2vec model(後面簡稱w2v) 時的中文語料第一選擇通常就是 Wikipedia 的語料庫(最後一次查看有`3651160篇文章`)，而 w2v 本身又支援直接處理 wiki 的 bz2檔案產出對應格式的中文，不過他會先做一些預處理例如：移除標點符號、所有的數字，但我又想要留下這些東西怎麼辦呢？我們來繼續看下去！

2021-02-04 NLP

wikicorpus NLP word2vec gensim

01

13

Django 系列- 如何在{{value}}中完整移除html tag?

Django 系列- 如何在{{value}}中完整移除html tag?

在顯示部落格的文章清單時常常會有顯示每篇文章開頭的簡短文字需求，內建的 `truncatechars` 將會是你的好朋友！不過使用的時候卻會把 HTML Tag 字元都算進去，使用起來相當不便，這時候就可以使用`striptags`來解決問題喔！

2021-01-13 Django

django truncatechars striptags

2020

10

14

pyspark系列-如何使用pyspark連結clickhouse教學

pyspark系列-如何使用pyspark連結clickhouse教學

本文將簡單的示範如何在 pyspark 中對 clickhouse 進行讀取的動作。

2020-10-14 pyspark

pyspark

14

pyspark系列-如何使用pyspark連結kafka教學

pyspark系列-如何使用pyspark連結kafka教學

本文將簡單的示範如何在 pyspark 中對 kafka 進行讀取與寫入的動作。

2020-10-14 pyspark

pyspark

08

登山系列-玉山一日單攻(主峰)攻略&紀錄

登山系列-玉山一日單攻(主峰)攻略&紀錄

登上玉山的計畫從2020/03就開始了，但一路上可以的時間都一直抽不到簽，超級沒有籤運，與排雲山莊非常的沒有緣分，後來就開始改抽玉山單攻，很幸運的在8月改制後(先搶先贏改成電腦選)就中籤了，由於當初在網路上很多資料其實有點舊了，所以希望寫一篇來紀錄一下！

2020-10-08 登山系列

玉山單攻登山

08

23

Django 系列- 如何在 template 以及 view.py 中獲取當下/前一頁頁面的url?

Django 系列- 如何在 template 以及 view.py 中獲取當下/前一頁頁面的url?

在 Django 中常常有獲取當下頁或是前一頁面網址 (url)的需求，例如輸入表單後的頁面重導、404頁面的重導。這個部分在 template 中以及 view.py 中都可以靠著 request 獲取資訊，我們就來看下去吧！

2020-08-23 Django

django

23

Django 系列- 如何在清單中截斷、縮短(truncatechars)顯示的文章文字?

Django 系列- 如何在清單中截斷、縮短(truncatechars)顯示的文章文字?

在顯示部落格的文章清單時常常會有顯示每篇文章開頭的簡短文字需求，而在 Django 中該如何實現？內建的 `truncatechars` 將會是你的好朋友！

2020-08-23 Django

django filters

07

06

Python 系列- 如何乾淨移除網址url中的追蹤碼?

Python 系列- 如何乾淨移除網址url中的追蹤碼?

在處理跟網址相關的程式的時候大家應該都會有一個困擾，明明就都會導到一樣的網址，但是網址卻都不一樣，因為後面帶了各式各樣的來源追蹤碼追蹤網站流量，最常見的就是 GA UTM 以及 facebook 的追蹤 tag 了，這樣會導致計算流量時重複計算的困擾，此篇小記事就是來解決這個問題的拉！

2020-07-06 Python

urlparse python utm

06

14

GCP 系列-新增/啟動 Dataproc clusters 時帶入多個 properties 套件

GCP 系列-新增/啟動 Dataproc clusters 時帶入多個 properties 套件

本範例將會簡單示範如何在啟動 Dataproc cluster 語法中的`properties` 參數帶入多個不同套件，例如同時需要使用監控的 `stackdriver`、`kafka`以及`clickhouse`三個不同的套件，在 submit job 的時候就可以自動地帶入相關套件。

2020-06-14 GCP

GCP Dataproc

04

pyspark系列-如何於 dataframe 增加索引(index)值或 row number

pyspark系列-如何於 dataframe 增加索引(index)值或 row number

本範例將會示範如何在 pyspark dataframe 中加入 index 號碼。將會簡單的使用 Window 這個 lib 搭配 pyspark.sql.functions 中的 row_number 來進行操作。

2020-06-04 pyspark

pyspark

            
1 / 4