Happy Coding Lab
Happy Coding Lab,分享平日 Coding 的各種知識分享,快樂學習、快樂成長。
  好文推薦
GCP

GCP系列-使用 Dataproc initialization actions 安裝 python package

本範例將會教授如何使用 dataproc initialization actions 來安裝 python package 於 cluster,就可以在 launch spark 時安裝套件至每一台 worker 上面。

閱讀更多
NLP

NLP 系列 - Tensorboard 視覺化 word2vec 詞向量

word2vec 的應用已經相當的的普及,但是該模型為向量組成,充滿了一般人腦袋不可理解的維度與空間,此文章將利用 Tensorboard 將模型的向量投射到多維空間中,可以清晰地看得出詞與詞之間的相依關係。

閱讀更多
keras

keras系列 - keras model部署與序列化於spark進行預測

Keras 先天設計上無法序列化 (serialize),只能在單機上使用 (利用cpu 或 gpu)。但我又有需要大量預測的需求,基本上查詢的到的方法都會有個類序列化的方式,將 model 傳遞到每個 worker上,達到分散的目的,本文將記錄嘗試的各種方式。

閱讀更多
pyspark

pyspark 系列 - 在 lit 中使用 Array(Arraylist) 教學

想要使用 lit 增加欄位時,如果增加的是一個 array,spark 將會拋出錯誤 Unsupported literal type class java.util.ArrayList。本文章將簡單的示範該如何解決此問題。

閱讀更多
pyspark

pyspark 系列 - collect_list 與 collect_set 實例教學

How to use collect_list & collect_set in pyspark dataframe?在使用 spa

閱讀更多
pyspark

pyspark系列-如何於 dataframe 增加索引(index)值或 row number

本範例將會示範如何在 pyspark dataframe 中加入 index 號碼。將會簡單的使用 Window 這個 lib 搭配 pyspark.sql.functions 中的 row_number 來進行操作。

閱讀更多
pyspark

pyspark系列-字串轉時間格式 string to datetime or timestamp

本範例將會示範如何在 pyspark 中使用 to_date 方法將時間字串轉成 datetime 格式以及 unix_timestamp 方法轉 timestamp 格式。

閱讀更多
SEO

seo-移除未使用的 css (purify css)

網頁的效能優化到最後可能會進入一個撞牆期,當該壓縮的都壓縮了,該緩存的也緩存了,但是 performance 還是不完美,這時還能做什麼呢?本篇就來告訴你一個小技巧,purify css!

閱讀更多
SEO

seo-使用 Cache-Control 在 nginx 解決 Serve static assects with an efficient cache policy 問題

seo 改進的後期關鍵基本上都是想辦提昇網頁的整體載入效能,本文將分享使用 nginx 作為 server 時如何快速的將平常使用的 css, js 緩存,讓網頁讀取更快速,也不會造成server負擔。

閱讀更多
Django 系列- 如何在 template 以及 view.py 中獲取當下/前一頁頁面的url? Django 系列- 如何在 template 以及 view.py 中獲取當下/前一頁頁面的url?
在 Django 中常常有獲取當下頁或是前一頁面網址 (url)的需求,例如輸入表單後的頁面重導、404頁面的重導。這個部分在 template 中以及 view.py 中都可以靠著 request 獲取資訊,我們就來看下去吧!
2020-08-23
Django 系列- 如何在清單中截斷、縮短(truncatechars)顯示的文章文字? Django 系列- 如何在清單中截斷、縮短(truncatechars)顯示的文章文字?
在顯示部落格的文章清單時常常會有顯示每篇文章開頭的簡短文字需求,而在 Django 中該如何實現?內建的 `truncatechars` 將會是你的好朋友!
2020-08-23
Python 系列- 如何乾淨移除網址url中的追蹤碼? Python 系列- 如何乾淨移除網址url中的追蹤碼?
在處理跟網址相關的程式的時候大家應該都會有一個困擾,明明就都會導到一樣的網址,但是網址卻都不一樣,因為後面帶了各式各樣的來源追蹤碼追蹤網站流量,最常見的就是 GA UTM 以及 facebook 的追蹤 tag 了,這樣會導致計算流量時重複計算的困擾,此篇小記事就是來解決這個問題的拉!
2020-07-06
GCP 系列-新增/啟動 Dataproc clusters 時帶入多個 properties 套件 GCP 系列-新增/啟動 Dataproc clusters 時帶入多個 properties 套件
本範例將會簡單示範如何在啟動 Dataproc cluster 語法中的`properties` 參數帶入多個不同套件,例如同時需要使用監控的 `stackdriver`、`kafka`以及`clickhouse`三個不同的套件,在 submit job 的時候就可以自動地帶入相關套件。
2020-06-14
pyspark系列-如何於 dataframe 增加索引(index)值或 row number pyspark系列-如何於 dataframe 增加索引(index)值或 row number
本範例將會示範如何在 pyspark dataframe 中加入 index 號碼。將會簡單的使用 Window 這個 lib 搭配 pyspark.sql.functions 中的 row_number 來進行操作。
2020-06-04
pyspark系列-字串轉時間格式 string to datetime or timestamp pyspark系列-字串轉時間格式 string to datetime or timestamp
本範例將會示範如何在 pyspark 中使用 to_date 方法將時間字串轉成 datetime 格式以及 unix_timestamp 方法轉 timestamp 格式。
2020-06-04
GCP Cloud DNS & letsencrypt 的 ssl 憑證申請與續期 GCP Cloud DNS & letsencrypt 的 ssl 憑證申請與續期
本教程將會簡單講述如何在 GCP 的環境中更新網頁的 ssl 憑證(免費的 letsencrypt),此範例僅適用於將 dns 交由 GCP Cloud DNS 託管的情況下。
2020-05-25
GCP系列-將 GoDaddy 網域與 Google DNS進行綁定 GCP系列-將 GoDaddy 網域與 Google DNS進行綁定
本文將講述如何將GoDaddy購買的網域與GCP上面的Cloud DNS代管服務進行綁定。
2020-05-23
seo-移除未使用的 css (purify css) seo-移除未使用的 css (purify css)
網頁的效能優化到最後可能會進入一個撞牆期,當該壓縮的都壓縮了,該緩存的也緩存了,但是 performance 還是不完美,這時還能做什麼呢?本篇就來告訴你一個小技巧,purify css!
2020-05-10
seo-使用 Cache-Control 在 nginx 解決 Serve static assects with an efficient cache policy 問題 seo-使用 Cache-Control 在 nginx 解決 Serve static assects with an efficient cache policy 問題
seo 改進的後期關鍵基本上都是想辦提昇網頁的整體載入效能,本文將分享使用 nginx 作為 server 時如何快速的將平常使用的 css, js 緩存,讓網頁讀取更快速,也不會造成server負擔。
2020-05-10
1 / 3