GCP系列-使用 Dataproc initialization actions 安裝 python package
本範例將會教授如何使用 dataproc initialization actions 來安裝 python package 於 cluster,就可以在 launch spark 時安裝套件至每一台 worker 上面。
閱讀更多本範例將會教授如何使用 dataproc initialization actions 來安裝 python package 於 cluster,就可以在 launch spark 時安裝套件至每一台 worker 上面。
閱讀更多word2vec 的應用已經相當的的普及,但是該模型為向量組成,充滿了一般人腦袋不可理解的維度與空間,此文章將利用 Tensorboard 將模型的向量投射到多維空間中,可以清晰地看得出詞與詞之間的相依關係。
閱讀更多Keras 先天設計上無法序列化 (serialize),只能在單機上使用 (利用cpu 或 gpu)。但我又有需要大量預測的需求,基本上查詢的到的方法都會有個類序列化的方式,將 model 傳遞到每個 worker上,達到分散的目的,本文將記錄嘗試的各種方式。
閱讀更多本範例將會示範如何在 pyspark dataframe 中加入 index 號碼。將會簡單的使用 Window 這個 lib 搭配 pyspark.sql.functions 中的 row_number 來進行操作。
閱讀更多本範例將會示範如何在 pyspark 中使用 to_date 方法將時間字串轉成 datetime 格式以及 unix_timestamp 方法轉 timestamp 格式。
閱讀更多How to use collect_list & collect_set in pyspark dataframe?在使用 spa
閱讀更多想要使用 lit 增加欄位時,如果增加的是一個 array,spark 將會拋出錯誤 Unsupported literal type class java.util.ArrayList。本文章將簡單的示範該如何解決此問題。
閱讀更多seo 改進的後期關鍵基本上都是想辦提昇網頁的整體載入效能,本文將分享使用 nginx 作為 server 時如何快速的將平常使用的 css, js 緩存,讓網頁讀取更快速,也不會造成server負擔。
閱讀更多網頁的效能優化到最後可能會進入一個撞牆期,當該壓縮的都壓縮了,該緩存的也緩存了,但是 performance 還是不完美,這時還能做什麼呢?本篇就來告訴你一個小技巧,purify css!
閱讀更多
NLP 系列- 如何在word2vec訓練時讓WikiCorpus保留數字(digit)?
Django 系列- 如何在{{value}}中完整移除html tag?
pyspark系列-如何使用pyspark連結clickhouse教學
pyspark系列-如何使用pyspark連結kafka教學
登山系列-玉山一日單攻(主峰)攻略&紀錄
Django 系列- 如何在 template 以及 view.py 中獲取當下/前一頁頁面的url?
Django 系列- 如何在清單中截斷、縮短(truncatechars)顯示的文章文字?
Python 系列- 如何乾淨移除網址url中的追蹤碼?
GCP 系列-新增/啟動 Dataproc clusters 時帶入多個 properties 套件
pyspark系列-如何於 dataframe 增加索引(index)值或 row number