GCP系列-使用 Dataproc initialization actions 安裝 python package
本範例將會教授如何使用 dataproc initialization actions 來安裝 python package 於 cluster,就可以在 launch spark 時安裝套件至每一台 worker 上面。
閱讀更多本範例將會教授如何使用 dataproc initialization actions 來安裝 python package 於 cluster,就可以在 launch spark 時安裝套件至每一台 worker 上面。
閱讀更多word2vec 的應用已經相當的的普及,但是該模型為向量組成,充滿了一般人腦袋不可理解的維度與空間,此文章將利用 Tensorboard 將模型的向量投射到多維空間中,可以清晰地看得出詞與詞之間的相依關係。
閱讀更多Keras 先天設計上無法序列化 (serialize),只能在單機上使用 (利用cpu 或 gpu)。但我又有需要大量預測的需求,基本上查詢的到的方法都會有個類序列化的方式,將 model 傳遞到每個 worker上,達到分散的目的,本文將記錄嘗試的各種方式。
閱讀更多本範例將會示範如何在 pyspark dataframe 中加入 index 號碼。將會簡單的使用 Window 這個 lib 搭配 pyspark.sql.functions 中的 row_number 來進行操作。
閱讀更多本範例將會示範如何在 pyspark 中使用 to_date 方法將時間字串轉成 datetime 格式以及 unix_timestamp 方法轉 timestamp 格式。
閱讀更多How to use collect_list & collect_set in pyspark dataframe?在使用 spa
閱讀更多想要使用 lit 增加欄位時,如果增加的是一個 array,spark 將會拋出錯誤 Unsupported literal type class java.util.ArrayList。本文章將簡單的示範該如何解決此問題。
閱讀更多seo 改進的後期關鍵基本上都是想辦提昇網頁的整體載入效能,本文將分享使用 nginx 作為 server 時如何快速的將平常使用的 css, js 緩存,讓網頁讀取更快速,也不會造成server負擔。
閱讀更多網頁的效能優化到最後可能會進入一個撞牆期,當該壓縮的都壓縮了,該緩存的也緩存了,但是 performance 還是不完美,這時還能做什麼呢?本篇就來告訴你一個小技巧,purify css!
閱讀更多