How to monitor usage of memory of workers on dataproc(spark cluster)?

有在使用 GCP 上使用 Dataproc 啟動 cluster 進行 spark 或 hadoop 分散式運算的夥伴們，應該都會有一樣的狀況就是 GCP 頁面無法監測到機器 memory 的使用率以及機器的使用狀況，導致在調教機器數量(省錢)的時候會有一定的困擾。

以下教學將會示範如何在本機進行連線來查看機器使用狀況(本範例同時也可以在機器直接使用jupyter)。

大致上可參考 GCP 官方頁面操作

https://cloud.google.com/sdk/docs/quickstart-mac-os-x

1.確認 python 版本

python -V

2.下載相對應的版本

Mac OS X (x86_64) or Mac OS X (x86)

3.安裝

./google-cloud-sdk/install.sh

4.初始化 gcloud 指令

gcloud init

5.與已建立的機器 ssh 連線

gcloud compute ssh  --zone=<zone> --ssh-flag="-D 1080" --ssh-flag="-N" --ssh-flag="-n" <ClusterName-m>

6.開啟新瀏覽視窗

/Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome --proxy-server="socks5://localhost:1080" --host-resolver-rules="MAP * 0.0.0.0 , EXCLUDE localhost" --user-data-dir=/tmp/<ClusterName-m>

7. 在新瀏覽視窗啟動 TrackingUI or Jupyter

TrackingUI: http://<ClusterName-m>:8088

Jupyter: http://<ClusterName-m>:8123

轉載與引用請註明作者: Happy Coding Lab GCP系列-如何使用 tracking UI 監控pyspark叢集 memory資源使用狀態於 Dataproc 中

Github-SSH Deploy key 設定教學

How to set Deploy keys to deal with error: Permission denied (publickey)?在不熟悉的環境下使用 git 指令進行 commit、push、pull等等的指令可能會遇到權

2019-11-15 GitHub

github Deploy keys

本篇

GCP系列-如何使用 tracking UI 監控pyspark叢集 memory資源使用狀態於 Dataproc 中

How to monitor usage of memory of workers on dataproc(spark cluster)?有在使用 GCP 上使用 Dataproc 啟動 cluster 進行 spark 或 hadoop

2019-11-15 GCP

GCP Dataproc pyspark TrackingUI memory