0775-1.7.2-CDSW的Prometheus和Grafana功能介紹


文檔編寫目的



在CDSW1.7及之後版本引入了Prometheus + Grafana提供了一套可視化的Dashboard,能夠監視CDSW中各個Pod是如何使用集羣的CPU/GPU、內存及存儲資源。Prometheus是一個內部的時序數據源,會自動記錄CDSW中每一個部署資源使用數據,Grafana是一個可視化的監控儀表盤,能夠自定義本身的監控圖表。CDSW默認已提供了3個Grafana的Dashboards:K8 Cluster,K8s Container 和K8 Node,經過提供的基礎監控儀表盤能夠建立更多的自定義監控圖表。本文檔會介紹如何查看及使用Grafana。ruby

  • 測試環境服務器

1.CDSW1.7.2微信


功能介紹及使用




2.1 Grafana監控界面網絡

1.使用管理員登陸CDSW,進入「Admin」>「Overview」頁面,而後點擊連接跳轉oop


2.Grafana主頁以下:測試


3.點擊左上角的Home,能夠看到Grafana默認提供的三個儀表盤:spa


2.2 K8s Containers Dashboard.net


進入K8s Containers的Dashboard界面,該監控圖表主要提供了CDSW集羣中全部啓動的Pods監控信息(每一個pod的資源使用狀況)3d

Pods使用的內存和CPU:code


Pods使用的CPU曲線圖以及各進程使用的CPU狀況:


Pods使用的內存曲線圖以及各進程使用的內存狀況:


Pods使用的網絡IO曲線圖以及各進程使用的網絡IO狀況


查看單個pod的資源使用狀況(能夠對應到CDSW啓動的Session)


2.3 K8s Node Dashboard

進入K8s Node的Dashboard界面,該監控儀表盤主要提供了CDSW集羣全部Node節點資源使用狀況的監控(能夠理解爲服務器級別的資源使用監控),包括CPU、內存、磁盤、網絡等。


2.4 K8s Cluster Dashboard

進入K8s Cluster的Dashboard界面,該監控儀表盤主要提供了對K8s Cluster全部NameSpace級別的資源使用狀況監控(經過該Dashboard能夠看到用戶級別的資源使用狀況)


指定Namespace(default-user-{userid}該類型的Namespace即爲用戶級別的監控)


2.5 自定義Dashboard

1.建立一個自定義的Dashboard


2.選擇建立一個Graph類型的圖表


3.選擇Edit


4.進入圖表編輯界面,選擇數據源並輸入查詢語句完成圖表的構建


5.點擊右上角的保存按鈕將構建的圖表保存至自定義的Dashboard便可


總結



1.CDSW1.7.x的新功能Grafana,能夠很好的監控CDSW上的資源使用狀況,包括系統服務以及用戶使用。

2.Grafana中支持告警的配置,能夠針對儀表盤進行配置,觸發閾值後會進行告警。

3.除了系統提供的默認Dashboard,還能夠進行自定義,將想要監控的指標經過PromQL語句轉化成圖表便可,參考連接:

https://prometheus.io/docs/prometheus/latest/querying/basics/

本文分享自微信公衆號 - Hadoop實操(gh_c4c535955d0f)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。