首頁 資訊 如何查看集群日?qǐng)?bào)并了解集群的健康狀態(tài)

如何查看集群日?qǐng)?bào)并了解集群的健康狀態(tài)

來源:泰然健康網(wǎng) 時(shí)間:2024年12月29日 12:46

注意信息

默認(rèn)情況下,Hadoop集群健康檢查功能不包括集群日?qǐng)?bào)分析。如果您需要查看集群日?qǐng)?bào)分析,則需要開通EMR Doctor。開通EMR Doctor的具體操作,請(qǐng)參見開通EMR Doctor(Hadoop集群類型)。

查看報(bào)告

進(jìn)入監(jiān)控診斷頁面。

登錄E-MapReduce控制臺(tái)。

在頂部菜單欄處,根據(jù)實(shí)際情況選擇地域和資源組。

在集群管理頁面,單擊目標(biāo)集群的集群ID。

單擊上方的監(jiān)控診斷頁簽。

單擊集群日?qǐng)?bào)頁簽,您可以看到當(dāng)前集群的所有健康診斷報(bào)告列表。

集群日?qǐng)?bào)區(qū)域的健康狀態(tài)列顯示了該集群的健康度。集群健康狀態(tài)信息如下表所示。

健康狀態(tài)

描述

健康狀態(tài)

描述

0 <= x <= 60

集群處于不健康狀態(tài),請(qǐng)及時(shí)處理。

60 < x <= 80

集群處于亞健康狀態(tài),建議優(yōu)化。

80 < x <= 100

集群處于健康狀態(tài),無需處理。

查看報(bào)告詳情。

單擊操作列的查看報(bào)告,可以查看當(dāng)前集群詳細(xì)檢查信息。

該頁面為您展示集群健康狀態(tài)總覽,報(bào)告的基本信息,例如健康評(píng)分、當(dāng)前集群ID、報(bào)告ID和診斷時(shí)間等。針對(duì)不同類型的集群,報(bào)告總覽會(huì)展示診斷項(xiàng)以及診斷項(xiàng)的總覽分析。總覽分析會(huì)將集群的問題進(jìn)行匯總分析,簡明扼要地指出問題,具體的問題分析您可以查看后面的診斷項(xiàng)詳細(xì)分析。

資源分析

計(jì)算資源

YARN調(diào)度資源

HDFS存儲(chǔ)資源

HBase存儲(chǔ)資源

Hive存儲(chǔ)資源

詳細(xì)信息

該頁面為您展示計(jì)算資源的詳細(xì)分析。您可以了解到集群計(jì)算資源使用的基本信息,例如計(jì)算得分、掃描的任務(wù)數(shù)和任務(wù)的狀態(tài)分布。同時(shí)為您指明具體的問題,例如內(nèi)存使用率過低等,您可以根據(jù)后面的具體任務(wù)得分進(jìn)行處理。

計(jì)算基礎(chǔ)信息

該區(qū)域?yàn)槟故炯河?jì)算評(píng)分趨勢(shì)圖、集群算力內(nèi)存時(shí)(GB*Sec)趨勢(shì)圖和集群算力CPU時(shí)(VCore*Sec)趨勢(shì)圖,以及計(jì)算任務(wù)的綜合健康評(píng)分、各分?jǐn)?shù)段任務(wù)數(shù)量的分布以及相關(guān)的趨勢(shì)圖。

管理算力內(nèi)存時(shí)和算力CPU時(shí)的定義如下表。

指標(biāo)

描述

集群算力內(nèi)存時(shí)(GB*Hour)

集群所有任務(wù)的算力內(nèi)存時(shí)之和,任務(wù)的算力內(nèi)存時(shí)是一個(gè)累積值,計(jì)算方式是任務(wù)分配的內(nèi)存(GB)* 任務(wù)的運(yùn)行時(shí)間(Hours)。

集群算力CPU時(shí)(Core*Hour)

集群所有任務(wù)的算力CPU時(shí)之和,任務(wù)的算力CPU時(shí)是一個(gè)累積值,計(jì)算方式是任務(wù)的分配的CPU核數(shù)(Cores)* 任務(wù)的運(yùn)行時(shí)間(Hours)。

計(jì)算引擎分析

該區(qū)域?yàn)槟故疽韵聢D表信息:

計(jì)算引擎評(píng)分趨勢(shì)圖

計(jì)算引擎任務(wù)數(shù)量趨勢(shì)圖

計(jì)算引擎內(nèi)存算力時(shí)餅圖、趨勢(shì)圖

計(jì)算引擎算力CPU時(shí)餅圖、趨勢(shì)圖

計(jì)算隊(duì)列信息

該區(qū)域?yàn)槟故居?jì)算隊(duì)列算力內(nèi)存時(shí)Top 20的圖表信息。

計(jì)算任務(wù)信息

EMR Doctor采集計(jì)算任務(wù),處理和分析后為您展示影響集群最重要的任務(wù),您可以進(jìn)行針對(duì)性的調(diào)優(yōu)、處理,從而增強(qiáng)集群的計(jì)算效率,提升集群的使用率,達(dá)到增效的目的。

目前支持任務(wù)算力內(nèi)存時(shí)(GB*Sec)Top50和計(jì)算任務(wù)評(píng)分倒序Top50任務(wù)列表。每條數(shù)據(jù)包含以下信息。

參數(shù)

說明

任務(wù)名

任務(wù)的名稱。

引擎類型

任務(wù)的引擎類型。

SQL語句

僅SQL類才有。

APP IDS

對(duì)于Hive on MR,一個(gè)語句可能有多個(gè)APP ID。

用戶名

提交任務(wù)的用戶。

評(píng)分

任務(wù)得分。

健康狀態(tài)

標(biāo)記任務(wù)是否需要治理。

建議

指明任務(wù)的優(yōu)化方向。

內(nèi)存時(shí)(GB*Sec)

任務(wù)的算力內(nèi)存時(shí)之和。

內(nèi)存利用率

任務(wù)的平均內(nèi)存利用率。

CPU時(shí)(vCore*Sec)

任務(wù)的算力CPU時(shí)之和。

CPU利用率

任務(wù)的平均CPU利用率。

當(dāng)前配置

任務(wù)當(dāng)前的配置,可以配合建議來考慮如何調(diào)整當(dāng)前配置。

IO信息

任務(wù)的讀寫、Shuffle等數(shù)據(jù)。

您可以通過YARN調(diào)度資源分析了解到最準(zhǔn)確的YARN引擎、隊(duì)列、用戶等維度下的資源使用和任務(wù)運(yùn)行分布。

詳細(xì)分析

該頁面為您展示YARN調(diào)度資源的詳細(xì)分析。在詳細(xì)分析中,您可以了解到Y(jié)ARN內(nèi)存資源使用、任務(wù)運(yùn)行數(shù)量、不健康節(jié)點(diǎn)等分析。對(duì)于有著明顯的資源使用波峰波谷以及任務(wù)運(yùn)行的繁忙期和空閑期,詳細(xì)分析中將為您具體指出內(nèi)存資源使用以及任務(wù)運(yùn)行的峰谷時(shí)段,您可以配合圖表中的使用曲線了解資源使用情況。

YARN基礎(chǔ)信息

在YARN基礎(chǔ)信息中,您可以獲取YARN全天結(jié)束的任務(wù)數(shù)量、Failed和Killed任務(wù)數(shù)量、算力內(nèi)存時(shí)、算力CPU時(shí)以及以下圖表信息:

YARN內(nèi)存資源使用趨勢(shì)圖

YARN CPU資源使用趨勢(shì)圖

YARN運(yùn)行中任務(wù)數(shù)量趨勢(shì)圖

YARN引擎信息

該區(qū)域?yàn)槟故疽韵聢D表信息:

引擎算力內(nèi)存時(shí)分布餅圖

引擎任務(wù)數(shù)量分布餅圖

YARN用戶信息

該區(qū)域?yàn)槟故疽韵聢D表信息:

用戶算力內(nèi)存時(shí)分布餅圖

用戶任務(wù)數(shù)量分布餅圖

YARN隊(duì)列信息

該區(qū)域?yàn)槟故疽韵聢D表信息:

隊(duì)列算力內(nèi)存時(shí)分布餅圖

隊(duì)列任務(wù)數(shù)量分布餅圖

YARN不健康節(jié)點(diǎn)信息

YARN不健康節(jié)點(diǎn)信息為您展示全天中出現(xiàn)過不健康狀態(tài)的節(jié)點(diǎn)Hostname,以及它們不健康狀態(tài)的起止時(shí)間、持續(xù)時(shí)間和YARN提供的Health report。

EMR Doctor默認(rèn)不會(huì)采集存儲(chǔ)資源信息,如果您想分析HDFS或者Hive的存儲(chǔ)資源,可以在監(jiān)控診斷 > 集群日?qǐng)?bào)中打開存儲(chǔ)資源信息采集開關(guān),或者根據(jù)配置說明中修改采集存儲(chǔ)信息。

詳細(xì)分析

該頁面為您展示HDFS存儲(chǔ)資源的詳細(xì)分析。在詳細(xì)分析中,您可以了解到集群資源的基本狀態(tài),例如總文件數(shù)和總存儲(chǔ)量等。同時(shí)為您指明具體的問題,例如小文件數(shù)占比過高、冷數(shù)據(jù)存儲(chǔ)量占比過高等。在具體問題中會(huì)告知您出現(xiàn)問題的目錄位置以及處理方式,您可以進(jìn)行對(duì)應(yīng)處理。

HDFS基礎(chǔ)信息

在HDFS基礎(chǔ)信息中,您可以獲取以下圖表信息:

存儲(chǔ)量趨勢(shì)圖

文件數(shù)趨勢(shì)圖

HDFS存儲(chǔ)評(píng)分趨勢(shì)圖

文件總數(shù),總存儲(chǔ)量,小文件、極小文件個(gè)數(shù),冷數(shù)據(jù)存儲(chǔ)大小

HDFS使用分析

在HDFS使用分析中,您可以獲取以下圖表信息:

HDFS User存儲(chǔ)使用量餅圖

HDFS User文件數(shù)量餅圖

HDFS Group存儲(chǔ)使用量餅圖

HDFS Group文件數(shù)量餅圖

HDFS文件大小分布餅圖

HDFS冷熱數(shù)據(jù)分布餅圖

HDFS一級(jí)目錄存儲(chǔ)量分布

目錄文件大小分布信息

HDFS的小文件會(huì)導(dǎo)致NameNode壓力以及分片問題,所以HDFS小文件是一個(gè)非常重要的指標(biāo)。目錄文件大小分布信息會(huì)展示空文件、極小文件、小文件、中等文件以及大文件在各個(gè)層級(jí)目錄下的比例分布,目前EMR Doctor分析支持四級(jí)目錄的下鉆分析。

文件定義如下表所示。

參數(shù)

描述

空文件

大小為0的文件。

極小文件

大于0且小于1 MB的文件。

小文件

大于等于1且小于128 MB的文件。

中等文件

大于等于128 MB且小于等于1 GB的文件。

大文件

大于1 GB的文件。

目錄文件大小分布信息中會(huì)展示以下信息:

層級(jí)目錄空文件個(gè)數(shù)Top

層級(jí)目錄極小文件個(gè)數(shù)Top

層級(jí)目錄小文件個(gè)數(shù)Top

層級(jí)目錄中等文件個(gè)數(shù)Top

層級(jí)目錄大文件個(gè)數(shù)Top

每個(gè)表格會(huì)展示具體路徑、存儲(chǔ)大小、日環(huán)比和日增量等信息。

目錄冷熱數(shù)據(jù)分布信息

冷數(shù)據(jù)是長時(shí)間不訪問的數(shù)據(jù),推薦放到冷備存儲(chǔ),例如OSS冷備等。目錄冷熱數(shù)據(jù)分布可以幫助您了解集群使用情況,有針對(duì)性的進(jìn)行成本優(yōu)化。目錄冷熱數(shù)據(jù)分布信息會(huì)展示極冷數(shù)據(jù)、冷數(shù)據(jù)、溫?cái)?shù)據(jù)、熱數(shù)據(jù)在各個(gè)層級(jí)目錄下的比例分布,目前EMR Doctor分析支持四級(jí)目錄的下鉆分析。

參數(shù)

描述

極冷數(shù)據(jù)

超過3個(gè)月未訪問的數(shù)據(jù)。

冷數(shù)據(jù)

超過1個(gè)月未訪問,但三個(gè)月內(nèi)有訪問的數(shù)據(jù)。

溫?cái)?shù)據(jù)

超過7天未訪問,但一個(gè)月內(nèi)有訪問的數(shù)據(jù)。

熱數(shù)據(jù)

近7天有訪問的數(shù)據(jù)。

在目錄冷熱數(shù)據(jù)分布信息中會(huì)展示如下信息:

層級(jí)目錄極冷數(shù)據(jù)量分布Top

層級(jí)目錄冷數(shù)據(jù)量分布Top

層級(jí)目錄溫?cái)?shù)據(jù)量分布Top

層級(jí)目錄熱數(shù)據(jù)量分布Top

每個(gè)表格會(huì)展示具體路徑、存儲(chǔ)大小、日環(huán)比和日增量等信息。

詳細(xì)分析

該頁面為您展示HBase存儲(chǔ)資源的詳細(xì)分析。在詳細(xì)分析中,您可以了解HBase使用的基本狀態(tài),例如集群平均負(fù)載、集群分區(qū)均衡度,以及RegionServer和用戶表的健康狀態(tài)。同時(shí)為您指明具體的問題,例如集群平均負(fù)載偏高、集群分區(qū)均衡度偏低,以及RegionServer和表健康度異常等。在具體問題中會(huì)告知您出現(xiàn)問題的RegionServer、表以及分區(qū)等信息,您可以進(jìn)行相應(yīng)的優(yōu)化。

集群總覽分析

在集群總覽信息中,您可以獲取以下圖表信息:

集群健康度評(píng)分趨勢(shì)圖

集群分區(qū)均衡度趨勢(shì)圖

集群分區(qū)數(shù)量分布餅圖

集群請(qǐng)求數(shù)趨勢(shì)圖

總表數(shù)、總分區(qū)數(shù)、總節(jié)點(diǎn)數(shù)、平均負(fù)載、總數(shù)據(jù)量、總讀請(qǐng)求數(shù)、總寫請(qǐng)求數(shù)、總請(qǐng)求數(shù)

RegionServer相關(guān)信息

在RegionServer相關(guān)信息中展示RegionServer的緩存命中率、GC平均耗時(shí)以及單日讀、寫請(qǐng)求數(shù)等詳細(xì)信息。

緩存命中率倒序排名:RegionServer、緩存命中率

GC平均時(shí)間排名:RegionServer、GC平均時(shí)間

單日讀請(qǐng)求排名:RegionServer、讀請(qǐng)求數(shù)

單日讀請(qǐng)求日環(huán)比排名:RegionServer、讀請(qǐng)求日環(huán)比增量

單日寫請(qǐng)求排名:RegionServer、寫請(qǐng)求數(shù)

單日寫請(qǐng)日環(huán)比排名:RegionServer、寫請(qǐng)求日環(huán)比增量

表相關(guān)信息

在表相關(guān)信息中展示表熱點(diǎn)分區(qū)、表數(shù)據(jù)量、表分區(qū)數(shù),以及表讀寫請(qǐng)求數(shù)等詳細(xì)信息。

存在分區(qū)熱點(diǎn)的表詳細(xì)信息

表分區(qū)均衡度倒排Top

表分區(qū)平均數(shù)據(jù)量倒排Top

表數(shù)據(jù)量Top

表數(shù)據(jù)量日環(huán)比Top

表分區(qū)數(shù)Top

表分區(qū)日環(huán)比Top

表讀請(qǐng)求數(shù)Top

表讀請(qǐng)求數(shù)日環(huán)比Top

表寫請(qǐng)求數(shù)Top

表寫請(qǐng)求數(shù)日環(huán)比Top

詳細(xì)分析

該頁面為您展示了Hive存儲(chǔ)資源的詳細(xì)分析。在詳細(xì)分析中,您可以了解Hive使用的基本狀態(tài),例如總的Hive庫數(shù),總的Hive表數(shù),Hive表總文件數(shù)和總存儲(chǔ)量等。同時(shí)為您指明具體的問題,例如小文件數(shù)占比過高,冷數(shù)據(jù)存儲(chǔ)量過多,以及存儲(chǔ)格式分布不合理等。在具體問題中會(huì)告知您出現(xiàn)問題的庫、表以及處理方式,您可以進(jìn)行對(duì)應(yīng)處理。

Hive基礎(chǔ)信息

該區(qū)域匯總了Hive使用過程中常用的幾個(gè)存儲(chǔ)指標(biāo),包含存儲(chǔ)使用量趨勢(shì),文件數(shù)量趨勢(shì)及評(píng)分趨勢(shì)等。

Hive使用量分析

在Hive使用分析中,您可以獲取以下圖表:

Hive庫存儲(chǔ)量使用量分布圖

Hive用戶總存儲(chǔ)量分布

Hive表文件大小分布比例

Hive表熱冷數(shù)據(jù)分布

Hive表存儲(chǔ)格式分布

Hive詳細(xì)信息

在Hive信息中會(huì)展示Hive庫和Hive表的詳細(xì)信息。

Hive庫信息

Hive庫信息包含以下部分:

Hive庫詳細(xì)信息

Hive庫文件大小分布Top信息

Hive庫冷熱數(shù)據(jù)分布Top信息

Hive庫存儲(chǔ)格式分布Top信息

Hive庫詳細(xì)信息提供以下數(shù)據(jù):

存儲(chǔ)使用量排名:名稱、存儲(chǔ)量,日環(huán)比和日增量。

文件數(shù)量排名:名稱、文件數(shù)量、日環(huán)比和日增量。

評(píng)分排名:分?jǐn)?shù)排名。

分區(qū)個(gè)數(shù)排名:名稱、分區(qū)個(gè)數(shù)、日環(huán)比和日增量。

Hive文件大小分布Top信息提供以下數(shù)據(jù):

Hive庫空文件個(gè)數(shù)Top

Hive庫極小文件個(gè)數(shù)Top

Hive庫小文件個(gè)數(shù)Top

Hive庫中等文件個(gè)數(shù)Top

Hive庫大文件個(gè)數(shù)Top

說明

Hive小文件會(huì)導(dǎo)致NameNode壓力以及分片問題,大量的小文件會(huì)嚴(yán)重拖累計(jì)算流程,所以Hive小文件是一個(gè)非常重要的指標(biāo)。

Hive庫冷熱數(shù)據(jù)分布Top信息會(huì)展示如下:

庫極冷數(shù)據(jù)量分布Top

庫冷數(shù)據(jù)量分布Top

庫溫?cái)?shù)據(jù)量分布Top

庫熱數(shù)據(jù)量分布Top

說明

冷數(shù)據(jù)是長時(shí)間不訪問的數(shù)據(jù),推薦放到冷備存儲(chǔ),例如OSS冷備等。冷熱數(shù)據(jù)分布可以幫助您了解集群使用情況,有針對(duì)性的進(jìn)行成本優(yōu)化。

Hive支持不同的存儲(chǔ)格式,不同的存儲(chǔ)格式對(duì)應(yīng)了不同的應(yīng)用場景,通常主流的列式格式會(huì)大大的節(jié)約存儲(chǔ)成本,并提升查詢效率。

Hive庫存儲(chǔ)格式分布Top信息展示如下:

庫TextFile存儲(chǔ)格式數(shù)據(jù)量分布Top

庫Parquet存儲(chǔ)格式數(shù)據(jù)量分布Top

庫ORC存儲(chǔ)格式數(shù)據(jù)量分布Top

Hive表信息

Hive表信息包含以下部分:

Hive表詳細(xì)信息

Hive表文件大小分布Top信息

Hive表冷熱數(shù)據(jù)分布Top信息

Hive表存儲(chǔ)格式分布Top信息

相關(guān)知識(shí)

三生(中國):構(gòu)建全生態(tài)鏈健康產(chǎn)業(yè)集群
中國健康調(diào)查報(bào)告(合集5篇)
保健品市場的調(diào)查報(bào)告(集合8篇)
《2022版廣州城市人群健康報(bào)告》發(fā)布
健康狀態(tài)與生活行為的調(diào)查研究.pdf
第28集=發(fā)泄并解決不了問題
我的科普文章合集·我的健康社群
百日咳的高發(fā)人群有哪些?該如何預(yù)防?一文了解
湛江市海洋生物產(chǎn)業(yè)集群培育發(fā)展現(xiàn)狀與政策路徑.doc
【光明日?qǐng)?bào)】成年人群自評(píng)心理健康狀況總體良好

網(wǎng)址: 如何查看集群日?qǐng)?bào)并了解集群的健康狀態(tài) http://www.u1s5d6.cn/newsview902251.html

推薦資訊