優(yōu)維「Easy分析」：一款故障根因分析小神器（優(yōu)維檢測）

投稿用戶 ? 2024年7月25日下午7:17 ? 科研百科 ? 閱讀 2

背景

隨著微服務架構的普及，現(xiàn)代企業(yè)的IT基礎設施已經(jīng)變得越來越復雜。單一的服務可能有多個下游依賴，而這些依賴又可能有自己的子依賴，和主機資源的依賴。在這樣的環(huán)境中，當某個服務發(fā)生故障，確定具體的原因變得尤為困難。傳統(tǒng)的故障排查方法，如手動檢查日志或詢問開發(fā)團隊，既耗時又不一定能找到真正的根源。

此外，隨著DevOps和持續(xù)集成/持續(xù)部署（CI/CD）的普及，應用的發(fā)布頻率大大增加，這使得發(fā)布引起的服務中斷變得更為常見。同時，資源和基礎設施的動態(tài)性也為故障診斷帶來了挑戰(zhàn)。

為了應對這些挑戰(zhàn)，優(yōu)維設計了“Easy分析”服務故障根因分析工具，旨在為技術團隊提供一個集成、自動化的解決方案，幫助其迅速、準確地定位服務故障時的原因。

下面，從具體場景出發(fā)，詳細介紹服務故障根因分析工具。

應用發(fā)布導致的服務故障

1.1 概述

應用發(fā)布可能導致服務運行出現(xiàn)不穩(wěn)定或其他未預期的影響。當服務發(fā)出告警時，本功能將自動分析告警指標，檢測服務或其下游服務在最近是否發(fā)生過變更。

1.2 核心功能

變更檢測：當服務告警時，系統(tǒng)會自動檢測與告警相關的服務是否近期有變更事件，如啟動、關閉、升級或重啟等。
雙態(tài)部署事件聯(lián)動：與雙態(tài)部署系統(tǒng)緊密集成，獲取最新的部署和變更事件信息。
告警與變更關聯(lián)：為告警事件提供直接與變更事件的關聯(lián)，幫助團隊快速確定是否有發(fā)布活動導致的故障。
消費CMDB數(shù)據(jù)：根據(jù)cmdb的服務相關的模型，自動關聯(lián)下游服務的變更事件

1.3 場景說明及配置

假設微服務集群中，提供了一個名為flounder_metric的服務。服務的請求一般是從api_gateway接入到集群中，并且基于url路由至具體的應用組件來處理請求。因此，在這個場景中，存在這樣一個調用關系：api_gateway -> flounder_metric

在服務監(jiān)控中，我們會對flounder_metric的接口進行撥測。配置的步驟如下：

建立內網(wǎng)撥測策略，指定監(jiān)控的應用是「http-logic.api_gateway」，它是api_gateway應用的服務標識；
配置關于flounder_metric服務的接口，在變量定義中，通過$.subservices.ip會自動獲取到服務下子服務的IP地址。

優(yōu)維「Easy分析」：一款故障根因分析小神器（優(yōu)維檢測）

保存后即可。

此時配置基于detect_code的告警規(guī)則，即可完成對該接口的監(jiān)控。

1.4 故障觸發(fā)和根因分析

我們人為觸發(fā)一個服務告警，通過雙態(tài)部署，關閉flounder_metric服務。

優(yōu)維「Easy分析」：一款故障根因分析小神器（優(yōu)維檢測）

稍后，將觸發(fā)一個撥測告警：

優(yōu)維「Easy分析」：一款故障根因分析小神器（優(yōu)維檢測）

我們通過事件詳情，點擊故障分析：

優(yōu)維「Easy分析」：一款故障根因分析小神器（優(yōu)維檢測）

此時將看到故障分析頁面，讓我們來解釋一下：

優(yōu)維「Easy分析」：一款故障根因分析小神器（優(yōu)維檢測）

上方是告警事件的告警對象和告警指標持續(xù)的時間，可以看到告警持續(xù)時間范圍是 11:55~12:04。

接下來就是根因分析的結論，一共發(fā)現(xiàn)1個結論，和應用發(fā)布的變更相關。具體來說，有兩個分析：

http-logic.api_gateway有告警事件，沒有變更事件，說明不是api_gatewaya變更導致；
由于api_gateway的下游是flounder_metric服務，而該服務在12:00分發(fā)生了停止操作，進而觸發(fā)了告警，因此分析為：下游HTTP服務http-logic.flounder_metric的變更導致的故障（這也是此次故障的真正原因）。

1.5 結論

在微服務架構中，服務間的相互依賴和頻繁的應用發(fā)布行為可能會導致復雜的故障情況。在本場景中，通過"服務故障根因分析"工具，我們成功地自動檢測到flounder_metric服務的停止操作是導致api_gateway服務撥測告警的直接原因。該工具能夠智能地關聯(lián)告警事件與近期的應用變更，準確快速地定位到真實的故障原因。

此次案例展示了"服務故障根因分析"工具的核心功能，即自動識別與故障相關的變更，并為技術團隊提供明確的、數(shù)據(jù)驅動的根因分析。此功能大大減少了故障診斷時間，并提高了故障恢復的效率。

依賴資源高負載導致的服務故障

2.1 概述

服務的性能和穩(wěn)定性可能受到其運行環(huán)境的影響，特別是當它依賴的資源或子服務處于高負載狀態(tài)時。本功能提供了與資源負載告警的自動關聯(lián)能力，幫助識別故障的根本原因。

2.2 核心功能

資源負載告警關聯(lián)：當服務延遲或其他性能指標出現(xiàn)問題時，系統(tǒng)會自動檢測與該服務關聯(lián)的子服務部署實例主機是否有高負載告警。
直觀的負載影響分析：為用戶提供一個清晰的視圖，展示服務與其依賴資源之間的關系，以及哪些資源的高負載可能影響了服務的性能。
資源性能指標對比：允許用戶對比服務性能指標與資源負載指標，例如，當服務延遲增加時，可以立即查看其所在主機的CPU或內存使用情況。

2.3 場景說明及配置

假設微服務集群中，提供了一個名為cmdb_service的服務，并且對它的延遲做監(jiān)控。我們設定SLO是10ms，并且手動觸發(fā)系統(tǒng)高負載，來審視根因分析的準確性。

為了實現(xiàn)這個場景，我們人為設定當「磁盤IO的使用率」過高并觸發(fā)告警后，再觸發(fā)延遲告警。

當告警發(fā)生后，我們點擊故障分析，進入分析頁：

優(yōu)維「Easy分析」：一款故障根因分析小神器（優(yōu)維檢測）

分析頁面如上所示，讓我們解釋一下。

由于alert_service的下游是tool.sandbox，并且這兩個服務都在主機：prod-host-10-36-enterprise-7-logic，并且該主機發(fā)生磁盤IO操作的CPU使用率過高的告警。因此根因分析就會把這些關系和告警聯(lián)系起來，并告知給用戶。

除了「磁盤IO操作的CPU使用率」，還有「5分鐘單核負載」，「網(wǎng)絡流量」等指標均可觸發(fā)高負載場景的分析。

2.4 結論

在微服務架構中，單一服務的性能往往與其所依賴的其他服務和資源緊密相關。我們在這次的模擬場景中成功地展示了如何通過“服務故障根因分析”工具來識別和關聯(lián)服務延遲增加與其所在主機的資源高負載之間的因果關系。

這種自動化的、綜合的分析方法大大簡化了故障診斷過程，確保了更快速、更準確的問題定位和解決，進一步提高了服務的穩(wěn)定性和可用性。

支持按拓撲形式分析故障演變情況

故障根因分析的分析視圖改版，支持按拓撲形式分析故障演變情況。在舊版本中，盡管可以關聯(lián)并分析出所有可能導致故障的原因，但是分析視圖所攜帶的信息過于繁瑣和冗余，不利于高效分析的目的。在新版故障分析視圖中，支持以故障拓撲的形式去智能分析故障演化路徑。如下所示：

優(yōu)維「Easy分析」：一款故障根因分析小神器（優(yōu)維檢測）

如上圖所示：紅色為底色的方框代表服務產(chǎn)生的告警，比如端口撥測失敗。

而后展示了和此服務關聯(lián)的其他服務的變更情況，由圖可知，是17*.3*.**.**上的scheduler_service發(fā)生了變更導致服務告警。

優(yōu)維「Easy分析」：一款故障根因分析小神器（優(yōu)維檢測）

如此可以幫助用戶快速排除服務故障的原因是否由于變更產(chǎn)生。

贊 (0)

投稿用戶

Photoshop（PS）2020軟件下載及安裝教程（ps軟件下載安裝步驟）

上一篇 2024年7月25日下午7:11

不是吧，遠程打卡這么簡單的？（遠程打卡怎么使用）

下一篇 2024年7月25日下午7:23

金蝶云星空與阿里宜搭對接集成其他往來單位連通新增表單實例（金蝶云星空api接口）

金蝶云星空與阿里宜搭對接集成其他往來單位連通新增表單實例(basic-KY其他往來單位) 來源系統(tǒng):金蝶云星空金蝶K/3Cloud（金蝶云星空）是移動互聯(lián)網(wǎng)時代的新型ERP，是基…

投稿用戶
科研百科 2024年5月17日
430
青銅器PLM是哪家公司的

青銅器PLM是哪家公司青銅器PLM是哪家公司？這是一個備受爭議的話題。青銅器是一種古老的文物，是中國古代文化的重要代表。然而，隨著現(xiàn)代技術的不斷發(fā)展，人們開始對青銅器進行數(shù)字化處…

投稿用戶
科研百科 2024年12月9日
00
項目管理流程圖工具

項目管理流程圖工具隨著現(xiàn)代項目的日益增多，項目管理已經(jīng)成為了一個不可或缺的部分。但是，在實際項目中，由于項目規(guī)模龐大、復雜度高，傳統(tǒng)的項目管理方式已經(jīng)難以滿足現(xiàn)代項目的需求。因此…

投稿用戶
科研百科 2024年9月27日
60
王祥喜：全面提高機關黨建質量為履行應急管理職責使命提供堅強保證

王祥喜在應急管理部黨委會部務會上強調全面提高機關黨建質量為履行應急管理職責使命提供堅強保證 5月4日，應急管理部黨委書記、部長王祥喜主持召開部黨委會和部務會，傳達學習2023年…

投稿用戶
科研百科 2024年2月3日
1060
我是做科研項目的小說家我是做科研項目的小說家

我是做科研項目的小說家，經(jīng)常會被項目的進度和成果所困擾，同時也被科學家們的創(chuàng)意和思考所啟發(fā)。在研究過程中，我會將自己的想法轉化為小說的形式，通過這種方式，我可以更深入地了解科學家們…

投稿用戶
科研百科 2024年9月11日
20
科研項目風險分析例文（科研項目風險分析模版）

市場風險分析是在產(chǎn)品供需、價格變動趨勢、競爭力等常規(guī)分析已達到一定深度要求的前提下，對未來市場重大不確定因素發(fā)生的可能性，以及其對項目造成損失的程度進行分析，產(chǎn)品市場風險分析的一般…

投稿用戶
科研百科 2022年5月16日
6890
星級評定激發(fā)內生動力黨建引領助力科學發(fā)展（星級評定工作組織、宣傳情況）

來源：長春日報-長春新聞網(wǎng) 編者按黨旗獵獵迎風展，星光璀璨耀春城。為把市委部署的星級評定工作抓實抓細抓出成效，不斷激發(fā)非公企業(yè)和社會組織開展黨建工作內生動力，推動黨建與發(fā)展融合…

投稿用戶
科研百科 2023年9月14日
2680
山東大學生科研項目立項山東大學生科研項目立項

山東大學生科研項目立項山東是中國的一個省份，擁有豐富的自然資源和文化底蘊。近年來，山東大學生科研項目立項不斷增多，為大學生提供了更多的研究機會和平臺。山東大學生科研項目立項不僅…

投稿用戶
科研百科 2024年7月4日
290
定制項目管理系統(tǒng)

定制項目管理系統(tǒng)：優(yōu)化企業(yè)工作流程和提高項目管理效率隨著企業(yè)的快速發(fā)展，項目管理已經(jīng)成為了企業(yè)發(fā)展中不可或缺的一部分。然而，傳統(tǒng)的項目管理系統(tǒng)已經(jīng)無法滿足現(xiàn)代企業(yè)的需求，因此，定…

投稿用戶
科研百科 2024年7月16日
210
107支實踐隊歸來話成長！貴州黔南科技學院舉行2023年暑期“三下鄉(xiāng)”社會實踐結項

日前，貴州黔南科技學院2023年暑期“三下鄉(xiāng)”社會實踐結項答辯會在學校陽光樓博雅大講堂舉行。今年，學院共有107支立項成功的實踐隊，以“線上線下”的組隊方式，開展了暑期三下鄉(xiāng)社會…

投稿用戶
科研百科 2024年4月15日
540

優(yōu)維「Easy分析」：一款故障根因分析小神器（優(yōu)維檢測）

相關推薦