掃二維碼與項目經(jīng)理溝通
我們在微信上24小時期待你的聲音
解答本文疑問/技術(shù)咨詢/運營咨詢/技術(shù)建議/互聯(lián)網(wǎng)交流

成都創(chuàng)新互聯(lián)公司是一家集成都網(wǎng)站制作、網(wǎng)站建設(shè)、網(wǎng)站頁面設(shè)計、網(wǎng)站優(yōu)化SEO優(yōu)化為一體的專業(yè)網(wǎng)站建設(shè)公司,已為成都等多地近百家企業(yè)提供網(wǎng)站建設(shè)服務(wù)。追求良好的瀏覽體驗,以探求精品塑造與理念升華,設(shè)計最適合用戶的網(wǎng)站頁面。 合作只是第一步,服務(wù)才是根本,我們始終堅持講誠信,負責任的原則,為您進行細心、貼心、認真的服務(wù),與眾多客戶在蓬勃發(fā)展的市場環(huán)境中,互促共生。
在所有的互聯(lián)網(wǎng)企業(yè)中,告警經(jīng)常性的誤告,都是讓技術(shù)人員最頭疼的問題之一。試想一下,在凌晨兩三點時,你收到了來自告警平臺的電話告警,于是你揉了揉惺忪的雙眼,短暫的回味了下剛才的美夢,下床打開電腦,開始排查問題,卻發(fā)現(xiàn)這是一個誤告,線上業(yè)務(wù)都是在有序的運行當中,于是你關(guān)上電腦,重新上床睡覺,但此時你已睡意全無,在床上輾轉(zhuǎn)反側(cè)一個小時才睡著,于是乎,第二天同事看到了一臉滄桑的你。這種誤告一次兩次還能接受,但如果是每隔一天或者是每晚都會觸發(fā)呢?
因此在互聯(lián)網(wǎng)行業(yè)中,頻繁的誤告通常會遇見如下幾個問題:
單位時間內(nèi)有效信息獲取率變低,技術(shù)人員很難從頻繁的誤告中得到真正有問題的告警;
真正的問題發(fā)生時,猶如《狼來了》一樣,認為都是誤告,大大加長了問題的發(fā)現(xiàn)時間;
降低技術(shù)人員的工作效率,每天都沉浸在對于各種告警的處理當中,降低人員產(chǎn)出;
在對于SLA告警的摸索階段,團隊就已經(jīng)預估到后面可能面臨著大量噪音的騷擾,因此組建起一個告警測試群,用于針對性的調(diào)優(yōu);團隊為了測試線上告警誤告水位,測試性地將SLA場景告警規(guī)則進行接入。果不其然,上個廁所回來,群里已經(jīng)積攢上百條告警了,根本無法提取出有效的告警,其原因就是我們的告警規(guī)則配置都是相對單一的,全天候就一條規(guī)則,如:
為了在告警正式上線后,大家晚上能有一個如嬰兒般的睡眠,我們自然而然的就啟動了對于噪音的治理工作。而告警噪音的治理最重要的就是對于利弊的權(quán)衡,如果閾值設(shè)置過高,可能線上問題無法發(fā)現(xiàn);如果閾值過低,又會導致噪音頻發(fā),所以對于閾值的調(diào)整里邊有很大的學問。
區(qū)分業(yè)務(wù)場景。我們創(chuàng)新性地將場景分為平穩(wěn)型、波浪型、突發(fā)型,它們的定義如下:
平穩(wěn)型:日常流量波動在30%以內(nèi),流量波動??;
波浪型:日常流量波動在30%以外,流量波動較大;
突發(fā)型:日常流量波動在30%以內(nèi),但在遇見某些突發(fā)情況下,如重大活動或者時間,波動會超過30%;
針對不同類型的場景,我們也擁有不同的告警配置方案,比如平穩(wěn)型,那么就可以評估一下該場景的波動范圍,在其正常的波動的范圍內(nèi),進行設(shè)置閾值,比如大部分時間我們的取消訂單,相比于前七天的平均值,波動在30%以內(nèi),如下:
那么我們經(jīng)過兩三天的觀測,我們就可以將告警閾值設(shè)置在30%,于是告警的設(shè)置就會如下:
上升告警也是同理,將閾值設(shè)置到30%。
那么針對于波浪形告警,我們的閾值范圍可能就會設(shè)置的大一點,比如到50%,并且設(shè)置與昨日同比等多種規(guī)則來限制噪音,例如:
這樣我們配置的規(guī)則就會相對復雜,利用昨日以及基線的量來進行綜合判斷。
在我們告警都上了之后,發(fā)現(xiàn)白天的噪音相對有了一定的改善,但夜間由于流量波動大,導致經(jīng)常性流量波動比能大于30%,進而觸發(fā)告警,如下圖所示:
如果在這個時候,我們?yōu)榱诉m應(yīng)夜間的大波動,而將30%的閾值拉長,修改到50%甚至80%,這樣的話確實在一定程度上降低了噪音的產(chǎn)生;但在另一方面,我們的告警發(fā)現(xiàn)率可能會大大降低。假如出現(xiàn)線上故障的時候,流量波動下小于我們設(shè)置的閾值范圍,那么整個配置都沒有意義。在這個時候,我們就開始構(gòu)思區(qū)分白天和夜間,跑兩套規(guī)則,保證噪音相對較低的同時,也能反映出線上的問題,于是取消訂單的規(guī)則就變成了如下所示:
與此同時,我們也發(fā)現(xiàn),線上流量并不穩(wěn)定,可能這段時間低一點,過段時間來個大促,流量就上升的厲害,導致告警頻繁的觸發(fā),這個時候技術(shù)人員又會面臨大量的告警騷擾,而很難從中發(fā)現(xiàn)真正有問題的告警。
10月1號大盤數(shù)據(jù)
告警觸發(fā)數(shù)據(jù)
在此基礎(chǔ)上,整個團隊集思廣益,討論如何破局。因此就有了如下的解決方案,既然線上流量是實時波動的,容易受各種事件影響,那么基線為何一定要簡單粗暴的只取前七天的一個平均值呢?為何我們不能在此基礎(chǔ)上,讓基線也可以動態(tài)調(diào)整,并且盡可能匹配線上流量呢?
如上圖所示,當我們實時流量與線上真實流量偏差較大的時候,我們可能讓基線盡可能的靠近線上實時流量,從而更好的評估線上流量水平,不至于讓我們的告警失靈,產(chǎn)生過多的噪音;針對取消訂單場景,我們也做了如下調(diào)整:
調(diào)整前(紅色部分表示波動超過30%)
調(diào)整后(紅色部分表示波動超過30%)
從大盤上可以看到,明顯經(jīng)過調(diào)整后,大部分時候的波動能夠保持在30%內(nèi),大大減少了噪音的產(chǎn)生。
C端告警數(shù)據(jù)
B端告警數(shù)據(jù)
整個團隊在現(xiàn)有基礎(chǔ)成果上,為了減小人員的投入以及負擔,開始探索能否有一種手段,可以讓大家不為了應(yīng)對線上水位變化,而頻繁調(diào)整SLA場景基線呢?
答案就是智能基線,智能基線它能根據(jù)過往的數(shù)據(jù),智能的推測出流量的曲線圖,并評估出流量的最高水位(上限)以及最低水位(下限),在保證告警噪音相對較小的情況下,幫助我們更便捷以及靈敏的發(fā)現(xiàn)線上問題,并且保鮮周期也能進一步拉長,配置規(guī)則也進一步簡單化,便捷化。
|
時間段 |
告警等級 |
平穩(wěn)性 |
波浪形 |
突發(fā)型 |
|
白天 |
P0 |
任意條件: XX總量最近30s求和與智能基線值環(huán)比下跌XX% XX總量最近30s求和與智能基線值環(huán)比上升XX% |
所有條件: XX總量最近30s求和與預測上線比高于XX XX總量最近30s求和與智能基線值環(huán)比上升XX% |
|
|
P1 |
任意條件: XX總量最近30s求和與智能基線值環(huán)比下跌XX%&持續(xù)XX個點位 XX總量最近30s求和與智能基線值環(huán)比上升XX%&持續(xù)XX個點位 |
任意條件: XX總量最近30s求和與預測上線比高于XX&持續(xù)XX個點位 XX總量最近30s求和與預測下線比低于XX&持續(xù)XX個點位 |
任意條件: XX總量最近30s求和與預測上線比高于XX&持續(xù)XX個點位 XX總量最近30s求和與預測下線比低于XX&持續(xù)XX個點位 |
|
|
P2 |
||||
|
夜間 |
P0 |
所有條件: XX總量最近30s求和與預測上線比高于XX&XX總量最近30s求和與智能基線值環(huán)比上升XX% XX總量最近30s求和與預測下線比低于XX&XX總量最近30s求和與智能基線值環(huán)比下跌XX% |
所有條件: XX總量最近30s求和與預測上線比高于XX XX總量最近30s求和與智能基線值環(huán)比上升XX% |
|
|
P1 |
所有條件: XX總量最近30s求和與預測上線比高于XX&XX總量最近30s求和與智能基線值環(huán)比上升XX% XX總量最近30s求和與預測下線比低于XX&XX總量最近30s求和與智能基線值環(huán)比下跌XX% |
任意條件: XX總量最近30s求和與預測上線比高于XX&持續(xù)XX個點位 XX總量最近30s求和與預測下線比低于XX&持續(xù)XX個點位 |
任意條件: XX總量最近30s求和與預測上線比高于XX&持續(xù)XX個點位 XX總量最近30s求和與預測下線比低于XX&持續(xù)XX個點位 |
|
|
P2 |
一些比較特殊的場景可能會有些差別,但絕大多數(shù)場景都可以按此進行配置,還是以取消訂單為例,智能基線大盤如下:
從圖上我們可以看出此場景的波動比例基本在上下限控制以內(nèi),而對應(yīng)的一般基線如下:
從剛開始的對于噪音治理的探索,到現(xiàn)在極低噪音的治理成果,這是整個團隊的努力造就的。從分場景,分時間段,到根據(jù)流量動態(tài)調(diào)整基線,再到現(xiàn)在的智能基線,眼看著它在越變越優(yōu)秀,這是讓我們穩(wěn)定生產(chǎn)人打心底感到自豪的。也相信也不久的將來,我們的NOC-SLA告警能夠報出更多的線上問題的同時,也能產(chǎn)生更少的噪音。

我們在微信上24小時期待你的聲音
解答本文疑問/技術(shù)咨詢/運營咨詢/技術(shù)建議/互聯(lián)網(wǎng)交流