掃二維碼與項目經(jīng)理溝通
我們在微信上24小時期待你的聲音
解答本文疑問/技術(shù)咨詢/運營咨詢/技術(shù)建議/互聯(lián)網(wǎng)交流
作者 | 悟空聊架構(gòu)

創(chuàng)新互聯(lián)成立于2013年,我們提供高端網(wǎng)站建設(shè)、成都網(wǎng)站制作、網(wǎng)站設(shè)計、網(wǎng)站定制、營銷型網(wǎng)站建設(shè)、小程序制作、微信公眾號開發(fā)、seo優(yōu)化排名服務(wù),提供專業(yè)營銷思路、內(nèi)容策劃、視覺設(shè)計、程序開發(fā)來完成項目落地,為成都邊坡防護網(wǎng)企業(yè)提供源源不斷的流量和訂單咨詢。
來源 | 悟空聊架構(gòu)(ID:PassJava666)
滾滾長江東逝水,浪花淘盡英雄。
是非成敗轉(zhuǎn)頭空。青山依舊在,幾度夕陽紅。
-- 來自《三國演義》
本篇將會通過三國中的赤壁之戰(zhàn)來講述周瑜、黃蓋和諸葛亮是怎么把服務(wù)雪崩玩到極致的。
本文已收錄到我的 Github,點擊文末的閱讀原文打開。給個Star吧~
https://github.com/Jackson0714/PassJava-Learning
赤壁之戰(zhàn)
話說東漢末年,曹操、孫權(quán)、劉備在長江赤壁(今湖北蒲圻西北)進行了一次爭奪老大位置的大戰(zhàn),這就是有名的赤壁之戰(zhàn)。
一、還原赤壁之戰(zhàn)
曹操統(tǒng)一北方后,南下打敗了劉備,占領(lǐng)荊襄之地后,還想干掉東邊的孫權(quán),于是劉備和孫權(quán)一起聯(lián)合抗擊曹軍八十萬大軍。
曹操的軍隊大部分都是北方的,對于水上作戰(zhàn)的經(jīng)驗非常欠缺,而且很多士兵暈船,于是曹操命令軍隊將船尾用鐵索相連,減弱了風(fēng)浪顛簸,利于士兵演練。
鐵索連環(huán)-圖片來源網(wǎng)絡(luò)
我們來看看周瑜、黃蓋、諸葛亮的對話:
三人對話@悟空聊架構(gòu)
黃蓋:曹操是真的蠢啊,把船連著,如果船燒著了,其他船會跟著一起燒著的。鎖鏈不易解開,船都逃不了了。我們用火攻,直接把曹軍干趴下。
周瑜:但如何接近他們的船呢?
黃蓋:我用詐降帶幾艘船出發(fā),船上載浸油的干草,等接近曹軍時,點燃干草,沖向曹軍的連環(huán)船,引燃他們的船只。
周瑜:妙啊!可是哪來的東風(fēng)?
諸葛亮:我來借東風(fēng)~
赤壁之戰(zhàn)那天,火船乘風(fēng)闖入曹軍船陣,頓時一片火海。聯(lián)軍乘勢攻擊,曹軍傷亡慘重,最后以聯(lián)軍大勝結(jié)束,成為了以少勝多的經(jīng)典戰(zhàn)役。
引燃連鎖船-圖片來源網(wǎng)絡(luò)
二、戰(zhàn)情分析
周瑜和黃蓋看出了連環(huán)船的弱點:「如果一只船被燒著了,也會把連著的船燒著」 。
這就很像我們的系統(tǒng)中出現(xiàn)的服務(wù)雪崩問題。
假定我們系統(tǒng)引進了微服務(wù)的思想,將多個服務(wù)進行拆分,每個服務(wù)都是通過接口調(diào)用來完成的,看似功能通過微服務(wù)化后,功能和職責(zé)單一,正是我們想要的。
但隨著業(yè)務(wù)的增長,服務(wù)的數(shù)量也是隨之增多,邏輯也會更加復(fù)雜,一個服務(wù)的某個邏輯需要依賴多個其他服務(wù)才能完成。假如一個被依賴的服務(wù)不能向上游的服務(wù)提供服務(wù),則很可能造成雪崩效應(yīng),最后導(dǎo)致整個服務(wù)不可訪問。
就像雪山上某一處出現(xiàn)積雪崩塌的現(xiàn)象,慢慢地帶動其他片區(qū)的積雪崩塌,產(chǎn)生了級聯(lián)反應(yīng),最后造成大片的積雪崩塌,這就是常見的雪崩場景。
「小結(jié)」 一個服務(wù)失敗,導(dǎo)致整條鏈路的服務(wù)都失敗的場景,稱為服務(wù)雪崩。
那曹軍應(yīng)該怎么避免這個問題呢?別急,后面再看答案。
三、系統(tǒng)中的雪崩效應(yīng)
微服務(wù)之間往往采用 RPC 或者 HTTP 調(diào)用,一般都會設(shè)置調(diào)用超時的限制,或者通過失敗重試機制來確保服務(wù)成功執(zhí)行。但如果不考慮服務(wù)的熔斷和限流,還是很容易產(chǎn)生服務(wù)雪崩的。下面用例子來講解下雪崩效應(yīng)是怎么產(chǎn)生的。
雪崩效應(yīng)
而訂單服務(wù)也會重走商品服務(wù)的老路。結(jié)果就是三個服務(wù)都不可用了。
四、造成雪崩的真實場景
1.4.1 服務(wù)提供者不可用
1.4.2 重試加大流量
五、如何防止雪崩
方案
出問題前預(yù)防:限流、主動降級、隔離
出問題后修復(fù):熔斷、被動降級
六、熔斷原理和算法
1.6.1 熔斷概念
保險絲熔斷
熔斷這個概念來源于電路系統(tǒng)中的保險絲熔斷。當(dāng)電流過大時,保險絲熔斷,防止因電流過大損壞電器元器件,或因電流過大,導(dǎo)致元器件熱度過高,發(fā)生火災(zāi)。
保險絲長啥樣
「物理公式」 電功率 P = I^2 * R,I 代表電流,元器件的電阻 R 不變的情況下,電流越大,電功率約大,電阻做的電功大部分都用來發(fā)熱了,所以電功率越大,發(fā)熱越嚴(yán)重。(還好高中物理沒忘。)
放到我們系統(tǒng)中,怎么理解熔斷?
如果在某段時間內(nèi),調(diào)用某個服務(wù)非常慢甚至超時,就可以將這個服務(wù)熔斷,后續(xù)其他服務(wù)再調(diào)用這個服務(wù)就直接返回,告訴其他服務(wù):「“已經(jīng)熔斷了,你別調(diào)用我了,過段時間再來試下吧。”」
1.6.2 如何熔斷
「熔斷有個原則」 一段時間內(nèi),統(tǒng)計失敗的次數(shù)或者失敗請求的占比超過一定閾值,就進行熔斷。
詳細(xì)的原理如下圖所示:
熔斷原理圖&悟空聊架構(gòu)
1.6.3 統(tǒng)計請求的算法
1.6.4 熔斷的恢復(fù)算法
1.6.5 統(tǒng)計失敗率的時間窗口
統(tǒng)計失敗率的時間窗口@悟空聊架構(gòu)
1.6.6 嘗試恢復(fù)服務(wù)的時間窗口
嘗試恢復(fù)服務(wù)的時間窗口@悟空聊架構(gòu)
開關(guān)為斷開的狀態(tài),經(jīng)過一定時間后,比如 1 分鐘,設(shè)置為半斷開的狀態(tài),嘗試發(fā)送請求檢測服務(wù)是否恢復(fù)。
如果已恢復(fù),則切換狀態(tài)為關(guān)閉狀態(tài)。如果未恢復(fù),則切換狀態(tài)為斷開的狀態(tài),經(jīng)過 1 分鐘后,重復(fù)上面的步驟。
這里的時間窗口可以根據(jù)環(huán)境的運行狀態(tài)進行動態(tài)調(diào)整,比如第一次是 1 分鐘,第二次是 3 分鐘,第三次是 10 分鐘。
七、熔斷中間件
肯定有人會問了,你這上面講的原理,難道還真的自己去寫這套算法?
「答案:是的,項目中我們自己造了一個輪子:熔斷器。」
但這里我不推薦大家這么做。市面上還有更優(yōu)秀的開源組件供大家使用,比如阿里系的 Sentinel(推薦),Netflix 的 Hystrix(已停止更新)。
當(dāng)然 Sentinel 就不在這篇講了,后續(xù)奉上~
八、扭轉(zhuǎn)戰(zhàn)局
曹操大敗是因為連鎖船的原因,那如何給曹操提供一妙計,助他扭轉(zhuǎn)戰(zhàn)局呢?
「方案有如下幾個」
可以用麻繩代替鎖鏈,因繩子更容易割斷。(熔斷機制)
將船劃分到幾個區(qū)域,區(qū)域之間保持一定距離,即使某個區(qū)域燒著了,也不會影響其他區(qū)域。(熔斷+資源隔離)
在湖面上提前設(shè)關(guān)卡,黃蓋過來的話,先檢查船和人,有問題不予通行。(熔斷)
九、限流、降級
本來是想在這篇把限流和降級也寫完的,發(fā)現(xiàn)熔斷的內(nèi)容越寫越多了,那就把限流和降級放在后面幾篇吧。也是三國故事哦~
寫在最后
《三國演義》也是我非常喜歡的一部文學(xué)作品,書大概看了 80 %,電視劇是看完了的。
最喜歡的角色當(dāng)然是軍師諸葛亮啦,還有梟雄曹操~~
本文轉(zhuǎn)載自微信公眾號「悟空聊架構(gòu)」,可以通過以下二維碼關(guān)注。轉(zhuǎn)載本文請聯(lián)系悟空聊架構(gòu)公眾號。

我們在微信上24小時期待你的聲音
解答本文疑問/技術(shù)咨詢/運營咨詢/技術(shù)建議/互聯(lián)網(wǎng)交流