掃二維碼與項(xiàng)目經(jīng)理溝通
我們在微信上24小時期待你的聲音
解答本文疑問/技術(shù)咨詢/運(yùn)營咨詢/技術(shù)建議/互聯(lián)網(wǎng)交流
秒殺大家都不陌生。自2011年首次出現(xiàn)以來,無論是雙十一購物還是 12306 搶票,秒殺場景已隨處可見。簡單來說,秒殺就是在同一時刻大量請求爭搶購買同一商品并完成交易的過程。從架構(gòu)視角來看,秒殺系統(tǒng)本質(zhì)是一個高性能、高一致、高可用的三高系統(tǒng)。而打造并維護(hù)一個超大流量的秒殺系統(tǒng)需要進(jìn)行哪些關(guān)注,就是本文討論的話題。

首先從高維度出發(fā),整體思考問題。秒殺無外乎解決兩個核心問題,一是并發(fā)讀,一是并發(fā)寫,對應(yīng)到架構(gòu)設(shè)計,就是高可用、一致性和高性能的要求。關(guān)于秒殺系統(tǒng)的設(shè)計思考,本文即基于此 3 層依次推進(jìn),簡述如下:
大家可能會注意到,秒殺過程中你是不需要刷新整個頁面的,只有時間在不停跳動。這是因?yàn)橐话愣紩Υ罅髁康拿霘⑾到y(tǒng)做系統(tǒng)的靜態(tài)化改造,即數(shù)據(jù)意義上的動靜分離。動靜分離三步走:
1.1 數(shù)據(jù)拆分
動靜分離的首要目的是將動態(tài)頁面改造成適合緩存的靜態(tài)頁面。因此第一步就是分離出動態(tài)數(shù)據(jù),主要從以下 2 個方面進(jìn)行:
這里你可以打開電商平臺的一個秒殺頁面,看看這個頁面里都有哪些動靜數(shù)據(jù)。
1.2 靜態(tài)緩存
分離出動靜態(tài)數(shù)據(jù)之后,第二步就是將靜態(tài)數(shù)據(jù)進(jìn)行合理的緩存,由此衍生出兩個問題:
1.2.1 怎么緩存
靜態(tài)化改造的一個特點(diǎn)是直接緩存整個 HTTP 連接而不是僅僅緩存靜態(tài)數(shù)據(jù),如此一來,Web 代理服務(wù)器根據(jù)請求 URL,可以直接取出對應(yīng)的響應(yīng)體然后直接返回,響應(yīng)過程無需重組 HTTP 協(xié)議,也無需解析 HTTP 請求頭。而作為緩存鍵,URL唯一化是必不可少的,只是對于商品系統(tǒng),URL 天然是可以基于商品 ID 來進(jìn)行唯一標(biāo)識的,比如淘寶的 https://item.taobao.com/item....。
1.2.2 哪里緩存
靜態(tài)數(shù)據(jù)緩存到哪里呢?可以有三種方式:
瀏覽器當(dāng)然是第一選擇,但用戶的瀏覽器是不可控的,主要體現(xiàn)在如果用戶不主動刷新,系統(tǒng)很難主動地把消息推送給用戶(注意,當(dāng)討論靜態(tài)數(shù)據(jù)時,潛臺詞是 “相對不變”,言外之意是 “可能會變”),如此可能會導(dǎo)致用戶端在很長一段時間內(nèi)看到的信息都是錯誤的。對于秒殺系統(tǒng),保證緩存可以在秒級時間內(nèi)失效是不可或缺的。
服務(wù)端主要進(jìn)行動態(tài)邏輯計算及加載,本身并不擅長處理大量連接,每個連接消耗內(nèi)存較多,同時 Servlet 容器解析 HTTP 較慢,容易侵占邏輯計算資源;另外,靜態(tài)數(shù)據(jù)下沉至此也會拉長請求路徑。
因此通常將靜態(tài)數(shù)據(jù)緩存在 CDN,其本身更擅長處理大并發(fā)的靜態(tài)文件請求,既可以做到主動失效,又離用戶盡可能近,同時規(guī)避 Java 語言層面的弱點(diǎn)。需要注意的是,上 CDN 有以下幾個問題需要解決:
因此,將數(shù)據(jù)放到全國所有的 CDN 節(jié)點(diǎn)是不太現(xiàn)實(shí)的,失效問題、命中率問題都會面臨比較大的挑戰(zhàn)。更為可行的做法是選擇若干 CDN 節(jié)點(diǎn)進(jìn)行靜態(tài)化改造,節(jié)點(diǎn)的選取通常需要滿足以下幾個條件:
基于以上因素,選擇 CDN 的二級緩存比較合適,因?yàn)槎壘彺鏀?shù)量偏少,容量也更大,訪問量相對集中,這樣就可以較好解決緩存的失效問題以及命中率問題,是當(dāng)前比較理想的一種 CDN 化方案。部署方式如下圖所示:
1.3 數(shù)據(jù)整合
分離出動靜態(tài)數(shù)據(jù)之后,前端如何組織數(shù)據(jù)頁就是一個新的問題,主要在于動態(tài)數(shù)據(jù)的加載處理,通常有兩種方案:ESI(Edge Side Includes)方案和 CSI(Client Side Include)方案。
1.4 小結(jié)
動靜分離對于性能的提升,抽象起來只有兩點(diǎn),一是數(shù)據(jù)要盡量少,以便減少沒必要的請求,二是路徑要盡量短,以便提高單次請求的效率。具體方法其實(shí)就是基于這個大方向進(jìn)行的。
2 熱點(diǎn)優(yōu)化
熱點(diǎn)分為熱點(diǎn)操作和熱點(diǎn)數(shù)據(jù),以下分開進(jìn)行討論。
2.1 熱點(diǎn)操作
零點(diǎn)刷新、零點(diǎn)下單、零點(diǎn)添加購物車等都屬于熱點(diǎn)操作。熱點(diǎn)操作是用戶的行為,不好改變,但可以做一些限制保護(hù),比如用戶頻繁刷新頁面時進(jìn)行提示阻斷。
2.2 熱點(diǎn)數(shù)據(jù)
熱點(diǎn)數(shù)據(jù)的處理三步走,一是熱點(diǎn)識別,二是熱點(diǎn)隔離,三是熱點(diǎn)優(yōu)化。
2.2.1 熱點(diǎn)識別
熱點(diǎn)數(shù)據(jù)分為靜態(tài)熱點(diǎn)和動態(tài)熱點(diǎn),具體如下:
因此秒殺系統(tǒng)需要實(shí)現(xiàn)熱點(diǎn)數(shù)據(jù)的動態(tài)發(fā)現(xiàn)能力,一個常見的實(shí)現(xiàn)思路是:
需要注意的是:
2.2.2 熱點(diǎn)隔離
熱點(diǎn)數(shù)據(jù)識別出來之后,第一原則就是將熱點(diǎn)數(shù)據(jù)隔離出來,不要讓 1% 影響到另外的 99%,可以基于以下幾個層次實(shí)現(xiàn)熱點(diǎn)隔離:
當(dāng)然,實(shí)現(xiàn)隔離還有很多種辦法。比如,可以按照用戶來區(qū)分,為不同的用戶分配不同的 Cookie,入口層路由到不同的服務(wù)接口中;再比如,域名保持一致,但后端調(diào)用不同的服務(wù)接口;又或者在數(shù)據(jù)層給數(shù)據(jù)打標(biāo)進(jìn)行區(qū)分等等,這些措施的目的都是把已經(jīng)識別的熱點(diǎn)請求和普通請求區(qū)分開來。
2.2.3 熱點(diǎn)優(yōu)化
熱點(diǎn)數(shù)據(jù)隔離之后,也就方便對這 1% 的請求做針對性的優(yōu)化,方式無外乎兩種:
2.2.4 小結(jié)
數(shù)據(jù)的熱點(diǎn)優(yōu)化與動靜分離是不一樣的,熱點(diǎn)優(yōu)化是基于二八原則對數(shù)據(jù)進(jìn)行了縱向拆分,以便進(jìn)行針對性地處理。熱點(diǎn)識別和隔離不僅對“秒殺”這個場景有意義,對其他的高性能分布式系統(tǒng)也非常有參考價值。
3 系統(tǒng)優(yōu)化
對于一個軟件系統(tǒng),提高性能可以有很多種手段,如提升硬件水平、調(diào)優(yōu)JVM 性能,這里主要關(guān)注代碼層面的性能優(yōu)化——
4 總結(jié)一下
性能優(yōu)化需要一個基準(zhǔn)值,所以系統(tǒng)還需要做好應(yīng)用基線,比如性能基線(何時性能突然下降)、成本基線(去年大促用了多少機(jī)器)、鏈路基線(核心流程發(fā)生了哪些變化),通過基線持續(xù)關(guān)注系統(tǒng)性能,促使系統(tǒng)在代碼層面持續(xù)提升編碼質(zhì)量、業(yè)務(wù)層面及時下掉不合理調(diào)用、架構(gòu)層面不斷優(yōu)化改進(jìn)。
秒殺系統(tǒng)中,庫存是個關(guān)鍵數(shù)據(jù),賣不出去是個問題,超賣更是個問題。秒殺場景下的一致性問題,主要就是庫存扣減的準(zhǔn)確性問題。
1 減庫存的方式
電商場景下的購買過程一般分為兩步:下單和付款。“提交訂單”即為下單,“支付訂單”即為付款?;诖嗽O(shè)定,減庫存一般有以下幾個方式:
能夠看到,減庫存方式是基于購物過程的多階段進(jìn)行劃分的,但無論是在下單階段還是付款階段,都會存在一些問題,下面進(jìn)行具體分析。
2 減庫存的問題
2.1 下單減庫存
優(yōu)勢:用戶體驗(yàn)最好。下單減庫存是最簡單的減庫存方式,也是控制最精確的一種。下單時可以直接通過數(shù)據(jù)庫事務(wù)機(jī)制控制商品庫存,所以一定不會出現(xiàn)已下單卻付不了款的情況。
劣勢:可能賣不出去。正常情況下,買家下單后付款概率很高,所以不會有太大問題。但有一種場景例外,就是當(dāng)賣家參加某個促銷活動時,競爭對手通過惡意下單的方式將該商品全部下單,導(dǎo)致庫存清零,那么這就不能正常售賣了——要知道,惡意下單的人是不會真正付款的,這正是 “下單減庫存” 的不足之處。
2.2 付款減庫存
2.3 預(yù)扣庫存
2.4 小結(jié)
減庫存的問題主要體現(xiàn)在用戶體驗(yàn)和商業(yè)訴求兩方面,其本質(zhì)原因在于購物過程存在兩步甚至多步操作,在不同階段減庫存,容易存在被惡意利用的漏洞。
3 實(shí)際如何減庫存
業(yè)界最為常見的是預(yù)扣庫存。無論是外賣點(diǎn)餐還是電商購物,下單后一般都有個 “有效付款時間”,超過該時間訂單自動釋放,這就是典型的預(yù)扣庫存方案。但如上所述,預(yù)扣庫存還需要解決惡意下單的問題,保證商品賣的出去;另一方面,如何避免超賣,也是一個痛點(diǎn)。
- UPDATE item SET inventory = CASE WHEN inventory >= xxx THEN inventory-xxx ELSE inventory END
業(yè)務(wù)手段保證商品賣的出去,技術(shù)手段保證商品不會超賣,庫存問題從來就不是簡單的技術(shù)難題,解決問題的視角是多種多樣的。
4 一致性性能的優(yōu)化
庫存是個關(guān)鍵數(shù)據(jù),更是個熱點(diǎn)數(shù)據(jù)。對系統(tǒng)來說,熱點(diǎn)的實(shí)際影響就是 “高讀” 和 “高寫”,也是秒殺場景下最為核心的一個技術(shù)難題。
4.1 高并發(fā)讀
秒殺場景解決高并發(fā)讀問題,關(guān)鍵詞是“分層校驗(yàn)”。即在讀鏈路時,只進(jìn)行不影響性能的檢查操作,如用戶是否具有秒殺資格、商品狀態(tài)是否正常、用戶答題是否正確、秒殺是否已經(jīng)結(jié)束、是否非法請求等,而不做一致性校驗(yàn)等容易引發(fā)瓶頸的檢查操作;直到寫鏈路時,才對庫存做一致性檢查,在數(shù)據(jù)層保證最終準(zhǔn)確性。
因此,在分層校驗(yàn)設(shè)定下,系統(tǒng)可以采用分布式緩存甚至LocalCache來抵抗高并發(fā)讀。即允許讀場景下一定的臟數(shù)據(jù),這樣只會導(dǎo)致少量原本無庫存的下單請求被誤認(rèn)為是有庫存的,等到真正寫數(shù)據(jù)時再保證最終一致性,由此做到高可用和一致性之間的平衡。
實(shí)際上,分層校驗(yàn)的核心思想是:不同層次盡可能過濾掉無效請求,只在“漏斗” 最末端進(jìn)行有效處理,從而縮短系統(tǒng)瓶頸的影響路徑。
4.2 高并發(fā)寫
高并發(fā)寫的優(yōu)化方式,一種是更換DB選型,一種是優(yōu)化DB性能,以下分別進(jìn)行討論。
4.2.1 更換DB選型
秒殺商品和普通商品的減庫存是有差異的,核心區(qū)別在數(shù)據(jù)量級小、交易時間短,因此能否把秒殺減庫存直接放到緩存系統(tǒng)中實(shí)現(xiàn)呢,也就是直接在一個帶有持久化功能的緩存中進(jìn)行減庫存操作,比如 Redis?
如果減庫存邏輯非常單一的話,比如沒有復(fù)雜的 SKU 庫存和總庫存這種聯(lián)動關(guān)系的話,個人認(rèn)為是完全可以的。但如果有比較復(fù)雜的減庫存邏輯,或者需要使用到事務(wù),那就必須在數(shù)據(jù)庫中完成減庫存操作。
4.2.2 優(yōu)化DB性能
庫存數(shù)據(jù)落地到數(shù)據(jù)庫實(shí)現(xiàn)其實(shí)是一行存儲(MySQL),因此會有大量線程來競爭 InnoDB 行鎖。但并發(fā)越高,等待線程就會越多,TPS 下降,RT 上升,吞吐量會受到嚴(yán)重影響——注意,這里假設(shè)數(shù)據(jù)庫已基于上文【性能優(yōu)化】完成數(shù)據(jù)隔離,以便于討論聚焦 。
解決并發(fā)鎖的問題,有兩種辦法:
4.3 小結(jié)
高讀和高寫的兩種處理方式大相徑庭。讀請求的優(yōu)化空間要大一些,而寫請求的瓶頸一般都在存儲層,優(yōu)化思路的本質(zhì)還是基于 CAP 理論做平衡。
5 總結(jié)一下
當(dāng)然,減庫存還有很多細(xì)節(jié)問題,例如預(yù)扣的庫存超時后如何進(jìn)行回補(bǔ),再比如第三方支付如何保證減庫存和付款時的狀態(tài)一致性,這些也是很大的挑戰(zhàn)。
盯過秒殺流量監(jiān)控的話,會發(fā)現(xiàn)它不是一條蜿蜒而起的曲線,而是一條挺拔的直線,這是因?yàn)槊霘⒄埱蟾叨燃杏谀骋惶囟ǖ臅r間點(diǎn)。這樣一來就會造成一個特別高的零點(diǎn)峰值,而對資源的消耗也幾乎是瞬時的。所以秒殺系統(tǒng)的可用性保護(hù)是不可或缺的。
1 流量削峰
對于秒殺的目標(biāo)場景,最終能夠搶到商品的人數(shù)是固定的,無論 100 人和 10000 人參加結(jié)果都是一樣的,即有效請求額度是有限的。并發(fā)度越高,無效請求也就越多。但秒殺作為一種商業(yè)營銷手段,活動開始之前是希望有更多的人來刷頁面,只是真正開始后,秒殺請求不是越多越好。因此系統(tǒng)可以設(shè)計一些規(guī)則,人為的延緩秒殺請求,甚至可以過濾掉一些無效請求。
1.1 答題
早期秒殺只是簡單的點(diǎn)擊秒殺按鈕,后來才增加了答題。為什么要增加答題呢?主要是通過提升購買的復(fù)雜度,達(dá)到兩個目的:
需要注意的是,答題除了做正確性驗(yàn)證,還需要對提交時間做驗(yàn)證,比如<1s 人為操作的可能性就很小,可以進(jìn)一步防止機(jī)器答題的情況。
答題目前已經(jīng)使用的非常普遍了,本質(zhì)是通過在入口層削減流量,從而讓系統(tǒng)更好地支撐瞬時峰值。
1.2 排隊(duì)
最為常見的削峰方案是使用消息隊(duì)列,通過把同步的直接調(diào)用轉(zhuǎn)換成異步的間接推送緩沖瞬時流量。除了消息隊(duì)列,類似的排隊(duì)方案還有很多,例如:
排隊(duì)方式的弊端也是顯而易見的,主要有兩點(diǎn):
排隊(duì)本質(zhì)是在業(yè)務(wù)層將一步操作轉(zhuǎn)變成兩步操作,從而起到緩沖的作用,但鑒于此種方式的弊端,最終還是要基于業(yè)務(wù)量級和秒殺場景做出妥協(xié)和平衡。
1.3 過濾
過濾的核心結(jié)構(gòu)在于分層,通過在不同層次過濾掉無效請求,達(dá)到數(shù)據(jù)讀寫的精準(zhǔn)觸發(fā)。常見的過濾主要有以下幾層:
過濾的核心目的是通過減少無效請求的數(shù)據(jù)IO保障有效請求的IO性能。
1.4 小結(jié)
系統(tǒng)可以通過入口層的答題、業(yè)務(wù)層的排隊(duì)、數(shù)據(jù)層的過濾達(dá)到流量削峰的目的,本質(zhì)是在尋求商業(yè)訴求與架構(gòu)性能之間的平衡。另外,新的削峰手段也層出不窮,以業(yè)務(wù)切入居多,比如零點(diǎn)大促時同步發(fā)放優(yōu)惠券或發(fā)起抽獎活動,將一部分流量分散到其他系統(tǒng),這樣也能起到削峰的作用。
2 Plan B
當(dāng)一個系統(tǒng)面臨持續(xù)的高峰流量時,其實(shí)是很難單靠自身調(diào)整來恢復(fù)狀態(tài)的,日常運(yùn)維沒有人能夠預(yù)估所有情況,意外總是無法避免。尤其在秒殺這一場景下,為了保證系統(tǒng)的高可用,必須設(shè)計一個 Plan B 方案來進(jìn)行兜底。
高可用建設(shè),其實(shí)是一個系統(tǒng)工程,貫穿在系統(tǒng)建設(shè)的整個生命周期。
具體來說,系統(tǒng)的高可用建設(shè)涉及架構(gòu)階段、編碼階段、測試階段、發(fā)布階段、運(yùn)行階段,以及故障發(fā)生時,逐一進(jìn)行分析:
對于日常運(yùn)維而言,高可用更多是針對運(yùn)行階段而言的,此階段需要額外進(jìn)行加強(qiáng)建設(shè),主要有以下幾種手段:
在系統(tǒng)建設(shè)的整個生命周期中,每個環(huán)節(jié)中都可能犯錯,甚至有些環(huán)節(jié)犯的錯,后面是無法彌補(bǔ)的或者成本極高的。所以高可用是一個系統(tǒng)工程,必須放到整個生命周期中進(jìn)行全面考慮。同時,考慮到服務(wù)的增長性,高可用更需要長期規(guī)劃并進(jìn)行體系化建設(shè)。
3 總結(jié)一下
高可用其實(shí)是在說 “穩(wěn)定性”,穩(wěn)定性是一個平時不重要,但出了問題就要命的事情,然而它的落地又是一個問題——平時業(yè)務(wù)發(fā)展良好,穩(wěn)定性建設(shè)就會降級給業(yè)務(wù)讓路。解決這個問題必須在組織上有所保障,比如讓業(yè)務(wù)負(fù)責(zé)人背上穩(wěn)定性績效指標(biāo),同時在部門中建立穩(wěn)定性建設(shè)小組,小組成員由每條線的核心力量兼任,績效由穩(wěn)定性負(fù)責(zé)人來打分,這樣就可以把體系化的建設(shè)任務(wù)落實(shí)到具體的業(yè)務(wù)系統(tǒng)中了。
一個秒殺系統(tǒng)的設(shè)計,可以根據(jù)不同級別的流量,由簡單到復(fù)雜打造出不同的架構(gòu),本質(zhì)是各方面的取舍和權(quán)衡。當(dāng)然,你可能注意到,本文并沒有涉及具體的選型方案,因?yàn)檫@些對于架構(gòu)來說并不重要,作為架構(gòu)師,應(yīng)該時刻提醒自己主線是什么。
同時也在這里抽象、提煉一下,主要是個人對于秒殺設(shè)計的提綱式整理,方便各位同學(xué)進(jìn)行參考。

我們在微信上24小時期待你的聲音
解答本文疑問/技術(shù)咨詢/運(yùn)營咨詢/技術(shù)建議/互聯(lián)網(wǎng)交流