av激情亚洲男人的天堂国语,日韩欧美精品一中文字幕,无码av一区二区三区无码,国产又色又爽又刺激的a片,国产又色又爽又刺激的a片

這一次,除了罵阿里云,還能做些什么?

很多朋友經(jīng)歷了前幾天阿里云3小時左右的故障,我司的業(yè)務也受到了一定影響,技術的同事一起熬夜奮戰(zhàn),最終觀察服務穩(wěn)定運行了兩個多小時。

一次事故如一場戰(zhàn)役,不管是在故障過程中的處理,還是故障后的總結,除了罵阿里云,我們自己有沒有可以改進的空間呢?結合我司昨夜的處理過程,說一下自己的一點想法。

畫外音:技術人,還是聊技術,決定不了別人,我們做好自己。

凌晨,收到運維負責人的電話,阿里云部分機房故障,并從阿里云同事收到反饋,問題仍在定位,恢復時間不確認。

畫外音:關鍵時刻,手機欠費了,運維負責人還幫我充了200話費,才打通,真曲折。

整個過程中,我們能做什么呢?

  • 及時反饋業(yè)務方:例如客服,運營等,如果收到用戶反饋,能夠及時說明情況;
  • 確定影響范圍:因為不是所有服務器都受影響,確定范圍后好針對性檢查;

這里面,潛在的技術問題是:

  • 運維立刻收到服務器告警了么,研發(fā)與測試立刻收到站點與服務告警了么?為什么沒有收到,是沒有告警,還是告警覆蓋缺失?

畫外音:如果讓業(yè)務方先發(fā)現(xiàn)問題,反問技術部,服務怎么出問題了,是何等尷尬?

  • 能夠快速確定受影響的服務器IP么?以及受影響的業(yè)務范圍么?

我們的運維同學立刻通過腳本,確定了大概有50來臺服務器受影響。

DBA同學也立刻確認了,RDS數(shù)據(jù)庫服務沒有受到影響。

畫外音:

  • 未來要自動化,可視化;
  • 除了能從前端發(fā)現(xiàn)A、B、C功能不可用,能從后端精準確定哪些服務,多大比例的流量受影響么?

潛在的非技術問題:

  • 技術團隊和業(yè)務方建立了反饋渠道么,溝通是否順暢?
  • 有沒有“線上服務第一”的意識,有沒有“系統(tǒng)值班”的制度,還是說,關著手機睡覺?

畫外音:

  • 昨晚絕大多數(shù)二級,三級部門負責人都立即投入戰(zhàn)斗,很贊;
  • 技術人,關著手機睡覺,是不可接受的。

過了一個多小時了,阿里云仍未反饋修復時間,這個時間大家都有點著急了,那除了干等著,我們自己能做些什么呢?

因為只有部分區(qū)域的服務器異常,能不能申請一些新的服務器,將受影響服務器上的站點與服務重新部署,通過服務治理將流量切到新的服務上,是不是能恢復(至少部分恢復)呢?

整個過程中,我們能做的是:

  • 申請新服務器;
  • 確認受影響的站點與服務、重新部署;
  • 服務治理,將流量遷移;

這里面,潛在的技術問題是:

(1) 能不能快速進行服務器擴容;

畫外音:昨晚我們迅猛購買了50臺ECS,這是云的好處。

(2) 知道了受影響的服務器IP,如何能夠快速確定這些IP上部署了哪些站點與服務?這些站點與服務的上下游是什么,連帶影響范圍是什么?

畫外音:這是有待提高的地方,每個負責人都知道自己的IP上部署了什么,但并不可視化。

(3) 如何快速站點與服務擴容與縮容,如何服務發(fā)現(xiàn),如何遷移流量?

畫外音:服務治理,任重道遠。

又過了大概半個小時,我們購買完服務器,梳理站點與服務的過程中,阿里云專家反饋,“問題定位有了關鍵進展,不出意外的話30分鐘恢復”。此時我們內(nèi)部評估,30分鐘50臺ECS的初始化,服務部署,流量遷移恐怕完不成,還是等阿里云好了。

果真大概半個小時,阿里云專家反饋恢復了,這時我們要做的:

  • 確定站點與服務是否運行;
  • 確定日志是否異常;
  • 確定業(yè)務在線業(yè)務是否異常;
  • 一些容易遺漏的點的再三檢查:例如MQ的消費,定時任務的執(zhí)行。

畫外音:有些定時任務可能需要手動再次執(zhí)行。

這里面的很多工作,是通過手工,還是腳本自動化,還是平臺可視化來判斷與執(zhí)行?技術平臺的迭代,仍重而道遠。

服務觀察穩(wěn)定后一段時機。朋友圈、微博上開始對阿里云進行聲討,都在提自己的優(yōu)化方案:

1. 是時候換一個云了;

換一個云能解決問題么?用其他云的朋友,可以評論反饋下故障頻率。

我相信,各家有各家的問題,我甚至愿意相信,阿里云的故障率是相對較低的。

2. 是時候自建機房了;

自建機房能解決問題么?自建機房的朋友,可以評論反饋下故障頻率。

說實話,讓我自建機房,我目前真沒有信心做得比阿里云更好。

3. 是時候多機房多活了;

“多機房多活”不是四個字這么簡單,需要多大的成本,需要多少技術基礎服務支撐,需要多大的架構改造,有考慮過么?

畫外音:58同城15年做機房遷移時做過多機房多活,我還算有一定發(fā)言權。

我相信,目前99.9%的公司,目前的業(yè)務階段,目前的投入產(chǎn)出比,不適合做多機房多活。

罵阿里云不解決問題,這次事故過程中發(fā)現(xiàn)的自身的問題,我們要繼續(xù)去改進。

特別是服務治理體系,可視化監(jiān)控與運維體系,任重而道遠。

不為阿里云洗地,阿里云你影響了我們幾個小時業(yè)務可用性,該陪的要賠,盡量加倍賠,讓我們看到你的誠意。

畫外音:誰有XX云的接口人聯(lián)系方式,請小窗我一下。

末了,讓我特別感動的一點,還是一起熬夜奮戰(zhàn)的兄弟姐妹們。早晨,還有部分同學趕去公司,要把運營反饋的不一致數(shù)據(jù),進行修正。

我相信,因為有你們,業(yè)務一定能做成。

我相信,大家的付出老板一定看得到,3/4月份的漲薪一定有你。

【本文為專欄作者“58沈劍”原創(chuàng)稿件,轉(zhuǎn)載請聯(lián)系原作者】

戳這里,看該作者更多好文


網(wǎng)頁標題:這一次,除了罵阿里云,還能做些什么?
分享網(wǎng)址:http://uogjgqi.cn/article/dpcjodp.html
掃二維碼與項目經(jīng)理溝通

我們在微信上24小時期待你的聲音

解答本文疑問/技術咨詢/運營咨詢/技術建議/互聯(lián)網(wǎng)交流