掃二維碼與項(xiàng)目經(jīng)理溝通
我們?cè)谖⑿派?4小時(shí)期待你的聲音
解答本文疑問(wèn)/技術(shù)咨詢/運(yùn)營(yíng)咨詢/技術(shù)建議/互聯(lián)網(wǎng)交流
【稿件】近期,我拜訪了一家文化傳播公司的 IT 運(yùn)維總監(jiān) Tim,他向我講述了他的團(tuán)隊(duì)是如何像當(dāng)年玩《大航海時(shí)代》那樣將 IT 系統(tǒng)的戰(zhàn)艦越造越大,并使之在企業(yè)運(yùn)營(yíng)的海洋中平穩(wěn)前行的。

在興山等地區(qū),都構(gòu)建了全面的區(qū)域性戰(zhàn)略布局,加強(qiáng)發(fā)展的系統(tǒng)性、市場(chǎng)前瞻性、產(chǎn)品創(chuàng)新能力,以專注、極致的服務(wù)理念,為客戶提供網(wǎng)站建設(shè)、做網(wǎng)站 網(wǎng)站設(shè)計(jì)制作定制設(shè)計(jì),公司網(wǎng)站建設(shè),企業(yè)網(wǎng)站建設(shè),成都品牌網(wǎng)站建設(shè),營(yíng)銷型網(wǎng)站,外貿(mào)營(yíng)銷網(wǎng)站建設(shè),興山網(wǎng)站建設(shè)費(fèi)用合理。
在此,我將他的心路歷程分享出來(lái),希望能夠幫助您改變那種像小倉(cāng)鼠一樣一直在環(huán)形輪上盲目地“跑酷”狀態(tài)。
縱然練就“72變”,也無(wú)法笑對(duì)“81難”
該文化公司成立于 2013 年,他們最初從簡(jiǎn)單的“PC 服務(wù)器 + 二手三層交換 + 托管服務(wù)器”這樣的硬件架構(gòu)起步,既要對(duì)內(nèi)滿足員工的“上網(wǎng) + 郵件 + 文件共享 + 存儲(chǔ)”,又要對(duì)外提供“官網(wǎng) + 視頻上傳/下載”的服務(wù)。
在 IT 系統(tǒng)建成初期,由于處于運(yùn)維“四少”,即設(shè)備少、應(yīng)用少,流程少,問(wèn)題少的狀態(tài),他和另一名同事組成的“哼哈二將”模式完全可以 hold 住各種與 Ops 相關(guān)的需求和問(wèn)題。
但是隨著公司這幾年來(lái)的多元化發(fā)展,各種看得見(jiàn)的設(shè)備和看不見(jiàn)的軟件越來(lái)越多,特別是“論壇 + 會(huì)員博客 + 微官網(wǎng) + 在線訂單 + 移動(dòng)支付 + 遠(yuǎn)程訪問(wèn)”等業(yè)務(wù)所帶動(dòng)的系統(tǒng)復(fù)雜性,縱然他們不斷練就七十二變,也無(wú)法笑對(duì)前方的八十一難。
在擴(kuò)大運(yùn)維團(tuán)隊(duì)的同時(shí),他們通過(guò)整合資源、逐步轉(zhuǎn)變并提升了 Ops 的相關(guān)觀念和操作模式,摸索出了一條具有本企業(yè)特色的 Ops+ 模式。
總的說(shuō)來(lái)就是:針對(duì)整個(gè)運(yùn)維生命周期中的各個(gè)方面,用三步遞進(jìn)的模式來(lái)逐步改進(jìn)日常各項(xiàng)工作,即“標(biāo)準(zhǔn)化—配置與流程、自動(dòng)化—操作與安全、平臺(tái)化—監(jiān)控與管理”。
Ops+ 運(yùn)維模式初探
標(biāo)準(zhǔn)化—配置與流程
過(guò)去他們的運(yùn)維人員過(guò)分依賴技術(shù)上的大牛,由于上手門檻較高,部門里往往充斥著個(gè)人英雄主義,當(dāng)然也就造成了人員資源上的單點(diǎn)風(fēng)險(xiǎn)。與此同時(shí),他們又時(shí)常被服務(wù)廠商所“綁架”。
由于各家實(shí)現(xiàn)方式的不盡相同,在系統(tǒng)出現(xiàn)問(wèn)題的時(shí)候,要么相互推諉,要么一擁而上、各自為政。這些都給系統(tǒng)的正常運(yùn)營(yíng)埋下了不少的“雷”。
在經(jīng)歷數(shù)次“多么痛的領(lǐng)悟”之后,他們逐漸認(rèn)識(shí)到標(biāo)準(zhǔn)化的重要性,并通過(guò)如下方面的實(shí)踐,有效杜絕了各種“任性”。
軟硬件類型標(biāo)準(zhǔn)化
無(wú)論是網(wǎng)絡(luò)設(shè)備、服務(wù)器端、用戶終端,還是操作系統(tǒng)和應(yīng)用軟件,他們都有既定的支持和首選的列表。
這樣一來(lái),在品牌和型號(hào)層面上大幅降低了不兼容性,并縮小了排查的可能性范圍。
安裝配置標(biāo)準(zhǔn)化
可參照的實(shí)施步驟文檔與配圖包括:
流程規(guī)范標(biāo)準(zhǔn)化
無(wú)論是新建發(fā)布、服務(wù)變更、事件處理、事故響應(yīng)、還是項(xiàng)目推進(jìn)等,都有可遵循的流程和清晰的操作次序圖表。
交接標(biāo)準(zhǔn)化
雖然他們不像一些互聯(lián)網(wǎng)企業(yè)那樣有專門的 Dev 團(tuán)隊(duì)、且產(chǎn)品迭代也不頻繁,但是他們也充分考慮到了“建轉(zhuǎn)運(yùn)”過(guò)程中的風(fēng)險(xiǎn)。
通過(guò)分階段、分步驟地制定了相應(yīng)的轉(zhuǎn)化流程,他們實(shí)現(xiàn)了測(cè)試賬戶的及時(shí)回收,并合理區(qū)分了系統(tǒng)類與業(yè)務(wù)類賬戶與數(shù)據(jù)的遷移。
除了上述各個(gè)方面的標(biāo)準(zhǔn)化之外,他們還日常維護(hù)著諸如:硬件設(shè)備全量清單、軟件應(yīng)用全量清單、第三方服務(wù)提供清單、干系人聯(lián)系清單等支持類文檔。
這些文檔多以圖表的形式清晰直觀地提供了各類速查的信息,同時(shí)方便了后面將要提到的平臺(tái)化所進(jìn)行的二次篩選與統(tǒng)計(jì)。
他們有專門的共享知識(shí)庫(kù)(后面會(huì)提到 CMDB)來(lái)分門別類地妥善存放所有的標(biāo)準(zhǔn)化文檔。
可以說(shuō),他們以標(biāo)準(zhǔn)化作為基礎(chǔ)的 Ops+ 模式,能有效地降低人員犯低級(jí)錯(cuò)誤的發(fā)生頻率,統(tǒng)一整體的服務(wù)水平,提高他們的響應(yīng)和處理速度,并能簡(jiǎn)化對(duì)其工作質(zhì)量的考核。
自動(dòng)化—操作與安全
雖說(shuō)上述各個(gè)方面的標(biāo)準(zhǔn)化能夠從規(guī)范的角度減少出錯(cuò)的可能,但是隨著需要維護(hù)的設(shè)備數(shù)量和系統(tǒng)復(fù)雜程度的增加,各種重復(fù)性的例行操作日趨占據(jù)了維護(hù)人員的大量時(shí)間和精力。
為了控制成本和增加系統(tǒng)本身的魯棒性,他們的團(tuán)隊(duì)在如下方面進(jìn)行了自動(dòng)化的嘗試,進(jìn)而提高了系統(tǒng)日常管理的效率。
監(jiān)控自動(dòng)化
通過(guò)軟件(如 Zabbix)的自動(dòng)注冊(cè)與發(fā)現(xiàn)特性實(shí)現(xiàn)了:
而運(yùn)維人員通過(guò)進(jìn)一步點(diǎn)擊,則可細(xì)致到每個(gè)服務(wù)自有的狀態(tài)視圖,以便人工分析潛在的異常并介入跟蹤診斷。
操作自動(dòng)化
善假于物方可事半功倍:
安全自動(dòng)化
上述操作自動(dòng)化雖然能夠廣受運(yùn)維人員的推崇,但勢(shì)必會(huì)涉及到對(duì)特權(quán)的調(diào)用和對(duì)基線的調(diào)整。
為了防范由此所帶來(lái)的安全隱患和漏洞,他們也上馬和啟用了針對(duì)安全運(yùn)維方面的自動(dòng)化:
非活躍 VPN 用戶在非常規(guī)工作時(shí)間登錄,并對(duì)共享文件進(jìn)行頻繁的移動(dòng)、復(fù)制甚至是刪除等操作。
某臺(tái)主機(jī)向內(nèi)網(wǎng)的其他主機(jī)發(fā)送探測(cè)掃描包;網(wǎng)絡(luò)設(shè)備的配置在計(jì)劃外的時(shí)間被更改;以及 Web 頁(yè)面出現(xiàn) 404、401、500 等錯(cuò)誤代碼。
而對(duì)于內(nèi)網(wǎng)的數(shù)據(jù)流量而言,則是對(duì)協(xié)議、內(nèi)容和攻擊簽名模式的匹配檢查。
平臺(tái)化—監(jiān)控與管理
業(yè)界喜歡用物理學(xué)上的熵理論來(lái)闡述:倘若不對(duì) IT 系統(tǒng)進(jìn)行人工管控的話,則會(huì)趨向于無(wú)序。
Tim 和他的運(yùn)維團(tuán)隊(duì)認(rèn)識(shí)到:如果日常運(yùn)維工作完全依賴于標(biāo)準(zhǔn)化和自動(dòng)化進(jìn)行推進(jìn)的話,很快就會(huì)陷入“中年油膩”,大家也會(huì)頻繁被動(dòng)地打“遭遇戰(zhàn)”。
因此,他們基于過(guò)往的經(jīng)驗(yàn)匯總、需求分析、當(dāng)然也考慮到實(shí)際預(yù)算,設(shè)計(jì)并集成了一個(gè)具有可視化和方便管控的平臺(tái)架構(gòu)。該平臺(tái)具體由如下三部分所組成:
資產(chǎn)、資源管理
做到手中有糧,心里不慌:
下一階段,他們將引入數(shù)據(jù)分析模塊,分析一般用戶和專業(yè)運(yùn)維人員登錄該平臺(tái)后,檢索知識(shí)庫(kù)的方式(如題名、關(guān)鍵詞、作者、部門等)、使用頻率、駐留時(shí)間、反饋信息等。
監(jiān)控報(bào)警
一站式獲取策略的實(shí)施和服務(wù)的狀態(tài):
事件分析
做到事前防范、事中控制、事后溯源:
小結(jié)
我正好在采訪 Tim 之前閱讀過(guò)《鳳凰項(xiàng)目——一個(gè)IT運(yùn)維的傳奇故事》一書,書中很多橋段與他所奉行的 Ops+ 模式遙相呼應(yīng)。
在 Tim 看來(lái),通過(guò)他們的 Ops+,運(yùn)維人員提升了對(duì)系統(tǒng)各類隱患的發(fā)現(xiàn)能力、對(duì)例行操作的處理能力、對(duì)應(yīng)急事故的恢復(fù)能力和對(duì)內(nèi)外攻擊的應(yīng)對(duì)能力。
正如他自己所坦言的那樣:“我們正在確保自己所維護(hù)的系統(tǒng)能從 run right(運(yùn)行正確)穩(wěn)步進(jìn)化為 right run(正確地運(yùn)行)”。
好了,最后低調(diào)地幫他打一下 call 吧:希望上述分享的運(yùn)維“大禮包”能夠如一杯泡滿枸杞的保溫杯一般給您在這個(gè)冬天帶來(lái)一絲暖意。
陳峻(Julian Chen) ,有著十多年的 IT 項(xiàng)目、企業(yè)運(yùn)維和風(fēng)險(xiǎn)管控的從業(yè)經(jīng)驗(yàn),日常工作深入系統(tǒng)安全各個(gè)環(huán)節(jié)。作為 CISSP 證書持有者,他在各專業(yè)雜志上發(fā)表了《IT運(yùn)維的“六脈神劍”》、《律師事務(wù)所IT服務(wù)管理》 和《股票交易網(wǎng)絡(luò)系統(tǒng)中的安全設(shè)計(jì)》等論文。他還持續(xù)分享并更新《廉環(huán)話》系列博文和各種外文技術(shù)翻譯,曾被(ISC)2 評(píng)為第九屆亞太區(qū)信息安全領(lǐng)袖成就表彰計(jì)劃的“信息安全踐行者”和 Future-S 中國(guó) IT 治理和管理的 2015 年度踐行人物。
【原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文作者和出處為.com】

我們?cè)谖⑿派?4小時(shí)期待你的聲音
解答本文疑問(wèn)/技術(shù)咨詢/運(yùn)營(yíng)咨詢/技術(shù)建議/互聯(lián)網(wǎng)交流