av激情亚洲男人的天堂国语,日韩欧美精品一中文字幕,无码av一区二区三区无码,国产又色又爽又刺激的a片,国产又色又爽又刺激的a片

提高55%異地算力利用率,現(xiàn)已開源!響應(yīng)‘東數(shù)西算’AI大基建

在 AI 浪潮中,無論是企業(yè)還是國家,對算力的需求都日益高漲。近期啟動的“東數(shù)西算”項目,更是從宏觀層面大力打造 AI 基礎(chǔ)設(shè)施。但位于不同地理位置的計算機之間通信延遲較高,如何統(tǒng)籌兼顧、高效利用不同地區(qū)的計算能力,是當(dāng)下亟待解決的重大議題。

創(chuàng)新互聯(lián)擁有一支富有激情的企業(yè)網(wǎng)站制作團隊,在互聯(lián)網(wǎng)網(wǎng)站建設(shè)行業(yè)深耕10多年,專業(yè)且經(jīng)驗豐富。10多年網(wǎng)站優(yōu)化營銷經(jīng)驗,我們已為上千中小企業(yè)提供了成都做網(wǎng)站、網(wǎng)站設(shè)計、外貿(mào)營銷網(wǎng)站建設(shè)解決方案,按需求定制開發(fā),設(shè)計滿意,售后服務(wù)無憂。所有客戶皆提供一年免費網(wǎng)站維護!

“東數(shù)西算”項目布局

與此同時,在大數(shù)據(jù)時代的背景下,如何保護隱私數(shù)據(jù)也成為社會熱點,國家出臺了數(shù)據(jù)安全、隱私保護的一系列法規(guī)。

針對以上難點,開源項目 Sky Computing 成功利用空間異構(gòu)分布式計算特性,在保證用戶數(shù)據(jù)隱私的前提下,可對聯(lián)邦學(xué)習(xí)加速達(dá) 55%。

地址:

https://github.com/hpcaitech/SkyComputing

空間異構(gòu)分布式計算

隨著深度學(xué)習(xí)的不斷發(fā)展,模型的尺寸日益增長,目前的主流模型,例如 BERT 和 GPT-3 都有著數(shù)以億計的參數(shù)。盡管這些模型在預(yù)測精度和性能提升方面有了長足的進步,但同樣也給存儲和運算等帶來了極大的壓力。為了加速AI模型訓(xùn)練的速度,分布式機器學(xué)習(xí)得以應(yīng)運而生,它通常使用大量高速互聯(lián)的同類型處理器,如超級計算機。

超級計算機

而空間異構(gòu)分布式計算則進一步將擁有不同計算能力、通訊能力的計算資源組合在一起,作為一個大的集群完成大型計算任務(wù)。其中參與計算的硬件資源可以是大型專業(yè)計算服務(wù)器,也可以是小型的智能設(shè)備。目前,空間異構(gòu)分布式計算作為一種新形式的異構(gòu)計算,正在得到越來越多的關(guān)注。以我國為例,隨著「東數(shù)西算」工作的推行,越來越多的計算資源將廣泛地分布到西部各個地區(qū),如何協(xié)調(diào)這類混合計算集群聯(lián)合高效工作,也將成為高性能計算應(yīng)用的研究熱點。

近年來,云服務(wù)的規(guī)模、范圍和對象都被不斷擴展,越來越多的企業(yè)選擇將自己的數(shù)據(jù)存儲和數(shù)據(jù)計算相關(guān)業(yè)務(wù)部署在云端。然而,將所有服務(wù)依托于云端環(huán)境的缺點在于數(shù)據(jù)的遷移成本極高;同時,數(shù)據(jù)的隱私性和可靠性也難以保證;此外,分布在不同地區(qū)的云算力之間高昂的通信成本,也使得他們難以有效聯(lián)合完成高算力任務(wù)。

云計算

聯(lián)邦學(xué)習(xí)

為保護數(shù)據(jù)的隱私性,Google 于 2016 年提出聯(lián)邦學(xué)習(xí),這是一種加密的分布式機器學(xué)習(xí)技術(shù)。顧名思義,它通過搭建一個虛擬的「聯(lián)邦」,將大大小小的數(shù)據(jù)孤島聯(lián)合到一起。每一個數(shù)據(jù)孤島都像是這個「聯(lián)邦」中的一個州,既保持一定的獨立自主(比如商業(yè)機密,用戶隱私),又能在數(shù)據(jù)不被對外共享的前提下共同建模,提升 AI 模型效果。目前,聯(lián)邦學(xué)習(xí)廣泛被運用在智能終端的模型訓(xùn)練中,如各個語音助手例如 Siri、Alex 等等。

聯(lián)邦學(xué)習(xí)

在現(xiàn)有的聯(lián)邦學(xué)習(xí)模型并行中,模型被均勻分配給各個訓(xùn)練設(shè)備。然而,如前文所述,由于聯(lián)邦學(xué)習(xí)的訓(xùn)練設(shè)備往往是用戶的智能終端,性能差異較大,使用均勻分配,往往會造成通信時間瓶頸。

正如我們都知道木桶效應(yīng):木桶的盛水量由最短的那塊木板決定。而在傳統(tǒng)的聯(lián)邦學(xué)習(xí)中,存在類似現(xiàn)象:訓(xùn)練速度由最慢的那個設(shè)備決定。

例如,對于處于使用模型并行的同一個聯(lián)邦學(xué)習(xí)任務(wù)中的智能手機和樹莓派,它們會被分配相同的任務(wù)量。但由于智能手機的運算能力遠(yuǎn)超樹莓派,智能手機被迫閑置等待樹莓派的任務(wù)完成。

木桶效應(yīng)

Sky Computing

Sky Computing 針對以上痛點,通過負(fù)載均衡,將不同規(guī)模和能力的云服務(wù)器智能互聯(lián),達(dá)到大規(guī)模計算的算力需求,同時通過聯(lián)邦學(xué)習(xí)的方式,僅在云服務(wù)器內(nèi)部訪問用戶數(shù)據(jù),避免數(shù)據(jù)遷移和隱私泄露。

負(fù)載均衡

要解決負(fù)載均衡的問題,首先要了解什么是「負(fù)載」。在計算機中,無論進行哪種操作,究其本質(zhì),負(fù)載都可以理解為「完成任務(wù)所需的時間」。由于在聯(lián)邦學(xué)習(xí)中,訓(xùn)練模型的計算總量是固定的,因此如果我們能通過自適應(yīng)的方式智能分配計算任務(wù),便能夠使得每個設(shè)備完成計算任務(wù)的耗時相同,確保整體訓(xùn)練的時間最優(yōu)。而為了得到一個好的分配方式,我們需要首先得到模型和設(shè)備相關(guān)信息,然后再進行實際的適當(dāng)分配操作。因此,對于訓(xùn)練模型,我們需要分為兩個階段:基準(zhǔn)測試和分配。

訓(xùn)練過程

基準(zhǔn)測試

在基準(zhǔn)測試階段,Sky Computing 需要收集來自兩個維度的數(shù)據(jù):模型和設(shè)備。在模型維度,需要知道模型每一層所需的內(nèi)存占用和計算量。通過結(jié)合模型的預(yù)計內(nèi)存占用和設(shè)備的可用內(nèi)存,可避免內(nèi)存溢出;而所需計算量越大,同一設(shè)備完成該任務(wù)的時間就越久。在設(shè)備維度,需要知道設(shè)備的通訊延時、計算能力和可用內(nèi)存等,受網(wǎng)絡(luò)環(huán)境、當(dāng)前運行負(fù)載等因素的影響。對于算力強、通信好但可用內(nèi)存少的設(shè)備,應(yīng)在內(nèi)存不溢出的前提下,盡量多分配模型層(計算任務(wù))。由于 Sky Computing 是一個負(fù)載均衡的聯(lián)邦學(xué)習(xí)系統(tǒng),因此我們在基準(zhǔn)測試階段只關(guān)心設(shè)備的機器學(xué)習(xí)的能力。通過在每個設(shè)備運行小型的機器學(xué)習(xí)測試任務(wù),測探設(shè)備的 AI 計算能力。

整體流程

分配

在決定任務(wù)分配方式時,經(jīng)數(shù)學(xué)分析可知,分配方式本質(zhì)上是一個 NP-hard 的混合整數(shù)線性規(guī)劃問題。因此,在多項式時間內(nèi),我們無法得到一個最優(yōu)解。而隨著模型規(guī)模的不斷增長,和設(shè)備數(shù)量的不斷增多,計算最優(yōu)解的成本顯然是不可接受的。

因此,在實際情況中,我們不會直接計算求得最優(yōu)解,而是嘗試使用啟發(fā)式算法得到近似解。在 Sky Computing 中,我們設(shè)計了一個兩階段的啟發(fā)式算法:第一階段為預(yù)分配,按照設(shè)備的實際可用內(nèi)存大小進行模型的分配,并且計算每個設(shè)備實際的工作負(fù)載;第二階段為分配調(diào)整,根據(jù)設(shè)備的負(fù)載量進行動態(tài)的調(diào)整,迭代降低整個系統(tǒng)的負(fù)載量。同時,為了驗證 Sky Computing 的優(yōu)越性,我們在實驗中也設(shè)置了最優(yōu)分配作為對比。

實現(xiàn)架構(gòu)

性能表現(xiàn)

我們在集群環(huán)境中,采用控制關(guān)鍵因素變量的方式,以聯(lián)邦學(xué)習(xí) AI 任務(wù)的 forward 和 backward 的時間為指標(biāo),對 Sky Computing 的性能進行了驗證。

實驗結(jié)果

我們測試了三種分配方式(even:均勻分配,heuristic:啟發(fā)式算法,optimal:最優(yōu)分配)。在不同的計算資源數(shù)量規(guī)模和不同的模型大小下的表現(xiàn),并記錄了每次完成迭代所花費的時間。可以看到,隨著設(shè)備數(shù)量的增多和模型深度的增加,我們的啟發(fā)式算法的效果十分顯著。在 64 個節(jié)點 160 層隱藏層的實驗環(huán)境下,Sky Computing 比當(dāng)前的均勻分配模型并行可加速 55%。

實驗結(jié)果

其中,由于最優(yōu)分配計算成本極高,在 64 節(jié)點時已難以計算,不適用于實際應(yīng)用,僅作為小規(guī)模時的參考值。

開源共建

Sky Computing 是我們利用空間異構(gòu)分布式計算特性加速聯(lián)邦學(xué)習(xí)的一次成功嘗試,獲得了高達(dá) 55% 的性能提升。目前該項目仍處于開發(fā)階段,未來我們將進行更加充分的實驗,早日部署到實際應(yīng)用中,并提供動態(tài)冗余等功能。

論文地址:https://arxiv.org/abs/2202.11836

項目地址:https://github.com/hpcaitech/SkyComputing


標(biāo)題名稱:提高55%異地算力利用率,現(xiàn)已開源!響應(yīng)‘東數(shù)西算’AI大基建
URL鏈接:http://uogjgqi.cn/article/djeegos.html
掃二維碼與項目經(jīng)理溝通

我們在微信上24小時期待你的聲音

解答本文疑問/技術(shù)咨詢/運營咨詢/技術(shù)建議/互聯(lián)網(wǎng)交流