av激情亚洲男人的天堂国语,日韩欧美精品一中文字幕,无码av一区二区三区无码,国产又色又爽又刺激的a片,国产又色又爽又刺激的a片

MapReduceHold不???

本文系統(tǒng)地介紹和分析比較了業(yè)界主流的Yahoo! S4、StreamBase和Borealis三種流式計(jì)算系統(tǒng),希望讀者能從這些系統(tǒng)的設(shè)計(jì)中領(lǐng)悟到不同場(chǎng)景下流式計(jì)算所要解決的關(guān)鍵問(wèn)題。

專注于為中小企業(yè)提供網(wǎng)站建設(shè)、成都做網(wǎng)站服務(wù),電腦端+手機(jī)端+微信端的三站合一,更高效的管理,為中小企業(yè)蟠龍免費(fèi)做網(wǎng)站提供優(yōu)質(zhì)的服務(wù)。我們立足成都,凝聚了一批互聯(lián)網(wǎng)行業(yè)人才,有力地推動(dòng)了1000多家企業(yè)的穩(wěn)健成長(zhǎng),幫助中小企業(yè)通過(guò)網(wǎng)站建設(shè)實(shí)現(xiàn)規(guī)模擴(kuò)充和轉(zhuǎn)變。

背景

非實(shí)時(shí)計(jì)算幾乎都基于MapReduce計(jì)算框架,但MapReduce并不是***的。對(duì)于搜索應(yīng)用環(huán)境中的某些現(xiàn)實(shí)問(wèn)題,MapReduce并不能很好地解決問(wèn)題。

什么是MapReduce?

MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。

商用搜索引擎,像Google、Bing和Yahoo!等,通常在用戶查詢響應(yīng)中提供結(jié)構(gòu)化的Web結(jié)果,同時(shí)也插入基于流量的點(diǎn)擊付費(fèi)模式的文本廣告。為了在頁(yè)面上***位置展現(xiàn)最相關(guān)的廣告,通過(guò)一些算法來(lái)動(dòng)態(tài)估算給定上下文中一個(gè)廣告被點(diǎn)擊的可能性。上下文可能包括用戶偏好、地理位置、歷史查詢、歷史點(diǎn)擊等信息。一個(gè)主搜索引擎可能每秒鐘處理成千上萬(wàn)次查詢,每個(gè)頁(yè)面都可能會(huì)包含多個(gè)廣告。為了及時(shí)處理用戶反饋,需要一個(gè)低延遲、可擴(kuò)展、高可靠的處理引擎。然而,對(duì)于這些實(shí)時(shí)性要求很高的應(yīng)用,盡管MapReduce作了實(shí)時(shí)性改進(jìn),但仍很難穩(wěn)定地滿足應(yīng)用需求。因?yàn)镠adoop為批處理作了高度優(yōu)化,MapReduce系統(tǒng)典型地通過(guò)調(diào)度批量任務(wù)來(lái)操作靜態(tài)數(shù)據(jù);而流式計(jì)算的典型范式之一是不確定數(shù)據(jù)速率的事件流流入系統(tǒng),系統(tǒng)處理能力必須與事件流量匹配,或者通過(guò)近似算法等方法優(yōu)雅降級(jí),通常稱為負(fù)載分流(load-shedding)。當(dāng)然,除了負(fù)載分流,流式計(jì)算的容錯(cuò)處理等機(jī)制也和批處理計(jì)算不盡相同。

最近Facebook在Sigmod 11上發(fā)表了利用HBase/Hadoop進(jìn)行實(shí)時(shí)數(shù)據(jù)處理的論文,通過(guò)一些實(shí)時(shí)性改造,讓批處理計(jì)算平臺(tái)也具備實(shí)時(shí)計(jì)算的能力。這類基于MapReduce進(jìn)行流式處理的方案有三個(gè)主要缺點(diǎn)。

  • 將輸入數(shù)據(jù)分隔成固定大小的片段,再由MapReduce平臺(tái)處理,缺點(diǎn)在于處理延遲與數(shù)據(jù)片段的長(zhǎng)度、初始化處理任務(wù)的開(kāi)銷成正比。小的分段會(huì)降低延遲,增加附加開(kāi)銷,并且分段之間的依賴管理更加復(fù)雜(例如一個(gè)分段可能會(huì)需要前一個(gè)分段的信息);反之,大的分段會(huì)增加延遲。***的分段大小取決于具體應(yīng)用。
  • 為了支持流式處理,MapReduce需要被改造成Pipeline的模式,而不是Reduce直接輸出;考慮到效率,中間結(jié)果***只保存在內(nèi)存中等。這些改動(dòng)使得原有的MapReduce框架的復(fù)雜度大大增加,不利于系統(tǒng)的維護(hù)和擴(kuò)展。
  • 用戶被迫使用MapReduce的接口來(lái)定義流式作業(yè),這使得用戶程序的可伸縮性降低。

綜上所述,流式處理的模式?jīng)Q定了要和批處理使用非常不同的架構(gòu),試圖搭建一個(gè)既適合流式計(jì)算又適合批處理計(jì)算的通用平臺(tái),結(jié)果可能會(huì)是一個(gè)高度復(fù)雜的系統(tǒng),并且最終系統(tǒng)可能對(duì)兩種計(jì)算都不理想。

目前流式計(jì)算是業(yè)界研究的一個(gè)熱點(diǎn),最近Twitter、LinkedIn等公司相繼開(kāi)源了流式計(jì)算系統(tǒng)Storm、Kafka等,加上 Yahoo!之前開(kāi)源的S4,流式計(jì)算研究在互聯(lián)網(wǎng)領(lǐng)域持續(xù)升溫。不過(guò)流式計(jì)算并非最近幾年才開(kāi)始研究,傳統(tǒng)行業(yè)像金融領(lǐng)域等很早就已經(jīng)在使用流式計(jì)算系統(tǒng),比較知名的有StreamBase、Borealis等。

本文簡(jiǎn)單介紹幾種業(yè)界使用的流式計(jì)算系統(tǒng),希望流式系統(tǒng)的設(shè)計(jì)者或開(kāi)發(fā)者們能從中獲得啟示。

圖1 數(shù)據(jù)分析系統(tǒng)整體組成示意圖

圖1從整個(gè)分析系統(tǒng)的架構(gòu)角度,給出了實(shí)時(shí)計(jì)算子系統(tǒng)所處的位置。實(shí)時(shí)計(jì)算系統(tǒng)和批處理計(jì)算系統(tǒng)同屬于計(jì)算這個(gè)大的范疇,批處理計(jì)算可以是 MapReduce、MPI、SCOPE等,實(shí)時(shí)計(jì)算可以是S4、Storm等,批處理和實(shí)時(shí)都可以或不依賴統(tǒng)一的資源調(diào)度系統(tǒng)。另外,計(jì)算系統(tǒng)的輸入、輸出,包括中間過(guò)程的輸入、輸出,都與存儲(chǔ)系統(tǒng)交互,可以是塊存儲(chǔ)系統(tǒng)HDFS,也可以是K-V存儲(chǔ)系統(tǒng)Hypertable等。計(jì)算層的上層是數(shù)據(jù)倉(cāng)庫(kù),或者直接和用戶交互,交互方式可以是SQL-like或者M(jìn)R-like等。


新聞名稱:MapReduceHold不住?
分享URL:http://uogjgqi.cn/article/cohhidh.html
掃二維碼與項(xiàng)目經(jīng)理溝通

我們?cè)谖⑿派?4小時(shí)期待你的聲音

解答本文疑問(wèn)/技術(shù)咨詢/運(yùn)營(yíng)咨詢/技術(shù)建議/互聯(lián)網(wǎng)交流