Hadoop集群配置中如何寫入和讀取數(shù)據(jù)？

本節(jié)和大家繼續(xù)學(xué)習(xí)一下有關(guān)Hadoop集群性能優(yōu)化中機架感知配置方面的內(nèi)容，主要包括寫入數(shù)據(jù)和讀出數(shù)據(jù)兩大部分，希望通過本節(jié)的介紹大家對Hadoop集群中機架感知配置有一定的認(rèn)識。

Hadoop集群功能測試

以下是分別就配置了機架感知信息和沒有配置機架感知信息的hadoopHDFS啟動instance進行的數(shù)據(jù)上傳時的測試結(jié)果。

寫入數(shù)據(jù)

當(dāng)沒有配置機架信息時，所有的機器hadoop都默認(rèn)在同一個默認(rèn)的機架下，名為“/default-rack”，這種情況下，任何一臺datanode機器，不管物理上是否屬于同一個機架，都會被認(rèn)為是在同一個機架下，此時，就很容易出現(xiàn)之前提到的增添機架間網(wǎng)絡(luò)負(fù)載的情況。例如，對沒有機架信息的hadoopHDFS啟動instance上傳一個文件，其block信息如下：
從上圖可以看出，在沒有機架信息的情況下，namenode默認(rèn)將所有的slaves機器全部默認(rèn)為在/default-rack下，根據(jù)hadoop代碼的分析也能知道哦啊，此時在寫block時，三個datanode機器的選擇完全是隨機的。

而當(dāng)Hadoop集群中配置了機架感知信息以后，hadoop在選擇三個datanode時，就會進行相應(yīng)的判斷：

1.如果上傳本機不是一個datanode，而是一個客戶端，那么就從所有slave機器中隨機選擇一臺datanode作為***個塊的寫入機器(datanode1)。
a)而此時如果上傳機器本身就是一個datanode（例如mapreduce作業(yè)中task通過DFSClient向hdfs寫入數(shù)據(jù)的時候），那么就將該datanode本身作為***個塊寫入機器(datanode1)。

2.隨后在datanode1所屬的機架以外的另外的機架上，隨機的選擇一臺，作為第二個block的寫入datanode機器(datanode2)。

3.在寫第三個block前，先判斷是否前兩個datanode是否是在同一個機架上，如果是在同一個機架，那么就嘗試在另外一個機架上選擇第三個datanode作為寫入機器(datanode3)。而如果datanode1和datanode2沒有在同一個機架上，則在datanode2所在的機架上選擇一臺datanode作為datanode3。

4.得到3個datanode的列表以后，從namenode返回該列表到DFSClient之前，會在namenode端首先根據(jù)該寫入客戶端跟datanode列表中每個datanode之間的“距離”由近到遠(yuǎn)進行一個排序。如果此時DFS寫入端不是datanode，則選擇datanode列表中的***個排在***位?？蛻舳烁鶕?jù)這個順序有近到遠(yuǎn)的進行數(shù)據(jù)塊的寫入。在此，判斷兩個datanode之間“距離”的算法就比較關(guān)鍵，hadoop目前實現(xiàn)如下，以兩個表示datanode的對象DatanodeInfo(node1,node2)為例:
a)首先根據(jù)node1和node2對象分別得出兩個datanode在整個hdfs集群中所處的層次。這里的層次概念需要解釋一下：每個datanode在hdfs集群中所處的層次結(jié)構(gòu)字符串是這樣描述的，假設(shè)hdfs的拓?fù)浣Y(jié)構(gòu)如下：

如上圖所示，每個datanode都會對應(yīng)自己在集群中的位置和層次，如node1的位置信息為“/rack1/datanode1”,那么它所處的層次就為2，其余類推。
b)得到兩個node的層次后，會沿著每個node所處的拓樸樹中的位置向上查找，如“/rack1/datanode1”的上一級就是“/rack1”，此時兩個節(jié)點之間的距離加1，兩個node分別同上向上查找，直到找到共同的祖先節(jié)點位置，此時所得的距離數(shù)就用來代表兩個節(jié)點之間的距離。所以，如上圖所示，node1和node2之間的距離就為4.
5.當(dāng)根據(jù)“距離”排好序的datanode節(jié)點列表返回給DFSClient以后，DFSClient便會創(chuàng)建BlockOutputStream，并想這次block寫入pipeline中的***個節(jié)點（最近的節(jié)點）開始寫入block數(shù)據(jù)。
6.寫完***個block以后，依次按照datanode列表中的次遠(yuǎn)的node進行寫入，直到***一個block寫入成功，DFSClient返回成功，該block寫入操作結(jié)束。
通過以上策略，namenode在選擇數(shù)據(jù)塊的寫入datanode列表時，就充分考慮到了將block副本分散在不同機架下，并同時盡量的避免了之前描述的網(wǎng)絡(luò)多于開銷。
對配置了機架信息的hadoopHDFS啟動instance上傳一個文件，其block信息如下：
從上圖可以看出，在配置了機架信息的情況下，為了減少機架間的網(wǎng)絡(luò)流量，namenode會將其中兩個副本寫在同一個機架上，并且為了盡量做到容錯，會將第三個block寫道另一個機架上的datanode上。

讀取數(shù)據(jù)

我們看一下Hadoop集群配置中如何讀取數(shù)據(jù)。當(dāng)對某個文件的某個block進行讀取的時候，hadoop采取的策略也是一樣：

1.首先得到這個block所在的datanode的列表，有幾個副本數(shù)該列表就有幾個datanode。

2.根據(jù)列表中datanode距離讀取端的距離進行從小到大的排序：
a)首先查找本地是否存在該block的副本，如果存在，則將本地datanode作為***個讀取該block的datanode
b)然后查找本地的同一個rack下是否有保存了該block副本的datanode
c)***如果都沒有找到，或者讀取數(shù)據(jù)的node本身不是datanode節(jié)點，則返回datanode列表的一個隨機順序。本節(jié)關(guān)于Hadoop集群相關(guān)內(nèi)容介紹完畢。

當(dāng)前名稱：Hadoop集群配置中如何寫入和讀取數(shù)據(jù)？
鏈接URL：http://uogjgqi.cn/article/dpgdjhh.html

掃二維碼與項目經(jīng)理溝通

我們在微信上24小時期待你的聲音

解答本文疑問/技術(shù)咨詢/運營咨詢/技術(shù)建議/互聯(lián)網(wǎng)交流

av激情亚洲男人的天堂国语,日韩欧美精品一中文字幕,无码av一区二区三区无码,国产又色又爽又刺激的a片,国产又色又爽又刺激的a片

Hadoop集群配置中如何寫入和讀取數(shù)據(jù)？

掃二維碼與項目經(jīng)理溝通

其他資訊

行業(yè)動態(tài)

企業(yè)網(wǎng)站建設(shè)的重要性！

服務(wù)項目

網(wǎng)站建設(shè)

移動端/APP

微信/小程序

技術(shù)支持

其它服務(wù)

更多服務(wù)項目

聯(lián)系吧在百度地圖上找到我們

電話：13518219792

av激情亚洲男人的天堂国语,日韩欧美精品一中文字幕,无码av一区二区三区无码,国产又色又爽又刺激的a片,国产又色又爽又刺激的a片

Hadoop集群配置中如何寫入和讀取數(shù)據(jù)？

掃二維碼與項目經(jīng)理溝通

其他資訊

行業(yè)動態(tài)

企業(yè)網(wǎng)站建設(shè)的重要性！

服務(wù)項目

網(wǎng)站建設(shè)

移動端/APP

微信/小程序

技術(shù)支持

其它服務(wù)

更多服務(wù)項目

聯(lián)系吧 在百度地圖上找到我們

電話：13518219792

Hadoop集群配置中如何寫入和讀取數(shù)據(jù)？

企業(yè)網(wǎng)站建設(shè)的重要性！

聯(lián)系吧在百度地圖上找到我們