常見(jiàn)分布式文件存儲(chǔ)介紹、選型比較、以及架構(gòu)設(shè)計(jì)

作者：架構(gòu)師進(jìn)階 2018-09-14 11:11:04

存儲(chǔ)

存儲(chǔ)軟件

分布式數(shù)據(jù)正成為世界上最有價(jià)值的資源，分布式文件存儲(chǔ)是應(yīng)對(duì)數(shù)據(jù)爆炸的最好解決方案，那就會(huì)涉及到分布式文件存儲(chǔ)方案、選型、架構(gòu)設(shè)計(jì)等。

創(chuàng)新互聯(lián)建站是一家專(zhuān)業(yè)提供建昌企業(yè)網(wǎng)站建設(shè),專(zhuān)注與網(wǎng)站建設(shè)、網(wǎng)站制作、H5網(wǎng)站設(shè)計(jì)、小程序制作等業(yè)務(wù)。10年已為建昌眾多企業(yè)、政府機(jī)構(gòu)等服務(wù)。創(chuàng)新互聯(lián)專(zhuān)業(yè)網(wǎng)站建設(shè)公司優(yōu)惠進(jìn)行中。

數(shù)據(jù)正成為世界上最有價(jià)值的資源，分布式文件存儲(chǔ)是應(yīng)對(duì)數(shù)據(jù)爆炸的最好解決方案，那就會(huì)涉及到分布式文件存儲(chǔ)方案、選型、架構(gòu)設(shè)計(jì)等。

分布式文件存儲(chǔ)的來(lái)源

在這個(gè)數(shù)據(jù)爆炸的時(shí)代，產(chǎn)生的數(shù)據(jù)量不斷地在攀升，從GB,TB,PB,ZB.挖掘其中數(shù)據(jù)的價(jià)值也是企業(yè)在不斷地追求的終極目標(biāo)。但是要想對(duì)海量的數(shù)據(jù)進(jìn)行挖掘，首先要考慮的就是海量數(shù)據(jù)的存儲(chǔ)問(wèn)題，比如Tb量級(jí)的數(shù)據(jù)。

談到數(shù)據(jù)的存儲(chǔ)，則不得不說(shuō)的是磁盤(pán)的數(shù)據(jù)讀寫(xiě)速度問(wèn)題。早在上個(gè)世紀(jì)90年代初期，普通硬盤(pán)的可以存儲(chǔ)的容量大概是1G左右，硬盤(pán)的讀取速度大概為4.4MB/s.讀取一張硬盤(pán)大概需要5分鐘時(shí)間，但是如今硬盤(pán)的容量都在1TB左右了,相比擴(kuò)展了近千倍。但是硬盤(pán)的讀取速度大概是100MB/s。讀完一個(gè)硬盤(pán)所需要的時(shí)間大概是2.5個(gè)小時(shí)。所以如果是基于TB級(jí)別的數(shù)據(jù)進(jìn)行分析的話(huà)，光硬盤(pán)讀取完數(shù)據(jù)都要好幾天了，更談不上計(jì)算分析了。那么該如何處理大數(shù)據(jù)的存儲(chǔ)，計(jì)算分析呢?這就會(huì)涉及到如下的分布式文件存儲(chǔ)。

常見(jiàn)的分布式文件系統(tǒng)

GFS、HDFS、Lustre 、Ceph 、GridFS 、mogileFS、TFS、FastDFS等。各自適用于不同的領(lǐng)域。它們都不是系統(tǒng)級(jí)的分布式文件系統(tǒng)，而是應(yīng)用級(jí)的分布式文件存儲(chǔ)服務(wù)。

分布式文件存儲(chǔ)選型比較

知名開(kāi)源分布式文件存儲(chǔ)

1.GFS(Google File System)

Google公司為了滿(mǎn)足本公司需求而開(kāi)發(fā)的基于Linux的專(zhuān)有分布式文件系統(tǒng)。盡管Google公布了該系統(tǒng)的一些技術(shù)細(xì)節(jié)，但Google并沒(méi)有將該系統(tǒng)的軟件部分作為開(kāi)源軟件發(fā)布。

2.HDFS

Hadoop 實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)(Hadoop Distributed File System)，簡(jiǎn)稱(chēng)HDFS。 Hadoop是Apache Lucene創(chuàng)始人Doug Cutting開(kāi)發(fā)的使用廣泛的文本搜索庫(kù)。它起源于Apache Nutch，

后者是一個(gè)開(kāi)源的網(wǎng)絡(luò)搜索引擎，本身也是Luene項(xiàng)目的一部分。Aapche Hadoop架構(gòu)是MapReduce算法的一種開(kāi)源應(yīng)用，是Google開(kāi)創(chuàng)其帝國(guó)的重要基石。

3.TFS

TFS(Taobao FileSystem)是一個(gè)高可擴(kuò)展、高可用、高性能、面向互聯(lián)網(wǎng)服務(wù)的分布式文件系統(tǒng)，主要針對(duì)海量的非結(jié)構(gòu)化數(shù)據(jù)，它構(gòu)筑在普通的Linux機(jī)器集群上，可為外部提供高可靠

和高并發(fā)的存儲(chǔ)訪(fǎng)問(wèn)。TFS為淘寶提供海量小文件存儲(chǔ)，通常文件大小不超過(guò)1M，滿(mǎn)足了淘寶對(duì)小文件存儲(chǔ)的需求，被廣泛地應(yīng)用在淘寶各項(xiàng)應(yīng)用中。它采用了HA架構(gòu)和平滑擴(kuò)容，保證了整個(gè)文件系統(tǒng)的可用性和擴(kuò)展性。同時(shí)扁平化的數(shù)據(jù)組織結(jié)構(gòu)，可將文件名映射到文件的物理地址，簡(jiǎn)化了文件的訪(fǎng)問(wèn)流程，一定程度上為T(mén)FS提供了良好的讀寫(xiě)性能。

Google學(xué)術(shù)論文，這是眾多分布式文件系統(tǒng)的起源，HDFS和TFS都是參考Google的GFS設(shè)計(jì)出來(lái)的。

典型的分布式文件存儲(chǔ)的架構(gòu)設(shè)計(jì)

我以hadoop的HDFS為例，畢竟開(kāi)源的分布式文件存儲(chǔ)使用的最多。

Hadoop分布式文件系統(tǒng)(HDFS)被設(shè)計(jì)成適合運(yùn)行在通用硬件(commodity hardware)上的分布式文件系統(tǒng)。HDFS是一個(gè)高度容錯(cuò)性的系統(tǒng)，適合部署在廉價(jià)的機(jī)器上。HDFS能提供高吞吐量的數(shù)據(jù)訪(fǎng)問(wèn)，非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。HDFS放寬了一部分POSIX約束，來(lái)實(shí)現(xiàn)流式讀取文件系統(tǒng)數(shù)據(jù)的目的。

大規(guī)模數(shù)據(jù)集

運(yùn)行在HDFS上的應(yīng)用具有很大的數(shù)據(jù)集。HDFS上的一個(gè)典型文件大小一般都在G字節(jié)至T字節(jié)。因此，HDFS被調(diào)節(jié)以支持大文件存儲(chǔ)。它應(yīng)該能提供整體上高的數(shù)據(jù)傳輸帶寬，能在一個(gè)集群里擴(kuò)展到數(shù)百個(gè)節(jié)點(diǎn)。一個(gè)單一的HDFS實(shí)例應(yīng)該能支撐數(shù)以千萬(wàn)計(jì)的文件。

簡(jiǎn)單的一致性模型

HDFS應(yīng)用需要一個(gè)“一次寫(xiě)入多次讀取”的文件訪(fǎng)問(wèn)模型。一個(gè)文件經(jīng)過(guò)創(chuàng)建、寫(xiě)入和關(guān)閉之后就不需要改變。這一假設(shè)簡(jiǎn)化了數(shù)據(jù)一致性問(wèn)題，并且使高吞吐量的數(shù)據(jù)訪(fǎng)問(wèn)成為可能。Map/Reduce應(yīng)用或者網(wǎng)絡(luò)爬蟲(chóng)應(yīng)用都非常適合這個(gè)模型。目前還有計(jì)劃在將來(lái)擴(kuò)充這個(gè)模型，使之支持文件的附加寫(xiě)操作。

異構(gòu)軟硬件平臺(tái)間的可移植性

HDFS在設(shè)計(jì)的時(shí)候就考慮到平臺(tái)的可移植性。這種特性方便了HDFS作為大規(guī)模數(shù)據(jù)應(yīng)用平臺(tái)的推廣。

Namenode 和 Datanode

HDFS采用master/slave架構(gòu)。一個(gè)HDFS集群是由一個(gè)Namenode和一定數(shù)目的Datanodes組成。

Namenode是一個(gè)中心服務(wù)器，負(fù)責(zé)管理文件系統(tǒng)的名字空間(namespace)以及客戶(hù)端對(duì)文件的訪(fǎng)問(wèn)。

集群中的Datanode一般是一個(gè)節(jié)點(diǎn)一個(gè)，負(fù)責(zé)管理它所在節(jié)點(diǎn)上的存儲(chǔ)。HDFS暴露了文件系統(tǒng)的名字空間，用戶(hù)能夠以文件的形式在上面存儲(chǔ)數(shù)據(jù)。從內(nèi)部看，一個(gè)文件其實(shí)被分成一個(gè)或多個(gè)數(shù)據(jù)塊，這些塊存儲(chǔ)在一組Datanode上。

Namenode執(zhí)行文件系統(tǒng)的名字空間操作，比如打開(kāi)、關(guān)閉、重命名文件或目錄。它也負(fù)責(zé)確定數(shù)據(jù)塊到具體Datanode節(jié)點(diǎn)的映射。Datanode負(fù)責(zé)處理文件系統(tǒng)客戶(hù)端的讀寫(xiě)請(qǐng)求。在Namenode的統(tǒng)一調(diào)度下進(jìn)行數(shù)據(jù)塊的創(chuàng)建、刪除和復(fù)制。

Namenode和Datanode被設(shè)計(jì)成可以在普通的商用機(jī)器上運(yùn)行。這些機(jī)器一般運(yùn)行著GNU/Linux操作系統(tǒng)(OS)。HDFS采用Java語(yǔ)言開(kāi)發(fā)，因此任何支持Java的機(jī)器都可以部署Namenode或Datanode。由于采用了可移植性極強(qiáng)的Java語(yǔ)言，使得HDFS可以部署到多種類(lèi)型的機(jī)器上。一個(gè)典型的部署場(chǎng)景是一臺(tái)機(jī)器上只運(yùn)行一個(gè)Namenode實(shí)例，而集群中的其它機(jī)器分別運(yùn)行一個(gè)Datanode實(shí)例。這種架構(gòu)并不排斥在一臺(tái)機(jī)器上運(yùn)行多個(gè)Datanode，只不過(guò)這樣的情況比較少見(jiàn)。

分布式存儲(chǔ)的未來(lái)

隨著現(xiàn)代社會(huì)從工業(yè)時(shí)代過(guò)渡到信息時(shí)代，信息技術(shù)的發(fā)展以及人類(lèi)生活的智能化帶來(lái)數(shù)據(jù)的爆炸性增長(zhǎng)，數(shù)據(jù)正成為世界上最有價(jià)值的資源。

根據(jù)物理存儲(chǔ)形態(tài)，數(shù)據(jù)存儲(chǔ)可分為集中式存儲(chǔ)與分布式存儲(chǔ)兩種。集中式存儲(chǔ)以傳統(tǒng)存儲(chǔ)陣列(傳統(tǒng)存儲(chǔ))為主，分布式存儲(chǔ)(云存儲(chǔ))以軟件定義存儲(chǔ)為主。

傳統(tǒng)存儲(chǔ)一向以可靠性高、穩(wěn)定性好，功能豐富而著稱(chēng)，但與此同時(shí)，傳統(tǒng)存儲(chǔ)也暴露出橫向擴(kuò)展性差、價(jià)格昂貴、數(shù)據(jù)連通困難等不足，容易形成數(shù)據(jù)孤島，導(dǎo)致數(shù)據(jù)中心管理和維護(hù)成本居高不下。

分布式存儲(chǔ)：將數(shù)據(jù)分散存儲(chǔ)在網(wǎng)絡(luò)上的多臺(tái)獨(dú)立設(shè)備上，一般采用標(biāo)準(zhǔn)x86服務(wù)器和網(wǎng)絡(luò)互聯(lián)，并在其上運(yùn)行相關(guān)存儲(chǔ)軟件，系統(tǒng)對(duì)外作為一個(gè)整體提供存儲(chǔ)服務(wù)。。

總之，分布式文件存儲(chǔ)，不僅提高了存儲(chǔ)空間的利用率，還實(shí)現(xiàn)了彈性擴(kuò)展，降低了運(yùn)營(yíng)成本，避免了資源浪費(fèi)，更適合未來(lái)的數(shù)據(jù)爆炸時(shí)代場(chǎng)景。

當(dāng)前標(biāo)題：常見(jiàn)分布式文件存儲(chǔ)介紹、選型比較、以及架構(gòu)設(shè)計(jì)
標(biāo)題來(lái)源：http://uogjgqi.cn/article/dhoedee.html

掃二維碼與項(xiàng)目經(jīng)理溝通

我們?cè)谖⑿派?4小時(shí)期待你的聲音

解答本文疑問(wèn)/技術(shù)咨詢(xún)/運(yùn)營(yíng)咨詢(xún)/技術(shù)建議/互聯(lián)網(wǎng)交流

av激情亚洲男人的天堂国语,日韩欧美精品一中文字幕,无码av一区二区三区无码,国产又色又爽又刺激的a片,国产又色又爽又刺激的a片

常見(jiàn)分布式文件存儲(chǔ)介紹、選型比較、以及架構(gòu)設(shè)計(jì)

常見(jiàn)分布式文件存儲(chǔ)介紹、選型比較、以及架構(gòu)設(shè)計(jì)

掃二維碼與項(xiàng)目經(jīng)理溝通

其他資訊

行業(yè)動(dòng)態(tài)

企業(yè)網(wǎng)站建設(shè)的重要性！

服務(wù)項(xiàng)目

網(wǎng)站建設(shè)

移動(dòng)端/APP

微信/小程序

技術(shù)支持

其它服務(wù)

更多服務(wù)項(xiàng)目

聯(lián)系吧在百度地圖上找到我們

電話(huà)：13518219792

av激情亚洲男人的天堂国语,日韩欧美精品一中文字幕,无码av一区二区三区无码,国产又色又爽又刺激的a片,国产又色又爽又刺激的a片

常見(jiàn)分布式文件存儲(chǔ)介紹、選型比較、以及架構(gòu)設(shè)計(jì)

常見(jiàn)分布式文件存儲(chǔ)介紹、選型比較、以及架構(gòu)設(shè)計(jì)

掃二維碼與項(xiàng)目經(jīng)理溝通

其他資訊

行業(yè)動(dòng)態(tài)

企業(yè)網(wǎng)站建設(shè)的重要性！

服務(wù)項(xiàng)目

網(wǎng)站建設(shè)

移動(dòng)端/APP

微信/小程序

技術(shù)支持

其它服務(wù)

更多服務(wù)項(xiàng)目

聯(lián)系吧 在百度地圖上找到我們

電話(huà)：13518219792

常見(jiàn)分布式文件存儲(chǔ)介紹、選型比較、以及架構(gòu)設(shè)計(jì)

常見(jiàn)分布式文件存儲(chǔ)介紹、選型比較、以及架構(gòu)設(shè)計(jì)

企業(yè)網(wǎng)站建設(shè)的重要性！

聯(lián)系吧在百度地圖上找到我們