掃二維碼與項(xiàng)目經(jīng)理溝通
我們在微信上24小時期待你的聲音
解答本文疑問/技術(shù)咨詢/運(yùn)營咨詢/技術(shù)建議/互聯(lián)網(wǎng)交流
在學(xué)習(xí)Hadoop的過程中,你可能會遇到HadoopStudio中開發(fā)部署MapReduce應(yīng)用問題,這里向大家介紹一下,希望通過本節(jié)的介紹,大家能夠掌握HadoopStudio下開發(fā)部署MapReduce應(yīng)用的方法。

HadoopStudio開發(fā)部署MapReduce應(yīng)用
HadoopStudio是基于Hadoop框架的MapReduce應(yīng)用集成開發(fā)和部署環(huán)境。HadoopStudio以NetBeans模塊插件的方式使用,可在NetBeans插件中心獲取。開發(fā)者可以通過HadoopStudio的可視化界面,部署分布在不同節(jié)點(diǎn)的計(jì)算任務(wù),并監(jiān)控MapReduce處理過程中各階段的輸入、輸出以及交互過程。
針對MapReduce任務(wù)執(zhí)行過程的各要素,HadoopStudio提供了HDFS、JobTracker以及Cluster節(jié)點(diǎn)的配置工具。使用HadoopStudio配置之前,需要預(yù)先在目標(biāo)機(jī)器上部署Hadoop作業(yè)執(zhí)行環(huán)境,在UbuntuLinux上的Hadoop配置過程,已有詳盡教程(單節(jié)點(diǎn),多節(jié)點(diǎn))可供參考。
在HadoopStudio中對作業(yè)節(jié)點(diǎn)配置,首先需要定義負(fù)責(zé)數(shù)據(jù)存儲的Filesystems節(jié)點(diǎn),可選節(jié)點(diǎn)包含本地磁盤訪問、HDFS文件系統(tǒng)和AmazonS3連接三種方式。HDFS節(jié)點(diǎn)的配置,需要指定NameNode節(jié)點(diǎn)的地址、訪問端口和登錄用戶名,其中登錄用戶名為可選項(xiàng)。對于目前***的r0.20版本,F(xiàn)ilesystems節(jié)點(diǎn)的端口配置由conf/hadoop-site.xml改為在conf/core-site.xml中設(shè)定。
在HadoopCluster配置部分,添加遠(yuǎn)程計(jì)算節(jié)點(diǎn)對應(yīng)的JobTracker,指定節(jié)點(diǎn)的地址,并在下拉列表中選擇之前添加的Filesystems節(jié)點(diǎn),添加的節(jié)點(diǎn)則會出現(xiàn)在Hadoop可用節(jié)點(diǎn)的列表中。在主節(jié)點(diǎn)計(jì)算任務(wù)啟動之后,包含DataNode、TaskTracker、JobTracker、NameNode、SecondaryNameNode進(jìn)程。對于數(shù)據(jù)處理,集群中結(jié)點(diǎn)由一個NameNode和若干DataNode組成,SecondaryNameNode為NameNode的備份。計(jì)算任務(wù)中,節(jié)點(diǎn)由一個JobTracker和若干TaskTracker組成,JobTracker負(fù)責(zé)任務(wù)調(diào)度,TaskTracker執(zhí)行并行計(jì)算任務(wù)。TaskTracker須運(yùn)行在DataNode上以獲取用于計(jì)算的數(shù)據(jù)。
對于已編寫的計(jì)算任務(wù),HadoopStudio提供了簡化的作業(yè)部署流程。首先在HadoopJobs中添加生成好的jar包(如Hadoop自帶的Hadoop-*-examples.jar示例),之后選擇要執(zhí)行的主類并添加依賴項(xiàng),并選擇執(zhí)行任務(wù)的目標(biāo)Cluster節(jié)點(diǎn)和目標(biāo)Filesystems后即可啟動計(jì)算任務(wù)。同時,HadoopStudio提供了實(shí)時顯示的MapReduce任務(wù)工作流視圖,可顯示任務(wù)執(zhí)行過程中的作業(yè)類型、完成情況、執(zhí)行狀態(tài)、起止時間、報(bào)錯信息以及輸出結(jié)果等內(nèi)容。
Hadoop應(yīng)用開發(fā)方面,HadoopStudio將Hadoop類庫進(jìn)行打包,可直接在項(xiàng)目中添加所有依賴項(xiàng)。編碼過程中,HadoopStudio為每種作業(yè)的提供了模板,并能夠在代碼編輯的同時自動對模板視圖進(jìn)行更新。
目前HadoopStudio支持Hadoop0.18.x版本的ClientAPI和Hadoop0.20.x的Client與Server的API,并且支持不同版本Hadoop的混合使用。但HadoopStudio目前的文檔比較簡單,感興趣的朋友可以在freshmeat.net的項(xiàng)目站點(diǎn)跟蹤HadoopStudio的***信息。
【編輯推薦】

我們在微信上24小時期待你的聲音
解答本文疑問/技術(shù)咨詢/運(yùn)營咨詢/技術(shù)建議/互聯(lián)網(wǎng)交流