掃二維碼與項(xiàng)目經(jīng)理溝通
我們?cè)谖⑿派?4小時(shí)期待你的聲音
解答本文疑問(wèn)/技術(shù)咨詢/運(yùn)營(yíng)咨詢/技術(shù)建議/互聯(lián)網(wǎng)交流
在當(dāng)今數(shù)據(jù)驅(qū)動(dòng)的時(shí)代,構(gòu)建一個(gè)快速、安全和高可靠的實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)對(duì)于企業(yè)來(lái)說(shuō)至關(guān)重要。Apache Doris作為一個(gè)強(qiáng)大的開源數(shù)據(jù)倉(cāng)庫(kù)解決方案,提供了實(shí)現(xiàn)這一目標(biāo)的理想選擇。通過(guò)利用Doris的強(qiáng)大功能和特性,可以構(gòu)建一個(gè)高度可擴(kuò)展且具備優(yōu)異性能的實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù),以滿足數(shù)據(jù)處理和分析的需求。本文介紹如何基于Doris打造這樣一個(gè)數(shù)據(jù)倉(cāng)庫(kù),以實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)。

成都創(chuàng)新互聯(lián)公司專業(yè)為企業(yè)提供宜春網(wǎng)站建設(shè)、宜春做網(wǎng)站、宜春網(wǎng)站設(shè)計(jì)、宜春網(wǎng)站制作等企業(yè)網(wǎng)站建設(shè)、網(wǎng)頁(yè)設(shè)計(jì)與制作、宜春企業(yè)網(wǎng)站模板建站服務(wù),10多年宜春做網(wǎng)站經(jīng)驗(yàn),不只是建網(wǎng)站,更提供有價(jià)值的思路和整體網(wǎng)絡(luò)服務(wù)。
Apache Doris使用三種數(shù)據(jù)模型來(lái)組織數(shù)據(jù),這些模型之間的主要區(qū)別在于是否以及如何聚合數(shù)據(jù)。
金融用戶在不同的數(shù)據(jù)倉(cāng)庫(kù)層中采用不同的數(shù)據(jù)模型:
分區(qū)和桶化的思想是將數(shù)據(jù)“切割”成較小的部分,以增加數(shù)據(jù)處理速度。關(guān)鍵是設(shè)置適當(dāng)數(shù)量的數(shù)據(jù)分區(qū)和桶。根據(jù)使用情況,根據(jù)每個(gè)表自定義桶化字段和桶的數(shù)量。例如,經(jīng)常需要從零售商扁平表查詢不同零售商的維度數(shù)據(jù),因此可以將零售商ID列指定為桶化字段,并列出各種數(shù)據(jù)大小的推薦桶數(shù)量。
圖片
在采用Apache Doris時(shí),需要將所有分支機(jī)構(gòu)的本地?cái)?shù)據(jù)遷移到Doris中,但會(huì)發(fā)現(xiàn)分支機(jī)構(gòu)使用了不同的數(shù)據(jù)庫(kù),并且具有非常不同的數(shù)據(jù)文件格式,所以遷移可能會(huì)很混亂。
圖片
幸運(yùn)的是,Apache Doris支持豐富的數(shù)據(jù)集成方法,既支持實(shí)時(shí)數(shù)據(jù)流式處理,又支持離線數(shù)據(jù)導(dǎo)入。
為了確保業(yè)務(wù)連續(xù)性和數(shù)據(jù)準(zhǔn)確性,可用以下攝取全量數(shù)據(jù)和增量數(shù)據(jù)的方法:
ALTER TABLE t1 REPLACE WITH TABLE t2語(yǔ)句原子替換常規(guī)表為臨時(shí)表。這種方法可以避免對(duì)前面的查詢產(chǎn)生影響。alter table ${DB_NAME}.${TBL_NAME} drop partition IF EXISTS p${P_DOWN_DATE};
ALTER TABLE ${DB_NAME}.${TBL_NAME} ADD PARTITION IF NOT EXISTS p${P_DOWN_DATE} VALUES[('${P_DOWN_DATE}'), ('${P_UP_DATE}'));
LOAD LABEL ${TBL_NAME}_${load_timestamp} ...已經(jīng)將部分離線數(shù)據(jù)處理工作遷移到Apache Doris,并把執(zhí)行速度提高了5倍。
圖片
多租戶資源隔離
這是必需的,因?yàn)榻?jīng)常會(huì)發(fā)生多個(gè)團(tuán)隊(duì)或業(yè)務(wù)系統(tǒng)請(qǐng)求同一數(shù)據(jù)的情況。這些任務(wù)可能導(dǎo)致資源搶占,從而降低性能和系統(tǒng)的穩(wěn)定性。
這里把分析工作負(fù)載分為四類,并為每個(gè)類別設(shè)置了資源限制。特別是擁有四種不同類型的Doris賬戶,并為每種類型的賬戶設(shè)置了CPU和內(nèi)存資源的限制。
圖片
通過(guò)這種方式,當(dāng)一個(gè)租戶需要過(guò)多的資源時(shí),它只會(huì)影響自己的效率,而不會(huì)影響其他租戶。
為了滿足母子公司層級(jí)的數(shù)據(jù)安全性,這里為子公司設(shè)置隔離的資源組。每個(gè)子公司的數(shù)據(jù)存儲(chǔ)在其自己的資源組中,并具有三個(gè)副本,而母公司的數(shù)據(jù)則存儲(chǔ)在四個(gè)副本中:三個(gè)在母公司資源組中,另一個(gè)在子公司資源組中。因此,當(dāng)子公司的員工請(qǐng)求母公司的數(shù)據(jù)時(shí),查詢只會(huì)在子公司資源組中執(zhí)行。具體而言,采取以下步驟:
圖片
基于資源標(biāo)簽的隔離方案確保了物理級(jí)別的隔離,但作為Apache Doris開發(fā)人員,希望進(jìn)一步優(yōu)化資源利用率并追求更細(xì)粒度的資源隔離。為此,在Apache Doris 2.0中推出了工作負(fù)載組功能。
工作負(fù)載組機(jī)制將查詢與工作負(fù)載組相關(guān)聯(lián),限制了查詢可以使用的后端節(jié)點(diǎn)的CPU和內(nèi)存資源的共享。當(dāng)集群資源短缺時(shí),最大的查詢將停止執(zhí)行。相反,當(dāng)集群資源充足且工作負(fù)載組需要的資源超過(guò)限制時(shí),它將按比例分配空閑資源。
出于規(guī)章制度和合規(guī)性原因,有的提供商實(shí)施嚴(yán)格的權(quán)限控制,以確保每個(gè)人只能訪問(wèn)他們應(yīng)該訪問(wèn)的內(nèi)容。參考做法如下:
圖片

我們?cè)谖⑿派?4小時(shí)期待你的聲音
解答本文疑問(wèn)/技術(shù)咨詢/運(yùn)營(yíng)咨詢/技術(shù)建議/互聯(lián)網(wǎng)交流