計(jì)劃將Elasticsearch引入系統(tǒng)架構(gòu)，領(lǐng)導(dǎo)卻死活不同意……

?前言

我曾經(jīng)面試安踏的技術(shù)崗，當(dāng)時(shí)面試官問了我一個(gè)問題：如果你想使用某個(gè)新技術(shù)但是領(lǐng)導(dǎo)不愿意，你怎么辦？

創(chuàng)新互聯(lián)建站專注于武平網(wǎng)站建設(shè)服務(wù)及定制，我們擁有豐富的企業(yè)做網(wǎng)站經(jīng)驗(yàn)。熱誠(chéng)為您提供武平營(yíng)銷型網(wǎng)站建設(shè)，武平網(wǎng)站制作、武平網(wǎng)頁(yè)設(shè)計(jì)、武平網(wǎng)站官網(wǎng)定制、微信平臺(tái)小程序開發(fā)服務(wù)，打造武平網(wǎng)絡(luò)公司原創(chuàng)品牌,更為您提供武平網(wǎng)站排名全網(wǎng)營(yíng)銷落地服務(wù)。

對(duì)于該問題我相信大家就算沒有面試被問到過(guò)，現(xiàn)實(shí)工作中同事之間的合作也會(huì)遇到?！?/p>

因此從我的角度重新去回答這個(gè)問題，有以下幾點(diǎn)：

師出有名

在軟件工程里是針對(duì)問題場(chǎng)景提供解決方案的，如果脫離的實(shí)際問題（需求）去做技術(shù)選型，無(wú)疑是耍流氓。大家可以回顧身邊的“架構(gòu)師”、“技術(shù)Leader”是不是拍拍腦袋做決定，問他們?yōu)槭裁催@么做，可能連個(gè)冠冕堂皇的理由都給不出。

信任度

只有基于上面的條件，你才有理由建議引入新技術(shù)。領(lǐng)導(dǎo)愿不愿意引入新技術(shù)有很多原因：領(lǐng)導(dǎo)不了解這技術(shù)、領(lǐng)導(dǎo)偏保守、領(lǐng)導(dǎo)不是做技術(shù)的等。那么我認(rèn)為這幾種都是信任度，這種信任度分人和事，人就是引入技術(shù)的提出者，事就是提出引入的技術(shù)。

盡人事

任何問題只是單純解決事都是簡(jiǎn)單的，以我以往的做法，把基本資料收集全并以通俗易懂的方式歸納與講解，最好能提供一些能量化的數(shù)據(jù)，這樣更加有說(shuō)服力。知識(shí)普及OK后，就可以嘗試寫方案與做個(gè)Demo，方案最好可以提供多個(gè)，可以分短期收益與長(zhǎng)期收益的。完成上面幾點(diǎn)可以說(shuō)已經(jīng)盡人事了，如果領(lǐng)導(dǎo)還不答應(yīng)那么的確有他的顧慮，就算無(wú)法落實(shí)，到目前為止的收獲也不錯(cuò)。

復(fù)雜的是人

任何人都無(wú)法時(shí)刻站在理智與客觀的角度去看待問題，事是由人去辦的，所以同一件事由不同的人說(shuō)出來(lái)的效果也不一樣。因此得學(xué)會(huì)向上管理、保持與同事之間合作融洽度，盡早的建立合作信任。本篇文章更多敘述的事，因此人方面不過(guò)多深究，有興趣的我可以介紹一本書《知行技術(shù)人的管理之路》。

本篇我的實(shí)踐做法與上述一樣，除了4無(wú)法體現(xiàn)。那么下文我分了4大模塊：業(yè)務(wù)背景介紹、基礎(chǔ)概念講解、方案的選用與技術(shù)細(xì)節(jié)。

部分源碼，我放到了https://github.com/SkyChenSky/Sikiro 的Sikiro.ES.Api里。

一、背景

本公司多年以來(lái)用SQL Server作為主存儲(chǔ)，隨著多年的業(yè)務(wù)發(fā)展，已經(jīng)到了數(shù)千萬(wàn)級(jí)的數(shù)據(jù)量。

而部分非核心業(yè)務(wù)原本應(yīng)該超億的量級(jí)了，但是因?yàn)閺奈锢肀淼脑O(shè)計(jì)優(yōu)化上進(jìn)行了數(shù)據(jù)壓縮，導(dǎo)致維持在一個(gè)比較穩(wěn)定的數(shù)量。壓縮數(shù)據(jù)雖然能減少存儲(chǔ)量，優(yōu)化提供一定的性能，但是同時(shí)帶來(lái)的損失了業(yè)務(wù)可擴(kuò)展性。舉個(gè)例子：我們平臺(tái)某個(gè)用戶擁有最后訪問作品記錄和總的閱讀時(shí)長(zhǎng)，但是沒有某個(gè)用戶的閱讀明細(xì)，那么這樣的設(shè)計(jì)就會(huì)導(dǎo)致后續(xù)新增一個(gè)抽獎(jiǎng)業(yè)務(wù)，需要在某個(gè)時(shí)間段內(nèi)閱讀了多長(zhǎng)時(shí)間或者章節(jié)數(shù)量的作品，才能參加與抽獎(jiǎng)；或者運(yùn)營(yíng)想通過(guò)閱讀記錄統(tǒng)計(jì)或者分析出，用戶的愛好和受歡迎的作品?，F(xiàn)有的設(shè)計(jì)對(duì)以上兩種業(yè)務(wù)情況都是無(wú)法滿足的。

此外我們平臺(tái)還有作品搜索功能，like ‘%搜索%’查詢是不走索引的而走全表掃描，一張表42W全表掃描，數(shù)據(jù)庫(kù)服務(wù)器配置可以的情況下還是可以的，但是存在并發(fā)請(qǐng)求時(shí)候，資源消耗就特別厲害了，特別是在偶爾被爬蟲爬取數(shù)據(jù)。（我們平臺(tái)API的并發(fā)峰值能達(dá)到8w/s，每天的接口在淡季請(qǐng)求次數(shù)達(dá)到了1億1千萬(wàn)）

關(guān)系型數(shù)據(jù)庫(kù)擁有ACID特性，能通過(guò)金融級(jí)的事務(wù)達(dá)成數(shù)據(jù)的一致性，然而它卻沒有橫向擴(kuò)展性，只要在海量數(shù)據(jù)場(chǎng)景下，單實(shí)例，無(wú)論怎么在關(guān)系型數(shù)據(jù)庫(kù)做優(yōu)化，都是只是治標(biāo)。而NoSQL的出現(xiàn)很好的彌補(bǔ)了關(guān)系型數(shù)據(jù)庫(kù)的短板，在馬丁福勒所著的《NoSQL精粹》對(duì)NoSQL進(jìn)行了分類：文檔型、圖形、列式，鍵值，從我的角度其實(shí)可以把搜索引擎納入NoSQL范疇，因?yàn)樗拇_滿足的NoSQL的4大特性：易擴(kuò)展、大數(shù)據(jù)量高性能、靈活的數(shù)據(jù)模型、高可用。我看過(guò)一些同行的見解，把Elasticsearch歸為文檔型NoSQL，我個(gè)人是沒有給他下過(guò)于明確的定義，這個(gè)上面說(shuō)法大家見仁見智。

MongoDB作為文檔型數(shù)據(jù)庫(kù)也屬于我的技術(shù)選型范圍，它的讀寫性能高且平衡、數(shù)據(jù)分片與橫向擴(kuò)展等都非常適合我們平臺(tái)部分場(chǎng)景，最后我還是選擇Elasticsearch。原因有三：

我們運(yùn)維相比于MongoDB更熟悉Elasticsearch。
我們接下來(lái)有一些統(tǒng)計(jì)報(bào)表類的需求，Elastic Stack的各種工具能很好滿足我們的需求。
我們目前著手處理的場(chǎng)景以非實(shí)時(shí)、純讀為主的業(yè)務(wù)，Elasticsearch近實(shí)時(shí)搜索已經(jīng)能滿足我們。

二、Elasticsearch優(yōu)缺點(diǎn)

百度百科：

Elasticsearch是一個(gè)基于Lucene的搜索服務(wù)器。它提供了一個(gè)分布式多用戶能力的全文搜索引擎，基于RESTful web接口。Elasticsearch由Java語(yǔ)言開發(fā)的，是一種流行的企業(yè)級(jí)搜索引擎。Elasticsearch用于云計(jì)算中，能夠達(dá)到實(shí)時(shí)搜索，穩(wěn)定，可靠，快速，安裝使用方便。官方客戶端在Java、.NET（C#）、PHP、Python、Apache Groovy、Ruby和許多其他語(yǔ)言中都是可用的。

對(duì)于滿足當(dāng)下的業(yè)務(wù)需求和未來(lái)支持海量數(shù)據(jù)的搜索，我選擇了Elasticsearch，其實(shí)原因主要以下幾點(diǎn)：

那么我個(gè)人認(rèn)為Elasticsearch比較大的缺點(diǎn)只有吃內(nèi)存，具體原因可以看下文內(nèi)存讀取部分。

三、Elasticsearch為什么快？

我個(gè)人對(duì)于Elasticsearch快的原因主要總結(jié)三點(diǎn)：

內(nèi)存讀取
多種索引：倒排索引和doc values。
集群分片

1、內(nèi)存讀取

Elasticsearch是基于Lucene，而Lucene被設(shè)計(jì)為可以利用操作系統(tǒng)底層機(jī)制來(lái)緩存內(nèi)存數(shù)據(jù)結(jié)構(gòu)，換句話說(shuō)Elasticsearch是依賴于操作系統(tǒng)底層的Filesystem Cache，查詢時(shí)，操作系統(tǒng)會(huì)將磁盤文件里的數(shù)據(jù)自動(dòng)緩存到 Filesystem Cache 里面去，因此要求Elasticsearch性能足夠高，那么就需要服務(wù)器的提供的足夠內(nèi)存給Filesystem Cache 覆蓋存儲(chǔ)的數(shù)據(jù)。

上一段最后一句話什么意思呢？假如：Elasticsearch 節(jié)點(diǎn)有 3 臺(tái)服務(wù)器各64G內(nèi)存，3臺(tái)總內(nèi)存就是 64 * 3 = 192G。每臺(tái)機(jī)器給 Elasticsearch jvm heap 是 32G，那么每服務(wù)器留給 Filesystem Cache 的就是 32G（50%），而集群里的 Filesystem Cache 的就是 32 * 3 = 96G 內(nèi)存。此時(shí)，在 3 臺(tái)Elasticsearch服務(wù)器共占用了 1T 的磁盤容量，那么每臺(tái)機(jī)器的數(shù)據(jù)量約等于 341G，意味著每臺(tái)服務(wù)器只有大概10分之1數(shù)據(jù)是緩存在內(nèi)存的，其余都得走硬盤。

說(shuō)到這里大家未必會(huì)有一個(gè)直觀得認(rèn)識(shí)，因此我從《大型網(wǎng)站技術(shù)架構(gòu)：核心原理與案例分析》第36頁(yè)摳了一張表格下來(lái)：

從上圖加粗項(xiàng)看出，內(nèi)存讀取性能是機(jī)械磁盤的200倍，是SSD磁盤約等于30倍，假如讀一次Elasticsearch走內(nèi)存場(chǎng)景下耗時(shí)20毫秒，那么走機(jī)械硬盤就得4秒，走SSD磁盤可能約等于0.6秒。講到這里我相信大家對(duì)是否走內(nèi)存的性能差異有一個(gè)直觀的認(rèn)識(shí)。

對(duì)于Elasticsearch有很多種索引類型，但是我認(rèn)為核心主要是倒排索引和doc values。

2、倒排索引

Lucene將寫入索引的所有信息組織為倒排索引（inverted index）的結(jié)構(gòu)形式。倒排索引是一種將分詞映射到文檔的數(shù)據(jù)結(jié)構(gòu)，可以認(rèn)為倒排索引是面向分詞的而不是面向文檔的。

假設(shè)在測(cè)試環(huán)境的Elasticsearch存放了有以下三個(gè)文檔：

Elasticsearch Server（文檔1）
Masterring Elasticsearch（文檔2）
Apache Solr 4 Cookbook（文檔3）

以上文檔索引建好后，簡(jiǎn)略顯示如下：

如上表格所示，每個(gè)詞項(xiàng)指向該詞項(xiàng)所出現(xiàn)過(guò)的文檔位置，這種索引結(jié)構(gòu)允許快速、有效的搜索出數(shù)據(jù)。

3、doc values

對(duì)于分組、聚合、排序等某些功能來(lái)說(shuō)，倒排索引的方式并不是最佳選擇，這類功能操作的是文檔而不是詞項(xiàng)，這個(gè)時(shí)候就得把倒排索引逆轉(zhuǎn)過(guò)來(lái)成正排索引，這么做會(huì)有兩個(gè)缺點(diǎn)：

構(gòu)建時(shí)間長(zhǎng)。
內(nèi)存占用大，易OutOfMemory，且影響垃圾回收。

Lucene 4.0之后版本引入了doc values和額外的數(shù)據(jù)結(jié)構(gòu)來(lái)解決上面得問題，目前有五種類型的doc values：NUMERIC、BINARY、SORTED、SORTED_SET、SORTED_NUMERIC，針對(duì)每種類型Lucene都有特定的壓縮方法。

doc values是列式存儲(chǔ)的正排索引，通過(guò)docID可以快速讀取到該doc的特定字段的值，列式存儲(chǔ)存儲(chǔ)對(duì)于聚合計(jì)算有非常高的性能。

4、集群分片

Elasticsearch可以簡(jiǎn)單、快速利用多節(jié)點(diǎn)服務(wù)器形成集群，以此分?jǐn)偡?wù)器的執(zhí)行壓力。

此外數(shù)據(jù)可以進(jìn)行分片存儲(chǔ)，搜索時(shí)并發(fā)到不同服務(wù)器上的主分片進(jìn)行搜索。

這里可以簡(jiǎn)單講述下Elasticsearch查詢?cè)恚珽lasticsearch的查詢分兩個(gè)階段：分散階段與合并階段。

任意一個(gè)Elasticsearch節(jié)點(diǎn)都可以接受客戶端的請(qǐng)求。接受到請(qǐng)求后，就是分散階段，并行發(fā)送子查詢給其他節(jié)點(diǎn)；

然后是合并階段，則從眾多分片中收集返回結(jié)果，然后對(duì)他們進(jìn)行合并、排序、取長(zhǎng)等后續(xù)操作。最終將結(jié)果返回給客戶端。

機(jī)制如下圖：

分頁(yè)深度陷阱

基于以上查詢的原理，擴(kuò)展一個(gè)分頁(yè)深度的問題。

現(xiàn)需要查頁(yè)長(zhǎng)為10、第100頁(yè)的數(shù)據(jù)，實(shí)際上是會(huì)把每個(gè) Shard 上存儲(chǔ)的前 1000（10*100）條數(shù)據(jù)都查到一個(gè)協(xié)調(diào)節(jié)點(diǎn)上。如果有 5 個(gè) Shard，那么就有 5000 條數(shù)據(jù)，接著協(xié)調(diào)節(jié)點(diǎn)對(duì)這 5000 條數(shù)據(jù)進(jìn)行一些合并、處理，再獲取到最終第 100 頁(yè)的 10 條數(shù)據(jù)。也就是實(shí)際上查的數(shù)據(jù)總量為pageSize*pageIndex*shard，頁(yè)數(shù)越深則查詢的越慢。因此ElasticSearch也會(huì)有要求，每次查詢出來(lái)的數(shù)據(jù)總數(shù)不會(huì)返回超過(guò)10000條。

那么從業(yè)務(wù)上盡可能跟產(chǎn)品溝通避免分頁(yè)跳轉(zhuǎn)，使用滾動(dòng)加載。而Elasticsearch使用的相關(guān)技術(shù)是search_after、scroll_id。

四、ElasticSearch與數(shù)據(jù)庫(kù)基本概念對(duì)比

在Elasticsearch 7.0版本之前（<7.0），有type的概念，而Elasticsearch和關(guān)系型數(shù)據(jù)庫(kù)的關(guān)系是，index = database、type = table，但是在Elasticsearch 7.0版本后（>=7.0）弱化了type默認(rèn)為_doc，而官方會(huì)在8.0之后會(huì)徹底移除type。

五、服務(wù)器選型

在官方文檔（https://www.elastic.co/guide/cn/elasticsearch/guide/current/heap-sizing.html）里建議Elasticsearch JVM Heap最大為32G，同時(shí)不超過(guò)服務(wù)器內(nèi)存的一半，也就是說(shuō)內(nèi)存分別為128G和64G的服務(wù)器，JVM Heap最大只需要設(shè)置32G；而32G服務(wù)器，則建議JVM Heap最大16G，剩余的內(nèi)存將會(huì)給到Filesystem Cache充分使用。如果不需要對(duì)分詞字符串做聚合計(jì)算（例如，不需要 fielddata ）可以考慮降低JVM Heap。JVM Heap越小，會(huì)導(dǎo)致Elasticsearch的GC頻率更高，但Lucene就可以的使用更多的內(nèi)存，這樣性能就會(huì)更高。

對(duì)于我們公司的未來(lái)新增業(yè)務(wù)還會(huì)有收集用戶的訪問記錄來(lái)統(tǒng)計(jì)PV(page view)、UV(user view)，有一定的聚合計(jì)算，經(jīng)過(guò)多方便的考慮與討論，平衡成本與需求后選擇了騰訊云的三臺(tái)配置為CPU 16核、內(nèi)存64G，SSD云硬盤的服務(wù)器，并給與Elasticsearch 配置JVM Heap = 32G。

六、需求場(chǎng)景選擇

Elasticsearch在本公司系統(tǒng)的可使用場(chǎng)景非常多，但是作為第一次引入因慎重選擇，給與開發(fā)與運(yùn)維一定的時(shí)間熟悉與觀察。

經(jīng)過(guò)商討，選擇了兩個(gè)業(yè)務(wù)場(chǎng)景，用戶閱讀作品的記錄明細(xì)與作品搜索，選擇這兩個(gè)業(yè)務(wù)場(chǎng)景原因如下：

1、寫場(chǎng)景

我們平臺(tái)的用戶黏度比較高，閱讀作品是一個(gè)高頻率的調(diào)用，因此用戶閱讀作品的記錄明細(xì)可在短時(shí)間內(nèi)造成海量數(shù)據(jù)的場(chǎng)景。（現(xiàn)一個(gè)月已達(dá)到了70G的數(shù)據(jù)量，共1億1千萬(wàn)條）

2、讀場(chǎng)景

閱讀記錄需提供給未來(lái)新增的抽獎(jiǎng)業(yè)務(wù)使用，可從閱讀章節(jié)數(shù)、閱讀時(shí)長(zhǎng)等進(jìn)行搜索計(jì)算。
作品搜索原有實(shí)現(xiàn)是通過(guò)關(guān)系型數(shù)據(jù)庫(kù)like查詢，已是具有潛在的性能問題與資源消耗的業(yè)務(wù)場(chǎng)景。

對(duì)于上述兩個(gè)業(yè)務(wù)，用戶閱讀作品的記錄明細(xì)與抽獎(jiǎng)業(yè)務(wù)屬于新增業(yè)務(wù)，對(duì)于在投入成本相對(duì)較少，也無(wú)需過(guò)多的需要兼容舊業(yè)務(wù)的壓力。

而作品搜索業(yè)務(wù)屬于優(yōu)化改造，得保證兼容原有的用戶搜索習(xí)慣前提下，新增拼音搜索。同時(shí)最好以擴(kuò)展的方式，盡可能的減少代碼修改范圍，如果使用效果不好，隨時(shí)可以回滾到舊的實(shí)現(xiàn)方式。

七、設(shè)計(jì)方案

1、共性設(shè)計(jì)

我使用.Net 5 WebApi將Elasticsearch封裝成ES業(yè)務(wù)服務(wù)API，這樣的做法主要用來(lái)隱藏技術(shù)細(xì)節(jié)（時(shí)區(qū)、分詞器、類型轉(zhuǎn)換等），暴露粗粒度的讀寫接口。這種做法在馬丁福勒所著的《NoSQL精粹》稱把數(shù)據(jù)庫(kù)視為“應(yīng)用程序數(shù)據(jù)庫(kù)”，簡(jiǎn)單來(lái)說(shuō)就是只能通過(guò)應(yīng)用間接的訪問存儲(chǔ)，對(duì)于這個(gè)應(yīng)用由一個(gè)團(tuán)隊(duì)負(fù)責(zé)維護(hù)開發(fā)，也只有這個(gè)團(tuán)隊(duì)才知道存儲(chǔ)的結(jié)構(gòu)。這樣通過(guò)封裝的API服務(wù)解耦了外部API服務(wù)與存儲(chǔ)，調(diào)用方就無(wú)需過(guò)多關(guān)注存儲(chǔ)的特性，像Mongodb與Elasticsearch這種無(wú)模式的存儲(chǔ)，無(wú)需優(yōu)先定義結(jié)構(gòu)，換而言之就是對(duì)于存儲(chǔ)已有結(jié)構(gòu)可隨意修改擴(kuò)展，那么“應(yīng)用程序數(shù)據(jù)庫(kù)”的做法也避免了其他團(tuán)隊(duì)無(wú)意侵入的修改。

考慮到現(xiàn)在業(yè)務(wù)需求復(fù)雜度相對(duì)簡(jiǎn)單，MQ消費(fèi)端也一起集成到ES業(yè)務(wù)服務(wù)，若后續(xù)MQ消費(fèi)業(yè)務(wù)持續(xù)增多，再考慮把MQ消費(fèi)業(yè)務(wù)抽離到一個(gè)（或多個(gè)的）消費(fèi)端進(jìn)程。

目前以同步讀、同步寫、異步寫的三種交互方式，進(jìn)行與其他服務(wù)通信。

2、閱讀記錄明細(xì)

本需求是完全新增，因此引入相對(duì)簡(jiǎn)單，只需要在【平臺(tái)API】使用【RabbitMQ】進(jìn)行解耦，使用異步方式寫入Elasticsearch，使用隊(duì)列除了用來(lái)解耦，還對(duì)此用來(lái)緩沖高并發(fā)寫壓力的情況。

對(duì)于后續(xù)新增的業(yè)務(wù)例如抽獎(jiǎng)服務(wù)，則只需要通過(guò)RPC框架對(duì)接ES業(yè)務(wù)API，以同步讀取的方式查詢數(shù)據(jù)。

3、作品搜索

對(duì)于該業(yè)務(wù)，我第一反應(yīng)采用CQRS的思想，原有的寫入邏輯我無(wú)需過(guò)多的關(guān)注與了解，因此我只需要想辦法把關(guān)系型數(shù)據(jù)庫(kù)的數(shù)據(jù)同步到Elasticsearch，然后提供業(yè)務(wù)查詢API替換原有平臺(tái)API的數(shù)據(jù)源即可。

那么數(shù)據(jù)同步則一般都是分推和拉兩種方式。

4、推

推的實(shí)時(shí)性無(wú)疑是比拉要高，只需增量的推送做寫入的數(shù)據(jù)（增、刪、改）即可，無(wú)論是從性能、資源利用、時(shí)效各方面來(lái)看都比拉更有效。

實(shí)施該方案，可以選擇Debezium和SQL Server開啟CDC功能。

Debezium由RedHat開源的，同時(shí)需要依賴于kafka的，一個(gè)將多種數(shù)據(jù)源實(shí)時(shí)變更數(shù)據(jù)捕獲，形成數(shù)據(jù)流輸出的開源工具，同類產(chǎn)品有Canal, DataBus, Maxwell。

CDC全稱Change Data Capture，直接翻譯過(guò)來(lái)為變更數(shù)據(jù)捕獲，核心為監(jiān)測(cè)服務(wù)捕獲數(shù)據(jù)庫(kù)的寫操作（插入，更新，刪除），將這些變更按發(fā)生的順序完整記錄下來(lái)。

我個(gè)人在我博客文章多次強(qiáng)調(diào)架構(gòu)設(shè)計(jì)的輸入核心為兩點(diǎn)：滿足需求與組織架構(gòu)，在滿足需求的前提應(yīng)優(yōu)先選擇簡(jiǎn)單、合適的方案。技術(shù)選型應(yīng)需要考慮自己的團(tuán)隊(duì)是否可以支撐。在上述無(wú)論是額外加入Debezium和kafka，還是需要針對(duì)SQL Server開啟CDC都超出了我們運(yùn)維所能承受的極限，引入新的中間件和技術(shù)是需要試錯(cuò)的，而試錯(cuò)是需要額外高的成本，在未知的情況下引入更多的未知，只會(huì)造成更大的成本和不可控。

5、拉

拉無(wú)疑是最簡(jiǎn)單最合適的實(shí)現(xiàn)方式，只需要使用調(diào)度任務(wù)服務(wù)，每隔段時(shí)間定時(shí)去從數(shù)據(jù)庫(kù)拉取數(shù)據(jù)寫入到Elasticsearch就可。

然而拉取數(shù)據(jù)，分全量同步與增量同步：

對(duì)于增量同步，只需要每次查詢數(shù)據(jù)源Select * From Table_A Where RowVersion > LastUpdateVersion，則可以過(guò)濾出需要同步的數(shù)據(jù)。但是這個(gè)方式有點(diǎn)致命的缺點(diǎn)，數(shù)據(jù)源已被刪除的數(shù)據(jù)是無(wú)法查詢出來(lái)的，如果把Elasticsearch反向去跟SQL Server數(shù)據(jù)做對(duì)比又是一件比較愚蠢的方式，因此只能放棄該方式。

而全量同步，只要每次從SQL Server數(shù)據(jù)源全量新增到Elasticsearch，并替換舊的Elasticsearch的Index，因此該方案得全刪全增。但是這里又引申出新的問題，如果先刪后增，那么在刪除后再新增的這段真空期怎么辦？假如有5分鐘的真空期是沒有數(shù)據(jù)，用戶就無(wú)法使用搜索功能。那么只能先增后刪，先新增到一個(gè)Index_Temp，全量新增完后，把原有Index改名成Index_Delete，然后再把Index_Temp改成Index，最后把Index_Delete刪除。這么一套操作下來(lái)，有沒有覺得很繁瑣很費(fèi)勁？Elasticsearch有一個(gè)叫別名（Aliases）的功能，別名可以一對(duì)多的指向多個(gè)Index，也可以以原子性的進(jìn)行別名指向Index的切換，具體實(shí)現(xiàn)可以看下文。

八、閱讀記錄實(shí)現(xiàn)細(xì)節(jié)

1、實(shí)體定義

優(yōu)先定義了個(gè)抽象類ElasticsearchEntity進(jìn)行復(fù)用，對(duì)于實(shí)體定義有三個(gè)注意的細(xì)節(jié)點(diǎn)：

對(duì)于ElasticsearchEntity我定義兩個(gè)屬性_id與Timestamp，Elasticsearch是無(wú)模式的（無(wú)需預(yù)定義結(jié)構(gòu)），如果實(shí)體本身沒有_id，寫入到Elasticsearch會(huì)自動(dòng)生成一個(gè)_id，為了后續(xù)的使用便捷性，我仍然自主定義了一個(gè)。

基于上述的分頁(yè)深度的問題，因此在后續(xù)涉及的業(yè)務(wù)盡可能會(huì)以search_after+滾動(dòng)加載的方式落實(shí)到我們的業(yè)務(wù)。原本我們只需要使用DateTime類型的字段用DateTime.Now記錄后，再使用search_after后會(huì)自動(dòng)把DateTime類型字段轉(zhuǎn)換成毫秒級(jí)的Timestamp，但是我在實(shí)現(xiàn)demo的時(shí)候，去制造數(shù)據(jù)，在程序里以for循環(huán)new數(shù)據(jù)的時(shí)候，發(fā)現(xiàn)生成的速度會(huì)在微秒級(jí)之間，那么假設(shè)用毫秒級(jí)的Timestamp進(jìn)行search_after過(guò)濾，同一個(gè)毫秒有4、5條數(shù)據(jù)，那么容易在使用滾動(dòng)加載時(shí)候少加載了幾條數(shù)據(jù)，這樣就到導(dǎo)致數(shù)據(jù)返回不準(zhǔn)確了。因此我擴(kuò)展了個(gè)[DateTime.Now.DateTimeToTimestampOfMicrosecond()]生成微秒級(jí)的Timestamp，以此盡可能減少出現(xiàn)漏加載數(shù)據(jù)的情況。

對(duì)于Elasticsearch的操作實(shí)體的日期時(shí)間類型均以DateTimeOffset類型聲明，因?yàn)镋lasticsearch存儲(chǔ)的是UTC時(shí)間，而且會(huì)因?yàn)镠ttp請(qǐng)求的日期格式不同導(dǎo)致存放的日期時(shí)間也會(huì)有所偏差，為了避免日期問題使用DateTimeOffset類型是一種保險(xiǎn)的做法。而對(duì)于WebAPI 接口或者M(jìn)Q的Message接受的時(shí)間類型可以使用DateTime類型，DTO(傳輸對(duì)象)與DO（持久化對(duì)象）使用Mapster或者AutoMapper類似的對(duì)象映射工具進(jìn)行轉(zhuǎn)換即可（注意DateTimeOffset轉(zhuǎn)DateTime得定義轉(zhuǎn)換規(guī)則 [TypeAdapterConfig.NewConfig().MapWith(dateTimeOffset => dateTimeOffset.LocalDateTime)]）。

如此一來(lái)，把Elasticsearch操作細(xì)節(jié)隱藏在WebAPI里，以友好、簡(jiǎn)單的接口暴露給開發(fā)者使用，降低了開發(fā)者對(duì)技術(shù)細(xì)節(jié)認(rèn)知負(fù)擔(dān)。

  [ElasticsearchType(RelationName = "user_view_duration")]
    public class UserViewDuration : ElasticsearchEntity
    {
        /// 
        /// 作品ID
        /// 

        [Number(NumberType.Long, Name = "entity_id")]
        public long EntityId { get; set; }
        /// 
        /// 作品類型
        /// 

        [Number(NumberType.Long, Name = "entity_type")]
        public long EntityType { get; set; }
        /// 
        /// 章節(jié)ID
        /// 

        [Number(NumberType.Long, Name = "charpter_id")]
        public long CharpterId { get; set; }
        /// 
        /// 用戶ID
        /// 

        [Number(NumberType.Long, Name = "user_id")]
        public long UserId { get; set; }
        /// 
        /// 創(chuàng)建時(shí)間
        /// 

        [Date(Name = "create_datetime")]
        public DateTimeOffset CreateDateTime { get; set; }
        /// 
        /// 時(shí)長(zhǎng)
        /// 

        [Number(NumberType.Long, Name = "duration")]
        public long Duration { get; set; }
        /// 
        /// IP
        /// 

        [Ip(Name = "Ip")]
        public string Ip { get; set; }
    }

public abstract class ElasticsearchEntity
    {
        private Guid? _id;

        public Guid Id
        {
            get
            {
                _id ??= Guid.NewGuid();
                return _id.Value;
            }
            set => _id = value;
        }

        private long? _timestamp;

        [Number(NumberType.Long, Name = "timestamp")]
        public long Timestamp
        {
            get
            {
                _timestamp ??= DateTime.Now.DateTimeToTimestampOfMicrosecond();
                return _timestamp.Value;
            }
            set => _timestamp = value;
        }
    }

?2、異步寫入

對(duì)于異步寫入有兩個(gè)細(xì)節(jié)點(diǎn)：

該數(shù)據(jù)從RabbtiMQ訂閱消費(fèi)寫入到Elasticsearch，從下面代碼可以看出，我刻意以月的維度建立Index，格式為 userviewrecord-2021-12，這么做的目的是為了方便管理Index和資源利用，有需要的情況下會(huì)刪除舊的Index。

消息訂閱與WebAPI暫時(shí)集成到同一個(gè)進(jìn)程，這樣做主要是開發(fā)、部署都方便，如果后續(xù)訂閱多了，在把消息訂閱相關(guān)的業(yè)務(wù)抽離到獨(dú)立的進(jìn)程。

1）按需演變，避免過(guò)度設(shè)計(jì)

① 訂閱消費(fèi)邏輯

public class UserViewDurationConsumer : BaseConsumer
    {
        private readonly ElasticClient _elasticClient;

        public UserViewDurationConsumer(ElasticClient elasticClient)
        {
            _elasticClient = elasticClient;
        }

        public override void Excute(UserViewDurationMessage msg)
        {
            var document = msg.MapTo();

            var result = _elasticClient.Create(document, a => a.Index(typeof(Entity.UserViewDuration).GetRelationName() + "-" + msg.CreateDateTime.ToString("yyyy-MM"))).GetApiResult();
            if (result.Failed)
                LoggerHelper.WriteToFile(result.Message);
        }
    }

/// 
    /// 訂閱消費(fèi)
    /// 

    public static class ConsumerExtension
    {
        public static IApplicationBuilder UseSubscribe(this IApplicationBuilder appBuilder, IHostApplicationLifetime lifetime) where T : EasyNetQEntity, new() where TConsumer : BaseConsumer
        {
            var bus = appBuilder.ApplicationServices.GetRequiredService();
            var consumer = appBuilder.ApplicationServices.GetRequiredService();

            lifetime.ApplicationStarted.Register(() =>
            {
                bus.Subscribe(msg => consumer.Excute(msg));
            });

            lifetime.ApplicationStopped.Register(() => bus?.Dispose());

            return appBuilder;
        }
    }

② 訂閱與注入


public class Startup
    {
        public Startup(IConfiguration configuration)
        {
            Configuration = configuration;
        }

        public IConfiguration Configuration { get; }

        public void ConfigureServices(IServiceCollection services)
        {
            ......
        }

        public void Configure(IApplicationBuilder app, IWebHostEnvironment env, IHostApplicationLifetime lifetime)
        {
            app.UseAllElasticApm(Configuration);

            app.UseHealthChecks("/health");

            app.UseDeveloperExceptionPage();
            app.UseSwagger();
            app.UseSwaggerUI(c =>
            {
                c.SwaggerEndpoint("/swagger/v1/swagger.json", "SF.ES.Api v1");
                c.RoutePrefix = "";
            });

            app.UseRouting();
            app.UseEndpoints(endpoints =>
            {
                endpoints.MapControllers();
            });

            app.UseSubscribe(lifetime);
        }
    }

?3、查詢接口

查詢接口此處有兩個(gè)細(xì)節(jié)點(diǎn)：

如果不確定月份，則使用通配符查詢userviewrecord-*，當(dāng)然有需要的也可以使用別名處理。

因?yàn)镋lasticsearch是記錄UTC時(shí)間，因此時(shí)間查詢得指定TimeZone。

 [HttpGet]
        [Route("record")]
        public ApiResult> GetRecord([FromQuery] UserViewDurationRecordGetRequest request)
        {
            var dataList = new List();

            string dateTime;

            if (request.BeginDateTime.HasValue && request.EndDateTime.HasValue)
            {
                var month = request.EndDateTime.Value.DifferMonth(request.BeginDateTime.Value);

                if(month <= 0 )
                    dateTime = request.BeginDateTime.Value.ToString("yyyy-MM");
                else
                    dateTime = "*";
            }
            else
                dateTime = "*";

            var mustQuerys = new List, QueryContainer>>();

            if (request.UserId.HasValue)
                mustQuerys.Add(a => a.Term(t => t.Field(f => f.UserId).Value(request.UserId.Value)));

            if (request.EntityType.HasValue)
                mustQuerys.Add(a => a.Term(t => t.Field(f => f.EntityType).Value(request.EntityType)));

            if (request.EntityId.HasValue)
                mustQuerys.Add(a => a.Term(t => t.Field(f => f.EntityId).Value(request.EntityId.Value)));

            if (request.CharpterId.HasValue)
                mustQuerys.Add(a => a.Term(t => t.Field(f => f.CharpterId).Value(request.CharpterId.Value)));

            if (request.BeginDateTime.HasValue)
                mustQuerys.Add(a => a.DateRange(dr =>
                    dr.Field(f => f.CreateDateTime).GreaterThanOrEquals(request.BeginDateTime.Value).TimeZone(EsConst.TimeZone)));

            if (request.EndDateTime.HasValue)
                mustQuerys.Add(a =>
                    a.DateRange(dr => dr.Field(f => f.CreateDateTime).LessThanOrEquals(request.EndDateTime.Value).TimeZone(EsConst.TimeZone)));

            var searchResult = _elasticClient.Search(a =>
                a.Index(typeof(UserViewDuration).GetRelationName() + "-" + dateTime)
                    .Size(request.Size)
                    .Query(q => q.Bool(b => b.Must(mustQuerys)))
                    .SearchAfterTimestamp(request.Timestamp)
                    .Sort(s => s.Field(f => f.Timestamp, SortOrder.Descending)));

            var apiResult = searchResult.GetApiResult>();
            if (apiResult.Success)
                dataList.AddRange(apiResult.Data);

            return ApiResult>.IsSuccess(dataList);
        }

?九、作品搜索實(shí)現(xiàn)細(xì)節(jié)

1、實(shí)體定義

SearchKey是原有SQL Server的數(shù)據(jù)，現(xiàn)需要同步到Elasticsearch，仍是繼承抽象類。ElasticsearchEntity實(shí)體定義，同時(shí)這里有三個(gè)細(xì)節(jié)點(diǎn)：

public string KeyName，我定義的是Text類型，在Elasticsearch使用Text類型才會(huì)分詞。

在實(shí)體定義我沒有給KeyName指定分詞器，因?yàn)槲視?huì)使用兩個(gè)分詞器：拼音和默認(rèn)分詞，而我會(huì)在批量寫入數(shù)據(jù)創(chuàng)建Mapping時(shí)定義。

實(shí)體里的 public List SysTagId 與SearchKey在SQL Server是兩張不同的物理表，是一對(duì)多的關(guān)系，在代碼表示如下，但是在關(guān)系型數(shù)據(jù)庫(kù)是無(wú)法與之對(duì)應(yīng)和體現(xiàn)的，這就是咱們所說(shuō)的“阻抗失配”，但是能在以文檔型存儲(chǔ)系統(tǒng)（MongoDB、Elasticsearch）里很好的解決這個(gè)問題，可以以一個(gè)聚合的方式寫入，避免多次查詢關(guān)聯(lián)。?

[ElasticsearchType(RelationName = "search_key")]
    public class SearchKey : ElasticsearchEntity
    {
        [Number(NumberType.Integer, Name = "key_id")]
        public int KeyId { get; set; }

        [Number(NumberType.Integer, Name = "entity_id")]
        public int EntityId { get; set; }

        [Number(NumberType.Integer, Name = "entity_type")]
        public int EntityType { get; set; }

        [Text(Name = "key_name")]
        public string
                    當(dāng)前題目：計(jì)劃將Elasticsearch引入系統(tǒng)架構(gòu)，領(lǐng)導(dǎo)卻死活不同意……                    

                    當(dāng)前網(wǎng)址：http://uogjgqi.cn/article/dpspdog.html

掃二維碼與項(xiàng)目經(jīng)理溝通

我們?cè)谖⑿派?4小時(shí)期待你的聲音

解答本文疑問/技術(shù)咨詢/運(yùn)營(yíng)咨詢/技術(shù)建議/互聯(lián)網(wǎng)交流

av激情亚洲男人的天堂国语,日韩欧美精品一中文字幕,无码av一区二区三区无码,国产又色又爽又刺激的a片,国产又色又爽又刺激的a片

計(jì)劃將Elasticsearch引入系統(tǒng)架構(gòu)，領(lǐng)導(dǎo)卻死活不同意……

?前言

一、背景

二、Elasticsearch優(yōu)缺點(diǎn)

百度百科 ：

三、Elasticsearch為什么快？

1、內(nèi)存讀取

2、倒排索引

3、doc values

4、集群分片

四、ElasticSearch與數(shù)據(jù)庫(kù)基本概念對(duì)比

五、服務(wù)器選型

六、需求場(chǎng)景選擇

1、寫場(chǎng)景

2、讀場(chǎng)景

七、設(shè)計(jì)方案

1、共性設(shè)計(jì)

2、閱讀記錄明細(xì)

3、作品搜索

4、推

5、拉

八、閱讀記錄實(shí)現(xiàn)細(xì)節(jié)

1、實(shí)體定義

?2、異步寫入

?3、查詢接口

?九、作品搜索實(shí)現(xiàn)細(xì)節(jié)

1、實(shí)體定義

掃二維碼與項(xiàng)目經(jīng)理溝通

其他資訊

行業(yè)動(dòng)態(tài)

企業(yè)網(wǎng)站建設(shè)的重要性！

服務(wù)項(xiàng)目

網(wǎng)站建設(shè)

移動(dòng)端/APP

微信/小程序

技術(shù)支持

其它服務(wù)

更多服務(wù)項(xiàng)目

聯(lián)系吧 在百度地圖上找到我們

電話：13518219792

計(jì)劃將Elasticsearch引入系統(tǒng)架構(gòu)，領(lǐng)導(dǎo)卻死活不同意……

二、Elasticsearch優(yōu)缺點(diǎn)

百度百科：

三、Elasticsearch為什么快？

1、內(nèi)存讀取

2、倒排索引

3、doc values

四、ElasticSearch與數(shù)據(jù)庫(kù)基本概念對(duì)比

五、服務(wù)器選型

2、讀場(chǎng)景

七、設(shè)計(jì)方案

1、共性設(shè)計(jì)

2、閱讀記錄明細(xì)

3、作品搜索

4、推

5、拉

1、實(shí)體定義

?2、異步寫入

1、實(shí)體定義

企業(yè)網(wǎng)站建設(shè)的重要性！

聯(lián)系吧在百度地圖上找到我們