掃二維碼與項(xiàng)目經(jīng)理溝通
我們?cè)谖⑿派?4小時(shí)期待你的聲音
解答本文疑問/技術(shù)咨詢/運(yùn)營(yíng)咨詢/技術(shù)建議/互聯(lián)網(wǎng)交流
【稿件】在面向?qū)ο蟮臅r(shí)代里,我們常說萬物皆對(duì)象,之前我們只是來分析對(duì)象的個(gè)體,隨著互聯(lián)網(wǎng)和社交網(wǎng)絡(luò)的發(fā)展,對(duì)象與對(duì)象之間的聯(lián)系變得越來越緊密,我們把一個(gè)對(duì)象稱之為一個(gè)實(shí)體。

湘橋網(wǎng)站建設(shè)公司創(chuàng)新互聯(lián)建站,湘橋網(wǎng)站設(shè)計(jì)制作,有大型網(wǎng)站制作公司豐富經(jīng)驗(yàn)。已為湘橋近1000家提供企業(yè)網(wǎng)站建設(shè)服務(wù)。企業(yè)網(wǎng)站搭建\外貿(mào)營(yíng)銷網(wǎng)站建設(shè)要多少錢,請(qǐng)找那個(gè)售后服務(wù)好的湘橋做網(wǎng)站的公司定做!
我們現(xiàn)在對(duì)于實(shí)體之間關(guān)系的分析變得尤為重要,我們可以使用知識(shí)圖譜相關(guān)技術(shù),來挖掘?qū)嶓w之間的關(guān)系,從而找到其中的商業(yè)價(jià)值,打造自己的知識(shí)圖譜應(yīng)用。
2018 年 11 月 30 日-12 月 1 日,由 主辦的 WOT 全球人工智能技術(shù)峰會(huì)在北京粵財(cái) JW 萬豪酒店隆重舉行。
本次峰會(huì)以人工智能為主題,金山辦公 AI 領(lǐng)域?qū)<尹S鴻波在業(yè)務(wù)實(shí)踐專場(chǎng)與來賓分享"知識(shí)圖譜在企業(yè)中的落地"的主題演講。
本文將按照如下四個(gè)層次向大家介紹知識(shí)圖譜在企業(yè)中的落地情況:
知識(shí)圖譜發(fā)展展望
我們先來看看知識(shí)圖譜的發(fā)展歷史:
從發(fā)展里程碑來看:
從數(shù)據(jù)的處置量來看,早期的專家系統(tǒng)只有上萬級(jí)知識(shí)體量,后來阿里巴巴和百度推出了千億級(jí)、甚至是兆級(jí)的知識(shí)圖譜系統(tǒng)。
上圖便是如今在知識(shí)圖譜領(lǐng)域的世界各大知名公司,可見該領(lǐng)域的玩家還是非常多的。
上圖左表反映的是我們?cè)?jīng)給客戶做過的某類法律文本在數(shù)量上的變化趨勢(shì)。
在 2014 年文本的數(shù)量還不到 1500 萬,而到了 2018 年總量就超過了 4500 萬。
我們預(yù)計(jì)至 2020 年,文本的數(shù)量有望突破 1 億萬件(某一特定類別)。那么,我們現(xiàn)在所面臨的問題包括:數(shù)據(jù)量的龐大、非結(jié)構(gòu)化的保存、以及歷史數(shù)據(jù)的積累等方面。
這些都會(huì)導(dǎo)致信息知識(shí)體、以及各種實(shí)體的逐漸膨脹。因此,我們需要通過將各種知識(shí)連接起來,形成知識(shí)圖譜。
知識(shí)圖譜常見應(yīng)用場(chǎng)景
知識(shí)圖譜可以被用于查找人與人之間的關(guān)系,如上圖所示,我們可以理解為電視劇《人民的名義》中人物的關(guān)系圖譜。而在很多企業(yè)中,就是用到知識(shí)圖譜來找出用戶與用戶之間的關(guān)系。
知識(shí)圖譜的另一個(gè)應(yīng)用場(chǎng)景是:找出實(shí)體之間的關(guān)系。所謂實(shí)體,我們可以理解為早年曾提到的“面向?qū)ο蟆敝小皩?duì)象”這一概念。
如上圖所示,在公司和企業(yè)之間,包括它們的子公司、以及合作公司之間都存在著實(shí)體的關(guān)系,這就是知識(shí)圖譜的核心概念。
上圖是知識(shí)圖譜在農(nóng)業(yè)方面的應(yīng)用??梢姡傻厝狈椛溟_來之后,最終會(huì)導(dǎo)致葉子的枯萎,以及落果率的降低等農(nóng)業(yè)方面的歉收情況。
因此,我們?cè)谧鲋R(shí)圖譜的時(shí)候,實(shí)際上就是要查找并建立各個(gè)實(shí)體之間的聯(lián)系。
如上圖所示,在知識(shí)圖譜的研究和落地方面,業(yè)界一般分為三大類:
因此,他們會(huì)通過推薦或者是知識(shí)的抽取與融合,將結(jié)果保存到分布式圖數(shù)據(jù)庫(kù)里,進(jìn)而發(fā)現(xiàn)各個(gè)點(diǎn)與點(diǎn)之間或是邊與邊之間的關(guān)系。
就每天有著超過兩億日活用戶數(shù)的 WPS 而言,我們需要通過建立用戶節(jié)點(diǎn),將用戶的基本信息、屬性特征和他們的文檔聯(lián)系起來,存放到普通數(shù)據(jù)庫(kù)(如 MongoDB)里,然后再轉(zhuǎn)化成圖數(shù)據(jù)庫(kù)的關(guān)系。
同時(shí),我們需要梳理出各個(gè)用戶節(jié)點(diǎn)之間的邊。比如說:如果用戶A和B來自同一家公司,他們就可能會(huì)有同一條邊;如果他倆共享過了某個(gè)文檔,則又會(huì)生成一條邊。
因此具體尋找邊的表述方式會(huì)有如下兩種:
知識(shí)圖譜圖數(shù)據(jù)庫(kù)選型
在做知識(shí)圖譜時(shí),我們最常碰到的問題莫過于對(duì)圖數(shù)據(jù)庫(kù)的選擇。當(dāng)前,業(yè)界有 Neo4j 和 Cayley 這兩種最為常用的圖數(shù)據(jù)庫(kù)可供選擇。
大家可能會(huì)普遍地認(rèn)為:無論是網(wǎng)上資料的豐富程度,還是數(shù)據(jù)庫(kù)知名度的排名,Neo4j 在各個(gè)方面的優(yōu)勢(shì)都勝過 Cayley。然而在實(shí)際選型中,我們卻選擇了后者。
具體原因如下:
我們?cè)?jīng)使用上億的數(shù)據(jù)量,去分別檢驗(yàn)兩種數(shù)據(jù)庫(kù)查找關(guān)系和建立關(guān)系的性能。
隨后,我們發(fā)現(xiàn)由于自身存在著 Bug,Dgraph 對(duì)于支持邊的權(quán)重計(jì)算存在著缺陷,會(huì)導(dǎo)致在進(jìn)行邊與邊、點(diǎn)與點(diǎn)的計(jì)算時(shí)出現(xiàn)性能上的問題。
因此經(jīng)過綜合考慮,我們最終還是選用了 Cayley 作為自己的圖數(shù)據(jù)庫(kù)。當(dāng)然,我們也將自己的發(fā)現(xiàn)提交給了 Dgraph 的作者,如今的 Dgraph 版本,已經(jīng)修正了該 Bug。
總的來說,我們?cè)诮o企業(yè)選擇圖數(shù)據(jù)庫(kù)時(shí),需要分析企業(yè)自身的數(shù)據(jù)體量。如果要處理的數(shù)據(jù)量和知識(shí)量特別多,而且對(duì)于速度、性能有一定的要求的話,就不能使用單機(jī)版的數(shù)據(jù)庫(kù),而應(yīng)當(dāng)去考慮分布式。
與此同時(shí),更重要的是:應(yīng)用的場(chǎng)景。如果本企業(yè)除了要計(jì)算兩個(gè)節(jié)點(diǎn)之間的關(guān)系,還需要得出節(jié)點(diǎn)關(guān)系所對(duì)應(yīng)的邊權(quán)重的話,那么我們更應(yīng)該進(jìn)行綜合考量和全面對(duì)比。
在此,我分享一種我們自己研究出來的獨(dú)門方法:一般而言,大多數(shù)圖數(shù)據(jù)庫(kù)(如 Neo4j),都會(huì)自帶底層數(shù)據(jù)庫(kù)。
而在實(shí)際建模的過程中,我們完全可以在底層不去使用圖數(shù)據(jù)庫(kù),例如:可以用 MongoDB 作為底層;然后在它的上面去嵌套一層并未內(nèi)置底層數(shù)據(jù)庫(kù)的圖數(shù)據(jù)庫(kù)。而且實(shí)踐證明,這樣的混合模式會(huì)更加靈活且高效。
知識(shí)圖譜落地
接下來,我們來看看知識(shí)圖譜的落地。如上圖所示,整個(gè)過程分成六個(gè)方面:
我們除了需要事先建立知識(shí)圖譜的模型、以及運(yùn)用模型來實(shí)現(xiàn)知識(shí)計(jì)算之外,上圖反映了其他四個(gè)重要的過程,下面我們來逐一討論。
知識(shí)獲取
我們既可以通過網(wǎng)絡(luò)爬蟲爬取,也可以通過事件抽取(如使用 CRF 和 LSTM 等機(jī)器學(xué)習(xí)算法),還可以通過國(guó)內(nèi)與國(guó)外的一些開源數(shù)據(jù)集來實(shí)現(xiàn)。
知識(shí)表示
在獲取到了知識(shí)之后,我們要對(duì)知識(shí)進(jìn)行加工表示。我們既可以用到邏輯表示、框架表示、語(yǔ)義表示,也可以用到各種詞表、本體組織,還可以用到語(yǔ)義網(wǎng)絡(luò)、以及文本與語(yǔ)義的分類方法。
在完成模型表示之后,我們需要進(jìn)行各種模型的建設(shè)。當(dāng)前,國(guó)內(nèi)業(yè)界普遍采用的方法是專家法和歸納法,當(dāng)然,參照法也有被用到。
所謂專家法,就是根據(jù)團(tuán)隊(duì)自身對(duì)于現(xiàn)有業(yè)務(wù)和行業(yè)的理解程度,通過人工來建模表示。
而歸納法,則是通過一些歸納算法、人工歸納、以及文本分類的方法,來進(jìn)行模型的歸納。
我們混合使用了上述兩種方法。而在建模工具方面,當(dāng)屬 Protege 和 MSVisio 最為常用。
知識(shí)存儲(chǔ)
接著要進(jìn)行的是知識(shí)存儲(chǔ),如前所述,我們需要選擇一款數(shù)據(jù)庫(kù),包括:MySQL、SQL Server、MongoDB、Neo4j 等,不一而足。
根據(jù)我們過往的屢次實(shí)驗(yàn)經(jīng)驗(yàn),您可以先將數(shù)據(jù)存放到 Key-Vaule 類型的數(shù)據(jù)庫(kù)中,而在后續(xù)需要的時(shí)候,再往 Neo4j 之類的圖數(shù)據(jù)庫(kù)中拉。
這種模式的性能要比直接存儲(chǔ)要高一些。而在工具平臺(tái)方面,Neo4j、Titan、以及 Cayley 都十分常用。
知識(shí)應(yīng)用
確定了存儲(chǔ)方式,后面就是知識(shí)應(yīng)用。它包括自然語(yǔ)言理解、知識(shí)搜索、知識(shí)問答、以及機(jī)器翻譯等典型的應(yīng)用場(chǎng)景。
業(yè)界一般在模式上分為兩種:
在知識(shí)應(yīng)用中,常用的關(guān)鍵技術(shù)包括:CQL、SPARQL、Jena、Neo4j、以及歸納、演繹和基于規(guī)則學(xué)習(xí)的推理。
上圖是一張非常經(jīng)典的知識(shí)圖譜整體架構(gòu)圖,讓我們一起從下往上來解讀這張圖:
總結(jié)起來,在我們使用知識(shí)圖譜來進(jìn)行各種應(yīng)用識(shí)別時(shí),需要注意的關(guān)鍵點(diǎn)包括:如何抽取實(shí)體的關(guān)系,如何做好關(guān)鍵詞與特征的提取,以及如何保證語(yǔ)義內(nèi)容的分析。這便是我們構(gòu)建一整套知識(shí)圖譜的常用方法與理論。
【原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文作者和出處為.com】

我們?cè)谖⑿派?4小時(shí)期待你的聲音
解答本文疑問/技術(shù)咨詢/運(yùn)營(yíng)咨詢/技術(shù)建議/互聯(lián)網(wǎng)交流