知識圖譜研討實錄08丨肖仰華教授帶你讀懂知識圖譜的質量控制

以下文章來源於知識工場 ,作者知識工場

 

知識圖譜是一種大規模語義網絡,已經成爲大數據時代知識工程的代表性進展。

知識圖譜技術是實現機器認知智能和推動各行業智能化發展的關鍵基礎技術。由復旦大學肖仰華教授策劃的《知識圖譜:概念與技術》課程體系,已在國內進行了多次巡迴演講,受到參會人員一致好評。

 

課程主要目的和宗旨是系統講述知識圖譜相關知識,讓同學們對知識圖譜的理論和技術有一個系統的認知。本實錄來自該課程老師和同學的研討。

下面讓我們通過第八章課程《知識圖譜的質量控制》的15條精華研討,來進一步學習瞭解知識圖譜技術內幕。文末可查看更多章節精華回顧。

本課程配套教材《知識圖譜:概念與技術》。

 

 

/ 以下爲課程第8章《知識圖譜的質量控制》的研討實錄 /

 

1丨質量評估有哪些維度?分別考察知識圖譜的什麼特性?

同學代表性回答:

準確性:考察知識圖譜中各類知識的準確程度;

致性:考察知識圖譜中的知識表達是否一致;

完整性:考察知識圖譜對某領域知識的覆蓋程度;

時效性:考察知識圖譜中的知識是否爲最新知識。

 

2丨常見的質量評估方法有哪些?分別如何評估?

同學代表性回答:

回答1 :

準確性:考察知識圖譜中各類知識的準確程度;

一致性:知識圖譜中的知識表達是否一致;

完整性:知識圖譜對某領域知識的覆蓋程度;

時效性:知識圖譜中的知識是否爲最新知識。

回答2 :

人工抽樣檢測法:由領域專家進行抽樣質量檢測與評估;

一致性檢測法:通過專家預先制定的一致性檢測規則檢測知識圖譜中的知識衝突;

基於外部知識的對比評估法:使用與目標知識圖譜有較高重合度的高質量外部知識源作爲基準數據,對目標知識圖譜進行質量檢測。

 

3丨質量控制可以發生在知識圖譜全週期的哪些環節?

同學代表性回答:

回答1:貫穿於知識圖譜構建的全週期:前中後。

回答2:數據來源、知識獲取、知識融合、質量維護。

回答3:構建前:數據來源;構建中:知識獲取,知識融合;構建後:質量維護。

回答4:

質量控制貫穿於知識圖譜構建的全週期,涉及知識圖譜構建前、中、後三個階段的質量控制。

構建前:主要在於對數據源的質量控制,即對於獲取知識的數據源頭做質量評估與控制。

構建中:主要是知識獲取手段和知識融合階段的質量控制。

構建後:知識圖譜在完成初步構建後,需要對其質量進行進一步的完善與常規維護,例如補全缺失的知識,矯正錯誤的知識等。

 

4丨什麼是語義漂移?舉例說明語義漂移是如何產生的。

同學代表性回答:

回答1:

語義漂移即在基於模式的迭代式抽取過程中,由於上一輪發生抽取錯誤而引入其他語義類中的實體或跨語義類的多義實例,導致後續輪次所抽取實例的語義類與目標語義類相距甚遠。比如「chicken」既可以指「雞」,又可以指「雞肉」,可能會引入beff等錯誤。以發現和抽取 animal 主義類下的實體爲例,給定種子集合 {dog, cat, horse},在發現更多實例時可能會抽取到 computer 這樣的錯誤結果,從而越錯越離譜。

回答2:

自增迭代式的抽取最終都會傾向於抽取到一些含義模糊的實例與目標語義類相關性較弱的上下文模式,導致開放式自動信息抽取系統的抽取質量的降低。例如「北京」是中國的「capital city」, 「華盛頓」是美國的「capital city」 ,抽取到「廣州」是廣東的「capital city」。

回答3:

在基於模式的迭代式抽取過程中產生一些與種子不相關的實例,然後這些不相關實例再次進入迭代,在後續輪次中頻繁產生其他不相關實例。舉個例子,種子:「陳奕迅唱了紅玫瑰」,「」紳士的歌手是薛之謙「。模式:」XXX的歌手是XXX「,」XXX唱了XXX「這些模式,但學到的新關係實例中就會存在「劉瑞琦唱了《稻香》」,顯然,劉瑞琦只是翻唱,並不是這首歌的原唱。

 

5丨構建前的質量控制有哪些核心問題?如何解決?

同學代表性回答:

回答1:

評估知識來源的質量。針對互聯網數據源的質量控制主要採用利用信息權威性作爲指標,利用 PageRank 等算法針對網頁(粒度更細)進行評估。衆包質量控制的粗粒度的方法是評估衆包工人的可信度,然後將衆包工人的可信度賦予其所提供的知識可信度;更細粒度的方法是通過讓多個衆包工人完成同一個知識任務,然後對比結果從而判定知識的可信度。

回答2:

核心問題是衡量信息源,對數據來源進行可信性評估;對於淺網數據,可以通過網站網址的後綴評估網站可信度,以網頁爲基本單元;深網數據可以通過數據記錄之間的匹配與關聯形成網絡,然後用PageRank等算法來評估各條數據記錄的可信度;衆包數據可以使用黃金標準數據評估,利用冗餘信息標誌正確答案的方法。

 

6丨構建後的知識圖譜質量控制有哪些具體任務?

同學代表性回答:

缺失知識的發現與補全:初步構建完的知識圖譜往往會因爲所採用的的知識源對知識的覆蓋不全而缺失大量相關知識,因此需要補全。

錯誤知識的發現與糾正:不論在知識圖譜構建過程中質量控制如何嚴格,總會引入一些錯誤知識,爲避免錯誤知識的副作用,需要糾正。

過期知識的更新:知識圖譜中的知識存在時效性,根據時效性的要求更新知識。

 

7丨SDType算法的核心思想是什麼?

同學代表性回答:

回答1:

知識補全(實體類型補全、實體關係補全、屬性值補全),知識糾錯與知識更新(錯誤實體類型檢測、錯誤實體關係檢測、錯誤屬性值檢測、過期知識檢測與更新)

回答2:

SDType算法統計實體的可能謂詞作爲中間變量,推斷一個實體具有某個類型的可能性。計算各個關係對應的頭實體和尾實體的概念類型的先驗概率分佈對於給定實體,考察所在三元組的關係,根據關係對應的頭尾實體概念分佈,算出該實體可能的概念的概率得分。

回答3:

該方法通過考察知識圖譜中與實體相關的信息來構建一些啓發式規則或概率模型,它通過統計實體的可能謂詞作爲中間變量,推斷一個實體具有某個類型的可能性。

 

8丨缺失知識的補全方法有哪些?

同學代表性回答:

回答1:

1) 類型補全:基於已有詞典、基於在線百科、啓發式概率模型、基於協同過濾思想、基於特徵工程的深度模型、基於知識表示學習的思想;

2) 實體關係補全:基於信息抽取技術的方法,基於傳統知識學習的方法、基於表示學習的方法;

3) 實體屬性和屬性值的補全:缺失屬性問題轉化爲概念必有屬性的發現問題。缺失屬性值的補全方法大致分爲:基於衆包的補全法、基於搜索引擎的補全法和基於文本的補全法。

回答2:

基於內部知識的關係補全

概率圖模型:馬爾可夫洛基王及其衍生方法、路徑排序算法、基於表示學習的模型。

基於外部數據的關係補全

直接方法是利用外部豐富的文本增強實體的表示以提高推斷缺失關係的準確率、ConMask模型。

 

 

9丨基於內部知識的關係補全和基於外部知識的關係補全的基本思想分別是什麼?各有哪些經典的方法?

同學代表性回答:

基於內部知識的關係補全:

1. 概率圖模型:爲知識圖譜上的每一條候選知識附上一定的概率,用於衡量該候選知識的合理性,通過概率推理髮現缺失關係。

2. 路徑排序算法:用連接兩個實體的路徑作爲特徵,來預測兩個實體間的關係。

3. 基於表示學習的模型:首先在低維向量空間中對知識圖譜中的實體和關係進行表示,然後在每個知識條目上定義一個基於三元組的打分函數,用之前給定的知識表示形式作爲參數,判斷三元組或者事實成立的可能性。

基於外部數據的關係補全:

1. 將外部信息投影到隱式的向量空間:利用外部豐富的文本增強實體的表示以提高推斷缺失關係的準確率。

2. 顯式利用外部信息。

 

10丨知識圖譜的屬性值補全與關係數據庫屬性值補全有何差別顯式衆包的任務方式有哪些設計原則?

同學代表性回答:

回答1:

關係型數據庫是用來存放關係型結構化數據的,關係型數據庫要求數據庫的模式設計統一、嚴謹,但是數據庫中數據本身的正確性對於數據庫並不重要。知識圖譜存放的是人類公認的知識,對於模式是否統一、嚴謹要求並不嚴格,但對知識本身的質量卻要求極高。

回答2:

補全對象不同:

知識圖譜的屬性值補全可以看作是很多小關係表的缺失屬性值補全;關係數據庫屬性值補全一般爲單一關係表內的缺失屬性值,結構較爲統一簡單;

缺失是否顯性:

知識圖譜的屬性值缺失是隱式的,關係數據庫屬性值缺失是顯式;

補全要求不同:

知識圖譜對模式是否統一、嚴謹往往要求並不嚴格,但對知識本身的質量卻要求很高;關係數據庫要求數據庫的模式設計統一、嚴謹,但是數據庫中數據本身的正確性對於數據庫而言並不重要。

 

11丨枚舉典型性的判斷屬性是否缺失的規則?

同學代表性回答:

屬性的重要程度,參考同一概念下的其他實體,參考相似實體,模式匹配,屬性值的部分完整性。

 

12丨錯誤實體類型檢測有哪幾個典型方法?

同學代表性回答:

回答1:概念互斥關係,根據知識圖譜中的知識來推斷可能出錯的實體類型。

回答2:通過關聯規則挖掘,發現實體的互斥概念對來判斷。

 

13丨知識圖譜更新有哪幾類方法?

同學代表性回答:

基於更新頻率預測的更新機制、基於時間標籤的更新機制、基於熱點事件發現的更新機制。

 

14丨基於熱點事件發現的更新機制基本思想是什麼?具體如何實現?

同學代表性回答:

回答1:

知識圖譜中經常更新的知識往往源自少數熱門實體,且熱門實體的信息更新往往在熱點事件或熱詞的出現。該機制對互聯網上的熱詞進行實時監控,識別出熱門實體並將其百科頁面信息同步到知識庫中。四個步驟:種子實體發現、種子實體更新、實體擴展、擴展實體更新。

回答2:

通過互聯網發現一些熱詞,可能來源於熱點新聞的實體,被當作種子實體,同步到知識庫中,通過百度百科頁面找到與其相關的實體,然後評測相關實體有哪些是需要更新的,然後用預測器對拓展實體進行排序,對這個列表上的實體每天做一定數量的更新。

 

15丨基於時間標籤的更新機制有哪些常見約束?

同學代表性回答:

時間分離約束、時間順序約束、時間跨度約束。

肖仰華老師:

大家回答得都不錯,有很多細節,希望大家也深入學習,這一講與上一講的很多內容都是當前的研究熱點,建議大家認真研讀,我問問大家 ,是否有同學從這兩講找到一些值得研究的問題,或者值得你作爲碩士博士畢業論文研究的問題。再問大家一個問題,構建後的關係補全與構建階段的關係獲取兩個任務有何不同?

有同學回答:有沒有一種方式是自動發現知識圖譜缺少或者錯誤的知識,然後自動重新抽取補充的,包括反過來優化抽取,讓抽取不會犯類似的錯誤。

肖老師評論:你說的是缺失的識別問題,或者錯誤的識別。錯誤的識別在書中有講,比如用搜索引擎去檢驗每個事實。但是缺失的識別,似乎沒講,大家有什麼辦法麼?

有同學回答:比較同類別實體,如果其他實體都有的屬性這個實體沒有的話,可能就是存在缺失?

肖老師評論:對的,最簡單的方法是用schema,也就是實體類別模板,模板中有屬性列表,但是即便如此,schema也可能不完整,這是一方面,另一方面有些屬性是合理的,但是卻不必要。比如愛因斯坦一定有星座,但是我估計所有知識庫都沒有這個信息,因爲正常人關心愛因斯坦估計是不會是因爲他的星座,愛因斯坦也一定有父母,但是除非其父母很有名,你也不會關心這個信息。所以這個缺失識別不是個簡單的事情,一種辦法是:構造愛因斯坦星座之類的搜索,看看搜索引擎是否有搜索記錄以及相應網頁,如果沒有或很少,這個屬性很可能就是不必要關注的。這個問題還有很多機會,大家可以深入想想。

(完)

 

圖書推薦

 

《知識圖譜:概念與技術》

肖仰華 等 編著

本書力求涵蓋知識圖譜相關的基本概念與關鍵技術,總結了十多個知識圖譜工程項目的落地經驗。

本書緊密圍繞知識圖譜開展知識體系的梳理,儘量突出知識圖譜與相關學科的差別,儘可能的爲大家清晰地界定知識圖譜與各分支學科的根本不同。本書注重知識圖譜的整個知識體系,從最基礎的基本概念、基礎理論到設計、技術、模型、方法都做了全面的介紹。

 

▶ 研討實錄回顧

  • 研討實錄01丨知識圖譜概述
  • 研討實錄02丨知識圖譜基礎知識
  • 研討實錄03丨詞彙挖掘與實體識別
  • 研討實錄04丨關係抽取
  • 研討實錄05丨概念圖譜構建
  • 研討實錄06丨百科圖譜構建
  • 研討實錄07丨知識圖譜的衆包構建