詞庫簡介
研究概況
線上系統使用
詞庫授權資源
詞庫成員
交流園地

 

 

 

 


搜尋所有網站
搜尋詞庫網站
 
 
 

  概念網是指一表達及處理詞彙知識和常識的本體架構。它的建構主要依賴兩項工作的完成:建立知識表達模型以及自動抽取常識。概念網的知識表達模型是以「個體-關係」(entity-relation)框架為本的模型,由於它延伸自知網(HowNet)的語意定義機制,在本計畫中又稱為「廣義知網」。在廣義知網中,每一個詞彙都可根據「個體-關係」框架來定義,並能由簡單概念組合成複雜概念,或反向地由複雜概念分解為簡單概念。概念網中所涵蓋的知識內容則包括詞彙概念定義與一般常識。

   
 

  董振東先生於1988年創建知網(http://www.keenage.com/),提出了建構世界知識的一些重要原則。他認為所有的概念都能以有限的義原及特徵集合來表達。不同於把概念分類歸入同義詞集(例如WordNet)的作法,他所提出的想法在自然語言處理上能提供更豐富的語意訊息,對將新增詞彙納入世界知識本體架構中也具有更簡便的優勢。董振東先生以兩千多個義原以及兩百多個動態角色和屬性來表達通用概念的意義,以及這些概念間的關係,實例如下:

NO.= 
046870
W_C= 
獲益
G_C= 
V
W_E= 
be benefited
DEF= 
{obtain|得到:possession={Advantage|利:host={Situation|狀況}{entity|實體}{event|事件}}}

這裡的obtain|得到、Advantage|利等都是義原,possession (佔有物)、host(宿主)則是動態角色與屬性。

  2003年,中央研究院資訊所詞庫小組與董振東先生展開建構繁體字知網的合作計畫,我們承續知網的語意定義機制,嘗試將中央研究院詞庫小組辭典(CKIP Chinese Lexical Knowledge Base)中的九萬多詞條與知網連結。在研究過程中,詞庫小組對知網的定義架構做了一些更動,新增了多層次定義架構與複雜關係表示式,我們以簡單概念取代義原,作為定義複雜概念的元素;並設計了複雜關係的表達架構,使繁體字知網逐漸發展成為一個新的知識表達模型,稱為「廣義知網」。細節請參見多層次概念定義與複雜關係表達-繁體字知網的新增架構一文。此處僅整合廣義知網的優點如下:

  1. 廣義知網不受有限義原的限制,能夠更精確的表達知識。

  2.  
  3. 廣義知網符合人的認知方式,對標注者而言較簡單,他們可以靈活的運用簡單概念進行定義。

  4.  
  5. 標注者使用不同的簡單概念定義同一詞彙時,最後仍可轉換為相同或相近的義原,並可利用上下位承襲規範進行整合,有利於知識庫建立的方便性與一致性。

  6.  
  7. 廣義知網利用簡單概念定義複雜概念,可以減少訊息的重複登錄,只需把額外的訊息補充說明即可,因此表示式較清楚易懂。當簡單概念出現歧義時,我們的解決方法是以WordNet同義詞集(synset)加以限定,藉著與WordNet同義詞集的連結,將可以限定詞義,解決歧義詞的問題。

  8.  
  9. 廣義知網的表示式比較容易轉換為自然語言。

  10.  
  11. 複雜關係表示式便於用來定義任何具有多重結合關係的人際概念、時空概念與比較概念。

  目前,我們已針對比較詞、疑問詞及情態詞的表達制訂定義規範,也持續分析複合詞、否定詞及其他功能詞,並建立角色的上下位關係及變數指派,因為角色的本體架構也有上下位共性承襲的優點,可以輔助計算機理解概念與概念間的關係。未來,我們仍將朝下位角色繼續擴充,藉由關係的合成產生複雜的下位關係,希望建立更細密完整的知識表達架構,使每個概念都能以框架為基礎(frame-based)來進行定義。

   
 
  1. 開放廣義知網知識本體架構線上瀏覽。 http://mt.iis.sinica.edu.tw/~mhbai/taxonomy/

  2.  
  3. 完成知網義原與WordNet同義詞集的連結。

  4.  
  5. 完成CKIP語意角色初步架構。請參見The semantic roles for noun, The semantics roles for verb, The semantic roles for relation.等檔案。

  6.  
  7. 完成CKIP詞彙知識庫測試版光碟。共有詞彙55,912筆,分析歧義後包含概念60,482筆。實例如下:
概念編號
NO.= 
 022872
中文詞彙
W_C=
 汽油彈
注音
P_C=
 ㄑㄧˋ ㄧㄡˊ ㄉㄢˋ
中文詞類
G_C=
 Na
中文例句
E_C=
 
英文詞意
W_E=
 petrol_bomb
英文詞類
G_E=
 
英文例句
E_E=
 
簡單概念定義式
InterDEF=
 {炸彈:material={汽油}}
知網義原定義式
DEF=
 {weapon|武器:material={material|材料: modifier =
  {StateLiquid|液態}, predication={burn|焚燒: material={~}}}}
   
 

  概念和概念之間的關係是透過中文剖析系統分析大量文本所抽取得到的。經過剖析抽取後,我們首先得到詞與詞之間的關係。例如:在「我們都喜歡蝴蝶」一句中,經過斷詞與剖析之後得到它的結構樹如下:

再從其中抽出詞與詞的關係如下:

experiencer 我們 Nhaa Head[S] 喜歡 VK1
quantify 都 Dab Heasd[S] 喜歡 VK1
Head[S] 喜歡 VK1 goal 蝴蝶 Nab

  經過大量抽取詞與詞的關係後,我們把這些詞彙和廣義知網所提供的訊息作一連結,得到更多的詞與詞關係,接著用這些關係來定義詞彙的意義,把有類似上下文脈絡的詞彙整合在一起,就成為概念網的知識架構。例如:(喜歡, goal-蝴蝶)(experiencer-我們, 喜歡)用廣義知網表示式可分別表達為:

({FondOf|喜歡}, goal-{InsectWorm|蟲:{fly|飛:agent={~}}})

(experiencer-{human|人:PersonPro={1stPerson|我},quantity={mass|眾}},{FondOf|喜歡})

  從而我們可以推知凡是和「我們」一樣以{human|人}作為中心語的詞彙,例如:你、張三、媽媽…等等都可能是喜歡的經驗者。凡是和「蝴蝶」一樣以{InsectWorm|蟲}做為中心語的詞彙,例如昆蟲、蜜蜂、蚊子…等等都可能作為喜歡的終點角色。在剖析大量文本後,我們得到許多概念訊息,概念網的詞彙知識及一般常識便由此建立。

   
 

You Jia-Ming, Chen Keh-Jiann, 2002, A Study of Word Similarity by Context Vector Models, 第三屆中文辭彙語意學研討會

You Jia-Ming, Chen Keh-Jiann, 2004, Automatic Semantic Role Assignment for a Tree Structure,Proceedings of 3rd ACL SIGHAN Workshop,BarcelonaSpain

陳克健、黃淑齡、施悅音、陳怡君,2005,多層次概念定義與複雜關係表達-繁體字知網的新增架構,漢語詞彙語義研究的現狀與發展趨勢國際學術研討會,北京大學

陳怡君、黃淑齡、施悅音、陳克健,2005,繁體字知網架構下之功能詞表達初探,第六屆漢語詞彙語意學研討會,廈門大學

Chen Keh-Jiann, Shu-Ling Huang, Yueh-Yin Shih, Yi-Jun Chen, 2005, Extended-HowNet- A Representational Framework for Concepts, OntoLex 2005 - Ontologies and Lexical Resources IJCNLP-05 Workshop, Jeju Island, South Korea

Shih Yueh-Yin, Shu-Ling Huang, Yi-Jun Chen, Keh-Jiann Chen, 2005, Semantic representation and composition for spatial concepts in extended-HowNet, IEEE International Conference on Natural Language Processing and Knowledge Engineering, Wuhan, China

Shu-Ling Huang, Shih Yueh-Yin, Keh-Jiann Chen, 2006, The Knowledge Representation for Comparison Words in Extended-HowNet, CLSW7, NCTU, Taiwan

Yueh-Yin Shih, Shu-Ling Huang, and Keh-Jiann Chen , 2006, Semantic Representation and Composition for Unknown Compounds in E-HowNet, Paclic 20, Wuhan China.

Shu-Ling Huang, You-Shan Chung, Yueh-Yin Shih, Keh-Jiann Chen, 2007, Knowledge Representation for Interrogatives in E-HowNet, Rocling 2007, Taipei, Taiwan.

You-Shan Chung, Shu-Ling Huang, Keh-Jiann Chen. , 2007, Modality and Modal Sense Representation in E-HowNet , Paclic 21, Seoul, Korea.

Shu-Ling Huang, Yueh-Yin Shih, Keh-Jiann Chen. , 2008, Knowledge Representation for Comparative Constructions in Extended-HowNet,, LANGUAGE AND LINGUISTICS 9.2:395-413.

Shu-Ling Huang, You-Shan Chung, Keh-Jiann Chen. , 2008, E-HowNet: the Expansion of HowNet,, The First National HowNet Workshop, Beijing, China.

Chia-hung Tai, Shu-Ling Huang, Keh-Jiann Chen, 2008, A Semantic Composition Method for Deriving Sense Representations of Determinative-Measure Compounds in E-HowNet, Rocling 2008, Taipei, Taiwan.

   
  黃淑齡施悅音鍾友珊
   
 

陳怡君、游佳明

   
  黃淑齡
   
  中文剖析 中文斷詞系統 中文句結構樹 現代漢語平衡語料庫
 
   
 
 
   
中央研究院 資訊科學所 中文組實驗室 中文詞知識庫小組 版權所有(c)