詞庫簡介
研究概況
線上系統使用
詞庫授權資源
詞庫成員
技術報告
網路資源
連絡我們

 

 

 

 


搜尋所有網站
搜尋詞庫網站
 
 
 

  句子的結構是語義分析及了解的必要訊息。要電腦具有智慧型的語言處理能力,例如機器翻譯、語言分析、語言了解、資訊抽取,電腦系統都必須先能分析句子結構。因此,中文句子自動剖析的工作成了語言理解不可或缺的技術。基本上句子自動剖析利用語法規律和斷詞後的文本做比對,找出可能的短語結構,由於存在歧義的短語結構,因此,如何利用結構出現的機率及檢測結構中詞與詞之間搭配的合理性成為解決結構歧義的方法。

  本系統採用機率式無語境規律的模型(Probabilistic Context-free Grammar)為基本剖析架構並加入結構中詞彙搭配關係機率解決結構歧義。在結構決定之後,本系統可選擇是否對結構進行語義角色的指派。分詞與詞類標記採用本實驗室發展的中文斷詞與詞類標記系統。

   
 

  本系統實作研究的二個主要部份為句法抽取與結構剖析。

  • 句法抽取:研究如何從Sinica Treebank中抽取句法規則,並尋找出有效的語法普遍化及精確化方法,得到覆蓋率高且精確的句法規則,以加強中文剖析器的剖析效能。統計相關的規則機率、中心語機率值及中心語與搭配語機率,作為剖析器歧義結構挑選與機率統計的依據。


  •  
  • 結構剖析:研究如何從無數的剖析歧義結構中有效率的找到最佳結構。除了利用規則機率外並考慮詞彙搭配的合理性作為歧義結構評估的方法。

   
 

  完成中文句子析剖析系統,包含斷詞/斷詞標記/中文剖析/角色指派。

  例子:我們都喜歡蝴蝶

  我們(Nh) 都(D) 喜歡(VK) 蝴蝶(Na)

  對剖析器而言,不同的語法規則的普遍化與精確化明顯影響系統的效能,配合我們提出的二元化句法規則方法,可以明顯的提升剖析效率。實驗的結果是基本普遍化語法的81.45%增加到精確化語法的86.14%[謝佑明, 楊敦淇, 陳克健, 2004]

   
 
   
 

  本系統亦提供線上測試版,網址如下: http://parser.iis.sinica.edu.tw/

   
 

Yu-Ming Hsieh, Ming-Hong Bai, Jason S. Chang and Keh-Jiann Chen, 2012, Improving PCFG Chinese Parsing with Context-Dependent Probability Re-estimation, CLP-2012.

Duen-Chi Yang, Yu-Ming Hsieh and Keh-Jiann Chen 2008, Resolving Ambiguities of Chinese Conjunctive Structures by Divide-and-conquer Approaches, IJCNLP2008.

Yu-Ming Hsieh, Duen-Chi Yang and Keh-Jiann Chen, 2007, Improve Parsing Performance by Self-Learning, Computational Linguistics and Chinese Language Processing, vol. 12, No. 2, June 2007, pp.195-216

Yu-Ming Hsieh, Duen-Chi Yang, Keh-Jiann Chen, 2006, Improve Parsing Performance by Self-Learning, Proceedings of ROCLING XVIII, pp.63-76. 2006

Yu-Ming Hsieh, Duen-Chi Yang, Keh-Jiann Chen, 2005, Linguistically-Motivated Grammar Extraction, Generalization and Adaptation, The Second International Joint Conference on Natural Language Processing (IJCNLP-05).

謝佑明, 楊敦淇, 陳克健, 2004, "語法規律的抽取及普遍化與精確化的研究", Proceedings of ROCLING XVI, pp.141-150.

Chen Keh-Jiann, Yu-Ming Hsieh, 2004, Chinese Treebanks and Grammar Extraction, Proceedings of IJCNLP-04, pp560-565

You, Jia-Ming, Keh-Jiann Chen, 2004, Automatic Semantic Role Assignment for a Tree Structure, Proceedings of SIGHAN workshop.

   
  謝佑明
   
 

楊敦淇

   
  謝佑明 morris
   
  中文斷詞系統 中文句結構樹 現代漢語平衡語料庫 廣義知網
 
   
 
 
   
中央研究院 資訊科學所 中文組實驗室 中文詞知識庫小組 版權所有(c)