搜尋所有網站
搜尋詞庫網站
 
  以下各線上查詢系統是本實驗室的部分研究成果,提供給大家使用。
 
 

在展示版中,使用者直接輸入中文句子,系統會自動進行句子斷詞標記/句子剖析/角色指派的動作,最後將結果顯示出來,其內容包含輸入文本/斷詞標記/句子剖析等資訊。

 
 

「中文句結構樹資料庫」(Sinica Treebank Version 3.0) 包含了6個檔案,61,087個中文樹圖,361,834個詞,是中央研究院詞庫小組從中央研究院平衡語料庫 (Sinica Corpus) 中,抽取句子,經由電腦剖析成,結構樹並加以人工修正、檢驗後的所得的成果。在中文句結構樹中,我們標示了中文句語意和語法的訊息。

  此一「中文句結構樹資料庫」目前開放網上檢索及資料移轉,以供學者專家在中文句法、語意關係研究參考之用。另有1000個句結構樹開放下載。

 
 

在展示系統當中,您可以輸入一篇文章(最簡單的方法是copy一篇新聞),系統就會做未知詞擷取以及包含未知詞的斷詞標記動作。最後會把結果秀出,秀出的結果不但包含了未知詞列表以及包含未知詞的斷詞標記結果,還有程式運作的過程,包含演算法中每一個步驟所相對應的結果。

 
平衡語料庫
 

「中央研究院現代漢語平衡語料庫」 (簡稱「研究院語料庫」(Sinica Corpus))是專門針對語言分析而設計的,每個文句都依詞斷開,並標示詞類。語料的蒐集也盡量做到平衡分配在不同的主題和語式上,是現代漢語無窮多的語句中一個代表性的樣本。

  這個語料庫是由中央研究院資訊所、語言所詞庫小組完成的。該小組由陳克健(資訊所)、黃居仁(語言所籌備處) 兩位研究員主持,自一九九0年前後便開始致力於漢語語料的蒐集。於一九九一年得蔣經國基金會補助,開始構建語料庫; 並於一九九四年分別得到中央研究院「中文資訊」跨所研究群專案計畫及 國科會計畫補助, 正式開始進行語料標記。一九九五年七月完成第一版(兩百萬詞), 一九九六年十一月經計算中心設計規劃完成網頁版,開放供各界使用 。並於一九九七年完成3.0版,約五百萬詞。平衡語料庫4.0版再增加一倍的語料為一千萬語料,所蒐集的文章為 1981 年到 2007 年之間的文章,於2010年開始授權申請使用,而一千萬語料的查詢介面為2013年起提供查詢。

  目前開放免費查詢系統網址如下:

 
 

本資料庫根據中研院平衡語料庫,收集常用

  • 名詞詞首字 1,135個(含歧義為 1,197個)

  • 名詞詞尾字 1,427個(含歧義為 1,610個)

  • 動詞詞首字 735個(含歧義為 918個)

  • 動詞詞尾字 282個(含歧義為 300個)

         總計4,025筆資料。

名詞部份,每個字提供的資訊包括英文詞義、詞類、詞林類(並列出領頭詞)和例子。

動詞部份,提供的是英文詞義、構詞律和例子;構詞律數量則依動詞特性不定。

   
 
  廣義知網中文詞知識庫(E-HowNet)是一套詞彙語義表達系統,提供了人工智慧系統所必須的知識。廣義知網承續知網(HowNet)的語意定義機制,將中央研究院詞庫小組辭典(CKIP Chinese Lexical Knowledge Base)中的九萬多詞條與知網連結,目的在建立一表達概念與概念之間,以及概念所具有之屬性間的關係的詞彙知識庫,並形成基本知識的概念網。利用其概念式可以很方便的進行知識邏輯與推理與知識結構整合,推論過程也可藉由語義合成的機制來清楚表達。
 
   
 
 

在中文詞彙特性速描系統上除了一般的關鍵詞及語境查詢外,更提供了詞彙特性速描(word sketches) 、語法關係以及同近義詞分析等自動產生的語法知識。「中文詞彙特性速描系統」與十四億字的LDC Chinese Gigaword語料庫結合後,提供了絕大部分中文詞彙實際使用的規則性描述,可應用於辭典編撰、華語文教學、語言學研究與自然語言處理。

     
   
 
 
   
中央研究院 資訊科學所 中文組實驗室 中文詞知識庫小組 版權所有(c)