詞庫簡介
研究概況
線上系統使用
詞庫授權資源
詞庫成員
技術報告
網路資源
連絡我們

 

 

 

 


搜尋所有網站
搜尋詞庫網站
  s
 
  以下各線上查詢系統是本實驗室的部分研究成果,提供給大家使用。
   
 

在展示版中,使用者直接輸入中文句子,系統會自動進行句子斷詞標記/句子剖析/角色指派的動作,最後將結果顯示出來,其內容包含輸入文本/斷詞標記/句子剖析等資訊。

 
 

「中文句結構樹資料庫」(Sinica Treebank Version 3.0) 包含了6個檔案,61,087個中文樹圖,361,834個詞,是中央研究院詞庫小組從中央研究院平衡語料庫 (Sinica Corpus) 中,抽取句子,經由電腦剖析成,結構樹並加以人工修正、檢驗後的所得的成果。在中文句結構樹中,我們標示了中文句語意和語法的訊息。

  此一「中文句結構樹資料庫」目前開放網上檢索及資料移轉,以供學者專家在中文句法、語意關係研究參考之用。另有1000個句結構樹開放下載。

 
 

在展示系統當中,您可以輸入一篇文章(最簡單的方法是copy一篇新聞),系統就會做未知詞擷取以及包含未知詞的斷詞標記動作。最後會把結果秀出,秀出的結果不但包含了未知詞列表以及包含未知詞的斷詞標記結果,還有程式運作的過程,包含演算法中每一個步驟所相對應的結果。

 
平衡語料庫
 

「中央研究院現代漢語平衡語料庫」 (簡稱「研究院語料庫」(Sinica Corpus))是專門針對語言分析而設計的,每個文句都依詞斷開,並標示詞類。語料的蒐集也盡量做到平衡分配在不同的主題和語式上,是現代漢語無窮多的語句中一個代表性的樣本。

  這個語料庫是由中央研究院資訊所、語言所詞庫小組完成的。該小組由陳克健(資訊所)、黃居仁(語言所籌備處) 兩位研究員主持,自一九九0年前後便開始致力於漢語語料的蒐集。於一九九一年得蔣經國基金會補助,開始構建語料庫; 並於一九九四年分別得到中央研究院「中文資訊」跨所研究群專案計畫及 國科會計畫補助, 正式開始進行語料標記。一九九五年七月完成第一版(兩百萬詞), 一九九六年十一月經計算中心設計規劃完成 WWW版,開放供各界使用(On www since November 1996) 。並於一九九七年完成3.0版,約五百萬詞。

  目前開放免費查詢系統網址如下:

 
 

本資料庫根據中研院平衡語料庫,收集常用

  • 名詞詞首字 1,135個(含歧義為 1,197個)

  • 名詞詞尾字 1,427個(含歧義為 1,610個)

  • 動詞詞首字 735個(含歧義為 918個)

  • 動詞詞尾字 282個(含歧義為 300個)

         總計4,025筆資料。

名詞部份,每個字提供的資訊包括英文詞義、詞類、詞林類(並列出領頭詞)和例子。

動詞部份,提供的是英文詞義、構詞律和例子;構詞律數量則依動詞特性不定。

   
 
 

廣義知網知識本體(Extended-HowNet Ontology)是由中央研究院資訊所詞庫小組依據知網(HowNet)語義義原角色知識本體修改建構完成的。目的在建立一表達概念與概念之間,以及概念所具有之屬性間的關係的詞彙知識庫,為廣義知網的基礎資料庫。

   
 
   
 
 
   
中央研究院 資訊科學所 中文組實驗室 中文詞知識庫小組 版權所有(c)