詞庫簡介
研究概況
線上系統使用
詞庫授權資源
詞庫成員
技術報告
網路資源
連絡我們

 

 

 

 


搜尋所有網站
搜尋詞庫網站
 
 

以下研究成果是由中央研究院中文詞知識庫小組執行、研究,並授權中華民國計算語言學學會發行。申請人需向學會提出申請,簽妥授權使用協議書,並同意確實遵守協議書上之約定條款。

   
 

中華民國計算語言學學會語料庫,為一包含約一千四百萬字的語料庫,主要資料來源為報紙和雜誌。

 

中央研究院漢語平衡語料庫
 

中央研究院漢語平衡語料庫(簡稱Sinica Corpus)第4.0版,為一包含一千多萬目詞的帶標記平衡語料庫。本語料庫中每個文句都依詞斷開,並標示詞類標記。語料的蒐集也盡量做到平衡分配在不同的主題和語式上,是現代漢語無窮多的語句中一個代表性的樣本。所蒐集的文章為1981年到2007年之間的文章。

 

中央研究院漢語平衡語料庫詞集及詞頻統計
 

「中央研究院平衡語料庫詞集及詞頻統計(Word List with Accumulated Word Frequency in Sinica Corpus 3.0)」是根據中央研究院平衡語料庫(五百萬詞)所計算出的詞集及詞頻統計資料,每一筆詞包含詞類、詞頻(在語料庫中出現的次數)、還有照詞頻排序至此詞的累積頻率(100為總頻率和)。

 

中文詞庫(八萬目詞)
 

中文詞知識庫為一包含八萬目詞的電子辭典。本詞庫收的詞包含一般用詞、常用專有名詞、成語、慣用語、常用派生詞、異體詞、合併詞以及少數特殊領域用語和古漢語詞語。每個詞項包含的訊息有: 注音、頻率、詞類、名詞語義分類等。

 
廣義知網中文詞知識庫
 

廣義知網中文詞知識庫(E-HowNet)為詞彙語義表達系統,由兩個主要成分組成:
(一) 詞彙知識表達: 其內容包含於中文詞庫,
(二) E-HowNet義元(primitive concepts)定義式及知識架構(ontology)。

 

 

中文分詞語料庫
 

中文分詞語料庫為一包含兩百萬詞、不含詞類標記的語料庫,每個文句皆根據分詞原則來斷詞。而此分詞原則,乃是中華民國計算語言學學會在經濟部中央標準局委辦的「資訊處理用中文分詞規範調查研究及草案研擬」計畫中所訂定的。本語料庫來源包括書面語和口語兩部分,其中資訊類佔21%。

 
中文分詞詞庫
 

中文分詞詞庫係根據中文分詞語料庫(乃依分詞原則斷詞、不帶詞類標記的語料庫),共抽出42,138目詞,除了詞項外,還包括每個詞項在本語料庫出現的次數。

 
中央研究院中文句結構樹資料庫
 

中央研究院中文句結構樹資料庫(簡稱Sinica Treebank)第3.0版,包含了6個檔案,61,087 棵中文結構樹,361,834個詞,在結構樹中,標示了中文句語意和語法的訊息,以供學者專家在中文句法、語意關係研究參考之用。

   
 
 
 
   
中央研究院 資訊科學所 中文組實驗室 中文詞知識庫小組 版權所有(c)