搜尋所有網站
搜尋詞庫網站
 
 

以下研究成果是由中央研究院中文詞知識庫小組執行、研究。學術授權申請人需向中華民國計算語言學學會提出申請,簽妥授權使用協議書,並同意確實遵守協議書上之約定條款。商業授權者需向 中研院智財技轉處 提出申請。

 
中文斷詞系統(包含未知詞擷取與標記)[線上展示 商業授權]
 

本系統整合了斷詞及線上新詞辨識技術,為唯一具有新詞辨識能力並附加詞類標記的選擇性功能之中文斷詞系統。此一系統包含一個約拾萬詞的詞彙庫及附加詞類、詞頻、詞類頻率、雙連詞類頻率等資料。分詞依據為此一詞彙庫及定量詞、重疊詞等構詞規律及線上辨識的新詞,並解決分詞歧義問題。除了基本詞彙庫外,使用者可依需要附加領域專屬詞庫。一般文件若不考慮新詞平均切分正確率達99%以上。詞類標記為選擇性功能,可附加文本中切分詞的詞類解決詞類歧義,正確率在95%以上。分詞用詞典俱可擴充性,使用者可依據不同領域文件,補充領域詞典做為分詞之用。

 

中文剖析系統 [線上展示 商業授權]
 

句子的結構是語義分析及了解的必要訊息。要電腦具有智慧型的語言處理能力,例如機器翻譯、語言分析、語言了解、資訊抽取,電腦系統都必須先能分析句子結構。因此,中文句子自動剖析的工作成了語言理解不可或缺的技術。本系統採用機率式無語境規律的模型(Probabilistic Context-free Grammar)為基本剖析架構並加入結構中詞彙搭配關係機率解決結構歧義。在結構決定之後,本系統可選擇是否對結構進行語義角色的指派。分詞與詞類標記採用本實驗室發展的中文斷詞與詞類標記系統。

 

中文知識表達系統-廣義知網 [學術授權試用版  學術授權完整版 商業授權]
 

中文知識表達系統-廣義知網(E-HowNet)由三個主要成分組成:
(一) 詞彙知識表達: 每個詞項包含的訊息有: 詞條、廣義知網概念式、頻率、發音(包括注音符號及漢語拼音)、詞類、英文翻譯等。
(二) E-HowNet義原(primitive concepts)定義式及知識架構(ontology)。
(三) E-HowNet語義查詢的API元件。

   
中央研究院漢語平衡語料庫 [學術授權 商業授權]
 

中央研究院漢語平衡語料庫(簡稱Sinica Corpus)第4.0版,為一包含一千多萬目詞的帶標記平衡語料庫。本語料庫中每個文句都依詞斷開,並標示詞類標記。語料的蒐集也盡量做到平衡分配在不同的主題和語式上,是現代漢語無窮多的語句中一個代表性的樣本。所蒐集的文章為1981年到2007年之間的文章。

 

中央研究院中文句結構樹資料庫 [學術授權 商業授權]
 

中央研究院中文句結構樹資料庫(簡稱Sinica Treebank)第3.0版,包含了6個檔案,61,087 棵中文結構樹,361,834個詞,在結構樹中,標示了中文句語意和語法的訊息,以供學者專家在中文句法、語意關係研究參考之用。

   
中文詞庫(八萬目詞) [學術授權 商業授權]
 

中文詞知識庫為一包含八萬目詞的電子辭典。本詞庫收的詞包含一般用詞、常用專有名詞、成語、慣用語、常用派生詞、異體詞、合併詞以及少數特殊領域用語和古漢語詞語。每個詞項包含的訊息有: 注音、頻率、詞類、名詞語義分類等。

 

中央研究院漢語平衡語料庫詞集及詞頻統計  [學術授權 商業授權]
 

「中央研究院平衡語料庫詞集及詞頻統計(Word List with Accumulated Word Frequency in Sinica Corpus 3.0)」是根據中央研究院平衡語料庫(五百萬詞)所計算出的詞集及詞頻統計資料,每一筆詞包含詞類、詞頻(在語料庫中出現的次數)、還有照詞頻排序至此詞的累積頻率(100為總頻率和)。

 

中文分詞語料庫 [學術授權 商業授權]
 

中文分詞語料庫為一包含兩百萬詞、不含詞類標記的語料庫,每個文句皆根據分詞原則來斷詞。而此分詞原則,乃是中華民國計算語言學學會在經濟部中央標準局委辦的「資訊處理用中文分詞規範調查研究及草案研擬」計畫中所訂定的。本語料庫來源包括書面語和口語兩部分,其中資訊類佔21%。

 
中文分詞詞庫 [學術授權 商業授權]
 

中文分詞詞庫係根據中文分詞語料庫(乃依分詞原則斷詞、不帶詞類標記的語料庫),共抽出42,138目詞,除了詞項外,還包括每個詞項在本語料庫出現的次數。

 
中文(新聞)語料庫 [學術授權 商業授權]
 

中華民國計算語言學學會語料庫,為一包含約一千四百萬字的語料庫,主要資料來源為報紙和雜誌。

 
 
 
   
中央研究院 資訊科學所 中文組實驗室 中文詞知識庫小組 版權所有(c)