[contentanalysis] 搜狗互联网词库(SogouW)――请谭俊武特别注意

  • From: "Wight911" <wight911@xxxxxxxxx>
  • To: <contentanalysis@xxxxxxxxxxxxx>
  • Date: Tue, 28 Oct 2008 16:07:32 +0800

互联网词库来自于对SOGOU搜索引擎所索引到的中文互联网语料的统计分析,统计所进
行的时间是2006年10月,涉及到的互联网语料规模在1亿页面以上。统计出的词条数约
为15万条高频词,除标出这部分词条的词频信息之外,还标出了常用的词性信息。
http://www.sogou.com/labs/dl/w.html

对于基于互联网和其它文本数据的Information Extraction会有帮助。



--
Bin ZHOU
Associate Professor, Ph.D
School of Computer, National University of Defense Technology
Changsha, Hunan, P.R. China, 410073
Email: bin.zhou.cn@xxxxxxxxx
 

Other related posts:

  • » [contentanalysis] 搜狗互联网词库(SogouW)――请谭俊武特别注意