互联网词库来自于对SOGOU搜索引擎所索引到的中文互联网语料的统计分析,统计所进 行的时间是2006年10月,涉及到的互联网语料规模在1亿页面以上。统计出的词条数约 为15万条高频词,除标出这部分词条的词频信息之外,还标出了常用的词性信息。 http://www.sogou.com/labs/dl/w.html 对于基于互联网和其它文本数据的Information Extraction会有帮助。 -- Bin ZHOU Associate Professor, Ph.D School of Computer, National University of Defense Technology Changsha, Hunan, P.R. China, 410073 Email: bin.zhou.cn@xxxxxxxxx