[contentanalysis] Re: [contentanalysis] Re: [contentanalysis] 如何基于倒排索引比对两文件?

  • From: "邓镭" <delete.ra@xxxxxxxxx>
  • To: contentanalysis@xxxxxxxxxxxxx
  • Date: Sun, 6 Jul 2008 18:12:59 +0800

可否如此:
按同种策略提取新文章d的关键词,得关键词集合KEY,对KEY中每一个关键词查索引表,得到所在文章序号的集合
,再求每个关键词对应的文章序号集合的交集,交集中多半只有一个元素吧?八成就是d'了。
如果得到的交集里不止一个文档怎么办,唔,再试试比较关键词所在的位置如何?
2008/7/6 Huang Jiuming <naicky@xxxxxxxxx>:

> 倒排索引本身只存储了keyword到文档path的映射关系。
> 一种简单的办法是在IG中存一份已有文档的hashid,新到达的文档算出hashid后只需要扫描下看是否有存在文件大小相同,且有相同的hashid即可。
>
>
> 在08-7-6,Wight911 <wight911@xxxxxxxxx> 写道:
>>
>>  如题。
>>
>> 有这样一个假象场景:
>>
>> 已经给一组文档G建立了倒排索引IG,此时,又到达了另外一个文档d。能否设计一个高效算法,只根据IG,d,确认出G中是否存在文档d',使得d'==d
>> 。
>>
>>
>>
>
>
>
> --
> 黄九鸣祝您心情愉快




-- 
户枢不蠹,流水不腐。

Other related posts:

  • » [contentanalysis] Re: [contentanalysis] Re: [contentanalysis] 如何基于倒排索引比对两文件?