[contentanalysis] Re: [contentanalysis] 如何基于倒排索引比对两文件?

  • From: "Huang Jiuming" <naicky@xxxxxxxxx>
  • To: contentanalysis@xxxxxxxxxxxxx
  • Date: Sun, 6 Jul 2008 14:37:41 +0800

倒排索引本身只存储了keyword到文档path的映射关系。
一种简单的办法是在IG中存一份已有文档的hashid,新到达的文档算出hashid后只需要扫描下看是否有存在文件大小相同,且有相同的hashid即可。


在08-7-6,Wight911 <wight911@xxxxxxxxx> 写道:
>
>  如题。
>
> 有这样一个假象场景:
>
> 已经给一组文档G建立了倒排索引IG,此时,又到达了另外一个文档d。能否设计一个高效算法,只根据IG,d,确认出G中是否存在文档d',使得d'==d。
>
>
>



-- 
黄九鸣祝您心情愉快

Other related posts: