[contentanalysis] Re: [contentanalysis] Re: [contentanalysis] Re: [contentanalysis] 如何基于倒排索引比对两文件?

  • From: "Huang Jiuming" <naicky@xxxxxxxxx>
  • To: contentanalysis@xxxxxxxxxxxxx
  • Date: Mon, 7 Jul 2008 03:07:22 +0800

如果不是全文索引而只是索引了文档的部分重要关键词,那么碰撞的概率很大。
而且,这么一个算法,时空开销都很大。


在08-7-6,邓镭 <delete.ra@xxxxxxxxx> 写道:
>
> 可否如此:
>
> 按同种策略提取新文章d的关键词,得关键词集合KEY,对KEY中每一个关键词查索引表,得到所在文章序号的集合 
> ,再求每个关键词对应的文章序号集合的交集,交集中多半只有一个元素吧?八成就是d'了。
> 如果得到的交集里不止一个文档怎么办,唔,再试试比较关键词所在的位置如何?
>
> 2008/7/6 Huang Jiuming <naicky@xxxxxxxxx>:
>
>> 倒排索引本身只存储了keyword到文档path的映射关系。
>>
>> 一种简单的办法是在IG中存一份已有文档的hashid,新到达的文档算出hashid后只需要扫描下看是否有存在文件大小相同,且有相同的hashid即可。
>>
>>
>> 在08-7-6,Wight911 <wight911@xxxxxxxxx> 写道:
>>>
>>>  如题。
>>>
>>> 有这样一个假象场景:
>>>
>>> 已经给一组文档G建立了倒排索引IG,此时,又到达了另外一个文档d。能否设计一个高效算法,只根据IG,d,确认出G中是否存在文档d',使得
>>> d'==d。
>>>
>>>
>>>
>>
>>
>>
>> --
>> 黄九鸣祝您心情愉快
>
>
>
>
> --
> 户枢不蠹,流水不腐。




-- 
黄九鸣祝您心情愉快

Other related posts:

  • » [contentanalysis] Re: [contentanalysis] Re: [contentanalysis] Re: [contentanalysis] 如何基于倒排索引比对两文件?