[contentanalysis] Re: [contentanalysis] Re: [contentanalysis] Re: [contentanalysis] 如何基于倒排索引比对两文件？

From: "Huang Jiuming" <naicky@xxxxxxxxx>
To: contentanalysis@xxxxxxxxxxxxx
Date: Mon, 7 Jul 2008 03:07:22 +0800

如果不是全文索引而只是索引了文档的部分重要关键词，那么碰撞的概率很大。
而且，这么一个算法，时空开销都很大。


在08-7-6，邓镭 <delete.ra@xxxxxxxxx> 写道：
>
> 可否如此：
>
> 按同种策略提取新文章d的关键词，得关键词集合KEY，对KEY中每一个关键词查索引表，得到所在文章序号的集合 
> ，再求每个关键词对应的文章序号集合的交集，交集中多半只有一个元素吧？八成就是d'了。
> 如果得到的交集里不止一个文档怎么办，唔，再试试比较关键词所在的位置如何？
>
> 2008/7/6 Huang Jiuming <naicky@xxxxxxxxx>:
>
>> 倒排索引本身只存储了keyword到文档path的映射关系。
>>
>> 一种简单的办法是在IG中存一份已有文档的hashid，新到达的文档算出hashid后只需要扫描下看是否有存在文件大小相同，且有相同的hashid即可。
>>
>>
>> 在08-7-6，Wight911 <wight911@xxxxxxxxx> 写道：
>>>
>>>  如题。
>>>
>>> 有这样一个假象场景：
>>>
>>> 已经给一组文档G建立了倒排索引IG，此时，又到达了另外一个文档d。能否设计一个高效算法，只根据IG，d，确认出G中是否存在文档d'，使得
>>> d'==d。
>>>
>>>
>>>
>>
>>
>>
>> --
>> 黄九鸣祝您心情愉快
>
>
>
>
> --
> 户枢不蠹，流水不腐。




-- 
黄九鸣祝您心情愉快

References:
- [contentanalysis] 如何基于倒排索引比对两文件？
  - From: Wight911
- [contentanalysis] Re: [contentanalysis] 如何基于倒排索引比对两文件？
  - From: Huang Jiuming
- [contentanalysis] Re: [contentanalysis] Re: [contentanalysis] 如何基于倒排索引比对两文件？
  - From: 邓镭

[contentanalysis] Re: [contentanalysis] Re: [contentanalysis] Re: [contentanalysis] 如何基于倒排索引比对两文件？

Other related posts: