[contentanalysis] Re: [contentanalysis] Re: [contentanalysis] 如何基于倒排索引比对两文件？

From: "邓镭" <delete.ra@xxxxxxxxx>
To: contentanalysis@xxxxxxxxxxxxx
Date: Sun, 6 Jul 2008 18:12:59 +0800

可否如此：
按同种策略提取新文章d的关键词，得关键词集合KEY，对KEY中每一个关键词查索引表，得到所在文章序号的集合
，再求每个关键词对应的文章序号集合的交集，交集中多半只有一个元素吧？八成就是d'了。
如果得到的交集里不止一个文档怎么办，唔，再试试比较关键词所在的位置如何？
2008/7/6 Huang Jiuming <naicky@xxxxxxxxx>:

> 倒排索引本身只存储了keyword到文档path的映射关系。
> 一种简单的办法是在IG中存一份已有文档的hashid，新到达的文档算出hashid后只需要扫描下看是否有存在文件大小相同，且有相同的hashid即可。
>
>
> 在08-7-6，Wight911 <wight911@xxxxxxxxx> 写道：
>>
>>  如题。
>>
>> 有这样一个假象场景：
>>
>> 已经给一组文档G建立了倒排索引IG，此时，又到达了另外一个文档d。能否设计一个高效算法，只根据IG，d，确认出G中是否存在文档d'，使得d'==d
>> 。
>>
>>
>>
>
>
>
> --
> 黄九鸣祝您心情愉快




-- 
户枢不蠹，流水不腐。

Follow-Ups:
- [contentanalysis] Re: [contentanalysis] Re: [contentanalysis] Re: [contentanalysis] 如何基于倒排索引比对两文件？
  - From: Huang Jiuming

References:
- [contentanalysis] 如何基于倒排索引比对两文件？
  - From: Wight911
- [contentanalysis] Re: [contentanalysis] 如何基于倒排索引比对两文件？
  - From: Huang Jiuming

[contentanalysis] Re: [contentanalysis] Re: [contentanalysis] 如何基于倒排索引比对两文件？

Other related posts: