如果不是全文索引而只是索引了文档的部分重要关键词,那么碰撞的概率很大。 而且,这么一个算法,时空开销都很大。 在08-7-6,邓镭 <delete.ra@xxxxxxxxx> 写道: > > 可否如此: > > 按同种策略提取新文章d的关键词,得关键词集合KEY,对KEY中每一个关键词查索引表,得到所在文章序号的集合 > ,再求每个关键词对应的文章序号集合的交集,交集中多半只有一个元素吧?八成就是d'了。 > 如果得到的交集里不止一个文档怎么办,唔,再试试比较关键词所在的位置如何? > > 2008/7/6 Huang Jiuming <naicky@xxxxxxxxx>: > >> 倒排索引本身只存储了keyword到文档path的映射关系。 >> >> 一种简单的办法是在IG中存一份已有文档的hashid,新到达的文档算出hashid后只需要扫描下看是否有存在文件大小相同,且有相同的hashid即可。 >> >> >> 在08-7-6,Wight911 <wight911@xxxxxxxxx> 写道: >>> >>> 如题。 >>> >>> 有这样一个假象场景: >>> >>> 已经给一组文档G建立了倒排索引IG,此时,又到达了另外一个文档d。能否设计一个高效算法,只根据IG,d,确认出G中是否存在文档d',使得 >>> d'==d。 >>> >>> >>> >> >> >> >> -- >> 黄九鸣祝您心情愉快 > > > > > -- > 户枢不蠹,流水不腐。 -- 黄九鸣祝您心情愉快