倒排索引本身只存储了keyword到文档path的映射关系。 一种简单的办法是在IG中存一份已有文档的hashid,新到达的文档算出hashid后只需要扫描下看是否有存在文件大小相同,且有相同的hashid即可。 在08-7-6,Wight911 <wight911@xxxxxxxxx> 写道: > > 如题。 > > 有这样一个假象场景: > > 已经给一组文档G建立了倒排索引IG,此时,又到达了另外一个文档d。能否设计一个高效算法,只根据IG,d,确认出G中是否存在文档d',使得d'==d。 > > > -- 黄九鸣祝您心情愉快