Hola Julian; En teoría si tienes un documento en pdf cuyo resultado es en base a una imagen y a su vez a esta se le realizo el proceso OCR, no debieras tener problema en recuperar "full text" el contenido............................recuerda que la efectividad del proceso de OCR en base de una imagen va a depender de la calidad de la imagen original, por ejemplo si la imagen original es una portada de una periódico antiguo, seguramente el OCR sera capaz solo de reconocer las palabras cuyo tipografía esten bien definida, pero si existen algunas palabras borrosas y de mala visualización es seguro que el OCR no sera capaz de reconocer esos caracteres. Un proceso de OCR de buena calidad es a partir del 70% de efectividad y sobre todo cuando son imagenes antiguas o con caracteres no bien definidos, esta efectividad disminuye notoriamente. Saludos Felipe Vera 2008/9/25 Julian Moyano <julianmoyanoc@xxxxxxxxx> > Hola a todos. Me acaba de surgir una duda. Tengo varios documentos en PDF, > algunos han sido creados por documentos en Word u odt, y otros han salido de > la digitalización de documentos. En el primer caso Greenstone sí que busca > en el interior de los documentos, y recupera sus términos. En el segundo, > cuando los documentos provienen de imágenes digitalizadas y con > reconocimiento OCR, los palabras de los documentos no son recuperadas por el > programa. ¿a qué se puede deber? Gracias > -- Saludos Felipe Vera