Tenes que crear la colecion con el plugin PagedImg.pl en este caso lo que se importa no es el archivo de la fotografia sino un documento extra que se crea que tiene la extencion *.item el contenido de ese documento es una lista de las imagenes con la relacion al documento de texto que devolvio el OCR. Se escribe así <metadato>valor 1:imagen1.TIF:texto1.txt: 2:imagen2.TIF:texto2.txt: Cada documento *.item representa un documento de la coleccion. Se importa solo ese documento, no las imagenes ni el texto. En las colecciones de ejemplo (http://wiki.greenstone.org/wiki/index.php/Example_collections) hay dos: la simple page http://www.nzdl.org/cgi-bin/library?a=p&p=about&c=image-e y la paged image http://www.nzdl.org/cgi-bin/library?a=p&p=about&c=pagedimg-e Hay entre la documentacion un ejemplo de como hacerlo con el gli. Pero por linea de comando es bastante sencillo. Saludos a todos y suerte. ----- Original Message ----- From: Julian Moyano To: greenstone_es@xxxxxxxxxxxxx Sent: Thursday, September 25, 2008 9:41 AM Subject: [greenstone_es] PDFs y OCR en Greenstone Hola a todos. Me acaba de surgir una duda. Tengo varios documentos en PDF, algunos han sido creados por documentos en Word u odt, y otros han salido de la digitalización de documentos. En el primer caso Greenstone sí que busca en el interior de los documentos, y recupera sus términos. En el segundo, cuando los documentos provienen de imágenes digitalizadas y con reconocimiento OCR, los palabras de los documentos no son recuperadas por el programa. ¿a qué se puede deber? Gracias