[greenstone_es] Re: PDFs y OCR en Greenstone
- From: "Marcelo Yornet" <baryornet@xxxxxxxxxxx>
- To: <greenstone_es@xxxxxxxxxxxxx>
- Date: Thu, 25 Sep 2008 10:48:17 -0300
Tenes que crear la colecion con el plugin PagedImg.pl en este caso lo que se
importa no es el archivo de la fotografia sino un documento extra que se crea
que tiene la extencion *.item el contenido de ese documento es una lista de las
imagenes con la relacion al documento de texto que devolvio el OCR.
Se escribe así
<metadato>valor
1:imagen1.TIF:texto1.txt:
2:imagen2.TIF:texto2.txt:
Cada documento *.item representa un documento de la coleccion.
Se importa solo ese documento, no las imagenes ni el texto.
En las colecciones de ejemplo
(http://wiki.greenstone.org/wiki/index.php/Example_collections) hay dos:
la simple page http://www.nzdl.org/cgi-bin/library?a=p&p=about&c=image-e
y la paged image http://www.nzdl.org/cgi-bin/library?a=p&p=about&c=pagedimg-e
Hay entre la documentacion un ejemplo de como hacerlo con el gli. Pero por
linea de comando es bastante sencillo.
Saludos a todos y suerte.
----- Original Message -----
From: Julian Moyano
To: greenstone_es@xxxxxxxxxxxxx
Sent: Thursday, September 25, 2008 9:41 AM
Subject: [greenstone_es] PDFs y OCR en Greenstone
Hola a todos. Me acaba de surgir una duda. Tengo varios documentos en PDF,
algunos han sido creados por documentos en Word u odt, y otros han salido de la
digitalización de documentos. En el primer caso Greenstone sí que busca en el
interior de los documentos, y recupera sus términos. En el segundo, cuando los
documentos provienen de imágenes digitalizadas y con reconocimiento OCR, los
palabras de los documentos no son recuperadas por el programa. ¿a qué se puede
deber? Gracias
- References:
- [greenstone_es] PDFs y OCR en Greenstone
- From: Julian Moyano
Other related posts:
- » [greenstone_es] PDFs y OCR en Greenstone
- » [greenstone_es] Re: PDFs y OCR en Greenstone
- » [greenstone_es] Re: PDFs y OCR en Greenstone
- » [greenstone_es] Re: PDFs y OCR en Greenstone
- » [greenstone_es] Re: PDFs y OCR en Greenstone
- » [greenstone_es] Re: PDFs y OCR en Greenstone
- » [greenstone_es] Re: PDFs y OCR en Greenstone
- » [greenstone_es] Re: PDFs y OCR en Greenstone
- [greenstone_es] PDFs y OCR en Greenstone
- From: Julian Moyano