[greenstone_es] Re: PDFs y OCR en Greenstone

  • From: "Marcelo Yornet" <baryornet@xxxxxxxxxxx>
  • To: <greenstone_es@xxxxxxxxxxxxx>
  • Date: Thu, 25 Sep 2008 10:48:17 -0300

Tenes que crear la colecion con el plugin PagedImg.pl en este caso lo que se 
importa no es el archivo de la fotografia sino un documento extra que se crea 
que tiene la extencion *.item el contenido de ese documento es una lista de las 
imagenes con la relacion al documento de texto que devolvio el OCR.
Se escribe así

<metadato>valor
1:imagen1.TIF:texto1.txt:
2:imagen2.TIF:texto2.txt:

Cada documento *.item representa un documento de la coleccion.
Se importa solo ese documento, no las imagenes ni el texto.

En las colecciones de ejemplo 
(http://wiki.greenstone.org/wiki/index.php/Example_collections) hay dos:
la simple page http://www.nzdl.org/cgi-bin/library?a=p&p=about&c=image-e
y la paged image http://www.nzdl.org/cgi-bin/library?a=p&p=about&c=pagedimg-e

Hay entre la documentacion un ejemplo de como hacerlo con el gli. Pero por 
linea de comando es bastante sencillo.

Saludos a todos y suerte.
  ----- Original Message ----- 
  From: Julian Moyano 
  To: greenstone_es@xxxxxxxxxxxxx 
  Sent: Thursday, September 25, 2008 9:41 AM
  Subject: [greenstone_es] PDFs y OCR en Greenstone


  Hola a todos. Me acaba de surgir una duda. Tengo varios documentos en PDF,  
algunos han sido creados por documentos en Word u odt, y otros han salido de la 
digitalización de documentos. En el primer caso Greenstone sí que busca en el 
interior de los documentos, y recupera sus términos. En el segundo, cuando los 
documentos provienen de imágenes digitalizadas y con reconocimiento OCR, los 
palabras de los documentos no son recuperadas por el programa. ¿a qué se puede 
deber? Gracias

Other related posts: