[greenstone_es] Re: PDFs y OCR en Greenstone

  • From: "felipe vera" <felipevera@xxxxxxxxx>
  • To: greenstone_es@xxxxxxxxxxxxx
  • Date: Thu, 25 Sep 2008 12:52:47 -0400

Hola Julian;

En teoría si tienes un documento en pdf cuyo resultado es en base  a una
imagen y a su vez a esta se le realizo el proceso OCR, no debieras tener
problema en recuperar "full text" el
contenido............................recuerda que la efectividad del proceso
de OCR en base de una imagen va a depender de la calidad de la imagen
original, por ejemplo si la imagen original es una portada de una periódico
antiguo, seguramente el OCR sera capaz solo de reconocer las palabras cuyo
tipografía esten bien definida, pero si existen algunas palabras borrosas y
de mala visualización es seguro que el OCR no sera capaz de reconocer esos
caracteres.

Un proceso de OCR de buena calidad es a partir del 70% de efectividad y
sobre todo cuando son imagenes antiguas o con caracteres no bien definidos,
esta efectividad disminuye notoriamente.


Saludos
Felipe Vera

2008/9/25 Julian Moyano <julianmoyanoc@xxxxxxxxx>

> Hola a todos. Me acaba de surgir una duda. Tengo varios documentos en PDF,
> algunos han sido creados por documentos en Word u odt, y otros han salido de
> la digitalización de documentos. En el primer caso Greenstone sí que busca
> en el interior de los documentos, y recupera sus términos. En el segundo,
> cuando los documentos provienen de imágenes digitalizadas y con
> reconocimiento OCR, los palabras de los documentos no son recuperadas por el
> programa. ¿a qué se puede deber? Gracias
>



-- 
Saludos
Felipe Vera

Other related posts: