[greenstone_es] Re: Dudas respecto al OCR

  • From: maria elena rios <marielena_098@xxxxxxxxxxxx>
  • To: greenstone_es@xxxxxxxxxxxxx
  • Date: Tue, 7 Jun 2011 02:17:53 -0700 (PDT)

Hola Matias, gracias por tu respuesta, y te vuelvo a consultar : luego del ocr 
hay que editar cada documento en word y luego convertirlo en pdf nuevamente?.. 
Te pregunto esto porque cuando los pdf con ocr los reunimos en la base, GS los 
reconce, se puede realizar busquedas, pero la visualizacion del html es un 
desastre e inclusive las fotos o graficos directamente desaparecen!!!... No se 
si el problema esta en el formato de los documentos originales o es que hay que 
formatear la visualizacion del html... Disculpen las molestias pero recien 
estamos aprendiendo a utilizar GS y tambien conociendo el proceso de 
digitalizacion..Desde ya muchas gracias. Maria Elena

--- El lun 6-jun-11, matias <marinzald@xxxxxxxxxx> escribió:


De: matias <marinzald@xxxxxxxxxxx>
Asunto: [greenstone_es] Re: Dudas respecto al OCR
Para: greenstone_es@xxxxxxxxxxxxx
Fecha: lunes, 6 de junio de 2011, 7:22







Hola María Elena, mira todo depende en que estado estén los originales, si lo 
que estas digitalizando son documentos históricos los cuales fueron creados en 
maquinas de escribir o manuscritos, desde ya y por experiencia propia te 
recomendaría que los digitalices sin pasarle OCR ya que el resultado del mismo 
es muy malo, si las tesis que mencionas son ya creadas en archivos de word o 
mismo ya te llegan en pdf el ocr que vas a obtener es mucho mejor y si fueron 
creadas e impresas por impresoras de chorro a tinta o laser vas a poder obtener 
un ocr de buena calidad, lo que si es importante mencionar es que nunca el ocr 
va a ser mayor del 90% del documento, pero bueno hay mucho que mencionar, si 
queres aca te dejo mis datos debajo de mi firma, de todas formas en la lista 
hay gente que ya tiene mucha mas experiencia que yo en esto pero en lo que 
pueda tratare de ayudarte
 
saludos!!!
 
Matias Marinzalda
Comisión Nacional de Energía Atómica
Instituto Sabato - Centro de Información - CAC
Biblioteca Digital
Avda. Gral. Paz 1499 y Avda. de los Constituyentes
B1650KNA - San Martín
Pcia. de Buenos Aires – Argentina
Te: 6772-7156 - FAX: 6772 –7164
Conmutador General: +54 11 6772 7000/7007 
 

 
----- Original Message ----- 
From: "maria elena rios" <marielena_098@xxxxxxxxxxxx>
To: <greenstone_es@xxxxxxxxxxxxx>
Sent: Sunday, June 05, 2011 5:23 PM
Subject: [greenstone_es] Dudas respecto al OCR

> hola a todos: estamos por utilizar greenstone para poner a disposicion de los 
> usuarios las tesis generadas en la universidad, dichas tesis ya han sido 
> escaneadas (formato pdf), mi consulta es: el paso siguiente es el OCR?,  de 
> ser así en que formato debe ser guardado? luego de realizarle el ocr, cual es 
> el trabajo posterior? antes de armar la coleccion. Desde ya muchas gracias! 
> Maria Elena Rios
>

Other related posts: