[greenstone_es] Re: Dudas respecto al OCR

  • From: "Mariana Pichinini" <mariana@xxxxxxxxxxxxxxxxx>
  • To: greenstone_es@xxxxxxxxxxxxx
  • Date: Tue, 7 Jun 2011 15:47:22 -0300 (ART)

Hola María Elena

La elección del tipo de documento fuente con los cuáles generar
colecciones de Greenstone forma parte de las decisiones que hay que tomar
al momento de crear una biblioteca digital a partir de documentos impresos
escaneados.
Obviamente, si se espera disponer de una opción de búsqueda del texto
completo, es necesario realizar un OCR de las imágenes. Tranquilamente
podrías publicar pdfs con imágenes sin búsqueda por texto completo.
PRIMERA DECISION
Una vez resuelto que vas a realizar búsqueda por el texto completo,
entonces el documento a incluir en la biblioteca digital no va a ser el
pdf sino el documento resultante del OCR (aunque podrías incluir el pdf
como archivo asociado para descarga, opción -associate_ext de los
plugins). Este documento resultante del OCR puede ser Word o html, pero
con seguridad va a necesitar procesamiento para "limpiar" errores y
basura, cuanto más trabajo de procesamiento de este archivo hagas mejor se
va a visualizar la versión de greenstone. SEGUNDA DECISION

Claro está que hay elementos importantes que van a influir en esas
decisiones (presupuesto, recursos humanos, etc.)
Greenstone no puede convertir un documento sin formato en un documento con
formato. La idea es que dependiendo de las características del documento
que importes va a ser el resultado de la visualización html.

Saludos
Mariana



> Hola Matias, gracias por tu respuesta, y te vuelvo a consultar : luego
> del ocr hay que editar cada documento en word y luego convertirlo en pdf
> nuevamente?..
> Te pregunto esto porque cuando los pdf con ocr los reunimos en la base, GS
> los reconce, se puede realizar busquedas, pero la visualizacion del html
> es un desastre e inclusive las fotos o graficos directamente
> desaparecen!!!... No se si el problema esta en el formato de los
> documentos originales o es que hay que formatear la visualizacion del
> html... Disculpen las molestias pero recien estamos aprendiendo a utilizar
> GS y tambien conociendo el proceso de digitalizacion..Desde ya muchas
> gracias. Maria Elena
>
> --- El lun 6-jun-11, matias <marinzald@xxxxxxxxxx> escribió:
>
>
> De: matias <marinzald@xxxxxxxxxxx>
> Asunto: [greenstone_es] Re: Dudas respecto al OCR
> Para: greenstone_es@xxxxxxxxxxxxx
> Fecha: lunes, 6 de junio de 2011, 7:22
>
>
>
>
>
>
>
> Hola María Elena, mira todo depende en que estado estén los originales,
> si lo que estas digitalizando son documentos históricos los cuales fueron
> creados en maquinas de escribir o manuscritos, desde ya y por experiencia
> propia te recomendaría que los digitalices sin pasarle OCR ya que el
> resultado del mismo es muy malo, si las tesis que mencionas son ya creadas
> en archivos de word o mismo ya te llegan en pdf el ocr que vas a obtener
> es mucho mejor y si fueron creadas e impresas por impresoras de chorro a
> tinta o laser vas a poder obtener un ocr de buena calidad, lo que si es
> importante mencionar es que nunca el ocr va a ser mayor del 90% del
> documento, pero bueno hay mucho que mencionar, si queres aca te dejo mis
> datos debajo de mi firma, de todas formas en la lista hay gente que ya
> tiene mucha mas experiencia que yo en esto pero en lo que pueda tratare de
> ayudarte
>  
> saludos!!!
>  
> Matias Marinzalda
> Comisión Nacional de Energía Atómica
> Instituto Sabato - Centro de Información - CAC
> Biblioteca Digital
> Avda. Gral. Paz 1499 y Avda. de los Constituyentes
> B1650KNA - San Martín
> Pcia. de Buenos Aires â?? Argentina
> Te: 6772-7156 - FAX: 6772 â??7164
> Conmutador General: +54 11 6772 7000/7007
>  
>
>  
> ----- Original Message -----
> From: "maria elena rios" <marielena_098@xxxxxxxxxxxx>
> To: <greenstone_es@xxxxxxxxxxxxx>
> Sent: Sunday, June 05, 2011 5:23 PM
> Subject: [greenstone_es] Dudas respecto al OCR
>
>> hola a todos: estamos por utilizar greenstone para poner a disposicion
>> de los usuarios las tesis generadas en la universidad, dichas tesis ya
>> han sido escaneadas (formato pdf), mi consulta es: el paso siguiente es
>> el OCR?,  de ser así en que formato debe ser guardado? luego de
>> realizarle el ocr, cual es el trabajo posterior? antes de armar la
>> coleccion. Desde ya muchas gracias! Maria Elena Rios
>>


Lic. Mariana Pichinini
Area Tecnologías
_______________________________________________
BIBHUMA - Biblioteca Profesor Guillermo Obiols
Facultad de Humanidades y Ciencias de la Educación
Universidad Nacional de La Plata
Calle 48 entre 6 y 7 - 1er subsuelo
B1900AMW LA PLATA, Argentina
Telefax: +54-221-4230125 interno 162 (líneas rotativas)
WEB: www.bibhuma.fahce.unlp.edu.ar


Other related posts: