[greenstone_es] Re: Consulta

  • From: Oscar Orrego <oorrego75@xxxxxxxxx>
  • To: greenstone_es@xxxxxxxxxxxxx
  • Date: Wed, 13 Mar 2024 12:53:36 -0300

Hola como estan necesito si se puede una ayuda sobre lo siguiente:
Necesito realizar una coleccion en Greenstone 3.11 de archivos pdf que
tengo con el siguiente formato de nombre:
RESOL N 01-04.pdf
RESOL N 02-04.pdf
RESOL N 03-04.pdf
RESOL N 04-05.pdf
RESOL N 05-05.pdf
RESOL N 06-05.pdf
RESOL N 07-06.pdf
RESOL N 08-07.pdf
RESOL N 09-23.pdf
RESOL N 10-24.pdf

Formato de nombre de archivo:
RESOL N XX-YY.pdf
XX: Número de resolución (2 dígitos)
YY: Año (2 dígitos)

Clasificar documentos en estantes por YY año (últimos dos dígitos del
nombre del archivo) solo que tengo muchas logre hacerlos cargando a mano
los metadatos de cada uno
pero existe la posibilidad de hacer esto automaticamente desde diseño del
clasificador.
Gracias

El mié, 21 feb 2024 a la(s) 4:45 a.m., Diego Spano (diegospano@xxxxxxxxx)
escribió:

Hola Oscar. Sinceramente no conozco muchos OCR que permitan leer
manuscritos con el suficiente nivel de exactitud como para luego hacer
búsquedas.  Te diría que le des un vistazo a estos dos a ver si te sirven:

- *Amazon Textract: *https://aws.amazon.com/pm/textract
- *Transkribus *https://readcoop.eu/transkribus

En cualquier caso, lo ideal es generar un PDF que contenga la imagen
original y en un layer transparente, el texto reconocido que es el que
luego Greenstone usará para generar el índice de búsqueda.

Saludos!

Diego


El lun, 19 feb 2024 a la(s) 7:33 p.m., Oscar Orrego (oorrego75@xxxxxxxxx)
escribió:

Hola como estan?

Tengo una duda estamos digitalizando documentos manuscritos y necesitamos
un plugins para la lectura ocr del mismo y posterior búsqueda sobre el
documento, sin tener que pasar primero por un ocr y luego levantar el mismo
agregandolo o enriqueciendo el archivo de imagen.
Desde ya muchas gracias

Oscar Orrego


Other related posts: