[greenstone_es] Re: Consulta

  • From: Oscar Orrego <oorrego75@xxxxxxxxx>
  • To: greenstone_es@xxxxxxxxxxxxx
  • Date: Thu, 14 Mar 2024 20:50:34 -0300

Muchas gracias el de las carpetas ya comprobé funcionó vemos el otro método
Saludos
Y muchas gracias

El jue, 14 mar 2024 06:54, Diego Spano <diegospano@xxxxxxxxx> escribió:

Hola Oscar. Eso podées hacerlo de dos maneras:

*Opción 1*- Agrupás los documentos en carpetas dentro de import, por
ejemplo, "2024", "2023", etc) y dentro de cada año movés las resoluciones
que correspondan. Luego le asignás a la carpeta el metadato dc.Date o el
que quieras con el año que corresponda a la carpeta. De esa manera, todos
los documentos heredan de su carpeta "raiz" el año asignado.


--------------------


*Opción 2* - copiá el archivo
*\greenstone\gs2build\perllib\plugins\ConvertBinaryFile.pm* a la carpeta *
\greenstone\web\sites\localsite\collect\tu-collecion\perllib\plugins* (si
las carpetas perllib y plugins no existen, entonces crealas previamente).
Luego editá el archivo que acabás de copiar
*\greenstone\web\sites\localsite\collect\tu-collecion\perllib\plugins\ConvertBinaryFile.pm*
y después de la línea 449 agregá las siguientes:


*my $anio = "20".substr($tailname, -2);
$doc_obj->set_utf8_metadata_element($doc_obj->get_top_section(), "Anio",
$anio);*

De esta manera, cuando hagas el import, por cada archivo PDF Greenstone le
va a agregar un metadato llamado "Anio" con el valor que extraiga del
nombre del archivo, agregandole el prefijo 20 para poner el año completo.

Luego creás un clasificador del tipo List de acuerdo a lo siguiente:


*<classifier name="List">*

* <option name="-metadata" value="Anio"/>*
* <option name="-bookshelf_type" value="always"/>*
* <option name="-partition_type_within_level" value="none"/>*

*</classifier>*

Y de esta manera tenés los documentos organizados por año.

Saludos!

Diego


El mié, 13 mar 2024 a la(s) 11:54 p.m., Oscar Orrego (oorrego75@xxxxxxxxx)
escribió:

Hola como estan necesito si se puede una ayuda sobre lo siguiente:
Necesito realizar una coleccion en Greenstone 3.11 de archivos pdf que
tengo con el siguiente formato de nombre:
RESOL N 01-04.pdf
RESOL N 02-04.pdf
RESOL N 03-04.pdf
RESOL N 04-05.pdf
RESOL N 05-05.pdf
RESOL N 06-05.pdf
RESOL N 07-06.pdf
RESOL N 08-07.pdf
RESOL N 09-23.pdf
RESOL N 10-24.pdf

Formato de nombre de archivo:
RESOL N XX-YY.pdf
XX: Número de resolución (2 dígitos)
YY: Año (2 dígitos)

Clasificar documentos en estantes por YY año (últimos dos dígitos del
nombre del archivo) solo que tengo muchas logre hacerlos cargando a mano
los metadatos de cada uno
pero existe la posibilidad de hacer esto automaticamente desde diseño del
clasificador.
Gracias

El mié, 21 feb 2024 a la(s) 4:45 a.m., Diego Spano (diegospano@xxxxxxxxx)
escribió:

Hola Oscar. Sinceramente no conozco muchos OCR que permitan leer
manuscritos con el suficiente nivel de exactitud como para luego hacer
búsquedas.  Te diría que le des un vistazo a estos dos a ver si te sirven:

- *Amazon Textract: *https://aws.amazon.com/pm/textract
- *Transkribus *https://readcoop.eu/transkribus

En cualquier caso, lo ideal es generar un PDF que contenga la imagen
original y en un layer transparente, el texto reconocido que es el que
luego Greenstone usará para generar el índice de búsqueda.

Saludos!

Diego


El lun, 19 feb 2024 a la(s) 7:33 p.m., Oscar Orrego (oorrego75@xxxxxxxxx)
escribió:

Hola como estan?

Tengo una duda estamos digitalizando documentos manuscritos y
necesitamos un plugins para la lectura ocr del mismo y posterior búsqueda
sobre el documento, sin tener que pasar primero por un ocr y luego levantar
el mismo agregandolo o enriqueciendo el archivo de imagen.
Desde ya muchas gracias

Oscar Orrego


Other related posts: