[greenstone_es] Re: [greenstone_es] Re: [greenstone_es] Re: [greenstone_es] Problema procesamiento PDF de más de 20 MB

  • From: Mauro La Pietra <maurolapietra@xxxxxxxxxxx>
  • To: <greenstone_es@xxxxxxxxxxxxx>
  • Date: Mon, 5 Oct 2015 08:47:16 -0300

Hola Eduardo!

Te comento que yo tuve el mismo problema hace poco tiempo.

Pudimos solucionarlo modificando el Timeout Limit del servidor, cosa que hizo
la gente de Sistemas.

Si buscas "premature eof greenstone wiki" en Google, vas a encontrar la
solución en la propia Wiki de Greenstone.

Saludos!

Mauro

El 5/10/2015 8:30, Eduardo del Valle Pérez <eduard.delvalle@xxxxxx> escribió:
Estimado Diego

Muchísimas gracias. Tu solución ha funcionado a la perfección y por primera vez
hemos podido procesar sin problemas colecciones con archivos PDF de tamaño mayor
a 20MB, con la opción pdfbox-conversion habilitada.

Por otro lado quisiera hacer otra consulta. En colecciones con gran volumen de
archivos, cuando lanzamos la reconstrucción usando la interficie "Remote
Librarian Interface (Client GLI)" para trabajar sobre nuestro servidor, suele
salir el siguiente error que no hemos conseguido solucionar (ver también imagen
adjunta):

An error has occurred in the remote Greenstone server while performing this
operation: Premature EOF

¿Conocéis alguna solución a este problema?

Muchísimas gracias
Un saludo
Eduardo del Valle



El 2 / octubre / 2015 a les 13:33, Diego Spano <diegospano@xxxxxxxxx>
escrigué:


Hola Eduardo.

editá el archivo greenstone/ext/pdf-box/perllib/plugins/PDFBoxConverter.pl.
En la linea 118 hay un texto asi:

my $launch_cmd = "java -cp \"$pbajar\" -Dline.separator=\"<br />\"
org.apache.pdfbox.ExtractText";

cambiala por:

my $launch_cmd = "java -Xms512m -Xmx512m -cp \"$pbajar\"
-Dline.separator=\"<br />\" org.apache.pdfbox.ExtractText";

y probá con uno de los pdf problematicos.

Saludos

Diego

El oct 2, 2015 5:27 AM, "Eduardo del Valle Pérez" <eduard.delvalle@xxxxxx
<mailto:eduard.delvalle@xxxxxx> > escribió:
> > Hola a todos

Desde hace un tiempo me estoy encontrando con un problema a la hora de
procesar archivos PDF usando el plugin PDFPlugin.

Las opciones de configuración que usamos en PDFPlugin son las siguientes:

plugin PDFPlugin -pdfbox_conversion -OIDtype assigned -noimages
-keep_original_filename -OIDmetadata ex.FilenameRoot -convert_to auto

Como podéis ver habilitamos la opción pdfbox_conversion, para poder
procesar PDF de versiones 1.6 o posteriores.

Hemos detectado que, con esta configuración y la opción pdfbox_conversion
activada los archivos PDF de tamaño superior a unos 20MB no son procesados y
en el log de reconstrucción aparecen la siguiente líneas de error:
<http://import.pl>

> Converting Garcia_Rossello_JaimeManuel.pdf to: html ...
<http://import.pl>
> Error: processing command failed. Exit status 1
<http://import.pl>
> ...error encounterd
<http://import.pl>
> PDFBoxConverter Conversion error
<http://import.pl>
> Exception in thread "main"
> org.apache.pdfbox.exceptions.WrappedIOException<br />
at org.apache.pdfbox.pdfparser.PDFParser.parse(PDFParser.java:238)<br />
at org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.java:881)<br />
at org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.java:846)<br />
at org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.java:771)<br />
at org.apache.pdfbox.ExtractText.main(ExtractText.java:179)<br />Caused
by: java.lang.OutOfMemoryError: Java heap space<br />

He buscado en la Red sobre el error señalado: java.lang.OutOfMemoryError:
Java heap space y he encontrado entre otras la siguiente solución:



http://opcodesolutions.com/tech/solve-java-lang-outofmemoryerror-java-heap-space/

¿Creéis que esta es la solución correcta?

¿Alguien puede indicarme cómo puedo implementar esta solución en mi
ordenador local? ¿Y en el servidor?

Como solución alternativa he deshabilitado la opción pdfbox_conversion y
he pasado todos los PDFs a versión 1.3, entonces se han procesado todos
correctamente. Por lo que el problema creo que se encuentra en la
combinación del uso de la extensión pdfbox_conversion y el problema java
comentado anteriormente.

Muchas gracias por vuestra ayuda.

Un saludo

Eduardo


- -
Eduardo del Valle
Responsable de Digitalització i Web
Servei de Biblioteca i Documentació
Universitat de les Illes Balears
Edifici Ramon Llull
Cra. de Valldemossa, km 7.5
07122 Palma - Espanya
Tel.: +34 971 173 356
eduard.delvalle@xxxxxx <mailto:eduard.delvalle@xxxxxx>


>


- -
Eduardo del Valle
Responsable de Digitalització i Web
Servei de Biblioteca i Documentació
Universitat de les Illes Balears
Edifici Ramon Llull
Cra. de Valldemossa, km 7.5
07122 Palma - Espanya
Tel.: +34 971 173 356
eduard.delvalle@xxxxxx

Other related posts:

  • » [greenstone_es] Re: [greenstone_es] Re: [greenstone_es] Re: [greenstone_es] Problema procesamiento PDF de más de 20 MB - Mauro La Pietra