[greenstone_es] Re: [greenstone_es] Problema procesamiento PDF de más de 20 MB

From: Diego Spano <diegospano@xxxxxxxxx>
To: Lista (en español) Greenstone <greenstone_es@xxxxxxxxxxxxx>
Date: Fri, 2 Oct 2015 08:33:46 -0300

Hola Eduardo.

editá el archivo greenstone/ext/pdf-box/perllib/plugins/PDFBoxConverter.pl.
En la linea 118 hay un texto asi:

my $launch_cmd = "java -cp \"$pbajar\" -Dline.separator=\" \"
org.apache.pdfbox.ExtractText";

cambiala por:

my $launch_cmd = "java -Xms512m -Xmx512m -cp \"$pbajar\"
-Dline.separator=\" \" org.apache.pdfbox.ExtractText";

y probá con uno de los pdf problematicos.

Saludos

Diego
El oct 2, 2015 5:27 AM, "Eduardo del Valle Pérez" <eduard.delvalle@xxxxxx>
escribió:

Hola a todos

Desde hace un tiempo me estoy encontrando con un problema a la hora de
procesar archivos PDF usando el plugin *PDFPlugin*.

Las opciones de configuración que usamos en PDFPlugin son las siguientes:

*plugin PDFPlugin -pdfbox_conversion -OIDtype assigned -noimages
-keep_original_filename -OIDmetadata ex.FilenameRoot -convert_to auto*

Como podéis ver habilitamos la opción *pdfbox_conversion*, para poder
procesar PDF de versiones 1.6 o posteriores.

Hemos detectado que, con esta configuración y la opción *pdfbox_conversion
*activada los archivos PDF de tamaño superior a unos 20MB no son
procesados y en el log de reconstrucción aparecen la siguiente líneas de
error:

import.pl> Converting Garcia_Rossello_JaimeManuel.pdf to: html ...
import.pl> Error: processing command failed. Exit status 1
import.pl> ...error encounterd
import.pl> PDFBoxConverter Conversion error
import.pl> Exception in thread "main"
org.apache.pdfbox.exceptions.WrappedIOException 
at org.apache.pdfbox.pdfparser.PDFParser.parse(PDFParser.java:238) 
at org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.java:881) 
at org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.java:846) 
at org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.java:771) 
at org.apache.pdfbox.ExtractText.main(ExtractText.java:179) Caused
by: *java.lang.OutOfMemoryError: Java heap space* 

He buscado en la Red sobre el error señalado: *java.lang.OutOfMemoryError:
Java heap space *y he encontrado entre otras la siguiente solución:

http://opcodesolutions.com/tech/solve-java-lang-outofmemoryerror-java-heap-space/

¿Creéis que esta es la solución correcta?

¿Alguien puede indicarme cómo puedo implementar esta solución en mi
ordenador local? ¿Y en el servidor?

Como solución alternativa he deshabilitado la opción *pdfbox_conversion *y
he pasado todos los PDFs a versión 1.3, entonces se han procesado todos
correctamente. Por lo que el problema creo que se encuentra en la
combinación del uso de la extensión *pdfbox_conversion *y el problema
java comentado anteriormente.

Muchas gracias por vuestra ayuda.

Un saludo

Eduardo

- -
Eduardo del Valle
Responsable de Digitalització i Web
Servei de Biblioteca i Documentació
Universitat de les Illes Balears
Edifici Ramon Llull
Cra. de Valldemossa, km 7.5
07122 Palma - Espanya
Tel.: +34 971 173 356
eduard.delvalle@xxxxxx

Follow-Ups:
- [greenstone_es] Re: [greenstone_es] Re: [greenstone_es] Problema procesamiento PDF de más de 20 MB
  - From: Eduardo del Valle Pérez

References:
- [greenstone_es] Problema procesamiento PDF de más de 20 MB
  - From: Eduardo del Valle Pérez

[greenstone_es] Re: [greenstone_es] Problema procesamiento PDF de más de 20 MB

Other related posts: