[greenstone_es] Problema procesamiento PDF de más de 20 MB

  • From: Eduardo del Valle Pérez <eduard.delvalle@xxxxxx>
  • To: greenstone_es <greenstone_es@xxxxxxxxxxxxx>
  • Date: Fri, 2 Oct 2015 10:26:43 +0200 (CEST)

Hola a todos

Desde hace un tiempo me estoy encontrando con un problema a la hora de procesar
archivos PDF usando el plugin PDFPlugin.

Las opciones de configuración que usamos en PDFPlugin son las siguientes:

plugin PDFPlugin -pdfbox_conversion -OIDtype assigned -noimages
-keep_original_filename -OIDmetadata ex.FilenameRoot -convert_to auto

Como podéis ver habilitamos la opción pdfbox_conversion, para poder procesar PDF
de versiones 1.6 o posteriores.

Hemos detectado que, con esta configuración y la opción pdfbox_conversion
activada los archivos PDF de tamaño superior a unos 20MB no son procesados y en
el log de reconstrucción aparecen la siguiente líneas de error:


import.pl> Converting Garcia_Rossello_JaimeManuel.pdf to: html ...
import.pl> Error: processing command failed. Exit status 1
import.pl> ...error encounterd
import.pl> PDFBoxConverter Conversion error
import.pl> Exception in thread "main"
org.apache.pdfbox.exceptions.WrappedIOException<br />
at org.apache.pdfbox.pdfparser.PDFParser.parse(PDFParser.java:238)<br />
at org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.java:881)<br />
at org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.java:846)<br />
at org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.java:771)<br />
at org.apache.pdfbox.ExtractText.main(ExtractText.java:179)<br />Caused by:
java.lang.OutOfMemoryError: Java heap space<br />

He buscado en la Red sobre el error señalado: java.lang.OutOfMemoryError: Java
heap space y he encontrado entre otras la siguiente solución:

http://opcodesolutions.com/tech/solve-java-lang-outofmemoryerror-java-heap-space/

¿Creéis que esta es la solución correcta?

¿Alguien puede indicarme cómo puedo implementar esta solución en mi ordenador
local? ¿Y en el servidor?

Como solución alternativa he deshabilitado la opción pdfbox_conversion y he
pasado todos los PDFs a versión 1.3, entonces se han procesado todos
correctamente. Por lo que el problema creo que se encuentra en la combinación
del uso de la extensión pdfbox_conversion y el problema java comentado
anteriormente.

Muchas gracias por vuestra ayuda.

Un saludo

Eduardo


- -
Eduardo del Valle
Responsable de Digitalització i Web
Servei de Biblioteca i Documentació
Universitat de les Illes Balears
Edifici Ramon Llull
Cra. de Valldemossa, km 7.5
07122 Palma - Espanya
Tel.: +34 971 173 356
eduard.delvalle@xxxxxx

Other related posts:

  • » [greenstone_es] Problema procesamiento PDF de más de 20 MB - Eduardo del Valle Pérez