Hola Eduardo.
editá el archivo greenstone/ext/pdf-box/perllib/plugins/PDFBoxConverter.pl.
En la linea 118 hay un texto asi:
my $launch_cmd = "java -cp \"$pbajar\" -Dline.separator=\"<br />\"
org.apache.pdfbox.ExtractText";
cambiala por:
my $launch_cmd = "java -Xms512m -Xmx512m -cp \"$pbajar\"
-Dline.separator=\"<br />\" org.apache.pdfbox.ExtractText";
y probá con uno de los pdf problematicos.
Saludos
Diego
El oct 2, 2015 5:27 AM, "Eduardo del Valle Pérez" <eduard.delvalle@xxxxxx>
escribió:
Hola a todos
Desde hace un tiempo me estoy encontrando con un problema a la hora de
procesar archivos PDF usando el plugin *PDFPlugin*.
Las opciones de configuración que usamos en PDFPlugin son las siguientes:
*plugin PDFPlugin -pdfbox_conversion -OIDtype assigned -noimages
-keep_original_filename -OIDmetadata ex.FilenameRoot -convert_to auto*
Como podéis ver habilitamos la opción *pdfbox_conversion*, para poder
procesar PDF de versiones 1.6 o posteriores.
Hemos detectado que, con esta configuración y la opción *pdfbox_conversion
*activada los archivos PDF de tamaño superior a unos 20MB no son
procesados y en el log de reconstrucción aparecen la siguiente líneas de
error:
import.pl> Converting Garcia_Rossello_JaimeManuel.pdf to: html ...
import.pl> Error: processing command failed. Exit status 1
import.pl> ...error encounterd
import.pl> PDFBoxConverter Conversion error
import.pl> Exception in thread "main"
org.apache.pdfbox.exceptions.WrappedIOException<br />
at org.apache.pdfbox.pdfparser.PDFParser.parse(PDFParser.java:238)<br />
at org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.java:881)<br />
at org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.java:846)<br />
at org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.java:771)<br />
at org.apache.pdfbox.ExtractText.main(ExtractText.java:179)<br />Caused
by: *java.lang.OutOfMemoryError: Java heap space*<br />
He buscado en la Red sobre el error señalado: *java.lang.OutOfMemoryError:
Java heap space *y he encontrado entre otras la siguiente solución:
http://opcodesolutions.com/tech/solve-java-lang-outofmemoryerror-java-heap-space/
¿Creéis que esta es la solución correcta?
¿Alguien puede indicarme cómo puedo implementar esta solución en mi
ordenador local? ¿Y en el servidor?
Como solución alternativa he deshabilitado la opción *pdfbox_conversion *y
he pasado todos los PDFs a versión 1.3, entonces se han procesado todos
correctamente. Por lo que el problema creo que se encuentra en la
combinación del uso de la extensión *pdfbox_conversion *y el problema
java comentado anteriormente.
Muchas gracias por vuestra ayuda.
Un saludo
Eduardo
- -
Eduardo del Valle
Responsable de Digitalització i Web
Servei de Biblioteca i Documentació
Universitat de les Illes Balears
Edifici Ramon Llull
Cra. de Valldemossa, km 7.5
07122 Palma - Espanya
Tel.: +34 971 173 356
eduard.delvalle@xxxxxx