[greenstone_es] Re: Problemas para cargar archivo pdf de 150MB

  • From: Diego Spano <diegospano@xxxxxxxxx>
  • To: Lista (en español) Greenstone <greenstone_es@xxxxxxxxxxxxx>
  • Date: Thu, 31 Oct 2019 15:45:57 -0300

Hola Jaime, parece ser un problema de memoria del PDFBox al querer procesar
el archivo. Es un pdf muy grande y eso puede generar que se agote la
memoria asignada al Java.

Editá el archivo Greenstone\ext\pdf-box\perllib\plugins\PDFBoxConverter.pm.
En la linea 118 aprox dice

*my $launch_cmd = "java -cp \"$pbajar\" -Dline.separator=\"<br />\"
org.apache.pdfbox.ExtractText".*  Reemplazala por esta:

*my $launch_cmd = "java -Xms512m -Xmx512m -cp \"$pbajar\"
-Dline.separator=\"<br />\" org.apache.pdfbox.ExtractText";*
Saludos!


*Diego Spano* *Director de Proyectos, Prodigio Consultores*
Tel: (54 11) 5274-8413

Argentina
dspano@xxxxxxxxxxxxxxxxxxxxxxx | www.prodigioconsultores.com
Contact me: [image: Skype] diegospano
<http://www.linkedin.com/in/diegospano>



El jue., 31 de oct. de 2019 a la(s) 15:25, Jaime Calero (
0940jacaflo@xxxxxxxxx) escribió:

Gracias Diego.-

A continuación el log:

Converting I-CENTENARIO relac ec japon.pdf to: html ...
Error: processing command failed.  Exit status 1
  ...error encountered
PDFBoxConverter Conversion error
Exception in thread "main"
org.apache.pdfbox.exceptions.WrappedIOException<br />
        at
org.apache.pdfbox.pdfparser.PDFParser.parse(PDFParser.java:238)<br />
        at
org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.java:881)<br />
at org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.java:846)<br /> at
org.a
pache.pdfbox.pdmodel.PDDocument.load(PDDocument.java:771)<br /> at
org.apache.pd
fbox.ExtractText.main(ExtractText.java:179)<br />Caused by:
java.lang.OutOfMemor
yError: Java heap space<br />   at
org.apache.pdfbox.io.RandomAccessBuffer.write
(RandomAccessBuffer.java:117)<br />     at
org.apache.pdfbox.io.RandomAccessFile
OutputStream.write(RandomAccessFileOutputStream.java:108)<br /> at
java.io.Buffe
redOutputStream.flushBuffer(Unknown Source)<br />       at
java.io.BufferedOutpu
tStream.flush(Unknown Source)<br />     at
java.io.FilterOutputStream.close(Unkn
own Source)<br />       at
org.apache.pdfbox.pdfparser.BaseParser.parseCOSStream
(BaseParser.java:448)<br />     at
org.apache.pdfbox.pdfparser.PDFParser.parseOb
ject(PDFParser.java:542)<br />  at
org.apache.pdfbox.pdfparser.PDFParser.parse(P
DFParser.java:180)<br />        ... 4 more<br />


Y esto es lo que consta en "fail" de la carpeta "etc" de la colección
(esta es la carpeta y el archivo que quiero subir ahora:  DCTS
BibCancilleriaOct2019\I-CENTENARIO relac ec japon.pdf)
MetadataXMLPlugin failed to process metadata.xml (
not well-formed (invalid token) at line 35, column 83, byte 1332 at
C:/Program Files/Greenstone/bin/windows/perl/vendor/lib/XML/Parser.pm line
187.
)
DCTS BibCancilleriaOct2019\I-CENTENARIO relac ec japon.pdf: no plugin
could process this file
Guayasamin.docx: WordPlugin failed to convert to html
GUAYASAMIN\Guayasamin.docx: no plugin could process this file
MetadataXMLPlugin failed to process
VIDEOS\importactualizacion-11-01-2019\clips informativos1\metadata.xml (
not well-formed (invalid token) at line 43, column 83, byte 2491 at
C:/Program Files/Greenstone/bin/windows/perl/vendor/lib/XML/Parser.pm line
187.
)





El jue., 31 oct. 2019 a las 9:07, Diego Spano (<diegospano@xxxxxxxxx>)
escribió:

Jaime, cual es el error?. Podés enviar el log que genera el GLI?

Saludos!


*Diego Spano* *Director de Proyectos, Prodigio Consultores*
Tel: (54 11) 5274-8413

Argentina
dspano@xxxxxxxxxxxxxxxxxxxxxxx | www.prodigioconsultores.com
Contact me: [image: Skype] diegospano
<http://www.linkedin.com/in/diegospano>



El mié., 30 de oct. de 2019 a la(s) 17:08, Jaime Calero (
0940jacaflo@xxxxxxxxx) escribió:

No logro subir a una de mis colecciones un archivo de 150MB en formato
PDF. Está comprimido al máximo, y no hay manera de reducir más su tamaño.

Intenté subirlo desde la interfaz de usuario (GLI), así como desde
"símbolo de sistema", pero...nada.

No se si alguien tiene alguna idea de como poder hacerlo o de que
depende.
En adjunto les dejo la imagen con la información sobre el pdf

Gracias por su ayuda


Other related posts: