[greenstone_es] Greenstone problem processing pdfs

From: IGNACIO FERNANDEZ SARASOLA <sarasola@xxxxxxxxx>
To: "greenstone_es@xxxxxxxxxxxxx" <greenstone_es@xxxxxxxxxxxxx>
Date: Sun, 29 Jan 2017 14:07:00 +0000

Dear colleagues,
I have some troubles with Greenstone when processing some pdfs. The error log
says this:

import.pl> Exception in thread "main" java.lang.OutOfMemoryError: Java heap
space at java.nio.CharBuffer.wrap(Unknown Source) at
java.nio.CharBuffer.wrap(Unknown Source) at
java.lang.StringCoding$StringDecoder.decode(Unknown Source) at
java.lang.StringCoding.decode(Unknown Source) at
java.lang.String.<init>(Unknown Source) at
java.lang.String.<init>(Unknown Source) at
org.apache.fontbox.cmap.CMapParser.createStringFromBytes(CMapParser.java:618) at org.apache.fontbox.cmap.CMapParser.parse(CMapParser.java:224) at
org.apache.pdfbox.pdmodel.font.PDFont.parseCmap(PDFont.java:603) at
org.apache.pdfbox.pdmodel.font.PDSimpleFont.extractToUnicodeEncoding(PDSimpleFont.java:458) at
org.apache.pdfbox.pdmodel.font.PDSimpleFont.determineEncoding(PDSimpleFont.java:426) at org.apache.pdfbox.pdmodel.font.PDFont.<init>(PDFont.java:194) at
org.apache.pdfbox.pdmodel.font.PDSimpleFont.<init>(PDSimpleFont.java:88) 
at org.apache.pdfbox.pdmodel.font.PDType0Font.<init>(PDType0Font.java:65) 
at
org.apache.pdfbox.pdmodel.font.PDFontFactory.createFont(PDFontFactory.java:108) at org.apache.pdfbox.pdmodel.PDResources.getFonts(PDResources.java:203) at
org.apache.pdfbox.util.PDFStreamEngine.getFonts(PDFStreamEngine.java:604) 
at org.apache.pdfbox.util.operator.SetTextFont.process(SetTextFont.java:54) at
org.apache.pdfbox.util.PDFStreamEngine.processOperator(PDFStreamEngine.java:554) at
org.apache.pdfbox.util.PDFStreamEngine.processSubStream(PDFStreamEngine.java:268) at
org.apache.pdfbox.util.PDFStreamEngine.processSubStream(PDFStreamEngine.java:235) at
org.apache.pdfbox.util.PDFStreamEngine.processStream(PDFStreamEngine.java:215) at
org.apache.pdfbox.util.PDFTextStripper.processPage(PDFTextStripper.java:455) at
org.apache.pdfbox.util.PDFTextStripper.processPages(PDFTextStripper.java:379) at
org.apache.pdfbox.util.PDFTextStripper.writeText(PDFTextStripper.java:335) at org.apache.pdfbox.ExtractText.startExtraction(ExtractText.java:275) 
at org.apache.pdfbox.ExtractText.main(ExtractText.java:85) ADVIRTIENDO:
Ningún plugin podrá ser procesado 0568157-MAIN.pdf

Could anybody please help me?

Thanks a lot!

Ignacio Fernandez Sarasola

Follow-Ups:
- [greenstone_es] Re: Greenstone problem processing pdfs
  - From: Diego Spano

[greenstone_es] Greenstone problem processing pdfs

Other related posts: