[greenstone_es] Re: pdftotext: command not found

  • From: "Diego Spano" <dspano@xxxxxxxxxxxx>
  • To: <greenstone_es@xxxxxxxxxxxxx>
  • Date: Thu, 11 Feb 2010 12:20:31 -0300

Hola Nicolás:

pdftotext es parte del paquete xpdf que podés descargar desde acá: 

ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-linux.tar.gz

Una vez que lo descargues, abrí el tar y copiá el archivo "pdftotext" a la
carpeta /greenstone/bin/linux (vas a ver que ahí adentro está el otro
conversor, pdftohtml). Modifica el plugin conla opción "convert_to text" y
corré el proceso de import. Ahora deberias tener el pdf en formato txt. En
la carpeta tmp de la colección en cuestión vas a ver los archivos txt de
cada pdf convertido.

Probalo y avisame.

Saludos

Diego


-----Mensaje original-----
De: greenstone_es-bounce@xxxxxxxxxxxxx
[mailto:greenstone_es-bounce@xxxxxxxxxxxxx] En nombre de Nicolás Rucks
Enviado el: Viernes, 05 de Febrero de 2010 09:48 a.m.
Para: greenstone_es@xxxxxxxxxxxxx
Asunto: [greenstone_es] Re: pdftotext: command not found

Hola Diego,
>1- Querés convertir a texto por alguna necesidad en particular?.
En principio para ver cómo queda, no es una decisión tomada, pero vi que
existía esa posibilidad y quiero evaluarla. Por otro lado, los HTML que se
me generan tienden a ser demasiado grandes, entonces el "texto simple" me
parecía que valía la pena tener en cuenta. 
(En realidad es más, tengo problemas con algunos casos porque nuncan
terminan de mostrarse...)
Pero tengo que probarlo para darme cuenta.


>2- Vas a mostrar la version texto/html del documento o el usuario siempre
va a acceder al doc original en pdf?
En cualquier caso, es requisito para la biblioteca digital en que trabajo,
que el pdf esté disponible.
Pero quiero evaluar los resultados de poder mostrar un documento en texto o
en html, independientemente del pdf.

Otra razón por la que tal vez podría ser conveniente mostrar el documento
pasado a TXT es que el formateo, o mejor dicho etiquetado del documento
generado de PDF a HTML no me resulta muy satisfactorio, y no puedo dedicarle
tiempo a corregirlo documento por documento, entonces quería saber cómo
queda en texto simple.

Sabés si existe el "pdftotext", o es solo un proyecto?

Gracias,
Nicolas Rucks
Biblioteca Cardini
Fundación Instituto Leloir 

> -----Mensaje original-----
> De: greenstone_es-bounce@xxxxxxxxxxxxx 
> [mailto:greenstone_es-bounce@xxxxxxxxxxxxx] En nombre de Diego Spano
> Enviado el: martes 02 de febrero de 2010 14:01
> Para: greenstone_es@xxxxxxxxxxxxx
> Asunto: [greenstone_es] Re: pdftotext: command not found
> 
> Nicolás, 2 preguntas:
> 
> 1- Querés convertir a texto por alguna necesidad en particular?.
> 
> 2- Vas a mostrar la version texto/html del documento o el 
> usuario siempre va a acceder al doc original en pdf?
> 
> 
> 
> 2010/2/2 Nicolás Rucks <nrucks@xxxxxxxxxxxxx>:
> > Hola gente,
> > estoy queriendo probar importar archivos PDF de manera tal que el 
> > import.pl los pase a TXT y no HTML, tal como aparentemente debería 
> > permitirlo según pluginfo.pl PDFPlugin
> >
> > Esto requiere que en collect.cfg tenga la línea plugin         
> > PDFPlugin -convert_to text (la tengo, obviamente).
> >
> > El problema es que me devuelve este mensaje de error, 
> ningún PDF es transformado:
> >
> > Error executing pdftotext 
> > 
> "/var/www/gsdl/collect/libros2/tmp/fil-libros-e-isbn9264195467
> -s000.pdf" 
> "/var/www/gsdl/collect/libros2/tmp/fil-libros-e-isbn9264195467
> -s000.text" > 
> "/var/www/gsdl/collect/libros2/tmp/fil-libros-e-isbn9264195467
> -s000.out" 2> 
> "/var/www/gsdl/collect/libros2/tmp/fil-libros-e-isbn9264195467
> -s000.err": Bad file descriptor pdftotext error log:
> > sh: pdftotext: command not found
> > Could not convert fil-libros-e-isbn9264195467-s000.pdf to 
> Text format
> > sh: pdftotext: command not found
> >
> > Encontré en
> > http://trac.greenstone.org/ticket/390
> > los siguientes comentarios:
> > <<
> > If you select convert_to text for PDFPlugin, it tries to 
> run pdftotext. But we don't supply this, and the conversion fails.
> > Should we supply it?
> > Should we try a different format?
> >>>
> >
> > LA PREGUNTA:
> > Alguien tiene el "pdftotext" ?
> >
> > PD: estoy usando Greenstone 2.81 sobre Linux.
> >
> > Gracias!
> >
> > Nicolas Rucks
> > Biblioteca Cardini
> > Fundación Instituto Leloir
> >
> >
> 
> 


Other related posts: