[greenstone_es] Re: pdftotext: command not found

  • From: Nicolás Rucks <nrucks@xxxxxxxxxxxxx>
  • To: <greenstone_es@xxxxxxxxxxxxx>
  • Date: Fri, 5 Feb 2010 09:47:47 -0300

Hola Diego,
>1- Querés convertir a texto por alguna necesidad en particular?.
En principio para ver cómo queda, no es una decisión tomada, pero vi que 
existía esa posibilidad y quiero evaluarla. Por otro lado, los HTML que se me 
generan tienden a ser demasiado grandes, entonces el "texto simple" me parecía 
que valía la pena tener en cuenta. 
(En realidad es más, tengo problemas con algunos casos porque nuncan terminan 
de mostrarse...)
Pero tengo que probarlo para darme cuenta.


>2- Vas a mostrar la version texto/html del documento o el usuario siempre va a 
>acceder al doc original en pdf?
En cualquier caso, es requisito para la biblioteca digital en que trabajo, que 
el pdf esté disponible.
Pero quiero evaluar los resultados de poder mostrar un documento en texto o en 
html, independientemente del pdf.

Otra razón por la que tal vez podría ser conveniente mostrar el documento 
pasado a TXT es que el formateo, o mejor dicho etiquetado del documento 
generado de PDF a HTML no me resulta muy satisfactorio, y no puedo dedicarle 
tiempo a corregirlo documento por documento, entonces quería saber cómo queda 
en texto simple.

Sabés si existe el "pdftotext", o es solo un proyecto?

Gracias,
Nicolas Rucks
Biblioteca Cardini
Fundación Instituto Leloir 

> -----Mensaje original-----
> De: greenstone_es-bounce@xxxxxxxxxxxxx 
> [mailto:greenstone_es-bounce@xxxxxxxxxxxxx] En nombre de Diego Spano
> Enviado el: martes 02 de febrero de 2010 14:01
> Para: greenstone_es@xxxxxxxxxxxxx
> Asunto: [greenstone_es] Re: pdftotext: command not found
> 
> Nicolás, 2 preguntas:
> 
> 1- Querés convertir a texto por alguna necesidad en particular?.
> 
> 2- Vas a mostrar la version texto/html del documento o el 
> usuario siempre va a acceder al doc original en pdf?
> 
> 
> 
> 2010/2/2 Nicolás Rucks <nrucks@xxxxxxxxxxxxx>:
> > Hola gente,
> > estoy queriendo probar importar archivos PDF de manera tal que el 
> > import.pl los pase a TXT y no HTML, tal como aparentemente debería 
> > permitirlo según pluginfo.pl PDFPlugin
> >
> > Esto requiere que en collect.cfg tenga la línea plugin         
> > PDFPlugin -convert_to text (la tengo, obviamente).
> >
> > El problema es que me devuelve este mensaje de error, 
> ningún PDF es transformado:
> >
> > Error executing pdftotext 
> > 
> "/var/www/gsdl/collect/libros2/tmp/fil-libros-e-isbn9264195467
> -s000.pdf" 
> "/var/www/gsdl/collect/libros2/tmp/fil-libros-e-isbn9264195467
> -s000.text" > 
> "/var/www/gsdl/collect/libros2/tmp/fil-libros-e-isbn9264195467
> -s000.out" 2> 
> "/var/www/gsdl/collect/libros2/tmp/fil-libros-e-isbn9264195467
> -s000.err": Bad file descriptor pdftotext error log:
> > sh: pdftotext: command not found
> > Could not convert fil-libros-e-isbn9264195467-s000.pdf to 
> Text format
> > sh: pdftotext: command not found
> >
> > Encontré en
> > http://trac.greenstone.org/ticket/390
> > los siguientes comentarios:
> > <<
> > If you select convert_to text for PDFPlugin, it tries to 
> run pdftotext. But we don't supply this, and the conversion fails.
> > Should we supply it?
> > Should we try a different format?
> >>>
> >
> > LA PREGUNTA:
> > Alguien tiene el "pdftotext" ?
> >
> > PD: estoy usando Greenstone 2.81 sobre Linux.
> >
> > Gracias!
> >
> > Nicolas Rucks
> > Biblioteca Cardini
> > Fundación Instituto Leloir
> >
> >
> 
> 

Other related posts: