[greenstone_es] Re: [greenstone_es] Re: Consulta PDF Protegidos

  • From: Mauro La Pietra <maurolapietra@xxxxxxxxxxx>
  • To: "greenstone_es@xxxxxxxxxxxxx" <greenstone_es@xxxxxxxxxxxxx>
  • Date: Sat, 30 May 2015 00:19:33 +0000

Funcionó perfectamente, muchas gracias Diego!


En función de esto que estamos hablando del orden de los plugins te consulto:


El MetadataCSVplugin, donde conviene tenerlo? Antes del PDF Plugin,
inmediatamente después de éste o después del UnknownPlugin configurado para
pdfs ?


Saludos!



De: Mauro La Pietra
Enviado el: ‎viernes‎, ‎29‎ de ‎mayo‎ de ‎2015 ‎20‎:‎33
Para: greenstone_es@xxxxxxxxxxxxx


Justo lo que quería! Me olvido que hay un orden de procesado de los diferentes
plugins, con eso se pueden hacer muchas cosas!!

Lo pruebo y confirmo. Muchísimas gracias Diego!

El 29/5/2015 19:51, Diego Spano <diegospano@xxxxxxxxx> escribió:







Mauro, un PDF protegido se puede subir pero depende que tipo de protección
tenga. SI la protección impide la extracción de texto, entonces la alternativa
es subir el pdf con el UnknownPlugin. De esta manera el objeto estará
disponible en la colección, podrás buscarlo mediante los metadatos que le hayas
asignado y podrás verlo en los clasificadores, pero nunca lo vas a poder
encontrar en búsqueda por texto completo ya que no se pudo extraer el texto que
contenía.




Lo que podés hacer es procesar estos pdf con el UnknownPlugin. Debajo del
plugin PDFPlugin definí un UnknownPlugin de esta manera:





UnknownPlugin -process_exp (?i)\.pdf$ -srcicon iconpdf



Recordá que GS ante cada archivo que tenga que procesar va a leer la lista de
plugins que tenga definidos en el orden en que figuran. Entonces, probará
primero con el PDFPlugin, como le va a dar error por no poder extraer el texto
entonces probará con el siguiente plugin definido, en este caso sera el
Unknownplugin que dice "si tiene extension pdf, entonces lo tomo". Probalo!









Saludos!.

Diego














Diego Spano Director de Proyectos, Prodigio Consultores
Tel: (54 11) 5093-5313


Argentina
dspano@xxxxxxxxxxxxxxxxxxxxxxx | www.prodigioconsultores.com

Contact me: Skype diegospano



Follow teststamp on Twitter





2015-05-29 17:39 GMT-03:00 Mauro La Pietra <maurolapietra@xxxxxxxxxxx>:




Muchísimas gracias por tu ayuda Jaime! Esa información puede serme útil.



De todas formas mantengo la pregunta de si es posible que el Greenstone los
suba así como están, ya que el volumen de documentos quizás dificulta esta
desprotección individualizada.



Saludos y gracias!!




De: Jaime Calero
Enviado el: ‎viernes‎, ‎29‎ de ‎mayo‎ de ‎2015 ‎17‎:‎39
Para: greenstone_es@xxxxxxxxxxxxx








Saludos Mauro,


para esos archivos y cuando las licencias están en orden, te sugiero usar
www.pdfunlock.com/es que es un programa en línea que te permite desbloquear los
archivos protegidos.

También te puedo sugerir el programa PDF exchange Editor que tiene una función
de OCR (reconocimiento óptimo de caracteres) con la que podrás transformar
aquellos pdfs que los tengas solo como imagen.

Espero te sirva.



El 29 de mayo de 2015, 15:28, Mauro La Pietra <maurolapietra@xxxxxxxxxxx>
escribió:




Buenas tardes!





La GLI no procesa archivos PDF protegidos. Entiendo que esto tenga que ver con
tratar de indexar el texto interior del archivo, que la protección impide
seleccionar o copiar.



Quería saber si había alguna manera de subir estos archivos PDF protegidos. Por
ejemplo, con algún plug-in o configuración que al detectar que no puede extraer
información protegida, lo suba de todas formas con la información no protegida.




Saludos y gracias a quien pueda ayudarme.




Mauro A. La Pietra

Other related posts: