[greenstone_es] Re: problemas al seccionar un pdf

  • From: Diego Spano <diegospano@xxxxxxxxx>
  • To: greenstone_es@xxxxxxxxxxxxx
  • Date: Thu, 14 Apr 2011 16:55:02 -0300

No, no es por eso. El funcionamiento es asi:

Pones el pdf en la carpeta import y luego con el GLI creabas la
coleccion, cierto?. Esto involucra generar en la carpeta archives un
archivo llamado doc.xml. Si vos modificas ese archivo para agregarle
secciones, pero luego volves a crear la coleccion, GS te va a pisar el
doc.xml una y otra vez.

Para asegurarte que no te pise el doc.xml lo que tenes que hacer es
sacar del import aquellos pdf que vos ya hayas modificado y al proceso
de importacion tenes que incluirle la opcion -keepold para que no te
borre el contenido existente en la carpeta archives. Asi solo vas
importando documentos nuevos. Te recomiendo que uses la linea de
comandos para eso. Entendes?. Diciendolo con un ejemplo:

1- Carpeta import: 3 documentos pdf (o la cantidad que quieras)
2- perl -s import.pl nombre_coleccion
3- modificas los doc.xml que hay en archives
4- Carpeta import: borras los 3 pdfs
5- Carpeta import: pones 3 documentos nuevos
6- perl -s import.pl -keepold nombre_coleccion

Repetis los pasos 3 al 6 cuantas veces quieras.

Cuando terminaste, creás los indices
7- perl -S buildcol.pl nombre_coleccion

Si todo lo anterior te parece muy complicado, entonces converti el pdf
a html y editalo agregando secciones, según lo que dice aca:

http://www.greenstone-la.org/images/documentos/demo_desarrollo_sostenible.pdf

Saludos!.

Diego

Diego Spano
Prodigio Consultores
Capital Federal - Argentina
Tel: (54 11) 5093-5313
http://ar.linkedin.com/in/diegospano
www.prodigioconsultores.com



2011/4/14 Diana Benitez <diana@xxxxxxxxxxxxxxxxxxxx>:
> Diego  entonces es por eso que cuando trataba yo de seccionar el documento
> modificando su doc.xml el simplemente me lo desaparecía, esto quiere decir
> que para lograr mi objetivo de seccionar un pdf e incluir en algunas de esa
> secciones un metadato tengo que convertirlo primero a Word o html?
>           Gracias saludos
>
> -----Mensaje original-----
> De: greenstone_es-bounce@xxxxxxxxxxxxx
> [mailto:greenstone_es-bounce@xxxxxxxxxxxxx] En nombre de Diego Spano
> Enviado el: jueves, 14 de abril de 2011 14:56
> Para: greenstone_es@xxxxxxxxxxxxx
> Asunto: [greenstone_es] Re: problemas al seccionar un pdf
>
> Diana, GS no reconoce las secciones que pueda tener internamente el
> pdf, solo toma como secciones a las páginas. Vos decis que si
> convertis el pdf a word o html tiene pérdida de formato visual: sí,
> asi es. El pdf cuando lo sacas de su formato puede que te convierta
> bien o que te quede cualquier cosa, más cuando el pdf tiene columnas,
> imagenes, etc.
>
>
> Saludos!.
>
> Diego
>
> Diego Spano
> Prodigio Consultores
> Capital Federal - Argentina
> Tel: (54 11) 5093-5313
> http://ar.linkedin.com/in/diegospano
> www.prodigioconsultores.com
>
>
>
> 2011/4/14 Diana Benitez <diana@xxxxxxxxxxxxxxxxxxxx>:
>> Hola gente  después de un periodo de enfermedad retome mi proyecto y no
>> pienso parar hasta terminar o llegar a una conclusión final, bien la
> semana
>> pasada había modificado el doc.xml de un documento (pdf)de mi colección,
> con
>> la finalidad de dividirlo en secciones(que correspondieran a sus
> capítulos,
>> epígrafes y subepigrafes) e incorporarle metadatos a algunas de esas
>> secciones, siendo el objetivo fundamental de mi colección buscar a partir
> de
>> esos metadatos, cuando cree la colección me quito el documento, pensé
>> entonces que como le había hecho tantos cambios había cometido algún error
> y
>> me di a la tarea de hacer los cambios poco a poco,y me di cuenta que eso
> de
>> desaparecer el documento ocurre cuando incorporo las secciones, discutí el
>> tema aquí en las listas y me dieron algunas soluciones como convertir el
> pdf
>> a Word ó a html  pero sucede que una vez convertido el documento tiene
> mucha
>> pérdida de formato visual con respecto al original. Entonces mi pregunta
>> es:
>>
>>       -- los pdf no se pueden seccionar, de forma tal que la sección
>> correspondan a sus capítulos, epígrafes y subepigrafes por ejemplo,  y
>> asociarles un metadatos además del title a algunas de dichas secciones ?
>>
>>
>>
>>     Por favor si alguien pudiera responder seria de gran ayuda gracias
>> Saludos
>>
>>
>>
>>
>
>
>
>
>

Other related posts: