[greenstone_es] RE: [greenstone_es] Re: [greenstone_es] RE: [greenstone_es] Re: [greenstone_es] RE: [greenstone_es] Re: [greenstone_es] Incorporación de nuevos archivos a una colección

  • From: Nicolás Rucks <nrucks@xxxxxxxxxxxxx>
  • To: <greenstone_es@xxxxxxxxxxxxx>
  • Date: Tue, 4 Aug 2009 12:18:44 -0300

Estoy con Linux, y vamos a intentar seguir así :)
Voy a hacer las pruebas que sugerís.
(El link ya lo hice y funciona.)

Gracias otra vez.

Nicolas Rucks
Biblioteca Cardini
Fundación Instituto Leloir 

> -----Mensaje original-----
> De: greenstone_es-bounce@xxxxxxxxxxxxx 
> [mailto:greenstone_es-bounce@xxxxxxxxxxxxx] En nombre de Diego Spano
> Enviado el: martes 04 de agosto de 2009 12:13
> Para: greenstone_es@xxxxxxxxxxxxx
> Asunto: [greenstone_es] Re: [greenstone_es] RE: 
> [greenstone_es] Re: [greenstone_es] RE: [greenstone_es] Re: 
> [greenstone_es] Incorporación de nuevos archivos a una colección
> 
> la respuesta es un tanto compleja. No hay un parametro que te 
> hago eso. Pero si modificas el archivo basebuildproc.pm, vas 
> a ver que hay un procedimiento llamado sub
> 
> assoc_files() { ... }
> 
> Este procedimiento procesa copia los archivos asociados a la 
> carpeta index/assoc. Si le comentás las lineas, este paso se 
> evita y no hay copia alguna de archives a index/assoc. El 
> tema es: como accedes luego a los documentos de origen?. SI 
> estas trabajando en linux, haces un link de una carpeta a la 
> otra y es totalmente transparente.
> 
> Pero si estas en Windows, esto no es tan sencillo ya que no 
> hay links en Windows. Entonces lo que habria que hacer es 
> modificar el archivo del plugin para que el metadato [Source] 
> (extraido automáticamente por
> GS) en vez de apuntar a /index/assoc/hashnnnn...... apunte a 
> archives/hashnnn.....
> 
> Cualquiera de los dos caminos es válido.
> 
> Saludos
> 
> Diego
> 
> 2009/8/4 Nicolás Rucks <nrucks@xxxxxxxxxxxxx>:
> > Sí, me estaba molestando la duplicidad...
> > Claro, veo que el doc.xml con los metadatos de los archivos 
> queda en 
> > /archives/ pero no es copiado a /index/assoc/
> >
> > Existe entonces algún parámetro para que al actualizar los 
> índices (buildcol.pl) no copie ningún archivo a /index/assoc/ ?
> > O tengo que borrarlos "a mano"?
> >
> > Gracias!
> >
> > Nicolas Rucks
> > Buenos Aires,
> > Argentina
> >
> >> -----Mensaje original-----
> >> De: greenstone_es-bounce@xxxxxxxxxxxxx
> >> [mailto:greenstone_es-bounce@xxxxxxxxxxxxx] En nombre de 
> Diego Spano 
> >> Enviado el: martes 04 de agosto de 2009 11:46
> >> Para: greenstone_es@xxxxxxxxxxxxx
> >> Asunto: [greenstone_es] Re: [greenstone_es] RE:
> >> [greenstone_es] Re: [greenstone_es] Incorporación de 
> nuevos archivos 
> >> a una colección
> >>
> >> Hola Nicolás,
> >>
> >> no es conveniente borrar el contenido de la carpeta archives, al 
> >> menos no lo recomiendo. Suponete que por cualquier motivo se te 
> >> corrompe la carpeta index. Como indexas todo de vuelta?. Tenés que 
> >> volver a hacer el import de todos los documentos otra vez, lo que 
> >> llevaría más tiempo.
> >>
> >> Si estás trabajando sobre linux, una forma de resolver esa 
> duplicidad 
> >> de archivos es hacer un link de la carpeta index/assoc para que 
> >> apunte a la carpeta archives. En Windows, creo que no hay muchas 
> >> alternativas.
> >>
> >> Conozco muy pocas desventajas de usar Lucene. Una es que solo se 
> >> puede usar poniendo como servidor web al Apache y no al IIS (si es 
> >> que esto puede considerarse una desventaja...) .
> >> La  otra es que si se quiere exportar una colección a cd, no 
> >> funcionará con Lucene, hay que hacerlo si o si con mgpp.
> >>
> >> Pero por otro lado, Lucene supera enormente a mg y mgpp.
> >> Tiene muchas más opciones de búsqueda, es rapidísimo y además es 
> >> incremental!.
> >>
> >> Saludos!
> >>
> >> Diego
> >>
> >>
> >> 2009/8/4 Nicolás Rucks <nrucks@xxxxxxxxxxxxx>:
> >> > Hola Diego.
> >> > Sí, me sirvió.
> >> > Estoy haciendo pruebas con lucene :
> >> > en el /etc/collect.cfg puse
> >> > buildtype       lucene
> >> > en lugar de
> >> > buildtype       mgpp
> >> >
> >> > A partir de usar lucene, aparentemente se puede hacer lo
> >> que tenía en
> >> > mente, es decir usar la carpeta /archives/ como algo temporario.
> >> >
> >> > Para cada grupo de archivos que voy añadiendo a la 
> colección hago:
> >> > a) Importación (solo pongo archivos nuevos) import.pl
> >> -removeold fotos
> >> >        esto por supuesto elimina lo que estuviera antes en
> >> la carpeta
> >> > /archives/
> >> > b) Indexación acumulativa
> >> > buildcol.pl -incremental -builddir index fotos2
> >> >        Actualiza los índices y añade los archivos a /index/assoc/
> >> >
> >> > Y ahora el índice me recupera bien tanto lo nuevo como 
> lo viejo! :) 
> >> > Además, de esta forma, ya no tengo que tener los 
> archivos .jpg .tif 
> >> > duplicados en /archives/ y en /index/assoc/ (Por si hace falta 
> >> > aclarar, guardo mis archivos originales en otra carpeta que
> >> nada tiene
> >> > que ver con Greenstone.)
> >> >
> >> > No sé si alguien conoce desventajas de lucene con las que
> >> me podría encontrar luego.
> >> >
> >> > Saludos,
> >> > Nicolas Rucks,
> >> > Buenos Aires, Argentina.
> >> >
> >> >> -----Mensaje original-----
> >> >> De: greenstone_es-bounce@xxxxxxxxxxxxx
> >> >> [mailto:greenstone_es-bounce@xxxxxxxxxxxxx] En nombre de
> >> Diego Spano
> >> >> Enviado el: viernes 31 de julio de 2009 15:15
> >> >> Para: greenstone_es@xxxxxxxxxxxxx
> >> >> Asunto: [greenstone_es] Re: [greenstone_es] Incorporación
> >> de nuevos
> >> >> archivos a una colección
> >> >>
> >> >> Hola Nicolás:
> >> >>
> >> >> cuando vos pones documentos en la carpeta import y corres
> >> el proceso
> >> >> import.pl, generás en la carpeta archives una 
> subcarpeta llamada 
> >> >> HASHnnnnn (habrá una por cada documento existente en import) y 
> >> >> adentro de esa carpeta hash tenes un archivo doc.xml y
> >> otro llamado
> >> >> doc.pdf.
> >> >> (por ejemplo).
> >> >>
> >> >> Luego el buildcol, te genera en la carpeta building los
> >> indices y una
> >> >> subcarpeta assoc con el contenido de lo que hay en archives.
> >> >>
> >> >> Hasta acá no hay mucho más por hacer. Vos decis en el mail:
> >> >>
> >> >> " -posteriormente elimino los archivos de la carpeta /archives/ 
> >> >> (aquellos que han sido generados por import.pl)".
> >> >> NOOOOOO, jamás hay que borrar de la carpeta archives, solo
> >> borrá de
> >> >> la carpeta import aquello que ya se ha procesado.
> >> >>
> >> >> Cuando querés agregar documentos a lo que ya tenias, copias los 
> >> >> documentos nuevos a la carpeta import (borrando previamente los 
> >> >> documentos que ya tenias en esta carpeta).
> >> >> Cuando ejecutes el proceso import.pl -keepold, este
> >> proceso te va a
> >> >> "agregar" a la carpeta archives (que ya tiene algunas 
> subcarpetas
> >> >> hashnnn) tantas subcarpetas hashnnn como documentos 
> nuevos hayas 
> >> >> puesto en la carpeta import. Es decir, te queda lo viejo más lo 
> >> >> nuevo.
> >> >>
> >> >> Ahora la diferencia está en la indexacion. El proceso
> >> buildcol no es
> >> >> incremental cuando se usa mgpp. Esto quiere decir que
> >> cuando ejecutes
> >> >> el proceso buildcol.pl da lo mismo que le pongas 
> -keepold o no, ya 
> >> >> que el mgpp va a leer todo el contenido de la carpeta
> >> archives y te
> >> >> genera el indice completo.
> >> >>
> >> >> Para que se pueda hacer un buildcol incremental es 
> necesario usar 
> >> >> Lucene. Pero este no se si es tu caso.
> >> >>
> >> >> Espero que esto te haya servido!. Cualquier otra duda, la vamos 
> >> >> resolviendo!.
> >> >>
> >> >> Saludos
> >> >>
> >> >> Diego
> >> >>
> >> >>
> >> >>
> >> >> 2009/7/31 Nicolás Rucks <nrucks@xxxxxxxxxxxxx>:
> >> >> > Hola gente,
> >> >> > estoy usando Greenstone (o aprendiendo a usarlo) desde hace
> >> >> unos meses solamente.
> >> >> > Trabajo con la versión 2.81, sobre Linux , generalmente
> >> >> directamente desde la consola de Linux (uso los comandos
> >> import.pl ,
> >> >> buildcol.pl y modifico el archivo collect.cfg del
> >> directorio /etc/ de
> >> >> mi colección).
> >> >> >
> >> >> > Mi problemática es acerca de la incorporación de nuevos
> >> >> archivos a una colección (estoy trabajando con fotos,
> >> *.jpg y *.tif).
> >> >> >
> >> >> > Les cuento lo que hago/trato de hacer:
> >> >> >
> >> >> > Tengo ya una determinada cantidad de archivos .jpg en la
> >> >> colección (se
> >> >> > hicieron los import.pl y buildcol.pl correspondientes) Los
> >> >> archivos de
> >> >> > las fotografías quedan pues en las carpetas /archives/ y en 
> >> >> > /index/assoc/ -posteriormente elimino los archivos de 
> la carpeta 
> >> >> > /archives/ (aquellos que han sido generados por import.pl)
> >> >> >
> >> >> > Para un segundo grupo de archivos, vuelvo a ejecutar
> >> >> import.pl Ahora
> >> >> > /archives/ solo tiene los archivos nuevos,
> >> >> >
> >> >> > y
> >> >> >
> >> >> > buildcol.pl -keepold -builddir
> >> >> /var/www/gsdl/collect/fotos/index fotos
> >> >> > es decir, que pretendo no generar un nuevo INDEX , sino
> >> >> sumar los archivos nuevos y sus metadatos, directamente 
> sobre el 
> >> >> INDEX ya existente.
> >> >> >
> >> >> > En /index/assoc/ están tanto los archivos viejos como 
> los nuevos.
> >> >> >
> >> >> >
> >> >> > Ahora el sitio "actualizado" de mi colección 
> Greenstone funciona:
> >> >> > desde el botón de "FUENTE" se pueden ver los archivos
> >> nuevos y los
> >> >> > viejos, PERO sus metadatos están mezclados, Y las 
> búsquedas me 
> >> >> > recuperan documentos errados Y las listas de metadatos solo
> >> >> me muestran los datos NUEVOS, no los VIEJOS.
> >> >> > Como si el parámetro "-keepold" de buildcol hubiera
> >> >> mantenido los archivos antiguos, pero no hubiera tenido en
> >> cuenta los
> >> >> metadatos de los archivos ya existentes.
> >> >> > En resumen: se mezclaron las cosas.
> >> >> >
> >> >> > Evidentemente estoy haciendo algo mal.
> >> >> >
> >> >> > La pregunta es pues:
> >> >> > CÓMO SE PUEDE HACER PARA INCORPORAR UNA NUEVA CANTIDAD DE
> >> >> ARCHIVOS A
> >> >> > LA COLECCIÓN, SIN QUE "IGNORE" LOS ARCHIVOS ANTERIORES QUE
> >> >> YA ESTÁN EN
> >> >> > /index/assoc/ PERO YA NO ESTÁN EN /archives/
> >> >> >
> >> >> > O acaso es indispensable tener los archivos DUPLICADOS entre 
> >> >> > /archives/ e /index/assoc/ y generar todo de vuelta?
> >> >> >
> >> >> >
> >> >> > Espero haber planteado claramente el problema, y que
> >> >> Greenstone tenga
> >> >> > un parámetro fácil de modificar para lograr esto.
> >> >> >
> >> >> > Desde ya, muchas gracias!
> >> >> > Atentamente,
> >> >> > Nicolas Rucks,
> >> >> > Buenos Aires, Argentina.
> >> >> >
> >> >> >
> >> >>
> >> >>
> >> >>
> >> >> --
> >> >> Diego Spano
> >> >> Prodigio Consultores
> >> >> Bernardo de Irigoyen N° 1114 2°B
> >> >> Capital Federal - Argentina
> >> >> Tel: (54 11) 5093-5313
> >> >> www.prodigioconsultores.com
> >> >>
> >> >>
> >> >
> >> >
> >>
> >>
> >>
> >> --
> >> Diego Spano
> >> Prodigio Consultores
> >> Bernardo de Irigoyen N° 1114 2°B
> >> Capital Federal - Argentina
> >> Tel: (54 11) 5093-5313
> >> www.prodigioconsultores.com
> >>
> >>
> >
> >
> 
> 
> 
> --
> Diego Spano
> Prodigio Consultores
> Bernardo de Irigoyen N° 1114 2°B
> Capital Federal - Argentina
> Tel: (54 11) 5093-5313
> www.prodigioconsultores.com
> 
> 

Other related posts:

  • » [greenstone_es] RE: [greenstone_es] Re: [greenstone_es] RE: [greenstone_es] Re: [greenstone_es] RE: [greenstone_es] Re: [greenstone_es] Incorporación de nuevos archivos a una colección - Nicolás Rucks