[greenstone_es] Re: [greenstone_es] RE: [greenstone_es] Re: [greenstone_es] RE: [greenstone_es] Re: [greenstone_es] Incorporación de nuevos archivos a una colección

  • From: Diego Spano <diegospano@xxxxxxxxx>
  • To: greenstone_es@xxxxxxxxxxxxx
  • Date: Tue, 4 Aug 2009 12:12:41 -0300

la respuesta es un tanto compleja. No hay un parametro que te hago
eso. Pero si modificas el archivo basebuildproc.pm, vas a ver que hay
un procedimiento llamado sub

assoc_files() { ... }

Este procedimiento procesa copia los archivos asociados a la carpeta
index/assoc. Si le comentás las lineas, este paso se evita y no hay
copia alguna de archives a index/assoc. El tema es: como accedes luego
a los documentos de origen?. SI estas trabajando en linux, haces un
link de una carpeta a la otra y es totalmente transparente.

Pero si estas en Windows, esto no es tan sencillo ya que no hay links
en Windows. Entonces lo que habria que hacer es modificar el archivo
del plugin para que el metadato [Source] (extraido automáticamente por
GS) en vez de apuntar a /index/assoc/hashnnnn...... apunte a
archives/hashnnn.....

Cualquiera de los dos caminos es válido.

Saludos

Diego

2009/8/4 Nicolás Rucks <nrucks@xxxxxxxxxxxxx>:
> Sí, me estaba molestando la duplicidad...
> Claro, veo que el doc.xml con los metadatos de los archivos queda en 
> /archives/ pero no es copiado a /index/assoc/
>
> Existe entonces algún parámetro para que al actualizar los índices 
> (buildcol.pl) no copie ningún archivo a /index/assoc/ ?
> O tengo que borrarlos "a mano"?
>
> Gracias!
>
> Nicolas Rucks
> Buenos Aires,
> Argentina
>
>> -----Mensaje original-----
>> De: greenstone_es-bounce@xxxxxxxxxxxxx
>> [mailto:greenstone_es-bounce@xxxxxxxxxxxxx] En nombre de Diego Spano
>> Enviado el: martes 04 de agosto de 2009 11:46
>> Para: greenstone_es@xxxxxxxxxxxxx
>> Asunto: [greenstone_es] Re: [greenstone_es] RE:
>> [greenstone_es] Re: [greenstone_es] Incorporación de nuevos
>> archivos a una colección
>>
>> Hola Nicolás,
>>
>> no es conveniente borrar el contenido de la carpeta archives,
>> al menos no lo recomiendo. Suponete que por cualquier motivo
>> se te corrompe la carpeta index. Como indexas todo de
>> vuelta?. Tenés que volver a hacer el import de todos los
>> documentos otra vez, lo que llevaría más tiempo.
>>
>> Si estás trabajando sobre linux, una forma de resolver esa
>> duplicidad de archivos es hacer un link de la carpeta
>> index/assoc para que apunte a la carpeta archives. En
>> Windows, creo que no hay muchas alternativas.
>>
>> Conozco muy pocas desventajas de usar Lucene. Una es que solo
>> se puede usar poniendo como servidor web al Apache y no al
>> IIS (si es que esto puede considerarse una desventaja...) .
>> La  otra es que si se quiere exportar una colección a cd, no
>> funcionará con Lucene, hay que hacerlo si o si con mgpp.
>>
>> Pero por otro lado, Lucene supera enormente a mg y mgpp.
>> Tiene muchas más opciones de búsqueda, es rapidísimo y además
>> es incremental!.
>>
>> Saludos!
>>
>> Diego
>>
>>
>> 2009/8/4 Nicolás Rucks <nrucks@xxxxxxxxxxxxx>:
>> > Hola Diego.
>> > Sí, me sirvió.
>> > Estoy haciendo pruebas con lucene :
>> > en el /etc/collect.cfg puse
>> > buildtype       lucene
>> > en lugar de
>> > buildtype       mgpp
>> >
>> > A partir de usar lucene, aparentemente se puede hacer lo
>> que tenía en
>> > mente, es decir usar la carpeta /archives/ como algo temporario.
>> >
>> > Para cada grupo de archivos que voy añadiendo a la colección hago:
>> > a) Importación (solo pongo archivos nuevos) import.pl
>> -removeold fotos
>> >        esto por supuesto elimina lo que estuviera antes en
>> la carpeta
>> > /archives/
>> > b) Indexación acumulativa
>> > buildcol.pl -incremental -builddir index fotos2
>> >        Actualiza los índices y añade los archivos a /index/assoc/
>> >
>> > Y ahora el índice me recupera bien tanto lo nuevo como lo viejo! :)
>> > Además, de esta forma, ya no tengo que tener los archivos .jpg .tif
>> > duplicados en /archives/ y en /index/assoc/ (Por si hace falta
>> > aclarar, guardo mis archivos originales en otra carpeta que
>> nada tiene
>> > que ver con Greenstone.)
>> >
>> > No sé si alguien conoce desventajas de lucene con las que
>> me podría encontrar luego.
>> >
>> > Saludos,
>> > Nicolas Rucks,
>> > Buenos Aires, Argentina.
>> >
>> >> -----Mensaje original-----
>> >> De: greenstone_es-bounce@xxxxxxxxxxxxx
>> >> [mailto:greenstone_es-bounce@xxxxxxxxxxxxx] En nombre de
>> Diego Spano
>> >> Enviado el: viernes 31 de julio de 2009 15:15
>> >> Para: greenstone_es@xxxxxxxxxxxxx
>> >> Asunto: [greenstone_es] Re: [greenstone_es] Incorporación
>> de nuevos
>> >> archivos a una colección
>> >>
>> >> Hola Nicolás:
>> >>
>> >> cuando vos pones documentos en la carpeta import y corres
>> el proceso
>> >> import.pl, generás en la carpeta archives una subcarpeta llamada
>> >> HASHnnnnn (habrá una por cada documento existente en import) y
>> >> adentro de esa carpeta hash tenes un archivo doc.xml y
>> otro llamado
>> >> doc.pdf.
>> >> (por ejemplo).
>> >>
>> >> Luego el buildcol, te genera en la carpeta building los
>> indices y una
>> >> subcarpeta assoc con el contenido de lo que hay en archives.
>> >>
>> >> Hasta acá no hay mucho más por hacer. Vos decis en el mail:
>> >>
>> >> " -posteriormente elimino los archivos de la carpeta /archives/
>> >> (aquellos que han sido generados por import.pl)".
>> >> NOOOOOO, jamás hay que borrar de la carpeta archives, solo
>> borrá de
>> >> la carpeta import aquello que ya se ha procesado.
>> >>
>> >> Cuando querés agregar documentos a lo que ya tenias, copias los
>> >> documentos nuevos a la carpeta import (borrando previamente los
>> >> documentos que ya tenias en esta carpeta).
>> >> Cuando ejecutes el proceso import.pl -keepold, este
>> proceso te va a
>> >> "agregar" a la carpeta archives (que ya tiene algunas subcarpetas
>> >> hashnnn) tantas subcarpetas hashnnn como documentos nuevos hayas
>> >> puesto en la carpeta import. Es decir, te queda lo viejo más lo
>> >> nuevo.
>> >>
>> >> Ahora la diferencia está en la indexacion. El proceso
>> buildcol no es
>> >> incremental cuando se usa mgpp. Esto quiere decir que
>> cuando ejecutes
>> >> el proceso buildcol.pl da lo mismo que le pongas -keepold o no, ya
>> >> que el mgpp va a leer todo el contenido de la carpeta
>> archives y te
>> >> genera el indice completo.
>> >>
>> >> Para que se pueda hacer un buildcol incremental es necesario usar
>> >> Lucene. Pero este no se si es tu caso.
>> >>
>> >> Espero que esto te haya servido!. Cualquier otra duda, la vamos
>> >> resolviendo!.
>> >>
>> >> Saludos
>> >>
>> >> Diego
>> >>
>> >>
>> >>
>> >> 2009/7/31 Nicolás Rucks <nrucks@xxxxxxxxxxxxx>:
>> >> > Hola gente,
>> >> > estoy usando Greenstone (o aprendiendo a usarlo) desde hace
>> >> unos meses solamente.
>> >> > Trabajo con la versión 2.81, sobre Linux , generalmente
>> >> directamente desde la consola de Linux (uso los comandos
>> import.pl ,
>> >> buildcol.pl y modifico el archivo collect.cfg del
>> directorio /etc/ de
>> >> mi colección).
>> >> >
>> >> > Mi problemática es acerca de la incorporación de nuevos
>> >> archivos a una colección (estoy trabajando con fotos,
>> *.jpg y *.tif).
>> >> >
>> >> > Les cuento lo que hago/trato de hacer:
>> >> >
>> >> > Tengo ya una determinada cantidad de archivos .jpg en la
>> >> colección (se
>> >> > hicieron los import.pl y buildcol.pl correspondientes) Los
>> >> archivos de
>> >> > las fotografías quedan pues en las carpetas /archives/ y en
>> >> > /index/assoc/ -posteriormente elimino los archivos de la carpeta
>> >> > /archives/ (aquellos que han sido generados por import.pl)
>> >> >
>> >> > Para un segundo grupo de archivos, vuelvo a ejecutar
>> >> import.pl Ahora
>> >> > /archives/ solo tiene los archivos nuevos,
>> >> >
>> >> > y
>> >> >
>> >> > buildcol.pl -keepold -builddir
>> >> /var/www/gsdl/collect/fotos/index fotos
>> >> > es decir, que pretendo no generar un nuevo INDEX , sino
>> >> sumar los archivos nuevos y sus metadatos, directamente sobre el
>> >> INDEX ya existente.
>> >> >
>> >> > En /index/assoc/ están tanto los archivos viejos como los nuevos.
>> >> >
>> >> >
>> >> > Ahora el sitio "actualizado" de mi colección Greenstone funciona:
>> >> > desde el botón de "FUENTE" se pueden ver los archivos
>> nuevos y los
>> >> > viejos, PERO sus metadatos están mezclados, Y las búsquedas me
>> >> > recuperan documentos errados Y las listas de metadatos solo
>> >> me muestran los datos NUEVOS, no los VIEJOS.
>> >> > Como si el parámetro "-keepold" de buildcol hubiera
>> >> mantenido los archivos antiguos, pero no hubiera tenido en
>> cuenta los
>> >> metadatos de los archivos ya existentes.
>> >> > En resumen: se mezclaron las cosas.
>> >> >
>> >> > Evidentemente estoy haciendo algo mal.
>> >> >
>> >> > La pregunta es pues:
>> >> > CÓMO SE PUEDE HACER PARA INCORPORAR UNA NUEVA CANTIDAD DE
>> >> ARCHIVOS A
>> >> > LA COLECCIÓN, SIN QUE "IGNORE" LOS ARCHIVOS ANTERIORES QUE
>> >> YA ESTÁN EN
>> >> > /index/assoc/ PERO YA NO ESTÁN EN /archives/
>> >> >
>> >> > O acaso es indispensable tener los archivos DUPLICADOS entre
>> >> > /archives/ e /index/assoc/ y generar todo de vuelta?
>> >> >
>> >> >
>> >> > Espero haber planteado claramente el problema, y que
>> >> Greenstone tenga
>> >> > un parámetro fácil de modificar para lograr esto.
>> >> >
>> >> > Desde ya, muchas gracias!
>> >> > Atentamente,
>> >> > Nicolas Rucks,
>> >> > Buenos Aires, Argentina.
>> >> >
>> >> >
>> >>
>> >>
>> >>
>> >> --
>> >> Diego Spano
>> >> Prodigio Consultores
>> >> Bernardo de Irigoyen N° 1114 2°B
>> >> Capital Federal - Argentina
>> >> Tel: (54 11) 5093-5313
>> >> www.prodigioconsultores.com
>> >>
>> >>
>> >
>> >
>>
>>
>>
>> --
>> Diego Spano
>> Prodigio Consultores
>> Bernardo de Irigoyen N° 1114 2°B
>> Capital Federal - Argentina
>> Tel: (54 11) 5093-5313
>> www.prodigioconsultores.com
>>
>>
>
>



-- 
Diego Spano
Prodigio Consultores
Bernardo de Irigoyen N° 1114 2°B
Capital Federal - Argentina
Tel: (54 11) 5093-5313
www.prodigioconsultores.com

Other related posts:

  • » [greenstone_es] Re: [greenstone_es] RE: [greenstone_es] Re: [greenstone_es] RE: [greenstone_es] Re: [greenstone_es] Incorporación de nuevos archivos a una colección - Diego Spano