[greenstone_es] Re: [greenstone_es] Incorporación de nuevos archivos a una colección

  • From: Diego Spano <diegospano@xxxxxxxxx>
  • To: greenstone_es@xxxxxxxxxxxxx
  • Date: Fri, 31 Jul 2009 15:14:52 -0300

Hola Nicolás:

cuando vos pones documentos en la carpeta import y corres el proceso
import.pl, generás en la carpeta archives una subcarpeta llamada
HASHnnnnn (habrá una por cada documento existente en import) y adentro
de esa carpeta hash tenes un archivo doc.xml y otro llamado doc.pdf.
(por ejemplo).

Luego el buildcol, te genera en la carpeta building los indices y una
subcarpeta assoc con el contenido de lo que hay en archives.

Hasta acá no hay mucho más por hacer. Vos decis en el mail:

" -posteriormente elimino los archivos de la carpeta /archives/
(aquellos que han sido generados por import.pl)". NOOOOOO, jamás hay
que borrar de la carpeta archives, solo borrá de la carpeta import
aquello que ya se ha procesado.

Cuando querés agregar documentos a lo que ya tenias, copias los
documentos nuevos a la carpeta import (borrando previamente los
documentos que ya tenias en esta carpeta). Cuando ejecutes el proceso
import.pl -keepold, este proceso te va a "agregar" a la carpeta
archives (que ya tiene algunas subcarpetas hashnnn) tantas subcarpetas
hashnnn como documentos nuevos hayas puesto en la carpeta import. Es
decir, te queda lo viejo más lo nuevo.

Ahora la diferencia está en la indexacion. El proceso buildcol no es
incremental cuando se usa mgpp. Esto quiere decir que cuando ejecutes
el proceso buildcol.pl da lo mismo que le pongas -keepold o no, ya que
el mgpp va a leer todo el contenido de la carpeta archives y te genera
el indice completo.

Para que se pueda hacer un buildcol incremental es necesario usar
Lucene. Pero este no se si es tu caso.

Espero que esto te haya servido!. Cualquier otra duda, la vamos resolviendo!.

Saludos

Diego



2009/7/31 Nicolás Rucks <nrucks@xxxxxxxxxxxxx>:
> Hola gente,
> estoy usando Greenstone (o aprendiendo a usarlo) desde hace unos meses 
> solamente.
> Trabajo con la versión 2.81, sobre Linux , generalmente directamente desde la 
> consola de Linux (uso los comandos import.pl , buildcol.pl y modifico el 
> archivo collect.cfg del directorio /etc/ de mi colección).
>
> Mi problemática es acerca de la incorporación de nuevos archivos a una 
> colección (estoy trabajando con fotos, *.jpg y *.tif).
>
> Les cuento lo que hago/trato de hacer:
>
> Tengo ya una determinada cantidad de archivos .jpg en la colección (se 
> hicieron los import.pl y buildcol.pl correspondientes)
> Los archivos de las fotografías quedan pues en las carpetas /archives/ y en 
> /index/assoc/
> -posteriormente elimino los archivos de la carpeta /archives/ (aquellos que 
> han sido generados por import.pl)
>
> Para un segundo grupo de archivos, vuelvo a ejecutar import.pl
> Ahora /archives/ solo tiene los archivos nuevos,
>
> y
>
> buildcol.pl -keepold -builddir /var/www/gsdl/collect/fotos/index fotos
> es decir, que pretendo no generar un nuevo INDEX , sino sumar los archivos 
> nuevos y sus metadatos, directamente sobre el INDEX ya existente.
>
> En /index/assoc/ están tanto los archivos viejos como los nuevos.
>
>
> Ahora el sitio "actualizado" de mi colección Greenstone funciona: desde el 
> botón de "FUENTE" se pueden ver los archivos nuevos y los viejos,
> PERO sus metadatos están mezclados,
> Y las búsquedas me recuperan documentos errados
> Y las listas de metadatos solo me muestran los datos NUEVOS, no los VIEJOS.
> Como si el parámetro "-keepold" de buildcol hubiera mantenido los archivos 
> antiguos, pero no hubiera tenido en cuenta los metadatos de los archivos ya 
> existentes.
> En resumen: se mezclaron las cosas.
>
> Evidentemente estoy haciendo algo mal.
>
> La pregunta es pues:
> CÓMO SE PUEDE HACER PARA INCORPORAR UNA NUEVA CANTIDAD DE ARCHIVOS A LA 
> COLECCIÓN, SIN QUE "IGNORE" LOS ARCHIVOS ANTERIORES QUE YA ESTÁN EN 
> /index/assoc/ PERO YA NO ESTÁN EN /archives/
>
> O acaso es indispensable tener los archivos DUPLICADOS entre /archives/ e 
> /index/assoc/
> y generar todo de vuelta?
>
>
> Espero haber planteado claramente el problema,
> y que Greenstone tenga un parámetro fácil de modificar para lograr esto.
>
> Desde ya, muchas gracias!
> Atentamente,
> Nicolas Rucks,
> Buenos Aires, Argentina.
>
>



-- 
Diego Spano
Prodigio Consultores
Bernardo de Irigoyen N° 1114 2°B
Capital Federal - Argentina
Tel: (54 11) 5093-5313
www.prodigioconsultores.com

Other related posts:

  • » [greenstone_es] Re: [greenstone_es] Incorporación de nuevos archivos a una colección - Diego Spano