Estoy con Linux, y vamos a intentar seguir así :) Voy a hacer las pruebas que sugerís. (El link ya lo hice y funciona.) Gracias otra vez. Nicolas Rucks Biblioteca Cardini Fundación Instituto Leloir > -----Mensaje original----- > De: greenstone_es-bounce@xxxxxxxxxxxxx > [mailto:greenstone_es-bounce@xxxxxxxxxxxxx] En nombre de Diego Spano > Enviado el: martes 04 de agosto de 2009 12:13 > Para: greenstone_es@xxxxxxxxxxxxx > Asunto: [greenstone_es] Re: [greenstone_es] RE: > [greenstone_es] Re: [greenstone_es] RE: [greenstone_es] Re: > [greenstone_es] Incorporación de nuevos archivos a una colección > > la respuesta es un tanto compleja. No hay un parametro que te > hago eso. Pero si modificas el archivo basebuildproc.pm, vas > a ver que hay un procedimiento llamado sub > > assoc_files() { ... } > > Este procedimiento procesa copia los archivos asociados a la > carpeta index/assoc. Si le comentás las lineas, este paso se > evita y no hay copia alguna de archives a index/assoc. El > tema es: como accedes luego a los documentos de origen?. SI > estas trabajando en linux, haces un link de una carpeta a la > otra y es totalmente transparente. > > Pero si estas en Windows, esto no es tan sencillo ya que no > hay links en Windows. Entonces lo que habria que hacer es > modificar el archivo del plugin para que el metadato [Source] > (extraido automáticamente por > GS) en vez de apuntar a /index/assoc/hashnnnn...... apunte a > archives/hashnnn..... > > Cualquiera de los dos caminos es válido. > > Saludos > > Diego > > 2009/8/4 Nicolás Rucks <nrucks@xxxxxxxxxxxxx>: > > Sí, me estaba molestando la duplicidad... > > Claro, veo que el doc.xml con los metadatos de los archivos > queda en > > /archives/ pero no es copiado a /index/assoc/ > > > > Existe entonces algún parámetro para que al actualizar los > índices (buildcol.pl) no copie ningún archivo a /index/assoc/ ? > > O tengo que borrarlos "a mano"? > > > > Gracias! > > > > Nicolas Rucks > > Buenos Aires, > > Argentina > > > >> -----Mensaje original----- > >> De: greenstone_es-bounce@xxxxxxxxxxxxx > >> [mailto:greenstone_es-bounce@xxxxxxxxxxxxx] En nombre de > Diego Spano > >> Enviado el: martes 04 de agosto de 2009 11:46 > >> Para: greenstone_es@xxxxxxxxxxxxx > >> Asunto: [greenstone_es] Re: [greenstone_es] RE: > >> [greenstone_es] Re: [greenstone_es] Incorporación de > nuevos archivos > >> a una colección > >> > >> Hola Nicolás, > >> > >> no es conveniente borrar el contenido de la carpeta archives, al > >> menos no lo recomiendo. Suponete que por cualquier motivo se te > >> corrompe la carpeta index. Como indexas todo de vuelta?. Tenés que > >> volver a hacer el import de todos los documentos otra vez, lo que > >> llevaría más tiempo. > >> > >> Si estás trabajando sobre linux, una forma de resolver esa > duplicidad > >> de archivos es hacer un link de la carpeta index/assoc para que > >> apunte a la carpeta archives. En Windows, creo que no hay muchas > >> alternativas. > >> > >> Conozco muy pocas desventajas de usar Lucene. Una es que solo se > >> puede usar poniendo como servidor web al Apache y no al IIS (si es > >> que esto puede considerarse una desventaja...) . > >> La otra es que si se quiere exportar una colección a cd, no > >> funcionará con Lucene, hay que hacerlo si o si con mgpp. > >> > >> Pero por otro lado, Lucene supera enormente a mg y mgpp. > >> Tiene muchas más opciones de búsqueda, es rapidísimo y además es > >> incremental!. > >> > >> Saludos! > >> > >> Diego > >> > >> > >> 2009/8/4 Nicolás Rucks <nrucks@xxxxxxxxxxxxx>: > >> > Hola Diego. > >> > Sí, me sirvió. > >> > Estoy haciendo pruebas con lucene : > >> > en el /etc/collect.cfg puse > >> > buildtype lucene > >> > en lugar de > >> > buildtype mgpp > >> > > >> > A partir de usar lucene, aparentemente se puede hacer lo > >> que tenía en > >> > mente, es decir usar la carpeta /archives/ como algo temporario. > >> > > >> > Para cada grupo de archivos que voy añadiendo a la > colección hago: > >> > a) Importación (solo pongo archivos nuevos) import.pl > >> -removeold fotos > >> > esto por supuesto elimina lo que estuviera antes en > >> la carpeta > >> > /archives/ > >> > b) Indexación acumulativa > >> > buildcol.pl -incremental -builddir index fotos2 > >> > Actualiza los índices y añade los archivos a /index/assoc/ > >> > > >> > Y ahora el índice me recupera bien tanto lo nuevo como > lo viejo! :) > >> > Además, de esta forma, ya no tengo que tener los > archivos .jpg .tif > >> > duplicados en /archives/ y en /index/assoc/ (Por si hace falta > >> > aclarar, guardo mis archivos originales en otra carpeta que > >> nada tiene > >> > que ver con Greenstone.) > >> > > >> > No sé si alguien conoce desventajas de lucene con las que > >> me podría encontrar luego. > >> > > >> > Saludos, > >> > Nicolas Rucks, > >> > Buenos Aires, Argentina. > >> > > >> >> -----Mensaje original----- > >> >> De: greenstone_es-bounce@xxxxxxxxxxxxx > >> >> [mailto:greenstone_es-bounce@xxxxxxxxxxxxx] En nombre de > >> Diego Spano > >> >> Enviado el: viernes 31 de julio de 2009 15:15 > >> >> Para: greenstone_es@xxxxxxxxxxxxx > >> >> Asunto: [greenstone_es] Re: [greenstone_es] Incorporación > >> de nuevos > >> >> archivos a una colección > >> >> > >> >> Hola Nicolás: > >> >> > >> >> cuando vos pones documentos en la carpeta import y corres > >> el proceso > >> >> import.pl, generás en la carpeta archives una > subcarpeta llamada > >> >> HASHnnnnn (habrá una por cada documento existente en import) y > >> >> adentro de esa carpeta hash tenes un archivo doc.xml y > >> otro llamado > >> >> doc.pdf. > >> >> (por ejemplo). > >> >> > >> >> Luego el buildcol, te genera en la carpeta building los > >> indices y una > >> >> subcarpeta assoc con el contenido de lo que hay en archives. > >> >> > >> >> Hasta acá no hay mucho más por hacer. Vos decis en el mail: > >> >> > >> >> " -posteriormente elimino los archivos de la carpeta /archives/ > >> >> (aquellos que han sido generados por import.pl)". > >> >> NOOOOOO, jamás hay que borrar de la carpeta archives, solo > >> borrá de > >> >> la carpeta import aquello que ya se ha procesado. > >> >> > >> >> Cuando querés agregar documentos a lo que ya tenias, copias los > >> >> documentos nuevos a la carpeta import (borrando previamente los > >> >> documentos que ya tenias en esta carpeta). > >> >> Cuando ejecutes el proceso import.pl -keepold, este > >> proceso te va a > >> >> "agregar" a la carpeta archives (que ya tiene algunas > subcarpetas > >> >> hashnnn) tantas subcarpetas hashnnn como documentos > nuevos hayas > >> >> puesto en la carpeta import. Es decir, te queda lo viejo más lo > >> >> nuevo. > >> >> > >> >> Ahora la diferencia está en la indexacion. El proceso > >> buildcol no es > >> >> incremental cuando se usa mgpp. Esto quiere decir que > >> cuando ejecutes > >> >> el proceso buildcol.pl da lo mismo que le pongas > -keepold o no, ya > >> >> que el mgpp va a leer todo el contenido de la carpeta > >> archives y te > >> >> genera el indice completo. > >> >> > >> >> Para que se pueda hacer un buildcol incremental es > necesario usar > >> >> Lucene. Pero este no se si es tu caso. > >> >> > >> >> Espero que esto te haya servido!. Cualquier otra duda, la vamos > >> >> resolviendo!. > >> >> > >> >> Saludos > >> >> > >> >> Diego > >> >> > >> >> > >> >> > >> >> 2009/7/31 Nicolás Rucks <nrucks@xxxxxxxxxxxxx>: > >> >> > Hola gente, > >> >> > estoy usando Greenstone (o aprendiendo a usarlo) desde hace > >> >> unos meses solamente. > >> >> > Trabajo con la versión 2.81, sobre Linux , generalmente > >> >> directamente desde la consola de Linux (uso los comandos > >> import.pl , > >> >> buildcol.pl y modifico el archivo collect.cfg del > >> directorio /etc/ de > >> >> mi colección). > >> >> > > >> >> > Mi problemática es acerca de la incorporación de nuevos > >> >> archivos a una colección (estoy trabajando con fotos, > >> *.jpg y *.tif). > >> >> > > >> >> > Les cuento lo que hago/trato de hacer: > >> >> > > >> >> > Tengo ya una determinada cantidad de archivos .jpg en la > >> >> colección (se > >> >> > hicieron los import.pl y buildcol.pl correspondientes) Los > >> >> archivos de > >> >> > las fotografías quedan pues en las carpetas /archives/ y en > >> >> > /index/assoc/ -posteriormente elimino los archivos de > la carpeta > >> >> > /archives/ (aquellos que han sido generados por import.pl) > >> >> > > >> >> > Para un segundo grupo de archivos, vuelvo a ejecutar > >> >> import.pl Ahora > >> >> > /archives/ solo tiene los archivos nuevos, > >> >> > > >> >> > y > >> >> > > >> >> > buildcol.pl -keepold -builddir > >> >> /var/www/gsdl/collect/fotos/index fotos > >> >> > es decir, que pretendo no generar un nuevo INDEX , sino > >> >> sumar los archivos nuevos y sus metadatos, directamente > sobre el > >> >> INDEX ya existente. > >> >> > > >> >> > En /index/assoc/ están tanto los archivos viejos como > los nuevos. > >> >> > > >> >> > > >> >> > Ahora el sitio "actualizado" de mi colección > Greenstone funciona: > >> >> > desde el botón de "FUENTE" se pueden ver los archivos > >> nuevos y los > >> >> > viejos, PERO sus metadatos están mezclados, Y las > búsquedas me > >> >> > recuperan documentos errados Y las listas de metadatos solo > >> >> me muestran los datos NUEVOS, no los VIEJOS. > >> >> > Como si el parámetro "-keepold" de buildcol hubiera > >> >> mantenido los archivos antiguos, pero no hubiera tenido en > >> cuenta los > >> >> metadatos de los archivos ya existentes. > >> >> > En resumen: se mezclaron las cosas. > >> >> > > >> >> > Evidentemente estoy haciendo algo mal. > >> >> > > >> >> > La pregunta es pues: > >> >> > CÓMO SE PUEDE HACER PARA INCORPORAR UNA NUEVA CANTIDAD DE > >> >> ARCHIVOS A > >> >> > LA COLECCIÓN, SIN QUE "IGNORE" LOS ARCHIVOS ANTERIORES QUE > >> >> YA ESTÁN EN > >> >> > /index/assoc/ PERO YA NO ESTÁN EN /archives/ > >> >> > > >> >> > O acaso es indispensable tener los archivos DUPLICADOS entre > >> >> > /archives/ e /index/assoc/ y generar todo de vuelta? > >> >> > > >> >> > > >> >> > Espero haber planteado claramente el problema, y que > >> >> Greenstone tenga > >> >> > un parámetro fácil de modificar para lograr esto. > >> >> > > >> >> > Desde ya, muchas gracias! > >> >> > Atentamente, > >> >> > Nicolas Rucks, > >> >> > Buenos Aires, Argentina. > >> >> > > >> >> > > >> >> > >> >> > >> >> > >> >> -- > >> >> Diego Spano > >> >> Prodigio Consultores > >> >> Bernardo de Irigoyen N° 1114 2°B > >> >> Capital Federal - Argentina > >> >> Tel: (54 11) 5093-5313 > >> >> www.prodigioconsultores.com > >> >> > >> >> > >> > > >> > > >> > >> > >> > >> -- > >> Diego Spano > >> Prodigio Consultores > >> Bernardo de Irigoyen N° 1114 2°B > >> Capital Federal - Argentina > >> Tel: (54 11) 5093-5313 > >> www.prodigioconsultores.com > >> > >> > > > > > > > > -- > Diego Spano > Prodigio Consultores > Bernardo de Irigoyen N° 1114 2°B > Capital Federal - Argentina > Tel: (54 11) 5093-5313 > www.prodigioconsultores.com > >