[greenstone_es] Re: Incremental building

  • From: marcelo yornet <baryornet@xxxxxxxxxxx>
  • To: <greenstone_es@xxxxxxxxxxxxx>
  • Date: Wed, 6 Jun 2012 15:07:17 -0300

Bueno...
Hice de nuevo. Y tengo el mismo resultado.
Borre archives e index
Sume el primer doc e hice import.pl y buildcol.pl de manera normal.
renombre building a index

sume el segundo doc a la carpeta import.
corrí perl -S incremental-import.pl MiColeccion
eso anda perfecto.

corri perl -S buildcol.pl -out c:\log.txt -verbosity 3 -builddir 
c:\greenstone\collect\MiColeccion\index MiColeccion

y el resultado es el mismo. En principio me borra todo el contenido de index y 
luego me lo crea de nuevo pero sin lo que hay en el segundo documento (que sí 
está en archive)

Hice otras pruebas mas. Borré de la carpeta Archive los archivos OIDCount y 
earliestDatestamp y indexe de nuevo sin el parametro builddir.
Resultado: el mismo...

Se me ocurrió que podría ser un problema de que no se estuvieran agregando a 
archiveinf-doc.gdb (que es lo que log me dice que usa en buildcol) y mirando 
dentro estan los datos de mis dos documentos perfectamente. Tambien en 
archiveinf-src.gdb

así que no se que puede pasar ni que puedo hacer....
Pero ya estoy desesperando... porque son muchas y varios los documentos a 
agregar.


From: baryornet@xxxxxxxxxxx
To: greenstone_es@xxxxxxxxxxxxx
Subject: [greenstone_es] Re: Incremental building
Date: Wed, 6 Jun 2012 14:28:32 -0300





Claro, en archives hay dos documentos, C01.dir\Doc.xml y C02.dir\Doc.xml, ambos 
bien formados.

C01.dir es el que importó primero en la forma convencional. C02.dir lo hace 
despues de la importación, pero no lo toma el proceso que sigue.

Ya lo hice de nuevo dos veces borrando todo archives e index.
Pruebo otra vez más.
Lo voy a hacer como sugeriste:
con incremental-import.pl y y los parametros que me pasaste de buildcol.pl 
(pero ahora que lo pienso si va a reconstruir todo de nuevo podría no usar 
builddir cosa que me lo genere en building)
¿algo en especial para tener en cuenta?


From: diegospano@xxxxxxxxx
Date: Wed, 6 Jun 2012 14:18:30 -0300
Subject: [greenstone_es] Re: Incremental building
To: greenstone_es@xxxxxxxxxxxxx

El log que me mandaste dice que indexó el documento C01.dir\doc.xml. En 
archives tenes solo esto o hay otro documento mas?.


Otra prueba: borrar archives completo y empeza de cero, para ver si el problema 
es el datestamp.
Saludos!.

Diego




                        Diego Spano Director de Proyectos, Prodigio Consultores


 Tel: (54 11) 5093-5313 

Argentina
dspano@xxxxxxxxxxxxxxxxxxxxxxx | www.prodigioconsultores.com

Contact me:   diegospano  diegospano


                                                                                
                                                




                        
                                
                                        Want a signature like mine?
                                
                                CLICK HERE.
                                
                                 
                        
                

2012/6/6 marcelo yornet <baryornet@xxxxxxxxxxx>






El log. No dice mucho. Lo mismo que en pantalla.
¿Tendrá algo que ver con el archivo "earliestDatestamp" o con la comparación de 
fechas?



From: diegospano@xxxxxxxxx


Date: Wed, 6 Jun 2012 14:05:14 -0300
Subject: [greenstone_es] Re: Incremental building
To: greenstone_es@xxxxxxxxxxxxx

Podes hacer lo siguiente:



1- cada vez que agregues algo en el import ejecutá:
perl -S incremental-import.pl tu_coleccion


Esto te va conviertiendo y generando las carpetas en archives.
Cada vez que queres actualizar el indice ejecutá:
perl -S buildcol.pl -out c:\temp\log.txt -verbosity 3 -builddir 
c:\greenstone\collect\tu coleccion\index tu_coleccion




Para poder determinar por que el build no te esta tomando ambos documentos 
enviame el archivo c:\temp\log.txt.
Saludos!.

Diego




                        Diego Spano Director de Proyectos, Prodigio Consultores




 Tel: (54 11) 5093-5313 


Argentina
dspano@xxxxxxxxxxxxxxxxxxxxxxx | www.prodigioconsultores.com




Contact me:   diegospano  diegospano




                                                                                
                                                




                        
                                
                                        Want a signature like mine?
                                
                                CLICK HERE.
                                
                                 
                        
                

2012/6/6 marcelo yornet <baryornet@xxxxxxxxxxx>






Bueno, probé todo de nuevo. Y me sigue dando el mismo problema.

Está vez hice primero import.pl y despues buildcol.pl con el primer documento.





agrego el segundo documento a la carpeta import

y realizo incremental.rebuild.pl.

Trabaja adecuadamente el documento de la carpeta import, trata solo la carpeta 
con el documento nuevo. Agrega adecuadamente las imagenes asociadas y deja un 
doc.xml valido.





Pero el segundo paso, vendría a ser el de buildcol.pl, no se lleva a cabo 
correctamente, me recrea solo el primer documento y no el segundo.

si corro un perl -S buildcol.pl coleccion





tambien me hace lo mismo. Me crea de nuevo el indice del primer documento sin 
tomar para nada en cuenta el segundo documento.

¿Como deberia hacer para hacer una coleccion incremental, aunque solo sea en la 
importación, en MGPP?





Saludos y Gracias.

From: diegospano@xxxxxxxxx
Date: Wed, 6 Jun 2012 12:44:41 -0300
Subject: [greenstone_es] Re: Incremental building




To: greenstone_es@xxxxxxxxxxxxx

Si usas -incremental co el MGPP automáticamente lo cambia por -removeold, es 
decir, borra el indice viejo y lo regenera completo.




Saludos!.

Diego




                        Diego Spano Director de Proyectos, Prodigio Consultores






 Tel: (54 11) 5093-5313 


Argentina
dspano@xxxxxxxxxxxxxxxxxxxxxxx | www.prodigioconsultores.com






Contact me:   diegospano  diegospano






                                                                                
                                                




                        
                                
                                        Want a signature like mine?
                                
                                CLICK HERE.
                                
                                 
                        
                

2012/6/6 marcelo yornet <baryornet@xxxxxxxxxxx>






Uso MGPP.
Entendía que en MGPP el building se realizaba completo por más que se 
especificara -incremental. Es decir que indexaba todo de nuevo. Eso me viene 
bien
Con saltearme el proceso de importación estoy conforme.







From: diegospano@xxxxxxxxx
Date: Wed, 6 Jun 2012 12:33:56 -0300
Subject: [greenstone_es] Re: Incremental building


To: greenstone_es@xxxxxxxxxxxxx

Marcelo:
"WARNING: The indexer used is not capable of incremental building. Reverting to 
-removeold" 






Estás usando MGPP?. El building incremental solo es posible con Lucene!.



Saludos!.

Diego




                        Diego Spano Director de Proyectos, Prodigio Consultores








 Tel: (54 11) 5093-5313 


Argentina
dspano@xxxxxxxxxxxxxxxxxxxxxxx | www.prodigioconsultores.com








Contact me:   diegospano  diegospano








                                                                                
                                                




                        
                                
                                        Want a signature like mine?
                                
                                CLICK HERE.
                                
                                 
                        
                

2012/6/6 marcelo yornet <baryornet@xxxxxxxxxxx>






Me hace exactamente lo mismo.
No me toma el segundo doc (el agregado posteriormente) y me indexa solo el 
primero.
El mensaje es así:


************************
* Running  Import  Stage


************************
Global file scan checking directory: D:\Greenstone\collect\Causas\Checchi\import

Global file scan checking directory: D:\Greenstone\collect\Causas\Checchi\import
\Cuerpo 01
Global file scan checking directory: D:\Greenstone\collect\Causas\Checchi\import








\Cuerpo 02
New files and modified metadata files since last import:
  D:\Greenstone\collect\Causas\Checchi\import\Cuerpo 01\Cecchi0006.tif
  D:\Greenstone\collect\Causas\Checchi\import\Cuerpo 01\Cecchi0006.txt








  D:\Greenstone\collect\Causas\Checchi\import\Cuerpo 01\Thumbs.db
  D:\Greenstone\collect\Causas\Checchi\import\Cuerpo 02\Thumbs.db

*********************************************
Import complete
*********************************************








* 0 documents were considered for processing
* 0 were processed and included in the collection

************************
* Running Buildcol Stage
************************
WARNING: The indexer used is not capable of incremental building. Reverting to -








removeold


From: diegospano@xxxxxxxxx
Date: Wed, 6 Jun 2012 12:25:16 -0300
Subject: [greenstone_es] Re: Incremental building








To: greenstone_es@xxxxxxxxxxxxx

El incremental-rebuild te hace los dos pasos seguidos. Las colecciones 
agrupadas no deberian ser un problema, ya que cuando ejecutas el comando y le 
indicas el nombre de la colección lo tenes que escribir como si fuera una ruta, 
por ejemplo, si la coleccion raiz es "causas" y la colección hija es "cecchi" 
entonces el comando es:











perl -S buildcol.pl -incremental -keepold -buildir 
"c:\......\collect\causas\cecchi\index"  causas\cecchi










o sino
perl -S incremental-rebuild.pl   causas\cecchi










Saludos!.

Diego




                        Diego Spano Director de Proyectos, Prodigio Consultores










 Tel: (54 11) 5093-5313 


Argentina
dspano@xxxxxxxxxxxxxxxxxxxxxxx | www.prodigioconsultores.com










Contact me:   diegospano  diegospano










                                                                                
                                                




                        
                                
                                        Want a signature like mine?
                                
                                CLICK HERE.
                                
                                 
                        
                

2012/6/6 marcelo yornet <baryornet@xxxxxxxxxxx>






Probé con ruta completa, sin ruta para que me haga otro directorio building y 
nada.
Ahorá probé con incremental-rebuild.pl y me hace lo mismo. Siempre me procesa 
los archivos que estaban antes.










Veo que incremental-rebuild hace los dos procesos juntos ¿Esto es así?
el mensaje de incremental rebuild es:


************************
* Running  Import  Stage
************************
Global file scan checking directory: D:\Greenstone\collect\Causas\Checchi\import











Global file scan checking directory: D:\Greenstone\collect\Causas\Checchi\import
\Cuerpo 01
Global file scan checking directory: D:\Greenstone\collect\Causas\Checchi\import
\Cuerpo 02
New files and modified metadata files since last import:










  D:\Greenstone\collect\Causas\Checchi\import\Cuerpo 01\Cecchi0006.tif
  D:\Greenstone\collect\Causas\Checchi\import\Cuerpo 01\Cecchi0006.txt
  D:\Greenstone\collect\Causas\Checchi\import\Cuerpo 01\Thumbs.db
  D:\Greenstone\collect\Causas\Checchi\import\Cuerpo 02\Thumbs.db











*********************************************
Import complete
*********************************************
* 0 documents were considered for processing
* 0 were processed and included in the collection












y despues sigue y me indexa el primer documento. En Archive estan los dos.
Una cosa que quizas sea importante y me olvide de decir es que estoy usando 
carpetas agrupadas en Collect usando collectgroup true.














From: diegospano@xxxxxxxxx
Date: Wed, 6 Jun 2012 11:58:54 -0300
Subject: [greenstone_es] Re: Incremental building
To: greenstone_es@xxxxxxxxxxxxx











Marcelo, el builddir es la ruta completa al index de la colección.
Por otro lado, podes ejecutar el comando
perl -S incremental-rebuild.pl nombre_colección y eso te actualiza la colección 
de manera incremental en un solo paso.













Saludos!.

Diego




                        Diego Spano Director de Proyectos, Prodigio Consultores












 Tel: (54 11) 5093-5313 


Argentina
dspano@xxxxxxxxxxxxxxxxxxxxxxx | www.prodigioconsultores.com












Contact me:   diegospano  diegospano












                                                                                
                                                




                        
                                
                                        Want a signature like mine?
                                
                                CLICK HERE.
                                
                                 
                        
                

2012/6/6 marcelo yornet <baryornet@xxxxxxxxxxx>






Hola amigos:

Tengo un problema con la construccion incremental de una colección.
Estoy en un winXp con GS 2.85

Lo que hago es agregar el parametro -incremental a import y buildcol tal como 
se ha recomendado antes y como dice acá 













en concreto así:

perl -S import.pl -incremental MiColeccion
 y
perl -S buildcol.pl -incremental -buildir "collect/MiColeccion/index" 
MiColeccion













El proceso de importación trabaja bien, pero cuando hago buildcol SOLO vuelve a 
indexar lo que ya tenia y no suma los nuevos Doc.xml que se suman en Archives.

¿Alguien tiene idea que puede ser?

Saludos.













Marcelo Yornet
                                          

                                          

                                          

                                          

                                          

                                          

                                                                                
  
*** creating the compressed text

    collecting text statistics (mgpp_passes -T1)
ArchivesInfPlugin: processing 
D:\Greenstone\collect\Causas\Checchi\archives\archiveinf-doc.gdb
GreenstoneXMLPlugin: processing C01.dir\doc.xml
Stats (Compressing text from text)
Total bytes in collection: 1547064
Total bytes in text: 1547424

    creating the compression dictionary

    compressing the text (mgpp_passes -T2)
ArchivesInfPlugin: processing 
D:\Greenstone\collect\Causas\Checchi\archives\archiveinf-doc.gdb
GreenstoneXMLPlugin: processing C01.dir\doc.xml
Stats (Compressing text from text)
Total bytes in collection: 1547064
Total bytes in text: 1547424

*** building index text;Title;Cuerpo; in subdirectory idx

    creating index dictionary (mgpp_passes -I1)
ArchivesInfPlugin: processing 
D:\Greenstone\collect\Causas\Checchi\archives\archiveinf-doc.gdb
GreenstoneXMLPlugin: processing C01.dir\doc.xml
Stats (Creating index text;Title;Cuerpo;)
Total bytes in collection: 1547064
Total bytes in text;Title;Cuerpo;: 1558043

    inverting the text (mgpp_passes -I2)
ArchivesInfPlugin: processing 
D:\Greenstone\collect\Causas\Checchi\archives\archiveinf-doc.gdb
GreenstoneXMLPlugin: processing C01.dir\doc.xml
Stats (Creating index text;Title;Cuerpo;)
Total bytes in collection: 1547064
Total bytes in text;Title;Cuerpo;: 1558043

    create the weights file

    creating 'on-disk' stemmed dictionary

    creating stem indexes
deleting Checchi.ic
deleting Checchi.ict
deleting Checchi.id
deleting Checchi.idh
deleting Checchi.ii
deleting Checchi.invf.state.2848

*** creating the info database and processing associated files
ArchivesInfPlugin: processing 
D:\Greenstone\collect\Causas\Checchi\archives\archiveinf-doc.gdb
GreenstoneXMLPlugin: processing C01.dir\doc.xml

*** creating auxiliary files 

Other related posts: