[greenstone_es] Re: [greenstone_es] crecer en una misma colección

From: Diego Spano <diegospano@xxxxxxxxx>
To: greenstone_es@xxxxxxxxxxxxx
Date: Tue, 31 Jan 2012 11:34:13 -0300

Hola Osmara.

el proceso de agregar un documento a GS consta de 2 partes: la primera
parte (es lo que se conoce como proceso "import") sirve para convertir los
documentos a un formato XML. Esa conversion se guarda en la carpeta
archives de la colección. SI te fijas, por cada objeto que vos agregues con
el GLI, habrá una carpeta en archives. Este proceso puede hacerse
incremental, sin importar que uses MGPP o Lucene, ya que lo único que hace
es convertir de un formato de origen (por ejemplo PDF) a un formato XML. La
parte incremental del proceso import es la que te permite ir convirtiendo
solos los documentos nuevos que hayas agregado. Si la primera vez tenes 100
documentos, el import te va a hacer 100 conversiones. SI luego agregas 20
más, solo va a convertir esos 20 documentos y los va a agregar a los 100 ya
existentes en la carpeta archives.

La segunda parte es la generación del indice de búsqueda (lo que se conoce
como proceso "build"). Este proceso, lee el contenido de la carpeta
archives, es decir, lee los XML generados por el proceso de Import,  y
genera el índice. MGPP no tiene manera de hacer este proceso incremental.
Siempre te va a leer el contenido completo de la carpeta archives.
Siguiendo con el ejemplo de antes, la primera vez agregaste 100 documentos,
por lo tanto el proceso de import generará 100 xml en la carpeta archives y
luego el MGPP los leera todos para generar el indice. Cuando agregues los
20 documentos nuevos, el proceso de import te va a convertir solo esos 20 y
la carpeta archives tendrá 120 XML. AHora bien, el MGPP leera los 120 XML
para generar los indices, ya que no puede hacerlo incrementalmente.

En cambio si usaras Lucene, la primera vez agregaste 100 documentos, por lo
tanto el proceso de import generará 100 xml en la carpeta archives y luego
Lucene los leera todos para generar el indice. Cuando agregues los 20
documentos nuevos, el proceso de import te va a convertir solo esos 20 y la
carpeta archives tendrá 120 XML y Lucene leerá solo los 20 XML nuevos y los
agregará al índice que ya existe. Esto es lo incremental.

Ambos procesos, el import y el build, los ejecuta el GLI en forma
secuencial.

Desde el GLI podes hacer lo que se llama "Reconstrucción Mínima". Y
dependiendo de que hayas usado MGPP o Lucene, el GLI sabrá que cosas puede
hacer incremental o no.


Saludos!.

Diego


*Diego Spano* *Director de Proyectos, Prodigio Consultores*
Tel: (54 11) 5093-5313

Argentina
dspano@xxxxxxxxxxxxxxxxxxxxxxx | www.prodigioconsultores.com
Mi perfil: [image: LinkedIn] <http://www.linkedin.com/in/diegospano>
Mensajería: [image: Google Talk] diegospano [image: Skype] diegospano
  Get a signature like this.
<http://r1.wisestamp.com/r/landing?promo=19&dest=http%3A%2F%2Fwww.wisestamp.com%2Femail-install%3Futm_source%3Dextension%26utm_medium%3Demail%26utm_campaign%3Dpromo_19>
CLICK
HERE.<http://r1.wisestamp.com/r/landing?promo=19&dest=http%3A%2F%2Fwww.wisestamp.com%2Femail-install%3Futm_source%3Dextension%26utm_medium%3Demail%26utm_campaign%3Dpromo_19>



2012/1/30 "Osmara Valdés Santos" <osmara@xxxxxxxxxxxxxx>

>
>
> Hola Lista!!!!
>
> Tengo varias colecciones publicadas en greenstone que a medida que se van
> procesando van creciendo en volumen (cantidad de doc) yo pregunto: Siempre
> que vaya incorporando nuevos doc a la colección tengo que mandar a
> Reconstrucción completa de la colección desde el principio????
>
> Hay algun mecanismo para actualizar la colección que no sea el de
> reconstrucción completa... es que demora horas....
>
> gracias a quien me pueda responder...
>
> Osmara
>
> >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
> - Participe en Universidad 2012, del 13 al 17 de febrero de 2012. Habana.
> Cuba. http://www.congresouniversidad.cu
>
> - Consulte la Enciclopedia Colaborativa Cubana. http://www.ecured.cu
>
>

References:
- [greenstone_es] Incorporación de Tesauro para indización.
  - From: Jesse Gambus
- [greenstone_es] crecer en una misma colección
  - From: "Osmara Valdés Santos"

[greenstone_es] Re: [greenstone_es] crecer en una misma colección

Other related posts: