[greenstone_es] Re: incremental

  • From: Diego Spano <diegospano@xxxxxxxxx>
  • To: greenstone_es@xxxxxxxxxxxxx
  • Date: Fri, 3 Sep 2010 12:02:53 -0300

Valentina,

el proceso de agregar un documento a GS consta de 2 partes: la primera parte
(es lo que se conoce como proceso "import") sirve para convertir los
documentos a un formato XML. Esa conversion se guarda en la carpeta archives
de la colección. SI te fijas, por cada objeto que vos agregues con el GLI,
habrá una carpeta en archives. Este proceso puede hacerse incremental, sin
importar que uses MGPP o Lucene, ya que lo único que hace es convertir de un
formato de origen (por ejemplo PDF) a un formato XML. La parte incremental
del proceso import es la que te permite ir convirtiendo solos los documentos
nuevos que hayas agregado. Si la primera vez tenes 100 documentos, el import
te va a hacer 100 conversiones. SI luego agregas 20 más, solo va a convertir
esos 20 documentos y los va a agregar a los 100 ya existentes en la carpeta
archives.

La segunda parte es la generación del indice de búsqueda (lo que se conoce
como proceso "build"). Este proceso, lee el contenido de la carpeta
archives, es decir, lee los XML generados por el proceso de Import,  y
genera el índice. MGPP no tiene manera de hacer este proceso incremental.
Siempre te va a leer el contenido completo de la carpeta archives. Siguiendo
con el ejemplo de antes, la primera vez agregaste 100 documentos, por lo
tanto el proceso de import generará 100 xml en la carpeta archives y luego
el MGPP los leera todos para generar el indice. Cuando agregues los 20
documentos nuevos, el proceso de import te va a convertir solo esos 20 y la
carpeta archives tendrá 120 XML. AHora bien, el MGPP leera los 120 XML para
generar los indices, ya que no puede hacerlo incrementalmente.

En cambio si usaras Lucene, la primera vez agregaste 100 documentos, por lo
tanto el proceso de import generará 100 xml en la carpeta archives y luego
Lucene los leera todos para generar el indice. Cuando agregues los 20
documentos nuevos, el proceso de import te va a convertir solo esos 20 y la
carpeta archives tendrá 120 XML y Lucene leerá solo los 20 XML nuevos y los
agregará al índice que ya existe. Esto es lo incremental.

Ambos procesos, el import y el build, los ejecuta el GLI en forma
secuencial.

Desde el GLI podes hacer lo que se llama "Reconstrucción Mínima". Y
dependiendo de que hayas usado MGPP o Lucene, el GLI sabrá que cosas puede
hacer incremental o no.

Para que Lucene te funcione, tenes que acceder a la colección a través del
APache. NO FUNCIONA CON LA BIBLIOTECA LOCAL O CON EL IIS de MICROSOFT!.

También tenés que chequear que tengas JAVA instalada en tu PC.


Saludos!.

Diego

Diego Spano
Prodigio Consultores
Bernardo de Irigoyen N° 1114 2°B
Capital Federal - Argentina
Tel: (54 11) 5093-5313
www.prodigioconsultores.com


2010/9/3 <Pablo.MORETE@xxxxxxxxx>

>
> Por lo que entiendo si uno usa la opción de construcción incremental con
> mgpp sólo la fase de importación de los documentos se hace de manera
> incremental, la fase de indización se hace sobre el total de la colección
> cada vez.
> En cambio si uno usa lucene ambas fases pueden realizarse de manera
> incremental. El problema con lucene, por lo menos hasta donde yo seguí la
> cuestión, es que no indiza bien los diacríticos. Por favor alguien corrígame
> si estoy equivocado.
> Saludos
> Pablo
>
>
>  *Valentina Soto <comounsiglo@xxxxxxxxx>*
> Sent by: greenstone_es-bounce@xxxxxxxxxxxxx
>
> 09/03/2010 10:04 AM
>  Please respond to
> greenstone_es@xxxxxxxxxxxxx
>
>   To
> greenstone_es@xxxxxxxxxxxxx
> cc
>   Subject
> [greenstone_es] Re: incremental
>
>
>
>
> Alfredo:
> Buen día. Lo que yo quiero hacer es agregar documentos nuevos sin que me
> cree toda la colección, sino solamente los que yo agrego. Me da lo mismo por
> ahora si es con MGPP o con Lucene. Lo que yo tengo sabido es que este
> proceso se llama "incremental" y que solo se puede hacer con Lucene. Yo
> trabajo siempre con el GLI, como estoy empezando poco me meto con las líneas
> de comando. Lo que hice, fue simplemente cambiar (dentro del GLI) en Indices
> de búsqueda desde MGPP a Lucene y creé la colección. No le puse keepold
> porque jamás encontré esa parte, solamente me limité a cambiar desde el GLI
> de MGPP a Lucene. Y de esta forma, creo la colección y cuando me voy a
> buscar los documentos me arroja cero resultados.
> No obstante, reitero que lo unico que quiero hacer es agregar documentos
> nuevos sin que me cree toda la base de datos de nuevo, ojalá con MGPP ya que
> así me funciona ok, sino ver como podría solucionar el tema de que no me
> arroje resultados con Lucene.
>
> Gracias por tu tiempo.
>
> Valentina.
>
>
> El 3 de septiembre de 2010 09:37, 
> <*amoreno@xxxxxxxxxxxxxxxxxx*<amoreno@xxxxxxxxxxxxxxxxxx>>
> escribió:
> VAMOS POR PARTE AL MENOS HASTA DONDE CONOZCO:
> 1. Con MGPP nop tenes la posibildiad incremental esto es solamente para
> lucene.
> 2. MGPP siempre procesa todo lo que encuentra en import. Es decir crea toda
> la colección y sus indices.
> 3. No entiendo lo que decis que sucedio utilizando lucene, trabajaste con
> la GLi o por lineas de comando?
>
> Podes explicar con mas detalle el proceso con lucene que realizaste para
> crear la colección utilizando incremental.
>
> Slds.
>
>
>
>

Other related posts: