[greenstone_es] Re: incremental

  • From: Pablo.MORETE@xxxxxxxxx
  • To: greenstone_es@xxxxxxxxxxxxx
  • Date: Fri, 3 Sep 2010 11:26:22 -0400


Gracias por la excelente explicación Diego. Aprovecho para preguntarte sobre el tema de los diacríticos y Lucene. Yo tenía entendido que hay un problema ahí y por eso es que mucha gente ha optado por seguir utilizando MGGP. Es cierto eso?
En caso contrario no veo por qué alguien querría usar MGGP (salvo que no tuviese acceso a servidor apache o no tuviese java instalado)
saludos,
Pablo


Diego Spano <diegospano@xxxxxxxxx>
Sent by: greenstone_es-bounce@xxxxxxxxxxxxx

09/03/2010 11:19 AM

Please respond to
greenstone_es@xxxxxxxxxxxxx

To
greenstone_es@xxxxxxxxxxxxx
cc
Subject
[greenstone_es] Re: incremental





Valentina,

el proceso de agregar un documento a GS consta de 2 partes: la primera
parte (es lo que se conoce como proceso "import") sirve para convertir
los documentos a un formato XML. Esa conversion se guarda en la
carpeta archives de la colección. SI te fijas, por cada objeto que vos
agregues con el GLI, habrá una carpeta en archives. Este proceso puede
hacerse incremental, sin importar que uses MGPP o Lucene, ya que lo
único que hace es convertir de un formato de origen (por ejemplo PDF)
a un formato XML. La parte incremental del proceso import es la que te
permite ir convirtiendo solos los documentos nuevos que hayas
agregado. Si la primera vez tenes 100 documentos, el import te va a
hacer 100 conversiones. SI luego agregas 20 más, solo va a convertir
esos 20 documentos y los va a agregar a los 100 ya existentes en la
carpeta archives.

La segunda parte es la generación del indice de búsqueda (lo que se
conoce como proceso "build"). Este proceso, lee el contenido de la
carpeta archives, es decir, lee los XML generados por el proceso de
Import,  y genera el índice. MGPP no tiene manera de hacer este
proceso incremental. Siempre te va a leer el contenido completo de la
carpeta archives. Siguiendo con el ejemplo de antes, la primera vez
agregaste 100 documentos, por lo tanto el proceso de import generará
100 xml en la carpeta archives y luego el MGPP los leera todos para
generar el indice. Cuando agregues los 20 documentos nuevos, el
proceso de import te va a convertir solo esos 20 y la carpeta archives
tendrá 120 XML. AHora bien, el MGPP leera los 120 XML para generar los
indices, ya que no puede hacerlo incrementalmente.

En cambio si usaras Lucene, la primera vez agregaste 100 documentos,
por lo tanto el proceso de import generará 100 xml en la carpeta
archives y luego Lucene los leera todos para generar el indice. Cuando
agregues los 20 documentos nuevos, el proceso de import te va a
convertir solo esos 20 y la carpeta archives tendrá 120 XML y Lucene
leerá solo los 20 XML nuevos y los agregará al índice que ya existe.
Esto es lo incremental.

Ambos procesos, el import y el build, los ejecuta el GLI en forma secuencial.

Desde el GLI podes hacer lo que se llama "Reconstrucción Mínima". Y
dependiendo de que hayas usado MGPP o Lucene, el GLI sabrá que cosas
puede hacer incremental o no.

Para que Lucene te funcione, tenes que acceder a la colección a través
del APache. NO FUNCIONA CON LA BIBLIOTECA LOCAL O CON EL IIS de
MICROSOFT!.

También tenés que chequear que tengas JAVA instalada en tu PC.

Saludos!.

Diego

Diego Spano
Prodigio Consultores
Bernardo de Irigoyen N° 1114 2°B
Capital Federal - Argentina
Tel: (54 11) 5093-5313
www.prodigioconsultores.com

> 2010/9/3 <Pablo.MORETE@xxxxxxxxx>
>>
>> Por lo que entiendo si uno usa la opción de construcción incremental con mgpp sólo la fase de importación de los documentos se hace de manera incremental, la fase de indización se hace sobre el total de la colección cada vez.
>> En cambio si uno usa lucene ambas fases pueden realizarse de manera incremental. El problema con lucene, por lo menos hasta donde yo seguí la cuestión, es que no indiza bien los diacríticos. Por favor alguien corrígame si estoy equivocado.
>> Saludos
>> Pablo
>>
>>
>> Valentina Soto <comounsiglo@xxxxxxxxx>
>> Sent by: greenstone_es-bounce@xxxxxxxxxxxxx
>>
>> 09/03/2010 10:04 AM
>>
>> Please respond to
>> greenstone_es@xxxxxxxxxxxxx
>> To
>> greenstone_es@xxxxxxxxxxxxx
>> cc
>> Subject
>> [greenstone_es] Re: incremental
>>
>>
>>
>>
>> Alfredo:
>> Buen día. Lo que yo quiero hacer es agregar documentos nuevos sin que me cree toda la colección, sino solamente los que yo agrego. Me da lo mismo por ahora si es con MGPP o con Lucene. Lo que yo tengo sabido es que este proceso se llama "incremental" y que solo se puede hacer con Lucene. Yo trabajo siempre con el GLI, como estoy empezando poco me meto con las líneas de comando. Lo que hice, fue simplemente cambiar (dentro del GLI) en Indices de búsqueda desde MGPP a Lucene y creé la colección. No le puse keepold porque jamás encontré esa parte, solamente me limité a cambiar desde el GLI de MGPP a Lucene. Y de esta forma, creo la colección y cuando me voy a buscar los documentos me arroja cero resultados.
>> No obstante, reitero que lo unico que quiero hacer es agregar documentos nuevos sin que me cree toda la base de datos de nuevo, ojalá con MGPP ya que así me funciona ok, sino ver como podría solucionar el tema de que no me arroje resultados con Lucene.
>>
>> Gracias por tu tiempo.
>>
>> Valentina.
>>
>>
>> El 3 de septiembre de 2010 09:37, <amoreno@xxxxxxxxxxxxxxxxxx> escribió:
>> VAMOS POR PARTE AL MENOS HASTA DONDE CONOZCO:
>> 1. Con MGPP nop tenes la posibildiad incremental esto es solamente para lucene.
>> 2. MGPP siempre procesa todo lo que encuentra en import. Es decir crea toda la colección y sus indices.
>> 3. No entiendo lo que decis que sucedio utilizando lucene, trabajaste con la GLi o por lineas de comando?
>>
>> Podes explicar con mas detalle el proceso con lucene que realizaste para crear la colección utilizando incremental.
>>
>> Slds.
>>
>>
>>
>


Other related posts: