[greenstone_es] Re: incremental

  • From: Valentina Soto <comounsiglo@xxxxxxxxx>
  • To: greenstone_es@xxxxxxxxxxxxx
  • Date: Fri, 3 Sep 2010 11:21:56 -0400

Diego:
Muchas gracias por la info, le voy a dar una vuelta

Saludos,
V.


El 3 de septiembre de 2010 11:02, Diego Spano <diegospano@xxxxxxxxx>escribió:

> Valentina,
>
> el proceso de agregar un documento a GS consta de 2 partes: la primera
> parte (es lo que se conoce como proceso "import") sirve para convertir los
> documentos a un formato XML. Esa conversion se guarda en la carpeta archives
> de la colección. SI te fijas, por cada objeto que vos agregues con el GLI,
> habrá una carpeta en archives. Este proceso puede hacerse incremental, sin
> importar que uses MGPP o Lucene, ya que lo único que hace es convertir de un
> formato de origen (por ejemplo PDF) a un formato XML. La parte incremental
> del proceso import es la que te permite ir convirtiendo solos los documentos
> nuevos que hayas agregado. Si la primera vez tenes 100 documentos, el import
> te va a hacer 100 conversiones. SI luego agregas 20 más, solo va a convertir
> esos 20 documentos y los va a agregar a los 100 ya existentes en la carpeta
> archives.
>
> La segunda parte es la generación del indice de búsqueda (lo que se conoce
> como proceso "build"). Este proceso, lee el contenido de la carpeta
> archives, es decir, lee los XML generados por el proceso de Import,  y
> genera el índice. MGPP no tiene manera de hacer este proceso incremental.
> Siempre te va a leer el contenido completo de la carpeta archives. Siguiendo
> con el ejemplo de antes, la primera vez agregaste 100 documentos, por lo
> tanto el proceso de import generará 100 xml en la carpeta archives y luego
> el MGPP los leera todos para generar el indice. Cuando agregues los 20
> documentos nuevos, el proceso de import te va a convertir solo esos 20 y la
> carpeta archives tendrá 120 XML. AHora bien, el MGPP leera los 120 XML para
> generar los indices, ya que no puede hacerlo incrementalmente.
>
> En cambio si usaras Lucene, la primera vez agregaste 100 documentos, por lo
> tanto el proceso de import generará 100 xml en la carpeta archives y luego
> Lucene los leera todos para generar el indice. Cuando agregues los 20
> documentos nuevos, el proceso de import te va a convertir solo esos 20 y la
> carpeta archives tendrá 120 XML y Lucene leerá solo los 20 XML nuevos y los
> agregará al índice que ya existe. Esto es lo incremental.
>
> Ambos procesos, el import y el build, los ejecuta el GLI en forma
> secuencial.
>
> Desde el GLI podes hacer lo que se llama "Reconstrucción Mínima". Y
> dependiendo de que hayas usado MGPP o Lucene, el GLI sabrá que cosas puede
> hacer incremental o no.
>
> Para que Lucene te funcione, tenes que acceder a la colección a través del
> APache. NO FUNCIONA CON LA BIBLIOTECA LOCAL O CON EL IIS de MICROSOFT!.
>
> También tenés que chequear que tengas JAVA instalada en tu PC.
>
>
> Saludos!.
>
> Diego
>
> Diego Spano
> Prodigio Consultores
> Bernardo de Irigoyen N° 1114 2°B
> Capital Federal - Argentina
> Tel: (54 11) 5093-5313
> www.prodigioconsultores.com
>
>
> 2010/9/3 <Pablo.MORETE@xxxxxxxxx>
>
>
>> Por lo que entiendo si uno usa la opción de construcción incremental con
>> mgpp sólo la fase de importación de los documentos se hace de manera
>> incremental, la fase de indización se hace sobre el total de la colección
>> cada vez.
>> En cambio si uno usa lucene ambas fases pueden realizarse de manera
>> incremental. El problema con lucene, por lo menos hasta donde yo seguí la
>> cuestión, es que no indiza bien los diacríticos. Por favor alguien corrígame
>> si estoy equivocado.
>> Saludos
>> Pablo
>>
>>
>>    *Valentina Soto <comounsiglo@xxxxxxxxx>*
>> Sent by: greenstone_es-bounce@xxxxxxxxxxxxx
>>
>> 09/03/2010 10:04 AM
>>   Please respond to
>> greenstone_es@xxxxxxxxxxxxx
>>
>>    To
>> greenstone_es@xxxxxxxxxxxxx
>> cc
>>   Subject
>> [greenstone_es] Re: incremental
>>
>>
>>
>>
>> Alfredo:
>> Buen día. Lo que yo quiero hacer es agregar documentos nuevos sin que me
>> cree toda la colección, sino solamente los que yo agrego. Me da lo mismo por
>> ahora si es con MGPP o con Lucene. Lo que yo tengo sabido es que este
>> proceso se llama "incremental" y que solo se puede hacer con Lucene. Yo
>> trabajo siempre con el GLI, como estoy empezando poco me meto con las líneas
>> de comando. Lo que hice, fue simplemente cambiar (dentro del GLI) en Indices
>> de búsqueda desde MGPP a Lucene y creé la colección. No le puse keepold
>> porque jamás encontré esa parte, solamente me limité a cambiar desde el GLI
>> de MGPP a Lucene. Y de esta forma, creo la colección y cuando me voy a
>> buscar los documentos me arroja cero resultados.
>> No obstante, reitero que lo unico que quiero hacer es agregar documentos
>> nuevos sin que me cree toda la base de datos de nuevo, ojalá con MGPP ya que
>> así me funciona ok, sino ver como podría solucionar el tema de que no me
>> arroje resultados con Lucene.
>>
>> Gracias por tu tiempo.
>>
>> Valentina.
>>
>>
>> El 3 de septiembre de 2010 09:37, 
>> <*amoreno@xxxxxxxxxxxxxxxxxx*<amoreno@xxxxxxxxxxxxxxxxxx>>
>> escribió:
>> VAMOS POR PARTE AL MENOS HASTA DONDE CONOZCO:
>> 1. Con MGPP nop tenes la posibildiad incremental esto es solamente para
>> lucene.
>> 2. MGPP siempre procesa todo lo que encuentra en import. Es decir crea
>> toda la colección y sus indices.
>> 3. No entiendo lo que decis que sucedio utilizando lucene, trabajaste con
>> la GLi o por lineas de comando?
>>
>> Podes explicar con mas detalle el proceso con lucene que realizaste para
>> crear la colección utilizando incremental.
>>
>> Slds.
>>
>>
>>
>>
>
>


-- 
Cariños
V.

Other related posts: