[greenstone_es] Re: problemas con carpetas comprimidas

  • From: Diego Spano <diegospano@xxxxxxxxx>
  • To: Lista (en español) Greenstone <greenstone_es@xxxxxxxxxxxxx>
  • Date: Thu, 12 Mar 2015 15:03:42 -0300

Alfredo

el proceso de agregar un documento a GS consta de 2 partes: la primera
parte (es lo que se conoce como proceso "import") sirve para convertir los
documentos a un formato XML. Esa conversion se guarda en la carpeta
archives de la colección. SI te fijas, por cada objeto que vos agregues con
el GLI, habrá una carpeta en archives. Este proceso puede hacerse
incremental, sin importar que uses MGPP o Lucene, ya que lo único que hace
es convertir de un formato de origen (por ejemplo PDF) a un formato XML. La
parte incremental del proceso import es la que te permite ir convirtiendo
solos los documentos nuevos que hayas agregado. Si la primera vez tenes 100
documentos, el import te va a hacer 100 conversiones. Si luego agregas 20
más, solo va a convertir esos 20 documentos y los va a agregar a los 100 ya
existentes en la carpeta archives.

La segunda parte es la generación del indice de búsqueda (lo que se conoce
como proceso "build"). Este proceso, lee el contenido de la carpeta
archives, es decir, lee los XML generados por el proceso de Import,  y
genera el índice. El indexador MGPP no tiene manera de hacer este proceso
incremental. Siempre te va a leer el contenido completo de la carpeta
archives. Siguiendo con el ejemplo de antes, la primera vez agregaste 100
documentos, por lo tanto el proceso de import generará 100 xml en la
carpeta archives y luego el MGPP los leerá todos para generar el indice.
Cuando agregues los 20 documentos nuevos, el proceso de import te va a
convertir solo esos 20 y la carpeta archives tendrá 120 XML. AHora bien, el
MGPP leera los 120 XML para generar los indices, ya que no puede hacerlo
incrementalmente.

En cambio si usas Lucene, la primera vez agregaste 100 documentos, por lo
tanto el proceso de import generará 100 xml en la carpeta archives y luego
Lucene los leerá todos para generar el indice. Cuando agregues los 20
documentos nuevos, el proceso de import te va a convertir solo esos 20 y la
carpeta archives tendrá 120 XML y Lucene leerá solo los 20 XML nuevos y los
agregará al índice que ya existe. Esto es lo incremental.

Ambos procesos, el import y el build, los ejecuta el GLI en forma
secuencial.

Desde el GLI podes hacer lo que se llama "Reconstrucción Mínima". Y
dependiendo de que hayas usado MGPP o Lucene, el GLI sabrá que cosas puede
hacer incremental o no.


Otra opción a lo anterior es procesar mediante linea de comandos:

1- Abrí una ventana de Simbolo de sistema.
2- cd c:\greenstone <enter> (escribí la ruta que sea la que corresponda a
tu instalación)
3- setup.bat <enter>
4- perl -S incremental-rebuild.pl nombre-de-la-coleccion <enter>

El paso 4 directamente intenta hacer una construcción mínima (es decir solo
 los agregados) y publica el indice.



Saludos!.

Diego


*Diego Spano* *Director de Proyectos, Prodigio Consultores*
Tel: (54 11) 5093-5313

Argentina
dspano@xxxxxxxxxxxxxxxxxxxxxxx | www.prodigioconsultores.com
<http://s.wisestamp.com/links?url=http%3A%2F%2Fwww.prodigioconsultores.com%2F&sn=ZGllZ29zcGFub0BnbWFpbC5jb20%3D>
Contact me: [image: Skype] diegospano
<http://s.wisestamp.com/links?url=http%3A%2F%2Fwww.linkedin.com%2Fin%2Fdiegospano&sn=ZGllZ29zcGFub0BnbWFpbC5jb20%3D>
[image: Follow teststamp on Twitter]
<http://s.wisestamp.com/links?url=http%3A%2F%2Fwww.twitter.com%2Fdiegospano&sn=ZGllZ29zcGFub0BnbWFpbC5jb20%3D>


2015-03-12 8:14 GMT-03:00 Alfredo Díaz Calzada <adiaz@xxxxxxxxxxxxx>:

>  Hola Diego gracias  ya me funciono, por otra parte quisiera saber como
> actualizar una coleccion existente para cuando se le agregue un nuevo
> archivo no tener que crearla desde el principio, ademas de si se pueden
> pasar las colecciones creadas en windows a linux.
>
> Saludos
>
> El 12/03/2015 16:43, Diego Spano escribió:
>
>  Alfredo, GS tiene un plugin llamado ZIPPlugin que precisamente se
> encarga de eso: cuando en la carpeta import de la coleccion hay un archivo
> .zip, lo descomprime e importa cada archivo que este contenido. Si vos
> queres importar el zip sin descomprimir, entonces tendrias que usar el
> UnknownPlugin configurado asi:
>
>  UnknownPlugin -process_exp (?i)\.zip$
>
>
>   Saludos!.
>
> Diego
>
>
>     *Diego Spano* *Director de Proyectos, Prodigio Consultores*
> Tel: (54 11) 5093-5313
>
> Argentina
> dspano@xxxxxxxxxxxxxxxxxxxxxxx | *MailScanner ha detectado un posible
> intento de fraude desde "s.wisestamp.com" * www.prodigioconsultores.com
> <http://s.wisestamp.com/links?url=http%3A%2F%2Fwww.prodigioconsultores.com%2F&sn=ZGllZ29zcGFub0BnbWFpbC5jb20%3D>
>  Contact me: [image: Skype] diegospano
>
> <http://s.wisestamp.com/links?url=http%3A%2F%2Fwww.linkedin.com%2Fin%2Fdiegospano&sn=ZGllZ29zcGFub0BnbWFpbC5jb20%3D>
> [image: Follow teststamp on Twitter]
> <http://s.wisestamp.com/links?url=http%3A%2F%2Fwww.twitter.com%2Fdiegospano&sn=ZGllZ29zcGFub0BnbWFpbC5jb20%3D>
>
>
> 2015-03-12 7:37 GMT-03:00 Alfredo Díaz Calzada <adiaz@xxxxxxxxxxxxx>:
>
>>  Hola, estoy agregando algunas carpetas comprimidas en .zip, pero a la
>> hora de visualizarse me aparece los documentos que estan adentro de la
>> carpeta y no la carpeta comprimida. Como puedo solucionar esto.
>> Saludos
>>
>>
>>   *--*  *Primera Convención Internacional de Ciencias Sociales y
>> Ambientales*  *18 al 23 de mayo del 2015*
>>
>>
>> *MailScanner ha detectado un posible intento de fraude desde
>> "www.facebook.com" http://csa.eventos.uo.edu.cu/
>> <http://www.facebook.com/UOCuba>*
>>
>>
>>
>
>
>   *--*  *Primera Convención Internacional de Ciencias Sociales y
> Ambientales*  *18 al 23 de mayo del 2015*
>
>
> *MailScanner ha detectado un posible intento de fraude desde
> "www.facebook.com" http://csa.eventos.uo.edu.cu/
> <http://www.facebook.com/UOCuba>*
>
>
>
>
>
>  *--*  *Primera Convención Internacional de Ciencias Sociales y
> Ambientales*  *18 al 23 de mayo del 2015*
>
>
> *http://csa.eventos.uo.edu.cu/ <http://www.facebook.com/UOCuba>*
>
>
>

Other related posts: