[greenstone_es] Re: problemas con carpetas comprimidas

  • From: Alfredo Díaz Calzada <adiaz@xxxxxxxxxxxxx>
  • To: greenstone_es@xxxxxxxxxxxxx
  • Date: Fri, 13 Mar 2015 11:32:23 +0100

Hola Diego gracias, pero estuve buscando y encontre que si se utiliza lucene no se pode exportar colecciones a un CD-ROM y es algo importante que me piden que haga el repositorio. Entonces se puede procesar mediante linea de comandos y utilizar MGPP o tambien tiene que ser con Lucene.


Saludos.


El 12/03/2015 19:03, Diego Spano escribió:
Alfredo

el proceso de agregar un documento a GS consta de 2 partes: la primera parte (es lo que se conoce como proceso "import") sirve para convertir los documentos a un formato XML. Esa conversion se guarda en la carpeta archives de la colección. SI te fijas, por cada objeto que vos agregues con el GLI, habrá una carpeta en archives. Este proceso puede hacerse incremental, sin importar que uses MGPP o Lucene, ya que lo único que hace es convertir de un formato de origen (por ejemplo PDF) a un formato XML. La parte incremental del proceso import es la que te permite ir convirtiendo solos los documentos nuevos que hayas agregado. Si la primera vez tenes 100 documentos, el import te va a hacer 100 conversiones. Si luego agregas 20 más, solo va a convertir esos 20 documentos y los va a agregar a los 100 ya existentes en la carpeta archives.

La segunda parte es la generación del indice de búsqueda (lo que se conoce como proceso "build"). Este proceso, lee el contenido de la carpeta archives, es decir, lee los XML generados por el proceso de Import, y genera el índice. El indexador MGPP no tiene manera de hacer este proceso incremental. Siempre te va a leer el contenido completo de la carpeta archives. Siguiendo con el ejemplo de antes, la primera vez agregaste 100 documentos, por lo tanto el proceso de import generará 100 xml en la carpeta archives y luego el MGPP los leerá todos para generar el indice. Cuando agregues los 20 documentos nuevos, el proceso de import te va a convertir solo esos 20 y la carpeta archives tendrá 120 XML. AHora bien, el MGPP leera los 120 XML para generar los indices, ya que no puede hacerlo incrementalmente.

En cambio si usas Lucene, la primera vez agregaste 100 documentos, por lo tanto el proceso de import generará 100 xml en la carpeta archives y luego Lucene los leerá todos para generar el indice. Cuando agregues los 20 documentos nuevos, el proceso de import te va a convertir solo esos 20 y la carpeta archives tendrá 120 XML y Lucene leerá solo los 20 XML nuevos y los agregará al índice que ya existe. Esto es lo incremental.

Ambos procesos, el import y el build, los ejecuta el GLI en forma secuencial.

Desde el GLI podes hacer lo que se llama "Reconstrucción Mínima". Y dependiendo de que hayas usado MGPP o Lucene, el GLI sabrá que cosas puede hacer incremental o no.


Otra opción a lo anterior es procesar mediante linea de comandos:

1- Abrí una ventana de Simbolo de sistema.
2- cd c:\greenstone <enter> (escribí la ruta que sea la que corresponda a tu instalación)
3- setup.bat <enter>
4- perl -S incremental-rebuild.pl <http://incremental-rebuild.pl> nombre-de-la-coleccion <enter>

El paso 4 directamente intenta hacer una construcción mínima (es decir solo los agregados) y publica el indice.



Saludos!.

Diego


*Diego Spano* /Director de Proyectos, Prodigio Consultores/
Tel: (54 11) 5093-5313

Argentina
dspano@xxxxxxxxxxxxxxxxxxxxxxx <mailto:dspano@xxxxxxxxxxxxxxxxxxxxxxx> | *MailScanner ha detectado un posible intento de fraude desde "s.wisestamp.com" * www.prodigioconsultores.com <http://s.wisestamp.com/links?url=http%3A%2F%2Fwww.prodigioconsultores.com%2F&sn=ZGllZ29zcGFub0BnbWFpbC5jb20%3D>

Contact me: Skype diegospano
<http://s.wisestamp.com/links?url=http%3A%2F%2Fwww.linkedin.com%2Fin%2Fdiegospano&sn=ZGllZ29zcGFub0BnbWFpbC5jb20%3D>
Follow teststamp on Twitter <http://s.wisestamp.com/links?url=http%3A%2F%2Fwww.twitter.com%2Fdiegospano&sn=ZGllZ29zcGFub0BnbWFpbC5jb20%3D>


2015-03-12 8:14 GMT-03:00 Alfredo Díaz Calzada <adiaz@xxxxxxxxxxxxx <mailto:adiaz@xxxxxxxxxxxxx>>:

    Hola Diego gracias ya me funciono, por otra parte quisiera saber
    como actualizar una coleccion existente para cuando se le agregue
    un nuevo archivo no tener que crearla desde el principio, ademas
    de si se pueden pasar las colecciones creadas en windows a linux.

    Saludos

    El 12/03/2015 16:43, Diego Spano escribió:
    Alfredo, GS tiene un plugin llamado ZIPPlugin que precisamente se
    encarga de eso: cuando en la carpeta import de la coleccion hay
    un archivo .zip, lo descomprime e importa cada archivo que este
    contenido. Si vos queres importar el zip sin descomprimir,
    entonces tendrias que usar el UnknownPlugin configurado asi:

    UnknownPlugin -process_exp (?i)\.zip$


    Saludos!.

    Diego


    *Diego Spano* /Director de Proyectos, Prodigio Consultores/
    Tel: (54 11) 5093-5313

    Argentina
    dspano@xxxxxxxxxxxxxxxxxxxxxxx
    <mailto:dspano@xxxxxxxxxxxxxxxxxxxxxxx> | *MailScanner ha
    detectado un posible intento de fraude desde "s.wisestamp.com" *
    www.prodigioconsultores.com
    
<http://s.wisestamp.com/links?url=http%3A%2F%2Fwww.prodigioconsultores.com%2F&sn=ZGllZ29zcGFub0BnbWFpbC5jb20%3D>

    Contact me: Skype diegospano
    
<http://s.wisestamp.com/links?url=http%3A%2F%2Fwww.linkedin.com%2Fin%2Fdiegospano&sn=ZGllZ29zcGFub0BnbWFpbC5jb20%3D>
    Follow teststamp on Twitter
    
<http://s.wisestamp.com/links?url=http%3A%2F%2Fwww.twitter.com%2Fdiegospano&sn=ZGllZ29zcGFub0BnbWFpbC5jb20%3D>


    2015-03-12 7:37 GMT-03:00 Alfredo Díaz Calzada
    <adiaz@xxxxxxxxxxxxx <mailto:adiaz@xxxxxxxxxxxxx>>:

        Hola, estoy agregando algunas carpetas comprimidas en .zip,
        pero a la hora de visualizarseme aparece los documentos que
        estan adentro de la carpeta y no la carpeta comprimida. Como
        puedo solucionar esto.
        Saludos

        *--*
        *Primera Convención Internacional de Ciencias Sociales y
        Ambientales*
        /18 al 23 de mayo del 2015/

        **MailScanner ha detectado un posible intento de fraude desde
        "www.facebook.com" * http://csa.eventos.uo.edu.cu/
        <http://www.facebook.com/UOCuba>*


    *--*
    *Primera Convención Internacional de Ciencias Sociales y
    Ambientales*
    /18 al 23 de mayo del 2015/

    **MailScanner ha detectado un posible intento de fraude desde
    "www.facebook.com" * http://csa.eventos.uo.edu.cu/
    <http://www.facebook.com/UOCuba>*


    *--*
    *Primera Convención Internacional de Ciencias Sociales y Ambientales*
    /18 al 23 de mayo del 2015/

    **MailScanner ha detectado un posible intento de fraude desde
    "www.facebook.com" * http://csa.eventos.uo.edu.cu/
    <http://www.facebook.com/UOCuba>*


*--*
*Primera Convención Internacional de Ciencias Sociales y Ambientales*
/18 al 23 de mayo del 2015/

*http://csa.eventos.uo.edu.cu/
<www.facebook.com/UOCuba>*




--
Primera Convenci�n Internacional de Ciencias Sociales y Ambientales
18 al 23 de mayo del 2015 http://csa.eventos.uo.edu.cu/
--



Other related posts: