[greenstone_es] Re: 2.82 provoca un error con algunos documentos Word y wvWare 0.7.1 provisto
- From: Julian Moyano <julianmoyanoc@xxxxxxxxx>
- To: greenstone_es@xxxxxxxxxxxxx
- Date: Tue, 30 Jun 2009 23:41:45 +0200
muy interesante, gracias y esperemos que no de problemas
El 30 de junio de 2009 23:33, Mariana Pichinini
<mariana@xxxxxxxxxxxxxxxxx>escribió:
> Hola a todos
>
> Queremos compartir un problema (ahora resuelto) que tuvimos migrando a
> G.2.82, esperando que pueda ser útil.
>
> Como comentara en mails anteriores, bajamos la version 2.82 para linux
> (Debian server), y comenzamos a testearla algunos días atrás, para
> reemplazar y descartar nuestra actual 2.74.
> Hasta ahora no habíamos tenido problemas en documentos .doc, que conforman
> la parte principal de nuestras colecciones. Pero ahora encontramos un
> problema en la 2.82, al generar la colección (buildcol.pl):
>
> **** Error is:
> not well-formed (invalid token) at line 8293, column 33, byte 607053 at
> /usr/lib/perl5/XML/Parser.pm line 187.
>
> Este error se repite, estimativamente, para la mitad del total de
> documentos Word procesados. Si vamos a la línea que reporta error en el
> doc.xml , encontramos un caracter desconocido para la codificación en
> utf-8 (por defecto en Greenstone), un signo de pregunta dentro de un rombo
> oscuro)
>
> <p><div name="Cuerpo de texto con sangr�a" align="left" style="
> padding: 0.00mm 0.00mm 0.00mm 0.00mm; ">
>
> Sabemos que el carácter inválido pertenece a la sección de estilo del
> documento Word original (ya que "Cuerpo de texto con sangría" es el nombre
> de un estilo en Openoffice-MsWord).
>
> El problema se manifiesta en la generación, pero realmente se produce en
> el proceso de importación del .doc a .xml., y no en la conversion del
> texto del documento Word, sino en el atributo "name=" de las etiquetas
> <div> del html. Al revisar el proceso de importación, comprobamos que si
> reemplazamos el programa wvWare provisto por Greenstone con un enlace
> simbólico a la versión del sistema en /usr/bin/ (que actualmente usa la
> G.2.74), el problema se soluciona.
> Podemos concluir que la versión provista por Greenstone para la G.2.82
> (v.0.7.1) copia cada estilo del .doc como el atributo name de la
> correspondiente etiqueta DIV en la versión HTML resultante, pero no
> convierte su codificación, así que si hay en el "name" caracteres fuera de
> los ASCII comunes.... chau!!! TE tira error, el documento no es indizado y
> no se encuentra por ningún método concebible.
> Al momento, estamos usando wvWare 1.2.4. que no incluye ningún atributo
> "name" en HTML.
> Esto podría ser un bug in wvWare, pero pararía la generación de las
> colecciones.
>
> Saludos
>
> Lic. Mariana Pichinini
> Enrique Merle
> _______________________________________________
> BIBHUMA - Biblioteca Profesor Guillermo Obiols
> Facultad de Humanidades y Ciencias de la Educación
> Universidad Nacional de La Plata
> Calle 48 entre 6 y 7 - 1er subsuelo
> B1900AMW LA PLATA, Argentina
> Telefax: +54-221-4230125 interno 162 (líneas rotativas)
> WEB: www.bibhuma.fahce.unlp.edu.ar
>
>
> Lic. Mariana Pichinini
> Area Operativa
> _______________________________________________
> BIBHUMA - Biblioteca Profesor Guillermo Obiols
> Facultad de Humanidades y Ciencias de la Educación
> Universidad Nacional de La Plata
> Calle 48 entre 6 y 7 - 1er subsuelo
> B1900AMW LA PLATA, Argentina
> Telefax: +54-221-4230125 interno 162 (líneas rotativas)
> WEB: www.bibhuma.fahce.unlp.edu.ar
>
>
>
>
>
>
>
>
>
>
Other related posts: