[greenstone_es] 2.82 provoca un error con algunos documentos Word y wvWare 0.7.1 provisto

  • From: "Mariana Pichinini" <mariana@xxxxxxxxxxxxxxxxx>
  • To: greenstone_es@xxxxxxxxxxxxx
  • Date: Tue, 30 Jun 2009 18:33:22 -0300 (ART)

Hola a todos

Queremos compartir un problema (ahora resuelto) que tuvimos migrando a
G.2.82, esperando que pueda ser útil.

Como comentara en mails anteriores, bajamos la version 2.82 para linux
(Debian server), y comenzamos a testearla algunos días atrás, para
reemplazar y descartar nuestra actual 2.74.
Hasta ahora no habíamos tenido problemas en documentos .doc, que conforman
la parte principal de nuestras colecciones. Pero ahora encontramos un
problema en la 2.82, al generar la colección (buildcol.pl):

**** Error is:
not well-formed (invalid token) at line 8293, column 33, byte 607053 at
/usr/lib/perl5/XML/Parser.pm line 187.

Este error se repite, estimativamente, para la mitad del total de
documentos Word procesados. Si vamos a la línea que reporta error en el
doc.xml , encontramos un caracter desconocido para la codificación en
utf-8 (por defecto en Greenstone), un signo de pregunta dentro de un rombo
oscuro)

<p><div name="Cuerpo de texto con sangr&#65533;a" align="left" style=" 
padding: 0.00mm 0.00mm 0.00mm 0.00mm; ">

Sabemos que el carácter inválido pertenece a la sección de estilo del
documento Word original (ya que "Cuerpo de texto con sangría" es el nombre
de un estilo en Openoffice-MsWord).

El problema se manifiesta en la generación, pero realmente se produce en
el proceso de importación del .doc a .xml., y no en la conversion del
texto del documento Word, sino en el atributo "name=" de las etiquetas
<div> del html. Al revisar el proceso de importación, comprobamos que si
reemplazamos el programa wvWare provisto por Greenstone con un enlace
simbólico a la versión del sistema en /usr/bin/ (que actualmente usa la
G.2.74), el problema se soluciona.
Podemos concluir que la versión provista por Greenstone para la G.2.82
(v.0.7.1) copia cada estilo del .doc como el atributo name de la
correspondiente etiqueta DIV en la versión HTML resultante, pero no
convierte su codificación, así que si hay en el "name" caracteres fuera de
los ASCII comunes.... chau!!! TE tira error, el documento no es indizado y
no se encuentra por ningún método concebible.
Al momento, estamos usando wvWare 1.2.4. que no incluye ningún atributo
"name" en HTML.
Esto podría ser un bug in wvWare, pero pararía la generación de las
colecciones.

Saludos

Lic. Mariana Pichinini
Enrique Merle
_______________________________________________
BIBHUMA - Biblioteca Profesor Guillermo Obiols
Facultad de Humanidades y Ciencias de la Educación
Universidad Nacional de La Plata
Calle 48 entre 6 y 7 - 1er subsuelo
B1900AMW LA PLATA, Argentina
Telefax: +54-221-4230125 interno 162 (líneas rotativas)
WEB: www.bibhuma.fahce.unlp.edu.ar


Lic. Mariana Pichinini
Area Operativa
_______________________________________________
BIBHUMA - Biblioteca Profesor Guillermo Obiols
Facultad de Humanidades y Ciencias de la Educación
Universidad Nacional de La Plata
Calle 48 entre 6 y 7 - 1er subsuelo
B1900AMW LA PLATA, Argentina
Telefax: +54-221-4230125 interno 162 (líneas rotativas)
WEB: www.bibhuma.fahce.unlp.edu.ar









Other related posts: