Hola a todos Queremos compartir un problema (ahora resuelto) que tuvimos migrando a G.2.82, esperando que pueda ser útil. Como comentara en mails anteriores, bajamos la version 2.82 para linux (Debian server), y comenzamos a testearla algunos días atrás, para reemplazar y descartar nuestra actual 2.74. Hasta ahora no habíamos tenido problemas en documentos .doc, que conforman la parte principal de nuestras colecciones. Pero ahora encontramos un problema en la 2.82, al generar la colección (buildcol.pl): **** Error is: not well-formed (invalid token) at line 8293, column 33, byte 607053 at /usr/lib/perl5/XML/Parser.pm line 187. Este error se repite, estimativamente, para la mitad del total de documentos Word procesados. Si vamos a la línea que reporta error en el doc.xml , encontramos un caracter desconocido para la codificación en utf-8 (por defecto en Greenstone), un signo de pregunta dentro de un rombo oscuro) <p><div name="Cuerpo de texto con sangr�a" align="left" style=" padding: 0.00mm 0.00mm 0.00mm 0.00mm; "> Sabemos que el carácter inválido pertenece a la sección de estilo del documento Word original (ya que "Cuerpo de texto con sangría" es el nombre de un estilo en Openoffice-MsWord). El problema se manifiesta en la generación, pero realmente se produce en el proceso de importación del .doc a .xml., y no en la conversion del texto del documento Word, sino en el atributo "name=" de las etiquetas <div> del html. Al revisar el proceso de importación, comprobamos que si reemplazamos el programa wvWare provisto por Greenstone con un enlace simbólico a la versión del sistema en /usr/bin/ (que actualmente usa la G.2.74), el problema se soluciona. Podemos concluir que la versión provista por Greenstone para la G.2.82 (v.0.7.1) copia cada estilo del .doc como el atributo name de la correspondiente etiqueta DIV en la versión HTML resultante, pero no convierte su codificación, así que si hay en el "name" caracteres fuera de los ASCII comunes.... chau!!! TE tira error, el documento no es indizado y no se encuentra por ningún método concebible. Al momento, estamos usando wvWare 1.2.4. que no incluye ningún atributo "name" en HTML. Esto podría ser un bug in wvWare, pero pararía la generación de las colecciones. Saludos Lic. Mariana Pichinini Enrique Merle _______________________________________________ BIBHUMA - Biblioteca Profesor Guillermo Obiols Facultad de Humanidades y Ciencias de la Educación Universidad Nacional de La Plata Calle 48 entre 6 y 7 - 1er subsuelo B1900AMW LA PLATA, Argentina Telefax: +54-221-4230125 interno 162 (líneas rotativas) WEB: www.bibhuma.fahce.unlp.edu.ar Lic. Mariana Pichinini Area Operativa _______________________________________________ BIBHUMA - Biblioteca Profesor Guillermo Obiols Facultad de Humanidades y Ciencias de la Educación Universidad Nacional de La Plata Calle 48 entre 6 y 7 - 1er subsuelo B1900AMW LA PLATA, Argentina Telefax: +54-221-4230125 interno 162 (líneas rotativas) WEB: www.bibhuma.fahce.unlp.edu.ar