[greenstone_es] Re: .htm

  • From: Diego Spano <diegospano@xxxxxxxxx>
  • To: greenstone_es@xxxxxxxxxxxxx
  • Date: Fri, 11 May 2012 11:56:39 -0300

Yolanda,

los archivos parecen tener un formato distinto cada uno. El que exportaste
desde el portal directamente parece tener codificacion utf8, pero los otros
dos no, quizás porque los generaste con el MS Office y por eso tienen una
cantidad de código extra que hace al archivo muy poco legible.

Cuando GS importa el documento trata de "adivinar" la codificación que
tiene el documento. Los dos que son de Office lo marean bastante y asume
que están también en utf8 lo que hace que intente leer el documento de una
determinada manera, esperando encontrar los caracteres de una manera pero
que en realidad es distinta.
Por eso el error:

Malformed UTF-8 character (UTF-16 surrogate 0xda00) in pattern match (m//)
at C:\Greenstone/perllib/plugins/HTMLPlugin.pm....

Si hacés una colección solo con el archivo boletininform_desdeportal.html,
vas a hacerlo sin problemas y el documento lo vas a ver bien.

Si haces una colección que incluya solo a los otros dos archivos, Boletín
Inf_desdeoutlook.htm y Boletín Informativo 20-12-2011.htm, el error te va a
aparecer otra vez. Para que puedas procesarlo tenes que hacer lo
siguiente: en el Gli en la solapa Diseño --> Configuracion de plugins, dale
un doble click al HTMPlugin. Esto te va a desplegar las opciones de
configuración de ese plugin. En esas opciones activá la que se llama
input_encoding y seleccioná de la lista desplegable el valor Windows_1252 -
Windows codepage 1252.

Esto hace que GS lea los archivos asumiendo que están codificados en
Windows 1252, que es la codificación estándar de Windows para el idioma
español.

Luego reconstruí la colección. Ambos archivos estarán incorpados a la
colección.


Ahora bien, los 3 archivos juntos GS no los puede procesar si asume que los
3 están en UTF8. Pero por el contrario sí puede procesar los 3 si le decis
que use la codificación Windows 1252. Pero esto tiene como consecuencia que
cuando visualizás el archivo boletininform_desdeportal.html, en lugar de
acentos vas a ver cosas como estas:

La Nación Digital - Miércoles, 9 de Mayo de 2012


Mi recomendación: exportá todo desde el portal y quitá la opción
input_encoding para que procese como utf8. O bien, convertí los documentos
a PDF.

Espero haber sido claro!

Saludos!.

Diego


*Diego Spano* *Director de Proyectos, Prodigio Consultores*
Tel: (54 11) 5093-5313

Argentina
dspano@xxxxxxxxxxxxxxxxxxxxxxx | www.prodigioconsultores.com
Contact me: [image: Google Talk] diegospano [image: Skype] diegospano
  <http://www.linkedin.com/in/diegospano>
[image: My QR VCard]
  Want a signature like mine?
<http://r1.wisestamp.com/r/landing?promo=21&dest=http%3A%2F%2Fwww.wisestamp.com%2Femail-install%3Futm_source%3Dextension%26utm_medium%3Demail%26utm_campaign%3Dpromo_21>
CLICK
HERE.<http://r1.wisestamp.com/r/landing?promo=21&dest=http%3A%2F%2Fwww.wisestamp.com%2Femail-install%3Futm_source%3Dextension%26utm_medium%3Demail%26utm_campaign%3Dpromo_21>



2012/5/10 Yolanda Meza <ymeza@xxxxxxxxxxxxx>

> Hola Diego:****
>
> ** **
>
> Aquí envío el archivo que me pediste específicamente y otros para prueba.
> Muchas Gracias J****
>
> Atte,****
>
> ** **
>
> Yolanda Meza****
>
> ** **
>
> ** **
>
> ** **
>
> *De:* greenstone_es-bounce@xxxxxxxxxxxxx [mailto:
> greenstone_es-bounce@xxxxxxxxxxxxx] *En nombre de *Diego Spano
> *Enviado el:* miércoles, 09 de mayo de 2012 15:25
> *Para:* greenstone_es@xxxxxxxxxxxxx
> *Asunto:* [greenstone_es] Re: Hola a todos los miembros de la lista!!****
>
> ** **
>
> En cuanto a la coleccion con pdfs y docs, quizás el problema lo tenes en
> el formateo de las listas verticales o del documenttext. Pero tratemos
> primero de resolver el problema de los htm.  Pareciera que no puede
> convertir los archivos htm por un problema de codificación de los mismos.
> Podés enviarme el archivo  \Boletín Informativo 20-12-2011.htm ?****
>
>
> Saludos!.
>
> Diego
>
> ****
>
> *Diego Spano* *Director de Proyectos, Prodigio Consultores*
> Tel: (54 11) 5093-5313 ****
>
> Argentina
> *dspano@xxxxxxxxxxxxxxxxxxxxxxx* | *www.prodigioconsultores.com*****
>
> Contact me: [image: Google Talk]diegospano [image: Skype]diegospano****
>
> <http://www.linkedin.com/in/diegospano>****
>
> [image: My QR VCard]****
>
> Want a signature like mine?
> <http://r1.wisestamp.com/r/landing?promo=21&dest=http%3A%2F%2Fwww.wisestamp.com%2Femail-install%3Futm_source%3Dextension%26utm_medium%3Demail%26utm_campaign%3Dpromo_21>CLICK
> HERE.<http://r1.wisestamp.com/r/landing?promo=21&dest=http%3A%2F%2Fwww.wisestamp.com%2Femail-install%3Futm_source%3Dextension%26utm_medium%3Demail%26utm_campaign%3Dpromo_21>
> ****
>
> ****
>
> ** **
>
> 2012/5/9 Yolanda Meza <ymeza@xxxxxxxxxxxxx>****
>
>  ****
>
> *Buenas tardes Diego:*****
>
> * *****
>
> *En la máquina que estoy trabajando ahora mismo, tiene instalado Windows
> 7 y Greenstone 2.85, es esto lo que intento hacer :*****
>
> * *****
>
> ·         * Cargar documentos en formato ”.htm”.*****
>
> u****
>
> orden: C:\Greenstone\bin\windows\perl\bin\Perl.exe -S
> C:\Greenstone\bin\script\full-import.pl -gli -language es -collectdir
> C:\Greenstone\collect boletnin ****
>
> import.pl> ImageConverter: Conversión de imagen no disponible (Image
> Magick no está instalado.)****
>
> import.pl> Borrando el contenido actual del directorio archives...****
>
> import.pl> Global file scan checking directory:
> C:\Greenstone\collect\boletnin\import****
>
> import.pl> Global file scan checking directory:
> C:\Greenstone\collect\boletnin\import\Boletín Informativo****
>
> import.pl> Global file scan checking directory:
> C:\Greenstone\collect\boletnin\import\Boletín Informativo\Boletines 2011**
> **
>
> import.pl> Global file scan checking directory:
> C:\Greenstone\collect\boletnin\import\Boletín Informativo\Boletines
> 2011\Diciembre****
>
> import.pl> Global file scan checking directory:
> C:\Greenstone\collect\boletnin\import\Boletín Informativo\Boletines 2012**
> **
>
> import.pl> Global file scan checking directory:
> C:\Greenstone\collect\boletnin\import\Boletín Informativo\Boletines
> 2012\Enero****
>
> import.pl> Global file scan checking directory:
> C:\Greenstone\collect\boletnin\import\Boletín Informativo\Boletines
> 2012\Febrero****
>
> import.pl> EmbeddedMetadataPlugin: processing Boletín
> Informativo\metadata.xml****
>
> import.pl>  Extracted 7 pieces of metadata from
> C:\Greenstone\collect\boletnin\import\Boletín Informativo\metadata.xml EXIF
> block****
>
> import.pl> MetadataXMLPlugin: processing Boletín Informativo\metadata.xml*
> ***
>
> import.pl> EmbeddedMetadataPlugin: processing Boletín
> Informativo\Boletines 2011\metadata.xml****
>
> import.pl>  Extracted 7 pieces of metadata from
> C:\Greenstone\collect\boletnin\import\Boletín Informativo\Boletines
> 2011\metadata.xml EXIF block****
>
> import.pl> MetadataXMLPlugin: processing Boletín Informativo\Boletines
> 2011\metadata.xml****
>
> import.pl> EmbeddedMetadataPlugin: processing Boletín
> Informativo\Boletines 2011\Diciembre\Boletín Informativo 20-12-2011.htm***
> *
>
> import.pl>  Extracted 7 pieces of metadata from
> C:\Greenstone\collect\boletnin\import\Boletín Informativo\Boletines
> 2011\Diciembre\Boletín Informativo 20-12-2011.htm EXIF block****
>
> import.pl> EmbeddedMetadataPlugin: processing Boletín
> Informativo\Boletines 2011\Diciembre\Boletín Informativo 21-12-2011.htm***
> *
>
> import.pl>  Extracted 7 pieces of metadata from
> C:\Greenstone\collect\boletnin\import\Boletín Informativo\Boletines
> 2011\Diciembre\Boletín Informativo 21-12-2011.htm EXIF block****
>
> import.pl> EmbeddedMetadataPlugin: processing Boletín
> Informativo\Boletines 2011\Diciembre\Boletín Informativo 22-12-2011.htm***
> *
>
> import.pl>  Extracted 7 pieces of metadata from
> C:\Greenstone\collect\boletnin\import\Boletín Informativo\Boletines
> 2011\Diciembre\Boletín Informativo 22-12-2011.htm EXIF block****
>
> import.pl> EmbeddedMetadataPlugin: processing Boletín
> Informativo\Boletines 2011\Diciembre\Boletín Informativo 23-12-2011.htm***
> *
>
> import.pl>  Extracted 7 pieces of metadata from
> C:\Greenstone\collect\boletnin\import\Boletín Informativo\Boletines
> 2011\Diciembre\Boletín Informativo 23-12-2011.htm EXIF block****
>
> import.pl> EmbeddedMetadataPlugin: processing Boletín
> Informativo\Boletines 2011\Diciembre\Boletín Informativo 26-12-2011.htm***
> *
>
> import.pl>  Extracted 7 pieces of metadata from
> C:\Greenstone\collect\boletnin\import\Boletín Informativo\Boletines
> 2011\Diciembre\Boletín Informativo 26-12-2011.htm EXIF block****
>
> import.pl> EmbeddedMetadataPlugin: processing Boletín
> Informativo\Boletines 2011\Diciembre\Boletín Informativo 27-12-2011.htm***
> *
>
> import.pl>  Extracted 7 pieces of metadata from
> C:\Greenstone\collect\boletnin\import\Boletín Informativo\Boletines
> 2011\Diciembre\Boletín Informativo 27-12-2011.htm EXIF block****
>
> import.pl> EmbeddedMetadataPlugin: processing Boletín
> Informativo\Boletines 2011\Diciembre\Boletín Informativo 29-12-2011.htm***
> *
>
> import.pl>  Extracted 7 pieces of metadata from
> C:\Greenstone\collect\boletnin\import\Boletín Informativo\Boletines
> 2011\Diciembre\Boletín Informativo 29-12-2011.htm EXIF block****
>
> import.pl> EmbeddedMetadataPlugin: processing Boletín
> Informativo\Boletines 2011\Diciembre\Boletín Informativo 30-12-2011.htm***
> *
>
> import.pl>  Extracted 7 pieces of metadata from
> C:\Greenstone\collect\boletnin\import\Boletín Informativo\Boletines
> 2011\Diciembre\Boletín Informativo 30-12-2011.htm EXIF block****
>
> import.pl> EmbeddedMetadataPlugin: processing Boletín
> Informativo\Boletines 2011\Diciembre\metadata.xml****
>
> import.pl>  Extracted 7 pieces of metadata from
> C:\Greenstone\collect\boletnin\import\Boletín Informativo\Boletines
> 2011\Diciembre\metadata.xml EXIF block****
>
> import.pl> MetadataXMLPlugin: processing Boletín Informativo\Boletines
> 2011\Diciembre\metadata.xml****
>
> import.pl> HTMLPlugin processing Boletín Informativo\Boletines
> 2011\Diciembre\Boletín Informativo 20-12-2011.htm****
>
> import.pl> Malformed UTF-8 character (UTF-16 surrogate 0xda00) in pattern
> match (m//) at C:\Greenstone/perllib/plugins/HTMLPlugin.pm line 1220.****
>
> import.pl> Use of uninitialized value in pattern match (m//) at
> C:\Greenstone/perllib/plugins/HTMLPlugin.pm line 1230.****
>
> import.pl> Use of uninitialized value in pattern match (m//) at
> C:\Greenstone/perllib/plugins/HTMLPlugin.pm line 1232.****
>
> import.pl> Use of uninitialized value in pattern match (m//) at
> C:\Greenstone/perllib/plugins/HTMLPlugin.pm line 1310.****
>
> import.pl> Malformed UTF-8 character (UTF-16 surrogate 0xda00) in
> substitution (s///) at C:\Greenstone/perllib/plugins/HTMLPlugin.pm line
> 1320.****
>
> import.pl> Malformed UTF-8 character (UTF-16 surrogate 0xda00) in
> substitution (s///) at C:\Greenstone/perllib/plugins/HTMLPlugin.pm line
> 1322.****
>
> import.pl> Malformed UTF-8 character (UTF-16 surrogate 0xda00) in
> substitution (s///) at C:\Greenstone/perllib/plugins/HTMLPlugin.pm line 626.
> ****
>
> import.pl> Malformed UTF-8 character (UTF-16 surrogate 0xda00) in
> substitution (s///) at C:\Greenstone/perllib/plugins/HTMLPlugin.pm line 627.
> ****
>
> import.pl> Malformed UTF-8 character (UTF-16 surrogate 0xda00) in
> substitution (s///) at C:\Greenstone/perllib/plugins/HTMLPlugin.pm line 627.
> ****
>
> import.pl> Malformed UTF-8 character (UTF-16 surrogate 0xda00) in
> substitution (s///) at C:\Greenstone/perllib/plugins/HTMLPlugin.pm line 708.
> ****
>
> import.pl> Malformed UTF-8 character (UTF-16 surrogate 0xda00) in
> substitution (s///) at C:\Greenstone/perllib/plugins/HTMLPlugin.pm line 711.
> ****
>
> import.pl> Malformed UTF-8 character (UTF-16 surrogate 0xda00) in
> substitution (s///) at C:\Greenstone/perllib/plugins/HTMLPlugin.pm line 740.
> ****
>
> import.pl> Malformed UTF-8 character (fatal) at C:\Greenstone/perllib/
> docprint.pm line 67.****
>
> import.pl> Can't spawn ""C:\Greenstone\bin\windows\perl\bin\Perl.exe" -S
> import.pl -removeold "-gli" "-language" "es" "-collectdir"
> "C:\Greenstone\collect" "boletnin"": No error at C:\Greenstone\bin\script\
> full-import.pl line 46.****
>
> import.pl> Error: Failed to run:
> "C:\Greenstone\bin\windows\perl\bin\Perl.exe" -S import.pl -removeold
> "-gli" "-language" "es" "-collectdir" "C:\Greenstone\collect" "boletnin"**
> **
>
> import.pl> La orden no se pudo ejecutar.****
>
>  ****
>
>  ****
>
> *Luego aparece un error: “Ha ocurrido un error que evitará que la
> colección se pueda ver de forma preliminar.”*****
>
> * *****
>
> * *****
>
> *Intentando solucionar:*****
>
> * *****
>
> ·         *Primero baje Image Magick aparte, por el mensaje que aparece
> pero… nada.*****
>
> import.pl> ImageConverter: Conversión de imagen no disponible (Image
> Magick no está instalado.)****
>
>  ****
>
>  ****
>
> ·         *Luego intente cambiando la configuración de diseño y formato.
> Cargue información en enriquecer. Cambie de “.htm” a “.doc”. Pero siempre
> da error.*****
>
> * *****
>
> * *****
>
> * *****
>
> * *****
>
> *En otra máquina con Windows 7 y Greenstone 2.85 creó la colección con la
> extensión “.doc”, pero no se puede ver desde la interfaz web directamente,
> solo abriendo en Word desde la interfaz web.*****
>
> * *****
>
> *En ésta otra máquina también intenté crear una colección “.pdf” y la
> crea, pero no aparece con el nombre original, no graba nada en ‘dc.titulo’
> ni ‘ex.surcefile’. Aparece como nombre una parte del texto que está en el
> documento, y se puede realizar búsqueda perfectamente por nombre, numero, o
> lo que sea, pero el nombre real del documento no aparece (el nombre real
> consta de números: ‘números’.pdf).*****
>
>  ****
>
>  ****
>
>  ****
>
> *Muchas gracias por tu ayuda!!*****
>
> * *****
>
> *Atte,*****
>
> * *****
>
> *Yolanda Meza*****
>
>  ****
>
>  ****
>
>  ****
>
>  ****
>
>  ****
>
> *De:* greenstone_es-bounce@xxxxxxxxxxxxx [mailto:
> greenstone_es-bounce@xxxxxxxxxxxxx] *En nombre de *Diego Spano
> *Enviado el:* miércoles, 09 de mayo de 2012 12:38
> *Para:* greenstone_es@xxxxxxxxxxxxx
> *Asunto:* [greenstone_es] Re: Hola a todos los miembros de la lista!!****
>
>  ****
>
> Hola Yolanda.****
>
>  ****
>
> Sería recomendable que puedas listar los problemas que te
> van surgiendo para poder ir resolviendo de a uno por vez.****
>
> No te olvides de indicar lo siguiente:****
>
>  ****
>
> - Sistema operativo****
>
> - Versión de GS instalada****
>
> - Descripción de lo que estás haciendo, por ejemplo: crear una colección
> con archivos pdf****
>
> - Error que se produce****
>
> - Mensajes que te aparezcan en pantalla****
>
> - y todo lo que creas conveniente para que se entienda lo que estás
> tratando de hacer.****
>
>  ****
>
>
> Saludos cordiales!.
>
> Diego****
>
> *Diego Spano* *Director de Proyectos, Prodigio Consultores*
> Tel: (54 11) 5093-5313 ****
>
> Argentina
> *dspano@xxxxxxxxxxxxxxxxxxxxxxx* | *www.prodigioconsultores.com*****
>
> Contact me: diegospano diegospano****
>
> **** <http://www.linkedin.com/in/diegospano>
>
> **** <http://www.linkedin.com/in/diegospano>
>
> Want a signature like mine? *CLICK HERE.*   
> ****<http://www.linkedin.com/in/diegospano>
>
> **** <http://www.linkedin.com/in/diegospano>
>
>  **** <http://www.linkedin.com/in/diegospano>
>
> 2012/5/9 Yolanda Meza 
> <*ymeza@xxxxxxxxxxxxx*>****<http://www.linkedin.com/in/diegospano>
>
> Hola a todos los miembros de la 
> lisa:****<http://www.linkedin.com/in/diegospano>
>
>  **** <http://www.linkedin.com/in/diegospano>
>
> Es la primera vez que escribo, mi nombre es Yolanda Meza, soy de Paraguay
> y trabajo  en la División Nuevas Tecnologías de la COPACO SA (Compañía
> Paraguaya de Telecomunicaciones).****<http://www.linkedin.com/in/diegospano>
>
>  **** <http://www.linkedin.com/in/diegospano>
>
> Actualmente estoy investigando el software Greenstone, lo he instalado
> varias veces, en diferentes PC’s y en dos servidores (Windows y Linux). En
> cada instalación tengo algún inconveniente nuevo, no sé si tiene algo que
> ver que todas las pruebas se realicen en Windows 7. He creado colecciones
> de prueba y, aunque todavía no manejo bien los plugins y metadatos, en una
> PC crea la colección y en otra no, realizando los mismos pasos en cada una.
> **** <http://www.linkedin.com/in/diegospano>
>
>  **** <http://www.linkedin.com/in/diegospano>
>
> Mientras espero una respuesta favorable continuaré investigando por cuenta
> propia, pero realmente sería de gran ayuda para mí y estaría muy agradecida
> si alguien pudiese ayudarme.**** <http://www.linkedin.com/in/diegospano>
>
>  **** <http://www.linkedin.com/in/diegospano>
>
> Atentamente,**** <http://www.linkedin.com/in/diegospano>
>
>  **** <http://www.linkedin.com/in/diegospano>
>
> Yolanda Meza**** <http://www.linkedin.com/in/diegospano>
>
>  **** <http://www.linkedin.com/in/diegospano>
>
> Se certificó que el correo no contiene virus.
> Comprobada por AVG - *www.avg.es*
> Versión: 2012.0.2127 / Base de datos de virus: 2411/1 - Fecha de la
> versión: 06/04/2012
> Las Definiciones de virus internas están 
> desactualizadas.****<http://www.linkedin.com/in/diegospano>
>
> ** ** <http://www.linkedin.com/in/diegospano>
>
> Se certificó que el correo no contiene virus.
> Comprobada por AVG - *www.avg.es*
> Versión: 2012.0.2127 / Base de datos de virus: 2411/1 - Fecha de la
> versión: 06/04/2012
> Las Definiciones de virus internas están 
> desactualizadas.****<http://www.linkedin.com/in/diegospano>
>

Other related posts: