[greenstone_es] Algunas cosas de interes traidas desde Waikato

  • From: Diego Spano <diegospano@xxxxxxxxx>
  • To: greenstone_es@xxxxxxxxxxxxx
  • Date: Wed, 28 Oct 2009 10:43:19 -0300

Hola a todos, simplemente quería enviarles un resumen de los temas tratados
con el equipo de desarrollo de Greenstone en Waikato. Con las inquietudes
que muchos de ustedes fueron planteando, traté de ir viendo una por una con
ellos. Algunos bugs fueron corregidos en el momento, otros están
planificados para futuras versiones.



Los temas fueron:

-    Indexación incremental en grandes colecciones

Se trató un caso real de una colección de 630.000 imágenes que no podía ser
actualizada en forma incremental usando Lucene. El problema fue resuelto
directamente en el servidor en cuestión, aplicando los cambios a través de
una VPN. Las modificaciones hechas estarán disponibles en la versión 2.83.



-   Relacionar a un usuario con una colección específica a través del
Depositor. De esta manera, el usuario podrá hacer autoarchivo solo en la
colección que tiene asignada.

Estará disponible en GS 2.83


- Berry basket

Esta función permite seleccionar documentos y agregarlos a una canasta, para
luego poder enviar los links por mail o ejecutar algún otro tipo de función
sobre ellos. Actualmente está en modo de prueba en GS3 y por ahora no hay
planes concretos de agregarlo a la versión GS2.


- Nuevo plugin para video

Este nuevo plugin indexa los metadatos que están incluidos en el video al
igual que los capítulos de un libro, pudiendo accederse a secciones
particulares de un video.  Está basado en la herramienta open source
"ffmpeg" y será liberado como una extensión de Greenstone 2.


- Migrar desde v2.x a v2.82: es necesario reimportar todo?.

Es lo más recomendable, ya que se han hecho cambios significativos en lo que
antes era el archivo archives.inf. Este archivo fue convertido a un formato
base de datos para que soporte la "importación incremental".


- Análisis de seguridad:

se hizo una auditoría de seguridad en 2005, la cual conllevó algunos ajustes
menores. Desde entonces no se ha realizado ningún estudio formal, pero de
todas maneras, el grupo de desarrollo está atento a requerimientos que
pudiera haber al respecto. Por ejemplo, la biblioteca local actualmente está
restringida por defecto, a servir solamente contenidos en la máquina en la
cual está instalada. Hay una opción en File->Setting que permite aceptar
conexiones desde otras computadoras.


- Integrar Greenstone 2 con Moodle u otros CMS:

Moodle y la mayoría de los sistemas CMS están basados en PHP. Si bien no hay
ningún desarrollo desde Waikato, sí existen casos de desarrollos externos
que pueden servir como base. El proyecto EmeraldView (
http://emeraldview.tourolib.org/) integra PHP con Greenstone y puede servir
como caso de estudio.



- Estadísticas de uso a través del archivo Usage.txt?.

El equipo tiene algunos scripts que permiten analizar el log de Greenstone,
pero estos scripts hay que reorganizarlos, emprolijarlosy reformatearlos.
Está planificada la modificación de estos códigos para ser agregado en las
próximas versiones, pero no antes de 6 meses. Serán liberados también como
una extensión de Greenstone 2.


- URLs "amigables"

Es muy complejo el poder modificar el diseño actual de las urls de GS, dado
que se necesita mantener el argumento cgi "e" (el más largo del string de la
url) para poder saber desde donde se ha accedido a la pagina, con qué
preferencias, con qué parámetros de búsqueda, etc..

Durante mi visita han estado haciendo pruebas almacenando el argumento “e”
en una coookie, lo cual requeriría algunos cambios menores al código C++.
Las pruebas fueron satisfactorias, y se ha planificado su puesta en
producción a partir de la versión 2.84.


- Extracción de metadatos XMP

Desde la versión v2.82 existe un plugin llamado MetadataEXIFPlugin que puede
extraer metadatos de muchos formatos de archivo distintos, no solo EXIF sino
XMP, ID3 tags de archivos MP3, etc. Se construyó una pequeña colección de
demo con un archivo PDF/A generado a través Microsoft Word obteniéndose los
resultados esperados.

El plugin está basado en la herramienta open source ExifTool, lo que le da
el nombre al plugin.  De todas maneras, dado que este plugin puede extraer
la mayoría de los formatos de metadatos (no solo los EXIF), el nombre del
plugin es un poco confuso. Les propuse cambiarlo por un nombre más
demostrativo, asi que el plugin va a ser renombrado como
EmbeddedMetadataPlugin.pm, en la versión 2.83.

Los formatos soportados pueden verse en:

http://www.sno.phy.queensu.ca/~phil/exiftool/exiftool_pod.html#description<http://www.sno.phy.queensu.ca/%7Ephil/exiftool/exiftool_pod.html#description>

y más específicamente en:

http://www.sno.phy.queensu.ca/~phil/exiftool/TagNames/XMP.html<http://www.sno.phy.queensu.ca/%7Ephil/exiftool/TagNames/XMP.html>



- Administración de usuarios mejorada: open LDAP, Active Directory?

La integración de usuarios con algún sistema de LDAP para asignar permisos
de acceso sobre las colecciones puede hacerse a través de Apache e IIS. No
se hará ningún tipo de mejora o desarrollo desde el lado de GS.


- Creación de usuarios en modo "batch" o por "lotes"

Actualmente, el alta de usuarios en Greenstone es solo posible hacerlo a
través de la página de administración. Esto no es muy práctico cuando se
quiere agregar una gran cantidad de usuarios. Se convino en que un script
que permitiera el ingreso de usuarios en modo batch sería por demás util y
no tomaría mucho esfuerzo de programación.

Durante la visita se desarrolló una versión inicial del script, el cual lee
información de la cuenta de usuario desde un archivo CSV. El script se ha
agregado a la versión svn Greenstone y estará disponible también con la
nueva versión 2.83.


- Modificación de metadatos de los documentos ya importados.

Existe una API en fase de desarrollo que permitirá cambiar los metadatos de
los documentos, ya sea que se encuentren en la carpeta import, o que ya han
sido importados (carpeta archives) o bien, ya están indexados (index).


 - Opciones mejor documentadas para los plugins y los comandos

Se va a chequear que todos los programas (pluginfo, classinfo, import, etc)
tengan la opción “less” (Linux) o “more” (Windows) para que la salida sea
paginada.

Toda la documentación de GS está actualmente en proceso de reestructuración
y reformateo (con la ayuda de John Rose).  La Wiki se convertirá en la
principal fuente de información a la cual se le agregarán también nuevas y
mejores formas de búsqueda.


- Agrupar los resultados de búsquedas.

Esta nueva característica aún en definición se llama “agrupamiento
facetado". Esto es, teniendo una lista de resultados de una búsqueda, tener
la opción de presentar dicha lista organizada (facetada) por diferentes
criterios, por ejemplo, autor, título, etc.


Espero no haberme olvidado de nada!.

Saludos

Diego

Other related posts: