[greenstone_es] RE: [greenstone_es] Expresión Perl en campo remove suffix de un clasificador

Hola Jorge,
recién probé hacer un "buildcol.pl" con AZList y -removeprefix ; funcionó y no 
es nada complicado. 
(No suelo usar el "GLI" sino los comandos del ambiente Greenstone). 

En el archivo "collect.cfg" de tu colección, en el clasificador AZList tenés 
que incluir la opción -removeprefix de manera tal que te quede algo de este 
estilo:

classify AZList -metadata dc.Title -buttonname "Títulos" -removeprefix "El |Els 
|L'|La |Las |Los "

Lo que nos interesa aquí es solamente 
-removeprefix "El |Els |L'|La |Las |Los "

Las demás opciones son las que correspondan a tu colección.
Para estar seguros de que lo que se elimina a efectos del ordenamiento sea una 
artículo inicial, alcanza con incluir un espacio al final del artículo en la 
"lista".
En realidad, no es una lista, sino una expresión regular, y, para no entrar en 
mayores detalles, la barra vertical es un "O" (OR) lógico, indicando que se 
"matchea" cualquiera de las cadenas especificadas y por lo tanto luego es 
ignorada para el ordenamiento.

Sospecho que esto es "case sensitive" así que eventualmente querrás, ser más 
exhaustivo, por ejemplo
classify AZList -metadata dc.Title -buttonname "Títulos" -removeprefix "El |La 
|EL |LA |el |la |"

Podrías también aprovechar de manera más profunda las expresiones regulares, 
pero creo que en este caso no es necesario y tus necesidades ya estarán 
cubiertas haciendo una buena lista.
-removeprefix "[Ee][Ll][Ss]? +|[Ll][Aa][Ss]? +|[Ll][Oo][Ss] +"
Microexplicación de expresiones regulares (si ya las conocías, tal vez le 
sirvan a otros):
-[] los caracteres entre corchetes significan "cualquier de estos caracteres";
-? el signo de pregunta se aplica al carácter anterior y significa "puede estar 
o no";
-+ el signo más se aplica al carácter anterior (en este ejemplo siempre un 
espacio) y significa tiene que estar una o más veces.
-| la barra vertical separa una opción de cadena de matcheo válida de la 
siguiente.


Nota: por lo que pude probar, a pesar de que "The" y "An" (artículos en inglés) 
NO ESTAN en la lista, igual son ignorados a efectos del ordenamiento. No sé por 
dónde se controla eso, pero sospecho que en tu caso no generará mucho problema.

Una vez modificado el archivo collect.cfg , por supuesto tenés que volver a 
hacer "buildcol.pl"

Saludos y espero que te sirva.

Nicolas Rucks
Biblioteca Cardini
Fundación Instituto Leloir 
 
________________________________
De: greenstone_es-bounce@xxxxxxxxxxxxx 
[mailto:greenstone_es-bounce@xxxxxxxxxxxxx] En nombre de abana.7
Enviado el: martes 30 de agosto de 2011 08:11
Para: greenstone_es@xxxxxxxxxxxxx
Asunto: [greenstone_es] Expresión Perl en campo remove suffix de un clasificador


Hola a todos, 
 
Tengo una duda que no acierto a resolver: Tengo una colección bibliográfica, 
creada a base de htmls de los que Greenstone extrae los metadatos, y he creado 
un clasificador AZList para los títulos. Ahora, me gustaría que, al clasificar, 
ignorara una serie de expresiones que puede haber al comienzo de cada título: 
artículos El, La, Los, Las, y algún otro caso. 

Para esto, creo que tengo que usar la opción removeprefix, pero esto hay que 
hacerlo con una expresión regular Perl, y la verdad es que no consigo entender 
bien la sintaxis, y tampoco he encontrado un ejemplo que me sirva de guía 
clara. 

¿Estoy en lo cierto al pensar que esa opción puede servir para lo que planteo? 
¿Alguien sabe qué expresión debería introducir para que al clasificar ignorara, 
por ejemplo, los artículos "El " y "La " (con su espacio posterior, para que no 
ignore, p.e., "Elecciones")? ¿Sabe alguien si no donde podría encontrar un 
ejemplo que me sirviera de guía?

Cualquier ayuda sería genial.

Muchas gracias, y saludos a todos,
Jorge Soret

Real Biblioteca
Palacio Real
Bailén s/n  28001 Madrid (España)
http://www.realbiblioteca.es
 

Other related posts: