[greenstone_es] Re: [greenstone_es] Re: [greenstone_es] Re: [greenstone_es] Re: [greenstone_es] Búsqueda palabras derivadas

  • From: Diego Spano <diegospano@xxxxxxxxx>
  • To: Lista (en español) Greenstone <greenstone_es@xxxxxxxxxxxxx>
  • Date: Fri, 5 May 2017 17:33:49 -0300

Creo que hay que dividir la respuesta, en base a lo que se espera
encontrar.


*Opcion 1*: partir de clima y llegar a climaterio, aclimatar, etc.
Para este caso, lo que te interesa es que la palabra buscada y las
encontradas compartan una serie de caracteres, como pasa con clima y
climaterio. Ambas palabras no tienen ninguna relación semántica (el clima
nada tiene que ver con el período pre y post menopáusico). Greenstone tiene
esta facilidad. En realidad lo que mencionás Leandro es lo que se usa para
la búsqueda difusa de Lucene. La distancia de Levenshtein, es el número
mínimo de operaciones requeridas para transformar una cadena de caracteres
en otra. Se entiende por operación, bien una inserción, eliminación o la
sustitución de un carácter. Sirve para determinar cuán similares son dos
cadenas de caracteres, como es el caso de los correctores de ortografía.

Por ejemplo, la distancia de Levenshtein entre "casa" y "calle" es de 3
porque se necesitan al menos tres ediciones elementales para cambiar uno en
el otro.

casa → cala (sustitución de 's' por 'l')
cala → calla (inserción de 'l' entre 'l' y 'a')
calla → calle (sustitución de 'a' por 'e')

De esta manera, podés llegar de clima a climaterio. Este tipo de búsqueda
es muy útil cuando no sabés como se escribe la palabra a buscar (imaginá un
apellido con muchas consonantes) o bien, el texto que está indexado en la
colección proviene de OCR con lo cual puede tener muchos errores de
reconocimiento o se dan ambas condiciones, es decir, escribo mal una
palabra que a la vez puede estar mal reconocida.



*Opcion 2*: partir de clima y llegar a aclimatar, climático, viento, calor,
etc.
En este caso a vos te interesaría que la palabra buscada y las encontradas
estén relacionadas semánticamente. Al hablar de clima, hay un montón de
palabras que se relacionan y que no necesariamente comparten la manera en
la que se escriben. Por ejemplo, partiendo de "clima" podrías llegar a
"nubosidad". Estas búsquedas semánticas no están disponibles en Greenstone.


Se entendió o escribí mucho?!?! jajajaj


Saludos!


*Diego Spano* *Director de Proyectos, Prodigio Consultores*
Tel: (54 11) 5274-8413

Argentina
dspano@xxxxxxxxxxxxxxxxxxxxxxx | www.prodigioconsultores.com
<http://s.wisestamp.com/links?url=http%3A%2F%2Fwww.prodigioconsultores.com%2F&sn=ZGllZ29zcGFub0BnbWFpbC5jb20%3D>
Contact me: [image: Skype] diegospano
<http://s.wisestamp.com/links?url=http%3A%2F%2Fwww.linkedin.com%2Fin%2Fdiegospano&sn=ZGllZ29zcGFub0BnbWFpbC5jb20%3D>


2017-05-05 16:56 GMT-03:00 Jaime Calero <0940jacaflo@xxxxxxxxx>:

Gracias Diego y Leandro,

si, en verdad lo que necesito es más cercano a lo que plantea Leandro.
¿Existe algo así en Greenstone?

Gracias

El 5 de mayo de 2017, 14:17, Leandro Fidanza <leafidanza@xxxxxxxxx>
escribió:

Hola, buenas tardes.
Si mal no entiendo no es eso lo que quiere Diego ( En la busqueda que
planteas "clima*" no traeria aclimatar por ej. ). Me parece que lo que
quiere es una busqueda por palabras parecidas, al estilo de lo que hace
google. Esto se hace con un algoritmo de palabras parecidas, se llama
algoritmo de Levensthein. Este mide la distancia entre dos palabras para
darte los valores similares.
No se si greenstone tiene algo de eso implementado, me imagino que no.
Sino es asi talvez podemos ver de implementar ese cambio.

Saludos :)


2017-05-05 15:57 GMT-03:00 Diego Spano <diegospano@xxxxxxxxx>:

Jaime, lo que estás pidiendo es una búsqueda con comodines, por ejemplo
"clima*". Tanto MGPP como Lucene lo tienen. Te adjunto un par de imágenes
con sintaxis de búsqueda de uno y otro motor de indexación.-

[image: Inline image 2]

[image: Inline image 3]
[image: Inline image 4]

Saludos!


*Diego Spano* *Director de Proyectos, Prodigio Consultores*
Tel: (54 11) 5274-8413

Argentina
dspano@xxxxxxxxxxxxxxxxxxxxxxx | www.prodigioconsultores.com
<http://s.wisestamp.com/links?url=http%3A%2F%2Fwww.prodigioconsultores.com%2F&sn=ZGllZ29zcGFub0BnbWFpbC5jb20%3D>
Contact me: [image: Skype] diegospano

<http://s.wisestamp.com/links?url=http%3A%2F%2Fwww.linkedin.com%2Fin%2Fdiegospano&sn=ZGllZ29zcGFub0BnbWFpbC5jb20%3D>


2017-05-05 14:46 GMT-03:00 Jaime Calero <0940jacaflo@xxxxxxxxx>:

Saludos,

quería consultar ¿cómo debo configurar la búsqueda, para que por
ejemplo si los usuarios ponen la palabra "clima" en una búsqueda por
"titulos", se muestren aquellos que además de "clima" contengan: "climas"
"climático" "climaterio" "aclimatar", etc.?

Gracias la ayuda.





PNG image

PNG image

PNG image

Other related posts:

  • » [greenstone_es] Re: [greenstone_es] Re: [greenstone_es] Re: [greenstone_es] Re: [greenstone_es] Búsqueda palabras derivadas - Diego Spano