[greenstone_es] Re: operadores de proximidad
- From: Nicolás Rucks <nrucks@xxxxxxxxxxxxx>
- To: <greenstone_es@xxxxxxxxxxxxx>
- Date: Tue, 16 Mar 2010 12:00:48 -0300
Gracias Diego,
voy a ir probando esto.
(PD: Sigo con Lucene)
Nicolas Rucks
Biblioteca Cardini
Fundación Instituto Leloir
> -----Mensaje original-----
> De: greenstone_es-bounce@xxxxxxxxxxxxx
> [mailto:greenstone_es-bounce@xxxxxxxxxxxxx] En nombre de Diego Spano
> Enviado el: viernes 12 de marzo de 2010 12:06
> Para: greenstone_es@xxxxxxxxxxxxx
> Asunto: [greenstone_es] Re: operadores de proximidad
>
> Nicolas, existe esa posibilidad. Te detallo los operadores
> que tenes que
> usar:
>
> Si usas MGPP:
> **************
>
> & (y) PalabraA & PalabraB: ambas palabras deben estar en el
> documento o sección
>
> | (o) PalabraA | PalabraB: una u otra palabra pueden figurar en el
> | documento
> o sección
>
> ! (no) PalabraA ! PalabraB: la palabraB no puede estar en el
> documento o
> sección>
>
> "..." Búsqueda de frase exacta
>
> NEARx PalabraA NEAR10 PalabraB: distancia máxima (en este
> caso 10) que puede haber entre ambas palabras. Default es 20.
>
> WITHINx PalabraA WITHIN10 PalabraB: igual a NEAR, pero en
> este caso importa el orden: palabraB debe aparecer después de
> PalabraA. Default es 20.
>
> () Permiten agrupar términos de la expresión de búsqueda.
> (palabraA NEAR5
> palabrab) OR palabraC
>
> * Caracter comodin que permite truncar una palabra. Art*
> encontrará todas las palabras que comiencen con art sin
> importar su terminación.
>
>
> Si estás usando LUCENE (te trascribo parte de un manual que hice):
> ***********************
>
> Sintaxis del lenguaje de consulta
>
> Las expresiones de búsqueda pueden ser tan sencillas como
> simplemente escribir una palabra o bien, estructuras
> complejas que incluyan paréntesis y operadores lógicos. Por
> eso es necesario comprender como es la sintaxis a la hora de
> escribir una consulta.
>
> Términos
>
> Cada consulta ejecutada es dividida en términos, de los
> cuales hay de 2
> tipos: términos simples o frases. Los términos simples son
> palabras tales como nota, computadora, expediente, etc, etc.
> Las frases son un grupo de palabras encerradas entre comillas
> como por ejemplo "jefe departamental". En las frases, el
> orden en el que se escriben las palabras es importante, ya
> que se buscarán coincidencias exactas.
>
> Los términos podrán combinarse también con operadores lógicos
> para formar una consulta más compleja.
>
> Modificadores
>
> El sistema admite la modificación de los términos de la
> consulta para poder ampliar las opciones de búsqueda. Dichas
> modificaciones pueden hacerse a través de:
>
> Comodines: es posible reemplazar uno o más caracteres de una
> palabra (no de una frase) por un comodín genérico. Para
> realizar un reemplazo de un solo carácter se utiliza el
> símbolo "?". Para realizar un reemplazo de varios caracteres,
> se utiliza el símbolo "*".
>
> El "?" busca términos en los cuales coincida la posición del
> símbolo con el carácter reemplazado. Por ejemplo, para buscar
> casa" o "caza" (también quedarían incluidas caja, cama, cala,
> etc) se escribe la siguiente consulta:
> ca?a
>
> También pueden usarse más de un símbolo en el mismo término,
> como por ejemplo e?ei?a, lo que dará como resultado ezeiza.
>
> Por el contrario, el comodín "*" busca cero o más caracteres.
> La consulta del término gob* traerá como resultado todas las
> palabras que empiecen con los caracteres gob y terminen de
> cualquier manera: gobierno, gobernantes, gobernar, etc, etc.
>
> También puede aplicarse en el medio de una palabra: san*o
> traerá como resultados a palabras como: santo, santuario,
> sanitario, santiago, etc.
>
> No pueden utilizarse ni el "?" ni "*" al comienzo de la palabra.
>
> Búsquedas difusas
>
> El sistema ofrece la posibilidad de hacer búsquedas que
> permitan encontrar términos parecidos en cuanto a su deletreo
> con respecto a la palabra original escrita en la consigna de
> búsqueda. Para ello simplemente hay que agregar el carácter
> "~" al final de cada una de las palabras que queremos
> ampliar. Este símbolo puede escribirse con la combinación de
> teclas [Alt] + 126.
>
> Por ejemplo, si se está buscando información sobre el
> aeropuerto Almonacid pero no sabemos como se escribe
> correctamente entonces podemos escribir el nombre como nos
> suene y hacer una búsqueda como esta: halmonasid~. Esto
> traerá como resultado documentos que incluyan términos como:
> almonacid, almogasta, pulmonar, talonario.
>
> También se puede ajustar el grado de similitud que se desea
> con respecto al termino original. Ese grado de similitud es
> un numero entre 0 y 1, siendo 1 la mayor similitud. Si no se
> especifica ningún número, el valor por defecto es 0,5. Para
> indicarlo, simplemente se escribe el número luego del símbolo
> "~":
>
> Si a la misma búsqueda anterior la hago pero con un valor
> mayor a 0,5 (que es el valor por defecto) me arrojará otros
> resultados. Por ejemplo
> halmonasid~0.7 solo me encontrará almonacid.
>
> Búsquedas por proximidad
>
> También es posible encontrar palabras que estén separadas por
> una distancia específica. Para hacer una búsqueda de este
> tipo se utiliza el mismo símbolo que la búsqueda difusa ("~")
> pero puesto a continuación de una frase.
> Por ejemplo, se puede hacer una búsqueda cómo la siguiente:
> "tareas mantenimiento ezeiza"~20. Esto traerá resultados del tipo:
> "...Aer. Ezeiza. Solicita al Concesionario un cronograma para
> la realización de las tareas de mantenimiento del Cerco
> perimetral conforme el informe de inspección..."
> "... Solicita al concesionario para que en el plazo de 10 días
> remita un cronograma para la realización de tareas de
> mantenimiento del cerco perimetral, que incluya plazo de
> ejecución en el Aer. Ezeiza..."
>
> Búsquedas por rango
>
> Las búsquedas por rango permiten encontrar documentos cuyos
> valores en el campo especificado estén entre los límites
> inferior y superior del rango expresado. Los límites de estos
> rangos pueden ser inclusivos o exclusivos.
> Para que sea inclusivo, se debe expresar el rango entre
> símbolos de corchete "[" y "]". Para que sea exclusivo, se
> expresa entre llaves "{" y "}". Entre ambos valores se
> escribe la palabra "TO".
>
> Por ejemplo, una consulta por un rango de números de notas
> que incluyan los limites sería:
> [0010 TO 0026]: tanto la nota 0010 como la 0026 están
> incluidas en el resultado.
>
> También se pueden poner palabras para expresar un rango. Por
> ejemplo, la consulta por [blanco TO negro] incluiría todas
> las palabras entre blanco y negro teniendo en cuenta un orden
> lexicográfico.
>
> Operadores lógicos
>
> Los operadores lógicos permiten combinar a los términos de
> una búsqueda.
> Existen 3 operadores disponibles: AND, OR y NOT. Deben
> escribirse siempre en mayúsculas.
>
> El operador "AND" indica que todos los términos de la
> consulta deben aparecer en la misma página del documento. Por
> ejemplo, la consulta bienes AND servicios traerá documentos
> que contengan ambas palabras.
>
> El operador "OR" es el operador por defecto del sistema. Esto
> quiere decir que si no se especifica ningún operador entre
> dos palabras, entonces el sistema asume un OR. Indica que
> cualquiera de los términos buscados debe aparecer en el documento.
>
> NOT
> Este operador excluye los documentos que contengan el término
> precedido por NOT. No puede usarse cuando la consulta posee
> un solo término. Por ejemplo, la consulta NOT "jefe
> departamental" no es válida ya que solo incluye un término o frase.
>
> Agrupamiento
> Es posible dividir una consulta en subconsultas más
> específicas usando paréntesis "(" y ")". Esto es muy útil
> cuando se quiere controlar la lógica de ejecución de una
> búsqueda. Por ejemplo si quiero encontrar documentos sobre
> las licitaciones públicas (pero no las privadas) para el
> servicio de limpieza puedo hacer una consulta como la siguiente:
>
> licitación AND (pública NOT privada) AND limpieza
>
> De esta manera descarto cualquier documento que diga
> licitación privada y limpieza.
>
> Todas las opciones anteriores pueden combinarse de alguna
> manera, haciendo que la consulta sea más específica o más
> amplia. Por ejemplo, en la siguiente consulta se agrupan
> términos, se usan operadores lógicos y además se hace una
> búsqueda difusa para el nombre de la empresa.
>
> licitación AND (pública NOT privada) AND clariti~
>
> encontrará todos los documentos que sean de una licitación
> pública de la empresa clariti (o algo similar a clariti), y
> lo que se obtiene es lo
> siguiente:
>
> Adjudica la Licitación Pública Nº ... para la prestación del
> Servicio de Limpieza del Edificio ...a la empresa CLARYTY
> SOCIEDAD DE RESPONSABILIDAD LIMITADA...
>
> Saludos
>
> Diego
>
>
>
>
>
> -----Mensaje original-----
> De: greenstone_es-bounce@xxxxxxxxxxxxx
> [mailto:greenstone_es-bounce@xxxxxxxxxxxxx] En nombre de
> Nicolás Rucks Enviado el: Viernes, 12 de Marzo de 2010 11:51 a.m.
> Para: greenstone_es@xxxxxxxxxxxxx
> Asunto: [greenstone_es] operadores de proximidad
>
> Hola gente,
>
> quería saber si Greenstone cuenta con la capacidad de hacer
> búsqueda con operadores de proximidad.
> Algo tipo NEAR.
> Creo que todos entienden de qué hablo, pero aclaro por las dudas:
>
> Si busco en todas partes, o sea en el texto completo
> <<ciencias sociales>> en búsqueda simple y pido que contengan
> "todas las palabras", es el equivalente en la búsqueda
> avanzada a <<ciencias & sociales>>
>
> Esto me va a recuperar todos los documentos que contengan las
> dos palabras en cualquier parte del documento, podría ser por
> ejemplo algo sobre ciencias de la computación, donde haya un
> pequeño párrafo acerca de las "redes sociales".
> Cuando busco una expresión en el texto completo, es probable
> que espere encontrar las palabras cerca una de otra.
>
> Sé que tengo como alternativa poner la expresión entre
> comillas <<"ciencias sociales">>
>
> Pero en ese caso voy a perder en el camino documentos sobre
> <<ciencias humanas y sociales>>
>
> Si cuento con un operador tipo NEAR, podría buscar <<ciencias
> NEAR2 sociales>> Y eso me recuperaría los documentos que
> contengan la palabra ciencias alejada de no más de 2 palabras
> de la palabra sociales. Una precisión con un grado de
> flexibilidad muy interesante para una búsqueda en texto completo.
>
> Greenstone cuenta con esta capacidad?
> Me temo que no por lo que leo en
> http://www.greenstone.org/manuals/gsdl2/es/html/Chapter_using_
> greenstone_col
> lections.htm
> Pero tal vez me pierdo alguna novedad
>
> En caso de que no, exisite la posibilidad de que esto se
> incorpore ? (esta última pregunta está más dirigida a Diego
> Spano que está más en contacto con los creadores de Greenstone).
>
> Saludos!
>
> Nicolas Rucks
> Biblioteca Cardini
> Fundación Instituto Leloir
>
>
>
>
Other related posts: