TÉCNICAS DE RECUPERACIÓN DE INFORMACIÓN

miércoles, octubre 13, 2010

TÉCNICAS DE RECUPERACIÓN DE INFORMACIÓN

Sistemas de recuperación de lógica difusa. Permite establecer consultas con frases normales. La máquina, al realizar la búsqueda, elimina signos de puntuación, artículos, conjunciones, plurales, tiempos verbales, etc., dejando sólo las palabras relevantes. La recuperación se basa en proposiciones lógicas con valores de verdadero y falso, teniendo en cuenta la localización de la palabra en el documento.

Técnicas de ponderación de términos. En la búsqueda unos criterios tienen más valor que otros, dependiendo de los intereses del usuario. Los documentos recuperados se encuentran en función del valor obtenido en la ponderación. El documento más pertinente de búsqueda sería aquel que tenga representado todos los términos de búsqueda y, además, el que más valor tenga repetidos más veces.

Técnica de clustering. Es un modelo probabilístico que permite las frecuencias de los términos de búsqueda en los documentos recuperados. Se atribuyen unos valores (pesos) que actúan como agentes para agrupar los documentos por orden de importancia, mediante algoritmos ranking.Algoritmos utilizados para realizar la categorización (cluster): clustering

Algoritmo K means
COBWEB
Algoritmo EM

Técnicas de retroalimentación por relevancia. Con ella, se pretende obtener el mayor número de documentos relevantes. El proceso consiste en repetir nuevamente la consulta; pero esta vez con los elementos interesantes, selecciona dos de los documentos primeramente recuperados.

Técnicas de stemming. Morfológicamente las palabras están estructuradas en prefijos, sufijos y la raíz. La técnica de Stemming lo que pretende es eliminar las posibles confusiones semánticas que se puedan dar en la búsqueda de un concepto, para ello trunca la palabra y busca solo por la raíz. Algoritmos utilizados para desechar prefijos y sufijos:

Paice/Husk
S stemmer / n gramas
Técnicas lingüísticas

Pretenden acotar los documentos relevantes. Esta técnica lo consigue mediante una correcta indización en el proceso de tratamiento de los documentos con ayuda de índices, tesauros, etc.; evitando las ambigüedades léxicas y semánticas a la hora de establecer las consultas.

Metadatos. Se utilizan para detectar información relevante. Las etiquetas describen el contenido del recurso web. Principalmente son las etiquetas de palabra clave y título las que dan paso a localizar el documento.

Fuente: Recuperación y acceso a la información