martes, septiembre 28, 2010

INDIZACIÓN

INDIZACIÓN

En la recuperacion de informacion se utilizan cierto criterios que nos va a permitir recuperar los documentos; a través de la indización se elaboran indices o estructuras de acceso a los documentos a partir de los términos o palabras contenidas facilitando de esta forma el proceso de búsqueda, esto permite la realización de operaciones mediante técnicas de comparación o equiparación de los enunciados empleados por los usuarios y almacenados previamente en el sistema.
Los sistemas de Recuperación de Información pueden determinar si se implementa o no el uso de índices, algunos incluyen parámetros avanzados sobre la localización en el documento del párrafo y frase de los términos buscados.
Archivos Invertidos: Es un mecanismo orientado al término para indexar una colección, en su estructura de items se encuentran: Palabras clave, Id del documento y Id del campo. Los Archivos Invertidos están compuestos por los siguientes elementos:

  • Vocabulario: Conjunto de palabras que aparecen en un texto

  • Ocurrencias: Lista de las apariciones de cada palabra en un texto, una por cada palabra.

    • Si se conoce la posición de las palabras contenidas en el texto, se pueden realizar búsquedas de proximidad y de frases que contengan una palabra específica.

    • la posición de los caracteres  facilita el acceso a las posiciones de los textos.
La relevancia juega un papel importante en el momento de analizar los resultados mostrados en el archivo invertido, la cantidad de ocurrencias de una palabra en un texto sin un análisis posterior no significará nada más que un listado estadístico, dado que, allí encontraremos palabras que no servirán de base para que un usuario pueda iniciar una búsqueda. El grado de relevancia será reflejado en aquellas palabras que tienen un alto número de ocurrencia pero que a su vez representan parte del contenido del documento, son palabras con "sentido" que acompañadas de una gran cantidad de operadores pueden facilitar y hacer más puntual el proceso de búsqueda.