Mostrando entradas con la etiqueta relevancia. Mostrar todas las entradas
Mostrando entradas con la etiqueta relevancia. Mostrar todas las entradas

domingo, octubre 24, 2010

Extracción de palabras clave de páginas web, basada en criterios de posicionamiento en buscadores

"recuperación de información" "programa de sistemas de información" "Universidad de La Salle"

La World Wide Web representa un universo de información y de conocimiento donde a menudo resulta difícil localizar la información pertinente que necesitamos. Los algoritmos basados en el análisis de enlaces han supuesto una gran mejora en la ordenación de los resultados, sin embargo aún queda mucho camino por recorrer, en especial si se quiere automatizar una parte más amplia del proceso de recuperación de información mediante agentes de búsqueda inteligentes.

La propuesta de la Web semántica (Berners-Lee, 2001) puede representar un gran avance en este ámbito porque propone un cambio de paradigma: transformar la actual web basada casi exclusivamente en lenguaje natural a una web estructurada y organizada, donde los contenidos en lenguaje natural son etiquetados semánticamente de forma explícita para conseguir que las máquinas puedan interpretarlos. De esta forma se facilitaría el procesamiento automático de los contenidos de la web y uno de estos procesos sería precisamente la recuperación de información (Ding, 2005).

El etiquetado y la asignación de metadatos son por tanto elementos básicos del proyecto de la Web semántica, con implicaciones para cualquiera que esté relacionado con la creación y distribución de contenidos en la web. El nuevo paradigma supone una nueva forma de crear contenidos, donde sus responsables deben asumir la tarea de su etiquetado si quieren que estos sean interpretables semánticamente por los nuevos buscadores y aplicaciones de usuario. En este contexto, surge la necesidad de herramientas que faciliten la creación automática o semi automática de esta metainformación y que asegure su calidad.

jueves, septiembre 30, 2010

NECESIDADES DE INFORMACIÓN

La construcción del término necesidades de información es una construcción abstracta usada para responder porqué las personas buscan, encuentran y usan la información. Usualmente se le da diferentes interpretaciones, así como se dan confusiones con otros términos como: demandas de información, requerimientos de información  o deseos de información. Pero hay que  considerar que el termino necesidad tiene una connotación muy profunda  esta información está definida como: conocimientos, ideas, hechos, datos o trabajos creativos o imaginativos producidos por la mente, los cuales son comunicados formalmente y/o informalmente en cualquier formato.

Así mismo en la Recuperación de Información, hay que considerar que la búsqueda, requerimiento, demanda o deseo de información, es el reflejo de que existe una necesidad de información en la persona. Si el individuo presenta una necesidad de información es porque la necesita en ese momento, puesto que se ha visto estimulado, a través de su sistema nervioso, a satisfacerla.

Hay dos caminos para satisfacer las necesidades de información: buscar los conocimientos acumulados por hechos, podría entenderse por el mismo proceso de aprendizaje (experiencia); y aprovechar la información que produce uno mismo, es decir, la que es producto de la actividad humana y la cual se encuentra registrada.

El proceso de satisfacción de una necesidad de información termina cuando se adquiere una claridad suficiente sobre un tema determinado que inicialmente era un vacío, el problema es que no se conoce la cantidad de información que se requiere para la consecución de esta claridad.
Tipos de necesidad de información

  • Necesidad de información concreta:  En este tipo de necesidad ante una pregunta concreta, se encuentra una respuesta concreta con soportes de contenido concreto, la satisfacción es alcanzada a través de un buen documento que corresponde exactamente a los límites temáticos demandados por el interrogante inicialmente planteado.

  • Necesidad de información orientada al problemaEste tipo de necesidad posee unas fronteras temáticas indefinidas, el parámetro de búsqueda es mal formulado generalmente y tan pronto son recuperados documentos buenos con información relevante, los límites temáticos de la necesidad cambian, lo que conduce a no pueda ser satisfecha.

DEFINICIÓN DE RECUPERACIÓN DE INFORMACIÓN
 Proceso de gestión del conocimiento, donde se busca disminuir  la mayor cantidad de espacios conceptuales. Es el proceso para pasar de un estado actual del conocimiento a un estado NECESARIO de conocimiento.
La recuperación de información es basada en la utilización de términos índice para indexar y recuperar documentos. Recuperar puede consistir en especificar un conjunto de términos que deben ser hallados dentro de los indices de un documento, estableciendo el grado de relevancia entre cada uno de éstos para dar respuesta a una pregunta inicialmente planteada.

martes, septiembre 28, 2010

INDIZACIÓN

INDIZACIÓN

En la recuperacion de informacion se utilizan cierto criterios que nos va a permitir recuperar los documentos; a través de la indización se elaboran indices o estructuras de acceso a los documentos a partir de los términos o palabras contenidas facilitando de esta forma el proceso de búsqueda, esto permite la realización de operaciones mediante técnicas de comparación o equiparación de los enunciados empleados por los usuarios y almacenados previamente en el sistema.
Los sistemas de Recuperación de Información pueden determinar si se implementa o no el uso de índices, algunos incluyen parámetros avanzados sobre la localización en el documento del párrafo y frase de los términos buscados.
Archivos Invertidos: Es un mecanismo orientado al término para indexar una colección, en su estructura de items se encuentran: Palabras clave, Id del documento y Id del campo. Los Archivos Invertidos están compuestos por los siguientes elementos:

  • Vocabulario: Conjunto de palabras que aparecen en un texto

  • Ocurrencias: Lista de las apariciones de cada palabra en un texto, una por cada palabra.

    • Si se conoce la posición de las palabras contenidas en el texto, se pueden realizar búsquedas de proximidad y de frases que contengan una palabra específica.

    • la posición de los caracteres  facilita el acceso a las posiciones de los textos.
La relevancia juega un papel importante en el momento de analizar los resultados mostrados en el archivo invertido, la cantidad de ocurrencias de una palabra en un texto sin un análisis posterior no significará nada más que un listado estadístico, dado que, allí encontraremos palabras que no servirán de base para que un usuario pueda iniciar una búsqueda. El grado de relevancia será reflejado en aquellas palabras que tienen un alto número de ocurrencia pero que a su vez representan parte del contenido del documento, son palabras con "sentido" que acompañadas de una gran cantidad de operadores pueden facilitar y hacer más puntual el proceso de búsqueda.