viernes, octubre 22, 2010

RECUPERACION Y ORGANIZACIÓN DE LA INFORMACIÓN

Sistemas de búsqueda Question-Answering

Una de las tareas más avanzadas en Recuperación de Información (RI) es aquella que busca, no documentos relevantes ante una necesidad informativa dada, sino respuestas precisas a necesidades de información concretas, empleando una gran colección de documentos. Esto es lo que se conoce como búsqueda de respuestas, Question Answering en inglés, cuyas siglas, QA, suelen utilizarse sin traducir. Los sistemas de Question-Answering deben extraer la respuesta después de localizar la zona de los documentos que pueda estar relacionada con la afirmación: "Se busca encontrar un fragmento de texto mínimo que responda la pregunta". Por eso, algunas aproximaciones a este problema están basadas en la recuperación de pasajes o fragmentos de texto (VICEDO 2003; WOODS 2000). La respuesta puede ser extraída después mediante algún proceso automático o, si el sistema no es capaz de proporcionar una respuesta válida de una manera totalmente autónoma, debe disponerse algún proceso de realimentación con el usuario, para que pueda satisfacer su necesidad informativa. La interacción con el usuario ayuda al sistema de Question-Answering a encontrar mejores respuestas. A su vez, el sistema de Question-Answering ayuda al usuario a encontrar la respuesta más rápidamente.

El proceso interactivo de Question-Answering posee hoy día un amplio interés, debido al aumento de la web y a la necesidad cada vez más urgente de obtener información precisa. A ello unimos los avances en Recuperacion de la Informacion y en el procesamiento del lenguaje natural (PLN), que han hecho resurgir de nuevo el interés en los sistemas de Question-Answering claramente enfocados a la web. La enorme cantidad de información en la web hace de Question-Answering una poderosa herramien- ta para encontrar información ante una necesidad informativa dada.

Ahora bien, en contraste con los motores de búsqueda en internet, los sistemas de Question-Answering deben proporcionan respuestas breves y concisas. Un problema adicional de la búsqueda de respuestas en la web es el entorno multilingüe de este medio. Efectivamente, los usuarios que buscan en la web normalmente encuentran documentos en varios idiomas, habitualmente en el idioma en el que se realiza la consulta, y también en el idioma más utilizado en internet, el inglés. Por este motivo, para resolver sus necesidades informativas, el usuario debe tener al menos un conocimiento pasivo de esta lengua, así como algún tipo de herramienta lingüística, como diccionarios bilingües o programas de traducción automática, que le ayuden a traducir su pregunta al inglés o los documentos recuperados a su propio idioma

Podemos decir que la investigación en sistemas de búsqueda de pregunta-respuesta se ha incrementado a partir de la introducción de un foro para su evaluación como parte de la Conferencia TREC en 1999 (limitada al lenguaje inglés), y más recientemente en sistemas de Búsqueda de Respuestas Multilingüe, siendo en el año 2003 la primera ocasión que se incluyó la evaluación de sistemas de BR como parte del CLEF y donde sólo se presentó un sistema de búsqueda de respuestas para tratar información en el lenguaje Español.

Estado actual de los sistemas BR

Los sistemas actuales de búsquedas de respuestas afrontan su tarea desde la perspectiva del usuario casual. Es decir, se enfocan en responder preguntas simples sobre hechos concretos a partir de una colección de documentos donde la respuesta se encuentra en forma explícita en un sólo documento. Estas preguntas generalmente pueden responderse con palabras o frases que denotan el nombre de una persona, de un lugar, una fecha, etc. Sin embargo, los sistemas de Question-Answering del futuro permitirán resolver preguntas más complejas a partir de la fusión de la información contenida en varios documentos.

Los sistemas de Busqueda de Respuestas típicamente consideran los siguientes procesos: (i) el análisis de la pregunta, (ii) la recuperación de documentos relacionados; (iii) la selección de pasajes relevantes, y (iv) la extracción de fragmentos respuesta. Los sistemas de Busqueda de Respuesta existentes utilizan diferentes técnicas para el tratamiento tanto de las preguntas como de los documentos fuente utilizados para realizar dichos procesos. Uno de los aspectos que ha demostrado mayor efectividad es el uso de reconocedores de entidades nombradas en diferentes niveles del proceso de BR. Una entidad nombrada (EN) es una palabra, o un sintagma que denota un objeto que puede caer en una de las siguientes categorías generales: persona, organización, lugar, fecha, cantidad.

Hablando de forma general, el uso de las EN en sistemas de BR comienza a partir del análisis de la pregunta, al asociar a la pregunta en turno la clase semántica esperada como respuesta. Es decir, dada una pregunta determinar si esta requiere como respuesta una EN de clase persona, fecha, etc. Entonces el proceso de extracción de fragmentos respuesta se realiza con base en la ocurrencia de EN de la clase semántica esperada como respuesta dentro del fragmento de texto analizado.

Otras aproximaciones utilizan la identificación de EN para establecer tripletas semánticas formadas por una entidad, el rol semántico que dicha entidad desempeña y el término con el que dicha entidad mantiene la relación.

En contraparte a la identificación de EN en tiempo de búsqueda, Prager ha presentado una aproximación conocida como "Anotación Predictiva". Dicha aproximación recae en tres componentes: Anotación predictiva, análisis de la pregunta y selección de la respuesta. La anotación predictiva consiste en analizar los documentos en la colección de entrada en busca de palabras que se cree puedan ser respuestas a posibles preguntas. Entonces el sistema les asigna etiquetas que indican el tipo de preguntas que pueden responder. Las etiquetas incluyen lugares, personas, duración, día y longitud. El análisis de la pregunta consiste en utilizar una variedad de tipos de pregunta estándar en los cuales se reemplazan ciertas palabras por las etiquetas adecuadas.

Fuente: http://usuarios.multimania.es/questionanswering/

No hay comentarios: