martes, octubre 05, 2010

EXTRACCIÓN DE INFORMACIÓN (IE)

EXTRACCIÓN DE INFORMACIÓN (IE)

Es la búsqueda realizada manual o automatizadamente de términos, párrafos o partes de un documento, que contengan la información requerida por un usuario a partir de una pregunta o interrogante, y cuyos resultados serán presentados de forma estructurada. La información plasmada en lenguaje natural en un documento se presenta casi siempre de manera no estructurada (texto libre). Esto ha supuesto un obstáculo para la recuperación, por parte de las máquinas, de la información contenida en un documento.

La extracción de información tiene por objetivo que la información desestructurada de un documento sea más accesible y recuperable por parte de la máquina. En otras palabras, se trata de estructurar la información de un documento, de modo que la máquina pueda recuperar la información contenida en el documento. La extracción de información se basa en el uso de técnicas de procesamiento del lenguaje natural sobre dominios muy acotados.

Es preciso diferenciar entre el concepto de extracción de información y el de recuperación de la información. Mientras la recuperación de información se refiere a la recuperación de documentos relevantes existentes en una colección, la extracción de información trata de extraer la información relevante en los documentos.


PROBLEMA DE LOS LENGUAJES DE CONSULTA Y RECUPERACIÓN DE INFORMACIÓN 

TRANSFORMACIÓN DE LENGUAJES
Es el proceso de estandarización de una consulta, para que de esta forma sea "entendida" por una máquina, si los resultados obtenidos después de este proceso no llenan por completo el vacio cognitivo, se debe realizar un cambio en la necesidad inicialmente planteada, esto quiere decir que hay que reformular la pregunta o interrogante hasta obtener información de gran relavancia sobre el tema consultado. LA CLAVE ESTA EN SABER PREGUNTAR.

TIPOS DE REPRESENTACIÓN DE LA INFORMACIÓN
  • Lenguaje natural humano: Lenguaje utilizado de forma cotidiana para la comunicación, es comprensible para un gran número de ususarios, permite expresar cualquier significado o concepto y es tolerante a fallos; pero presenta inconvenientes o desventajas como la ambigüedad, poco conciso y es de dificil interpretación por parte de un computador.

  • Lenguaje natural restringido: Es un subconjunto del lenguaje natural ya que al poseer terminos controlados, hace uso de leguajes también controlados por ejemplo: Las taxonomías y los tesauros. Este lenguaje restringido limita el vocabulario que puede ser utilizado y las reglas sintacticas que pueden aplicarse al mismo, pero presenta inconvenientes tales como la forma de definición de las restricciones, la no aceptación por parte de los usuarios al no poder expresar la información como ellos desearían y adicional a esto se corre el riesgo de que las reglas sintacticas sean pocas y no representen en su totalidad la información deseada.

  • Lenguaje artificial: Es el lenguaje informático, compuesto por un vocabulario muy limitado y por unas reglas sintacticas claras y específicas que no dan lugar a ambigüedades, se gana en la capacidad de almacenamiento y en la simplicidad de los procesos, es fácil controlar los errores cometidos a través de su uso pero la gran desventaja es que los usuarios deben apreneder un lenguaje muy diferente al lenguaje natural.

No hay comentarios: