Mostrando entradas con la etiqueta metadatos. Mostrar todas las entradas
Mostrando entradas con la etiqueta metadatos. Mostrar todas las entradas

domingo, noviembre 07, 2010

Enlazar información

"recuperación de información" "programa de sistemas de información" "Universidad de La Salle"

Si en cualquier proceso comunicativo el oyente sale al paso de la transmisión y se convierte, a su vez, en parcial co-emisor y en receptor, en el que se realiza a través del lenguaje hipertextual, muy especialmente, primero porque debe decidir el recorrido que seguirá, si pinchará o no en los enlaces y en cuántos y cuáles; segundo porque en ocasiones podrá añadir anotaciones (sonido, imagen y/o texto) y también enlaces:

La presencia de múltiples trayectos de lectura, que perturba el equilibrio entre lector y escritor y que crea así el texto de lector de Barthes, también crea un texto que existe con una independencia mucho menor respecto a los comentarios, analogías y tradiciones que el texto impreso. Este tipo de democratización no sólo reduce la separación jerárquica entre el llamado texto principal y las anotaciones, que ahora existen como textos independientes, unidades de lectura o lexias, sino que también difumina las fronteras entre textos individuales. De este modo, la conexión electrónica reconfigura la experiencia tanto del autor como de la propiedad intelectual, y ello promete afectar, a su vez, las nociones tanto de autor (y de autoridad) de los textos que se estudian como de los mismos como autores.

viernes, noviembre 05, 2010

Bases de datos documentales en la web: análisis del software para su publicación

"recuperación de información" "programa de sistemas de información" "Universidad de La Salle"

Los Sistemas de Gestión Documental (SGD)Text Retrieval Systems , en inglés son un tipo de programas muy conocidos en el ámbito de la información y documentación, ya que están especialmente pensados para la gestión de información textual y de documentos cognitivos. Sus principales características se pueden sintetizar en lo siguiente: disponen de un modelo de registro flexible (campos de longitud variable, campos multivalor, etc.), facilitan el acceso a los registros a través del fichero inverso, contienen un conjunto de variadas prestaciones de recuperación de la información, y están dotados de diversos instrumentos para el control terminológico. Algunos de los sistemas más conocidos y extendidos son CDS/ISIS, FileMaker, Knosys, e Inmagic DB/Text.

Sobre ellos se han realizado aproximaciones teóricas de carácter global, entre los que se pueden destacar las de Sieverts y otros investigadores belgas (1991-93), autores de una serie de artículos muy completos y exhaustivos que describían las características de este tipo de programas, elaborando una tipología y presentando una evaluación muy detallada de unos treinta productos. Posteriormente, William Saffady, por dos veces, (1995) (2000), también realizó una aproximación actualizada a los SGD. En España, se han publicado diversos trabajos de carácter global siendo los más recientes una monografía de Abadal y Codina (2005) y el Directorio español de software para la gestión bibliotecaria, documental y de contenidos (2003), que contiene datos descriptivos de 135 programas informáticos del ámbito indicado en su título. A otro nivel, se puede señalar el portal CMS-Spain (www.cms-spain.com) que contiene informes y estudios diversos sobre programas de gestión de contenidos, entre los cuales se incluyen referencias a sistemas de gestión documental.

domingo, octubre 24, 2010

Extracción de palabras clave de páginas web, basada en criterios de posicionamiento en buscadores

"recuperación de información" "programa de sistemas de información" "Universidad de La Salle"

La World Wide Web representa un universo de información y de conocimiento donde a menudo resulta difícil localizar la información pertinente que necesitamos. Los algoritmos basados en el análisis de enlaces han supuesto una gran mejora en la ordenación de los resultados, sin embargo aún queda mucho camino por recorrer, en especial si se quiere automatizar una parte más amplia del proceso de recuperación de información mediante agentes de búsqueda inteligentes.

La propuesta de la Web semántica (Berners-Lee, 2001) puede representar un gran avance en este ámbito porque propone un cambio de paradigma: transformar la actual web basada casi exclusivamente en lenguaje natural a una web estructurada y organizada, donde los contenidos en lenguaje natural son etiquetados semánticamente de forma explícita para conseguir que las máquinas puedan interpretarlos. De esta forma se facilitaría el procesamiento automático de los contenidos de la web y uno de estos procesos sería precisamente la recuperación de información (Ding, 2005).

El etiquetado y la asignación de metadatos son por tanto elementos básicos del proyecto de la Web semántica, con implicaciones para cualquiera que esté relacionado con la creación y distribución de contenidos en la web. El nuevo paradigma supone una nueva forma de crear contenidos, donde sus responsables deben asumir la tarea de su etiquetado si quieren que estos sean interpretables semánticamente por los nuevos buscadores y aplicaciones de usuario. En este contexto, surge la necesidad de herramientas que faciliten la creación automática o semi automática de esta metainformación y que asegure su calidad.

viernes, octubre 22, 2010

RECUPERACION Y ORGANIZACIÓN DE LA INFORMACIÓN

Sistemas de búsqueda Question-Answering

Una de las tareas más avanzadas en Recuperación de Información (RI) es aquella que busca, no documentos relevantes ante una necesidad informativa dada, sino respuestas precisas a necesidades de información concretas, empleando una gran colección de documentos. Esto es lo que se conoce como búsqueda de respuestas, Question Answering en inglés, cuyas siglas, QA, suelen utilizarse sin traducir. Los sistemas de Question-Answering deben extraer la respuesta después de localizar la zona de los documentos que pueda estar relacionada con la afirmación: "Se busca encontrar un fragmento de texto mínimo que responda la pregunta". Por eso, algunas aproximaciones a este problema están basadas en la recuperación de pasajes o fragmentos de texto (VICEDO 2003; WOODS 2000). La respuesta puede ser extraída después mediante algún proceso automático o, si el sistema no es capaz de proporcionar una respuesta válida de una manera totalmente autónoma, debe disponerse algún proceso de realimentación con el usuario, para que pueda satisfacer su necesidad informativa. La interacción con el usuario ayuda al sistema de Question-Answering a encontrar mejores respuestas. A su vez, el sistema de Question-Answering ayuda al usuario a encontrar la respuesta más rápidamente.

El proceso interactivo de Question-Answering posee hoy día un amplio interés, debido al aumento de la web y a la necesidad cada vez más urgente de obtener información precisa. A ello unimos los avances en Recuperacion de la Informacion y en el procesamiento del lenguaje natural (PLN), que han hecho resurgir de nuevo el interés en los sistemas de Question-Answering claramente enfocados a la web. La enorme cantidad de información en la web hace de Question-Answering una poderosa herramien- ta para encontrar información ante una necesidad informativa dada.

miércoles, octubre 20, 2010

LAS COMUNIDADES VIRTUALES

Se podría definir a las Comunidades Virtuales como "lugares" dentro del ciberespacio en el que interaccionan personas con intereses, aficiones, o motivaciones comunes. “Comunidad virtual es aquel contexto social en el que, entre sus miembros, se producen y mantienen interacciones en las que se negocian significados, al tiempo que sus propias identidades, en una dinámica de construcción de un sistema cultural o cibercultura que les permite acceder, compartir, cogenerar y construir conocimiento socialmente”.

TIPOS DE COMUNIDADES VIRTUALES

A continuación se identificarán cuáles son las diferentes herramientas existentes para la creación de comunidades virtuales:

1) Foros de discusión

Los foros de discusión son una herramienta, sustentada en una base de datos alojada en un servidor, que permite a los usuarios que se conecten a la misma, mediante el uso de su navegador, leer los mensajes incluidos por el resto de miembros de la comunidad, elegir el tema de interés (de forma que se puedan filtrar los mensajes) e incluir si se desea una respuesta a los mensajes visualizados. Un buen ejemplo de esta tecnología se puede encontrar en ICTNet, quizá la comunidad de profesionales de habla hispana que mayor éxito ha tenido en Internet hasta el momento.

El tipo de base de datos que se utilice, o mejor dicho, el software que gestiona la base de datos y que publica los mismos en la web, determinará la forma en la que los usuarios visualizan los mensajes. En este sentido, algunos programas publican los mensajes de forma cronológica, mientras que otros agrupan los mensajes por tema, creando así "arboles" que facilitan el seguimiento de un debate.

Por último, debe señalarse la necesidad de que estos sistemas incluyan la posibilidad de hacer llegar a los participantes los mensajes añadidos el mismo día o la última semana, o bien un resumen de los mismos a través del correo electrónico. Algunos de ellos, incluso incluyen la posibilidad de avisar al individuo cuando alguien ha contestado a un mensaje publicado previamente.

2) Email y email groups

La herramienta de comunicación más antigua en el desarrollo de CVs es seguramente el email, ya que se trata de una de las primeras tecnologías que se generalizaron en Internet. Normalmente, las CVs organizadas mediante email utilizan emails groups o listas de correo, es decir, un sistema de software, más o menos complejo (list-bot), a través del cual los mensajes enviados por un miembro de la CV son reenviados al resto.

Actualmente, el uso de listas de correo como herramienta exclusiva en la gestión de CVs es poco habitual. Lo normal es que se encuentre asociado a una página web que sirve de soporte y mecanismo promocional a la comunidad. En todo caso, existen algunos colectivos cuya única fuente de contacto es el email, como por ejemplo ciertos grupos de investigación.

Existen miles de listas de correo (ver el buscador www.liszt.com/), y en muchas ocasiones, suelen estar asociadas al envío de boletines (newsletter). Además, cabe señalar la conveniencia de que estas listas posean algún tipo de mecanismo de seguridad que impida: (1) que se inscriban en las mismas individuos cuyo perfil no sea el adecuado o (2) que terceros añadan a otros en las listas sin su permiso (una posibilidad es utilizar email de confirmación). Por último, indicar que en muchas ocasiones estas listas necesitan de la moderación para evitar mensajes indeseados como el spam.

sábado, octubre 16, 2010

SEGURIDAD DE LA INFORMACIÓN

Los DRM y las bibliotecas, la confidencialidad y el respeto a la vida privada

los sistemas de protección y gestión de derechos (DRM) imponen en su operatividad el control de quiénes pueden utilizar las obras que administran, así como los usos que cada individuo efectúa de dichas obras. Resultará difícil que las bibliotecas puedan eludir el control individual de las obras accesibles desde la institución o dicho de una forma más directa: es muy difícil que las bibliotecas puedan garantizar a los usuarios el anonimato en el uso de los fondos, principio de confidencialidad proclamado en diversas declaraciones y manifiestos de UNESCO, ALA, IFLA o del Consejo de Europa. Es decir, el derecho a leer anónimamente está amenazado y con ello el derecho fundamental a la libertad de pensamiento, pues es muy fácil identificar lo que la gente lee con lo que la gente piensa.

En efecto los DRM, imponen en primer lugar restricciones a la utilización de las obras, pero en un segundo nivel de control informan al titular de los derechos de las actividades individuales de cada usuario (por ejemplo. los titulares de los derechos de una revista que se citó y a la que se ha tenido acceso a través de la Biblioteca Complutense saben los usos realizados: guardar el archivo pdf e imprimirlo; saben cuál es el terminal desde el que se concetó el usuario, saben los artículos que utilizo en la misma sesión y seguramente saben también la tendencia que reflejan esos artículos y el conjunto de esas publicaciones, al menos el perfil de usuario estará guardado en algún sitio, junto a otros usuarios de ese mismo servicio y, al menos, servirá para negociar la licencia de acceso del próximo año ¿sólo servirá para eso? Si han utilizado algún sistema inteligente, saben también qué guardó en el ordenador utilizado... y que escucha música en MP3, mientras hace las búsquedas?).

miércoles, octubre 13, 2010

TÉCNICAS DE RECUPERACIÓN DE INFORMACIÓN

Sistemas de recuperación de lógica difusa. Permite establecer consultas con frases normales. La máquina, al realizar la búsqueda, elimina signos de puntuación, artículos, conjunciones, plurales, tiempos verbales, etc., dejando sólo las palabras relevantes. La recuperación se basa en proposiciones lógicas con valores de verdadero y falso, teniendo en cuenta la localización de la palabra en el documento.
Técnicas de ponderación de términos. En la búsqueda unos criterios tienen más valor que otros, dependiendo de los intereses del usuario. Los documentos recuperados se encuentran en función del valor obtenido en la ponderación. El documento más pertinente de búsqueda sería aquel que tenga representado todos los términos de búsqueda y, además, el que más valor tenga repetidos más veces.
Técnica de clustering. Es un modelo probabilístico que permite las frecuencias de los términos de búsqueda en los documentos recuperados. Se atribuyen unos valores (pesos) que actúan como agentes para agrupar los documentos por orden de importancia, mediante algoritmos ranking.Algoritmos utilizados para realizar la categorización (cluster): clustering
  • Algoritmo K means
  • COBWEB
  • Algoritmo EM
Técnicas de retroalimentación por relevancia. Con ella, se pretende obtener el mayor número de documentos relevantes. El proceso consiste en repetir nuevamente la consulta; pero esta vez con los elementos interesantes, selecciona dos de los documentos primeramente recuperados.
Técnicas de stemming. Morfológicamente las palabras están estructuradas en prefijos, sufijos y la raíz. La técnica de Stemming lo que pretende es eliminar las posibles confusiones semánticas que se puedan dar en la búsqueda de un concepto, para ello trunca la palabra y busca solo por la raíz. Algoritmos utilizados para desechar prefijos y sufijos:
  • Paice/Husk
  • S stemmer / n gramas
  • Técnicas lingüísticas
Pretenden acotar los documentos relevantes. Esta técnica lo consigue mediante una correcta indización en el proceso de tratamiento de los documentos con ayuda de índices, tesauros, etc.; evitando las ambigüedades léxicas y semánticas a la hora de establecer las consultas.
Metadatos. Se utilizan para detectar información relevante. Las etiquetas describen el contenido del recurso web. Principalmente son las etiquetas de palabra clave y título las que dan paso a localizar el documento.

domingo, octubre 10, 2010

IMPORTANCIA DE LA SEGURIDAD DE LA INFORMACIÓN

La importancia que tiene la seguridad de la información y el poder que implica manejar información es un tema muy delicado que no está en el conocimiento de muchos. En el contexto de internet, muchos usuarios no le dan mayor importancia a la información que publican en la red y de qué forma lo hacen y más aún, muchos no diferencian lo privado de lo público, no por que no quieran o porque no saben cómo diferenciar una cosa de la otra, simplemente es por ignorancia, el problema radica en la recuperación de la información. Para mucha gente es normal pertenecer en redes sociales y publicar su vida, mientras más conocidos sean y más amigos tengan en esa red social más importante se creen y es esta “vulnerabilidad” la que se está explotando: La ingenuidad y/o ignorancia del usuario. Por otro lado están las empresas, quienes son las encargadas de manejar la información privada y/o pública que los usuarios les confían, por ejemplo en el caso de un concurso, típicamente los datos que piden son nombre, apellido, ciudad, Rut/DNI, etc.

La pregunta que sale a flote es ¿Para qué quieren el Rut/DNI en un concurso, si con el teléfono es suficiente para que los puedan ubicar? La respuesta es simple, todos esos datos van a una base de datos que puede ser vendida o usada para enviar publicidad no deseada, más conocido como spam. Con seguridad a nadie le gustaría que esto fuese realidad, pero lo es. Por más que la empresa intente explicar por medio de “letra chica” o “términos y condiciones” que el uso de la información suministrada está fuera de peligro y que serán usados sólo para tal y tal fin. Pues eso es mentira. Se han escuchado experiencias y existen las pruebas necesarias de que eso no ocurre, ni si quiera las entidades del gobierno son capaces de cumplir con algo tan básico como es la protección de la información privada y, de hecho, ni si quiera los mismos usuarios son capaces de proteger su información.
Cabe dentro del tema hacer un análisis de los tipos de passwords que son inseguros, se han clasificado de la siguiente manera:

martes, octubre 05, 2010

EXTRACCIÓN DE INFORMACIÓN (IE)

EXTRACCIÓN DE INFORMACIÓN (IE)

Es la búsqueda realizada manual o automatizadamente de términos, párrafos o partes de un documento, que contengan la información requerida por un usuario a partir de una pregunta o interrogante, y cuyos resultados serán presentados de forma estructurada. La información plasmada en lenguaje natural en un documento se presenta casi siempre de manera no estructurada (texto libre). Esto ha supuesto un obstáculo para la recuperación, por parte de las máquinas, de la información contenida en un documento.

La extracción de información tiene por objetivo que la información desestructurada de un documento sea más accesible y recuperable por parte de la máquina. En otras palabras, se trata de estructurar la información de un documento, de modo que la máquina pueda recuperar la información contenida en el documento. La extracción de información se basa en el uso de técnicas de procesamiento del lenguaje natural sobre dominios muy acotados.

Es preciso diferenciar entre el concepto de extracción de información y el de recuperación de la información. Mientras la recuperación de información se refiere a la recuperación de documentos relevantes existentes en una colección, la extracción de información trata de extraer la información relevante en los documentos.


PROBLEMA DE LOS LENGUAJES DE CONSULTA Y RECUPERACIÓN DE INFORMACIÓN 

TRANSFORMACIÓN DE LENGUAJES
Es el proceso de estandarización de una consulta, para que de esta forma sea "entendida" por una máquina, si los resultados obtenidos después de este proceso no llenan por completo el vacio cognitivo, se debe realizar un cambio en la necesidad inicialmente planteada, esto quiere decir que hay que reformular la pregunta o interrogante hasta obtener información de gran relavancia sobre el tema consultado. LA CLAVE ESTA EN SABER PREGUNTAR.

TIPOS DE REPRESENTACIÓN DE LA INFORMACIÓN
  • Lenguaje natural humano: Lenguaje utilizado de forma cotidiana para la comunicación, es comprensible para un gran número de ususarios, permite expresar cualquier significado o concepto y es tolerante a fallos; pero presenta inconvenientes o desventajas como la ambigüedad, poco conciso y es de dificil interpretación por parte de un computador.

  • Lenguaje natural restringido: Es un subconjunto del lenguaje natural ya que al poseer terminos controlados, hace uso de leguajes también controlados por ejemplo: Las taxonomías y los tesauros. Este lenguaje restringido limita el vocabulario que puede ser utilizado y las reglas sintacticas que pueden aplicarse al mismo, pero presenta inconvenientes tales como la forma de definición de las restricciones, la no aceptación por parte de los usuarios al no poder expresar la información como ellos desearían y adicional a esto se corre el riesgo de que las reglas sintacticas sean pocas y no representen en su totalidad la información deseada.

  • Lenguaje artificial: Es el lenguaje informático, compuesto por un vocabulario muy limitado y por unas reglas sintacticas claras y específicas que no dan lugar a ambigüedades, se gana en la capacidad de almacenamiento y en la simplicidad de los procesos, es fácil controlar los errores cometidos a través de su uso pero la gran desventaja es que los usuarios deben apreneder un lenguaje muy diferente al lenguaje natural.

martes, septiembre 28, 2010

DESKTOP SEARCH (BUSCADOR DE ESCRITORIO)

DESKTOP SEARCH (BUSCADOR DE ESCRITORIO)

Concepto: Es una herramienta informática que busca documentos en un ordenador personal (en lugar de hacerlo en Internet) como por ejemplo el historial de navegación web, archivos de correo electrónico, documentos de texto, archivos de sonido, de imágenes o de vídeo.

A medida que pasa el tiempo y la tecnología avanza la capacidad de almacenamiento de los discos duros es más grande. Esto conlleva a que el volumen de información que el usuario puede tener guardado se haga muy difícil de controlar y que cuando tenga que buscar un archivo no lo encuentre. Por este motivo han surgido varios buscadores de escritorio, que si más no sigue la misma idea que un buscador de Internet.

Todos los buscadores en general manejan un mismo principio: la indexación del contenido de nuestros discos duros o más bien, de las particiones/carpetas que les indiquemos a estas herramientas para generar una base de datos en la cual poder luego rebuscar con gran facilidad. A partir de ahí cada solución propone su propia tecnología a la hora de tratar conceptos como los metadatos, la construcción del índice y la generación de resultados, pero lo cierto es que todas ellas funcionan bastante bien y suponen una ayuda imprescindible para un gran número de usuarios, que evitan así tener que estar esperando varios segundos a veces minutos para que las herramientas de búsqueda ‘convencionales’ encuentren lo que uno busca.

Tecnología aplicada: incluye un indexador que rastrea el disco duro en busca de archivos existentes. Cuando encuentra un archivo extrae la siguiente información y la guarda en un archivo de índice:



  • La localización jerárquica al disco duro del archivo.

  • Palabras clave, tipo de archivo, realíza un analisis se contenido según requerimientos de usuario.
Una vez los documentos existentes han sido indexados, el rastreador indexa los nuevos documentos en tiempo real. Durante las búsquedas, el motor de búsqueda relaciona las consultas realizadas por el usuario con los elementos indexados (mira en el archivo de índice) para encontrar los archivos más rápidamente. Finalmente muestra por pantalla los resultados obtenidos.

Objetivos: La búsqueda de escritorio se hace muy complicada debido a que existen muchos tipos de archivos, los cuales pueden ser estructurados o no estructurados. Los estructurados (bases de datos o documentos de texto con etiquetas incrustadas) suelen ser más fáciles de encontrar que los no estructurados (archivos de música, imágenes o vídeo) ya que estos últimos no contienen texto. Los objetivos manejados en la mayoría de Desktop Search son los siguientes:
  • Definir la consulta a realizar con el mínimo de palabras clave.

  • Recuperar la información de un conjunto de documentos que están relacionados de alguna manera con la consulta realizada.


  • Presentar al usuario estos documentos ordenados de una manera primaria.