Mostrando entradas con la etiqueta Lenguajes de recuperación de información. Mostrar todas las entradas
Mostrando entradas con la etiqueta Lenguajes de recuperación de información. Mostrar todas las entradas

domingo, noviembre 07, 2010

Enlazar información

"recuperación de información" "programa de sistemas de información" "Universidad de La Salle"

Si en cualquier proceso comunicativo el oyente sale al paso de la transmisión y se convierte, a su vez, en parcial co-emisor y en receptor, en el que se realiza a través del lenguaje hipertextual, muy especialmente, primero porque debe decidir el recorrido que seguirá, si pinchará o no en los enlaces y en cuántos y cuáles; segundo porque en ocasiones podrá añadir anotaciones (sonido, imagen y/o texto) y también enlaces:

La presencia de múltiples trayectos de lectura, que perturba el equilibrio entre lector y escritor y que crea así el texto de lector de Barthes, también crea un texto que existe con una independencia mucho menor respecto a los comentarios, analogías y tradiciones que el texto impreso. Este tipo de democratización no sólo reduce la separación jerárquica entre el llamado texto principal y las anotaciones, que ahora existen como textos independientes, unidades de lectura o lexias, sino que también difumina las fronteras entre textos individuales. De este modo, la conexión electrónica reconfigura la experiencia tanto del autor como de la propiedad intelectual, y ello promete afectar, a su vez, las nociones tanto de autor (y de autoridad) de los textos que se estudian como de los mismos como autores.

sábado, noviembre 06, 2010

Herramientas de software libre para la gestión de contenidos

"recuperación de información" "programa de sistemas de información" "Universidad de La Salle"

GESTIÓN DE INFORMACIÓN Y GESTIÓN DE CONTENIDOS

Los servicios de información y documentación accesibles a través de internet, más concretamente mediante servidores web, están aumentando de una forma exponencial. La lógica evolución del web desde hace más de 10 años ha ido produciendo la sustitución de páginas y documentos estáticos por documentos generados dinámicamente, merced a la interacción del usuario con la lógica de procesos y flujos de trabajo definida por los creadores del servicio y a la disponibilidad de cada vez mayores repositorios de información. Evidentemente, se ha ido pasado progresivamente de un concepto de publicación de páginas web, bastante simple en su origen, a esquemas más complejos y diferenciados, fundamentados en procedimientos y técnicas basados en la gestión de información. La cada vez mayor complejidad de los servicios y de los sistemas que los soportan, ha hecho necesaria la formulación de un corpus teórico y práctico en el que se combinen las técnicas clásicas de gestión de información en las organizaciones con las características propias del medioambiente digital.

Esta evolución, que se ha acelerado durante la primera mitad de la década de 2000, ha tenido un impacto no sólo en los métodos y técnicas de gestión de información, sino también en la propia tecnología para gestión de información y, en consecuencia, en el mercado de productos y servicios (GILBANE, 2000). Si bien en la segunda mitad de la década de los 90 se podía diferenciar entre productos para gestión documental, para recuperación de información, etc., desde el año 2000 se ha producido una convergencia entre todas las plataformas, de forma que en la actualidad se pueden encontrar soluciones que pretenden ser globales y ofrecer soporte a todo el proceso de gestión de información en una organización. Las herramientas para este trabajo han recibido la denominación de sistemas de gestión de contenidos (o Content Management Systems, CMS), y se han integrado con los sistemas de gestión documental y con los de recuperación de información. A ello hay que unir que, en la concepción actual de la gestión de información, el control de los procesos es un elemento nuclear, por lo que se acompañan de sistemas de workflow , o de flujos de trabajo. Con todo ello se puede delinear un paisaje en el cual las herramientas de gestión documental han ido incorporando a sus prestaciones las capacidades necesarias para gestionar los procesos que crean, almacenan, tratan y presentan información, en entorno digital.

viernes, noviembre 05, 2010

Diseño Web Centrado en el Usuario: Usabilidad y Arquitectura de la Información

"recuperación de información" "programa de sistemas de información" "Universidad de La Salle"

La consecución de los objetivos perseguidos a través de la puesta a disposición del público de cualquier aplicación web está condicionada por la satisfacción del usuario final. Los factores o atributos de calidad de una aplicación o sitio web que influirán en dicha satisfacción se pueden clasificar en aquellos relacionados con: la calidad y utilidad de los contenidos; la calidad del servicio y asistencia del proveedor; y la calidad del diseño de la aplicación.

La importancia del diseño de la aplicación se basa en que éste será el que modele la interacción entre usuario y aplicación, y por tanto posibilitará o no la consecución de los objetivos perseguidos por el usuario (encontrar información, comprar, comunicarse, aprender...).

Si se toma como ejemplo el usuario que intenta completar una tarea de compra en un sitio web de comercio electrónico. Del correcto diseño del sitio dependerá que el usuario consiga finalmente su objetivo (y consecuentemente el proveedor también), o que por el contrario, frustrado por la dificultad de uso del sitio web, decida abandonarlo en busca de otro donde llevar a cabo la compra sea más fácil.

Es fácil inferir que un buen diseño deberá ser comprensible, fácil de usar, amigable, claro, intuitivo y de fácil aprendizaje para el usuario. Para poder asegurar que un diseño cumple con estos requisitos no basta simplemente con una actitud empática del diseñador durante el desarrollo de la aplicación; es imprescindible la adopción por parte de éste de técnicas, procedimientos y métodos que aseguren empíricamente la adecuación del diseño a las necesidades, habilidades y objetivos del usuario.

Bases de datos documentales en la web: análisis del software para su publicación

"recuperación de información" "programa de sistemas de información" "Universidad de La Salle"

Los Sistemas de Gestión Documental (SGD)Text Retrieval Systems , en inglés son un tipo de programas muy conocidos en el ámbito de la información y documentación, ya que están especialmente pensados para la gestión de información textual y de documentos cognitivos. Sus principales características se pueden sintetizar en lo siguiente: disponen de un modelo de registro flexible (campos de longitud variable, campos multivalor, etc.), facilitan el acceso a los registros a través del fichero inverso, contienen un conjunto de variadas prestaciones de recuperación de la información, y están dotados de diversos instrumentos para el control terminológico. Algunos de los sistemas más conocidos y extendidos son CDS/ISIS, FileMaker, Knosys, e Inmagic DB/Text.

Sobre ellos se han realizado aproximaciones teóricas de carácter global, entre los que se pueden destacar las de Sieverts y otros investigadores belgas (1991-93), autores de una serie de artículos muy completos y exhaustivos que describían las características de este tipo de programas, elaborando una tipología y presentando una evaluación muy detallada de unos treinta productos. Posteriormente, William Saffady, por dos veces, (1995) (2000), también realizó una aproximación actualizada a los SGD. En España, se han publicado diversos trabajos de carácter global siendo los más recientes una monografía de Abadal y Codina (2005) y el Directorio español de software para la gestión bibliotecaria, documental y de contenidos (2003), que contiene datos descriptivos de 135 programas informáticos del ámbito indicado en su título. A otro nivel, se puede señalar el portal CMS-Spain (www.cms-spain.com) que contiene informes y estudios diversos sobre programas de gestión de contenidos, entre los cuales se incluyen referencias a sistemas de gestión documental.

martes, noviembre 02, 2010

Web Semántica y Agentes Metarrepresentacionales basados en Marcadores Discursivos

"recuperación de información" "programa de sistemas de información" "Universidad de La Salle"
Web Semántica, Ontologías, Metadatos y Agentes Inteligentes
Como cualquier usuario de Internet habrá advertido por su propia experiencia personal diaria, la web actual está construida con una cantidad ingente de recursos poco estructurados y pobremente definidos. El precio que se paga por ello es la emergencia de una cantidad desproporcionada de información irrelevante.
Una de las causas formales infraestructurales que explican esta situación es que la web actual se basa en el lenguaje HTML. La insatisfacción creciente con respecto a este lenguaje de programación de usuario, que permite codificar hipertextualmente textos, imágenes, sonidos y multimedia, podría sintetizarse en la opinión generalizada entre los especialistas de que el HTML es, simplemente, un lenguaje estructural de maquetación.

En 1999, Tim Berners-Lee, el creador de la World Wide Web, escribió por primera vez acerca de los requisitos hipotéticos que debería de cumplir una futura Web Semántica que facilitase "la implementación del significado, de la inteligencia en la red" (W3C, 1999). En el discurso académico generado recientemente en torno a Internet, se retoma este planteamiento y empieza a detectarse un cierto consenso en torno a la idea de que el futuro de la web se está gestando en la investigación en formas de intelección artificiales cualitativas similares a la humana (Berners-Lee, 2001).

LENGUAJES DE RECUPERACIÓN PARA LA WEB

"recuperación de información" "programa de sistemas de información" "Universidad de La Salle"


¿Por qué surgen?

Los lenguajes de recuperación de información para la Web nacen ante la necesidad de extraer automáticamente información de diversos repositorios enormes de datos y potencialmente valiosos.
Para la recuperación de información y documentos en la Web, se han desarrollado diferentes estrategias, como el uso de metadatos o la utilización de lenguajes semánticos basados en XML para indizar documentos Web y representar el conocimiento incluido en ellos. Hoy es fácil recuperar la información precisa si se utiliza un lenguaje para representar el contenido semántico de los documentos y soportar las inferencias lógicas. Sin embargo, la mayor parte de los documentos contenidos en la Web carecen de una estructuración semántica.
Los lenguajes de recuperación de información (también query languages) son lenguajes informáticos utilizados para recuperar información de sus almacenes. Puede definirse un lenguaje de recuperación como un conjunto de órdenes, operadores y estructuras que, organizados según unas normas lógicas, permiten la consulta de fuentes y recursos de información electrónica. El resultado de la combinación de estos elementos, siguiendo las normas establecidas, es una expresión, a la que se identifica con el nombre ecuación, capaz de interrogar el contenido de la fuente de información. La definición mínima de un lenguaje de interrogación y de sus componentes puede encontrarse en el borrador de norma ISO 8777-1988.
Los lenguajes de recuperación pueden dividirse en dos grandes grupos, distinguiendo si su uso se enfoca a las bases de datos relacionales o a la recuperación de información.
Lenguajes de recuperación a tratar

En las diversas páginas que componen nuestra wiki, ofrecemos información de los distintos lenguajes de recuperación y acceso a la información para la Web:
·        Lenguajes de recuperación en XML
·        Lenguajes de recuperación en Topic Maps
·        Lenguajes de recuperación en RDF
·        Lenguajes de recuperación en OWL
·        Lenguajes de recuperación en bases de datos

Fuente:  RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN

viernes, octubre 29, 2010

SISTEMAS DE RECOMENDACIÓN SEMÁNTICOS

"recuperación de información" "programa de sistemas de información" "Universidad de La Salle"

Uno de los principales retos que hoy día tienen que afrontar los sistemas de información es la gestión eficaz del gran volumen de documentos que almacenan para poder facilitar a los consumidores de información el acceso a recursos que satisfagan sus necesidades de una manera sencilla y ágil. Esta necesidad se vuelve más acuciante en una sociedad como la actual donde el nivel de exigencia de los usuarios es cada vez mayor.

Tradicionalmente, en el ámbito de las bibliotecas el problema de la sobrecarga de información se ha abordado adoptando diferentes medidas, como por ejemplo la creación de servicios de difusión selectiva de información (DSI), en los que, de acuerdo al perfil de los usuarios suscritos al servicio, se generan periódicamente (o a petición del propio usuario) una serie de alertas en las que se les notifica de la existencia de recursos que se adecuan a sus intereses (Aksoy et al., 1998), (Foltz; Dumais, 1992).

La Web, aunque presenta características propias que la diferencian claramente de las bibliotecas, padece, en esencia, el mismo problema y los esfuerzos para atenuarlo se centran en la aplicación de soluciones similares, como es el caso de los sistemas de filtrado de información (también conocidos como sistemas de recomendación). De hecho, los sistemas de recomendación podrían considerarse sistemas de DSI aplicados a la Web pero, lógicamente, con unas capacidades de filtrado infinitamente más potentes y sofisticadas. Estos sistemas aplican técnicas de filtrado de información que facilitan el acceso de los usuarios a la información que necesitan. En dominios textuales, los sistemas de filtrado evalúan y criban los recursos disponibles en la Web (normalmente en formato HTML o XML) básicamente para asistir a los usuarios en tareas de recuperación de información (Resnick; Varian, 1997) (principalmente mediante el uso de agentes de filtrado), aunque también se utilizan para predecir la valoración de los usuarios sobre ítems que aún no han evaluado (Szomszor, 2007).

miércoles, octubre 27, 2010

DIFUSIÓN CULTURAL: INNOVACIÓN Y LECTORES ELECTRÓNICOS

"recuperación de información" "programa de sistemas de información" "Universidad de La Salle"

Después de intentarlo en diversas ocasiones en los últimos 20 años, puede ser que los lectores de libros electrónicos entren a formar parte al fin de nuestra realidad cotidiana. No obstante, las significativas diferencias entre el nuevo iPad de Apple y el resto de competidores son un claro indicio de que estamos ante un medio nuevo que no sabemos como usar. De hecho, ésa no es la excepción, si no más bien la regla en el conjunto de las posibles aplicaciones interactivas: estamos lejos de saber explotar las propiedades del medio digital para construir discursos que no tengan parangón en medios anteriores.

Se trata de reflexionar sobre las características intrínsecas del medio interactivo, centrándose en las aplicaciones de difusión cultural y en entornos de recepción personales, semejantes a un ordenador multimedia con un dispositivo señalador como un ratón o pantalla táctil y que incluyen a los lectores electrónicos. La reflexión teórica se sustentará en el análisis de la historia de los CD-ROM de difusión cultural que se desarrollaron durante la década de 1990. Las conclusiones pueden abrir vías de reflexión útiles para el conocimiento y desarrollo de aplicaciones de difusión cultural que en verdad aprovechen las características de los futuros lectores electrónicos.

Los lectores electrónicos hoy

domingo, octubre 24, 2010

Extracción de palabras clave de páginas web, basada en criterios de posicionamiento en buscadores

"recuperación de información" "programa de sistemas de información" "Universidad de La Salle"

La World Wide Web representa un universo de información y de conocimiento donde a menudo resulta difícil localizar la información pertinente que necesitamos. Los algoritmos basados en el análisis de enlaces han supuesto una gran mejora en la ordenación de los resultados, sin embargo aún queda mucho camino por recorrer, en especial si se quiere automatizar una parte más amplia del proceso de recuperación de información mediante agentes de búsqueda inteligentes.

La propuesta de la Web semántica (Berners-Lee, 2001) puede representar un gran avance en este ámbito porque propone un cambio de paradigma: transformar la actual web basada casi exclusivamente en lenguaje natural a una web estructurada y organizada, donde los contenidos en lenguaje natural son etiquetados semánticamente de forma explícita para conseguir que las máquinas puedan interpretarlos. De esta forma se facilitaría el procesamiento automático de los contenidos de la web y uno de estos procesos sería precisamente la recuperación de información (Ding, 2005).

El etiquetado y la asignación de metadatos son por tanto elementos básicos del proyecto de la Web semántica, con implicaciones para cualquiera que esté relacionado con la creación y distribución de contenidos en la web. El nuevo paradigma supone una nueva forma de crear contenidos, donde sus responsables deben asumir la tarea de su etiquetado si quieren que estos sean interpretables semánticamente por los nuevos buscadores y aplicaciones de usuario. En este contexto, surge la necesidad de herramientas que faciliten la creación automática o semi automática de esta metainformación y que asegure su calidad.

viernes, octubre 22, 2010

RECUPERACION Y ORGANIZACIÓN DE LA INFORMACIÓN

Sistemas de búsqueda Question-Answering

Una de las tareas más avanzadas en Recuperación de Información (RI) es aquella que busca, no documentos relevantes ante una necesidad informativa dada, sino respuestas precisas a necesidades de información concretas, empleando una gran colección de documentos. Esto es lo que se conoce como búsqueda de respuestas, Question Answering en inglés, cuyas siglas, QA, suelen utilizarse sin traducir. Los sistemas de Question-Answering deben extraer la respuesta después de localizar la zona de los documentos que pueda estar relacionada con la afirmación: "Se busca encontrar un fragmento de texto mínimo que responda la pregunta". Por eso, algunas aproximaciones a este problema están basadas en la recuperación de pasajes o fragmentos de texto (VICEDO 2003; WOODS 2000). La respuesta puede ser extraída después mediante algún proceso automático o, si el sistema no es capaz de proporcionar una respuesta válida de una manera totalmente autónoma, debe disponerse algún proceso de realimentación con el usuario, para que pueda satisfacer su necesidad informativa. La interacción con el usuario ayuda al sistema de Question-Answering a encontrar mejores respuestas. A su vez, el sistema de Question-Answering ayuda al usuario a encontrar la respuesta más rápidamente.

El proceso interactivo de Question-Answering posee hoy día un amplio interés, debido al aumento de la web y a la necesidad cada vez más urgente de obtener información precisa. A ello unimos los avances en Recuperacion de la Informacion y en el procesamiento del lenguaje natural (PLN), que han hecho resurgir de nuevo el interés en los sistemas de Question-Answering claramente enfocados a la web. La enorme cantidad de información en la web hace de Question-Answering una poderosa herramien- ta para encontrar información ante una necesidad informativa dada.

miércoles, octubre 20, 2010

LAS COMUNIDADES VIRTUALES

Se podría definir a las Comunidades Virtuales como "lugares" dentro del ciberespacio en el que interaccionan personas con intereses, aficiones, o motivaciones comunes. “Comunidad virtual es aquel contexto social en el que, entre sus miembros, se producen y mantienen interacciones en las que se negocian significados, al tiempo que sus propias identidades, en una dinámica de construcción de un sistema cultural o cibercultura que les permite acceder, compartir, cogenerar y construir conocimiento socialmente”.

TIPOS DE COMUNIDADES VIRTUALES

A continuación se identificarán cuáles son las diferentes herramientas existentes para la creación de comunidades virtuales:

1) Foros de discusión

Los foros de discusión son una herramienta, sustentada en una base de datos alojada en un servidor, que permite a los usuarios que se conecten a la misma, mediante el uso de su navegador, leer los mensajes incluidos por el resto de miembros de la comunidad, elegir el tema de interés (de forma que se puedan filtrar los mensajes) e incluir si se desea una respuesta a los mensajes visualizados. Un buen ejemplo de esta tecnología se puede encontrar en ICTNet, quizá la comunidad de profesionales de habla hispana que mayor éxito ha tenido en Internet hasta el momento.

El tipo de base de datos que se utilice, o mejor dicho, el software que gestiona la base de datos y que publica los mismos en la web, determinará la forma en la que los usuarios visualizan los mensajes. En este sentido, algunos programas publican los mensajes de forma cronológica, mientras que otros agrupan los mensajes por tema, creando así "arboles" que facilitan el seguimiento de un debate.

Por último, debe señalarse la necesidad de que estos sistemas incluyan la posibilidad de hacer llegar a los participantes los mensajes añadidos el mismo día o la última semana, o bien un resumen de los mismos a través del correo electrónico. Algunos de ellos, incluso incluyen la posibilidad de avisar al individuo cuando alguien ha contestado a un mensaje publicado previamente.

2) Email y email groups

La herramienta de comunicación más antigua en el desarrollo de CVs es seguramente el email, ya que se trata de una de las primeras tecnologías que se generalizaron en Internet. Normalmente, las CVs organizadas mediante email utilizan emails groups o listas de correo, es decir, un sistema de software, más o menos complejo (list-bot), a través del cual los mensajes enviados por un miembro de la CV son reenviados al resto.

Actualmente, el uso de listas de correo como herramienta exclusiva en la gestión de CVs es poco habitual. Lo normal es que se encuentre asociado a una página web que sirve de soporte y mecanismo promocional a la comunidad. En todo caso, existen algunos colectivos cuya única fuente de contacto es el email, como por ejemplo ciertos grupos de investigación.

Existen miles de listas de correo (ver el buscador www.liszt.com/), y en muchas ocasiones, suelen estar asociadas al envío de boletines (newsletter). Además, cabe señalar la conveniencia de que estas listas posean algún tipo de mecanismo de seguridad que impida: (1) que se inscriban en las mismas individuos cuyo perfil no sea el adecuado o (2) que terceros añadan a otros en las listas sin su permiso (una posibilidad es utilizar email de confirmación). Por último, indicar que en muchas ocasiones estas listas necesitan de la moderación para evitar mensajes indeseados como el spam.

ALFABETIZACIÓN INFORMACIONAL (ALFIN)

La alfabetización informacional, expresión conocida por el acrónimo ALFIN, proviene de la traducción de Information literacy, y surge de la evolución y maduración de conceptos y prácticas que se han dado en contextos educativos y bibliotecarios.

Supone mucho más que realizar:

- cursos de informática y acceso a Internet

- actividades de animación y comprensión lectora con textos informativos, impresos y electrónicos

- actividades de formación de usuarios para la localización de materiales

- un eficaz servicio de consulta y préstamo en la mediateca escolar

- trabajos escolares en las bibliotecas, sacando información de enciclopedias u otros documentos.

Su finalidad última es el aprendizaje a lo largo de la vida, siendo las bibliotecas, con sus recursos materiales y humanos, un entorno esencial para la educación formal, no formal e informal. En este sentido, implica a docentes y bibliotecarios, como las dos caras de la misma moneda de este nuevo proceso alfabetizador, de un aprendizaje basado en recursos y en el desarrollo de habilidades para aprender a aprender.

lunes, octubre 18, 2010

LAS REDES ACADÉMICAS AVANZADAS

UNA OPORTUNIDAD PARA COMPARTIR EVENTOS INTERACTIVOS DE DIVULGACIÓN

Los sistemas de telecomunicación se han convertido en un apoyo importante para la difusión de la cultura.Videoconferencias interactivas y sistemas de video en Internet son herramientas muy usadas para la transmisión de eventos culturales importantes y son actualmente medios de comunicación cada vez más accesibles a las instituciones dedicadas a la divulgación de la ciencia.

En Universum, el Museo de las Ciencias de la UNAM, el uso de las herramientas de telecomunicación ha ampliado el área de impacto de las actividades, ha mejorado los mecanismos de colaboración para compartir experiencias exitosas de atención a los jóvenes y ha creado nuevas posibilidades educativas para los visitantes.

El hecho de que el museo Universum forme parte de la Dirección General de Divulgación de la Ciencia de la Universidad Nacional representa tener acceso a las modernas redes académicas de banda ancha, las cuales son una línea de comunicación con amplia capacidad que garantiza transmisiones interactivas de calidad con instituciones de casi todo el mundo. Esta facilidad se aprovecha en el museo mediante el proyecto “Divulgación de la ciencia a distancia”, el cual involucra la transmisión regular de algunas de las actividades de Universum hacia lugares distantes, por medio de videoconferencia interactiva y transmisiones de webcast. Aunque la mayoría de las transmisiones del proyecto se realizan hacia diversos Estados de la República Mexicana, el siguiente trabajo presenta también los casos de colaboración con instituciones en otros países del continente y muestra las posibles vías para compartir eventos a distancia entre programas, museos o centros de ciencia de Latinoamérica aprovechando las redes académicas avanzadas.

sábado, octubre 16, 2010

SEGURIDAD DE LA INFORMACIÓN

Los DRM y las bibliotecas, la confidencialidad y el respeto a la vida privada

los sistemas de protección y gestión de derechos (DRM) imponen en su operatividad el control de quiénes pueden utilizar las obras que administran, así como los usos que cada individuo efectúa de dichas obras. Resultará difícil que las bibliotecas puedan eludir el control individual de las obras accesibles desde la institución o dicho de una forma más directa: es muy difícil que las bibliotecas puedan garantizar a los usuarios el anonimato en el uso de los fondos, principio de confidencialidad proclamado en diversas declaraciones y manifiestos de UNESCO, ALA, IFLA o del Consejo de Europa. Es decir, el derecho a leer anónimamente está amenazado y con ello el derecho fundamental a la libertad de pensamiento, pues es muy fácil identificar lo que la gente lee con lo que la gente piensa.

En efecto los DRM, imponen en primer lugar restricciones a la utilización de las obras, pero en un segundo nivel de control informan al titular de los derechos de las actividades individuales de cada usuario (por ejemplo. los titulares de los derechos de una revista que se citó y a la que se ha tenido acceso a través de la Biblioteca Complutense saben los usos realizados: guardar el archivo pdf e imprimirlo; saben cuál es el terminal desde el que se concetó el usuario, saben los artículos que utilizo en la misma sesión y seguramente saben también la tendencia que reflejan esos artículos y el conjunto de esas publicaciones, al menos el perfil de usuario estará guardado en algún sitio, junto a otros usuarios de ese mismo servicio y, al menos, servirá para negociar la licencia de acceso del próximo año ¿sólo servirá para eso? Si han utilizado algún sistema inteligente, saben también qué guardó en el ordenador utilizado... y que escucha música en MP3, mientras hace las búsquedas?).

miércoles, octubre 13, 2010

TÉCNICAS DE RECUPERACIÓN DE INFORMACIÓN

Sistemas de recuperación de lógica difusa. Permite establecer consultas con frases normales. La máquina, al realizar la búsqueda, elimina signos de puntuación, artículos, conjunciones, plurales, tiempos verbales, etc., dejando sólo las palabras relevantes. La recuperación se basa en proposiciones lógicas con valores de verdadero y falso, teniendo en cuenta la localización de la palabra en el documento.
Técnicas de ponderación de términos. En la búsqueda unos criterios tienen más valor que otros, dependiendo de los intereses del usuario. Los documentos recuperados se encuentran en función del valor obtenido en la ponderación. El documento más pertinente de búsqueda sería aquel que tenga representado todos los términos de búsqueda y, además, el que más valor tenga repetidos más veces.
Técnica de clustering. Es un modelo probabilístico que permite las frecuencias de los términos de búsqueda en los documentos recuperados. Se atribuyen unos valores (pesos) que actúan como agentes para agrupar los documentos por orden de importancia, mediante algoritmos ranking.Algoritmos utilizados para realizar la categorización (cluster): clustering
  • Algoritmo K means
  • COBWEB
  • Algoritmo EM
Técnicas de retroalimentación por relevancia. Con ella, se pretende obtener el mayor número de documentos relevantes. El proceso consiste en repetir nuevamente la consulta; pero esta vez con los elementos interesantes, selecciona dos de los documentos primeramente recuperados.
Técnicas de stemming. Morfológicamente las palabras están estructuradas en prefijos, sufijos y la raíz. La técnica de Stemming lo que pretende es eliminar las posibles confusiones semánticas que se puedan dar en la búsqueda de un concepto, para ello trunca la palabra y busca solo por la raíz. Algoritmos utilizados para desechar prefijos y sufijos:
  • Paice/Husk
  • S stemmer / n gramas
  • Técnicas lingüísticas
Pretenden acotar los documentos relevantes. Esta técnica lo consigue mediante una correcta indización en el proceso de tratamiento de los documentos con ayuda de índices, tesauros, etc.; evitando las ambigüedades léxicas y semánticas a la hora de establecer las consultas.
Metadatos. Se utilizan para detectar información relevante. Las etiquetas describen el contenido del recurso web. Principalmente son las etiquetas de palabra clave y título las que dan paso a localizar el documento.

domingo, octubre 10, 2010

IMPORTANCIA DE LA SEGURIDAD DE LA INFORMACIÓN

La importancia que tiene la seguridad de la información y el poder que implica manejar información es un tema muy delicado que no está en el conocimiento de muchos. En el contexto de internet, muchos usuarios no le dan mayor importancia a la información que publican en la red y de qué forma lo hacen y más aún, muchos no diferencian lo privado de lo público, no por que no quieran o porque no saben cómo diferenciar una cosa de la otra, simplemente es por ignorancia, el problema radica en la recuperación de la información. Para mucha gente es normal pertenecer en redes sociales y publicar su vida, mientras más conocidos sean y más amigos tengan en esa red social más importante se creen y es esta “vulnerabilidad” la que se está explotando: La ingenuidad y/o ignorancia del usuario. Por otro lado están las empresas, quienes son las encargadas de manejar la información privada y/o pública que los usuarios les confían, por ejemplo en el caso de un concurso, típicamente los datos que piden son nombre, apellido, ciudad, Rut/DNI, etc.

La pregunta que sale a flote es ¿Para qué quieren el Rut/DNI en un concurso, si con el teléfono es suficiente para que los puedan ubicar? La respuesta es simple, todos esos datos van a una base de datos que puede ser vendida o usada para enviar publicidad no deseada, más conocido como spam. Con seguridad a nadie le gustaría que esto fuese realidad, pero lo es. Por más que la empresa intente explicar por medio de “letra chica” o “términos y condiciones” que el uso de la información suministrada está fuera de peligro y que serán usados sólo para tal y tal fin. Pues eso es mentira. Se han escuchado experiencias y existen las pruebas necesarias de que eso no ocurre, ni si quiera las entidades del gobierno son capaces de cumplir con algo tan básico como es la protección de la información privada y, de hecho, ni si quiera los mismos usuarios son capaces de proteger su información.
Cabe dentro del tema hacer un análisis de los tipos de passwords que son inseguros, se han clasificado de la siguiente manera:

viernes, octubre 08, 2010

TECNICAS SEO Y SEM

SEO y SEM son técnicas publicitarias por la web universalmente aceptadas por los usuarios con las variaciones propias de cada caso en particular. Las técnicas que se usan en la actualidad para atraer visitantes a una determinada página web pueden ser varias, pero las más difundidas son dos: SEO (optimización de la búsqueda en buscadores) y SEM (“mercadeo” en buscadores).

MUNDO SEO

SEO es en realidad un grupo de pasos y procesos que se ponen en práctica para poder aumentar en forma significativa el número de visitas que se hacen a un determinado sitio web, con este incremento de visitas se logra hacer subir en el “ránking” a ese sitio web en los buscadores más conocidos y consultados,o sea que lo que se consigue es mejorar el posicionamiento de un sitio web dentro de un buscador, lo cual redundará obviamente en beneficios para ese sitio a la hora de publicitar en él. Con esta técnica logramos que nuestra página se ubique lo más alto posible en Google, MSN, Yahoo y todos aquellos buscadores que aseguren un alto número de visitas.
Las técnicas para mejorar el posicionamiento en los buscadores, teniendo la precaución de usar las palabras o frases correctas, son muchas, y deben ser ineludiblemente tenidas en cuenta si se quiere lograr éxito en el tráfico de nuestra página. Ninguna de estas técnicas de posicionamiento es considerada ilegal por los distintos buscadores, mientras no se violen reglas básicas de lealtad comercial y políticas del buscador en cuestión.

MUNDO SEM

SEM son las iniciales en Inglés de “Search Engine Marketing” o , traducido a nuestro idioma, “mercadeo por la web”. Tiene en cuenta todo lo que se relaciona con el marketing y la publicidad dentro de los sistemas de búsqueda en la red,prácticamente todos los buscadores en Internet tienen algún sistema propio de publicidad dentro de su estructura que complementa los servicios que ofrecen a los usuarios, tanto los que visitan el buscador a la espera de encontrar algo como los que presentan sus notas o servicios mediante dicho buscador.Desde ya que estos sistemas pueden direccionar la publicidad de acuerdo a la búsqueda que está realizando el usuario. Así las campañas publicitarias ya parten de un segmento de usuarios que de hecho puede estar interesado en el producto que se publicita.

LA SOCIEDAD DE LA INFORMACIÓN

La Sociedad de la Información es expresión de las realidades y capacidades de los medios de comunicación más nuevos, o renovados merced a los desarrollos tecnológicos que se consolidaron en la última década del siglo: la televisión, el almacenamiento de información, la propagación de video, sonido y textos, han podido comprimirse en soportes de almacenamiento como los discos compactos o a través de señales que no podrían conducir todos esos datos si no hubieran sido traducidos a formatos digitales. La digitalización de la información es el sustento de la nueva revolución informática. Su expresión hasta ahora más compleja, aunque sin duda seguirá desarrollándose para quizá asumir nuevos formatos en el mediano plazo, es la Internet.


CARACTERÍSTICAS DE LA SOCIEDAD DE LA INFORMACIÓN
  1. Exuberancia.. Disponemos de una apabullante y diversa cantidad de datos. Se trata de un volumen de información tan profuso que es por sí mismo parte del escenario en donde nos desenvolvemos todos los días.
  2. Omnipresencia. Los nuevos instrumentos de información, o al menos sus contenidos, los encontramos por doquier, forman parte del escenario público contemporáneo (son en buena medida dicho escenario) y también de nuestra vida privada. Nuestros abuelos (o bisabuelos, según el rango generacional en el que estemos ubicados) fueron contemporáneos del surgimiento de la radio, se asombraron con las primeras transmisiones de acontecimientos internacionales y tenían que esperar varios meses a que les llegara una carta del extranjero; para viajar de Barcelona a Nueva York lo más apropiado era tomar un buque en una travesía de varias semanas. La generación siguiente creció y conformó su imaginario cultural al lado de la televisión, que durante sus primeras décadas era sólo en blanco y negro, se enteró con pasmo y gusto de los primeros viajes espaciales, conformó sus preferencias cinematográficas en la asistencia a la sala de cine delante de una pantalla que reflejaba la proyección de 35mm y ha transitado no sin asombro de la telefonía alámbrica y convencional a la de carácter celular o móvil. Los jóvenes de hoy nacieron cuando la difusión de señales televisivas por satélite ya era una realidad, saben que se puede cruzar el Atlántico en un vuelo de unas cuantas horas, han visto más cine en televisión y en video que en las salas tradicionales y no se asombran con la Internet porque han crecido junto a ella durante la última década: frecuentan espacios de chat, emplean el correo electrónico y manejan programas de navegación en la red de redes con una habilidad literalmente innata. Esa es la Sociedad de la Información. Los medios de comunicación se han convertido en el espacio de interacción social por excelencia, lo cual implica mayores facilidades para el intercambio de preocupaciones e ideas pero, también, una riesgosa supeditación a los consorcios que tienen mayor influencia, particularmente en los medios de difusión abierta (o generalista, como les llaman en algunos sitios).
  3. Irradiación. La Sociedad de la Información también se distingue por la distancia hoy prácticamente ilimitada que alcanza el intercambio de mensajes. Las barreras geográficas se difuminan; las distancias físicas se vuelven relativas al menos en comparación con el pasado reciente. Ya no tenemos que esperar varios meses para que una carta nuestra llegue de un país a otro. Ni siquiera debemos padecer las interrupciones de la telefonía convencional. Hoy en día basta con enviar un correo electrónico, o e-mail, para ponernos en contacto con alguien a quien incluso posiblemente no conocemos y en un país cuyas coordenadas tal vez tampoco identificamos del todo.
  4. Velocidad. La comunicación, salvo fallas técnicas, se ha vuelto instantánea. Ya no es preciso aguardar varios días, o aún más, para recibir la respuesta del destinatario de un mensaje nuestro e incluso existen mecanismos para entablar comunicación simultánea a precios mucho más bajos que los de la telefonía tradicional.
  5. Multilateralidad / Centralidad. Las capacidades técnicas de la comunicación contemporánea permiten que recibamos información de todas partes, aunque lo más frecuente es que la mayor parte de la información que circula por el mundo surja de unos cuantos sitios. En todos los países hay estaciones de televisión y radio y en muchos de ellos, producción cinematográfica.. Sin embargo el contenido de las series y los filmes más conocidos en todo el mundo suele ser elaborado en las metrópolis culturales. Esa tendencia se mantiene en la Internet, en donde las páginas más visitadas son de origen estadounidense y, todavía, el país con más usuarios de la red de redes sigue siendo Estados Unidos.
  6. Interactividad / Unilateralidad. A diferencia de la comunicación convencional (como la que ofrecen la televisión y la radio tradicionales) los nuevos instrumentos para propagar información permiten que sus usuarios sean no sólo consumidores, sino además productores de sus propios mensajes. En la Internet podemos conocer contenidos de toda índole y, junto con ello, contribuir nosotros mismos a incrementar el caudal de datos disponible en la red de redes. Sin embargo esa capacidad de la Internet sigue siendo poco utilizada. La gran mayoría de sus usuarios son consumidores pasivos de los contenidos que ya existen en la Internet.
  7. Desigualdad. La Sociedad de la Información ofrece tal abundancia de contenidos y tantas posibilidades para la educación y el intercambio entre la gente de todo el mundo, que casi siempre es vista como remedio a las muchas carencias que padece la humanidad. Numerosos autores, especialmente los más conocidos promotores de la Internet, suelen tener visiones fundamentalmente optimistas acerca de las capacidades igualitarias y liberadoras de la red de redes (por ejemplo Gates: 1995 y 1999 y Negroponte, 1995). Sin embargo la Internet, igual que cualquier otro instrumento para la propagación y el intercambio de información, no resuelve por sí sola los problemas del mundo. De hecho, ha sido casi inevitable que reproduzca algunas de las desigualdades más notables que hay en nuestros países. Mientras las naciones más industrializadas extienden el acceso a la red de redes entre porcentajes cada vez más altos de sus ciudadanos, la Internet sigue siendo ajena a casi la totalidad de la gente en los países más pobres o incluso en zonas o entre segmentos de la población marginados aún en los países más desarrollados.
  8. Heterogeneidad. En los medios contemporáneos y particularmente en la Internet se duplican y multiplican actitudes, opiniones, pensamientos y circunstancias que están presentes en nuestras sociedades. Si en estas sociedades hay creatividad, inteligencia y arte, sin duda algo de eso se reflejará en los nuevos espacios de la Sociedad de la Información. Pero de la misma manera, puesto que en nuestras sociedades también tenemos prejuicios, abusos, insolencias y crímenes, también esas actitudes y posiciones estarán expresadas en estos medios. Particularmente, la Internet se ha convertido en foro para manifestaciones de toda índole aunque con frecuencia otros medios exageran la existencia de contenidos de carácter agresivo o incómodo, según el punto de vista de quien los aprecie.
  9. Desorientación. La enorme y creciente cantidad de información a la que podemos tener acceso no sólo es oportunidad de desarrollo social y personal. También y antes que nada, se ha convertido en desafío cotidiano y en motivo de agobio para quienes recibimos o podemos encontrar millares de noticias, símbolos, declaraciones, imágenes e incitaciones de casi cualquier índole a través de los medios y especialmente en la red de redes. Esa plétora de datos no es necesariamente fuente de enriquecimiento cultural, sino a veces de aturdimiento personal y colectivo. El empleo de los nuevos medios requiere destrezas que van más allá de la habilidad para abrir un programa o poner en marcha un equipo de cómputo. Se necesitan aprendizajes específicos para elegir entre aquello que nos resulta útil, y lo mucho de lo que podemos rescindir.
  10. Ciudadanía pasiva. La dispersión y abundancia de mensajes, la preponderancia de los contenidos de carácter comercial y particularmente propagados por grandes consorcios mediáticos y la ausencia de capacitación y reflexión suficientes sobre estos temas, suelen aunarse para que en la Sociedad de la Información el consumo prevalezca sobre la creatividad y el intercambio mercantil sea más frecuente que el intercambio de conocimientos. No pretendemos que no haya intereses comerciales en los nuevos medios –al contrario, ellos suelen ser el motor principal para la expansión de la tecnología y de los contenidos–. Pero sí es pertinente señalar esa tendencia, que se ha sobrepuesto a los proyectos más altruistas que han pretendido que la Sociedad de la Información sea un nuevo estadio en el desarrollo cultural y en la humanización misma de nuestras sociedades.

martes, octubre 05, 2010

TECNOLOGÍAS DE INFORMACIÓN Y LAS COMUNICACIÓNES (TIC)

Las Tecnologías de la Información y las Comunicaciones (en adelante TIC), son el conjunto de recursos, herramientas, equipos, programas informáticos, aplicaciones, redes y medios, que permiten la compilación, procesamiento, almacenamiento, transmisión de información como: voz, datos, texto, vídeo e imágenes.

LEY 1341 (30 de julio de 2009)

El Presidente Álvaro Uribe sancionó la Ley 1341 del 30 de julio de 2009 con la que se busca darle a Colombia un marco normativo para el desarrollo del sector de Tecnologías de Información y Comunicaciones (TIC), promueve el acceso y uso de las TIC a través de la masificación, garantiza la libre competencia, el uso eficiente de la infraestructura y el espectro, y en especial, fortalece la protección de los derechos de los usuarios.
Según el Ministerio de Comunicaciones, la nueva Ley permite a los operadores prestar cualquier servicio que técnicamente sea viable, pone en igualdad de condiciones a los operadores en el momento de prestar dichos servicios y hace especial énfasis en la protección de los usuarios de telecomunicaciones. En adelante los ciudadanos que tengan quejas en la prestación de servicios de telefonía móvil, internet o telefonía fija, podrán acudir a la Superintendencia de Industria y Comercio, única entidad encargada de resolver sus reclamaciones.

El Derecho a la comunicación, la información y la educación y los servicios básicos de las TIC

El Estado propiciará a todo colombiano el derecho al acceso a las tecnologías de la información y las comunicaciones básicas, que permitan el ejercicio pleno de los siguientes derechos: La libertad de expresión y de difundir su pensamiento y opiniones, la de informar y recibir información veraz e imparcial, la educación y el acceso al conocimiento, a la ciencia, a la técnica, y a los demás bienes y valores de la cultura. Adicionalmente el Estado establecerá programas para que la población de los estratos desarrollará programas para que la población de los estratos menos favorecidos y la población rural tengan acceso y uso a las plataformas de comunicación, en especial de Internet y contenidos informáticos y de educación integral.

EXTRACCIÓN DE INFORMACIÓN (IE)

EXTRACCIÓN DE INFORMACIÓN (IE)

Es la búsqueda realizada manual o automatizadamente de términos, párrafos o partes de un documento, que contengan la información requerida por un usuario a partir de una pregunta o interrogante, y cuyos resultados serán presentados de forma estructurada. La información plasmada en lenguaje natural en un documento se presenta casi siempre de manera no estructurada (texto libre). Esto ha supuesto un obstáculo para la recuperación, por parte de las máquinas, de la información contenida en un documento.

La extracción de información tiene por objetivo que la información desestructurada de un documento sea más accesible y recuperable por parte de la máquina. En otras palabras, se trata de estructurar la información de un documento, de modo que la máquina pueda recuperar la información contenida en el documento. La extracción de información se basa en el uso de técnicas de procesamiento del lenguaje natural sobre dominios muy acotados.

Es preciso diferenciar entre el concepto de extracción de información y el de recuperación de la información. Mientras la recuperación de información se refiere a la recuperación de documentos relevantes existentes en una colección, la extracción de información trata de extraer la información relevante en los documentos.


PROBLEMA DE LOS LENGUAJES DE CONSULTA Y RECUPERACIÓN DE INFORMACIÓN 

TRANSFORMACIÓN DE LENGUAJES
Es el proceso de estandarización de una consulta, para que de esta forma sea "entendida" por una máquina, si los resultados obtenidos después de este proceso no llenan por completo el vacio cognitivo, se debe realizar un cambio en la necesidad inicialmente planteada, esto quiere decir que hay que reformular la pregunta o interrogante hasta obtener información de gran relavancia sobre el tema consultado. LA CLAVE ESTA EN SABER PREGUNTAR.

TIPOS DE REPRESENTACIÓN DE LA INFORMACIÓN
  • Lenguaje natural humano: Lenguaje utilizado de forma cotidiana para la comunicación, es comprensible para un gran número de ususarios, permite expresar cualquier significado o concepto y es tolerante a fallos; pero presenta inconvenientes o desventajas como la ambigüedad, poco conciso y es de dificil interpretación por parte de un computador.

  • Lenguaje natural restringido: Es un subconjunto del lenguaje natural ya que al poseer terminos controlados, hace uso de leguajes también controlados por ejemplo: Las taxonomías y los tesauros. Este lenguaje restringido limita el vocabulario que puede ser utilizado y las reglas sintacticas que pueden aplicarse al mismo, pero presenta inconvenientes tales como la forma de definición de las restricciones, la no aceptación por parte de los usuarios al no poder expresar la información como ellos desearían y adicional a esto se corre el riesgo de que las reglas sintacticas sean pocas y no representen en su totalidad la información deseada.

  • Lenguaje artificial: Es el lenguaje informático, compuesto por un vocabulario muy limitado y por unas reglas sintacticas claras y específicas que no dan lugar a ambigüedades, se gana en la capacidad de almacenamiento y en la simplicidad de los procesos, es fácil controlar los errores cometidos a través de su uso pero la gran desventaja es que los usuarios deben apreneder un lenguaje muy diferente al lenguaje natural.