Mostrando entradas con la etiqueta Recuperación de información. Mostrar todas las entradas
Mostrando entradas con la etiqueta Recuperación de información. Mostrar todas las entradas

miércoles, octubre 13, 2010

TÉCNICAS DE RECUPERACIÓN DE INFORMACIÓN

Sistemas de recuperación de lógica difusa. Permite establecer consultas con frases normales. La máquina, al realizar la búsqueda, elimina signos de puntuación, artículos, conjunciones, plurales, tiempos verbales, etc., dejando sólo las palabras relevantes. La recuperación se basa en proposiciones lógicas con valores de verdadero y falso, teniendo en cuenta la localización de la palabra en el documento.
Técnicas de ponderación de términos. En la búsqueda unos criterios tienen más valor que otros, dependiendo de los intereses del usuario. Los documentos recuperados se encuentran en función del valor obtenido en la ponderación. El documento más pertinente de búsqueda sería aquel que tenga representado todos los términos de búsqueda y, además, el que más valor tenga repetidos más veces.
Técnica de clustering. Es un modelo probabilístico que permite las frecuencias de los términos de búsqueda en los documentos recuperados. Se atribuyen unos valores (pesos) que actúan como agentes para agrupar los documentos por orden de importancia, mediante algoritmos ranking.Algoritmos utilizados para realizar la categorización (cluster): clustering
  • Algoritmo K means
  • COBWEB
  • Algoritmo EM
Técnicas de retroalimentación por relevancia. Con ella, se pretende obtener el mayor número de documentos relevantes. El proceso consiste en repetir nuevamente la consulta; pero esta vez con los elementos interesantes, selecciona dos de los documentos primeramente recuperados.
Técnicas de stemming. Morfológicamente las palabras están estructuradas en prefijos, sufijos y la raíz. La técnica de Stemming lo que pretende es eliminar las posibles confusiones semánticas que se puedan dar en la búsqueda de un concepto, para ello trunca la palabra y busca solo por la raíz. Algoritmos utilizados para desechar prefijos y sufijos:
  • Paice/Husk
  • S stemmer / n gramas
  • Técnicas lingüísticas
Pretenden acotar los documentos relevantes. Esta técnica lo consigue mediante una correcta indización en el proceso de tratamiento de los documentos con ayuda de índices, tesauros, etc.; evitando las ambigüedades léxicas y semánticas a la hora de establecer las consultas.
Metadatos. Se utilizan para detectar información relevante. Las etiquetas describen el contenido del recurso web. Principalmente son las etiquetas de palabra clave y título las que dan paso a localizar el documento.

HERRAMIENTAS WEB 2.0

Check out this SlideShare Presentation:
Herramientas web 2.0
View more presentations from omis rin.

domingo, octubre 10, 2010

IMPORTANCIA DE LA SEGURIDAD DE LA INFORMACIÓN

La importancia que tiene la seguridad de la información y el poder que implica manejar información es un tema muy delicado que no está en el conocimiento de muchos. En el contexto de internet, muchos usuarios no le dan mayor importancia a la información que publican en la red y de qué forma lo hacen y más aún, muchos no diferencian lo privado de lo público, no por que no quieran o porque no saben cómo diferenciar una cosa de la otra, simplemente es por ignorancia, el problema radica en la recuperación de la información. Para mucha gente es normal pertenecer en redes sociales y publicar su vida, mientras más conocidos sean y más amigos tengan en esa red social más importante se creen y es esta “vulnerabilidad” la que se está explotando: La ingenuidad y/o ignorancia del usuario. Por otro lado están las empresas, quienes son las encargadas de manejar la información privada y/o pública que los usuarios les confían, por ejemplo en el caso de un concurso, típicamente los datos que piden son nombre, apellido, ciudad, Rut/DNI, etc.

La pregunta que sale a flote es ¿Para qué quieren el Rut/DNI en un concurso, si con el teléfono es suficiente para que los puedan ubicar? La respuesta es simple, todos esos datos van a una base de datos que puede ser vendida o usada para enviar publicidad no deseada, más conocido como spam. Con seguridad a nadie le gustaría que esto fuese realidad, pero lo es. Por más que la empresa intente explicar por medio de “letra chica” o “términos y condiciones” que el uso de la información suministrada está fuera de peligro y que serán usados sólo para tal y tal fin. Pues eso es mentira. Se han escuchado experiencias y existen las pruebas necesarias de que eso no ocurre, ni si quiera las entidades del gobierno son capaces de cumplir con algo tan básico como es la protección de la información privada y, de hecho, ni si quiera los mismos usuarios son capaces de proteger su información.
Cabe dentro del tema hacer un análisis de los tipos de passwords que son inseguros, se han clasificado de la siguiente manera:

viernes, octubre 08, 2010

TECNICAS SEO Y SEM

SEO y SEM son técnicas publicitarias por la web universalmente aceptadas por los usuarios con las variaciones propias de cada caso en particular. Las técnicas que se usan en la actualidad para atraer visitantes a una determinada página web pueden ser varias, pero las más difundidas son dos: SEO (optimización de la búsqueda en buscadores) y SEM (“mercadeo” en buscadores).

MUNDO SEO

SEO es en realidad un grupo de pasos y procesos que se ponen en práctica para poder aumentar en forma significativa el número de visitas que se hacen a un determinado sitio web, con este incremento de visitas se logra hacer subir en el “ránking” a ese sitio web en los buscadores más conocidos y consultados,o sea que lo que se consigue es mejorar el posicionamiento de un sitio web dentro de un buscador, lo cual redundará obviamente en beneficios para ese sitio a la hora de publicitar en él. Con esta técnica logramos que nuestra página se ubique lo más alto posible en Google, MSN, Yahoo y todos aquellos buscadores que aseguren un alto número de visitas.
Las técnicas para mejorar el posicionamiento en los buscadores, teniendo la precaución de usar las palabras o frases correctas, son muchas, y deben ser ineludiblemente tenidas en cuenta si se quiere lograr éxito en el tráfico de nuestra página. Ninguna de estas técnicas de posicionamiento es considerada ilegal por los distintos buscadores, mientras no se violen reglas básicas de lealtad comercial y políticas del buscador en cuestión.

MUNDO SEM

SEM son las iniciales en Inglés de “Search Engine Marketing” o , traducido a nuestro idioma, “mercadeo por la web”. Tiene en cuenta todo lo que se relaciona con el marketing y la publicidad dentro de los sistemas de búsqueda en la red,prácticamente todos los buscadores en Internet tienen algún sistema propio de publicidad dentro de su estructura que complementa los servicios que ofrecen a los usuarios, tanto los que visitan el buscador a la espera de encontrar algo como los que presentan sus notas o servicios mediante dicho buscador.Desde ya que estos sistemas pueden direccionar la publicidad de acuerdo a la búsqueda que está realizando el usuario. Así las campañas publicitarias ya parten de un segmento de usuarios que de hecho puede estar interesado en el producto que se publicita.

martes, octubre 05, 2010

TECNOLOGÍAS DE INFORMACIÓN Y LAS COMUNICACIÓNES (TIC)

Las Tecnologías de la Información y las Comunicaciones (en adelante TIC), son el conjunto de recursos, herramientas, equipos, programas informáticos, aplicaciones, redes y medios, que permiten la compilación, procesamiento, almacenamiento, transmisión de información como: voz, datos, texto, vídeo e imágenes.

LEY 1341 (30 de julio de 2009)

El Presidente Álvaro Uribe sancionó la Ley 1341 del 30 de julio de 2009 con la que se busca darle a Colombia un marco normativo para el desarrollo del sector de Tecnologías de Información y Comunicaciones (TIC), promueve el acceso y uso de las TIC a través de la masificación, garantiza la libre competencia, el uso eficiente de la infraestructura y el espectro, y en especial, fortalece la protección de los derechos de los usuarios.
Según el Ministerio de Comunicaciones, la nueva Ley permite a los operadores prestar cualquier servicio que técnicamente sea viable, pone en igualdad de condiciones a los operadores en el momento de prestar dichos servicios y hace especial énfasis en la protección de los usuarios de telecomunicaciones. En adelante los ciudadanos que tengan quejas en la prestación de servicios de telefonía móvil, internet o telefonía fija, podrán acudir a la Superintendencia de Industria y Comercio, única entidad encargada de resolver sus reclamaciones.

El Derecho a la comunicación, la información y la educación y los servicios básicos de las TIC

El Estado propiciará a todo colombiano el derecho al acceso a las tecnologías de la información y las comunicaciones básicas, que permitan el ejercicio pleno de los siguientes derechos: La libertad de expresión y de difundir su pensamiento y opiniones, la de informar y recibir información veraz e imparcial, la educación y el acceso al conocimiento, a la ciencia, a la técnica, y a los demás bienes y valores de la cultura. Adicionalmente el Estado establecerá programas para que la población de los estratos desarrollará programas para que la población de los estratos menos favorecidos y la población rural tengan acceso y uso a las plataformas de comunicación, en especial de Internet y contenidos informáticos y de educación integral.

SISTEMAS DE RECUPERACIÓN DE INFORMACIÓN (SRI)

SISTEMAS DE RECUPERACIÓN DE INFORMACIÓN (SRI)
Según María Pinto--> La recuperación de información es el siguiente paso a la determinación de las necesidades de información. Se puede recuperar a través de diferentes herramientas: bases de datos, Internet, tesauros, ontologías, mapas... Conocer y manejar estas herramientas contribuye a una recuperación de calidad.
el proceso de recuperación de información se da en la medida en que se requiera satisfacer una necesidad de información  y se recurra a las diferentes estrategias de búsqueda, para ello no solamente se dice que la recuperación de información se da en las Bases de Datos, también a través de los diferentes buscadores y metabuscadores, que son capaces de traer, con ciertos criterios de búsqueda, la información que se requiere.
Generalmente es automatizado y su finalidad es el almacenamiento, procesamiento, recuperación y difusión de la información, que puede ser cualquier tipo (imagenes, video, texto, entre otros obejtos multimedia. Para el buen funcionamiento del SRI se debe adecuar el conjunto de componentes informáticos tanto de Hardware como de Software, asegurando de esta forma la calidad en el proceso. Cabe aclarar que solamente se realíza manejo de INFORMACIÓN y no de DATOS, este sistema búsca satisfacer un vacio cognitivo, una NECESIDAD que da lugar a partir de la formulación de preguntas o interrogantes por parte de un usuario.
Los SRI pretender ofrecer al usuario diferentes mecanismos de acceso a las fuentes documentales, con el fin de que sea extraida la información relevante o pertinente cuyos contenidos respondan a las necesidades cognitivas.

Todo este proceso inicia con la formulación de una pregunta por parte del usuario, quien después de consultar en la base de datos documental, el sistema somete la información a un proceso de indización arrojando de esta forma un conjunto de documentos relevantes, en cuyo contenido se encuentran los términos citados por el usuario en el motor de búsqueda. Posteriormente estos resultados serán organizados por orden de relevancia, colocando en ultima posición los de menor o nula importancia, que posteriormente serán eliminados. TODO NACE A PARTIR DE UNA NECESIDAD DE INFORMACIÓN.


A través de los diferentes procesos de busqueda podemos encontrarnos con problemas que surgen a medida que se consultan, ya que se pueden recuperar muchos o pocos resultados; aparecen dos factores que tienen que ver con este resultado 
  • El ruido documental 
  • El silencio documental


EL RUIDO DOCUMENTAL


El fenómeno del ruido documental se produce cuando, tras realizar una búsqueda de información, obtenemos una excesiva cantidad de resultados, además la mayoría no nos interesan, y nos cuesta mucho encontrar entre estos resultados lo que necesitamos, perdiendo de esta manera tiempo y dinero si estamos trabajando (para la empresa), el ruido documental no sólo se puede producir tras una búsqueda en Google, sino también en el OPAC de una biblioteca, en el correo electrónico atrasado o en múltiples lugares donde se busca información. 

EL SILENCIO DOCUMENTAL 
Es el fenómeno contrario al ruido documental, son aquellos documentos que no aparecen dentro de la estrategia de recuperación de información, bien sea por que esta quedo mal realizada o por que quedaron mal indizados, y las palabras clave no son las adecuadas para recuperarlos.



El ruido y el silencio documental se presentan debido a diferentes causas. Una de ellas es la ausencia de una utilización óptima y adecuada de LENGUAJES DOCUMENTALES que normalicen y orienten los procesos de análisis de la información y por ende los procesos de recuperación de la misma. Con tanta información, parece evidente que debemos prestar atención a su optimización.

jueves, septiembre 30, 2010

NECESIDADES DE INFORMACIÓN

La construcción del término necesidades de información es una construcción abstracta usada para responder porqué las personas buscan, encuentran y usan la información. Usualmente se le da diferentes interpretaciones, así como se dan confusiones con otros términos como: demandas de información, requerimientos de información  o deseos de información. Pero hay que  considerar que el termino necesidad tiene una connotación muy profunda  esta información está definida como: conocimientos, ideas, hechos, datos o trabajos creativos o imaginativos producidos por la mente, los cuales son comunicados formalmente y/o informalmente en cualquier formato.

Así mismo en la Recuperación de Información, hay que considerar que la búsqueda, requerimiento, demanda o deseo de información, es el reflejo de que existe una necesidad de información en la persona. Si el individuo presenta una necesidad de información es porque la necesita en ese momento, puesto que se ha visto estimulado, a través de su sistema nervioso, a satisfacerla.

Hay dos caminos para satisfacer las necesidades de información: buscar los conocimientos acumulados por hechos, podría entenderse por el mismo proceso de aprendizaje (experiencia); y aprovechar la información que produce uno mismo, es decir, la que es producto de la actividad humana y la cual se encuentra registrada.

El proceso de satisfacción de una necesidad de información termina cuando se adquiere una claridad suficiente sobre un tema determinado que inicialmente era un vacío, el problema es que no se conoce la cantidad de información que se requiere para la consecución de esta claridad.
Tipos de necesidad de información

  • Necesidad de información concreta:  En este tipo de necesidad ante una pregunta concreta, se encuentra una respuesta concreta con soportes de contenido concreto, la satisfacción es alcanzada a través de un buen documento que corresponde exactamente a los límites temáticos demandados por el interrogante inicialmente planteado.

  • Necesidad de información orientada al problemaEste tipo de necesidad posee unas fronteras temáticas indefinidas, el parámetro de búsqueda es mal formulado generalmente y tan pronto son recuperados documentos buenos con información relevante, los límites temáticos de la necesidad cambian, lo que conduce a no pueda ser satisfecha.

DEFINICIÓN DE RECUPERACIÓN DE INFORMACIÓN
 Proceso de gestión del conocimiento, donde se busca disminuir  la mayor cantidad de espacios conceptuales. Es el proceso para pasar de un estado actual del conocimiento a un estado NECESARIO de conocimiento.
La recuperación de información es basada en la utilización de términos índice para indexar y recuperar documentos. Recuperar puede consistir en especificar un conjunto de términos que deben ser hallados dentro de los indices de un documento, estableciendo el grado de relevancia entre cada uno de éstos para dar respuesta a una pregunta inicialmente planteada.

martes, septiembre 28, 2010

DESKTOP SEARCH (BUSCADOR DE ESCRITORIO)

DESKTOP SEARCH (BUSCADOR DE ESCRITORIO)

Concepto: Es una herramienta informática que busca documentos en un ordenador personal (en lugar de hacerlo en Internet) como por ejemplo el historial de navegación web, archivos de correo electrónico, documentos de texto, archivos de sonido, de imágenes o de vídeo.

A medida que pasa el tiempo y la tecnología avanza la capacidad de almacenamiento de los discos duros es más grande. Esto conlleva a que el volumen de información que el usuario puede tener guardado se haga muy difícil de controlar y que cuando tenga que buscar un archivo no lo encuentre. Por este motivo han surgido varios buscadores de escritorio, que si más no sigue la misma idea que un buscador de Internet.

Todos los buscadores en general manejan un mismo principio: la indexación del contenido de nuestros discos duros o más bien, de las particiones/carpetas que les indiquemos a estas herramientas para generar una base de datos en la cual poder luego rebuscar con gran facilidad. A partir de ahí cada solución propone su propia tecnología a la hora de tratar conceptos como los metadatos, la construcción del índice y la generación de resultados, pero lo cierto es que todas ellas funcionan bastante bien y suponen una ayuda imprescindible para un gran número de usuarios, que evitan así tener que estar esperando varios segundos a veces minutos para que las herramientas de búsqueda ‘convencionales’ encuentren lo que uno busca.

Tecnología aplicada: incluye un indexador que rastrea el disco duro en busca de archivos existentes. Cuando encuentra un archivo extrae la siguiente información y la guarda en un archivo de índice:



  • La localización jerárquica al disco duro del archivo.

  • Palabras clave, tipo de archivo, realíza un analisis se contenido según requerimientos de usuario.
Una vez los documentos existentes han sido indexados, el rastreador indexa los nuevos documentos en tiempo real. Durante las búsquedas, el motor de búsqueda relaciona las consultas realizadas por el usuario con los elementos indexados (mira en el archivo de índice) para encontrar los archivos más rápidamente. Finalmente muestra por pantalla los resultados obtenidos.

Objetivos: La búsqueda de escritorio se hace muy complicada debido a que existen muchos tipos de archivos, los cuales pueden ser estructurados o no estructurados. Los estructurados (bases de datos o documentos de texto con etiquetas incrustadas) suelen ser más fáciles de encontrar que los no estructurados (archivos de música, imágenes o vídeo) ya que estos últimos no contienen texto. Los objetivos manejados en la mayoría de Desktop Search son los siguientes:
  • Definir la consulta a realizar con el mínimo de palabras clave.

  • Recuperar la información de un conjunto de documentos que están relacionados de alguna manera con la consulta realizada.


  • Presentar al usuario estos documentos ordenados de una manera primaria. 

lunes, septiembre 27, 2010

Análisis COSMOS - Carl Sagan


COSMOS (Carl Sagan)
Análisis realizado a documental visto en clase de Recuperación de información

Introducción

Carl Sagan nació en Nueva York en 1934 y se graduó en Física en la universidad de Chicago en 1955 y obtuvo el doctorado en astrofísica en 1960. Colaboró con la NASA durante 30 años en programas de investigación planetaria como Mariner y Voyager y publicó numerosos trabajos relacionados con el mundo de la astronomía. Pero no será hasta 1980 cuando presentará la serie televisiva Cosmos, compuesta por trece capítulos que darían lugar al libro del mismo nombre que fue líder de ventas en 60 países convirtiéndose en el libro de ciencia más vendido del siglo pasado. Sagan murió en 1996 debido a una extraña enfermedad que le fue diagnosticada dos años atrás.

En la orilla del océano cósmico

El primero de los 13 capítulos que componen la serie Cosmos,  introduce de lleno en la vida real, en la que Carl Sagan nos propondrá un viaje en la nave “Imaginación” que nos llevará a descubrir los misterios del Universo, dándonos así a conocer fenómenos cósmicos tales como las supernovas, las estrellas o los quásares. Se emprende el viaje por el cosmos que, guiado por las mismas leyes físicas en toda su extensión, muestra el conjunto de estrellas que forman un quásar, que engulle galaxias más pequeñas a su vez. de igual forma introduce el concepto de año luz, término que empleará para sus explicaciones.

Se puede apreciar el ciclo de vida de una galaxia, que nace y se desarrolla como un ser vivo, y que al morir estallan liberando una gran cantidad de energía que produce un enorme eco a lo largo de la inmensidad cósmica que incinerará estrellas y planetas cercanos a su paso.También se puede dar la explosión de una de las estrellas que componga dicha galaxia, haciendo que su brillo se distinga por encima de la propia galaxia.

En este peculiar viaje se observa un “grupo local”, conjunto de 20 galaxias que ocupan una superficie de 3.000.000 de años luz. Nos acerca a nuestra galaxia, la Vía Láctea, una galaxia espiral de 100.000 años luz de diámetro. En ésta, como en cualquier otra, se pueden apreciar las supernovas, restos de estrellas que se han destruido a sí mismas, al acabar su ciclo estelar. En el centro de la estrella destruida se encuentran sus restos, los denominados púlsares, soles que giran sobre si mismo emitiendo un haz de luz dos veces por segundo con gran exactitud, actuando como faros naturales. Esto hacía pensar en formas de vida extraterrestres. Los púlsares son la prueba de que las estrellas también mueren. En las galaxias, las estrellas más calientes suelen morir antes, mientras que las gigantes rojas tienen una larga vida y no poseen planetas que circulen alrededor de ellas. Las estrellas más comunes son las enanas amarillas, como el Sol. Al comprobar la inmensidad de sistemas planetarios, nos preguntamos acerca de la existencia de inteligencia extraterrestre y su forma de vida.

Eratóstenes y la medida de la circunferencia terrestre

En el antiguo Egipto, Eratóstenes (siglo III a.C.) fue astrónomo, matemático e historiador. También fue director de la gran biblioteca de Alejandría, centro cultural del mundo antiguo. Eratóstenes quiso calcular la circunferencia terrestre fijándose en las sombras que proyectaban dos obeliscos en sus respectivas ciudades separados por 800 Km. Contrató un hombre que midiera la distancia entre las dos ciudades, analizó la sombra que proyectaban los obeliscos y llegó a la conclusión de que las sombras tenían diferente longitud debido a la curvatura de la Tierra, y que cuanto mayor fuera la curvatura mayor sería la diferencia de longitud.
Calculando la amplitud del arco formado por los obeliscos (7º, la cincuentava parte de una circunferencia) y la distancia entre las dos ciudades (800 Km), dedujo que la circunferencia terrestre debía medir unos 40.000 Km, una medida muy exacta teniendo en cuenta los rudimentarios métodos de la época que Eratóstenes utilizó.

La biblioteca de Alejandría

La ciudad de Alejandría poseía una gran biblioteca, en la que se reunían los grandes intelectuales de la época. Sagan nos lleva a la biblioteca mediante un viaje del tiempo a su época de mayor esplendor, donde se fraguó el inicio de la aventura espacial. Estudiaban el cosmos y muchas más ciencias, como Euclides, que se dedicó al estudio de la geometría e Hiparlo, que estudió las estrellas y las constelaciones.

Los organizadores de la biblioteca iniciaron una colección de pergaminos que, requisados a sus dueños, eran copiados y devueltos a sus dueños, aumentando así el saber de la civilización egipcia. En el momento de mayor esplendor se calcula que la biblioteca llegó a poseer cerca de un millón de pergaminos, que fueron destruidos y de los que sólo se conserva un pequeña parte.

Muchos astrónomos postularon sus teorías en libros que se destruyeron con la biblioteca, como Aristarco de Samos, que dijo que los planetas giraban alrededor del Sol. Hacia el final del documental, Sagan hace un breve resumen de la edad del Universo en un año cósmico de 15000 millones de años, tomando como escala el minuto, que equivaldría a 30.000 años de la edad terrestre. Sitúa la formación de la Vía Láctea y la Tierra, el nacimiento de la especie humana, el descubrimiento del fuego, la producción de herramientas y el éxodo rural, entre otros acontecimientos dignos de señalar en la historia de la humanidad.

Finalmente, deja un final abierto dándonos a nosotros la responsabilidad de lo que pase en el próximo año cósmico desde el primer segundo de este próximo año.
_____________________________________________

COSMOS episodio 1

ESTRUCTURA DE LOS DOCUMENTOS

DEFINICIONES BÁSICAS

Carácter: Cualquier símbolo numérico, alfabético o especial que se emplea en la escritura y en el calculo
  • Numéricos: 0,1,2,.....9
  • Alfabéticos: a, b, c ...., z, A, B, C... , Z.
  • Especiales: *, /, +, #,..
  • De control: retorno de carro, Fin de fichero (EOF)...
  • Gráficos   ╗
Dato: Representación simbólica (numérica, alfabética, etc.), de un atributo o característica de una entidad. El dato no tiene valor semántico (sentido) en sí mismo, permite ser procesado en la realización de cálculos ó la toma de decisiones.

Información: Conjunto de datos (numéricos, alfabéticos y alfanuméricos) ordenados con los que se representan convencionalmente hechos, objetos e ideas. Son un conjunto de datos con sentido y útiles para algo o alguien.

Capta (Capere-Tomar): Consiste en la Selección Manual ó Automática de Información Relevante, esta debe ser subjetiva y transparente para asegurar de esta forma la supervivencia informacional y prevenir la infoxicación.

Conocimiento: Es la apropiación, procesamiento, depuración, etc.. de la información hecha por un ser humano en estructuras mentales, para realizar alguna tarea.

Documento: Es cualquier Fuente de información usable, todo aquello organizado para permitir su observación, Análisis y Estudio, adicionalmente debe estar codificado en un formato y almacenado en un soporte que facilite a futuro su recuperación.

Documento Electrónico: Es toda representación electrónica que da testimonio de un hecho, una imagen o una idea. Requiere de una máquina para la visualización de su contenido, por ejemplo: un video casette.

Documento Digital: Es la representación en medio digital de un documento, contenido, textos, imágenes, sonidos, videos, etc., es una secuencia de bits (1 y 0) que representan cualquier tipo de información, esto permite almacenar grandes cantidades de información en espacios reducidos, facilitando su reproducción y distribución.

Documento Virtual: Es aquel que se va construyendo de acuerdo a las necesidades particulares del usuario, existe en el momento que es requerido, su generación es automática en un lapso de tiempo determinado.



COMPONENTES DE UN DOCUMENTO

Estructura: Son los elementos constitutivos de un documento, es la disposición lógica dada a la información contenida, por ejemplo: Encabezado, título, párrafo, etc.

Contenido: Es la información como tal a que hace referencia el documento, como su nombre lo indica es el contenido.

Formato: Son las diferentes características usadas a lo largo de todo el documento, son aquellas que dan forma y presentación, por ejemplo: Tipo de fuente, tamaño de fuente, alineación, efecto, etc.

Contexto: Es aquella información que permite la comprensión completa y adecuada del documento, por ejemplo: fecha, autor, tema.

Documento estructurado: Habitualmente el resultado de aplicar un sistema de extracción de información a cualquier texto es un documento estructurado del tipo XML. Si el documento de origen es ya de por sí un documento estructurado, resulta mucho más sencillo analizarlo para obtener las entidades y sus relaciones, siempre y cuando esté debidamente etiquetado. En un documento estructurado son conocidas las entidades a partir del etiquetado y, posiblemente, algunas relaciones o roles de las mismas, se identifican todas y cada una de sus partes constitutivas.
Documento no estructurado: Los documentos escritos en lenguaje natural son el objetivo principal de los sistemas de extracción de información ya que son la gran mayoría de los documentos existentes. Para extraer la información de estos documentos es necesario realizar las tareas descritas anteriormente (reconocimiento de entidades, resolución de anáforas, reconocimiento del rol, reconocer relaciones). El tipo de información que los sistemas de extracción de información son capaces de extraer varía en función del documento. Por ejemplo, entidades con nombre propio como personas, organizaciones o lugares se recuperan actualmente con una fiabilidad del 90 %, pero esta fiabilidad se ve reducida al extraer atributos de dichas entidades, hechos o eventos relacionados. En este tipo de documentos no se ven identificadas las diferentes partes que lo constituyen.
Documento semi - estructurado: Son documentos mixtos que contienen parte estructurada y parte no estructurada, maneja elementos constitutivos pero estos no son de obligatorio cumplimiento.
  • Un registro no necesariamente tiene que tener todos sus atributos definidos. Mientras por ejemplo en una base de datos relacional un campo debe establecerse como NULO cuando no se tiene, en un ambiente de datos semiestructurados basta con omitir dicho atributo.
  • Un atributo de un registro puede ser otro registro
  • No existe necesariamente una diferencia entre un identificador de un campo y el valor mismo de este.

sábado, septiembre 25, 2010

MEMORIAS DE CLASE

SOCIEDAD DE LA INFORMACIÓN 

http://creativecommons.org/licenses/by/2.5/es/
Una sociedad de la información es aquella en la cual las tecnologías que facilitan la creación, distribución y manipulación de la información juegan un papel importante en las actividades sociales, culturales y económicas. La noción de sociedad de la información ha sido inspirada por los programas de los países industrializados. El término sería más bien un término político que teórico, pues se presenta como una aspiración estratégica que permitiría superar el estancamiento social.

INFOXICACIÓN El exceso de información que se produce con el alud de información disponible hoy en día produce una dificultad para digerir tanto volumen en tan poco tiempo.
  • En el 2008 el universo digital era de 487.000 millones de Gigabytes equivalente a 487 Exabytes
  • En el 2012 se calcula que tendrá un crecimiento del 500% respecto al año 2008.