lunes, septiembre 27, 2010

ESTRUCTURA DE LOS DOCUMENTOS

DEFINICIONES BÁSICAS

Carácter: Cualquier símbolo numérico, alfabético o especial que se emplea en la escritura y en el calculo
  • Numéricos: 0,1,2,.....9
  • Alfabéticos: a, b, c ...., z, A, B, C... , Z.
  • Especiales: *, /, +, #,..
  • De control: retorno de carro, Fin de fichero (EOF)...
  • Gráficos   ╗
Dato: Representación simbólica (numérica, alfabética, etc.), de un atributo o característica de una entidad. El dato no tiene valor semántico (sentido) en sí mismo, permite ser procesado en la realización de cálculos ó la toma de decisiones.

Información: Conjunto de datos (numéricos, alfabéticos y alfanuméricos) ordenados con los que se representan convencionalmente hechos, objetos e ideas. Son un conjunto de datos con sentido y útiles para algo o alguien.

Capta (Capere-Tomar): Consiste en la Selección Manual ó Automática de Información Relevante, esta debe ser subjetiva y transparente para asegurar de esta forma la supervivencia informacional y prevenir la infoxicación.

Conocimiento: Es la apropiación, procesamiento, depuración, etc.. de la información hecha por un ser humano en estructuras mentales, para realizar alguna tarea.

Documento: Es cualquier Fuente de información usable, todo aquello organizado para permitir su observación, Análisis y Estudio, adicionalmente debe estar codificado en un formato y almacenado en un soporte que facilite a futuro su recuperación.

Documento Electrónico: Es toda representación electrónica que da testimonio de un hecho, una imagen o una idea. Requiere de una máquina para la visualización de su contenido, por ejemplo: un video casette.

Documento Digital: Es la representación en medio digital de un documento, contenido, textos, imágenes, sonidos, videos, etc., es una secuencia de bits (1 y 0) que representan cualquier tipo de información, esto permite almacenar grandes cantidades de información en espacios reducidos, facilitando su reproducción y distribución.

Documento Virtual: Es aquel que se va construyendo de acuerdo a las necesidades particulares del usuario, existe en el momento que es requerido, su generación es automática en un lapso de tiempo determinado.



COMPONENTES DE UN DOCUMENTO

Estructura: Son los elementos constitutivos de un documento, es la disposición lógica dada a la información contenida, por ejemplo: Encabezado, título, párrafo, etc.

Contenido: Es la información como tal a que hace referencia el documento, como su nombre lo indica es el contenido.

Formato: Son las diferentes características usadas a lo largo de todo el documento, son aquellas que dan forma y presentación, por ejemplo: Tipo de fuente, tamaño de fuente, alineación, efecto, etc.

Contexto: Es aquella información que permite la comprensión completa y adecuada del documento, por ejemplo: fecha, autor, tema.

Documento estructurado: Habitualmente el resultado de aplicar un sistema de extracción de información a cualquier texto es un documento estructurado del tipo XML. Si el documento de origen es ya de por sí un documento estructurado, resulta mucho más sencillo analizarlo para obtener las entidades y sus relaciones, siempre y cuando esté debidamente etiquetado. En un documento estructurado son conocidas las entidades a partir del etiquetado y, posiblemente, algunas relaciones o roles de las mismas, se identifican todas y cada una de sus partes constitutivas.
Documento no estructurado: Los documentos escritos en lenguaje natural son el objetivo principal de los sistemas de extracción de información ya que son la gran mayoría de los documentos existentes. Para extraer la información de estos documentos es necesario realizar las tareas descritas anteriormente (reconocimiento de entidades, resolución de anáforas, reconocimiento del rol, reconocer relaciones). El tipo de información que los sistemas de extracción de información son capaces de extraer varía en función del documento. Por ejemplo, entidades con nombre propio como personas, organizaciones o lugares se recuperan actualmente con una fiabilidad del 90 %, pero esta fiabilidad se ve reducida al extraer atributos de dichas entidades, hechos o eventos relacionados. En este tipo de documentos no se ven identificadas las diferentes partes que lo constituyen.
Documento semi - estructurado: Son documentos mixtos que contienen parte estructurada y parte no estructurada, maneja elementos constitutivos pero estos no son de obligatorio cumplimiento.
  • Un registro no necesariamente tiene que tener todos sus atributos definidos. Mientras por ejemplo en una base de datos relacional un campo debe establecerse como NULO cuando no se tiene, en un ambiente de datos semiestructurados basta con omitir dicho atributo.
  • Un atributo de un registro puede ser otro registro
  • No existe necesariamente una diferencia entre un identificador de un campo y el valor mismo de este.

No hay comentarios: