sábado, noviembre 06, 2010

Herramientas de software libre para la gestión de contenidos

"recuperación de información" "programa de sistemas de información" "Universidad de La Salle"

GESTIÓN DE INFORMACIÓN Y GESTIÓN DE CONTENIDOS

Los servicios de información y documentación accesibles a través de internet, más concretamente mediante servidores web, están aumentando de una forma exponencial. La lógica evolución del web desde hace más de 10 años ha ido produciendo la sustitución de páginas y documentos estáticos por documentos generados dinámicamente, merced a la interacción del usuario con la lógica de procesos y flujos de trabajo definida por los creadores del servicio y a la disponibilidad de cada vez mayores repositorios de información. Evidentemente, se ha ido pasado progresivamente de un concepto de publicación de páginas web, bastante simple en su origen, a esquemas más complejos y diferenciados, fundamentados en procedimientos y técnicas basados en la gestión de información. La cada vez mayor complejidad de los servicios y de los sistemas que los soportan, ha hecho necesaria la formulación de un corpus teórico y práctico en el que se combinen las técnicas clásicas de gestión de información en las organizaciones con las características propias del medioambiente digital.

Esta evolución, que se ha acelerado durante la primera mitad de la década de 2000, ha tenido un impacto no sólo en los métodos y técnicas de gestión de información, sino también en la propia tecnología para gestión de información y, en consecuencia, en el mercado de productos y servicios (GILBANE, 2000). Si bien en la segunda mitad de la década de los 90 se podía diferenciar entre productos para gestión documental, para recuperación de información, etc., desde el año 2000 se ha producido una convergencia entre todas las plataformas, de forma que en la actualidad se pueden encontrar soluciones que pretenden ser globales y ofrecer soporte a todo el proceso de gestión de información en una organización. Las herramientas para este trabajo han recibido la denominación de sistemas de gestión de contenidos (o Content Management Systems, CMS), y se han integrado con los sistemas de gestión documental y con los de recuperación de información. A ello hay que unir que, en la concepción actual de la gestión de información, el control de los procesos es un elemento nuclear, por lo que se acompañan de sistemas de workflow , o de flujos de trabajo. Con todo ello se puede delinear un paisaje en el cual las herramientas de gestión documental han ido incorporando a sus prestaciones las capacidades necesarias para gestionar los procesos que crean, almacenan, tratan y presentan información, en entorno digital.

Sin embargo, no por ello cabe afirmar que existe una igualdad directa entre los sistemas de gestión de contenidos y los sistemas de gestión documental. Se pueden encontrar en el mercado sistemas de gestión de contenidos que no ofrecen las prestaciones documentales que serían deseables, y viceversa. De la misma forma, no es posible igualar mediante una ecuación gestión de contenidos y gestión documental o records management. Íntimamente relacionadas sí, pero iguales no. Sólo el estudio y la evaluación de las características y prestaciones presentes en las herramientas disponibles pueden determinar la adecuación de una solución en un contexto o problema dado. A ello cabe añadir las diferencias existentes entre la gestión de contenidos para web y la gestión de contenidos para empresas, y que pueden encontrarse en los informes o documentos especializados que publican las propias compañías del sector. Si a esto se suma la complejidad creciente de muchos portales, tanto internos como externos, de las organizaciones, que son soportados por sistemas de gestión de contenidos, y a los procesos de publicación digital necesarios para su producción, los sistemas de gestión de contenidos se configuran como aplicaciones de varias escalas, que pueden llegar a alcanzar una alta complejidad.

En la parte humana, las herramientas para gestión de contenidos sólo se pueden entender en un entorno de trabajo en colaboración y distribuido, ya que es en este tipo de ambientes donde se puede aprovechar todo su potencial. De la lectura de los párrafos anteriores se deduce que, frente a enfoques tradicionales de tratamiento documental, pasivos, las herramientas actuales han llevado más allá los límites del tratamiento documental, ya que se han extendido hasta el proceso de creación, por su parte inicial, y al proceso de nueva publicación y de personalización, por su parte final. Esto configura ahora un esquema circular e iterativo para el tratamiento documental, a lo que se debe unir, entonces, la necesaria reflexión sobre el concepto y características de los documentos digitales. El ciclo de vida de los documentos digitales muestra significativos cambios sobre el ciclo de vida tradicional, al igual que el concepto de documento. Evidentemente, las actividades informativo-documentales deben reformularse para hacer frente al nuevo medioambiente digital.

ACTIVIDADES Y PROCESOS DE GESTIÓN DE CONTENIDOS

La gestión de contenidos debe definirse desde la perspectiva de su objetivo y actividades. Frente a la gestión de documentos, que tiene como objeto de trabajo documentos, como su propio nombre indica, la gestión de contenidos está orientada a gestionar objetos que actúan como componentes de documentos virtuales, en el contexto de lo que llama segmentación. Los objetos son tratados mediante un conjunto de procesos estructurados con la finalidad de producir publicaciones digitales basadas en la metáfora del documento. Este objetivo de la producción de publicaciones y documentos digitales por integración de componentes se puede encontrar en las principales referencias sobre gestión de contenidos (BOIKO, 2001; BROWNING y LOWNDES, 2001). Como en otros métodos y técnicas directamente relacionados con el desarrollo de la Sociedad de la Información y del Conocimiento, las formulaciones teóricas han seguido a la necesidad y a su resolución tecnológica, o han discurrido en paralelo. En este sentido, la gestión de contenidos se ha beneficiado de las técnicas y procesos de producción y edición de publicaciones digitales en un primer momento. Sin embargo, rápidamente pudo apreciarse que el proceso de publicación digital no cubría por completo todos los procesos de gestión de información necesarios para una adecuada gestión de contenidos.

El proceso de publicación digital más sencillo define un proceso en el cual se diseña un marco de integración para un conjunto de objetos, cuyo resultado final es la publicación del documento digital. Evidentemente, este proceso, que puede reflejar el esquema más simple de funcionamiento de un weblog, se complica si se sitúa en el contexto de una unidad o sistema de información que debe crear información digital más compleja, y que, además, debe servir a comunidades de usuarios especializados, o a diferentes comunidades de usuarios. Los productos de información digital se vuelven más complejos, y los procesos técnicos que se desarrollan sobre ellos se hacen igualmente más complejos (ROBERTSON, 2003). El trabajo en colaboración obliga a desarrollar flujos de trabajo en los que es necesario asignar diferentes roles a las personas que intervienen en el mismo. Los objetos que componen los documentos pueden proceder de diferentes fuentes y tener diferentes formatos, con lo que es necesario controlar repositorios de información. Además, los usuarios demandan servicios de apoyo a los productos de información digital como la búsqueda de información o el acceso a documentos generados anteriormente, lo que hace necesario disponer de herramientas de archivo digital. Los cada vez más complicados procesos de gestión de contenidos demandan la formalización de sistemas de metadatos que resultan necesarios tanto para los procesos de gestión como para los de publicación o los de recuperación de información.

Esta complejidad ha producido el desarrollo de dos especializaciones principales de la gestión de contenidos: Web Content Management , WCM, y Enterprise Content Management , ECM. La primera especialización (MILLER y DAVID, 2002) se centra en el entorno web, y su objetivo principal y sus métodos se orientan a la producción de documentos e información digitales para el web, especialmente para portales y webs corporativos. La segunda (GINGELL, 2003) encuentra su fundamento en la idea de gestión total de la información en las organizaciones mediante la integración de toda la información necesaria para alcanzar los objetivos de la organización proveniente no sólo de sistemas de publicación, sino también de sistemas ERP, gestión de documentos, datawarehouses, etc. La expresión más generalizada -en el momento actual- del ECM son las intranets y los portales internos de las organizaciones. En todos los casos, la gestión de contenidos tiene como factor ineludible el etiquetado de la información en formatos XML, o en lenguajes específicos para cada contexto, derivados del mismo. A esto es necesario añadir la cada vez mayor necesidad de gestionar lo que se ha dado en llamar digital assets , documentos multimedia en formato digital, que es necesario almacenar, describir, integrar y gestionar, con especial referencia a la gestión de los derechos inherentes a los mismos. Otro enfoque especializado es el que considera las herramientas para desarrollo de bibliotecas digitales como sistemas de gestión de contenidos, como por ejemplo el reciente trabajo de Han (2004), que compara Fedora, Dspace y Greenstone.

Los trabajos sobre gestión de contenidos coinciden en señalar que un sistema de este tipo debe ofrecer, como mínimo, una aplicación nuclear CMS que soporte los procesos de publicación, flujo de trabajo y repositorios de información; un repositorio de información; herramientas de integración de información externa; y modelos y templates para productos finales. Un CMS se compone de varios subsistemas (BOIKO, 2001) que interaccionan entre ellos:

Colección: subsistema encargado de la creación y/o adquisición de información. Debe dar soporte a los procesos de creación de contenidos, soporte a flujos de trabajo, sindicación e integración de fuentes externas. Además, debe ofrecer soporte a procesos de conversión entre formatos diversos, y a la agregación de contenidos de fuentes diversas en estructuras específicas.

Gestión: subsistema encargado de la gestión y control de los repositorios de información, de los grupos de usuarios, y de los procesos de soporte para los otros subsistemas. Se encarga de definir y controlar los flujos de trabajo que son utilizados por los otros subsistemas, y de la definición de parámetros para el funcionamiento del sistema.

Publicación: subsistema encargado de la producción final de publicaciones o productos de información digital, de manera automática o casi automática. Utiliza un modelo basado en templates y deberá ofrecer posibilidades de personalización para usuarios y la posibilidad de producir para diferentes tipos de plataformas y/o clientes.

Nakano (2002) señala cuatro subsistemas, en lugar de tres, correspondientes a creación/edición de contenidos, repositorio, flujo de trabajo y gestión de operaciones. Browning y Lowndes (2001) señalan autoría/creación, flujo de trabajo, almacenamiento/repositorio y publicación. En cualquier caso, la dinámica de los productos y aplicaciones que se engloban bajo la etiqueta de gestión de contenidos ha hecho posible la aparición de herramientas que siguen diferentes enfoques y que, en consecuencia, ofrecen diferentes prestaciones. Dada la importancia que la elección e implantación de una herramienta de este tipo tiene para la organización que se trate, se han realizado detallados estudios que evalúan las prestaciones y características de los productos disponibles. De estos toolkits de evaluación para CMS pueden deducirse las prestaciones básicas que deben ofrecer. Por ejemplo, véanse los de Step Two (2004), Gilbane Report (BLUEBILL, 2003), CMS-Watch (2005), o la Guía CMS-Spain (CMS-SPAIN, 2004).

La selección, implantación y puesta en marcha de una herramienta para gestión de contenidos es fruto de un estudio y de un análisis detallado de la organización que lo instala, de los objetivos de la misma, de los procesos de trabajo y recursos de información que utiliza, y de los usuarios que van a usarlo. En consecuencia, una exhaustiva planificación, resultado del estudio previo, y una rigurosa metodología de puesta en marcha son ineludibles para tener éxito con cualquier iniciativa de gestión de contenidos. Si, se revisa, por ejemplo, la monografía de Rockley (2003), obra de referencia para ECM, puede apreciarse que gran parte está dedicada a los aspectos relacionados con el análisis, planificación y metodología de selección, integración, implantación y puesta en marcha. Nakano centra gran parte de su texto (2002) en la organización y dinamización del trabajo colaborativo en comunidades estructuradas alrededor del web. ASILOMAR (2003) ha publicado una interesante encuesta sobre los problemas que plantean los CMS a sus usuarios. Como ha señalado Veen (2004), el éxito o el fracaso de un CMS en una organización no es tanto una cuestión tecnológica como una cuestión de personas y de procesos.

SOLUCIONES DE SOFTWARE LIBRE PARA GESTIÓN DE CONTENIDOS

El software libre es un fenómeno que está llamado a revolucionar modelos de negocio de la industria del software. No es este el momento de analizar con detalle el mundo del software libre, ni las plataformas tecnológicas, ni la tipología de licencias existente, ya que para todo ello son muy abundantes los recursos de información disponibles. Para los objetivos de este texto es suficiente con establecer los criterios básicos que deben cumplir las herramientas reseñadas:

• ofrecer el código fuente de la aplicación

• distribuirse bajo alguna de las licencias consideradas de referencia (véanse las licencias disponibles en Open Source Initiative , http://www.opensource.org/)

• poder ser modificadas, copiadas y distribuidas libremente, respetando los términos establecidos en la licencia respectiva.

Una revisión somera de las herramientas para gestión de contenidos que son distribuidas bajo alguna de las licencias consideradas para software libre muestra la existencia de un gran número que ofrecen variadas prestaciones y orientaciones. Brevemente, su arquitectura técnica se fundamenta en el terceto servidor web, intérprete de lenguaje de programación y gestor de base de datos. A este esquema responde el conocido acrónimo LAMP (Linux, Apache, MySQL, PHP), o su versión Windows, WAMP. Precisamente han sido PHP (http://www.php.net/) y MySQL (http://www.mysql.com/) las herramientas más extendidas entre los sistemas libres para gestión de contenidos, ya que la mayoría de las soluciones se basan en ellos. Ejemplos de todo esto se pueden encontrar en OpenSourceCMS (http://www.opensourcecms.com/), y en CMS Matrix (http://www.cmsmatrix.org/), que ofrece una matriz de comparación muy útil y exhaustiva para comparar los requerimientos y prestaciones de las diferentes herramientas. Muchas de estas herramientas son dignos contendientes de soluciones propietarias de alto coste, y están siendo utilizadas en numerosas intranets y portales de todo tipo de organizaciones, lo cual ha permitido desarrollar un mercado y un modelo de negocio, que por el momento parece sostenible a corto y medio plazo. En la última edición celebrada de LinuxExpo , Mambo (http://www.mamboserver.com/), un CMS bajo licencia GPL, ha ganado el premio Best Open Source Solution , ante productos de grandes empresas. El interés de este tipo de soluciones, tanto en los clientes como en los proveedores de servicios de valor añadido, puede verse reflejado en Holst (2001), Dolye (2003) y Robertson (2004).

UNA PROPUESTA DE TIPOLOGÍA

Si bien la gestión de contenidos es una disciplina en auge, y que cada vez ofrece mayor nivel teórico y metodológico, junto a herramientas en constante desarrollo, también es cierto que bajo este "metatérmino" se pueden encontrar herramientas y plataformas que muestran diferentes orientaciones, diferentes prestaciones, y enfocadas a diferentes objetivos y grupos de usuarios. Para los propósitos de este trabajo, se ha optado por crear una tipología esquemática.

Plataformas para desarrollo de gestión de contenidos: se trata de soluciones que ofrecen la plataforma necesaria para desarrollar e implementar aplicaciones que den solución a necesidades específicas. Ofrecen un entorno y unas herramientas de desarrollo. En consecuencia, su interés radica en la posibilidad de construir soluciones adaptadas a cada caso. Demandan un alto nivel de conocimiento de lenguajes de programación de alto nivel, como por ejemplo Java o Python, mientras que otros usan PHP. Pueden servir para construir soluciones de gestión de contenidos, para soluciones de comercio electrónico, o para construir, a su vez, herramientas que respondan a las características de los tipos que se explican en los apartados posteriores. En muchos de ellos diferentes desarrolladores y usuarios han ido creando módulos, de forma que es posible integrar desarrollo propio con herramientas disponibles. Las características de cada plataforma varían, ya que se pueden encontrar desde sólo la plataforma, como Zope , a entornos que ofrecen las prestaciones básicas necesarias para gestión de contenidos, con interfaces y flujos de trabajo especialmente diseñados para ello, como OpenCMS. Sin pretender ser exclusivo, las plataformas más extendidas son:

• Zope, http://www.zope.org/

• Typo3, http://www.typo3.org/

• Midgard Project, http://www.midgard.project.org/

• OpenCMS, http://www.opencms.org/

• Apache Lenya, http://lenya.apache.org/

Portales: la creación y mantenimiento de portales, como soporte y herramienta básica de los servicios de información web, es una de las funciones principales que desempeñan los sistemas de gestión de contenidos para portales. Su funcionalidad, administración y mecanismos de control están especialmente orientados a ofrecer a sus usuarios un portal con diferentes tipos de contenidos y de servicios, desde la publicación de noticias, al repositorio de documentos, pasando por foros, encuentras, sindicación de contenidos, creación de perfiles y de grupos de usuarios, personalización de la información y de su presentación, etc. Siguen una arquitectura modular, ya que se componen de módulos, encargados de diferentes funciones, que son administrados desde una interfaz centralizada. Adoptan el esquema de espacios en su interfaz, para lo cual usan los ya citados templates , en los cuales se distribuyen los diferentes módulos. Técnicamente, la mayoría de ellos requieren LAMP/WAMP, aunque existen algunas herramientas que usan Python (Plone sobre Zope) o Perl (como WebGUI). Los más extendidos son:

• PHP Nuke, http://phpnuke.org/

• Drupal, http://www.drupal.org/

• Mambo, http://www.mamboserver.com/

• Plone (requiere Zope), http://www.plone.org/

Aula virtual: entornos que ofrecen las prestaciones necesarias para crear contenidos para aprendizaje en línea, y ciertos mecanismos de interacción, como foros, chats, evaluación interactiva, etc. En realidad, la mayoría de ellos siguen esquemas de aula clásica, traspasados al entorno web, más que ser entornos de aprendizaje virtual proactivo. Este tipo de plataformas han ajustado las prestaciones de gestión de contenidos a las características del material docente en formato digital. Es altamente recomendable que la plataforma que se utilice sea capaz de empaquetar sus contenidos en formatos SCORM y/o IMS. Las plataformas más conocidas son:

• Claroline, http://www.claroline.net/

• Moodle, http://www.moodle.org/

Bibliotecas digitales: las bibliotecas digitales, el paradigma para los servicios de información de finales del siglo XX y comienzos del siglo XXI, organizadas alrededor del terceto que forman los usuarios, las colecciones, y los servicios de valor añadido, se configuran como un espacio altamente especializado para la gestión de contenidos. El desarrollo de colecciones digitales, la organización y creación de los mecanismos de acceso o la gestión de metadatos se benefician de la combinación de los procesos de publicación digital, y de los principios de gestión de información. Además, tienden a configurar espacios de colaboración, mediante el acceso y la gestión de colecciones distribuidas. El estado actual de las principales herramientas es diverso, así como sus enfoques, ya que van desde repositorios federados de documentos (como Fedora), hasta herramientas de usuario final (como Greenstone). Este tipo de herramientas es más exigente, en sus requerimientos, que los otros tipos indicados en este texto.

• Fedora, http://www.fedora.info/
• Dspace, http://www.dspace.org/

• Greenstone, http://www.greenstone.org/

Publicaciones digitales: son plataformas especialmente diseñadas teniendo en cuenta las necesidades de las publicaciones digitales, tales como periódicos, revistas, etc. En consecuencia, sus prestaciones están orientadas al control de los procesos de edición, creación y publicación de contenidos, más que al desarrollo de aplicaciones o portales. De especial interés van a resultar en los próximos años todos los sistemas dedicados a la publicación de revistas científicas que den soporte al proceso de envío, revisión y publicación. Aunque no es exactamente un sistema de publicación de revistas se ha incluido en el listado ePrints por su interés para el ámbito académico y su posibilidad de ser adaptado para publicaciones.

• Cofax, http://www.cofax.org/

• Open Journal Systems, http://www.pkp.ubc.ca/ojs/

• ePrints, http://www.eprints.org/

Entornos para colaboración: corresponderían a la clásica definición de groupware , herramientas para trabajo en grupo. Su objetivo es dar a grupos de usuarios especializados las prestaciones necesarias para llevar a cabo trabajos y proyectos en común. En este tipo de entornos, los flujos de trabajo, los usuarios, los puntos de control y los documentos entregables (deliverables) son los contenidos clave a gestionar. Además, se necesitan herramientas de control de tiempos y actividades junto a posibilidades de comunicación síncrona y asíncrona. Se trata, entonces, de una especialización evidente de la gestión de contenidos que se relaciona con la gestión de proyectos. Un entorno colaborativo muy conocido y extendido es wiki , sobre todo destinado a la elaboración de documentos para comunidades de interés. Existen gran número de plataformas wiki que han ido aumentando progresivamente sus prestaciones, de manera que unos autores las sitúan entre las herramientas para portales, mientas otros las colocan en este apartado:

• eGroupware, http://www.egroupware.org/

• phpCollab, http://www.php-collab.org/

• Wiki (web de referencia), http://www.wiki.org/

Blogs o bitácoras: los blogs son el fenómeno, ya consolidado, que ha dado un verdadero potencial democrático a la web, a pesar de los inconvenientes que pueda conllevar. Los blogs muestran un modelo de gestión de contenidos bastante simplificado, ya que suelen ser monousuario, y con un sencillo flujo de trabajo, lo que ha facilitado su expansión entre amplios grupos de usuarios sin conocimientos técnicos profundos. A pesar de que los grandes servidores de blogs dan al usuario la solución ya implementada, existen herramientas para blogs, dentro del modelo LAMP/WAMP, que puede ser instalados y operados bajo licencia libre. Debe indicarse, en cambio, una tendencia a aumentar las prestaciones de los blogs, intentando dotarlos de parecidas características a las disponibles en las herramientas para portales.

PERSPECTIVAS DE DESARROLLO

La gestión de contenidos, y las herramientas de software libre que facilitan su implementación, son una realidad que ni puede ni debe pasar desapercibida, ya que ofrecen soluciones para los servicios que debe ofrecer, en el entorno digital, una unidad de información. Existen soluciones de tipo general y soluciones especializadas. Además, es innegable la existencia de un creciente mercado de productos y soporte para estas herramientas. Sin embargo, y a modo de conclusión, es necesario delinear varios factores críticos que deben ser tenidos en consideración:

Requerimientos: si bien en el momento actual unos conocimientos técnicos de nivel medio son suficientes para poner en marcha un servicio con estas herramientas, en un futuro cercano aumentará el requerimiento técnico, sobre todo debido al creciente volumen de información, a la complejidad de los documentos digitales y a la exigencia de niveles de seguridad.

Documentación: el soporte profesional para estas soluciones es un coste oculto que debe ser valorado. La documentación de administración y de usuario final todavía no alcanza, en muchos casos, el nivel de exigencia que sería deseable.

Objetivos y planificación: a pesar de lo que pueda parecer, todavía se siguen montando servicios de información en Internet en los que los objetivos y una correcta planificación son difuminados por el espejismo tecnológico. Sólo un correcto análisis y planificación podrán ayudar a determinar la elección de la herramienta más adecuada: "la forma sigue a la función".

Web semántico: a pesar del desarrollo del XML y de sus lenguajes derivados, y de los esquemas de descripción de recursos de información y de metadatos, son todavía escasas las soluciones para gestión de contenidos que trabajan directamente con ellos. No existe apenas soporte para la utilización de RDF o de ontologías. En un entorno digital enfrentado al crecimiento exponencial de la información, este es un problema al que hacer frente con celeridad. Las herramientas que lo hagan tendrán una ventaja competitiva más que notable.

ENLACES

AIIM Enterprise Content Management Association, http://www.aiim.org/

EDOC Magazine, http://www.edocmagazine.com/

CMS Matrix, http://cmsmatrix.org/

CMS Professionals, http://www.cmprofessionals.org/

CMS Review, http://www.cmsreview.com/

CMS Watch, http://www.cmswatch.com/

CMS Wiki, http://www.cmswiki.com/tiki-index.php

CSM Wire, http://www.cmswire.com/

CSM Spain, http://www.cms-spain.com/

OSCOM, http://www.oscom.org/

Fuente: Jesús Tramullas. Herramientas de software libre para la gestión de contenidos [en línea]

No hay comentarios: