viernes, noviembre 05, 2010

Bases de datos documentales en la web: análisis del software para su publicación

"recuperación de información" "programa de sistemas de información" "Universidad de La Salle"

Los Sistemas de Gestión Documental (SGD)Text Retrieval Systems , en inglés son un tipo de programas muy conocidos en el ámbito de la información y documentación, ya que están especialmente pensados para la gestión de información textual y de documentos cognitivos. Sus principales características se pueden sintetizar en lo siguiente: disponen de un modelo de registro flexible (campos de longitud variable, campos multivalor, etc.), facilitan el acceso a los registros a través del fichero inverso, contienen un conjunto de variadas prestaciones de recuperación de la información, y están dotados de diversos instrumentos para el control terminológico. Algunos de los sistemas más conocidos y extendidos son CDS/ISIS, FileMaker, Knosys, e Inmagic DB/Text.

Sobre ellos se han realizado aproximaciones teóricas de carácter global, entre los que se pueden destacar las de Sieverts y otros investigadores belgas (1991-93), autores de una serie de artículos muy completos y exhaustivos que describían las características de este tipo de programas, elaborando una tipología y presentando una evaluación muy detallada de unos treinta productos. Posteriormente, William Saffady, por dos veces, (1995) (2000), también realizó una aproximación actualizada a los SGD. En España, se han publicado diversos trabajos de carácter global siendo los más recientes una monografía de Abadal y Codina (2005) y el Directorio español de software para la gestión bibliotecaria, documental y de contenidos (2003), que contiene datos descriptivos de 135 programas informáticos del ámbito indicado en su título. A otro nivel, se puede señalar el portal CMS-Spain (www.cms-spain.com) que contiene informes y estudios diversos sobre programas de gestión de contenidos, entre los cuales se incluyen referencias a sistemas de gestión documental.
Los SGD han servido para que pequeñas y medianas organizaciones hayan podido crear bases de datos documentales de tipo referencial permitiendo a los usuarios de estos centros la localización y consulta de sus fondos (ya se trate de libros, artículos de revista, fotografías u otro tipo de documentos).

Actualmente, estos programas a los que se hace referencia tienen comercializadas aplicaciones informáticas (denominadas vulgarmente pasarelas web) que permiten la consulta, desde un navegador web, de las bases de datos creadas con ellos. Esto permite ampliar notablemente el espectro de usuarios potenciales de las bases de datos ya que no es necesario utilizar redes de área local para compartir el uso de las bases de datos ni, mucho menos, desplazarse a la ubicación física donde éstas residen.

El objetivo del presente texto es, precisamente, mostrar la situación actual en el mercado de estas aplicaciones, valorarlas, y señalar tendencias de futuro. Para ello, se sintetizará, en primer lugar, el funcionamiento básico de estas pasarelas web y, a continuación, se valorará de forma comparativa aquellas que tienen un uso más extendido en el mercado español.

PUBLICAR BASES DE DATOS

Hasta hace pocos años, los productores y los distribuidores de bases de datos (estos últimos en particular) acostumbraban a tener un carácter especializado y a disponer, por tanto, de una potente estructura empresarial. Esta situación ha cambiado radicalmente con la eclosión de Internet y el desarrollo de distintas herramientas fácilmente configurables y adaptables que ponen al alcance de pequeños y medianos centros de información y documentación, e incluso de usuarios personales, la posibilidad de convertirse en productores y distribuidores de bases de datos.

Pequeñas y medianas organizaciones que habían creado bases de datos documentales, están llevando a cabo un proceso generalizado de publicación de sus contenidos en el web. Esto permite que los usuarios sólo necesiten del navegador para poder acceder a los registros de forma actualizada y que dispongan, en la mayoría de los casos, de las mismas prestaciones de consulta y explotación que tienen los sistemas de gestión documental cuando se consultan localmente o mediante redes de área local.

ELEMENTOS 

Para que este método de acceso sea posible, es necesario disponer, en el lado del servidor web, de un programa o un conjunto de programas que permita establecer la comunicación entre dos entornos en principio incompatibles o distintos: la base de datos gestionada por el SGD, por un lado, y el servidor web, que es el que atiende a los navegadores que utilizan los usuarios y que sólo es capaz de interpretar páginas html transmitidas mediante el protocolo http, por el otro. Estos programas suelen recibir la denominación de pasarelas web ya que actúan como intermediarios entre los registros de la base de datos y los datos codificados en html que proceden del formulario de consulta que ha rellenado un usuario.

Pasarela web

Son las piezas de software que comunican el servidor Web (Apache, IIS, etc.) con el SGD. Es decir, se trata del programa que es capaz de leer e interpretar las órdenes que se le transmiten desde un formulario html, algunas de ellas introducidas por el usuario (p. e. los términos de búsqueda) y otras correspondientes a parámetros generales (p. e. la ubicación del programa y de la base de datos en el servidor, el formato de visualización, el número de documentos a visualizar, etc.). A continuación, los ejecuta y el resultado lo transfiere al usuario en formato html (es el listado con el resultado).

Estos programas pueden cumplir diversos protocolos o sistemas de comunicación con el servidor web. El más antiguo es el protocolo CGI, pero también existen los protocolos ASP (desarrollado por Microsoft), JSP (de Java y que es de código abierto) y se está preparando la tecnología.NET (una evolución de ASP y de VisualBasic de Microsoft).

El protocolo CGI sirve para comunicar un servidor web (httpd) con programas externos y funciona incorporando, dentro de la página web, una llamada a un fichero ejecutable (el programa CGI) que está situado en el directorio cgi-bin, o equivalente, de un servidor y que es capaz de procesar los datos que se envían con la página (es decir, una consulta a una base de datos). Este modelo de funcionamiento no acaba de satisfacer a muchos webmasters porque implica ir instalando en el servidor distintos programas CGI (uno para cada SGD o aplicación específica que se quiera conectar con el servidor web), de los cuales se desconoce si van a ser totalmente compatibles entre ellos o cuantos recursos de la máquina del servidor van a consumir. El funcionamiento de ASP o JSP es distinto, ya que los scripts están incluidos en la página web y se ejecutan en el propio servidor antes de enviar la página, siendo un sistema más robusto porque está más integrado con el servidor web. Así pues, si un servidor Web y un SGD soportan esta tecnología estándar, se pueden comunicar directamente sin tener que instalar un programa CGI aparte. Por otro lado, estos sistemas utilizan un lenguaje de programación estándar, el propio ASP o JSP,que da más facilidades en la manipulación de los datos.

La interfaz

La interfaz es el conjunto de páginas que facilitan la realización de la consulta por parte del usuario y que indican el formato de presentación de los resultados. Se construye con el lenguaje de programación propietario de la pasarela web en caso del CGI o con código estándar ASP o JSP, entremezclada con código html y consta básicamente de tres elementos: formulario de consulta; pantalla de visualización de resultados (listado); y pantalla de visualización del documento completo.

MERCADO 

La valoración está hecha en función de las acciones que puede llevar a cabo un usuario final utilizando exclusivamente el asistente el utilitario que permite generar de forma asistida una interfaz básica de consulta, es decir, el conjunto formado por una página de consulta, y las indicaciones para generar el listado y/o visualizar el documento sin recurrir a la utilización del lenguaje de programación. Las pruebas se han llevado a cabo con las versiones que se indican en las fichas descriptivas.

Hay que recordar, en este punto, que las pasarelas no pueden solventar las limitaciones que pueda tener un determinado sistema de gestión documental. Así pues, si Knosys para Windows tan sólo permite indizar el contenido de los campos por el sistema de palabra a palabra y CDS/ISIS o Inmagic, en cambio, permiten además indizar grupos de palabras, ésto no se va a poder mejorar por el hecho que las pasarelas de unos sean mejores que las de los otros. Así pues, cuando se muestren los índices de campo, en el primer caso, tan sólo se podrá visualizar, como mucho, términos únicos y, en el segundo, se podrán visualizar también grupos de palabras.

Si se hace un paralelo, nos encontramos delante de tres productos consolidados que han ido mejorando notablemente en las sucesivas versiones. Todos ellos permiten que un usuario no experto pueda publicar una base de datos documental en el web en poco tiempo aunque permiten un nivel de prestaciones distinto según los casos.

WebPublisher es, sin duda, el programa más completo de los tres que se han analizado. A las facilidades de que dispone para generar una interfaz de consulta muy correcta se le unen dos importantísimas prestaciones como son la posibilidad de poder realizar tareas de mantenimiento de la base de datos (introducir, modificar o borrar registros) y también el poder relacionar bases de datos entre sí. Para poder conseguir resultados parecidos, tanto GenIsis como KnosysInternet tienen que recurrir a la programación ya que se trata de opciones vedadas desde el asistente. Sus mayores inconvenientes son, por un lado, el precio, ya que su coste se encuentra bastante o muy por encima de los otros dos productos y, por otro lado, la necesidad de conocer a fondo DB/Text para generar la plantilla html de la interfaz de consulta.

KnosysInternet, por su parte, es un programa de fácil utilización pero que tiene diversas limitaciones para incluir determinadas prestaciones en el interfaz utilizando exclusivamente el asistente. En su favor hay que indicar que el precio es bastante más asequible que el anterior y, además, la inclusión de un interesante módulo de estadísticas. Se está a la espera de la aparición de un nuevo asistente que esté en la línea de los notorios cambios efectuados por Knosys2004 y que suponga un importante salto cualitativo.

Finalmente, GenIsis ofrece un conjunto de prestaciones similares a las de WebPublisher en lo que se refiere al apartado de consulta (excluyendo, por tanto, la introducción de datos), con una facilidad de uso parecida a los anteriores y con la grandísima ventaja de tratarse de un producto gratuito.

TENDENCIAS 

A partir de las innovaciones que van incorporando los programas y del estudio de las necesidades y requerimientos de los usuarios, se intenta señalar cuáles son los próximos ámbitos a desarrollar.

Uno de los aspectos más solicitados por los usuarios es la posibilidad de disponer de funcionalidades de mantenimiento de la base de datos desde el web y no tan sólo de las opciones de consulta. Esto hace tiempo que es posible pero no ha sido hasta la última versión presentada por WebPublisher cuando se ha incorporado al conjunto de prestaciones que puede ser configurada desde el asistente. Se supone que el resto de programas también van a incorporarlo a corto plazo, tal y como por ejemplo ya ha anunciado Knosys.

En segundo lugar, también va a mejorar la integración con sistemas de gestión de documentos, de tal forma que los programas que se estan analizando van a desarrollar prestaciones para facilitar también la gestión de cambios, versiones, etc. en los documentos generados por una organización, integrándose así mejor en el trabajo en grupo. De esta forma se facilita no tan sólo el control de la documentación externa, que cambia poco, sino también el de la documentación interna, que está sometida a cambios constantes y a manipulaciones llevadas a cabo por distintos usuarios.

En tercer lugar, también se va a profundizar en el uso e integración dentro de sistemas relacionales. En este sentido, por ejemplo, WebPublisher ha desarrollado un módulo (Content Server) que está basado en SQLServer y permite administrar todo el sistema utilizando tablas relacionales.

Finalmente, hay que señalar la tendencia de ir evolucionando desde el protocolo CGI hacia JSP, un estándar abierto, más robusto y compatible con los servidores. Knosys ya ha iniciado este camino y probablemente el resto también lo sigan.
 
Fuente: Ernest Abadal. Bases de datos documentales en el web: análisis del software para su publicación [en línea]

No hay comentarios: