domingo, octubre 24, 2010

Extracción de palabras clave de páginas web, basada en criterios de posicionamiento en buscadores

"recuperación de información" "programa de sistemas de información" "Universidad de La Salle"

La World Wide Web representa un universo de información y de conocimiento donde a menudo resulta difícil localizar la información pertinente que necesitamos. Los algoritmos basados en el análisis de enlaces han supuesto una gran mejora en la ordenación de los resultados, sin embargo aún queda mucho camino por recorrer, en especial si se quiere automatizar una parte más amplia del proceso de recuperación de información mediante agentes de búsqueda inteligentes.

La propuesta de la Web semántica (Berners-Lee, 2001) puede representar un gran avance en este ámbito porque propone un cambio de paradigma: transformar la actual web basada casi exclusivamente en lenguaje natural a una web estructurada y organizada, donde los contenidos en lenguaje natural son etiquetados semánticamente de forma explícita para conseguir que las máquinas puedan interpretarlos. De esta forma se facilitaría el procesamiento automático de los contenidos de la web y uno de estos procesos sería precisamente la recuperación de información (Ding, 2005).

El etiquetado y la asignación de metadatos son por tanto elementos básicos del proyecto de la Web semántica, con implicaciones para cualquiera que esté relacionado con la creación y distribución de contenidos en la web. El nuevo paradigma supone una nueva forma de crear contenidos, donde sus responsables deben asumir la tarea de su etiquetado si quieren que estos sean interpretables semánticamente por los nuevos buscadores y aplicaciones de usuario. En este contexto, surge la necesidad de herramientas que faciliten la creación automática o semi automática de esta metainformación y que asegure su calidad.

Se presenta un proyecto de investigación que tiene como principal objetivo el desarrollo y la exploración del potencial de una herramienta que facilite la asignación semi automática de palabras clave a documentos web. Esta herramienta estará basada en la extracción de palabras clave de acuerdo con las coincidencias entre el texto del documento analizado y una taxonomía predefinida (pero que siempre podrá ser editada y modificada). Los candidatos a palabras clave que se generan mediante este procedimiento se ordenarán aplicando criterios de relevancia propios de los algoritmos de posicionamiento.

A continuación se describen de forma sintética las principales características y prestaciones de la herramienta que se está construyendo y se analizan las bases teóricas que la justifican.

Esta línea de investigación viene motivada por el actual interés que suscitan las tecnologías semánticas como mecanismo para facilitar y optimizar el acceso a la información (Codina, 2009; Davies, 2009; Kiryakov, 04), contexto donde hay que situar también a el proyecto de la Web semántica del W3C.

La herramienta

El objetivo de la herramienta que se propone desarrollar es facilitar la asignación semi automática de metadatos en forma de palabras clave para representar el contenido temático de documentos web.

A grandes rasgos, su funcionamiento es el siguiente:

• Se procesa el contenido textual de una página web: comparando los términos del documento con los términos de la taxonomía elaborada previamente y del mismo ámbito temático de la página analizada.

• Los términos de la página que aparecen también en la taxonomía se seleccionan: como candidatos a palabras clave para representar el contenido del documento.

• Se asigna una puntuación a cada candidato a palabras clave: en función de los criterios de relevancia habitualmente utilizados en los algoritmos de posicionamiento, como por ejemplo el número de ocurrencias del término o el hecho de estar presente en zonas preeminentes de la página web como el título, los encabezados, los enlaces, la url o bien que hayan sido marcados con etiquetas de énfasis (como las negritas).

• Se ordenan los candidatos a palabras clave de acuerdo con la puntuación de relevancia obtenida por cada uno de ellos: el sistema permite asignar automáticamente las palabras clave al documento analizado a partir de una determinada puntuación, marcada como umbral, o de seleccionar manualmente las mejores palabras de la lista de candidatos.

• El conjunto de palabras clave seleccionado puede pasar a formar parte de las metadatos del documento en alguno de los formatos habituales de la web, como por ejemplo, metadatos Dublin Core como parte del código fuente del documento, en formato RDF como archivo externo, etc.

A partir de aquí, la asignación de un conjunto de palabras clave pertinentes a un documento web tiene tres consecuencias importantes:

• Facilita la representación y el acceso a la información. El conjunto de palabras clave codificado en algún formato de metadatos es una forma de representación sintética del documento de gran capacidad semántica. Ayuda a acceder a la información, ya que facilita la búsqueda por conceptos (Douglas, 2006). Las palabras clave obtenidas a partir de un lenguaje controlado, tal como una taxonomía, son una forma de conseguir que el emisor, el autor de los contenidos, y el receptor, en este caso quien busca información, estén más cerca. Es una propuesta para solucionar una parte importante del problema que implica la variedad lingüística (sinonimia y polisemia) propia de la lengua natural. En este momento no hay constancia de que los buscadores utilicen de forma generalizada los metadatos de palabras clave (keywords) presentes en los documentos web. No obstante, se considera que son un elemento que ayuda al posicionamiento si el contenido del documento está relacionado con las mismas. Además, son un instrumento de recuperación que otorgan mucha calidad en los buscadores internos, no sólo en caso de Intranets sino también en el caso de buscadores internos de sitios web abiertos con grandes volúmenes de información.

• Ayuda en el posicionamiento. Cabe destacar que la herramienta que se plantea desarrollar resulta también interesante desde la perspectiva del posicionamiento en buscadores. Los candidatos a palabra clave con mayor puntuación serán los términos donde la página debería tener más probabilidades de quedar bien posicionada. Por lo tanto, los autores tendrán una información que les permitirá valorar si es necesario retocar los contenidos para ser procesados por los buscadores de manera más eficiente de acuerdo con sus objetivos.

• Preparación para las nuevas herramientas inteligentes. La página estará mucho mejor preparada para la Web semántica y para que en el futuro pueda ser procesada por agentes inteligentes.

Habría que destacar la importancia en relación a la comunicación social, en especial por las dos vertientes principales donde se intenta hacer una aportación: la recuperación de información y el posicionamiento. La actual sociedad de la información ha proporcionado nuevos canales de comunicación, un gran volumen de fuentes de información y potentes instrumentos para el procesamiento de la información (Castells, 1997). La propuesta que se quiere llevar a cabo pretende ayudar a optimizar los procesos de comunicación en este contexto.

Posicionamiento en buscadores

El posicionamiento en buscadores es el conjunto de técnicas para conseguir que una página web aparezca en las primeras posiciones en los listados de resultados de los buscadores cuando los usuarios ejecutan unas determinadas ecuaciones de búsqueda.

Para los autores de los contenidos es primordial el buen posicionamiento de sus páginas web, ya que cada vez es mayor la proporción de tráfico proveniente de los motores de búsqueda. Estudios recientes aseguran que entre el 50 y el 70 por ciento del total del tráfico de un sitio web puede proceder de motores de búsqueda (Valentine, 2007) y no son extraños los casos donde el porcentaje llega al 90 por ciento.

Una de las fases principales a la hora de mejorar el posicionamiento de una determinada página es determinar las palabras clave para las que se desea estar bien posicionado. Las palabras clave deben ser seleccionadas en función de los contenidos, los objetivos y el público de la página web. En este contexto resulta útil identificar tres o cuatro palabras clave principales teniendo en cuenta los siguientes aspectos (Gonzalo, 04):

• Relación con el contenido. Las palabras clave seleccionadas deben reflejar los contenidos de la web y deben coincidir con las que utilizarían los usuarios para localizar la página web a posicionar.

• Popularidad y competencia. Los términos individuales más utilizados, suelen tener mucha competencia y por tanto resulta difícil posicionarse entre los primeros resultados para ellos. La solución suele estar en seleccionar frases clave, formadas por dos o tres palabras que no sean muy populares y optimizar las páginas web por las mismas.

• Para valorar la efectividad de las palabras clave seleccionadas existe el cálculo del Índice de Efectividad de una Palabra Clave (Keyword Effectiveness Index). Es un indicador que muestra la oportunidad de una determinada palabra, en base a su popularidad, número de búsquedas mensuales realizadas con el término, y a su competitividad, número de resultados obtenidos cuando se realiza una búsqueda por esa palabra.

Por otra parte, para mejorar el posicionamiento hay que tener en cuenta como actúan los algoritmos de posicionamiento de los buscadores en relación al texto de las páginas Web. Es sabido que los principales buscadores colocan antes una página en la que las palabras usadas en las búsquedas están en zonas de especial relevancia, como por ejemplo en el título, los encabezados, los anclajes (atributo href), las negritas, los títulos (atributo title) de los gráficos... o incluso en el texto del principio del documento o en los anclajes de los enlaces de otras páginas que apuntan hacia la página que se quiere posicionar.

El ámbito del posicionamiento tiene dos implicaciones importantes en la investigación que se plantea.

•Creación de la taxonomía. En el proceso de selección de los términos de la taxonomía deberá considerarse de forma prioritaria el Índice de efectividad. Para priorizar la terminología más utilizada por los usuarios de la red y facilitar su recuperación.

• Ordenación de los candidatos a palabras clave. La herramienta proporcionará a los usuarios un listado de candidatos a palabras clave en función de la taxonomía y del contenido de la página analizada. Este listado estará ordenado en función de mayor o menor presencia de los términos en las zonas relevantes que aplican los algoritmos de ordenación de resultados. La consecuencia de esta ordenación es que el usuario sabrá cuáles son los términos más importantes para la descripción de su contenido de acuerdo con un conjunto de criterios ampliamente utilizados por los buscadores. Además habrá que explorar si la asignación automática a partir de una determinada puntuación resulta efectiva.

Fuente: Vallez, Mari; Rovira, Cristòfol, Codina, Lluís; Pedraza, Rafael (2010). "Procedimientos para la extracción de palabras clave de páginas web basados en criterios de posicionamiento en buscadores". Hipertext.net, 8, http://www.upf.edu/hipertextnet/numero-8/extraccion_keywords.html

2 comentarios:

Diego Bocanegra Sacristán dijo...

El artículo me aclaro muchas dudas gracias a los creadores de este gran blog

Diego Bocanegra Sacristán dijo...

Un Util blog que me aclaro muchas dudas