Cómo funciona la Web

Capítulo 10 Clasificación y Filtrado de Información en la “Web Viva” Clasificar es una tarea similar. En este caso, debemos decidir una o más categorías, entre un conjunto fijo de éstas, a las que asociamos determinada información, como cuando organizamos los archivos de nuestro computador en carpetas. Es común en la Web que las categorías sean tópicos, que incluso pueden formar estructuras jerárquicas donde los más específicos se conectan con los más generales. En otros casos, las categorías pueden referirse a algu ­ na propiedad de la información como su tipo u origen. Por ejemplo, podríamos necesitar clasificar texto para detectar comentarios positivos y ne ­ gativos. En el extremo derecho de la figura 10.1 se pueden ver las categorías en que un agregador clasifica RSS. Se consideran tópicos como política, ne ­ gocios, tecnología, etc. y tipos de información como weblogs, videos, fotografías, podcasts , etc. Hoy en día, los usuarios comunes de agregadores sólo pueden filtrar manualmente una fracción mínima del flujo de información que pueden re ­ cibir. También es poco práctico pensar en editores que hagan este trabajo, como suele ocurrir en medios de prensa tradicionales. El Open Directory Project [11], una ambiciosa iniciativa de comprometer editores humanos para clasificar la Web, gozó de gran popularidad en sus inicios a fines de los noventa, pero su impacto decreció en los últimos años. Los Primeros Filtros Automáticos A fines de los ochenta, tomó fuerza el desarrollo de programas que fil ­ tran en forma automática. Uno de los primeros de estos sistemas, CONSTRUE , implementado inicialmente para la agencia de noticias Reuters, permitía programar filtros basados a reglas modeladas por expertos. Por ejemplo, la siguiente regla, mencionada con frecuencia en libros del area, determina si un artículo es o no relevante para la categoría “trigo”: 132

RkJQdWJsaXNoZXIy Mzc3MTg=