Cómo funciona la Web
Capítulo 10 Clasificación y Filtrado de Información en la “Web Viva” Filtros que Aprenden y se Adaptan Disciplinas como estadística, aprendizaje de máquinas, reconocimiento de patrones y, últimamente, minería de datos [3,4,5] son la base para desa rrollar filtros de información que aprenden y se adaptan en base a la experiencia. Para que este proceso de aprendizaje se lleve a cabo, debemos contar con información ya filtrada, es decir, ejemplos positivos y negativos, denominada datos de entrenamiento , que se pueden generar por expertos o vía feedback de usuarios comunes. Estos datos se usan para entrenar o inducir el filtro. Una forma de pensar en este proceso es que a medida que incluimos más datos en el entrenamiento, el sistema incorpora nuevas reglas , siempre teniendo cuidado de que éstas se puedan generalizar a información más allá de los datos de entrenamiento. La figura 10.2 muestra un ejemplo de un pro ceso de entrenamiento de un modelo para clasificar vinos. En este proceso es muy importante evaluar el desempeño del sistema creado, es decir, medir su capacidad para predecir correctamente las catego rías de nueva información que se presenta. En términos simples, esto se hace separando de los datos de entrenamiento un nuevo conjunto, llamado “da tos de prueba”, que usamos para medir la tasa de error. En general, es importante distinguir distintos tipos de error (falsos positivos y falsos nega tivos). Por ejemplo, en un agregador de contenido para niños es mucho más grave el error de dejar pasar información no apta que muestra violencia o pornografía, que el error de descartar alguna información adecuada. Hoy en día existen cientos de técnicas para desarrollar filtros de infor mación, algunas de las cuales han alcanzado tasas de error menores a un 10% en diversos experimentos. Entre estas están los árboles de decisión, má quinas de soporte vectorial, redes neuronales, redes bayesianas, discriminantes lineales, regresión logística, etc. En la actualidad, estas técni 134
Made with FlippingBook
RkJQdWJsaXNoZXIy Mzc3MTg=