Cómo funciona la Web

Capítulo 4 Buscando en la Web peor si consideramos la llamada Web dinámica , formada por páginas que se generan automáticamente a pedido (por ejemplo, al hacer una consulta al si ­ tio de una línea aérea), y que son potencialmente infinitas. Y esto considerado que se refieren sólo a la Web pública (de acceso gratuito). Algunos números pueden dar una idea de las magnitudes involucra ­ das. En 2005 se estimaba que la Web contenía 11.500 millones de páginas, de las cuales los mayores buscadores cubrían a lo sumo el 70%. Algunos estu ­ dios calculan que la Web dinámica, por otro lado, puede llegar a los 500 mil millones de páginas. Querer mantener una foto de la Web al día puede compararse con que ­ rer estar al tanto de todo lo que ocurre en todas partes del mundo, hasta los menores detalles locales, mediante leer el diario continuamente. Van ocu ­ rriendo más novedades de las que es posible ir leyendo. Podemos pasarnos todo el tiempo leyendo detalles insignificantes y perdiéndonos los hechos más importantes, o podemos tener una política más inteligente de seleccio ­ nar las noticias más relevantes, y postergar (tal vez para siempre) la lectura de las menos relevantes. Un tema fundamental en un buscador es justamente el de decidir qué páginas debe conocer, y con cuánta frecuencia actualizar el conocimiento que tiene sobre cada página. Un crawler comienza con un conjunto pequeño de páginas conocidas, dentro de las cuales encuentra enlaces a otras páginas, que agrega a la lista de las que debe visitar. Rápidamente esta lista crece y es necesario determinar en qué orden visitarlas. Este orden se llama “política de crawling”. Algunas variables relevantes para determinar esta política son la importancia de las páginas (debería actualizar más frecuentemente una página que es más importante, lo que puede medirse como cantidad de ve ­ ces que la página se visita, o cantidad de páginas que la apuntan, o frecuencia con que se buscan las palabras que contiene, etc.), y la frecuencia 54

RkJQdWJsaXNoZXIy Mzc3MTg=