Cómo funciona la Web

Capítulo 4 Buscando en la Web En el crawling se recolectan páginas de la Web, ya sea nuevas o actuali ­ zadas. El proceso de indexamiento es el que extrae los enlaces que parten de las páginas leídas y realimenta el crawling con nuevas direcciones para visi ­ tar, mientras que almacena en el índice la información para qué palabras aparecen en qué páginas, junto con una estimación de la importancia de ta ­ les ocurrencias. La búsqueda usa el índice para responder una consulta, y luego presenta la información al usuario para que éste navegue por ella [4]. Crawling: ¿qué páginas debería conocer un buscador? Se llama crawling al procedimiento de visitar páginas para ir actualizan ­ do lo que el buscador sabe de ellas. Un crawler es un programa que corre en la máquina del buscador y que solicita a distintos computadores de Internet que le transfieran el contenido de las páginas Web que él les indica. Para es ­ tos computadores es casi lo mismo que un crawler o un ser humano visite sus páginas: debe enviarle el contenido de la página solicitada. ¿Qué páginas debería conocer un buscador? ¡Es tentador responder que to ­ das! Pero lamentablemente esto no es posible. La Web cambia demasiado seguido: un porcentaje alto de las páginas cambia de un mes a otro, y apare ­ ce un porcentaje importante de páginas nuevas. Internet no es lo suficientemente rápida: se necesitan meses para transmitir todas las páginas de la Web al buscador. Es simplemente imposible mantener una foto actuali ­ zada de la Web. ¡Ni siquiera es posible explorarla al ritmo al que va creciendo! La foto que almacena un buscador es siempre incompleta y sólo parcialmente actualizada. No importa cuántos computadores usemos para el buscador. Los mayores buscadores hoy ni se acercan a cubrir el total de la Web. ¡Es incluso difícil saber cuál es el tamaño real de la Web! Esto es aún 53

RkJQdWJsaXNoZXIy Mzc3MTg=