Cómo funciona la Web
Capítulo 4 Buscando en la Web En el crawling se recolectan páginas de la Web, ya sea nuevas o actuali zadas. El proceso de indexamiento es el que extrae los enlaces que parten de las páginas leídas y realimenta el crawling con nuevas direcciones para visi tar, mientras que almacena en el índice la información para qué palabras aparecen en qué páginas, junto con una estimación de la importancia de ta les ocurrencias. La búsqueda usa el índice para responder una consulta, y luego presenta la información al usuario para que éste navegue por ella [4]. Crawling: ¿qué páginas debería conocer un buscador? Se llama crawling al procedimiento de visitar páginas para ir actualizan do lo que el buscador sabe de ellas. Un crawler es un programa que corre en la máquina del buscador y que solicita a distintos computadores de Internet que le transfieran el contenido de las páginas Web que él les indica. Para es tos computadores es casi lo mismo que un crawler o un ser humano visite sus páginas: debe enviarle el contenido de la página solicitada. ¿Qué páginas debería conocer un buscador? ¡Es tentador responder que to das! Pero lamentablemente esto no es posible. La Web cambia demasiado seguido: un porcentaje alto de las páginas cambia de un mes a otro, y apare ce un porcentaje importante de páginas nuevas. Internet no es lo suficientemente rápida: se necesitan meses para transmitir todas las páginas de la Web al buscador. Es simplemente imposible mantener una foto actuali zada de la Web. ¡Ni siquiera es posible explorarla al ritmo al que va creciendo! La foto que almacena un buscador es siempre incompleta y sólo parcialmente actualizada. No importa cuántos computadores usemos para el buscador. Los mayores buscadores hoy ni se acercan a cubrir el total de la Web. ¡Es incluso difícil saber cuál es el tamaño real de la Web! Esto es aún 53
Made with FlippingBook
RkJQdWJsaXNoZXIy Mzc3MTg=