Cómo funciona la Web

Capítulo 5 Manejo de grandes volúmenes de información utilizando Clusters de computadores Recolección de páginas Web y Clusters Para poder realizar consultas de información en una máquina de bús ­ queda necesitamos que ésta contenga información actualizada de la Web. Los buscadores comerciales tienen software en operación que está constante ­ mente conectándose a los sitios Web de todo el mundo para bajar los documentos de los sitios e indexarlos (es decir, actualizar el índice invertido de la máquina de búsqueda) y ponerlos a disposición de los usuarios. La Web mundial es inmensamente grande y los enlaces a Internet tie ­ nen limitaciones de velocidad de transferencia de datos, por lo tanto no es posible bajar toda la Web en un par de horas. Por ejemplo, actualmente bajar toda la Web Chilena toma de 4 a 5 días utilizando un solo computador co ­ nectado a un enlace de alta velocidad. Para bajar la Web mundial es necesario utilizar clusters de computadores cuyo número varía entre diez y veinte mil computadores y es un proceso que demora varias semanas. Gran parte del éxito de una máquina de búsqueda descansa en su capa ­ cidad de almacenar la versión más reciente de la Web. Por lo tanto es necesario establecer un orden para realizar las visitas a los sitios Web de ma ­ nera de recuperar primero los sitios que son de mayor interés para los usuarios. Una manera de asignar una medida de “interés” para los sitios Web es suponer que los sitios que son más “apuntados” por otros sitios reco ­ nocidos como importantes son también interesantes para los usuarios. Un sitio a es apuntado por otro sitio b , si en el sitio b hay páginas Web que tie ­ nen enlaces o referencias a las páginas del sitio a . La primera página de un sitio Web es llamada homepage . Una o más páginas son descubiertas si, cuando bajamos una página, ésta contiene enla ­ ces a páginas nuevas que no han sido consideradas anteriormente. Entonces 69

RkJQdWJsaXNoZXIy Mzc3MTg=