Cómo funciona la Web

Capítulo 4 Buscando en la Web de cambio de las páginas (el crawler debería visitar más frecuentemente una página que cambia más seguido), entre otras. Indexamiento: ¿qué debería almacenarse de las páginas? El indexamiento es el proceso de construir un índice de las páginas visita ­ das por el crawler. Este índice almacena la información de manera que sea rápido determinar qué páginas son relevantes a una consulta. ¿No basta con almacenar las páginas tal cual, para poder buscar en ellas después? No. Dados los volúmenes de datos involucrados (los mayores bus ­ cadores hoy indexan más de 3 mil millones de páginas, que ocupan varios terabytes), es imposible recorrer una a una todas las páginas almacenadas en un buscador para encontrar cuáles contienen las palabras que le interesan al usuario. ¡Esto demoraría horas o días para una sola consulta! El buscador construye lo que se llama un índice invertido , que tiene una lista de todas las palabras distintas que ha visto, y para cada palabra almace ­ na la lista de las páginas donde ésta aparece mencionada. Con un índice invertido, las consultas se pueden resolver mediante buscar las palabras en el índice y procesar sus listas de páginas correspondientes (intersectándolas, por ejemplo). La figura 4.2 ilustra un índice invertido. Los buscadores grandes deben procesar hasta mil consultas por segun ­ do. Si bien este trabajo puede repartirse entre varios computadores, la exigencia sigue siendo alta. El mayor costo para responder una consulta es el de leer de disco las listas de páginas apuntadas por el índice invertido. Es posible usar técnicas de compresión de datos para reducir el espacio en que se representan estas listas. Con esto se logra ganar espacio y velocidad si ­ 55

RkJQdWJsaXNoZXIy Mzc3MTg=