Cómo funciona la Web

Capítulo 5 Manejo de grandes volúmenes de información utilizando Clusters de computadores Pero esto se puede mejorar mas aún y así reducir al máximo la cantidad de comunicación entre los computadores. Dado que los documentos están uniformemente distribuidos en los P computadores es razonable pensar que cada computador tendrá más o menos una fracción K/P de los mejores K re ­ sultados mostrados al usuario. Entonces lo que se puede hacer es trabajar por ciclos repetitivos o iteraciones. En la primera iteración todos los compu ­ tadores envían sus mejores K/P resultados al computador encargado de hacer el ranking final. Este computador hace el ranking y luego determina si necesita más resultados de los otros computadores. Si es así entonces pide nuevamente otros K/P resultados y así hasta obtener los K mejores (ver figu ­ ra 5.4). Esto porque si tenemos mala suerte podría ocurrir que para esa consulta en particular uno de los computadores posea los K mejores resulta ­ dos que se le van a entregar al usuario, caso en que se necesitan P iteraciones para obtener la respuesta para el usuario. Pero es muy poco probable que esto ocurra para todas las consultas que se procesan en una máquina de bús ­ queda grande. En la práctica se requieren uno o a lo más dos iteraciones para la inmensa mayoría de las consultas, lo cual permite reducir considera ­ blemente el costo de comunicación entre los computadores del cluster. En las máquinas de búsqueda más conocidas se reciben alrededor de 600 consultas por segundo. Una manera de explotar al máximo la capacidad de los computadores del cluster es hacerlos trabajar en paralelo. Esto se pue ­ de lograr asignando los computadores para hacer el ranking de manera circular. Por ejemplo, el computador broker elige al computador 1 para ha ­ cer el ranking de la consulta q 1 , al computador 2 para la consulta q 2 , ..., el computador P para la consulta q p , el computador 1 para la consulta q p +1 , y así sucesivamente de manera que en un instante dado podamos tener a P com ­ putadores haciendo el ranking de P consultas distintas en paralelo. 68

RkJQdWJsaXNoZXIy Mzc3MTg=