Cómo funciona la Web

Capítulo 4 Buscando en la Web nes de páginas que contienen esa palabra, y está claro que el usuario no tiene la menor posibilidad de examinarlas todas para ver cuáles satisfacen su ne ­ cesidad de información. De alguna manera el buscador debe ordenar las respuestas por su supuesta relevancia a la consulta. Existen muchas formas de calcular esta relevancia, que dan lugar a me ­ jores o peores heurísticas. Por ejemplo, uno puede considerar que una página donde la palabra buscada aparece varias veces es más relevante que otra donde aparece una vez. Pero si la palabra aparece más veces en una pá ­ gina que es mucho más larga que otra, entonces tal vez la palabra no sea tan importante en esa página. También uno puede considerar cuan importante es la página en sí (por ejemplo si es muy visitada, o muy apuntada por otras). Los buscadores utilizan fórmulas matemáticas para calcular la rele ­ vancia que tienen en cuenta estos aspectos. Existen técnicas más sofisticadas, por ejemplo llevar información de cómo se comportaron otros usuarios cuando hicieron esta misma consulta (por ejemplo, el buscador puede saber que la gran mayoría de los usuarios que buscaron mp3 terminaron yendo a ciertos sitios específicos). Esto se lla ­ ma minería de consultas y es extremadamente útil para dar buenas respuestas a consultas que no dicen mucho. También puede usarse información posicio ­ nal, por ejemplo si la palabra aparece en el título de la página o de los enlaces que la apuntan, puede ser más relevante que si aparece cerca del fi ­ nal. La situación se complica cuando la consulta tiene varias palabras, don ­ de algunas pueden ser más importantes que otras. Normalmente las ocurrencias de palabras que aparecen en muchos documentos, como los artí ­ culos y preposiciones, son poco importantes porque no sirven para discriminar. Para peor, sus listas de ocurrencias en los índices invertidos son muy largas, ocupando espacio inútil. Por ello muchos buscadores las omiten 57

RkJQdWJsaXNoZXIy Mzc3MTg=