Cómo funciona la Web

Capítulo 2 Anatomía de la Web hacia páginas en otros servidores. Esto significa que una minoría de los ser ­ vidores mantiene toda la carga navegacional de la red. Estadísticas recientes indican que el 1% de los servidores contienen aproximadamente el 50% del volumen de datos de la Web, que se estimaba mayor a 20,000 millones de páginas durante 2006. Tamaños y características ¿Cómo es una página Web promedio? Una página de HTML promedio tiene alrededor de 5 a 7 kilobytes (alrededor de mil palabras). Si agregamos audio o video, este promedio aumenta. De hecho, la distribución de tamaños sigue una distribución de Zipf. En otras palabras, aunque la mayoría de los archivos son pequeños, existe un número no despreciable de archivos gran ­ des; y hasta 50 kilobytes predomina el volumen de las imágenes. Desde allí hasta 300 kilobytes son importantes los archivos de audio. Más allá de este límite, llegando a varias decenas de megabytes, tenemos archivos de video. Los formatos más populares (en base a la extensión del nombre de archivo) son HTML, GIF, TXT, PDF, PS y JPG, entre otros. ¿Cómo es una página HTML? Alrededor de la mitad de ellas no tiene ninguna imagen. Un 30% no tiene más de dos imágenes y su tamaño prome ­ dio es de 14Kb. Por otra parte hay un porcentaje no despreciable (mayor al 10%) de páginas con más de 10 imágenes. La razón es que son imágenes ti ­ pográficas, como por ejemplo puntos rojos, líneas de separación de color, etc. La mayoría de las páginas usan HTML simple. Sólo un porcentaje pe ­ queño sigue todas las normas y otro porcentaje mayor (alrededor del 10%) es sólo texto. Finalmente, la calidad del texto deja mucho que desear, pues hay errores de tipeo, errores que viene de la conversión de imágenes de docu ­ mentos a texto, etc. Más aún, la información contenida puede estar obsoleta, 30

RkJQdWJsaXNoZXIy Mzc3MTg=