Cómo funciona la Web

Capítulo 2 Anatomía de la Web acotado de páginas dinámicas (por ejemplo, un calendario), la Web que po ­ demos crear es infinita. Las páginas públicas son las que todas las personas pueden ver y las pri ­ vadas son las que están protegidas por una clave o se encuentran dentro de una Intranet. Como cada persona tiene acceso a distintas páginas privadas, la Web pública depende del observador. En particular cada buscador refleja una Web pública distinta. Algunos sitios tienen información semántica que ayuda a los buscadores y se estima que un 5% de ellos tiene información fi ­ dedigna. Sin embargo, más son los sitios que tienen información falsa, lo que se llama spam de Web . Minería Web Para caracterizar la Web debemos realizar un proceso de minería de da ­ tos de la Web, lo que en inglés se llama Web mining . Una metáfora sería excavar la Web y es posible hacerlo en distintas partes de ella: en su conteni ­ do, en su estructura y en su uso. El contenido y la estructura se recolectan con un software que recorre las páginas de la Web y siguen sus enlaces, un programa que en inglés se llama crawler . El uso se obtiene de la información que dejan las personas al usar un sitio Web, que se almacena en una bitáco ­ ra. A continuación detallamos brevemente cada uno de estos casos. Excavando el Contenido Lo más simple es recuperar información a través de buscadores como Google o Yahoo!. Pero es posible también usar análisis de lenguaje natural para entender parcialmente la semántica del texto, extraer otros objetos como imágenes o audio, aprovechar las marcas de HTML para transformar el contenido o extraer datos específicos, o mejorar los resultados de los bus ­ 25

RkJQdWJsaXNoZXIy Mzc3MTg=