Cómo funciona la Web
Capítulo 2 Anatomía de la Web acotado de páginas dinámicas (por ejemplo, un calendario), la Web que po demos crear es infinita. Las páginas públicas son las que todas las personas pueden ver y las pri vadas son las que están protegidas por una clave o se encuentran dentro de una Intranet. Como cada persona tiene acceso a distintas páginas privadas, la Web pública depende del observador. En particular cada buscador refleja una Web pública distinta. Algunos sitios tienen información semántica que ayuda a los buscadores y se estima que un 5% de ellos tiene información fi dedigna. Sin embargo, más son los sitios que tienen información falsa, lo que se llama spam de Web . Minería Web Para caracterizar la Web debemos realizar un proceso de minería de da tos de la Web, lo que en inglés se llama Web mining . Una metáfora sería excavar la Web y es posible hacerlo en distintas partes de ella: en su conteni do, en su estructura y en su uso. El contenido y la estructura se recolectan con un software que recorre las páginas de la Web y siguen sus enlaces, un programa que en inglés se llama crawler . El uso se obtiene de la información que dejan las personas al usar un sitio Web, que se almacena en una bitáco ra. A continuación detallamos brevemente cada uno de estos casos. Excavando el Contenido Lo más simple es recuperar información a través de buscadores como Google o Yahoo!. Pero es posible también usar análisis de lenguaje natural para entender parcialmente la semántica del texto, extraer otros objetos como imágenes o audio, aprovechar las marcas de HTML para transformar el contenido o extraer datos específicos, o mejorar los resultados de los bus 25
Made with FlippingBook
RkJQdWJsaXNoZXIy Mzc3MTg=