
La Web tiene actualmente al menos unas cuatro mil millones de páginas estáticas y un número cientos de veces mayor de dinámicas (aquellas que sólo se crean producto de un clic o de una consulta en un sitio web).
Además, tenemos que agregar toda la web invisible, en intranets o páginas con acceso restringido. En la actualidad, se estima que las páginas con información semántica constituyen algo menos del 5%, aunque se espera que en el futuro sea mayor. Esta información semántica, representada principalmente en los metadatos de cada página, no es muy usada ya que existe un porcentaje mayor de páginas que tienen información no fidedigna o directamente falsa (spamming de metadatos). La región con rayas paralelas indica la zona que efectivamente poseen los buscadores web, que se corresponde en gran parte con la zona pública estática y un poco de la dinámica.
La minería web, engloba tres tipos de datos principales. El más importante y difícil de procesar es el contenido, que es multimedial, en el cual el texto juega un rol dominante. El segundo proviene de la estructura no lineal de la web: sus hiper-enlaces. Finalmente, el último procede del uso reflejado a través de los logs o bitácoras de los servidores Web.
Posiblemente la aplicación más importante de la minería se localiza en el diseño de sitios web. Los pasos causales del diseño web tiene cuatro fases relevantes:
Debo decir, que ese 'supuesto' mapa de la web, me ha sorprendido mucho, y me ha trastocado mi concepto de la web...
Estaría interesada en saber en qué sentido, así me pongo al día. ¿Podrías explicarte David?
Me sorprende que la parte rallada del mapa (indizable o susceptible de ser encontrada por buscadores) sea tan pequeña.
Esa parte indizable es el centro de la web (según Ricardo Baeza-Yanes), y a pesar de que hay una parte importante de la web que es dinámica (aquellas páginas que sólo se crean producto de un clic o de una consulta en un sitio web), no deja de ser pública, pero parece que los buscadores no llegan directamente a ella y por tanto se escapan de las búsquedas en primera instancia.
Pero lo más sorprendente para mi, es la parte oculta (la de color blanco) es enorme, gigante!!. Con un vistazo rápido quizás no se aprecie, pero si a la parte pública le quitamos la parte dinámica (que entiendo, que no son más sitios webs, sino páginas que dependen de una pagina central), nos econtramos con que la parte oculta de la web es absolutamente impresionante.
En fin...
Entendido chato, mucho ocultismo en la web, pero... dónde se meten? nos miran?
... Como impresionante es la parcela rotulada como "semántica"...
Son tantos los esfuerzos que se estan realizando, tan importante objeto de estudio, son tantos los ojos que espectantes la miran...
Sabía que era una "pequeña porción de red" la que estaba preparada, optimizada o tratada para ser netamente semántica, pero visto de esta manera, parece que aún queda DEMASIADO para lograr lo que todos esperamos
Aceptando (con reservas) que esté ajustado a la realidad el gráfico en cuestión (una especie de aproximación a la situación actual de la www), que creo que ya es mucho aceptar (soy así, no lo puedo evitar -prefiero reconocerlo), aceptando esto, me da la impresión de que una Red plenamente indexada y catalogada si bien nos facilitaría el hallazgo de las perlas que sin duda contiene, por otro lado supondría abrir una brecha peligrosa en las murallas de esa ciudad misteriosa que, de un modo anárquico y confuso, se caracteriza por ser caótica y cuasi-infinita y termina convirtiéndose en un destino irresistible... magnético para muchos de nosotros.
Siempre he creído que las cosas de la humanidad se mueven por un impulso de selección natural similar al que definieron los primeros evolucionistas para explicar el origen de las criaturas; sólo cabe subirse al tren de la vida y tomar parte en el espectáculo.
[exhausto me quedo... pufff]
en el modelo del web como una pajarita viene explicada la cuestión de las paginas esas que no son accesibles, porque nadie las enlaza, son páginas que enlazan sin ser enlazadas, por eso hay un centro del web, una periferia sólo accesible en parte.
se me olvidaba, hoy voy de listillo, la parte indizable no solo es pequeña en comparación con el tamaño total sino que es cada vez más pequeña, porque el crecimiento del web actualmente es superior al crecimiento del índice de los buscadores.
Cierto (en parte) lo de barbol. Pero matizando: esas páginas que no enlazan pueden ser webs comerciales, nadie las enlaza y ellas mismas no enlazan a nadie. Hasta ahí correcto.
>> en el modelo del web como una pajarita viene explicada la cuestión de las paginas esas que no son accesibles >>
Error! esas páginas sí que son accesibles. En todo caso no estan indizadas, y no son accesible desde buscadores. Los buscadores, si bien representan (de momento a la red) está más que claro, que no son la red.
juass joder como eres, claro claro ke no estan accesibles por los buscadores, je; jo; no lo he dicho ... pero vamos hay un contexto y eso ... por ahorrar palabras. XDD