https://commons.wikimedia.org/wiki/File:DeepWebDiagram.png
Tratar de definir o de conceptualizar la web superficial y la web profunda supone leer mucho y tomar una decisión acerca de por dónde debe ir esta definición, ya que las opiniones son inmensas y muy diversas.
Lo primero que debemos saber es que lo que nosotros normalmente conocemos por web, red o Internet corresponde al 4 % del material actualmente existente en el mundo virtual. Es decir, lo que el común de las personas utilizamos a diario como web solo corresponde al 4 % de lo que realmente es la red, a esto se le conoce como web superficial.
La web superficial es por todos conocida y se trata de los sitios que visitamos a diario, buscadores como Google, Yahoo, Bing o páginas de redes sociales como Facebook, Twitter, Instagram o cualquier página que haya sido indexada por un robot de búsqueda a un catálogo y que puede ser encontrada fácilmente, son de libre acceso y las páginas son estáticas, es decir, tienen URL fijas y accesibles desde cualquier parte.
Al otro 96 % de la web que casi no se utiliza y que no es por todos conocida se le conoce como web profunda (en inglés, deep web), y también se le llama web invisible. Aquí hay millones de páginas web desconocidas y no indexables por motores de búsqueda comunes, y generalmente se obtiene mediante bases de datos.
«Parte de la información es "invisible" a los robots de los buscadores convencionales, ya que los resultados se generan en la contestación a una pregunta directa mediante páginas dinámicas (ASP, PHP, etc.), es decir páginas que no tienen una URL fija y que se construyen en el mismo instante (temporales), desapareciendo una vez cerrada la consulta».
(Fuente: MOOC“ENCONTRANDO TESOROS EN LA RED”–UTN-INSPT).
Chris Sherman y Gary Price, en su libro The Invisible Web, distinguen cuatro tipos de contenidos invisibles en la web:
- La web opaca: que son los archivos que no aparecen indizados por economía, porque el buscador utilizado no tuvo la capacidad de indizar todo lo existente o porque la URL no es frecuente y entonces aparece como desconectada para el buscador.
- La web privada: son páginas que se excluyen deliberadamente por tener contraseñas, por contener un archivo "robots.txt" o "noindex" con el fin de evitar ser indizadas.
- La web propietaria: son aquellas páginas donde hay que registrarse para tener acceso al contenido, sean estas páginas gratuitas o no, es necesario registrarse.
- La web realmente invisible: son páginas que no pueden ser indizadas por tener programas ejecutables, archivos comprimidos o limitaciones técnicas de los buscadores. Además, se incluyen aquí páginas generadas dinámicamente o sea que se generan a partir de datos que introduce el usuario o información almacenada que no se puede extraer a menos que se realice una petición para ello.
Como usuarios de la web o cibernautas vamos conociendo cada día más y más recursos, programas, wikis, blogs y otros tipos de consultas donde, muchas veces, interactuamos al mismo tiempo con la web superficial y con la web profunda sin darnos cuenta.
Quiero dejarles aquí un blog que recoge una pincelada de enlaces de tipo estadístico, financiero, científicos, de comercio internacional y otros, que podrían ser de ayuda en el trabajo diario. Es un artículo simple sobre la web profunda, y con algunas faltas de ortografía, pero contiene varios links interesantes. http://papelesdeinteligencia.com/internet-profunda/
Pero eso es solo lo bueno, existe un inmenso universo oscuro en la web, que no voy a detallar aquí, pero quiero mencionar que existe una gran diferencia entre lo que es web profunda (deep web) y web oscura (dark web), en esta última las páginas que se evitan indizar normalmente tienen que ver con tráfico de drogas, pornografía infantil, trata de personas y otros delitos. Quizás, en una próxima ocasión podré hacer un artículo sobre esta diferencia.
Hasta la próxima.

Muy buen material, muchas gracias y felicidades.
ResponderBorrarMuchas gracias, Magdalena. Saludos cordiales.
BorrarLily: Exposición clara y muy bien redactada. Diseño muy elegante. Engancho enlace a entrada del blog de Papeles de Inteligencia.
ResponderBorrar¡Enhorabuena!.
Saludos,
Pilar. -
Pilar, muchas gracias por tu comentario y por tomarte el tiempo de describir cómo viste el artículo, se agradece.
ResponderBorrarSaludos cordiales.