LA WEB PROFUNDA
Objetivo:
Buscar bien la información crítica que uno necesita en la Web (iceberg).
Es un vocablo
inglés que significa “Red”, en el ámbito tecnológico: “Red de Informática” y,
en general: Internet.
Tipos de
Web:
1.
Web
superficial o visible (que equivale a la punta del Iceberg)
2.
Web
profunda o invisible (que equivale a la parte no visible del Iceberg).
Web superficial:
1.
Tipo de información y como recuperarla:
·
Sitios(páginas estáticas que tienen una URL)
cuya información puede ser indexada por los robots de los buscadores
convencionales y recuperada casi en su
totalidad mediante una consulta en sus formularios de búsqueda.
2. Herramientas de acceso:
buscadores tradicionales,
3.
Sus características principales:
·
Su información no está contenida en base de
datos
·
Es de libre acceso
·
No se requiere la realización de un proceso
de registro para acceder a la información
·
Mayoritariamente está formada por páginas Web
estáticas, es decir páginas o archivos con una URL fija y accesible desde otro
enlace
Web profunda o invisible:
1.
Tipos de información:
Amplio
banco de información ubicado en:
·
catálogos
·
revistas
digitales
·
blogs
·
entrada
a diccionarios, y
·
contenido
de sitios que demandan un login (aunque sea gratuito) y
·
otros
tipos de contenido que no aparecen entre los resultados de una búsqueda
convencional.
2.
Como recuperarla:
No
se recupera interrogando a los buscadores convencionales . Generalmente es
información almacenada y accesible mediante bases de datos.
Parte
de la información es “invisible” a los robots de los buscadores convencionales,
ya que los resultados se generan en la contestación a una pregunta directa
mediante páginas dinámicas (ASP, PHP, etc.) es decir páginas que no tienen
una URL fija y que se construyen en el mismo instante (temporales)
desapareciendo una vez cerrada la consulta.
Sherman y Price identifican cuatro tipos de contenidos invisibles
de la Web:
·
La Web Opaca (the opaque Web),
·
La Web privada (the private Web).
·
La Web propietaria (the proprietary Web) y,
·
La Web realmente invisible (the truly invisible Web)
1. 1.- La Web opaca:
Tipo de información y como accesarla:
Esta
compuesta por archivos que, si bien podrían estar incluidos en los
índices de los buscadores, no lo están por los siguientes motivos:
·
Extensión de la indización:
a veces, por economía, no todas las
páginas de un sitio son indizadas en los buscadores.
·
Frecuencia de la indización: los buscadores
no poseen la capacidad de indizar todas la páginas existente; a diario se
agregan y modifican muchas y la
indización no se realiza al ritmo que permita incluirla a todas.
·
Número máximo de
resultados visibles: aunque los motores de búsqueda arrojan a veces
un gran número de resultados, generalmente limitan
el número de documentos que se muestran
(entre 200 y 1000).
·
URL desconectadas: las
generaciones más recientes de buscadores, presentan los documentos por relevancia basada en el número de veces
que aparecen referenciados en otros.
Si un documento no tiene un link en él, desde otro documento, será imposible
que la página sea encontrada, pues no se encuentra indizada.
2.
2.- La Web privada: consiste en las páginas Web que podrían estar
indizadas en los buscadores pero son excluidas deliberadamente por alguno de estos motivos:
·
Las
páginas están protegidas por contraseñas.
·
Contienen
un archivo “robots.txt” para evitar ser
indizadas.
·
Contienen
un campo “noindex” para evitar que el
buscador pueda indizar la parte correspondiente al cuerpo de la página.
Este
segmento de la red contiene, en general, documentos excluidos deliberadamente por
su falta de utilidad . Ya que son los dueños de la información que
contienen, los que deciden que no se encuentre disponible, por lo que difícilmente
se podrán encontrar mecanismos legítimos para franquear esa barrera.
3. 3.- La Web propietaria:
incluye aquellas páginas en las que es necesario registrarse para
tener acceso al contenido, ya sea de forma gratuita o arancelada.
4. 4.- La Web realmente invisible:
se compone de páginas que no pueden ser indizadas por limitaciones técnicas de
los buscadores: programas ejecutables y archivos
comprimidos, páginas generadas dinámicamente, es
decir, que se generan a partir de datos que introduce el usuario: información
almacenada en bases de datos relacionales, que no puede ser extraída a
menos que se realice una petición específica.
RECURSOS DE
BÚSQUEDA EN LA WEB PROFUNDA:
·
The WWW Virtual Library se considera el catálogo más antiguo en la web y fue iniciado por Tim Berners-Lee, el creador de la web.
·
Infoplease
es una Web de consulta con más de 57.000 artículos de la prestigiosa enciclopedia
Columbia. Facilita la consulta de información
con opciones de búsqueda por términos o
por áreas de conocimiento. Es posible acceder a un buen número de
enciclopedias, atlas y biografías. Y, también, tiene algunas ramificaciones interesantes como Factmonster.com para los niños y Biosearch, un motor
de búsqueda sólo para biografías, o información de todo lo acontecido
históricamente en un determinado día.
·
Deepwebtech
ofrece cinco motores de búsqueda para temas
específicos. Los motores de búsqueda abarcan la ciencia, medicina y negocios. El uso de estos motores de búsqueda
específicos del tema, pueden consultar
las bases de datos subyacentes en la Web
profunda.
·
TechXtra
centra su información, en ingeniería,
matemáticas e informática. Es posible navegar
a través de una extensa lista de
revistas gratuitas especializadas de ingeniería, documentos técnicos, descargas
y podcasts.
BIBLIOGRAFÍA
DEEP WEB:
LINKS DE MOTORES DE BÚSQUEDA, BIBLIOTECAS, DIRECTORIOS, BASES DE DATOS, ETC.
https://neilvonschroeder.wordpress.com/2012/10/22/deep-web-links/
BÚSQUEDA
DE INFORMACIÓN CIENTÍFICA ONLINE
http://www.monografias.com/trabajos89/busca-informacion-cientifica-on-line/busca-informacion-cientifica-on-line.shtml
¿QUÉ ES
INTERNET INVISIBLE O INTERNET PROFUNDA?
CONCEPTO
BD RELACIONALES NO RELACIONALES:
DEFINICIÓN
DE WEB
http://definicion.de/web/