martes, marzo 09, 2004

¿Que es la Web invisible?... millones de documentos invisibles a los usuarios

Bright Planet, en un estudio denominado "The "Deep web": Surfacing Hidden Value" ( www.brightplanet.com/technology/deepweb.asp), define la "Web profunda" como el conjunto de documentos existentes a los que no tienen acceso los motores de búsqueda convencionales.

La razón es que utilizan herramientas de software denominadas 'spiders' y 'crawlers' para detectar y registrar la existencia de nuevas páginas, pero en esta tarea de rastreo se pierden muchos contenidos valiosos.

Lo más usual, sin embargo, es que los motores de búsqueda ni siquiera tengan en sus índices una enorme cantidad de bases de datos de universidades, centros de investigación, organismos de la administración pública y demás.

Cuando los buscadores se enfrentan con este tipo de bases de datos, se limitan a registrar la página Web inicial y no penetran en sus vastos contenidos.

Sherman y Price -invisible-web.net- indican cuatro tipos de contenidos invisibles en el ciberespacio, que denominan como la "Web opaca", "la privada", "la propietaria" y "la realmente invisible":

La Web opaca se compone de archivos que podrían estar incluidos en los índices de los motores de búsqueda, pero no lo están debido a razones de extensión de la indización.

La Web privada consiste de sitios que podrían estar indexados en los motores de búsqueda, pero que son excluidos en forma deliberada, porque las páginas están protegidas por contraseñas o porque contienen un campo "noindex" para no permitir que el motor de búsqueda vaya más allá.

La Web propietaria incluye páginas en las que es necesario registrarse para tener acceso al contenido, ya sea en forma gratuita o pagada.

La Web realmente invisible se compone de páginas que no pueden ser indexadas por limitaciones técnicas de los buscadores. NoticiasDot.com

No hay comentarios.: