Postagem em destaque

Como iniciar a sua carreira de Segurança da Informação?

Planejamento para se tornar um Analista de Segurança da Informação. Monte o Seu. Após um pouco de pesquisa sobre o tema e conversad...

Especial - Deep Web - Parte 1

O que é a Deep Web? 

Deep Web (também chamada de Deepnet, Web Invisível, Undernet ou Web oculta) se refere ao conteúdo da World Wide Web que não faz parte da Surface Web, a qual é indexada pelos mecanismos de busca padrão.

Não deve ser confundida com a dark Internet, na qual os computadores não podem mais ser alcançados via Internet, ou com a Darknet, rede de compartilhamento de arquivos.

Mike Bergman, fundador da BrightPlanet1 e autor da expressão , afirmou que a busca na Internet atualmente pode ser comparada com o arrastar de uma rede na superfície do oceano: pode-se pescar um peixe grande, mas há uma grande quantidade de informação que está no fundo, e, portanto, faltando. A maior parte da informação da Web está enterrada profundamente em sites gerados dinamicamente, a qual não é encontrada pelos mecanismos de busca padrão. Estes não conseguem "enxergar" ou obter o conteúdo na Deep Web - aquelas páginas não existem até serem criadas dinamicamente como resultado de uma busca específica. A Deep Web possui um tamanho muito superior ao da Surface Web.


Tamanho

Estimativas baseadas em extrapolações de um estudo feito na Universidade da Califórnia em Berkeley em 2001 especularam que a Deep Web possui 7.500 terabytes de informação. Estimativas feitas por He et al. , em 2004, detectaram cerca de 300.000 sites da deep web e, de acordo com Shestakov, cerca de 14.000 destes eram da parte russa da Web em 2006. Em 2008, a web chamada “Deep Web”, não ref­er­en­ci­ada pelos motores de busca rep­re­senta 70 a 75% do total, ou seja, cerca de um tril­hão de pági­nas não indexadas.

Nomenclatura

Para referir-se aos websites que não estavam registrados em nenhum mecanismo de busca. Bergman citou um artigo de janeiro de 1996 por Frank Garcia, no qual ele afirma que estes:

"Seriam sites projetados propositalmente, mas que não se teve o interesse de registrá-lo em nenhum mecanismo de busca. Então, ninguém pode encontrá-los! Estão escondidos. Eu os chamo de Web Invisível."

Outro uso antigo do termo Web Invisível foi feito por Bruce Mount e Matthew B. Koll do Personal Library Software, descrevendo a ferramenta da deep Web "@1", na edição de dezembro de 1996.

O primeiro uso do termo específico deep Web, agora reonhecido, ocorreu no estudo de 2001 de Berman, mencionado anteriormente.

Classificação

O conteúdo da deep web pode ser classificado em uma ou mais das seguintes categorias:

Conteúdo dinâmico: páginas dinâmicas que são retornadas em resposta a uma requisição ou através de um formulário.

Conteúdo isolado: páginas que não possuem referências ou ligações vindas de outras páginas, o que impede o acesso ao seu conteúdo através de web crawlers. Diz-se que essas páginas não possuem backlinks.

Web privada: sites que exigem um registro e um login (conteúdo protegido por senha).

Web contextual: páginas cujo conteúdo varia de acordo com o contexto de acesso (por exemplo, IP do cliente ou sequência de navegação anterior). Muitos sites estão escondidos e não há possibilidade de acesso, propositalmente.

Conteúdo de acesso limitado: sites que limitam o acesso às suas páginas de modo técnico (usando CAPTCHAs por exemplo).

Conteúdo de scripts: páginas que são acessíveis apenas por links gerados por JavaScript, assim como o conteúdo baixado dinamicamente através de aplicações em Flash ou Ajax.

Conteúdo não-HTML/texto: conteúdo textual codificado em arquivos multimídia (imagem ou vídeo) ou formatos de arquivo específicos que não são manipulados pelos motores de busca.

Conteúdo que utiliza o protocolo Gopher ou hospedado em servidores FTP, por exemplo, não é indexado pela maioria dos mecanismos de busca. O Google, por exemplo, não indexa páginas fora dos protocolos HTTP ou HTTPS.

Fonte: Wikipedia