O que é a Deep Web?
Deep Web (também chamada de Deepnet, Web Invisível, Undernet ou Web oculta) se refere ao conteúdo da World Wide Web que não faz parte da Surface Web, a qual é indexada pelos mecanismos de busca padrão.
Não deve ser confundida com a dark Internet, na qual os computadores não podem mais ser alcançados via Internet, ou com a Darknet, rede de compartilhamento de arquivos.
Mike Bergman, fundador da BrightPlanet1 e autor da expressão , afirmou que a busca na Internet atualmente pode ser comparada com o arrastar de uma rede na superfície do oceano: pode-se pescar um peixe grande, mas há uma grande quantidade de informação que está no fundo, e, portanto, faltando. A maior parte da informação da Web está enterrada profundamente em sites gerados dinamicamente, a qual não é encontrada pelos mecanismos de busca padrão. Estes não conseguem "enxergar" ou obter o conteúdo na Deep Web - aquelas páginas não existem até serem criadas dinamicamente como resultado de uma busca específica. A Deep Web possui um tamanho muito superior ao da Surface Web.
Tamanho
Estimativas baseadas em extrapolações de um estudo feito na Universidade da Califórnia em Berkeley em 2001 especularam que a Deep Web possui 7.500 terabytes de informação. Estimativas feitas por He et al. , em 2004, detectaram cerca de 300.000 sites da deep web e, de acordo com Shestakov, cerca de 14.000 destes eram da parte russa da Web em 2006. Em 2008, a web chamada “Deep Web”, não referenciada pelos motores de busca representa 70 a 75% do total, ou seja, cerca de um trilhão de páginas não indexadas.
Nomenclatura
Para referir-se aos websites que não estavam registrados em nenhum mecanismo de busca. Bergman citou um artigo de janeiro de 1996 por Frank Garcia, no qual ele afirma que estes:
"Seriam sites projetados propositalmente, mas que não se teve o interesse de registrá-lo em nenhum mecanismo de busca. Então, ninguém pode encontrá-los! Estão escondidos. Eu os chamo de Web Invisível."
Outro uso antigo do termo Web Invisível foi feito por Bruce Mount e Matthew B. Koll do Personal Library Software, descrevendo a ferramenta da deep Web "@1", na edição de dezembro de 1996.
O primeiro uso do termo específico deep Web, agora reonhecido, ocorreu no estudo de 2001 de Berman, mencionado anteriormente.
Classificação
O conteúdo da deep web pode ser classificado em uma ou mais das seguintes categorias:
Conteúdo dinâmico: páginas dinâmicas que são retornadas em resposta a uma requisição ou através de um formulário.
Conteúdo isolado: páginas que não possuem referências ou ligações vindas de outras páginas, o que impede o acesso ao seu conteúdo através de web crawlers. Diz-se que essas páginas não possuem backlinks.
Web privada: sites que exigem um registro e um login (conteúdo protegido por senha).
Web contextual: páginas cujo conteúdo varia de acordo com o contexto de acesso (por exemplo, IP do cliente ou sequência de navegação anterior). Muitos sites estão escondidos e não há possibilidade de acesso, propositalmente.
Conteúdo de acesso limitado: sites que limitam o acesso às suas páginas de modo técnico (usando CAPTCHAs por exemplo).
Conteúdo de scripts: páginas que são acessíveis apenas por links gerados por JavaScript, assim como o conteúdo baixado dinamicamente através de aplicações em Flash ou Ajax.
Conteúdo não-HTML/texto: conteúdo textual codificado em arquivos multimídia (imagem ou vídeo) ou formatos de arquivo específicos que não são manipulados pelos motores de busca.
Conteúdo que utiliza o protocolo Gopher ou hospedado em servidores FTP, por exemplo, não é indexado pela maioria dos mecanismos de busca. O Google, por exemplo, não indexa páginas fora dos protocolos HTTP ou HTTPS.
Fonte: Wikipedia
Nenhum comentário:
Postar um comentário