A FANTÁSTICA HISTÓRIA DA DEEP WEB: O que é a Deep Web?

"Deep Web (também chamada de Deepnet, Web Invisível, Undernet ou Web oculta) se refere ao conteúdo da World Wide Web que não faz parte da Surface Web, a qual é indexada pelos mecanismos de busca padrão. Não deve ser confundida com a dark Internet, na qual os computadores não podem mais ser alcançados via Internet, ou com a Darknet, rede de compartilhamento de arquivos".

Mike Bergman, fundador da Bright Planet e autor da expressão, afirmou que a busca na Internet atualmente pode ser comparada com o arrastar de uma rede na superfície do oceano: pode-se pescar um peixe grande, mas há uma grande quantidade de informação que está no fundo, e, portanto, faltando.

A maior parte da informação da Web está enterrada profundamente em sites gerados dinamicamente, a qual não é encontrada pelos mecanismos de busca padrão. Estes não conseguem "enxergar" ou obter o conteúdo na Deep Web - aquelas páginas não existem até serem criadas dinamicamente como resultado de uma busca específica. A Deep Web possui um tamanho muito superior ao da Surface Web.

Nomenclatura
É o conjunto de conteúdos da internet não acessível diretamente por sites de busca. Isso inclui, por exemplo, documentos hospedados dentro de sites que exigem login e senha. Sua origem e sua proposta original são legítimas. Afinal,nem todo material deve ser acessado por qualquer usuário.

O problema é que, longe da vigilância pública, essa enorme área secreta (500 vezes maior que a web comum!) virou uma terra sem lei, repleta de atividades ilegais pavorosas.

Estimativas baseadas em extrapolações de um estudo feito na Universidade da Califórnia em Berkeley em 2001 especularam que a Deep Web possui "7.500 terabytes" de informação.

Estimativas feitas por He et al, em 2004, detectaram cerca de 300.000 sites da deep web e, de acordo com Shestakov, cerca de 14.000 destes eram da parte russa da Web em 2006. Em 2008, a web chamada “Deep Web”, não referenciada pelos motores de busca representa 70 a 75% do total, ou seja, cerca de um trilhão de páginas não indexadas.

Analogia do iceberg, bastante utilizada para mostrar o tamanho da Deep Web (parte imersa) em relação ao da Surface Web (parte emersa)

Para referir-se aos websites que não estavam registrados em nenhum mecanismo de busca. Bergman citou um artigo de janeiro de 1996 por Frank Garcia, no qual ele afirma que estes.

"Seriam sites projetados propositalmente, mas que não se teve o interesse de registrá-lo em nenhum mecanismo de busca. Então, ninguém pode encontrá-los! Estão escondidos. Eu os chamo de Web Invisível."

Outro uso antigo do termo Web Invisível foi feito por Bruce Mount e Matthew B. Koll do Personal Library Software, descrevendo a ferramenta da deep Web na edição de dezembro de 1996.

O primeiro uso do termo específico deep Web, agora reconhecido, ocorreu no estudo de 2001 de Bergman, mencionado anteriormente.

Analogia do iceberg, bastante utilizada para mostrar o tamanho da Deep Web (parte imersa) em relação ao da Surface Web (parte emersa).

O conteúdo da deep web pode ser classificado em uma ou mais das seguintes categorias:

Classificação

Conteúdo dinâmico: páginas dinâmicas que são retornadas em resposta a uma requisição ou através de um formulário. Conteúdo isolado: páginas que não possuem referências ou ligações vindas de outras páginas, o que impede o acesso ao seu conteúdo através de web crawlers. Diz-se que essas páginas não possuem backlinks.

Web privada: sites que exigem um registro e um login (conteúdo protegido por senha).

Web contextual: páginas cujo conteúdo varia de acordo com o contexto de acesso (por exemplo, IP do cliente ou sequência de navegação anterior). Muitos sites estão escondidos e não há possibilidade de acesso, propositalmente. Conteúdo de acesso limitado: sites que limitam o acesso às suas páginas de modo técnico (usando CAPTCHAs por exemplo).

Conteúdo de scripts: páginas que são acessíveis apenas por links gerados por JavaScript, assim como o conteúdo baixado dinamicamente através de aplicações em Flash ou Ajax.

Conteúdo não-HTML/texto: conteúdo textual codificado em arquivos multimídia (imagem ou vídeo) ou formatos de arquivo específicos que não são manipulados pelos motores de busca.

Conteúdo que utiliza o protocolo Gopher ou hospedado em servidores FTP, por exemplo, não é indexado pela maioria dos mecanismos de busca. O Google, por exemplo, não indexa páginas fora dos protocolos HTTP ou HTTPS.

Tor "The Tor Project"

Tor (anteriormente um acrônimo para "The Onion Router") é um software gratuito para ativar o anonimato online e resistência à censura.

A maioria das distribuições GNU/Linux disponibilizam pacotes do Tor, embora haja versões para diferentes sistemas operacionais, tais como Windows e Mac OS. A rede Tor é uma rede de túneis http (com tls) sobrejacente à Internet, onde os roteadores da rede são computadores de usuários comuns rodando um programa e com acesso web (apenas).

O objetivo principal do projeto é garantir o anonimato do usuário que está acessando a web.

Funcionamento

O Tor-cliente é um programa que deve ser instalado no computador e que funciona como um proxy socks 5 para este. É fornecido um bind, geralmente na porta 9.050 local da máquina. Em seguida, os programas (web browser, emule etc.) devem ser configurados para usar um servidor proxy socks 5 e apontados para o endereço localhost (127.0.0.1). Às vezes, ele também possui um navegador incluído, tal como Aurora e Mozilla Firefox.

A partir daí, o Tor vai rotear todo o tráfego do computador através de túneis http da rede Tor até o destino, na rede "convencional". Se o usuário entrar em site do tipo http://myip.is e http://meuip.com.br, vai ver que o seu endereço vai aparecer diferente do seu endereço real (anonimato). O endereço que vai aparecer é o endereço do nó Tor por onde ele saiu da rede Tor para a rede "convencional". O tráfego é roteado por vários nós Tor, o que pode deixar o acesso bem lento, às vezes.

Ou seja, para o servidor acessado você terá o endereço IP de um do nó de saída, como a rede Tor tem uma topologia caótica (aleatória), não se pode escolher o IP final ou de qual região da rede será. Por exemplo, usando a rede Tor você não pode escolher ter um IP de uma máquina localizada em um país ou região específica. Ainda é possível aumentar a rede, abrindo seu computador para uso de outros usuários do Tor.

Há uma espécie de domínio com terminação .onion, acessível apenas pelo Tor. Páginas com este domínio são parte da chamada Deep Web.

Uma observação importante: o usuário deve ter cuidado se for usar a rede Tor para tráfegos não-criptografados, pois a segurança em nível de transporte que o Tor implementa é só até o nó Tor de saída (exit node). Desse ponto até o destino da rede "convencional", o tráfego é encaminhado da maneira original como foi entregue ao Tor na máquina local. Então, se o usuário configurar o seu Tor para operar como servidor de relay, terá a possibilidade de logar o tráfego original de todas as pessoas que estiverem passando por túneis cujo nó de saída seja o seu nó Tor.

Características

Tor é um pacote de ferramentas para organizações e pessoas que desejam mais segurança na Internet. Com ele, o tráfego de dados na navegação de mensageiros instantâneos, IRC, navegadores, SSH e outros aplicativos que usam o protocolo TCP se tornará anônimo. Ele também fornece uma plataforma na qual os desenvolvedores podem construir novos aplicativos baseados no anonimato, segurança e privacidade. O tráfego é mais seguro ao se usar Tor, pois as comunicações são ligadas através de uma rede distribuída de servidores, chamados roteadores onion (onion router), um projeto que visa à proteção e ao direito do usuário de permanecer anônimo na Internet.

Em vez de direcionar a rota da fonte para o destino, os pacotes de dados da rede Tor assumem um caminho aleatório através de vários servidores que cobrem os traços para que nenhum observador inoportuno saiba de onde vieram e para onde vão os dados. O propósito dessa tecnologia é proteger os usuários da Internet contra a "análise de tráfego", uma forma de monitoramento de rede que ameaça o anonimato e a privacidade, atividades comerciais confidenciais e relacionamentos, além da segurança de Estado.

A análise de tráfego é usada diariamente por corporações, governos e indivíduos que desejam manter um banco de dados do que fazem pessoas e organizações na Internet. Ao invés de procurar o teor das comunicações, a análise de tráfego rastreia de onde vêm e para onde vão os seus dados, assim como quando foram enviados e a quantidade.

Por exemplo, companhias usam a análise de tráfego para armazenar um registro de que páginas da Internet o usuário visitou para construir um perfil dos seus interesses. Suponha-se que uma indústria farmacêutica use essa análise ao pesquisar um nicho de mercado, monitorando o website do concorrente para saber quais produtos lhe interessam. Uma lista de patentes pode ser consultada, rastreando todas as buscas feitas.

Tor dificulta a análise de tráfego ao evitar o rastreamento de dados online, permitindo que o usuário decida se deseja se identificar ou não ao se comunicar. A segurança é aperfeiçoada enquanto mais pessoas se voluntariam a executar servidores. Parte do objetivo do projeto Tor é fazer um experimento com o público, ensinando as melhores saídas para obter privacidade online.

O anonimato oferecido pela rede Tor financia, de certo modo, o cometimento de diversos crimes onde sites da rede onion vendem drogas, serviços de terrorismo, pedofilia, tráfico de pessoas, assassinos de aluguéis, roubos de dados, corrupções em governos e empresas, fraudes e vários outros. O quê parece apenas um serviço para garantir a privacidade esconde, por trás, todo um lado oculto de violência.

WikiLeaks

WikiLeaks é uma organização transnacional sem fins lucrativos, sediada na Suécia, que publica, em sua página (site), postagens (posts) de fontes anônimas, documentos, fotos e informações confidenciais, vazadas de governos ou empresas, sobre assuntos sensíveis. A página (site) foi construída com base em vários pacotes de programas (software), incluindoMediaWiki, Freenet, Tor e PGP. Apesar do seu nome, a WikiLeaks não é uma wiki - leitores que não têm as permissões adequadas não podem editar o seu conteúdo.

A página (site), administrado por The Sunshine Press, foi lançado em dezembro de 2006 e, em meados de novembro de 2007, já continha 1,2 milhão de documentos. Seu principal editor e porta-voz é o australiano Julian Assange, jornalista e ciberativista.

"Ao longo de 2010, WikiLeaks publicou grandes quantidades de documentos confidenciais do governo dos Estados Unidos, com forte repercussão mundial.

Em abril, divulgou um vídeo de 2007, que mostra o ataque de um helicóptero Apache estado-unidense, matando pelo menos 12 pessoas - dentre as quais dois jornalistas da agência de notícias Reuters - em Bagdá, no contexto da ocupação do Iraque".

"Collateral Murder"

O vídeo do ataque aéreo em Bagdá (Collateral Murder) é uma das mais notáveis publicações da página (site). Outro documento polêmico mostrado pela página (site) é a cópia de um manual de instruções para tratamento de prisioneiros na prisão militar estado-unidense de Guantánamo, em Cuba. Em julho do mesmo ano, WikiLeaks promoveu a divulgação de uma grande quantidade de documentos secretos do exército dos Estados Unidos, reportando a morte de milhares de civis na guerra do Afeganistão em decorrência da ação de militares norte-americanos.

Finalmente, em novembro, publicou uma série de telegramas secretos enviados pelas embaixadas dos Estados Unidos ao governo do país.

Em 2 de fevereiro de 2011, o WikiLeaks foi indicado ao Prêmio Nobel da Paz, pelo parlamentar norueguês Snorre Valen. O autor da proposta disse que o WikiLeaks é "uma das contribuições mais importantes para a liberdade de expressão e transparência" no século XXI. "Ao divulgar informações sobre corrupção, violações dos direitos humanos e crimes de guerra, o WikiLeaks é um candidato natural ao Prêmio Nobel da Paz", acrescentou.

Referências

Roger Dingledine (20 de setembro de 2002). pre-alpha: run an onion proxy now!. Página visitada em 17 de julho de 2008.

Bingdong, et al. Li (14 de junho de 2011). Jordi Domingo-Pascual:Traffic Monitoring and Analysis: Third International Workshop, TMA 2011, Vienna, Austria, April 27, 2011, Proceedings pp. 113–116. Springer-Verlag. Página visitada em 6 de agosto de 2012.

Linux: TOR: A Internet sem rastreabilidade [Artigo]. www.vivaolinux.com.br. Página visitada em 18 de abril de 2012.

Bergman, Michael K. The Deep Web: Surfacing Hidden Value. [S.l.]: BrightPlanet LLC, 2000.

Exploring a 'Deep Web' That Google Can’t Grasp. The New York Times (22/02/2009).

a b c d Bergman, Michael K. (August 2001). "The Deep Web: Surfacing Hidden Value" (em inglês). The Journal of Electronic Publishing 7 (1).DOI:10.3998/3336451.0007.104.

He, Bin; Patel, Mitesh; Zhang, Zhen; Chang, Kevin Chen-Chuan. (May 2007). "Accessing the Deep Web: A Survey" (em inglês). Communications of the ACM (CACM) 50 (2): 94–101. DOI:10.1145/1230819.1241670.

Denis Shestakov (2011). "Sampling the National Deep Web" (PDF). Proceedings of the 22nd International Conference on Database and Expert Systems Applications (DEXA): 331-340, Springer. Página visitada em 06/10/2011.

Garcia, Frank. (Janeiro de 1996). "Business and Marketing on the Internet". Masthead 9 (1).

Personal Library Software (dezembro de 1996). PLS introduces AT1, the first 'second generation' Internet search service. Press release. Página visitada em 24/02/2009.

Gopher — DeepGeek. Talk Geek To Me (29 de novembro de 2009). Arquivado do original em 25 de julho de 2011. Página visitada em 25 de julho de 2011.

FONTES:

Wikipédia, a enciclopédia livre, Sites The New York Times, Bright Planet, Brand Power e World Wide Web Size e livros The Deep Web: Surfacing Hidden Value, de Michael K. Bergman, Sampling the National Deep, de Denis Shestakov, e Downloading Hidden Web Content, de Jayant Madhavan e outros.

A FANTÁSTICA HISTÓRIA DA DEEP WEB

PÁGINA INICIAL

TRANSLATE

PESQUISAR ESTE BLOG

sexta-feira, 11 de abril de 2014

O que é a Deep Web?

Nenhum comentário:

Postar um comentário