CAPTCHA: o jogo da imitação virando jogo de obstáculos


PorLahis Kurtz- Postado em 09 novembro 2016

Créditos da postagem: Lahis P. Kurtz, Mayumi Arimura, Thábata Clezar de Almeida, Victor A. de Menezes      

 

        Na época da Segunda Guerra Mundial, o cientista da computação e matemático britânico Alan Turing refletia sobre a possibilidade de uma máquina pensar, e desenvolveu um teste hipotético que pudesse demonstrar se isso acontecia ou não.

        Imagine um jogo de 3 jogadores: A é um homem, B é uma mulher e C é uma pessoa de qualquer gênero que, sem contato com os demais além de mensagens escritas, deve determinar quem é a mulher. A recebe a tarefa de imitar uma mulher, fazendo C errar, enquanto B deve ajudar C. A surpresa é que Turing propõe substituir A por um computador e B por um homem, ambos fazendo o papel de mulher, sem que C soubesse disso; se o computador enganasse C mais vezes que o homem, venceria o jogo – que ficou conhecido como Teste de Turing.

        É nesse jogo que se inspira um dos menos bem-quistos reflexos dos avanços no campo da inteligência artificial: o CAPTCHA.

        Ferramenta de inteligência artificial criada por Luis Von Ahn, o acrônimo de Completely Automated Public Turing Test to tell Computers and Humans Apart serve para, quem diria!, distinguir uma pessoa de um computador. Levando ao extremo o jogo da imitação, é uma versão do Teste de Turing completamente automatizada em que o juiz não é um humano, ou seja, o jogador C é um computador.

        Ou seja, presume-se que uma máquina pode distinguir entre uma máquina e uma pessoa.

        O que na teoria é assustador, na prática pode ser bastante inconveniente, mas ao mesmo tempo útil para algumas coisas – resta questionar até que ponto essa utilidade nos favorece ou prejudica.

 

FAQ – CAPTCHA

Para acessar as FAQ, digite o que aparece na imagem:

 

Quais são suas principais características?

Usada para prevenir que computadores se passem por usuários de sistemas ou acessem bancos de dados a serviço de programadores mal-intencionados, a forma mais conhecida de CAPTCHA é aquela sopa de letrinhas em que aparece uma figura de letras e/ou números distorcida (para ser mais difícil para uma máquina ler) e temos de digitar o que vemos para acessar algo. Além de ser muito irritante quando você erra, uma característica é que aparecem CAPTCHAs diferentes todas as vezes.

 

Como o mecanismo reconhece que você acertou o que está na figura, se é à prova de robôs?

Essa é a parte mais intrigante: é uma máquina tentando não ser enganada por outras máquinas; como ela faz isso?

Como C é uma máquina, em geral é necessário inserir nela uma espécie de “gabarito” do teste; afinal, se é um teste em que máquinas não passam, ela não se sairia muito bem sem isso.

Depende das técnicas utilizadas e da quantidade de bancos de dados envolvidos. O principal problema é quando se tem um “gabarito” pequeno ou unificado na rede, uma vez que, se alguém tiver acesso a ele, pode inseri-lo no software maligno e conseguir prever com muito mais facilidade os resultados. Geralmente, o teste mistura imagens diferentes ou “já sabe” a resposta.

 

Isso quer dizer que o CAPTCHA não é 100% seguro, porque a máquina A pode roubar a informação que a máquina C tem (que é como se fosse o “gabarito” do teste) e decifrar a chave para as respostas.

 

De que forma ele ajuda no desenvolvimento da inteligência artificial?

A partir do momento que o teste falha e que ele não sabe distinguir quem é quem (um computador passa no teste de Turing), os desenvolvedores vão ter de trabalhar para corrigir esse erro - isso contribui para o avanço da inteligência artificial.

 

Onde costumamos encontrar ele no nosso cotidiano e por que ele foi adotado?

Ele foi adotado para evitar spammers, proteger bancos de dados e garantir mais segurança da informação de dados pessoais importantes, como CPFs, placas de veículos, dados de processos judiciais, dados pessoais de currículos profissionais, dados bancários.

 

·         Processo Eletrônico [Prevenção contra robôs]

        Alguns sistemas de processo eletrônico utilizam CAPTCHA [ex.: SAJ do TJSC, Projudi (PR), PJe no TRT]. Alguns para consulta de processos (para prevenir acesso por máquinas - proteção dos dados que poderiam ser minerados), outros pra acesso ao próprio sistema (para prevenir ataques robôs que tentem roubar logins ou acesso indevido). Porém, temos o e-proc (JF-4ª região), que não utiliza mecanismo algum e nunca houve problemas de segurança (ao menos em grande escala).

 

·         Detran [segurança da informação - proteger o banco de dados]

        Embora dificulte a consulta de multas e tributos para quem tem vários veículos, como transportadoras, o CAPTCHA tornou-se uma garantia para evitar invasão de privacidade e clonagem de placas de veículos.

 

·         Lattes [Proteção de dados]

Usado como mecanismo de segurança para evitar a extração dos dados e a sua publicação indevida por sites não-autorizados. Ocorreu a implementação devido a pedido de usuários. Apesar disso, a extração pode ser feita burlando esse mecanismo (exemplo: Escavador).

 

Para refletir

A proteção da privacidade e contra fraudes é vista como prioridade para quem defende o CAPTCHA. Entretanto, pode-se questionar se ele é uma boa ferramenta para isso (já que não é 100% eficiente).

E, em casos de acesso a bancos de dados ou informações públicas, não seria interessante podermos cruzar os dados a fim de descobrir como estão as pesquisas e redes de pesquisa no Brasil, ter aplicativos que auxiliam no monitoramento de multas e impostos sobre veículos, bem como diversas outras funcionalidades? Será que valeria a pena abrir mão dessa proteção para ter acesso a facilidades no dia-a-dia?

São questões que esse tema levanta, já que o CAPTCHA surge com a inteligência artificial e por causa de seus usos maléficos, mas pode estar impedindo também que seja usada para facilitar nossas vidas.

 

CURIOSIDADES

 

O que é e como surgiram: recaptcha e brandcaptcha

 

·         Recaptcha

Após o sucesso do CAPTCHA, a Google contratou seu criador, Luis Von Ahn, para utilizar a mesma tecnologia para criar um mecanismo que auxiliasse no reconhecimento de textos dentro de imagens, tais como reconhecimento de palavras em documentos de PDF (para traduzir), identificação de números de casas (para descobrir o endereço desejado) e de placas de ruas (para melhorar as orientações do Google Maps), no reconhecimento facial e até mesmo para possibilitar a implementação do Google Glasses.

Um dos motivos do grande uso o Recaptcha se deve, certamente, à sua portabilidade, podendo ser utilizado em Wordpress, Java, Python, PHP, entre outros.

Resumo de como funciona - extraído desse site

Ao escanear um livro, o sistema seleciona duas palavras da imagem, fazendo o reconhecimento de uma. Posteriormente, o usuário deverá digitar a palavra corretamente no campo disponibilizado, e o sistema assumirá que a segunda palavra digitada também esta correta, encaminhando esta para os demais usuários.

Para verificar se a palavra digitada está correta, o sistema fará uma comparação do dado coletado com a resposta original. Após um alto número de repetições de comparação, a palavra poderá ser colocada em um conjunto de palavras verificadas, facilitando assim a análise do sistema.

Assim, na prática, ao mesmo tempo que o sistema verifica os conteúdos de um livro digitalizado, também verifica o preenchimento dos formulários.

 

·         Brandcaptcha

Pensando em usar essa ferramenta de forma lucrativa, publicitários elaboraram essa ideia: a imagem do CAPTCHA e a pergunta a ela relacionada formam uma espécie de “merchan”, em que a resposta é uma marca ou produto. A principal característica é a vantagem de que o CAPTCHA ganha patrocínio; a desvantagem é a previsibilidade, uma vez que isso limita o número total de CAPTCHAs devido à restrição temática.

 

Captchas e acessibilidade: há CAPTCHA em áudios e/ou adaptados à pessoas daltônicas?

A solução para pessoas com deficiência visual é o uso de um mecanismo que transforma os dígitos em áudio. Quando há CAPTCHA com cores, o mecanismo lê somente os dígitos que estão na cor certa, o que resolve a dificuldade para daltônicos.

 

Ouvido Eletrônico é tão seguro quanto o captcha?

CAPTCHAs auditivos não são infalíveis também. Na primavera de 2008, houve relatos de que hackers descobriram uma maneira de derrubar esse sistema, usado pela Google.

Para crackear um CAPTCHA auditivo, é preciso criar uma biblioteca no banco de dados dele, de sons representando cada caractere. Dependendo da distorção, haverá vários sons para o mesmo caractere. Depois de categorizar cada som, o spammer usa uma variação do software de reconhecimento de voz para interpretar o Captcha auditivo

 

“Não sou um robô”

 

É o recaptcha aprimorado pela Google (No-CAPTCHA), de modo que a pessoa clica numa caixa de texto em que está escrito essa frase; pode ser somente o botão ou ele pode gerar uma versão alternativa de CAPTCHA, podendo ser um desenho, a escolha de uma imagem a partir de um conceito (exemplo: ordena que se “clique no gato” e possui vários fatos de animais), etc.

 

Fontes/matérias na internet sobre CAPTCHA:

http://www.npr.org/2013/10/04/191620023/can-you-crowdsource-without-even-knowing-it

http://plugcitarios.com/2015/06/05/entenda-como-o-captcha-podera-se-tornar-um-novo-veiculo-de-midia/

http://tecnologia.hsw.uol.com.br/teste-captcha.htm

https://www.oficinadanet.com.br/artigo/php/o-que-e-recaptcha-e-como-funciona

http://www.tecmundo.com.br/curiosidade/2861-o-que-e-captcha-.htm

Inteligência artificial como entretenimento: sites Cleverbot e Turco Mecânico

Podcast sobre Alan Turing