Inteligência artificial supera humanos no teste de Turing pela primeira vez

Atualizado 2 meses Atrás3 Min leitura36 Views

Ana Luiza Figueiredo

Uma pesquisa conduzida pela University of California San Diego revelou que sistemas modernos de inteligência artificial não apenas passam no teste de Turing, como também superam a capacidade humana de se passar por pessoas reais. O estudo, publicado na revista científica Proceedings of the National Academy of Sciences, demonstrou que modelos avançados de linguagem conseguem convencer interrogadores humanos de que são pessoas reais com taxas superiores às de participantes humanos reais.

A pesquisa e sua importância

O teste de Turing, criado em 1950 pelo matemático britânico Alan Turing, evalua a capacidade de uma máquina de exibir comportamento inteligente indistinguível do humano. Esta foi a primeira vez que modelos de linguagem alcançaram resultados estatisticamente equivalentes ou superiores a pessoas reais dentro da estrutura original proposta por Turing. Os pesquisadores destacam que o teste atualmente mede mais a capacidade de parecer humano do que propriamente a inteligência dos sistemas.

Metodologia do experimento

O estudo envolveu aproximadamente 500 participantes divided em dois grupos independentes: estudantes da UC San Diego e pessoas recrutadas pela plataforma Prolific. Cada participante conversava simultaneamente com dois interlocutores — um humano e um sistema de IA — e precisava identificar qual deles era a pessoa real. Os pesquisadores criaram uma interface semelhante a aplicativos de mensagens, onde os participantes visualizavam duas conversas lado a lado.

Modelos testados

Os testes avaliaram quatro modelos de linguagem distintos. Os sistemas mais avançados incluídos no estudo foram o GPT-4.5 e o LLaMa-3.1-405B. Como base de comparação, os pesquisadores utilizaram o GPT-4o e o ELIZA, chatbot criado nos anos 1960 que representa os primórdios da inteligência artificial conversacional.

Resultados impressionantes

Os dados collected revelaram desempenho notável dos modelos mais recentes. O GPT-4.5 foi identificado como humano em 73% das interações, superando inclusive os próprios participantes humanos na taxa de escolha pelos interrogadores. O LLaMa-3.1-405B alcançou 56% de identificação como humano, resultado estatisticamente equivalente ao de pessoas reais. Os modelos de comparação tiveram desempenho bem inferior: o ELIZA foi reconhecido como humano em cerca de 23% das vezes, enquanto o GPT-4o obteve aproximadamente 21%.

O fator personalidade

Segundo Cameron Jones, autor correspondente do estudo e atualmente professor assistente de Psicologia na Stony Brook University, os resultados dependeram fortemente das instruções fornecidas aos modelos. Cada sistema recebeu um "prompt de persona" que orientava a IA a assumir um estilo de comunicação e características humanas específicas, incluindo tom de voz, humor, objetividade e até falhas typicas de pessoas reais.

A ausência dessas instruções detalhadas provocou queda significativa no desempenho. Quando os prompts de persona foram removidos, o GPT-4.5 teve sua taxa de sucesso reduzida para 36%, enquanto o LLaMa-3.1-405B caiu para 38%, demonstrando a importância da configuração adecuada para alcançar resultados humanizados.

Riscos e implicações

Os autores alertam para os impactos que o avanço dessas tecnologias pode ter nos ambientes online. Para Ben Bergen, professor de ciência cognitiva da UC San Diego e coautor da pesquisa, modelos capazes de se passar por humanos em conversas prolongadas podem dificultar drasticamente a identificação de bots por usuários comuns.

Jones advierte que as pessoas deverão ter menos certeza de que estão interagindo com seres humanos ao conversar com desconhecidos na internet. Além disso, há riscos relacionados à manipulação e ao uso de sistemas automatizados para enganar usuários. Bergen complementa que bots podem ser empregados para persuadir pessoas a compartilhar dados pessoais, influenciar decisões políticas ou promover produtos de forma enganosa.

Detalhes da execução

Os participantes tiveram períodos de cinco minutos para conduzir as conversas, podendo estender-se até 15 minutos em uma versão de replicação do estudo. Os estudantes da UC San Diego apresentaram desempenho ligeiramente melhor na identificação dos humanos, possivelmente devido ao compartilhamento de experiências em comum e referências locais do campus universitário.

Fonte: https://olhardigital.com.br