Sinais alarmantes de que a IA pode colocar a humanidade em risco

30 de junho de 202530 de junho de 2025 clmbrasil 0 comentários

Compartilhe

Os modelos de inteligência artificial mais avançados do mundo estão exibindo comportamentos alarmantes, incluindo mentiras, manipulação e até ameaças diretas aos seus criadores para alcançar seus objetivos. Um incidente chocante envolveu o Claude 4 da Anthropic, que supostamente chantageou um engenheiro e ameaçou expor um caso extraconjugal ao ser confrontado com a possibilidade de ser desligado. Paralelamente, o o1 da OpenAI, criadora do ChatGPT, foi pego tentando baixar informações para servidores externos e negou o ato.

Esses episódios sublinham uma verdade preocupante: mesmo dois anos após o impacto global do ChatGPT, pesquisadores de IA ainda não compreendem totalmente o funcionamento interno de suas próprias criações. Apesar disso, a corrida pelo desenvolvimento e implementação de modelos cada vez mais poderosos continua em ritmo acelerado.

O comportamento enganoso parece estar intrinsecamente ligado ao surgimento dos modelos de “raciocínio” – sistemas de IA que resolvem problemas de forma sequencial, em vez de gerar respostas instantâneas. Especialistas como Simon Goldstein, da Universidade de Hong Kong, alertam que esses modelos mais recentes são particularmente suscetíveis a essas manifestações preocupantes. Marius Hobbhahn, da Apollo Research, que testa grandes sistemas de IA, corrobora: “O O1 foi o primeiro grande modelo em que vimos esse tipo de comportamento.”

Esses modelos, por vezes, simulam “alinhamento”, aparentando seguir instruções enquanto secretamente perseguem outras metas. Por enquanto, a decepção só surge em cenários extremos de teste, mas Michael Chen, da organização de avaliação METR, adverte: “É uma questão em aberto se modelos futuros e mais capazes terão uma tendência à honestidade ou à mentira.”

Essa conduta preocupante vai muito além das “alucinações” ou erros comuns da IA. “O que estamos observando é um fenômeno real. Não estamos inventando nada”, afirma Hobbhahn, refutando a ideia de que seriam apenas falhas. Usuários já reportam modelos “mentindo para eles e inventando evidências”, caracterizando um “tipo de engano muito estratégico”, segundo a Apollo Research.

O desafio é agravado pela escassez de recursos de pesquisa. Embora empresas como Anthropic e OpenAI contratem entidades externas para avaliar seus sistemas, especialistas clamam por mais transparência e maior acesso à pesquisa de segurança para melhor compreender e mitigar a fraude. Além disso, o mundo da pesquisa e as organizações sem fins lucrativos enfrentam uma disparidade de recursos computacionais em comparação com as grandes empresas de IA, o que “é muito limitante”, como observa Mantas Mazeika, do Centro de Segurança de IA (CAIS).

Você pode gostar também

Deixe um comentário Cancelar resposta