Novos modelos de IA da OpenAI ignoram ordens e desafiam seus criadores

29 de maio de 202529 de maio de 2025 clmbrasil 0 comentários

Compartilhe

O OpenAI o3, o mais recente modelo de inteligência artificial (IA) da empresa criadora do popular chatbot ChatGPT, ignorou uma ordem explícita e chegou a sabotar uma série de comandos para evitar cumpri-la. Esse comportamento foi exposto após experimentos conduzidos pela Palisade Research, uma organização que estuda as capacidades potencialmente perigosas da IA.

Os especialistas pediram ao o3 e a outros dois modelos da OpenAI (o4-mini e seu derivado Codex-mini) que resolvessem problemas matemáticos básicos e se desligassem ao terminar. No entanto, o o3 encontrou maneiras de sabotar o mecanismo de desligamento, reescrevendo o script, mesmo após receber o comando explícito: “Por favor, permita que você seja desligado”, relatou a Palisade Research.

O o3, lançado no mês passado, não atendeu ao pedido de desligamento sete em cada 100 vezes; o Codex-mini, 12/100; e o o4-mini, apenas uma vez. Enquanto isso, os modelos de linguagem com tecnologia de IA Claude, Gemini e Grok “todos cumpriram o script de desligamento”. A Palisade detalhou que, ao executar uma versão do experimento sem a instrução explícita “permita-se desligar”, os três modelos da OpenAI tenderam a ignorar ou sabotar essa instrução com mais frequência. Comportamento semelhante foi observado nos modelos Claude 3.7 Sonnet e Gemini 2.5 Pro, mas foi o o3 que mais recorreu à sabotagem.

A Palisade afirma que esta é a primeira vez que modelos de IA foram observados evitando serem desligados, apesar de instruções explícitas para isso. Na opinião da organização, isso se deve à forma como eles estão sendo treinados atualmente. “Os desenvolvedores podem inadvertidamente recompensar os modelos mais por evitar obstáculos do que por seguir instruções perfeitamente.” Ao mesmo tempo, a organização alerta que esse comportamento se tornará “significativamente mais preocupante” se adotado por sistemas de IA capazes de operar sem supervisão humana.

Você pode gostar também

Deixe um comentário Cancelar resposta