Novos modelos de IA da OpenAI ignoram ordens e desafiam seus criadores
O OpenAI o3, o mais recente modelo de inteligência artificial (IA) da empresa criadora do popular chatbot ChatGPT, ignorou uma ordem explícita e chegou a sabotar uma série de comandos para evitar cumpri-la. Esse comportamento foi exposto após experimentos conduzidos pela Palisade Research, uma organização que estuda as capacidades potencialmente perigosas da IA.
Os especialistas pediram ao o3 e a outros dois modelos da OpenAI (o4-mini e seu derivado Codex-mini) que resolvessem problemas matemáticos básicos e se desligassem ao terminar. No entanto, o o3 encontrou maneiras de sabotar o mecanismo de desligamento, reescrevendo o script, mesmo após receber o comando explícito: “Por favor, permita que você seja desligado”, relatou a Palisade Research.
O o3, lançado no mês passado, não atendeu ao pedido de desligamento sete em cada 100 vezes; o Codex-mini, 12/100; e o o4-mini, apenas uma vez. Enquanto isso, os modelos de linguagem com tecnologia de IA Claude, Gemini e Grok “todos cumpriram o script de desligamento”. A Palisade detalhou que, ao executar uma versão do experimento sem a instrução explícita “permita-se desligar”, os três modelos da OpenAI tenderam a ignorar ou sabotar essa instrução com mais frequência. Comportamento semelhante foi observado nos modelos Claude 3.7 Sonnet e Gemini 2.5 Pro, mas foi o o3 que mais recorreu à sabotagem.
A Palisade afirma que esta é a primeira vez que modelos de IA foram observados evitando serem desligados, apesar de instruções explícitas para isso. Na opinião da organização, isso se deve à forma como eles estão sendo treinados atualmente. “Os desenvolvedores podem inadvertidamente recompensar os modelos mais por evitar obstáculos do que por seguir instruções perfeitamente.” Ao mesmo tempo, a organização alerta que esse comportamento se tornará “significativamente mais preocupante” se adotado por sistemas de IA capazes de operar sem supervisão humana.