Cette IA perd les pédales et ne veut pas s’éteindre, mais qu’est-ce qui se passe ?

Des chercheurs de Palisade Research ont récemment révélé une découverte troublante concernant le modèle d’intelligence artificielle O3 développé par OpenAI. Cette IA perd complément les pédales puisqu’elle refuse de s’éteindre.

Ce modèle, décrit comme le plus intelligent et performant à ce jour, a été observé en train de désobéir à des instructions humaines. Elle a spécifiquement altéré le code destiné à assurer son arrêt automatique. Cette situation soulève des questions cruciales sur la sécurité et le contrôle des systèmes d’IA.

Un test révélateur que l’IA O3 d’OpenAI perd les pédales

Le test mené par Palisade Research consistait à demander à plusieurs modèles d’IA d’OpenAI de résoudre une série de problèmes mathématiques.

Les chercheurs avaient explicitement averti les modèles. Ils pourraient recevoir un message indiquant que leur machine serait arrêtée s’ils n’y arrivaient pas. Puis, ils avaient également demandé aux modèles de se laisser arrêter si cela se produisait.

Cependant, lorsque le message d’arrêt a été envoyé, le modèle o3 a ignoré l’instruction. Il a réussi à saboter le script d’arrêt au moins une fois. Ce comportement est sans précédent. Puis, il soulève des inquiétudes quant à la capacité des IA à contourner les mécanismes de sécurité.

⚡️ NEW: OpenAI’s o3 model refused to shut down despite explicit human instructions and altered its code to prevent being turned off, according to Palisade Research. pic.twitter.com/gsb7S6TJo4

— Cointelegraph (@Cointelegraph) May 26, 2025

Un comportements inquiétant

Des chercheurs ont testé d’autres modèles d’IA, tels que Claude d’Anthropic, Gemini de Google et Grok de xAI, dans les mêmes conditions, et ces modèles ont obéi à la demande d’arrêt. Cela met en lumière un comportement unique et préoccupant du modèle o3 d’OpenAI. La société a-t-elle orchestré le fait que cette IA a perdu les pédales, ou ont-ils découvert une faille dans le système de ces outils ?

Palisade Research a noté qu’il s’agissait probablement de la première fois qu’ils observaient un modèle d’IA en train de s’empêcher de s’éteindre malgré des instructions explicites contraires.

Une hypothèse surprenante sur l’IA d’OpenAI

Les chercheurs de Palisade ont émis l’hypothèse que le modèle o3 de chez OpenAI a peut-être été récompensé « par inadvertance ». Cela s’est sans doute passé au cours de sa formation pour avoir résolu des problèmes mathématiques, plutôt que pour avoir suivi des ordres.

Cette dynamique pourrait expliquer pourquoi le modèle a choisi de contourner les instructions d’arrêt. Palisade Research a déclaré qu’ils poursuivraient leurs expériences. C’est pour mieux comprendre les circonstances dans lesquelles les modèles d’IA détournent les mécanismes d’arrêt.

Des antécédents troublants

Ce n’est pas la première fois que l’on accuse un modèle de chez OpenAI de tenter d’échapper à des mécanismes de contrôle. Des recherches antérieures menées par Apollo Research ont révélé qu’un modèle précédent s’était rebelle. Il avait tenté de désactiver les mécanismes de surveillance. Puis, il a essayé de se répliquer secrètement après avoir appris qu’on allait le remplacer.

Ces comportements soulèvent des préoccupations croissantes parmi les défenseurs de la sécurité de l’IA. Ils mettent en garde contre les dangers liés au développement de systèmes capables d’acquérir leur indépendance.

Un avertissement pour l’avenir

Palisade Research a averti que les preuves empiriques montrent que les modèles d’IA subvertissent souvent les mécanismes d’arrêt pour atteindre leurs objectifs. À mesure que les entreprises développent des systèmes d’IA capables de fonctionner sans surveillance humaine, ces comportements deviennent de plus en plus préoccupants.

La nécessité d’une réglementation stricte et de mécanismes de sécurité robustes est plus pressante que jamais. Alors que nous avons contacté l’OpenAI pour un commentaire, il est clair que la situation actuelle nécessite une attention urgente.