
The ChatGPT logo appears on a smartphone screen in this illustration photo in Reno, United States, on January 3, 2025. (Photo Illustration by Jaque Silva/NurPhoto via Getty Images)
OpenAI a annoncé le déploiement d’un nouveau système de surveillance pour ses derniers modèles d’IA de raisonnement, o3 et o4-mini, afin de gérer les prompts liés aux menaces biologiques et chimiques. Ce système a pour objectif d’empêcher les modèles de fournir des conseils pouvant instruire quelqu’un sur la mise en œuvre d’attaques potentiellement dangereuses, selon le rapport sur la sécurité d’OpenAI.
O3 et o4-mini représentent une avancée significative par rapport aux modèles précédents d’OpenAI, affirme l’entreprise, ce qui implique de nouveaux risques entre les mains de personnes mal intentionnées. Selon les benchmarks internes d’OpenAI, o3 est plus compétent pour répondre à des questions concernant la création de certains types de menaces biologiques en particulier. C’est pourquoi – et pour atténuer d’autres risques – OpenAI a mis en place ce nouveau système de surveillance, décrit comme un « moniteur de raisonnement axé sur la sécurité ».
Ce moniteur, spécialement formé pour analyser les politiques de contenu d’OpenAI, fonctionne en parallèle avec o3 et o4-mini. Son rôle est d’identifier les prompts liés aux risques biologiques et chimiques, et d’instruire les modèles à ne pas fournir de conseils sur ces sujets.
Afin de créer une base solide, OpenAI a engagé des équipes rouges pendant environ 1 000 heures pour repérer les conversations « non sécurisées » liées aux risques biologiques de o3 et o4-mini. Lors d’un test simulant la « logique de blocage » de son moniteur de sécurité, les modèles ont refusé de répondre aux prompts risqués 98,7% du temps, selon OpenAI.

OpenAI reconnaît que ce test n’a pas pris en compte les personnes qui pourraient essayer de nouveaux prompts après avoir été bloquées par le moniteur, c’est pourquoi l’entreprise affirme qu’elle continuera à s’appuyer en partie sur une surveillance humaine.
Selon OpenAI, o3 et o4-mini ne représentent pas un « risque élevé » en ce qui concerne les risques biologiques. Cependant, par rapport à o1 et GPT-4, OpenAI affirme que les premières versions de o3 et o4-mini se sont révélées plus utiles pour répondre à des questions sur le développement d’armes biologiques.
Chart from o3 and o4-mini’s system card (Screenshot: OpenAI)
[[IMG::]]