OpenAI o3

OpenAI a récemment dévoilé son dernier modèle de transformateur préentraîné génératif, OpenAI o3, marquant une avancée significative dans les capacités d’intelligence artificielle. Ce modèle, annoncé le 20 décembre 2024, succède à OpenAI o1 et est conçu pour améliorer les capacités de raisonnement, en particulier pour les tâches complexes qui nécessitent une analyse logique étape par étape.

Contexte et développement

Le nom du nouveau modèle o3 était une décision stratégique d’OpenAI pour éviter les conflits de marques avec les marques existantes, en particulier l’opérateur mobile O2. OpenAI o3 est disponible en deux versions : le modèle o3 complet et une version plus compacte appelée o3-mini. Cette dernière est conçue pour les utilisateurs nécessitant moins de puissance de calcul et devrait être rendue publique début février 2025.

OpenAI a souligné l’importance de la sécurité et des considérations éthiques dans le développement d’o3. La société a mis en œuvre des protocoles de test de sécurité rigoureux pour s’assurer que le modèle est utilisé de manière responsable. Des chercheurs et des experts externes ont été invités à tester le modèle avant sa publication publique, ce qui permet des commentaires qui peuvent affiner davantage ses capacités.

Caractéristiques et améliorations clés

Capacités de raisonnement avancées

L’une des caractéristiques remarquables d’OpenAI o3 est sa capacité à s’engager dans un raisonnement avancé. Contrairement à son prédécesseur, o1, qui fonctionnait sur un mécanisme de réponse plus simple, o3 intègre un processus de “chaîne de pensée privée”. Cela permet au modèle de délibérer avant de générer des réponses, simulant efficacement une approche plus réfléchie semblable au raisonnement humain. Cette amélioration permet à o3 de s’attaquer plus efficacement à des problèmes complexes en effectuant des étapes de raisonnement intermédiaires.

Critères de performance

OpenAI o3 a démontré des performances remarquables sur divers benchmarks :

  • Mathématiques : Lors de l’American Invitational Mathematics Examination (AIME), o3 a obtenu un taux de précision impressionnant de 96,7 %, nettement supérieur au score de o1 de 83,3 %.
  • Science : Lors de tests impliquant des questions scientifiques de niveau doctorat (GPQA Diamond), o3 a obtenu un score de 87,7 %, démontrant sa capacité à gérer des enquêtes scientifiques avancées.
  • Codage : Sur le benchmark vérifié SWE-bench, qui évalue les tâches d’ingénierie logicielle réelles, o3 a obtenu un score de 71,7 %, une amélioration notable par rapport aux 48,9 % d’o1.

Ces benchmarks indiquent qu’OpenAI o3 surpasse non seulement son prédécesseur, mais approche également des niveaux précédemment jugés inaccessibles pour les modèles IA.

Vérification des faits

Une autre avancée significative de o3 est sa capacité à effectuer une auto-vérification des faits. Cette fonctionnalité améliore la précision des réponses en permettant au modèle de vérifier les informations avant de les présenter. Ces capacités sont essentielles pour garantir que les utilisateurs reçoivent des informations fiables et dignes de confiance des systèmes IA.

Implications pour l’intelligence artificielle générale (AGI)

OpenAI a positionné o3 comme une étape critique vers la réalisation de l’intelligence artificielle générale ( AGI ) – la capacité hypothétique d’un système IA à comprendre ou à apprendre toute tâche intellectuelle qu’un être humain peut accomplir. Les performances du modèle sur des benchmarks comme ARC-AGI indiquent qu’il peut acquérir de nouvelles compétences au-delà de ses données d’entraînement et adapter ses connaissances à des défis inconnus. Avec un score de précision de 87,5 % sur ce benchmark, o3 a dépassé les performances au niveau humain (85 %) et s’est considérablement amélioré par rapport au score de o1 de 32 %.

Les experts dans le domaine ont exprimé leur optimisme quant à ces développements. François Chollet, l’un des créateurs de l’ARC Challenge, a décrit o3 comme “impressionnant” et une étape majeure sur la route de l’AGI. Cependant, il est essentiel de noter que si o3 représente un progrès significatif, il n’est pas encore AGI lui-même.

Comment accéder à l’O3 d’OpenAI?

Les utilisateurs de niveau gratuit de ChatGPT peuvent découvrir le potentiel d’o3-mini en sélectionnant “Raison” sous la boîte de message.

Les utilisateurs de ChatGPT Plus, Team et Pro peuvent sélectionner directement “o3-mini” ou “o3-mini-high” dans la liste déroulante du sélecteur de modèles en haut, et commencer à l’utiliser.

OpenAI o1 contre OpenAI o3

Les modèles o1 et o3 sont des modèles de raisonnement avec la même fonctionnalité de base. Les deux modèles montrent des différences significatives de performances entre les différentes tâches.

Par exemple, les scores de codage largement utilisés, tels que la note Codeforces Elo, mesurent le niveau relatif de compétence en programmation. Une note Elo est une échelle de notation utilisée à l’origine pour évaluer les performances des joueurs d’échecs.

Le graphique suivant décrit les principales différences et les scores de performance de référence de o1 par rapport à o3.

CaractéristiqueOpenAI o1OpenAI o3
Date de sortie5 décembre 2024Prévu en janvier 2025
Variantes de modèlesTrois : o1, o1-mini et o1 proDeux : o3 et o3-mini
Score de référence ARC-AGI32%87.5%
Score AIME 2024 (mathématiques)83.3%96.7%
Codesforces Elo (codage)1891 (Expert)2727 (Grand maître international)
SWE-bench Score vérifié (codage)48.9%71.7%
Capacités de raisonnementBasiqueAvancé (raisonnement simulé)
Caractéristiques de sécuritéBasiqueAmélioré (alignement délibératif)
Lên đầu trang