☀️ Offre d'été J-3 — Encore quelques jours pour rejoindre notre formation Data Analyst et obtenir gratuitement un contenu exclusif !
☀️ Offre d'été J-3 — Encore quelques jours pour rejoindre notre formation Data Analyst et obtenir gratuitement un contenu exclusif !
☀️ Offre d'été J-3 — Encore quelques jours pour rejoindre notre formation Data Analyst et obtenir gratuitement un contenu exclusif !
Je m'inscris

Benchmark Claude 3.7 Sonnet : performances et comparaisons avec les meilleurs modèles IA

Découvrez le benchmark complet de Claude 3.7 Sonnet : tests de performances, comparaisons avec d'autres LLMs et analyse des capacités en IA générative.

Antoine Grignola
Co-fondateur de DataBird
Mis à jour le
1/7/2025

Découvrez notre formation en Gen AI et exploitez tout le potentiel de la Gen AI au quotidien.

Découvrir

L’actualité de l’intelligence artificielle a été chargée ces derniers mois avec l’apparition du mode réflexion en septembre 2024 sur le modèle gpt-o1 ainsi que la sortie de DeepSeekR1 en janvier 2025. 

Anthropic, l’entreprise qui développe les modèles Claude, n’a pas tardé à répliquer avec l’introduction de son dernier modèle Claude 3.7 Sonnet ainsi que Claude Code le 24 février. C’est le premier modèle hybride du marché et il vient succéder à Claude 3.5 Sonnet. Loin d’être une petite mise à jour, ce LLM révèle un changement de stratégie et signe le retour de Anthropic dans le top des benchmarks. 

Claude 3.7 Sonnet : qu'est-ce que c'est ?

Toute dernière version de la famille des claude sonnet, Claude 3.7 Sonnet se distingue par l’arrivée du mode réflexion (extended thinking mode) qui permet de décomposer un problème étape par étape afin d’en faciliter la résolution. Cela permet des gains significatifs sur la résolution de problèmes complexes tels que le code ou les mathématiques. 

Cette version 3.7 se démarque des IA concurrentes (OpenAI, Gemini, Grok…) par la possibilité d’alterner entre le mode de réflexion et mode normal avec une seule et même Intelligence Artificielle.  

De plus, l’API offre la possibilité de monitorer le budget alloué à la réflexion. L’utilisateur peut faire un compromis précis entre : budget/temps de réponse et niveau de réflexion. Ce contrôle permet de tirer le meilleur parti de Claude 3.7 Sonnet dans les applications où il est intégré.

Positionnement par rapport aux autres versions de Claude

Claude 3.7 Sonnet est la dernière version de la famille Claude, qui a vu le lancement de Claude 3 en mars 2024 avec ses trois déclinaisons (Haiku, Sonnet et Opus, par ordre croissant de performances), suivi de la version 3.5 en février 2025. Cette nouvelle version se positionne comme la plus intelligente à ce jour de la famille Claude et des versions Sonnet. On remarque donc une accélération progressive du développement des IA chez Anthropic. 

Contrairement à ce que le nom laisse penser (3.5 VS 3.7) ce n’est pas une simple mise à jour incrémentale, mais une évolution substantielle qui repousse les limites des performances établies par les versions antérieures de l’IA Claude. Anthropic démontre à nouveau sa capacité à innover continuellement dans un domaine extrêmement compétitif et en constante évolution, consolidant sa position parmi les leaders de l'intelligence artificielle générative.

Nouveautés et améliorations par rapport à Claude 3.5 et Claude 3 Opus

Claude 3.7 Sonnet dispose donc de 2 modes de fonctionnement : “normal” et “pensée étendue” (extended thinking mode). 

  • Le mode normal représente une amélioration de performance par rapport à la version de Claude sonnet 3.5 et Claude 3 Opus.
    Les écarts les plus marqués sont sur les benchmarks AIME2024 High school math competition et SWE-bench Verified – Agentic coding. Cela se traduit par des performances en mathématiques accrues ainsi qu’une meilleure capacité à produire et vérifier du code de manière autonome et fiable.
  • Avec la pensée étendue, l’écart de performance se creuse au profit du dernier de la famille des Claude Sonnet. Les capacités en mathématiques et en programmation sont beaucoup plus importantes.

Comparaison Benchmarks Claude
Benchmark Claude 3.7 Sonnet
(pensée étendue)
Claude 3.7 Sonnet
(mode normal)
Claude 3.5 Sonnet Claude 3 Opus
Index d’Intelligence
(synthèse de 7 évaluations)
57% 48% 44% 35%
Index de mathématiques
AIME 2024 & Math-500
72% 54% 46% 34%
Ingénierie logicielle
SWE-bench verified
- 62.3% 49% -
Raisonnement & connaissances
Humanity’s Last Exam
10.3% 4.8% 3.9% 3.1%
Code
LiveCodeBench
47% 39% 38% 28%

Source : https://www.anthropic.com/news/claude-3-7-sonnet

En bref, le nouveau modèle Claude 3.7 Sonnet se démarque principalement par ses capacités à traiter des questions et tâches complexes, en particulier lorsque le mode de réflexion est activé. 

Performances de Claude 3.7 Sonnet en benchmark

Le défi pour Claude 3.7 est surtout de se démarquer de la concurrence féroce auquel il est confronté à l'échelle du monde. De nombreux concurrents proposent déjà des outils intégrant un mode de réflexion : OpenAI, Grok ou DeepSeek. L’enjeu est donc de proposer des performances au moins équivalentes sur les benchmark d’intelligence tout en proposant une IA rapide et peu chère.

Résultats des tests de rapidité et de génération

Comparatif Modèles IA
Critère Anthropic
3.7 Sonnet (réflexion)
OpenAI
o3-mini (high)
OpenAI
o1
DeepSeek
DeepSeekR1
Gemini
Gemini 2.0 Flash
MistralAI
Mistral Large
Vitesse
(Tokens/seconde)
79 192 38 25 273 45
Latence en secondes 0.99 - - - 0.36 0.48
Index d’intelligence 57 62 66 60 48 38

Claude 3.7 ne se démarque pas par sa vitesse, il reste bien en dessous des modèles o3-mini (high) et Gemini 2.0 Flash. En revanche, la vitesse de génération de réponses est plus élevée que les modèles Mistral Large, DeepSeekR1 et OpenAI o1.

Évaluation des performances en compréhension et raisonnement

Comparatif Problèmes Complexes IA
Critère 3.7 Sonnet
(réflexion)
o3-mini (high) o1 DeepSeekR1 Gemini 2.0 Flash Mistral Large
Problèmes complexes
MMLU-Pro
84% 80% 84% 84% 78% 70%
Problèmes complexes
Humanity’s Last Exam
10.3% 12.3% 7.7% 9.3% 5.3% 4.0%
Problèmes scientifique
GPQA Diamond
77% 77% 75% 71% 62% 49%

Claude 3.7 démontre les meilleures capacités de résolution de problèmes du marché avec l’ia o3-mini (high) du créateur de ChatGPT. Le modèle se classe premier ou deuxième sur les 3 benchmarks. 

Capacités en traitement du langage naturel (NLP) et génération de code

Comparatif Benchmarks Codage & Multilingue
Critère 3.7 Sonnet
(réflexion)
o3-mini (high) o1 DeepSeek r1 Gemini 2.0 Flash Mistral Large
LiveCodeBench 47% 73% 68% 62% 33% 29%
SciCode 40% 40% 36% 36% 31% 29%
HumanEval (code) 98% - 97% 98% 90% 90%
Index Multilingual
MMLU
86.1% 79.5% 87.7% - - -

Claude 3.7 Sonnet obtient donc des performances excellentes grâce à sa puissance de calcul. Anthropic arrive premier sur 2 des 3 benchmarks de code. Encore plus impressionnant, les performances en code sont similaires entre Claude 3.7 avec et sans raisonnement. Anthropic démontre ici son expertise pour produire des outils qui excellent dans les tâches nécessitant de la génération et compréhension de code. 

Les performances sont bien supérieures à celle de Mistral Large l’ia française 🇫🇷 qui équipe le Chat.

Comparaison avec les autres LLMs du marché

Claude 3.7 Sonnet vs o3-mini : lequel est le plus performant ?

L’affrontement le plus important est celui contre le créateur de ChatGPT, leader actuel du marché des LLMs. o3-mini (high) est probablement le meilleur modèle du monde actuellement. La question est donc : est-ce que Anthropic est parvenu à le détrôner ?

C’est OpenAI qui gagne ce points avec un meilleur score sur deux des trois benchmarks utilisés. 

Face à Gemini 1.5 Pro et Mistral Codestral : quelles différences ?

Gemini 1.5 Pro est un modèle conçu par Google pour offrir des performances générales à travers une large gamme de tâches textuelles, de code et multimodales.

Codestral est un petit llm de 22b de paramètres spécialisé dans les questions de code. Cette IA a obtenu un impressionnant score dans les tests HumanEval axés sur Python, surpassant les autres modèles spécialisés en code du marché : Codestral 2405 (son prédécesseur), Codellama 70B Instruct et DeepSeek Coder 33B Instruct. 

Cette spécialisation dans la génération de code fait de Codestral un outil d’ia particulièrement puissant pour les développeurs, bien que son champ d'application soit plus restreint que celui de Claude 3.7 Sonnet ou Gemini 1.5 Pro.

Comparatif Claude / Gemini / Codéstral
Critère Anthropic
3.7 Sonnet
(mode normal)
Google
Gemini 1.5 Pro
Mistral AI
Codestral
Nombre de paramètres 100b+ 200b 22b
LiveCodeBench & SciCode
Code
38 31 25
Maths
AIME 2024 & Math-500
54 55 33
Raisonnement & connaissances
MMLU pro
80% 75% 45%

Bien que les performances en code de Claude 3.7 Sonnet soient bien supérieures, il est à noter que Codestral est 5 fois plus petit et open weights. Les utilisateurs peuvent donc télécharger l’IA de Mistral et la faire tourner en local. Cela fait donc de Codestral une alternative intéressante à des modèles plus puissants comme Claude Code ou Gemini 1.5 Pro.

Forces et faiblesses de Claude 3.7 Sonnet dans l'écosystème IA

Claude 3.7 Sonnet présente plusieurs forces distinctives qui le positionnent avantageusement dans l'écosystème actuel de l'IA. Sa principale force réside dans sa fonctionnalité de pensée étendue, qui lui permet d'exceller dans les tâches de raisonnement complexe en décomposant sa réflexion étape par étape. 

En revanche, le modèle pêche sur la partie économique avec des tarifs beaucoup plus élevés que les entreprises concurrentes. De plus, la fonctionnalité de pensée étendue qui permet d’atteindre ces performances n’est pas disponible avec un compte gratuit contrairement à OpenAI avec ChatGPT ou DeepSeek. 

(l’option “Extended” est réservée aux utilisateurs pro : 18€/mois)

La partie tarifaire est toutefois compensée par la possibilité de maîtriser le budget de raisonnement lors des appels API mais avec l’IA o3-mini qui est 3 fois moins cher, la comparaison fait mal. 

Ces nuances mises à part, Claude 3.7 Sonnet représente une avancée significative qui rapproche Anthropic des leaders du marché en termes de puissance. 

{{formation-gen-ai="/brouillon"}}

Difficulté :
Facile