Benchmark Claude 3.7 Sonnet : performances et comparaisons

Découvrez le benchmark complet de Claude 3.7 Sonnet : tests de performances, comparaisons avec d'autres LLMs et analyse des capacités en IA générative.

Antoine Grignola

Co-fondateur de DataBird

Mis à jour le

1/7/2025

Sommaire

Revenir en haut

Text Link

Découvrez notre formation en Gen AI et exploitez tout le potentiel de la Gen AI au quotidien.

Découvrir

L’actualité de l’intelligence artificielle a été chargée ces derniers mois avec l’apparition du mode réflexion en septembre 2024 sur le modèle gpt-o1 ainsi que la sortie de DeepSeekR1 en janvier 2025.

Anthropic, l’entreprise qui développe les modèles Claude, n’a pas tardé à répliquer avec l’introduction de son dernier modèle Claude 3.7 Sonnet ainsi que Claude Code le 24 février. C’est le premier modèle hybride du marché et il vient succéder à Claude 3.5 Sonnet. Loin d’être une petite mise à jour, ce LLM révèle un changement de stratégie et signe le retour de Anthropic dans le top des benchmarks.

Claude 3.7 Sonnet : qu'est-ce que c'est ?

Toute dernière version de la famille des claude sonnet, Claude 3.7 Sonnet se distingue par l’arrivée du mode réflexion (extended thinking mode) qui permet de décomposer un problème étape par étape afin d’en faciliter la résolution. Cela permet des gains significatifs sur la résolution de problèmes complexes tels que le code ou les mathématiques.

‍

Cette version 3.7 se démarque des IA concurrentes (OpenAI, Gemini, Grok…) par la possibilité d’alterner entre le mode de réflexion et mode normal avec une seule et même Intelligence Artificielle.

De plus, l’API offre la possibilité de monitorer le budget alloué à la réflexion. L’utilisateur peut faire un compromis précis entre : budget/temps de réponse et niveau de réflexion. Ce contrôle permet de tirer le meilleur parti de Claude 3.7 Sonnet dans les applications où il est intégré.

‍

Positionnement par rapport aux autres versions de Claude

Claude 3.7 Sonnet est la dernière version de la famille Claude, qui a vu le lancement de Claude 3 en mars 2024 avec ses trois déclinaisons (Haiku, Sonnet et Opus, par ordre croissant de performances), suivi de la version 3.5 en février 2025. Cette nouvelle version se positionne comme la plus intelligente à ce jour de la famille Claude et des versions Sonnet. On remarque donc une accélération progressive du développement des IA chez Anthropic.

Contrairement à ce que le nom laisse penser (3.5 VS 3.7) ce n’est pas une simple mise à jour incrémentale, mais une évolution substantielle qui repousse les limites des performances établies par les versions antérieures de l’IA Claude. Anthropic démontre à nouveau sa capacité à innover continuellement dans un domaine extrêmement compétitif et en constante évolution, consolidant sa position parmi les leaders de l'intelligence artificielle générative.

‍

Nouveautés et améliorations par rapport à Claude 3.5 et Claude 3 Opus

Claude 3.7 Sonnet dispose donc de 2 modes de fonctionnement : “normal” et “pensée étendue” (extended thinking mode).

Le mode normal représente une amélioration de performance par rapport à la version de Claude sonnet 3.5 et Claude 3 Opus.
Les écarts les plus marqués sont sur les benchmarks AIME2024 High school math competition et SWE-bench Verified – Agentic coding. Cela se traduit par des performances en mathématiques accrues ainsi qu’une meilleure capacité à produire et vérifier du code de manière autonome et fiable.
Avec la pensée étendue, l’écart de performance se creuse au profit du dernier de la famille des Claude Sonnet. Les capacités en mathématiques et en programmation sont beaucoup plus importantes.

‍

Comparaison Benchmarks Claude

Benchmark	Claude 3.7 Sonnet (pensée étendue)	Claude 3.7 Sonnet (mode normal)	Claude 3.5 Sonnet	Claude 3 Opus
Index d’Intelligence (synthèse de 7 évaluations)	57%	48%	44%	35%
Index de mathématiques AIME 2024 & Math-500	72%	54%	46%	34%
Ingénierie logicielle SWE-bench verified	-	62.3%	49%	-
Raisonnement & connaissances Humanity’s Last Exam	10.3%	4.8%	3.9%	3.1%
Code LiveCodeBench	47%	39%	38%	28%

Source : https://www.anthropic.com/news/claude-3-7-sonnet

‍

En bref, le nouveau modèle Claude 3.7 Sonnet se démarque principalement par ses capacités à traiter des questions et tâches complexes, en particulier lorsque le mode de réflexion est activé.

‍

Performances de Claude 3.7 Sonnet en benchmark

Le défi pour Claude 3.7 est surtout de se démarquer de la concurrence féroce auquel il est confronté à l'échelle du monde. De nombreux concurrents proposent déjà des outils intégrant un mode de réflexion : OpenAI, Grok ou DeepSeek. L’enjeu est donc de proposer des performances au moins équivalentes sur les benchmark d’intelligence tout en proposant une IA rapide et peu chère.

‍

Résultats des tests de rapidité et de génération

Comparatif Modèles IA

Critère	Anthropic 3.7 Sonnet (réflexion)	OpenAI o3-mini (high)	OpenAI o1	DeepSeek DeepSeekR1	Gemini Gemini 2.0 Flash	MistralAI Mistral Large
Vitesse (Tokens/seconde)	79	192	38	25	273	45
Latence en secondes	0.99	-	-	-	0.36	0.48
Index d’intelligence	57	62	66	60	48	38

Claude 3.7 ne se démarque pas par sa vitesse, il reste bien en dessous des modèles o3-mini (high) et Gemini 2.0 Flash. En revanche, la vitesse de génération de réponses est plus élevée que les modèles Mistral Large, DeepSeekR1 et OpenAI o1.

‍

Évaluation des performances en compréhension et raisonnement

Comparatif Problèmes Complexes IA

Critère	3.7 Sonnet (réflexion)	o3-mini (high)	o1	DeepSeekR1	Gemini 2.0 Flash	Mistral Large
Problèmes complexes MMLU-Pro	84%	80%	84%	84%	78%	70%
Problèmes complexes Humanity’s Last Exam	10.3%	12.3%	7.7%	9.3%	5.3%	4.0%
Problèmes scientifique GPQA Diamond	77%	77%	75%	71%	62%	49%

Claude 3.7 démontre les meilleures capacités de résolution de problèmes du marché avec l’ia o3-mini (high) du créateur de ChatGPT. Le modèle se classe premier ou deuxième sur les 3 benchmarks.

‍

Capacités en traitement du langage naturel (NLP) et génération de code

Comparatif Benchmarks Codage & Multilingue

Critère	3.7 Sonnet (réflexion)	o3-mini (high)	o1	DeepSeek r1	Gemini 2.0 Flash	Mistral Large
LiveCodeBench	47%	73%	68%	62%	33%	29%
SciCode	40%	40%	36%	36%	31%	29%
HumanEval (code)	98%	-	97%	98%	90%	90%
Index Multilingual MMLU	86.1%	79.5%	87.7%	-	-	-

Claude 3.7 Sonnet obtient donc des performances excellentes grâce à sa puissance de calcul. Anthropic arrive premier sur 2 des 3 benchmarks de code. Encore plus impressionnant, les performances en code sont similaires entre Claude 3.7 avec et sans raisonnement. Anthropic démontre ici son expertise pour produire des outils qui excellent dans les tâches nécessitant de la génération et compréhension de code.

Les performances sont bien supérieures à celle de Mistral Large l’ia française 🇫🇷 qui équipe le Chat.

‍

Comparaison avec les autres LLMs du marché

Claude 3.7 Sonnet vs o3-mini : lequel est le plus performant ?

L’affrontement le plus important est celui contre le créateur de ChatGPT, leader actuel du marché des LLMs. o3-mini (high) est probablement le meilleur modèle du monde actuellement. La question est donc : est-ce que Anthropic est parvenu à le détrôner ?

C’est OpenAI qui gagne ce points avec un meilleur score sur deux des trois benchmarks utilisés.

‍

Face à Gemini 1.5 Pro et Mistral Codestral : quelles différences ?

Gemini 1.5 Pro est un modèle conçu par Google pour offrir des performances générales à travers une large gamme de tâches textuelles, de code et multimodales.

Codestral est un petit llm de 22b de paramètres spécialisé dans les questions de code. Cette IA a obtenu un impressionnant score dans les tests HumanEval axés sur Python, surpassant les autres modèles spécialisés en code du marché : Codestral 2405 (son prédécesseur), Codellama 70B Instruct et DeepSeek Coder 33B Instruct.

Cette spécialisation dans la génération de code fait de Codestral un outil d’ia particulièrement puissant pour les développeurs, bien que son champ d'application soit plus restreint que celui de Claude 3.7 Sonnet ou Gemini 1.5 Pro.

Comparatif Claude / Gemini / Codéstral

Critère	Anthropic 3.7 Sonnet (mode normal)	Google Gemini 1.5 Pro	Mistral AI Codestral
Nombre de paramètres	100b+	200b	22b
LiveCodeBench & SciCode Code	38	31	25
Maths AIME 2024 & Math-500	54	55	33
Raisonnement & connaissances MMLU pro	80%	75%	45%

‍

Bien que les performances en code de Claude 3.7 Sonnet soient bien supérieures, il est à noter que Codestral est 5 fois plus petit et open weights. Les utilisateurs peuvent donc télécharger l’IA de Mistral et la faire tourner en local. Cela fait donc de Codestral une alternative intéressante à des modèles plus puissants comme Claude Code ou Gemini 1.5 Pro.

‍

Forces et faiblesses de Claude 3.7 Sonnet dans l'écosystème IA

Claude 3.7 Sonnet présente plusieurs forces distinctives qui le positionnent avantageusement dans l'écosystème actuel de l'IA. Sa principale force réside dans sa fonctionnalité de pensée étendue, qui lui permet d'exceller dans les tâches de raisonnement complexe en décomposant sa réflexion étape par étape.

En revanche, le modèle pêche sur la partie économique avec des tarifs beaucoup plus élevés que les entreprises concurrentes. De plus, la fonctionnalité de pensée étendue qui permet d’atteindre ces performances n’est pas disponible avec un compte gratuit contrairement à OpenAI avec ChatGPT ou DeepSeek.

(l’option “Extended” est réservée aux utilisateurs pro : 18€/mois)

La partie tarifaire est toutefois compensée par la possibilité de maîtriser le budget de raisonnement lors des appels API mais avec l’IA o3-mini qui est 3 fois moins cher, la comparaison fait mal.

Ces nuances mises à part, Claude 3.7 Sonnet représente une avancée significative qui rapproche Anthropic des leaders du marché en termes de puissance.

‍