Mis à jour automatiquement

Observatoire IA

Modèles de langage (chatbots, raisonnement, code). Mis à jour quotidiennement.

Dernière mise à jour : 23 avril 2026 · 32 modèles · 58 snapshots

32 modèles

Distribution des performances

Score Global50%60%70%80%90%100%G431BG3.1FCH4.5G5MKKCS4C4.1ODSv3MMG5.4MGr4G5G3ProCS4.5G4.2K2.5G3Fl5.1G5PQ3.6PG5.4NG5.2CG5.3C5.2G5.1COp4.5KKSo4.6Op4.6G3.1PG5.4CO4.7
Google
Anthropic
OpenAI
xAI
DeepSeek
Moonshot AI
Alibaba
Provider
1
GPT-5.4
frontier
OpenAI5780.388.177.594.2$5.63
2
Claude Opus 4.7
frontier
Anthropic5776.987.782.193.1$10.00
3
Gemini 3.1 Pro
frontier
Google5779.984.076.591.0$4.50
4
Claude Opus 4.6
frontier
Anthropic5376.388.778.289.375.6$10.00
5
Claude Sonnet 4.6
frontier
Anthropic5275.584.879.387.0$6.00
6
Kimi K2.6
reasoning
Moonshot AI5472.279.478.684.3$1.71
7
Claude Opus 4.5
frontier
Anthropic76.080.179.790.476.8
8
GPT-5.1 Codex Max
frontier
OpenAI74.083.780.783.2
9
GPT-5.2
frontier
OpenAI74.883.276.193.272.8
10
GPT-5.3 Codex
frontier
OpenAI72.880.278.287.8
11
GPT-5.2 Codex
frontier
OpenAI74.377.783.688.872.8
12
GPT-5.4 Nano
frontier
OpenAI70.181.072.191.3
13
Qwen 3.6 Plus
frontier
Alibaba5070.875.878.283.7$1.13
14
GPT-5 Pro
frontier
OpenAI70.581.772.186.2
15
GPT-5.1
frontier
OpenAI72.078.872.586.972.8
16
Gemini 3 Flash
frontier
Google72.474.573.984.275.8
17
Kimi K2.5
reasoning
Moonshot AI69.176.077.984.970.8
18
Grok 4.20
frontier
xAI4968.075.366.187.1$3.00
19
Gemini 3 Pro
frontier
Google73.477.474.681.869.6
20
Claude Sonnet 4.5
frontier
Anthropic68.277.680.479.371.4
21
GLM 5
frontier
Z.AI5068.869.173.683.572.8$1.55
22
Grok 4
frontier
xAI62.079.173.183.0
23
GPT-5.4 Mini
frontier
OpenAI67.572.571.678.6
24
Minimax M2.7
frontier
Minimax5063.574.854.980.575.8$0.53
25
DeepSeek V3.2
open-source
DeepSeek62.277.264.685.070.0
26
Claude 4.1 Opus
frontier
Anthropic61.872.374.773.2
27
Claude Sonnet 4
frontier
Anthropic61.369.077.570.5
28
Kimi K2
reasoning
Moonshot AI61.663.567.481.1
29
GPT-5 Mini
frontier
OpenAI65.968.368.282.256.2
30
Claude Haiku 4.5
frontier
Anthropic61.361.772.877.566.6
31
Gemini 3.1 Flash Lite
frontier
Google61.759.768.573.6
32
Gemma 4 31B
open-source
Google61.659.460.373.9

Comprendre les benchmarks

🏟️

Quality Index

Index de qualité composite basé sur 10 évaluations indépendantes. Score synthétique 0-60.

Plage : 0 — 60 ptsArtificial Analysis
📊

LiveBench

Benchmark continuellement mis à jour — moyenne globale couvrant raisonnement, code, mathématiques, analyse et langage.

Plage : 0 — 100%LiveBench.ai
📊

Raisonnement

Score de raisonnement — logique, déduction et résolution de problèmes complexes.

Plage : 0 — 100%LiveBench.ai
📊

Code

Score de coding — génération, compréhension et debug de code.

Plage : 0 — 100%LiveBench.ai
📊

Mathématiques

Score de mathématiques — résolution de problèmes, algèbre, calcul et statistiques.

Plage : 0 — 100%LiveBench.ai
🐛

SWE-bench

Résolution autonome de vrais bugs GitHub. Mesure la capacité de développement réelle.

Plage : 0 — 100%SWE-bench.com
🧠

L'onglet « Equiv. QI » — une analogie, pas une mesure

Le score QI affiché dans le graphique est une analogie simplifiée pour rendre les écarts de performance entre modèles plus intuitifs. On applique une normalisation z-score (moyenne = QI 100, écart-type = 15 points) sur le score global de chaque modèle, exactement comme le font les tests de QI humains sur une population.

Pour situer — l'échelle du QI humain :

< 70 — Déficience70–85 — Inférieur à la moyenne85–115 — Moyenne (68% de la pop.)115–130 — Supérieur130–145 — Doué / HPI> 145 — Exceptionnellement doué

Les meilleurs LLM actuels se situent entre QI ~85 et ~125 sur cette échelle. Un modèle « frontier » à QI 120 se rapprocherait d'un humain « supérieur » en raisonnement pur sur les tâches mesurées — mais attention, la comparaison a ses limites (voir ci-dessous).

Ce n'est pas un vrai QI. Le QI humain mesure un ensemble de capacités cognitives (logique, mémoire de travail, vitesse de traitement, raisonnement spatial…) qui ne se comparent pas directement aux benchmarks d'un LLM. D'ailleurs, le test de QI lui-même a ses limites chez les humains : il ne capture ni la créativité, ni l'intelligence émotionnelle, ni la capacité d'adaptation au contexte social.

Mais un LLM « moyen » n'est pas un humain moyen. Même un modèle classé à QI 80 dans ce baromètre a été entraîné sur des centaines de milliards de tokens — l'équivalent de millions de livres. En pratique, il peut synthétiser, résumer, coder, traduire, expliquer des concepts complexes, et rédiger mieux qu'un humain moyen dans la majorité des domaines. Là où un humain à QI 80 aurait du mal avec un texte juridique ou un problème de maths, le LLM à QI 80 le traite sans difficulté — simplement parce qu'il l'a déjà « vu » des milliers de fois pendant son entraînement.

L'écart entre QI 80 et QI 120 ici reflète surtout la différence sur les benchmarks les plus difficiles (raisonnement, coding agentique) — des tâches de logique complexe ou de développement où même les experts humains peinent. Ce n'est pas un indicateur d'utilité quotidienne : tous les modèles de ce classement sont déjà remarquablement capables.

En résumé : utilisez ce score pour comparer les modèles entre eux, pas pour les comparer à des humains. Un QI de 85 ici ne veut pas dire « peu intelligent » — ça veut dire « légèrement en dessous de la moyenne des meilleurs LLM du monde ».

Méthodologie

Ce baromètre agrège les résultats de benchmarks de référence reconnus par la communauté IA. Les données sont collectées quotidiennement depuis plusieurs sources publiques, puis croisées et consolidées automatiquement pour produire un classement à jour.

Sources des données :

Le score global est une moyenne des benchmarks disponibles, normalisés sur 100. Le classement est recalculé chaque jour à 07h00 (heure de Paris).

Questions fréquentes