Mis à jour automatiquement

Observatoire IA

Modèles de langage (chatbots, raisonnement, code). Mis à jour quotidiennement.

Dernière mise à jour : 9 mars 2026 · 37 modèles · 17 snapshots

37 modèles

Distribution des performances

Score Global50%60%70%80%90%100%CO4.1CS4.5DSv3G2.5FQ3235G3.1FG4.7G4.6G5.1CCH4.5G5MG2.5PKKG5.3IMM2.5CS4.1CO4.1DSv3G4.1FGr4G3ProG5CS4.5G5.1CK2.5G3FlG5P5.1G5.2CG5.1COp4.55.2G5.3CSo4.6Op4.6G3.1PG5.4
Google
Anthropic
OpenAI
xAI
DeepSeek
MiniMax
Moonshot AI
Alibaba
Provider
1
GPT-5.4
frontier
OpenAI5780.388.177.594.2$5.63
2
Gemini 3.1 Pro
frontier
Google5779.984.076.591.0$4.50
3
Claude Opus 4.6
frontier
Anthropic5376.388.778.289.375.6$10.00
4
Claude Sonnet 4.6
frontier
Anthropic5275.584.879.387.0$6.00
5
GPT-5.3 Codex
frontier
OpenAI5472.880.278.287.8$4.81
6
GPT-5.2
frontier
OpenAI5174.883.276.193.272.8$4.81
7
Claude Opus 4.5
frontier
Anthropic76.080.179.790.476.8
8
GPT-5.1 Codex Max
frontier
OpenAI74.083.780.783.2
9
GPT-5.2 Codex
frontier
OpenAI4974.377.783.688.872.8$4.81
10
GPT-5 Pro
frontier
OpenAI70.581.772.186.2
11
GPT-5.1
frontier
OpenAI72.078.872.586.9
12
Gemini 3 Flash
frontier
Google4672.474.573.984.275.8$1.13
13
Kimi K2.5
reasoning
Moonshot AI4769.176.077.984.970.8$1.20
14
GPT-5.1 Codex
frontier
OpenAI68.682.071.879.6
15
Claude Sonnet 4.5
frontier
Anthropic68.277.680.479.371.4
16
GLM 5
frontier
Z.AI5068.869.173.683.572.8$1.55
17
Gemini 3 Pro
frontier
Google4173.477.474.681.869.6$4.50
18
Grok 4
frontier
xAI4262.079.173.183.0$6.00
19
Grok 4.1 Fast
frontier
xAI60.080.269.683.7
20
DeepSeek V3.2
open-source
DeepSeek4262.277.264.685.070.0$0.32
21
Claude Opus 4.1
frontier
Anthropic61.872.374.773.2
22
Claude Sonnet 4.1
frontier
Anthropic61.369.077.570.5
23
MiniMax M2.5
frontier
MiniMax4260.159.370.777.475.8$0.53
24
GPT-5.3 Instant
frontier
OpenAI60.063.178.672.4
25
Kimi K2
reasoning
Moonshot AI61.663.567.481.1
26
Gemini 2.5 Pro
frontier
Google58.370.875.768.3
27
GPT-5 Mini
frontier
OpenAI4165.968.368.282.256.2$0.69
28
Claude Haiku 4.5
frontier
Anthropic61.361.772.877.566.6
29
GPT-5.1 Codex Mini
frontier
OpenAI60.464.769.976.3
30
GLM 4.6
frontier
Z.AI55.262.171.081.1
31
GLM 4.7
frontier
Z.AI58.159.773.176.0
32
Gemini 3.1 Flash Lite
frontier
Google61.759.768.573.6
33
Qwen 3 235B A22B
open-source
Alibaba53.059.469.073.4
34
Gemini 2.5 Flash
frontier
Google53.151.567.575.3
35
DeepSeek V3.2
open-source
DeepSeek4251.844.375.764.0$0.32
36
Claude Sonnet 4.5
frontier
Anthropic53.742.376.162.6
37
Claude Opus 4.1
frontier
Anthropic54.540.976.162.8

Comprendre les benchmarks

🏟️

Quality Index

Index de qualité composite basé sur 10 évaluations indépendantes. Score synthétique 0-60.

Plage : 0 — 60 ptsArtificial Analysis
📊

LiveBench

Benchmark continuellement mis à jour — moyenne globale couvrant raisonnement, code, mathématiques, analyse et langage.

Plage : 0 — 100%LiveBench.ai
📊

Raisonnement

Score de raisonnement — logique, déduction et résolution de problèmes complexes.

Plage : 0 — 100%LiveBench.ai
📊

Code

Score de coding — génération, compréhension et debug de code.

Plage : 0 — 100%LiveBench.ai
📊

Mathématiques

Score de mathématiques — résolution de problèmes, algèbre, calcul et statistiques.

Plage : 0 — 100%LiveBench.ai
🐛

SWE-bench

Résolution autonome de vrais bugs GitHub. Mesure la capacité de développement réelle.

Plage : 0 — 100%SWE-bench.com
🧠

L'onglet « Equiv. QI » — une analogie, pas une mesure

Le score QI affiché dans le graphique est une analogie simplifiée pour rendre les écarts de performance entre modèles plus intuitifs. On applique une normalisation z-score (moyenne = QI 100, écart-type = 15 points) sur le score global de chaque modèle, exactement comme le font les tests de QI humains sur une population.

Pour situer — l'échelle du QI humain :

< 70 — Déficience70–85 — Inférieur à la moyenne85–115 — Moyenne (68% de la pop.)115–130 — Supérieur130–145 — Doué / HPI> 145 — Exceptionnellement doué

Les meilleurs LLM actuels se situent entre QI ~85 et ~125 sur cette échelle. Un modèle « frontier » à QI 120 se rapprocherait d'un humain « supérieur » en raisonnement pur sur les tâches mesurées — mais attention, la comparaison a ses limites (voir ci-dessous).

Ce n'est pas un vrai QI. Le QI humain mesure un ensemble de capacités cognitives (logique, mémoire de travail, vitesse de traitement, raisonnement spatial…) qui ne se comparent pas directement aux benchmarks d'un LLM. D'ailleurs, le test de QI lui-même a ses limites chez les humains : il ne capture ni la créativité, ni l'intelligence émotionnelle, ni la capacité d'adaptation au contexte social.

Mais un LLM « moyen » n'est pas un humain moyen. Même un modèle classé à QI 80 dans ce baromètre a été entraîné sur des centaines de milliards de tokens — l'équivalent de millions de livres. En pratique, il peut synthétiser, résumer, coder, traduire, expliquer des concepts complexes, et rédiger mieux qu'un humain moyen dans la majorité des domaines. Là où un humain à QI 80 aurait du mal avec un texte juridique ou un problème de maths, le LLM à QI 80 le traite sans difficulté — simplement parce qu'il l'a déjà « vu » des milliers de fois pendant son entraînement.

L'écart entre QI 80 et QI 120 ici reflète surtout la différence sur les benchmarks les plus difficiles (raisonnement, coding agentique) — des tâches de logique complexe ou de développement où même les experts humains peinent. Ce n'est pas un indicateur d'utilité quotidienne : tous les modèles de ce classement sont déjà remarquablement capables.

En résumé : utilisez ce score pour comparer les modèles entre eux, pas pour les comparer à des humains. Un QI de 85 ici ne veut pas dire « peu intelligent » — ça veut dire « légèrement en dessous de la moyenne des meilleurs LLM du monde ».

Méthodologie

Ce baromètre agrège les résultats de benchmarks de référence reconnus par la communauté IA. Les données sont collectées quotidiennement depuis plusieurs sources publiques, puis croisées et consolidées automatiquement pour produire un classement à jour.

Sources des données :

Le score global est une moyenne des benchmarks disponibles, normalisés sur 100. Le classement est recalculé chaque jour à 07h00 (heure de Paris).

Questions fréquentes