Mis à jour automatiquement

Observatoire IA

Modèles de langage (chatbots, raisonnement, code). Mis à jour quotidiennement.

Dernière mise à jour : 23 avril 2026 · 32 modèles · 58 snapshots

32 modèles

Distribution des performances

Google

Anthropic

OpenAI

xAI

DeepSeek

Moonshot AI

Alibaba

		Provider
1	GPT-5.4 frontier	OpenAI	57	80.3	88.1	77.5	94.2	—	$5.63
2	Claude Opus 4.7 frontier	Anthropic	57	76.9	87.7	82.1	93.1	—	$10.00
3	Gemini 3.1 Pro frontier	Google	57	79.9	84.0	76.5	91.0	—	$4.50
4	Claude Opus 4.6 frontier	Anthropic	53	76.3	88.7	78.2	89.3	75.6	$10.00
5	Claude Sonnet 4.6 frontier	Anthropic	52	75.5	84.8	79.3	87.0	—	$6.00
6	Kimi K2.6 reasoning	Moonshot AI	54	72.2	79.4	78.6	84.3	—	$1.71
7	Claude Opus 4.5 frontier	Anthropic	—	76.0	80.1	79.7	90.4	76.8	—
8	GPT-5.1 Codex Max frontier	OpenAI	—	74.0	83.7	80.7	83.2	—	—
9	GPT-5.2 frontier	OpenAI	—	74.8	83.2	76.1	93.2	72.8	—
10	GPT-5.3 Codex frontier	OpenAI	—	72.8	80.2	78.2	87.8	—	—
11	GPT-5.2 Codex frontier	OpenAI	—	74.3	77.7	83.6	88.8	72.8	—
12	GPT-5.4 Nano frontier	OpenAI	—	70.1	81.0	72.1	91.3	—	—
13	Qwen 3.6 Plus frontier	Alibaba	50	70.8	75.8	78.2	83.7	—	$1.13
14	GPT-5 Pro frontier	OpenAI	—	70.5	81.7	72.1	86.2	—	—
15	GPT-5.1 frontier	OpenAI	—	72.0	78.8	72.5	86.9	72.8	—
16	Gemini 3 Flash frontier	Google	—	72.4	74.5	73.9	84.2	75.8	—
17	Kimi K2.5 reasoning	Moonshot AI	—	69.1	76.0	77.9	84.9	70.8	—
18	Grok 4.20 frontier	xAI	49	68.0	75.3	66.1	87.1	—	$3.00
19	Gemini 3 Pro frontier	Google	—	73.4	77.4	74.6	81.8	69.6	—
20	Claude Sonnet 4.5 frontier	Anthropic	—	68.2	77.6	80.4	79.3	71.4	—
21	GLM 5 frontier	Z.AI	50	68.8	69.1	73.6	83.5	72.8	$1.55
22	Grok 4 frontier	xAI	—	62.0	79.1	73.1	83.0	—	—
23	GPT-5.4 Mini frontier	OpenAI	—	67.5	72.5	71.6	78.6	—	—
24	Minimax M2.7 frontier	Minimax	50	63.5	74.8	54.9	80.5	75.8	$0.53
25	DeepSeek V3.2 open-source	DeepSeek	—	62.2	77.2	64.6	85.0	70.0	—
26	Claude 4.1 Opus frontier	Anthropic	—	61.8	72.3	74.7	73.2	—	—
27	Claude Sonnet 4 frontier	Anthropic	—	61.3	69.0	77.5	70.5	—	—
28	Kimi K2 reasoning	Moonshot AI	—	61.6	63.5	67.4	81.1	—	—
29	GPT-5 Mini frontier	OpenAI	—	65.9	68.3	68.2	82.2	56.2	—
30	Claude Haiku 4.5 frontier	Anthropic	—	61.3	61.7	72.8	77.5	66.6	—
31	Gemini 3.1 Flash Lite frontier	Google	—	61.7	59.7	68.5	73.6	—	—
32	Gemma 4 31B open-source	Google	—	61.6	59.4	60.3	73.9	—	—

Comprendre les benchmarks

🏟️

Quality Index

Index de qualité composite basé sur 10 évaluations indépendantes. Score synthétique 0-60.

Plage : 0 — 60 ptsArtificial Analysis

📊

LiveBench

Benchmark continuellement mis à jour — moyenne globale couvrant raisonnement, code, mathématiques, analyse et langage.

Plage : 0 — 100%LiveBench.ai

📊

Raisonnement

Score de raisonnement — logique, déduction et résolution de problèmes complexes.

Plage : 0 — 100%LiveBench.ai

📊

Code

Score de coding — génération, compréhension et debug de code.

Plage : 0 — 100%LiveBench.ai

📊

Mathématiques

Score de mathématiques — résolution de problèmes, algèbre, calcul et statistiques.

Plage : 0 — 100%LiveBench.ai

🐛

SWE-bench

Résolution autonome de vrais bugs GitHub. Mesure la capacité de développement réelle.

Plage : 0 — 100%SWE-bench.com

🧠

L'onglet « Equiv. QI » — une analogie, pas une mesure

Le score QI affiché dans le graphique est une analogie simplifiée pour rendre les écarts de performance entre modèles plus intuitifs. On applique une normalisation z-score (moyenne = QI 100, écart-type = 15 points) sur le score global de chaque modèle, exactement comme le font les tests de QI humains sur une population.

Pour situer — l'échelle du QI humain :

< 70 — Déficience70–85 — Inférieur à la moyenne85–115 — Moyenne (68% de la pop.)115–130 — Supérieur130–145 — Doué / HPI> 145 — Exceptionnellement doué

Les meilleurs LLM actuels se situent entre QI ~85 et ~125 sur cette échelle. Un modèle « frontier » à QI 120 se rapprocherait d'un humain « supérieur » en raisonnement pur sur les tâches mesurées — mais attention, la comparaison a ses limites (voir ci-dessous).

Ce n'est pas un vrai QI. Le QI humain mesure un ensemble de capacités cognitives (logique, mémoire de travail, vitesse de traitement, raisonnement spatial…) qui ne se comparent pas directement aux benchmarks d'un LLM. D'ailleurs, le test de QI lui-même a ses limites chez les humains : il ne capture ni la créativité, ni l'intelligence émotionnelle, ni la capacité d'adaptation au contexte social.

Mais un LLM « moyen » n'est pas un humain moyen. Même un modèle classé à QI 80 dans ce baromètre a été entraîné sur des centaines de milliards de tokens — l'équivalent de millions de livres. En pratique, il peut synthétiser, résumer, coder, traduire, expliquer des concepts complexes, et rédiger mieux qu'un humain moyen dans la majorité des domaines. Là où un humain à QI 80 aurait du mal avec un texte juridique ou un problème de maths, le LLM à QI 80 le traite sans difficulté — simplement parce qu'il l'a déjà « vu » des milliers de fois pendant son entraînement.

L'écart entre QI 80 et QI 120 ici reflète surtout la différence sur les benchmarks les plus difficiles (raisonnement, coding agentique) — des tâches de logique complexe ou de développement où même les experts humains peinent. Ce n'est pas un indicateur d'utilité quotidienne : tous les modèles de ce classement sont déjà remarquablement capables.

En résumé : utilisez ce score pour comparer les modèles entre eux, pas pour les comparer à des humains. Un QI de 85 ici ne veut pas dire « peu intelligent » — ça veut dire « légèrement en dessous de la moyenne des meilleurs LLM du monde ».

Méthodologie

Ce baromètre agrège les résultats de benchmarks de référence reconnus par la communauté IA. Les données sont collectées quotidiennement depuis plusieurs sources publiques, puis croisées et consolidées automatiquement pour produire un classement à jour.

Sources des données :

Artificial Analysis — benchmarks comparatifs, prix, vitesse, index de qualité
Chatbot Arena (LMArena) — classement ELO basé sur des votes humains en aveugle
Scale AI — Humanity's Last Exam (HLE)
ARC Prize — ARC-AGI-2, raisonnement abstrait
SWE-bench — résolution autonome de bugs open-source

Le score global est une moyenne des benchmarks disponibles, normalisés sur 100. Le classement est recalculé chaque jour à 07h00 (heure de Paris).

Observatoire IA

Distribution des performances

Comprendre les benchmarks

Quality Index

LiveBench

Raisonnement

Code

Mathématiques

SWE-bench

L'onglet « Equiv. QI » — une analogie, pas une mesure

Méthodologie

Questions fréquentes