Mis à jour automatiquement
Observatoire IA
Modèles de langage (chatbots, raisonnement, code). Mis à jour quotidiennement.
Dernière mise à jour : 9 mars 2026 · 37 modèles · 17 snapshots
Distribution des performances
| Provider | |||||||||
|---|---|---|---|---|---|---|---|---|---|
| 1 | frontier | OpenAI | 57 | 80.3 | 88.1 | 77.5 | 94.2 | — | $5.63 |
| 2 | frontier | 57 | 79.9 | 84.0 | 76.5 | 91.0 | — | $4.50 | |
| 3 | frontier | Anthropic | 53 | 76.3 | 88.7 | 78.2 | 89.3 | 75.6 | $10.00 |
| 4 | frontier | Anthropic | 52 | 75.5 | 84.8 | 79.3 | 87.0 | — | $6.00 |
| 5 | frontier | OpenAI | 54 | 72.8 | 80.2 | 78.2 | 87.8 | — | $4.81 |
| 6 | frontier | OpenAI | 51 | 74.8 | 83.2 | 76.1 | 93.2 | 72.8 | $4.81 |
| 7 | frontier | Anthropic | — | 76.0 | 80.1 | 79.7 | 90.4 | 76.8 | — |
| 8 | frontier | OpenAI | — | 74.0 | 83.7 | 80.7 | 83.2 | — | — |
| 9 | frontier | OpenAI | 49 | 74.3 | 77.7 | 83.6 | 88.8 | 72.8 | $4.81 |
| 10 | frontier | OpenAI | — | 70.5 | 81.7 | 72.1 | 86.2 | — | — |
| 11 | frontier | OpenAI | — | 72.0 | 78.8 | 72.5 | 86.9 | — | — |
| 12 | frontier | 46 | 72.4 | 74.5 | 73.9 | 84.2 | 75.8 | $1.13 | |
| 13 | reasoning | Moonshot AI | 47 | 69.1 | 76.0 | 77.9 | 84.9 | 70.8 | $1.20 |
| 14 | frontier | OpenAI | — | 68.6 | 82.0 | 71.8 | 79.6 | — | — |
| 15 | frontier | Anthropic | — | 68.2 | 77.6 | 80.4 | 79.3 | 71.4 | — |
| 16 | frontier | Z.AI | 50 | 68.8 | 69.1 | 73.6 | 83.5 | 72.8 | $1.55 |
| 17 | frontier | 41 | 73.4 | 77.4 | 74.6 | 81.8 | 69.6 | $4.50 | |
| 18 | frontier | xAI | 42 | 62.0 | 79.1 | 73.1 | 83.0 | — | $6.00 |
| 19 | frontier | xAI | — | 60.0 | 80.2 | 69.6 | 83.7 | — | — |
| 20 | open-source | DeepSeek | 42 | 62.2 | 77.2 | 64.6 | 85.0 | 70.0 | $0.32 |
| 21 | frontier | Anthropic | — | 61.8 | 72.3 | 74.7 | 73.2 | — | — |
| 22 | frontier | Anthropic | — | 61.3 | 69.0 | 77.5 | 70.5 | — | — |
| 23 | frontier | MiniMax | 42 | 60.1 | 59.3 | 70.7 | 77.4 | 75.8 | $0.53 |
| 24 | frontier | OpenAI | — | 60.0 | 63.1 | 78.6 | 72.4 | — | — |
| 25 | reasoning | Moonshot AI | — | 61.6 | 63.5 | 67.4 | 81.1 | — | — |
| 26 | frontier | — | 58.3 | 70.8 | 75.7 | 68.3 | — | — | |
| 27 | frontier | OpenAI | 41 | 65.9 | 68.3 | 68.2 | 82.2 | 56.2 | $0.69 |
| 28 | frontier | Anthropic | — | 61.3 | 61.7 | 72.8 | 77.5 | 66.6 | — |
| 29 | frontier | OpenAI | — | 60.4 | 64.7 | 69.9 | 76.3 | — | — |
| 30 | frontier | Z.AI | — | 55.2 | 62.1 | 71.0 | 81.1 | — | — |
| 31 | frontier | Z.AI | — | 58.1 | 59.7 | 73.1 | 76.0 | — | — |
| 32 | frontier | — | 61.7 | 59.7 | 68.5 | 73.6 | — | — | |
| 33 | open-source | Alibaba | — | 53.0 | 59.4 | 69.0 | 73.4 | — | — |
| 34 | frontier | — | 53.1 | 51.5 | 67.5 | 75.3 | — | — | |
| 35 | open-source | DeepSeek | 42 | 51.8 | 44.3 | 75.7 | 64.0 | — | $0.32 |
| 36 | frontier | Anthropic | — | 53.7 | 42.3 | 76.1 | 62.6 | — | — |
| 37 | frontier | Anthropic | — | 54.5 | 40.9 | 76.1 | 62.8 | — | — |
Comprendre les benchmarks
Quality Index
Index de qualité composite basé sur 10 évaluations indépendantes. Score synthétique 0-60.
LiveBench
Benchmark continuellement mis à jour — moyenne globale couvrant raisonnement, code, mathématiques, analyse et langage.
Raisonnement
Score de raisonnement — logique, déduction et résolution de problèmes complexes.
Code
Score de coding — génération, compréhension et debug de code.
Mathématiques
Score de mathématiques — résolution de problèmes, algèbre, calcul et statistiques.
SWE-bench
Résolution autonome de vrais bugs GitHub. Mesure la capacité de développement réelle.
L'onglet « Equiv. QI » — une analogie, pas une mesure
Le score QI affiché dans le graphique est une analogie simplifiée pour rendre les écarts de performance entre modèles plus intuitifs. On applique une normalisation z-score (moyenne = QI 100, écart-type = 15 points) sur le score global de chaque modèle, exactement comme le font les tests de QI humains sur une population.
Pour situer — l'échelle du QI humain :
Les meilleurs LLM actuels se situent entre QI ~85 et ~125 sur cette échelle. Un modèle « frontier » à QI 120 se rapprocherait d'un humain « supérieur » en raisonnement pur sur les tâches mesurées — mais attention, la comparaison a ses limites (voir ci-dessous).
Ce n'est pas un vrai QI. Le QI humain mesure un ensemble de capacités cognitives (logique, mémoire de travail, vitesse de traitement, raisonnement spatial…) qui ne se comparent pas directement aux benchmarks d'un LLM. D'ailleurs, le test de QI lui-même a ses limites chez les humains : il ne capture ni la créativité, ni l'intelligence émotionnelle, ni la capacité d'adaptation au contexte social.
Mais un LLM « moyen » n'est pas un humain moyen. Même un modèle classé à QI 80 dans ce baromètre a été entraîné sur des centaines de milliards de tokens — l'équivalent de millions de livres. En pratique, il peut synthétiser, résumer, coder, traduire, expliquer des concepts complexes, et rédiger mieux qu'un humain moyen dans la majorité des domaines. Là où un humain à QI 80 aurait du mal avec un texte juridique ou un problème de maths, le LLM à QI 80 le traite sans difficulté — simplement parce qu'il l'a déjà « vu » des milliers de fois pendant son entraînement.
L'écart entre QI 80 et QI 120 ici reflète surtout la différence sur les benchmarks les plus difficiles (raisonnement, coding agentique) — des tâches de logique complexe ou de développement où même les experts humains peinent. Ce n'est pas un indicateur d'utilité quotidienne : tous les modèles de ce classement sont déjà remarquablement capables.
En résumé : utilisez ce score pour comparer les modèles entre eux, pas pour les comparer à des humains. Un QI de 85 ici ne veut pas dire « peu intelligent » — ça veut dire « légèrement en dessous de la moyenne des meilleurs LLM du monde ».
Méthodologie
Ce baromètre agrège les résultats de benchmarks de référence reconnus par la communauté IA. Les données sont collectées quotidiennement depuis plusieurs sources publiques, puis croisées et consolidées automatiquement pour produire un classement à jour.
Sources des données :
- Artificial Analysis — benchmarks comparatifs, prix, vitesse, index de qualité
- Chatbot Arena (LMArena) — classement ELO basé sur des votes humains en aveugle
- Scale AI — Humanity's Last Exam (HLE)
- ARC Prize — ARC-AGI-2, raisonnement abstrait
- SWE-bench — résolution autonome de bugs open-source
Le score global est une moyenne des benchmarks disponibles, normalisés sur 100. Le classement est recalculé chaque jour à 07h00 (heure de Paris).