
Ollama
Exécutez Llama, Mistral, Qwen, Gemma et 100+ LLMs en local — gratuit et illimité
Presentation
Ollama est la solution de référence pour faire tourner des LLM open source en local sur votre machine. Simple à installer, il permet d'exécuter des modèles comme Llama, Mistral, Qwen ou DeepSeek sans envoyer vos données dans le cloud.
Pourquoi utiliser Ollama ?
- Confidentialité totale : vos données ne quittent jamais votre machine
- Gratuit et illimité : pas de tokens, pas d'abonnement, pas de limites d'usage
- Hors-ligne : fonctionne sans connexion internet une fois le modèle téléchargé
- Open source (MIT) : code auditable, communauté massive
- Compatible partout : macOS, Windows, Linux, Docker, Kubernetes
Nouveautés 2026 :
Ollama v0.20.2 (avril 2026) apporte des améliorations majeures :
- Support Gemma 4 (2B à 31B) — le dernier modèle Google optimis�� pour le local
- Intégration Apple MLX : prefill 1.6x plus rapide, décodage 2x plus rapide sur Apple Silicon
- Structured Outputs : génération JSON structurée native
- Scheduling GPU amélioré : multi-GPU, moins de crashes OOM
- Web Search intégré via plugin
- Push de modèles custom vers Ollama Cloud
Ollama supporte désormais 100+ modèles dont Llama 3.3 (Meta), Mistral/Mixtral (Mistral AI), Qwen 3.5 (Alibaba), DeepSeek V3/R1, Gemma 4 (Google), Phi-4 (Microsoft), Kimi K2.5, et bien d'autres.
Comment utiliser
Rendez-vous sur ollama.com/download et téléchargez l’installeur pour votre OS.
Ollama fournit une API mais pas d’interface graphique. Voici les meilleures options :
L’interface la plus complète, style ChatGPT. Multi-utilisateurs, RAG, historique, plugins.
Accédez ensuite à http://localhost:3000
App desktop native, zéro config. Idéal pour débutants. Téléchargez sur jan.ai.
GUI élégante avec gestion de modèles intégrée. Téléchargez sur lmstudio.ai.
- AnythingLLM : pour RAG et documents privés
- LibreChat : multi-providers (OpenAI, Claude, Ollama)
- LobeChat : moderne, PWA, plugins
- Hollama : minimaliste et rapide
- Page Assist : extension navigateur
- Continue.dev : assistant code dans VS Code/JetBrains
- LangChain : framework agents/RAG
- llama-index : indexation de documents
- Home Assistant : domotique intelligente locale
Astuces & conseils
Choisissez le bon modèle pour votre GPU
RTX 3060 12Go → Llama 3.1 8B ou Mistral 7B. RTX 4090 24Go → Mistral Small 3 24B. Vérifiez votre VRAM avec nvidia-smi avant de choisir.
Utilisez les quantizations Q4_K_M
La quantization Q4_K_M offre le meilleur ratio qualité/taille. Perte de qualité ~1-2% pour 75% de VRAM en moins. ollama pull llama3.1:8b-q4_K_M
Installez Open WebUI pour une vraie expérience ChatGPT
L'interface en ligne de commande est limitée. Open WebUI ajoute historique, multi-conversations, upload de fichiers, et une vraie UX.
Créez des Modelfiles personnalisés
Définissez un system prompt, ajustez temperature et top_p, puis "ollama create mon-assistant -f Modelfile" pour un assistant sur-mesure.
Combinez avec Continue.dev pour coder
L'extension Continue.dev transforme VS Code en Copilot gratuit. Configurez-la pour utiliser Ollama et DeepSeek Coder ou Codestral.
Surveillez votre VRAM en temps réel
Lancez "watch -n 1 nvidia-smi" dans un terminal pour voir l'utilisation GPU. Si ça swap sur RAM, le modèle est trop gros.
Activez le mode GPU layers
OLLAMA_NUM_GPU=999 force l'utilisation maximale du GPU. Utile si Ollama utilise le CPU par défaut.
Testez DeepSeek-R1 pour le raisonnement
Pour les problèmes de maths ou logique complexe, DeepSeek-R1 (distillé) rivalise avec o1 et tourne en local. ollama run deepseek-r1:14b
Fonctionnalites cles
Installation simple
Une commande pour installer, une commande pour lancer un modèle. ollama run llama3.1 et c'est parti.
Confidentialité totale
Vos données restent sur votre machine. Aucune télémétrie, aucun envoi vers le cloud. Idéal pour données sensibles.
API compatible OpenAI
Endpoint REST compatible avec l'API OpenAI. Intégrez Ollama dans vos apps existantes en changeant juste l'URL.
Bibliothèque de modèles
Accès direct à Llama, Mistral, Qwen, Phi, Gemma, CodeLlama, DeepSeek et des centaines d'autres via ollama.com/library.
Quantization automatique
Modèles optimisés en Q4, Q5, Q8 pour réduire la VRAM de 75% avec une perte de qualité minimale.
Modelfiles personnalisés
Créez vos propres modèles avec system prompts, paramètres custom et templates de conversation.
Support multimodal
Modèles vision comme LLaVA et BakLLaVA pour analyser des images en local.
Multi-plateforme
Windows, macOS, Linux. Support GPU NVIDIA (CUDA), AMD (ROCm) et Apple Silicon (Metal).
Modeles IA
Llama 3.3 70B
Recommande128K
Modèle phare Meta, excellent polyvalent
Qwen 3.5 72B
Recommande128K
Alibaba, top en multilingue et code
Gemma 4 27B
Recommande128K
Dernier modèle Google, optimisé local
DeepSeek V3.2
64K
Chinois, très bon rapport taille/perf
Mistral Large 2
128K
Modèle français haut de gamme
Phi-4 14B
16K
Microsoft, compact et performant
Kimi K2.5
128K
Moonshot AI, bon en raisonnement
CodeLlama 70B
16K
Spécialisé code, par Meta
Tarifs & plans
Local (gratuit)
0€
- 100% gratuit à vie
- Usage illimité
- 100+ modèles disponibles
- Aucune API nécessaire
- Données 100% privées
Ollama Cloud Pro
~18€/mois
- Modèles hébergés dans le cloud
- Pas besoin de GPU local
- API compatible OpenAI
- Support prioritaire
Ollama Cloud Max
~90€/mois
- Modèles les plus larges (70B+)
- GPU dédiés
- Bande passante illimitée
- SLA entreprise
Questions frequentes
Glossaire associe
Quantization (Q4, Q5, Q8)
Compression des poids du modèle de 16/32 bits vers 4/5/8 bits. Réduit drastiquement la VRAM nécessaire avec une perte de qualité minime.
VRAM
Mémoire vidéo du GPU. C'est LE facteur limitant pour les LLM locaux. Plus de VRAM = modèles plus gros.
GGUF
Format de fichier standard pour les modèles quantizés. Utilisé par Ollama, llama.cpp et LM Studio.
Context window
Nombre maximum de tokens (mots) que le modèle peut traiter en une fois. Llama 3.1 : 128K tokens.
tok/s (tokens par seconde)
Vitesse de génération du modèle. 30+ tok/s = lecture fluide. En dessous, ça devient lent.
Modelfile
Fichier de configuration Ollama pour créer des modèles personnalisés avec system prompt et paramètres custom.
MoE (Mixture of Experts)
Architecture où seule une partie des paramètres est activée par requête. Permet des modèles plus gros avec moins de VRAM (ex: Mixtral).
Open-weight vs Open-source
Open-weight : poids du modèle disponibles mais licence restrictive. Open-source : code et poids libres (Apache 2.0, MIT).