
Ollama
Faites tourner Llama, Mistral, Qwen et autres LLM open-source en local
Presentation
Ollama est la solution de référence pour faire tourner des LLM open-source en local sur votre machine. Simple à installer, Ollama permet d’exécuter des modèles comme Llama, Mistral, Qwen ou DeepSeek sans envoyer vos données dans le cloud.
Pourquoi utiliser Ollama ?
- Confidentialité totale : vos données ne quittent jamais votre machine
- Gratuit et illimité : pas de tokens, pas d’abonnement, pas de limites
- Hors-ligne : fonctionne sans connexion internet une fois le modèle téléchargé
- Open-source : code ouvert, communauté active, modèles variés
- API compatible OpenAI : intégrable dans vos applications existantes
Ollama supporte la quantization (compression des modèles) pour réduire drastiquement les besoins en VRAM. Un modèle de 8B paramètres en Q4_K_M ne nécessite que ~5-6 Go de VRAM au lieu de 16 Go en précision complète.
Astuce : Ollama supporte Flash Attention 2.0 sur GPU Ampere+, réduisant l’empreinte mémoire de ~30%.
Comment utiliser
Rendez-vous sur ollama.com/download et téléchargez l’installeur pour votre OS.
Ollama fournit une API mais pas d’interface graphique. Voici les meilleures options :
L’interface la plus complète, style ChatGPT. Multi-utilisateurs, RAG, historique, plugins.
Accédez ensuite à http://localhost:3000
App desktop native, zéro config. Idéal pour débutants. Téléchargez sur jan.ai.
GUI élégante avec gestion de modèles intégrée. Téléchargez sur lmstudio.ai.
- AnythingLLM : pour RAG et documents privés
- LibreChat : multi-providers (OpenAI, Claude, Ollama)
- LobeChat : moderne, PWA, plugins
- Hollama : minimaliste et rapide
- Page Assist : extension navigateur
- Continue.dev : assistant code dans VS Code/JetBrains
- LangChain : framework agents/RAG
- llama-index : indexation de documents
- Home Assistant : domotique intelligente locale
Astuces & conseils
Choisissez le bon modèle pour votre GPU
RTX 3060 12Go → Llama 3.1 8B ou Mistral 7B. RTX 4090 24Go → Mistral Small 3 24B. Vérifiez votre VRAM avec nvidia-smi avant de choisir.
Utilisez les quantizations Q4_K_M
La quantization Q4_K_M offre le meilleur ratio qualité/taille. Perte de qualité ~1-2% pour 75% de VRAM en moins. ollama pull llama3.1:8b-q4_K_M
Installez Open WebUI pour une vraie expérience ChatGPT
L'interface en ligne de commande est limitée. Open WebUI ajoute historique, multi-conversations, upload de fichiers, et une vraie UX.
Créez des Modelfiles personnalisés
Définissez un system prompt, ajustez temperature et top_p, puis "ollama create mon-assistant -f Modelfile" pour un assistant sur-mesure.
Combinez avec Continue.dev pour coder
L'extension Continue.dev transforme VS Code en Copilot gratuit. Configurez-la pour utiliser Ollama et DeepSeek Coder ou Codestral.
Surveillez votre VRAM en temps réel
Lancez "watch -n 1 nvidia-smi" dans un terminal pour voir l'utilisation GPU. Si ça swap sur RAM, le modèle est trop gros.
Activez le mode GPU layers
OLLAMA_NUM_GPU=999 force l'utilisation maximale du GPU. Utile si Ollama utilise le CPU par défaut.
Testez DeepSeek-R1 pour le raisonnement
Pour les problèmes de maths ou logique complexe, DeepSeek-R1 (distillé) rivalise avec o1 et tourne en local. ollama run deepseek-r1:14b
Fonctionnalites cles
Installation simple
Une commande pour installer, une commande pour lancer un modèle. ollama run llama3.1 et c'est parti.
Confidentialité totale
Vos données restent sur votre machine. Aucune télémétrie, aucun envoi vers le cloud. Idéal pour données sensibles.
API compatible OpenAI
Endpoint REST compatible avec l'API OpenAI. Intégrez Ollama dans vos apps existantes en changeant juste l'URL.
Bibliothèque de modèles
Accès direct à Llama, Mistral, Qwen, Phi, Gemma, CodeLlama, DeepSeek et des centaines d'autres via ollama.com/library.
Quantization automatique
Modèles optimisés en Q4, Q5, Q8 pour réduire la VRAM de 75% avec une perte de qualité minimale.
Modelfiles personnalisés
Créez vos propres modèles avec system prompts, paramètres custom et templates de conversation.
Support multimodal
Modèles vision comme LLaVA et BakLLaVA pour analyser des images en local.
Multi-plateforme
Windows, macOS, Linux. Support GPU NVIDIA (CUDA), AMD (ROCm) et Apple Silicon (Metal).
Modeles IA
Llama 3.2 3BvMeta, 2024
128K tokens
50-80 tok/s
~2 Go VRAM (Q4)
Oui
PC modeste, Raspberry Pi 5
Le plus petit Llama 3, idéal pour débuter ou hardware limité. Tourne même sur CPU avec 8 Go RAM.
Phi-4vMicrosoft, 2024
16K tokens
40-60 tok/s
~8 Go VRAM (Q4)
Oui
Raisonnement, maths
Modèle Microsoft 14B surpassant des modèles plus grands en raisonnement. Excellent ratio perf/taille.
Gemma 2 9BvGoogle, 2024
8K tokens
40-50 tok/s
~6 Go VRAM (Q4)
Oui
Usage général, chat
Modèle Google open-source, très bon en conversation et instruction following.
Llama 3.1 8BvMeta, 2024
Recommande128K tokens
40-60 tok/s
~5 Go VRAM (Q4)
Oui
Usage général, le classique
LE modèle de référence pour débuter. Contexte énorme de 128K, excellent en tout. RTX 3060 12Go suffit.
Mistral Nemo 12BvMistral, 2024
128K tokens
35-45 tok/s
~8 Go VRAM (Q4)
Oui
Code, instruction following
Collaboration Mistral x NVIDIA. Excellent pour le code et les instructions précises.
Qwen 2.5 7BvAlibaba, 2024
128K tokens
45-55 tok/s
~5 Go VRAM (Q4)
Oui
Multilingue, code
Excellent en langues non-anglaises. Très bon en code. Alternative solide à Llama 8B.
DeepSeek Coder V2 16BvDeepSeek, 2024
128K tokens
30-40 tok/s
~10 Go VRAM (Q4)
Oui
Code exclusivement
Spécialisé code, 338 langages supportés. Parmi les meilleurs modèles de code open-source.
Mistral Small 3 24BvMistral, Dec 2025
Recommande128K tokens
30-50 tok/s
~14 Go VRAM (Q4)
Oui
Sweet spot qualité/vitesse
Le meilleur rapport qualité/perf pour RTX 4090. Apache 2.0. Rivalise avec des modèles 2x plus gros.
Qwen 2.5 32BvAlibaba, 2024
128K tokens
25-35 tok/s
~20 Go VRAM (Q4)
Oui
Qualité proche 70B
Excellent compromis avant de passer aux 70B. Tient sur une RTX 4090 en Q4.
Codestral 22BvMistral, 2024
32K tokens
30-40 tok/s
~14 Go VRAM (Q4)
Oui
Code professionnel
Le modèle code de Mistral. 80+ langages, fill-in-the-middle, excellent pour IDE.
Llama 3.3 70BvMeta, Dec 2024
128K tokens
15-25 tok/s
~40 Go VRAM (Q4)
Oui
Qualité maximale
Performances de Llama 3.1 405B dans un modèle 70B. Nécessite 2x RTX 4090 ou A100.
Qwen 2.5 72BvAlibaba, 2024
128K tokens
15-20 tok/s
~42 Go VRAM (Q4)
Oui
Multilingue haute qualité
Le plus gros Qwen open-source. Excellent en langues asiatiques et européennes.
DeepSeek-R1 70BvDeepSeek, Jan 2025
128K tokens
10-15 tok/s
~42 Go VRAM (Q4)
Oui
Raisonnement avancé
Version distillée du modèle de raisonnement. Comparable à o1 sur maths et logique. Open-source.
LLaVA 1.6 34Bv2024
4K tokens
20-30 tok/s
~20 Go VRAM (Q4)
Oui
Vision locale
Le meilleur modèle vision open-source. Analyse d'images, OCR, description de photos.
Tarifs & plans
Ollama
Gratuit
- 100% gratuit et open-source
- Modèles illimités
- Pas de compte requis
- API locale compatible OpenAI
- Support GPU NVIDIA, AMD, Apple Silicon
- Communauté active sur Discord
Questions frequentes
Glossaire associe
Quantization (Q4, Q5, Q8)
Compression des poids du modèle de 16/32 bits vers 4/5/8 bits. Réduit drastiquement la VRAM nécessaire avec une perte de qualité minime.
VRAM
Mémoire vidéo du GPU. C'est LE facteur limitant pour les LLM locaux. Plus de VRAM = modèles plus gros.
GGUF
Format de fichier standard pour les modèles quantizés. Utilisé par Ollama, llama.cpp et LM Studio.
Context window
Nombre maximum de tokens (mots) que le modèle peut traiter en une fois. Llama 3.1 : 128K tokens.
tok/s (tokens par seconde)
Vitesse de génération du modèle. 30+ tok/s = lecture fluide. En dessous, ça devient lent.
Modelfile
Fichier de configuration Ollama pour créer des modèles personnalisés avec system prompt et paramètres custom.
MoE (Mixture of Experts)
Architecture où seule une partie des paramètres est activée par requête. Permet des modèles plus gros avec moins de VRAM (ex: Mixtral).
Open-weight vs Open-source
Open-weight : poids du modèle disponibles mais licence restrictive. Open-source : code et poids libres (Apache 2.0, MIT).