Logo Ollama

Ollama

Exécutez Llama, Mistral, Qwen, Gemma et 100+ LLMs en local — gratuit et illimité

FreemiumUSA

Presentation

Ollama est la solution de référence pour faire tourner des LLM open source en local sur votre machine. Simple à installer, il permet d'exécuter des modèles comme Llama, Mistral, Qwen ou DeepSeek sans envoyer vos données dans le cloud.

Pourquoi utiliser Ollama ?

  • Confidentialité totale : vos données ne quittent jamais votre machine
  • Gratuit et illimité : pas de tokens, pas d'abonnement, pas de limites d'usage
  • Hors-ligne : fonctionne sans connexion internet une fois le modèle téléchargé
  • Open source (MIT) : code auditable, communauté massive
  • Compatible partout : macOS, Windows, Linux, Docker, Kubernetes

Nouveautés 2026 :

Ollama v0.20.2 (avril 2026) apporte des améliorations majeures :

  • Support Gemma 4 (2B à 31B) — le dernier modèle Google optimis�� pour le local
  • Intégration Apple MLX : prefill 1.6x plus rapide, décodage 2x plus rapide sur Apple Silicon
  • Structured Outputs : génération JSON structurée native
  • Scheduling GPU amélioré : multi-GPU, moins de crashes OOM
  • Web Search intégré via plugin
  • Push de modèles custom vers Ollama Cloud

Ollama supporte désormais 100+ modèles dont Llama 3.3 (Meta), Mistral/Mixtral (Mistral AI), Qwen 3.5 (Alibaba), DeepSeek V3/R1, Gemma 4 (Google), Phi-4 (Microsoft), Kimi K2.5, et bien d'autres.

Comment utiliser

Rendez-vous sur ollama.com/download et téléchargez l’installeur pour votre OS.

Ollama fournit une API mais pas d’interface graphique. Voici les meilleures options :

L’interface la plus complète, style ChatGPT. Multi-utilisateurs, RAG, historique, plugins.

Accédez ensuite à http://localhost:3000

App desktop native, zéro config. Idéal pour débutants. Téléchargez sur jan.ai.

GUI élégante avec gestion de modèles intégrée. Téléchargez sur lmstudio.ai.

  • AnythingLLM : pour RAG et documents privés
  • LibreChat : multi-providers (OpenAI, Claude, Ollama)
  • LobeChat : moderne, PWA, plugins
  • Hollama : minimaliste et rapide
  • Page Assist : extension navigateur
  • Continue.dev : assistant code dans VS Code/JetBrains
  • LangChain : framework agents/RAG
  • llama-index : indexation de documents
  • Home Assistant : domotique intelligente locale

Astuces & conseils

Choisissez le bon modèle pour votre GPU

RTX 3060 12Go → Llama 3.1 8B ou Mistral 7B. RTX 4090 24Go → Mistral Small 3 24B. Vérifiez votre VRAM avec nvidia-smi avant de choisir.

Utilisez les quantizations Q4_K_M

La quantization Q4_K_M offre le meilleur ratio qualité/taille. Perte de qualité ~1-2% pour 75% de VRAM en moins. ollama pull llama3.1:8b-q4_K_M

Installez Open WebUI pour une vraie expérience ChatGPT

L'interface en ligne de commande est limitée. Open WebUI ajoute historique, multi-conversations, upload de fichiers, et une vraie UX.

Créez des Modelfiles personnalisés

Définissez un system prompt, ajustez temperature et top_p, puis "ollama create mon-assistant -f Modelfile" pour un assistant sur-mesure.

Combinez avec Continue.dev pour coder

L'extension Continue.dev transforme VS Code en Copilot gratuit. Configurez-la pour utiliser Ollama et DeepSeek Coder ou Codestral.

Surveillez votre VRAM en temps réel

Lancez "watch -n 1 nvidia-smi" dans un terminal pour voir l'utilisation GPU. Si ça swap sur RAM, le modèle est trop gros.

Activez le mode GPU layers

OLLAMA_NUM_GPU=999 force l'utilisation maximale du GPU. Utile si Ollama utilise le CPU par défaut.

Testez DeepSeek-R1 pour le raisonnement

Pour les problèmes de maths ou logique complexe, DeepSeek-R1 (distillé) rivalise avec o1 et tourne en local. ollama run deepseek-r1:14b

Fonctionnalites cles

Installation simple

Une commande pour installer, une commande pour lancer un modèle. ollama run llama3.1 et c'est parti.

Confidentialité totale

Vos données restent sur votre machine. Aucune télémétrie, aucun envoi vers le cloud. Idéal pour données sensibles.

API compatible OpenAI

Endpoint REST compatible avec l'API OpenAI. Intégrez Ollama dans vos apps existantes en changeant juste l'URL.

Bibliothèque de modèles

Accès direct à Llama, Mistral, Qwen, Phi, Gemma, CodeLlama, DeepSeek et des centaines d'autres via ollama.com/library.

Quantization automatique

Modèles optimisés en Q4, Q5, Q8 pour réduire la VRAM de 75% avec une perte de qualité minimale.

Modelfiles personnalisés

Créez vos propres modèles avec system prompts, paramètres custom et templates de conversation.

Support multimodal

Modèles vision comme LLaVA et BakLLaVA pour analyser des images en local.

Multi-plateforme

Windows, macOS, Linux. Support GPU NVIDIA (CUDA), AMD (ROCm) et Apple Silicon (Metal).

Modeles IA

Llama 3.3 70B

Recommande
Contexte

128K

Modèle phare Meta, excellent polyvalent

Qwen 3.5 72B

Recommande
Contexte

128K

Alibaba, top en multilingue et code

Gemma 4 27B

Recommande
Contexte

128K

Dernier modèle Google, optimisé local

DeepSeek V3.2

Contexte

64K

Chinois, très bon rapport taille/perf

Mistral Large 2

Contexte

128K

Modèle français haut de gamme

Phi-4 14B

Contexte

16K

Microsoft, compact et performant

Kimi K2.5

Contexte

128K

Moonshot AI, bon en raisonnement

CodeLlama 70B

Contexte

16K

Spécialisé code, par Meta

Tarifs & plans

Populaire

Local (gratuit)

0€

  • 100% gratuit à vie
  • Usage illimité
  • 100+ modèles disponibles
  • Aucune API nécessaire
  • Données 100% privées

Ollama Cloud Pro

~18€/mois

  • Modèles hébergés dans le cloud
  • Pas besoin de GPU local
  • API compatible OpenAI
  • Support prioritaire

Ollama Cloud Max

~90€/mois

  • Modèles les plus larges (70B+)
  • GPU dédiés
  • Bande passante illimitée
  • SLA entreprise

Questions frequentes

Cela dépend du modèle visé : GTX 1660 / RTX 3060 (6-8 Go) : Llama 3.2 3B, Phi-3, Gemma 2B RTX 3070/3080 (10-12 Go) : Llama 3.1 8B, Mistral 7B, Qwen 7B - le sweet spot RTX 4090 (24 Go) : Mistral Small 3 24B, début des modèles 70B quantizés 2× RTX 4090 ou A100 (48+ Go) : Llama 3.3 70B, Qwen 72B en qualité optimale Ollama fonctionne aussi sur CPU (plus lent) et Apple Silicon (M1/M2/M3/M4 avec mémoire unifiée).
Oui, excellemment ! Les Mac Apple Silicon (M1, M2, M3, M4) sont particulièrement performants grâce à leur mémoire unifiée. Un MacBook Pro M3 avec 36 Go de RAM peut faire tourner des modèles 70B qui nécessiteraient une RTX 4090 sur PC. Installation : brew install ollama ou téléchargez l'app sur ollama.com.
Ollama : orienté ligne de commande et API. Léger, rapide, idéal pour intégrations et développeurs. LM Studio : interface graphique complète. Plus accessible pour débutants, gestion visuelle des modèles. Beaucoup utilisent les deux : LM Studio pour tester des modèles, Ollama pour la production et les intégrations.
Ollama n'a pas d'interface intégrée. Les meilleures options : Open WebUI : la plus complète, style ChatGPT, via Docker Jan.ai : app desktop native, zéro config Hollama : web UI minimaliste LobeChat : moderne avec plugins Open WebUI est recommandé pour une expérience professionnelle : docker run -d -p 3000:8080 ghcr.io/open-webui/open-webui:main
Par ordre de qualité (et de taille) : DeepSeek Coder V2 16B : excellent rapport qualité/taille, 338 langages Codestral 22B : le meilleur de Mistral pour le code Qwen 2.5 Coder 7B/32B : très bon en Python/JS Llama 3.1 8B : polyvalent, bon en code aussi Combinez avec Continue.dev (VS Code/JetBrains) pour une expérience Copilot gratuite.
Oui ! Ollama est 100% gratuit et open-source. Les modèles sont téléchargeables gratuitement. Pas de tokens, pas d'abonnement, pas de limites d'utilisation. Le seul "coût" est l'électricité consommée par votre GPU. Un modèle 8B sur RTX 3070 consomme environ 150-200W en génération.

Glossaire associe

Quantization (Q4, Q5, Q8)

Compression des poids du modèle de 16/32 bits vers 4/5/8 bits. Réduit drastiquement la VRAM nécessaire avec une perte de qualité minime.

VRAM

Mémoire vidéo du GPU. C'est LE facteur limitant pour les LLM locaux. Plus de VRAM = modèles plus gros.

GGUF

Format de fichier standard pour les modèles quantizés. Utilisé par Ollama, llama.cpp et LM Studio.

Context window

Nombre maximum de tokens (mots) que le modèle peut traiter en une fois. Llama 3.1 : 128K tokens.

tok/s (tokens par seconde)

Vitesse de génération du modèle. 30+ tok/s = lecture fluide. En dessous, ça devient lent.

Modelfile

Fichier de configuration Ollama pour créer des modèles personnalisés avec system prompt et paramètres custom.

MoE (Mixture of Experts)

Architecture où seule une partie des paramètres est activée par requête. Permet des modèles plus gros avec moins de VRAM (ex: Mixtral).

Open-weight vs Open-source

Open-weight : poids du modèle disponibles mais licence restrictive. Open-source : code et poids libres (Apache 2.0, MIT).

4/5
MAJ : 6 avril 2026
Fonde en 2023
730 vues

Ressources connexes