Ollama

Faites tourner Llama, Mistral, Qwen et autres LLM open-source en local

FreemiumUSA

Presentation

Ollama est la solution de référence pour faire tourner des LLM open-source en local sur votre machine. Simple à installer, Ollama permet d’exécuter des modèles comme Llama, Mistral, Qwen ou DeepSeek sans envoyer vos données dans le cloud.

Pourquoi utiliser Ollama ?

Confidentialité totale : vos données ne quittent jamais votre machine

Gratuit et illimité : pas de tokens, pas d’abonnement, pas de limites

Hors-ligne : fonctionne sans connexion internet une fois le modèle téléchargé

Open-source : code ouvert, communauté active, modèles variés

API compatible OpenAI : intégrable dans vos applications existantes

Ollama supporte la quantization (compression des modèles) pour réduire drastiquement les besoins en VRAM. Un modèle de 8B paramètres en Q4_K_M ne nécessite que ~5-6 Go de VRAM au lieu de 16 Go en précision complète.

Astuce : Ollama supporte Flash Attention 2.0 sur GPU Ampere+, réduisant l’empreinte mémoire de ~30%.

Comment utiliser

Rendez-vous sur ollama.com/download et téléchargez l’installeur pour votre OS.

Ollama fournit une API mais pas d’interface graphique. Voici les meilleures options :

L’interface la plus complète, style ChatGPT. Multi-utilisateurs, RAG, historique, plugins.

Accédez ensuite à http://localhost:3000

App desktop native, zéro config. Idéal pour débutants. Téléchargez sur jan.ai.

GUI élégante avec gestion de modèles intégrée. Téléchargez sur lmstudio.ai.

AnythingLLM : pour RAG et documents privés

LibreChat : multi-providers (OpenAI, Claude, Ollama)

LobeChat : moderne, PWA, plugins

Hollama : minimaliste et rapide

Page Assist : extension navigateur

Continue.dev : assistant code dans VS Code/JetBrains

LangChain : framework agents/RAG

llama-index : indexation de documents

Home Assistant : domotique intelligente locale

Astuces & conseils

Choisissez le bon modèle pour votre GPU

RTX 3060 12Go → Llama 3.1 8B ou Mistral 7B. RTX 4090 24Go → Mistral Small 3 24B. Vérifiez votre VRAM avec nvidia-smi avant de choisir.

Utilisez les quantizations Q4_K_M

La quantization Q4_K_M offre le meilleur ratio qualité/taille. Perte de qualité ~1-2% pour 75% de VRAM en moins. ollama pull llama3.1:8b-q4_K_M

Installez Open WebUI pour une vraie expérience ChatGPT

L'interface en ligne de commande est limitée. Open WebUI ajoute historique, multi-conversations, upload de fichiers, et une vraie UX.

Créez des Modelfiles personnalisés

Définissez un system prompt, ajustez temperature et top_p, puis "ollama create mon-assistant -f Modelfile" pour un assistant sur-mesure.

Combinez avec Continue.dev pour coder

L'extension Continue.dev transforme VS Code en Copilot gratuit. Configurez-la pour utiliser Ollama et DeepSeek Coder ou Codestral.

Surveillez votre VRAM en temps réel

Lancez "watch -n 1 nvidia-smi" dans un terminal pour voir l'utilisation GPU. Si ça swap sur RAM, le modèle est trop gros.

Activez le mode GPU layers

OLLAMA_NUM_GPU=999 force l'utilisation maximale du GPU. Utile si Ollama utilise le CPU par défaut.

Testez DeepSeek-R1 pour le raisonnement

Pour les problèmes de maths ou logique complexe, DeepSeek-R1 (distillé) rivalise avec o1 et tourne en local. ollama run deepseek-r1:14b

Fonctionnalites cles

Installation simple

Une commande pour installer, une commande pour lancer un modèle. ollama run llama3.1 et c'est parti.

Confidentialité totale

Vos données restent sur votre machine. Aucune télémétrie, aucun envoi vers le cloud. Idéal pour données sensibles.

API compatible OpenAI

Endpoint REST compatible avec l'API OpenAI. Intégrez Ollama dans vos apps existantes en changeant juste l'URL.

Bibliothèque de modèles

Accès direct à Llama, Mistral, Qwen, Phi, Gemma, CodeLlama, DeepSeek et des centaines d'autres via ollama.com/library.

Quantization automatique

Modèles optimisés en Q4, Q5, Q8 pour réduire la VRAM de 75% avec une perte de qualité minimale.

Modelfiles personnalisés

Créez vos propres modèles avec system prompts, paramètres custom et templates de conversation.

Support multimodal

Modèles vision comme LLaVA et BakLLaVA pour analyser des images en local.

Multi-plateforme

Windows, macOS, Linux. Support GPU NVIDIA (CUDA), AMD (ROCm) et Apple Silicon (Metal).

Modeles IA

Llama 3.2 3BvMeta, 2024

Contexte

128K tokens

Vitesse

50-80 tok/s

Cout

~2 Go VRAM (Q4)

Multimodal

Oui

PC modeste, Raspberry Pi 5

Le plus petit Llama 3, idéal pour débuter ou hardware limité. Tourne même sur CPU avec 8 Go RAM.

Phi-4vMicrosoft, 2024

Contexte

16K tokens

Vitesse

40-60 tok/s

Cout

~8 Go VRAM (Q4)

Multimodal

Oui

Raisonnement, maths

Modèle Microsoft 14B surpassant des modèles plus grands en raisonnement. Excellent ratio perf/taille.

Gemma 2 9BvGoogle, 2024

Contexte

8K tokens

Vitesse

40-50 tok/s

Cout

~6 Go VRAM (Q4)

Multimodal

Oui

Usage général, chat

Modèle Google open-source, très bon en conversation et instruction following.

Llama 3.1 8BvMeta, 2024

Recommande

Contexte

128K tokens

Vitesse

40-60 tok/s

Cout

~5 Go VRAM (Q4)

Multimodal

Oui

Usage général, le classique

LE modèle de référence pour débuter. Contexte énorme de 128K, excellent en tout. RTX 3060 12Go suffit.

Mistral Nemo 12BvMistral, 2024

Contexte

128K tokens

Vitesse

35-45 tok/s

Cout

~8 Go VRAM (Q4)

Multimodal

Oui

Code, instruction following

Collaboration Mistral x NVIDIA. Excellent pour le code et les instructions précises.

Qwen 2.5 7BvAlibaba, 2024

Contexte

128K tokens

Vitesse

45-55 tok/s

Cout

~5 Go VRAM (Q4)

Multimodal

Oui

Multilingue, code

Excellent en langues non-anglaises. Très bon en code. Alternative solide à Llama 8B.

DeepSeek Coder V2 16BvDeepSeek, 2024

Contexte

128K tokens

Vitesse

30-40 tok/s

Cout

~10 Go VRAM (Q4)

Multimodal

Oui

Code exclusivement

Spécialisé code, 338 langages supportés. Parmi les meilleurs modèles de code open-source.

Mistral Small 3 24BvMistral, Dec 2025

Recommande

Contexte

128K tokens

Vitesse

30-50 tok/s

Cout

~14 Go VRAM (Q4)

Multimodal

Oui

Sweet spot qualité/vitesse

Le meilleur rapport qualité/perf pour RTX 4090. Apache 2.0. Rivalise avec des modèles 2x plus gros.

Qwen 2.5 32BvAlibaba, 2024

Contexte

128K tokens

Vitesse

25-35 tok/s

Cout

~20 Go VRAM (Q4)

Multimodal

Oui

Qualité proche 70B

Excellent compromis avant de passer aux 70B. Tient sur une RTX 4090 en Q4.

Codestral 22BvMistral, 2024

Contexte

32K tokens

Vitesse

30-40 tok/s

Cout

~14 Go VRAM (Q4)

Multimodal

Oui

Code professionnel

Le modèle code de Mistral. 80+ langages, fill-in-the-middle, excellent pour IDE.

Llama 3.3 70BvMeta, Dec 2024

Contexte

128K tokens

Vitesse

15-25 tok/s

Cout

~40 Go VRAM (Q4)

Multimodal

Oui

Qualité maximale

Performances de Llama 3.1 405B dans un modèle 70B. Nécessite 2x RTX 4090 ou A100.

Qwen 2.5 72BvAlibaba, 2024

Contexte

128K tokens

Vitesse

15-20 tok/s

Cout

~42 Go VRAM (Q4)

Multimodal

Oui

Multilingue haute qualité

Le plus gros Qwen open-source. Excellent en langues asiatiques et européennes.

DeepSeek-R1 70BvDeepSeek, Jan 2025

Contexte

128K tokens

Vitesse

10-15 tok/s

Cout

~42 Go VRAM (Q4)

Multimodal

Oui

Raisonnement avancé

Version distillée du modèle de raisonnement. Comparable à o1 sur maths et logique. Open-source.

LLaVA 1.6 34Bv2024

Contexte

4K tokens

Vitesse

20-30 tok/s

Cout

~20 Go VRAM (Q4)

Multimodal

Oui

Vision locale

Le meilleur modèle vision open-source. Analyse d'images, OCR, description de photos.

Tarifs & plans

Populaire

Ollama

Gratuit

100% gratuit et open-source
Modèles illimités
Pas de compte requis
API locale compatible OpenAI
Support GPU NVIDIA, AMD, Apple Silicon
Communauté active sur Discord

Questions frequentes

Cela dépend du modèle visé : GTX 1660 / RTX 3060 (6-8 Go) : Llama 3.2 3B, Phi-3, Gemma 2B RTX 3070/3080 (10-12 Go) : Llama 3.1 8B, Mistral 7B, Qwen 7B - le sweet spot RTX 4090 (24 Go) : Mistral Small 3 24B, début des modèles 70B quantizés 2× RTX 4090 ou A100 (48+ Go) : Llama 3.3 70B, Qwen 72B en qualité optimale Ollama fonctionne aussi sur CPU (plus lent) et Apple Silicon (M1/M2/M3/M4 avec mémoire unifiée).

Oui, excellemment ! Les Mac Apple Silicon (M1, M2, M3, M4) sont particulièrement performants grâce à leur mémoire unifiée. Un MacBook Pro M3 avec 36 Go de RAM peut faire tourner des modèles 70B qui nécessiteraient une RTX 4090 sur PC. Installation : brew install ollama ou téléchargez l'app sur ollama.com.

Ollama : orienté ligne de commande et API. Léger, rapide, idéal pour intégrations et développeurs. LM Studio : interface graphique complète. Plus accessible pour débutants, gestion visuelle des modèles. Beaucoup utilisent les deux : LM Studio pour tester des modèles, Ollama pour la production et les intégrations.

Ollama n'a pas d'interface intégrée. Les meilleures options : Open WebUI : la plus complète, style ChatGPT, via Docker Jan.ai : app desktop native, zéro config Hollama : web UI minimaliste LobeChat : moderne avec plugins Open WebUI est recommandé pour une expérience professionnelle : docker run -d -p 3000:8080 ghcr.io/open-webui/open-webui:main

Par ordre de qualité (et de taille) : DeepSeek Coder V2 16B : excellent rapport qualité/taille, 338 langages Codestral 22B : le meilleur de Mistral pour le code Qwen 2.5 Coder 7B/32B : très bon en Python/JS Llama 3.1 8B : polyvalent, bon en code aussi Combinez avec Continue.dev (VS Code/JetBrains) pour une expérience Copilot gratuite.

Oui ! Ollama est 100% gratuit et open-source. Les modèles sont téléchargeables gratuitement. Pas de tokens, pas d'abonnement, pas de limites d'utilisation. Le seul "coût" est l'électricité consommée par votre GPU. Un modèle 8B sur RTX 3070 consomme environ 150-200W en génération.

Glossaire associe

Quantization (Q4, Q5, Q8)

Compression des poids du modèle de 16/32 bits vers 4/5/8 bits. Réduit drastiquement la VRAM nécessaire avec une perte de qualité minime.

VRAM

Mémoire vidéo du GPU. C'est LE facteur limitant pour les LLM locaux. Plus de VRAM = modèles plus gros.

GGUF

Format de fichier standard pour les modèles quantizés. Utilisé par Ollama, llama.cpp et LM Studio.

Context window

Nombre maximum de tokens (mots) que le modèle peut traiter en une fois. Llama 3.1 : 128K tokens.

tok/s (tokens par seconde)

Vitesse de génération du modèle. 30+ tok/s = lecture fluide. En dessous, ça devient lent.

Modelfile

Fichier de configuration Ollama pour créer des modèles personnalisés avec system prompt et paramètres custom.

MoE (Mixture of Experts)

Architecture où seule une partie des paramètres est activée par requête. Permet des modèles plus gros avec moins de VRAM (ex: Mixtral).

Open-weight vs Open-source

Open-weight : poids du modèle disponibles mais licence restrictive. Open-source : code et poids libres (Apache 2.0, MIT).

4/5

Fonde en 2023

429 vues

Ressources connexes

Prompts ChatGPT

+500 prompts IA gratuits classés en 21 catégories

Blog IA

Actualités, tutoriels et analyses sur l'intelligence artificielle

Formations IA

Formations certifiées Qualiopi pour maîtriser l'IA en entreprise