Réduire fortement la consommation de tokens de contexte

Compresse, résume et nettoie le contexte de ton agent pour ne pas payer des tokens inutiles

Claude Code OpenClawAvancéSemi-autonome

Le besoin

Le coût d'un appel LLM est proportionnel au nombre de tokens en entrée, y compris tout l'historique
Dans une longue session agent, l'historique représente souvent plus de 80% du coût total des tokens
Des stratégies simples (résumé glissant, extraction de faits clés) réduisent ce coût sans dégrader les performances

L'approche

Tu remplaces l'historique complet par un résumé généré automatiquement tous les N tours ou quand le contexte dépasse un seuil
Les faits importants (décisions, variables clés, état courant) sont extraits et stockés dans un "bloc de mémoire" court toujours présent
Les parties longues mais peu utilisées (code complet, documents lus) sont archivées dans un vectorstore et rappelées uniquement si nécessaire
Un compteur de tokens en temps réel t'alerte quand tu approches d'un seuil de coût

Étape par étape

1
Mise en place du résumé glissant
Tu configures l'agent pour qu'il résume automatiquement les N derniers tours en quelques phrases et remplace l'historique brut par ce résumé, tout en conservant les derniers échanges intacts.
2
Extraction et stockage des faits clés
À chaque tour, l'agent identifie les informations persistantes (nom du client, décisions prises, état de la tâche) et les stocke dans un bloc structuré court qui reste en tête de contexte.
3
Archivage vectoriel des documents longs
Les documents, codes ou transcriptions longues sont indexés dans un vectorstore local et rappelés par similarité uniquement quand la tâche en cours l'exige.

Le prompt à donner

Mon agent de recherche accumule de longs historiques qui font exploser mes coûts sur des sessions de travail de plusieurs heures. Mets en place un résumé glissant automatique et un stockage des faits clés pour diviser par deux le nombre de tokens.

Le résultat

Le contexte actif reste compact quelle que soit la longueur de la session, et tu conserves toute la cohérence des échanges sans payer les tokens de l'historique complet.

Le verdict NXUS

Essentiel pour les agents longue durée. La mise en place demande une réflexion sur ce qui est vraiment utile à garder en contexte, mais les économies justifient largement l'effort.

Cas d'usage similaires

Optimisation & Coûts

Routage intelligent entre modèles selon la difficulté de la tâche

Envoie les tâches simples sur un modèle pas cher et les complexes sur un modèle plus puissant

Optimisation & Coûts

Stack multi-modèles locale avec Ollama pour réduire les coûts au minimum

Fais tourner plusieurs LLM en local et ne paie les APIs cloud que pour ce qui le mérite vraiment

Optimisation & Coûts

Déléguer le code à un modèle moins cher quand la tâche est claire

Utilise un modèle premium pour comprendre le problème, et un modèle léger pour écrire le code de routine

Apprends à piloter tes propres agents IA

Nos formations t'apprennent à transformer ces cas d'usage en automatisations concrètes pour ton métier.

Voir les formations