Réduire fortement la consommation de tokens de contexte
Compresse, résume et nettoie le contexte de ton agent pour ne pas payer des tokens inutiles
Le besoin
- Le coût d'un appel LLM est proportionnel au nombre de tokens en entrée, y compris tout l'historique
- Dans une longue session agent, l'historique représente souvent plus de 80% du coût total des tokens
- Des stratégies simples (résumé glissant, extraction de faits clés) réduisent ce coût sans dégrader les performances
L'approche
- Tu remplaces l'historique complet par un résumé généré automatiquement tous les N tours ou quand le contexte dépasse un seuil
- Les faits importants (décisions, variables clés, état courant) sont extraits et stockés dans un "bloc de mémoire" court toujours présent
- Les parties longues mais peu utilisées (code complet, documents lus) sont archivées dans un vectorstore et rappelées uniquement si nécessaire
- Un compteur de tokens en temps réel t'alerte quand tu approches d'un seuil de coût
Étape par étape
- 1
Mise en place du résumé glissant
Tu configures l'agent pour qu'il résume automatiquement les N derniers tours en quelques phrases et remplace l'historique brut par ce résumé, tout en conservant les derniers échanges intacts.
- 2
Extraction et stockage des faits clés
À chaque tour, l'agent identifie les informations persistantes (nom du client, décisions prises, état de la tâche) et les stocke dans un bloc structuré court qui reste en tête de contexte.
- 3
Archivage vectoriel des documents longs
Les documents, codes ou transcriptions longues sont indexés dans un vectorstore local et rappelés par similarité uniquement quand la tâche en cours l'exige.
Le prompt à donner
Mon agent de recherche accumule de longs historiques qui font exploser mes coûts sur des sessions de travail de plusieurs heures. Mets en place un résumé glissant automatique et un stockage des faits clés pour diviser par deux le nombre de tokens.
Le résultat
Le contexte actif reste compact quelle que soit la longueur de la session, et tu conserves toute la cohérence des échanges sans payer les tokens de l'historique complet.
Le verdict NXUS
Essentiel pour les agents longue durée. La mise en place demande une réflexion sur ce qui est vraiment utile à garder en contexte, mais les économies justifient largement l'effort.
Cas d'usage similaires
Optimisation & Coûts
Routage intelligent entre modèles selon la difficulté de la tâche
Envoie les tâches simples sur un modèle pas cher et les complexes sur un modèle plus puissant
Optimisation & Coûts
Stack multi-modèles locale avec Ollama pour réduire les coûts au minimum
Fais tourner plusieurs LLM en local et ne paie les APIs cloud que pour ce qui le mérite vraiment
Optimisation & Coûts
Déléguer le code à un modèle moins cher quand la tâche est claire
Utilise un modèle premium pour comprendre le problème, et un modèle léger pour écrire le code de routine
Apprends à piloter tes propres agents IA
Nos formations t'apprennent à transformer ces cas d'usage en automatisations concrètes pour ton métier.
Voir les formations