Optimisation & Coûts

Réduire fortement la consommation de tokens de contexte

Compresse, résume et nettoie le contexte de ton agent pour ne pas payer des tokens inutiles

Claude CodeOpenClawAvancéSemi-autonome

Le besoin

  • Le coût d'un appel LLM est proportionnel au nombre de tokens en entrée, y compris tout l'historique
  • Dans une longue session agent, l'historique représente souvent plus de 80% du coût total des tokens
  • Des stratégies simples (résumé glissant, extraction de faits clés) réduisent ce coût sans dégrader les performances

L'approche

  • Tu remplaces l'historique complet par un résumé généré automatiquement tous les N tours ou quand le contexte dépasse un seuil
  • Les faits importants (décisions, variables clés, état courant) sont extraits et stockés dans un "bloc de mémoire" court toujours présent
  • Les parties longues mais peu utilisées (code complet, documents lus) sont archivées dans un vectorstore et rappelées uniquement si nécessaire
  • Un compteur de tokens en temps réel t'alerte quand tu approches d'un seuil de coût

Étape par étape

  1. 1

    Mise en place du résumé glissant

    Tu configures l'agent pour qu'il résume automatiquement les N derniers tours en quelques phrases et remplace l'historique brut par ce résumé, tout en conservant les derniers échanges intacts.

  2. 2

    Extraction et stockage des faits clés

    À chaque tour, l'agent identifie les informations persistantes (nom du client, décisions prises, état de la tâche) et les stocke dans un bloc structuré court qui reste en tête de contexte.

  3. 3

    Archivage vectoriel des documents longs

    Les documents, codes ou transcriptions longues sont indexés dans un vectorstore local et rappelés par similarité uniquement quand la tâche en cours l'exige.

Le prompt à donner

Mon agent de recherche accumule de longs historiques qui font exploser mes coûts sur des sessions de travail de plusieurs heures. Mets en place un résumé glissant automatique et un stockage des faits clés pour diviser par deux le nombre de tokens.

Le résultat

Le contexte actif reste compact quelle que soit la longueur de la session, et tu conserves toute la cohérence des échanges sans payer les tokens de l'historique complet.

Le verdict NXUS

Essentiel pour les agents longue durée. La mise en place demande une réflexion sur ce qui est vraiment utile à garder en contexte, mais les économies justifient largement l'effort.

Cas d'usage similaires

Apprends à piloter tes propres agents IA

Nos formations t'apprennent à transformer ces cas d'usage en automatisations concrètes pour ton métier.

Voir les formations