Sécurité & Souveraineté

Protéger son agent contre les injections de prompt malveillantes

Empêche un contenu externe malveillant de détourner les actions de ton agent

OpenClawClaude CodeAvancéAssisté

Le besoin

  • L'injection de prompt consiste à glisser des instructions malveillantes dans des données que l'agent lit
  • Un email ou une page web peut contenir du texte invisible qui ordonne à l'agent de transférer des fichiers ou d'envoyer des messages
  • La défense repose sur la séparation stricte entre les données et les instructions

L'approche

  • L'agent traite les données externes dans un contexte isolé, sans accès aux outils sensibles pendant la phase de lecture
  • Un second agent valide les actions proposées avant exécution, en vérifiant qu'elles correspondent bien à l'objectif initial
  • Les sorties de l'agent sont filtrées pour détecter les patterns suspects (changements de destinataire, exfiltration de données)
  • Un log immuable trace chaque décision pour audit post-incident

Étape par étape

  1. 1

    Mise en place du contexte de lecture isolé

    Tu configures l'agent pour qu'il lise les données externes sans accès aux outils d'action, puis résume le contenu avant de le transmettre à un second contexte d'exécution.

  2. 2

    Validation des actions par un agent superviseur

    Avant chaque action (envoi d'email, appel API, modification de fichier), un agent indépendant vérifie que l'action est cohérente avec l'objectif initial de la session.

  3. 3

    Détection des patterns d'exfiltration

    Un filtre analyse les outputs de l'agent pour détecter les URLs inhabituelles, les changements de destinataires ou les accès à des fichiers hors périmètre.

Le prompt à donner

Mon agent de traitement d'emails doit lire des messages de clients inconnus. Mets en place une architecture qui empêche un email malveillant de lui faire transférer mes fichiers ou modifier ses instructions.

Le résultat

L'agent continue de traiter les emails normalement, mais toute tentative d'injection est neutralisée avant qu'une action dangereuse ne soit exécutée.

Le verdict NXUS

Un sujet encore peu traité en pratique, mais critique dès qu'un agent lit des données non maîtrisées. L'architecture à deux contextes est la défense la plus robuste aujourd'hui.

Cas d'usage similaires

Apprends à piloter tes propres agents IA

Nos formations t'apprennent à transformer ces cas d'usage en automatisations concrètes pour ton métier.

Voir les formations