Computer use : capture d'écran et contrôle clavier/souris par l'agent
L'agent voit ton écran et prend le contrôle pour accomplir des tâches visuelles complexes
Le besoin
Certains logiciels métier n'ont ni API ni interface web, mais tu dois quand même les automatiser.
- Le computer use permet à l'agent de travailler comme un humain devant un écran.
- Chaque action est précédée d'une observation visuelle pour s'adapter à l'état réel de l'interface.
L'approche
- Active le module computer use (capture + input) via les outils MCP dédiés
- L'agent prend une capture initiale pour cartographier l'interface
- Il planifie une séquence d'actions et les exécute une par une
- Après chaque action, une nouvelle capture valide que l'état attendu est atteint
- En cas d'écart, l'agent ajuste la stratégie sans intervention humaine
Étape par étape
- 1
Activer le module computer use
Configure les permissions de capture d'écran et de contrôle clavier/souris pour l'agent. Sur Windows, cela peut nécessiter l'activation de l'accessibilité pour le processus.
- 2
Décrire la tâche visuellement
Explique à l'agent ce qu'il cherche à accomplir (ex: ouvrir le logiciel X, aller dans le menu Y, exporter le rapport Z) sans lui donner les coordonnées exactes.
- 3
Superviser les premières exécutions
Les premières fois, observe l'agent agir et corrige ses erreurs de reconnaissance visuelle. Une fois calibré sur ton interface, tu peux le laisser travailler en arrière-plan.
Le prompt à donner
Ouvre mon logiciel de caisse, navigue vers les rapports du jour, prends une capture du tableau des ventes et extrais les chiffres dans un tableau texte.
Le résultat
L'agent ouvre l'application, navigue dans les menus, capture le tableau de bord et retourne les données de vente sous forme de tableau structuré prêt à être copié.
Le verdict NXUS
La solution de dernier recours pour les logiciels sans API, mais qui fonctionne étonnamment bien sur des interfaces stables. Réserve-le aux cas où aucune autre option n'existe.
Cas d'usage similaires
Intégrations & MCP
Donner à l'agent un vrai navigateur pour agir sur des sites
L'agent clique, remplit des formulaires et navigue comme un utilisateur humain
Intégrations & MCP
Exposer tes propres outils à un agent via un serveur MCP
Transforme n'importe quelle fonction Python ou API interne en outil natif pour ton agent
Intégrations & MCP
Partager un moteur de recherche auto-hébergé entre plusieurs agents
Un index de recherche commun que tous tes agents interrogent sans dépendre de Google
Apprends à piloter tes propres agents IA
Nos formations t'apprennent à transformer ces cas d'usage en automatisations concrètes pour ton métier.
Voir les formations