Auto-réparation d'un service qui plante

Quand un service tombe, l'agent tente de le redémarrer avant même que tu le remarques

Le besoin

Les services web tombent pour des raisons prévisibles (mémoire saturée, processus zombie, lock de base) qui ont souvent des remèdes standard.

Réveiller un humain pour un redémarrage simple à 3h du matin n'a aucun sens.
Un agent peut exécuter le playbook de remédiation et n'alerter que sur les cas vraiment complexes.

L'approche

Définis un health check pour chaque service (HTTP 200, ping, requête DB test)
Un cron toutes les 2 minutes vérifie l'état de chaque service
En cas d'échec, l'agent exécute le playbook de remédiation : redémarrage, nettoyage, rollback
Il reteste après chaque action et passe à l'étape suivante si le service ne revient pas
Si le playbook complet échoue, alerte humaine immédiate avec diagnostic complet

Étape par étape

1
Cataloguer les services et leurs remèdes
Pour chaque service critique, écris un playbook : quel health check, quelle séquence d'actions en cas d'échec, quand abandonner et alerter. Ce travail préparatoire est la clé.
2
Implémenter le health check et la boucle de surveillance
Configure un cron fréquent qui appelle chaque health check et déclenche l'agent de remédiation en cas d'échec. Utilise un compteur d'échecs consécutifs pour éviter les faux positifs.
3
Tester les scenarios de panne en conditions réelles
Simule chaque type de panne (kill manuel du processus, saturation mémoire artificielle) pour vérifier que le playbook fonctionne correctement avant de t'y fier en production.

Le prompt à donner

Le service API sur le port 3001 ne répond plus au health check depuis 3 minutes. Essaie de le redémarrer, vérifie les logs pour la cause, et si ça ne revient pas en 2 minutes, prépare un résumé de l'incident.

Le résultat

L'agent redémarre le service, confirme qu'il répond au health check, lit les dernières lignes de log pour identifier la cause (OOM killer) et envoie un résumé de l'incident avec la durée de l'interruption.

Le verdict NXUS

Indispensable pour les projets en production sans équipe ops dédiée. La robustesse dépend de la qualité des playbooks écrits au départ.

Cas d'usage similaires

Automatisation

Automatiser la publication sur les réseaux sociaux

D'une idée de campagne à des posts programmés sur tous tes canaux.

Automatisation

Construire un agent qui surveille un dépôt GitHub

Un gardien qui veille sur ton repo et réagit aux nouveautés.

Automatisation

Un cron qui trie les actus par urgence dans des canaux dédiés

Chaque matin, tes actualités sont classées par niveau d'urgence et distribuées dans les bons canaux

Apprends à piloter tes propres agents IA

Nos formations t'apprennent à transformer ces cas d'usage en automatisations concrètes pour ton métier.

Voir les formations