Créer un runbook de gestion d'incident de production
Documente chaque incident pour ne plus jamais gérer une panne en mode panique et improvisation
Le besoin
- En production, chaque minute d'indisponibilité coûte et génère du stress
- Sans runbook, chaque ingénieur résout l'incident différemment et perd du temps
- Les runbooks réduisent le MTTR (temps de résolution moyen) de manière significative
- L'oncall ne doit pas dépendre d'une seule personne qui connaît le système
L'approche
L'agent structure un runbook complet en sections standardisées : description et impact de l'incident, signaux d'alerte (métriques, logs), arbre de diagnostic pas à pas, procédures de résolution pour chaque cause probable, contacts d'escalade et checklist de clôture d'incident (post-mortem, communication client, rollback si nécessaire).
Étape par étape
- 1
Description de l'incident et du contexte technique
Décris le type d'incident (base de données inaccessible, latence API élevée, certificat expiré...), l'infrastructure concernée et les impacts métier.
- 2
Génération de l'arbre de diagnostic et des procédures
L'agent génère un arbre de décision avec les symptômes, les causes probables et les commandes/actions à exécuter pour diagnostiquer et résoudre.
- 3
Ajout des contacts, seuils et checklist post-incident
L'agent complète avec les niveaux de sévérité, les contacts d'astreinte par niveau, les seuils de déclenchement et la checklist de clôture.
Le prompt à donner
Rédige un runbook pour l'incident type 'base PostgreSQL inaccessible' sur notre infrastructure Docker Compose (VPS Ubuntu). Inclus : signaux d'alerte, arbre de diagnostic (5 causes probables), commandes de diagnostic, procédures de résolution, contacts d'escalade (N1/N2/N3) et checklist post-incident. Format Markdown.
Le résultat
Un runbook de 3 à 5 pages en Markdown directement intégrable dans Confluence, Notion ou le wiki GitLab, utilisable par tout ingénieur d'astreinte.
Le verdict NXUS
Un runbook bien rédigé transforme une panique de 2 heures en résolution structurée de 20 minutes. L'agent produit en 10 minutes ce qu'un senior met 2 heures à rédiger.
Cas d'usage similaires
Dev & Code
Refactorer une codebase legacy sans tout casser
L'agent lit, comprend et nettoie un vieux projet par petites touches.
Dev & Code
Pipeline multi-agents : plan, code, revue et livraison
Quatre agents spécialisés qui se passent le relais pour livrer une feature complète.
Dev & Code
Auditer la sécurité d'un dépôt avant la mise en prod
Un passage au crible des vulnérabilités avant de déployer.
Apprends à piloter tes propres agents IA
Nos formations t'apprennent à transformer ces cas d'usage en automatisations concrètes pour ton métier.
Voir les formations