Créer un runbook de gestion d'incident de production

Documente chaque incident pour ne plus jamais gérer une panne en mode panique et improvisation

Claude (chat)ChatGPTintermédiaireassisté

Le besoin

En production, chaque minute d'indisponibilité coûte et génère du stress
Sans runbook, chaque ingénieur résout l'incident différemment et perd du temps
Les runbooks réduisent le MTTR (temps de résolution moyen) de manière significative
L'oncall ne doit pas dépendre d'une seule personne qui connaît le système

L'approche

L'agent structure un runbook complet en sections standardisées : description et impact de l'incident, signaux d'alerte (métriques, logs), arbre de diagnostic pas à pas, procédures de résolution pour chaque cause probable, contacts d'escalade et checklist de clôture d'incident (post-mortem, communication client, rollback si nécessaire).

Étape par étape

1
Description de l'incident et du contexte technique
Décris le type d'incident (base de données inaccessible, latence API élevée, certificat expiré...), l'infrastructure concernée et les impacts métier.
2
Génération de l'arbre de diagnostic et des procédures
L'agent génère un arbre de décision avec les symptômes, les causes probables et les commandes/actions à exécuter pour diagnostiquer et résoudre.
3
Ajout des contacts, seuils et checklist post-incident
L'agent complète avec les niveaux de sévérité, les contacts d'astreinte par niveau, les seuils de déclenchement et la checklist de clôture.

Le prompt à donner

Rédige un runbook pour l'incident type 'base PostgreSQL inaccessible' sur notre infrastructure Docker Compose (VPS Ubuntu). Inclus : signaux d'alerte, arbre de diagnostic (5 causes probables), commandes de diagnostic, procédures de résolution, contacts d'escalade (N1/N2/N3) et checklist post-incident. Format Markdown.

Le résultat

Un runbook de 3 à 5 pages en Markdown directement intégrable dans Confluence, Notion ou le wiki GitLab, utilisable par tout ingénieur d'astreinte.

Le verdict NXUS

Un runbook bien rédigé transforme une panique de 2 heures en résolution structurée de 20 minutes. L'agent produit en 10 minutes ce qu'un senior met 2 heures à rédiger.

Cas d'usage similaires

Dev & Code

Refactorer une codebase legacy sans tout casser

L'agent lit, comprend et nettoie un vieux projet par petites touches.

Dev & Code

Pipeline multi-agents : plan, code, revue et livraison

Quatre agents spécialisés qui se passent le relais pour livrer une feature complète.

Dev & Code

Auditer la sécurité d'un dépôt avant la mise en prod

Un passage au crible des vulnérabilités avant de déployer.

Apprends à piloter tes propres agents IA

Nos formations t'apprennent à transformer ces cas d'usage en automatisations concrètes pour ton métier.

Voir les formations