Dev & Code

Créer un runbook de gestion d'incident de production

Documente chaque incident pour ne plus jamais gérer une panne en mode panique et improvisation

Claude (chat)ChatGPTintermédiaireassisté
Secteurs :Tech & IT

Le besoin

  • En production, chaque minute d'indisponibilité coûte et génère du stress
  • Sans runbook, chaque ingénieur résout l'incident différemment et perd du temps
  • Les runbooks réduisent le MTTR (temps de résolution moyen) de manière significative
  • L'oncall ne doit pas dépendre d'une seule personne qui connaît le système

L'approche

L'agent structure un runbook complet en sections standardisées : description et impact de l'incident, signaux d'alerte (métriques, logs), arbre de diagnostic pas à pas, procédures de résolution pour chaque cause probable, contacts d'escalade et checklist de clôture d'incident (post-mortem, communication client, rollback si nécessaire).

Étape par étape

  1. 1

    Description de l'incident et du contexte technique

    Décris le type d'incident (base de données inaccessible, latence API élevée, certificat expiré...), l'infrastructure concernée et les impacts métier.

  2. 2

    Génération de l'arbre de diagnostic et des procédures

    L'agent génère un arbre de décision avec les symptômes, les causes probables et les commandes/actions à exécuter pour diagnostiquer et résoudre.

  3. 3

    Ajout des contacts, seuils et checklist post-incident

    L'agent complète avec les niveaux de sévérité, les contacts d'astreinte par niveau, les seuils de déclenchement et la checklist de clôture.

Le prompt à donner

Rédige un runbook pour l'incident type 'base PostgreSQL inaccessible' sur notre infrastructure Docker Compose (VPS Ubuntu). Inclus : signaux d'alerte, arbre de diagnostic (5 causes probables), commandes de diagnostic, procédures de résolution, contacts d'escalade (N1/N2/N3) et checklist post-incident. Format Markdown.

Le résultat

Un runbook de 3 à 5 pages en Markdown directement intégrable dans Confluence, Notion ou le wiki GitLab, utilisable par tout ingénieur d'astreinte.

Le verdict NXUS

Un runbook bien rédigé transforme une panique de 2 heures en résolution structurée de 20 minutes. L'agent produit en 10 minutes ce qu'un senior met 2 heures à rédiger.

Cas d'usage similaires

Apprends à piloter tes propres agents IA

Nos formations t'apprennent à transformer ces cas d'usage en automatisations concrètes pour ton métier.

Voir les formations