TOOLinux

Le journal du Libre

Comment mieux collaborer sur la gestion des incidents

mardi 2 mars 2021

Chaque minute qui passe lors d’une interruption de service ou de disponibilité d’un site web ce sont de nouvelles pertes de revenus qui s’accumulent, et dans notre monde moderne où les applications sont toujours plus dynamiques, ces arrêts et incidents ne sont pas des « peut-être » mais des « quand ».

S’y préparer évite des moments de panique, de désorganisation et d’inefficacité. Dans cet objectif, la mise en place de bonnes pratiques et l’investissement dans des outils adéquats permettent non seulement d’accélérer la résolution de problème, mais également d’en tirer des leçons afin d’être plus résilient à l’avenir. Alors, en quoi consiste précisément un processus de gestion d’incident efficace et performant ? Quelles étapes doivent être respectées, comment les équipes doivent-elles collaborer et quelles données doivent être mises à profit ?

La gestion des incidents est cruciale, bien que souvent fastidieuse

Les équipes d’ingénieurs s’appuient sur de nombreux outils et ensembles de données pour répondre aux incidents. Il s’agit notamment des métriques, logs et traces d’applications, jusqu’aux outils de chat, de messagerie et de vidéo pour la communication. Mais un processus structuré de gestion des incidents est le ciment qui consolide tout cet ensemble en regroupant les alertes, la collaboration et la documentation en un seul endroit. De nombreuses équipes s’appuient sur des processus complexes et de l’information spécialisée souvent structurée en silo, ce qui rend plus difficile l’émergence d’un consensus sur ce qui doit être fait. Un workflow de gestion des incidents efficace doit être établi en amont, lorsque les systèmes sont en bonne santé, en précisant clairement les informations nécessaires à leur bon fonctionnement, les personnes responsables de la gestion de la réponse et la manière de garder l’incident en mémoire pour une capitalisation future. Cela nécessite des données accessibles, des rôles et responsabilités bien compris et des canaux de communication clairement définis, le tout planifié et documenté à l’avance, afin que la gestion de l’incident n’interfère pas avec la résolution du problème.

Le « comment » de vos alertes est aussi important que leur l’objet

Une alerte déclenchée marque généralement le début d’un processus de gestion d’incident, si bien que les équipes doivent savoir distinguer quelles sont les données d’une alerte qui méritent d’être examinées. Mais le « qui » et le « quand » sont tout aussi importants que le « quoi ». C’est-à-dire que les personnes alertées et le moment où ces alertes sont déclenchées, comptent autant que le contenu de l’alerte. Une réponse appropriée aux incidents facilite la tâche d’astreinte, en garantissant que les bonnes personnes sont alertées, avec les bonnes informations, afin qu’elles puissent travailler ensemble à partir d’un ensemble d’informations partagées. Cela sous-entend une alerte, des tableaux de bords et graphiques associés, accessibles au sein d’outils collaboratifs, ainsi qu’une automatisation du workflow d’envoi de l’alerte aux personnes en charge de la traiter.

Des workflows unifiés assurent une meilleure collaboration et une résolution plus rapide

En plus d’être alertées et connectées à leur outil de messagerie et de communication, les personnes concernées doivent également avoir accès à toutes les données pertinentes des incidents en cours et leurs historiques. Elles doivent pouvoir trier les incidents par métadonnées clés, consulter une liste chronologique des mises à jour du système pouvant être reliées au problème, et fournir des commentaires, un contexte et des résultats pertinents. Disposer d’un ensemble d’outils intégrés qui regroupent toutes les données nécessaires en un seul endroit facilitera ce type de collaboration et la rendra plus fructueuse.

Eviter la répétition des mêmes incidents

Une fois l’incident résolu, il faut ensuite prendre les bonnes mesures pour réduire la probabilité qu’il se reproduise et faciliter sa détection, puis sa résolution le cas échéant. C’est pour ces raisons, que la documentation et l’analyse post-mortem sont si importantes dans la gestion des incidents. La corrélation d’un nouvel incident avec un antérieur permettra de déterminer si le problème en cours a déjà été résolu et si oui, comment. Une documentation appropriée comprend une liste de tâches de suivi pour traiter les problèmes critiques, des plans précis de mise à jour des alertes afin de prendre en compte ce qui a été appris, et un document post-mortem détaillé afin que tous les membres de l’équipe, et d’autre au sein de l’organisation, puissent comprendre plus en profondeur le problème et en identifier potentiellement d’autres, similaires, ailleurs. De cette façon, lorsqu’un nouvel incident se produira, l’équipe concernée disposera de tout l’historique d’informations disponible en un seul endroit.

Libérer la créativité des ingénieurs

Un workflow de gestion des incidents qui utilise les principes décrits ci-dessus sera plus efficace et plus facile pour les équipes d’ingénieurs. Plus essentiel encore, il permet de gagner du temps, de sorte que les équipes peuvent se concentrer sur la création de nouveaux produits et de nouvelles fonctionnalités.

Sans entretien et remédiation appropriés de ce que vous avez déjà conçu, il ne vous sera pas possible de concevoir ce qui fera passer votre entreprise au niveau supérieur. Une meilleure gestion des incidents est une condition sine qua non pour rendre tout cela possible.

Tribune libre de Datadog