Un post-mortem de incidentes es un análisis que se realiza después de que ocurre un problema en un sistema, con el objetivo de entender qué pasó, por qué pasó y cómo evitar que vuelva a ocurrir.
No se trata de buscar culpables.
Se trata de aprender.
En simple
- Es un análisis posterior a un incidente
- Busca entender la causa raíz
- Identifica qué falló en el proceso
- Define mejoras para el futuro
- Ayuda a evitar que el mismo problema se repita
¿Qué es exactamente un post-mortem?
Cuando ocurre un incidente (una caída, una degradación, un error crítico), el equipo normalmente se enfoca en resolverlo lo más rápido posible.
Pero una vez que todo vuelve a la normalidad, aparece una pregunta clave:
👉 ¿cómo evitamos que esto vuelva a pasar?
Ahí entra el post-mortem.
Es una instancia donde el equipo revisa el incidente con perspectiva:
- qué lo causó
- cómo se detectó
- cuánto se demoró la respuesta
- qué decisiones se tomaron
- qué se podría haber hecho mejor
¿Por qué es tan importante?
Porque resolver el incidente no es suficiente.
Si no se aprende de lo ocurrido: el problema se repite.
1. Evita errores repetidos
Muchos incidentes no son únicos.
Se repiten porque nunca se corrigió la causa real.
2. Mejora los tiempos de respuesta
Al entender qué pasó, puedes optimizar:
- detección
- notificación
- coordinación
- resolución
3. Identifica fallas invisibles
No todo es técnico.
Muchas veces el problema está en:
- comunicación
- procesos
- responsabilidades
- tiempos de reacción
4. Fortalece al equipo
Cuando se hace bien, el post-mortem:
- genera aprendizaje compartido
- mejora la coordinación
- evita culpas individuales
👉 Se transforma en una herramienta de mejora continua.
El error más común
Muchos equipos:
- no hacen post-mortem
- lo hacen muy superficial
- o lo hacen solo en incidentes grandes
Pero la realidad es que los problemas pequeños también enseñan mucho.
Otro error frecuente:
👉 hacerlo como un juicio
Cuando el foco está en “quién se equivocó”, el equipo deja de aprender.
¿Qué debería incluir un buen post-mortem?
Un post-mortem efectivo suele incluir:
1. Contexto del incidente
- qué pasó
- cuándo ocurrió
- qué sistemas se vieron afectados
2. Línea de tiempo
- detección
- notificación
- respuesta
- resolución
3. Impacto
- usuarios afectados
- duración
- impacto en negocio
4. Causa raíz
- qué originó el problema
- qué lo permitió escalar
5. Qué funcionó / qué no
- decisiones correctas
- puntos de fricción
6. Acciones a futuro
- mejoras concretas
- cambios en procesos
- automatizaciones
Un ejemplo simple
Sin post-mortem:
- ocurre un incidente
- se resuelve
- se sigue operando igual
👉 alta probabilidad de repetirlo
Con post-mortem:
- se analiza lo ocurrido
- se identifican fallas
- se implementan mejoras
👉 el sistema evoluciona
Algo importante
El valor del post-mortem no está en el documento.
Está en lo que cambia después.
Si no hay acciones concretas no sirve.
Entonces, ¿por qué es clave?
Porque convierte cada incidente en una oportunidad de mejora.
En vez de:
👉 apagar incendios
empiezas a:
👉 prevenirlos
Los equipos más maduros no son los que tienen menos incidentes.
Son los que mejor aprenden de ellos.
Y el post-mortem es justamente eso:
👉 una forma estructurada de aprender, mejorar y evolucionar.
Si hoy tu equipo resuelve incidentes pero no siempre logra aprender de ellos, probablemente falta una forma más estructurada de análisis y seguimiento.
24Cevent permite centralizar la gestión de incidentes, registrar automáticamente lo ocurrido y facilitar la generación de post-mortem con información clara y accionable, ayudando a que cada incidente deje un aprendizaje real.