El modelo on-call es uno de los pilares de cualquier operación tecnológica que necesita continuidad.
Permite que, ante un incidente, siempre exista alguien responsable de reaccionar.
Pero aunque el concepto parece simple, en la práctica hay muchos matices que hacen la diferencia entre un sistema que funciona… y uno que genera frustración.
En simple
El on-call es un esquema donde:
👉 una persona (o equipo) está disponible para responder incidentes en un período determinado
Esto puede ser:
- fuera de horario laboral
- durante fines de semana
- en turnos rotativos
- o incluso 24/7
El objetivo es claro:
👉 no depender del azar cuando ocurre un problema
Cómo funciona en la práctica
Un flujo típico de on-call se ve así:
- Un sistema detecta una alerta
- Se genera una notificación
- Se asigna al ingeniero de turno
- Esa persona evalúa y actúa
- Si no responde, se escala
👉 todo gira en torno a asegurar respuesta oportuna
Componentes clave de un buen on-call
Para que el modelo funcione bien, necesita más que solo “turnos”.
1. Calendario de turnos
Define quién está disponible en cada momento.
- rotación semanal o diaria
- cobertura por equipo o especialidad
- claridad total de responsabilidades
👉 evita confusión en momentos críticos
2. Sistema de notificación
Es el encargado de avisar al on-call.
Puede incluir:
- push
- llamadas telefónicas
👉 aquí se define si la alerta realmente se atiende o no
3. Confirmación de recepción
No basta con enviar la alerta.
👉 necesitas saber si alguien la tomó
Esto permite:
- evitar incidentes “huérfanos”
- activar escalamiento automático
- asegurar responsabilidad
4. Escalamiento automático
Si el on-call no responde:
- se notifica a otro ingeniero
- o a un nivel superior
- o a todo un equipo
👉 garantiza que el incidente no quede sin atención
Tipos de on-call más comunes
On-call reactivo
- solo responde cuando ocurre un incidente
- es el modelo más tradicional
On-call preventivo
- monitorea activamente
- anticipa problemas
- actúa antes del impacto
👉 más maduro, pero también más exigente
On-call distribuido
- distintos equipos según tipo de incidente
- por ejemplo: infraestructura, aplicaciones, base de datos
👉 mejora especialización, pero requiere coordinación
Problemas típicos del on-call
Aunque es necesario, muchas veces está mal implementado.
Algunos problemas frecuentes:
- alertas que nadie responde
- exceso de notificaciones (fatiga de alertas)
- turnos poco claros
- dependencia de revisar correos o mensajes
- falta de contexto al recibir la alerta
👉 el resultado: tiempos de reacción lentos
Qué hace que un on-call funcione bien
Un buen sistema de on-call logra:
- que las alertas críticas sean imposibles de ignorar
- que siempre haya un responsable claro
- que exista escalamiento automático
- que la información llegue con contexto
👉 no solo avisa, asegura respuesta
Ejemplo simple
Escenario sin buen on-call
- alerta llega por correo
- nadie la revisa a tiempo
- el incidente escala
Resultado: impacto al negocio
Escenario con buen on-call
- alerta se envía al responsable
- recibe notificación inmediata
- confirma recepción
- actúa o escala
Resultado: control rápido del incidente
Algo importante
El on-call no es solo un turno.
Es un sistema completo de respuesta.
Incluye:
- personas
- procesos
- tecnología
👉 si uno falla, todo falla
Lo que cambia cuando está bien implementado
Cuando el on-call funciona correctamente:
- disminuyen los tiempos de reacción
- se reducen los incidentes no atendidos
- mejora la continuidad operativa
- baja la dependencia de supervisión manual
👉 la operación se vuelve mucho más confiable
Hoy muchas empresas ya tienen on-call, pero siguen teniendo problemas de reacción.
Ahí es donde el foco no está en tener turnos, sino en cómo se gestionan.
👉 24Cevent permite gestionar on-call de forma automatizada, asignando responsables, notificando por múltiples canales (incluyendo llamadas), asegurando confirmación de atención y escalando automáticamente cuando es necesario.






