2025-03-01 11:40
Informe de Incidente de Infraestructura Técnica de SaaS
Información General
ID del Incidente: 88299
Fecha de Inicio: Sábado 1 de Marzo de 2025, 13:00 Hs.
Fecha de Mitigación Completa del Impacto: Lunes 4 de Marzo de 2025, 10:14 Hs.
Servicios Afectados:
Conexiones a SaaS,
Tiempos de Respuesta en Conexiones a SaaS,
Tiempos de Sincronización de Ventas
Estado del Incidente: Cerrado
Cronología, Causas y Descripción de los Efectos del Incidente
A las 13:00 Hs. del sábado 1 de Marzo se alertó la saturación del la plataforma Web para el servicio de BIMS SaaS.
La plataforma SaaS de BIMS cuenta con un sistema de escalamiento automático proactivo según estadísticas de carga, y reactivo según requerimientos de la carga actual. Esta plataforma al momento del inicio del incidente tenía definido un tope administrativo de 25 servidores.
En escenarios normales, los horarios pico de tráfico demanda un máximo de 20 servidores.
Sábado 1 de Marzo de 2025, 11:37
El día sábado 1 de Marzo de 2025 a las 11:45 Hs. la plataforma, debido a un pico pronunciado de tráfico, alcanzó el tope de escala de 25 servidores, y se sostuvo en esa capacidad saturando paulatinamente todos los recursos disponibles en los servidores web.
Tráfico anormal detectado:
A
A
~540
POST
api/contacts
11:37:55
12:45:25
67.5'
La URL corresponde al endpoint del API para la creación de contactos. Sin embargo, no hay un pico de creación o edición de contactos en ese período. Por lo que se asume que el API retornó un error. Desafortunadamente no se disponen de registros de los datos de estos requests y de las respuestas generadas.
El evento saturó todos los front-ends activos hasta el tope administrativo de 25 paulatinamente.
Sábado 1 de Marzo de 2025, 14:00
La sobrecarga fue controlada a las 14:00 Hs. El tiempo en que el servicio estuvo inactivo, aunque no se interrumpió la facturación desde el POS, las ventas no se pudieron sincronizar con la nube, o lo hacían a una tasa insuficiente.
Cuando el servicio se reestableció, las colas de sincronización en las estaciones de trabajo, que acumulaban un volumen grande de ventas, intentaron sincronizarse de forma simultánea, copando ahora el tope de conexiones por servidor de base de datos, establecido en 2500 conexiones simultáneas.
Tras medidas de mitigación de la sobrecarga de tráfico, la sincronización de ventas del POS retomó su curso a una tasa controlada. Esto retrasó significativamente la finalización de la sincronización de un gran volumen de ventas en cola.
Impacto
Usuarios Afectados: Abonados SaaS con sus bases de datos montadas en servidor DB2.
Áreas de Impacto:
Conexiones a SaaS,
Tiempos de Respuesta en Conexiones a SaaS,
Tiempos de Sincronización de Ventas
Causa Raíz
Identificación de la Causa: Sobrecarga inicial reportada el Sábado 1 de Marzo a las 11:37 Hs.
Respuesta y Resolución
Medidas de Mitigación:
Se bloqueó la conexión desde la IP que generó los picos de tráfico.
Se aumentó el tope de conexiones por base de datos.
Soluciones Aplicadas:
Se modificó el código del POS de BIMS de manera que purgue la cola de sincronización a una tasa máxima de una venta por segundo por estación.
Se implementó restricciones tasas de transacciones generales a 1 transacción por segundo en las conexiones al API de BIMS.
Implementación de un servidor dedicado de Base de Datos para el abonado A.
Soluciones Proyectadas:
Implementación de Cloud Flare para el dominio bims.app.
Implementación de Google Cloud Armor para el host bims.softec.com.py.
Lecciones Aprendidas
Observaciones: Son necesarios controles de picos de tráfico anormales que pudieran ocasionar una denegación de servicio.
Recomendaciones: Implementar Google Cloud Armor y Cloud Flare. Establecer tiers comerciales de tráfico en términos de transacciones por minuto.
Plan de Seguimiento
Tareas Pendientes: Implementación de Google Clud Armor y Cloud Flare.
Responsables: Equipo de Plataforma.
Fecha de Revisión: 2025-03-07 16:00
Aprobaciones
Aprobado por: Víctor Cartes
Fecha de Aprobación: 4 de Marzo de 2025
Anexos
Informe de Escalamiento de la Plataforma: https://console.cloud.google.com/compute/instanceGroups/details/southamerica-east1-b/saas-web2?invt=AbrI4A&project=thermal-diorama-129401&inv=1
Last updated
Was this helpful?