2025-05-03 12:45
Informe de Incidente de Infraestructura Técnica de SaaS
Información General
ID del Incidente: 89573
Fecha de Inicio: Sábado 3 de Mayo de 2025, 12:45 Hs.
Fecha de Mitigación Completa del Impacto: Sábado 3 de Mayo de 2025, 17:00 Hs.
Tenants afectados: nc2
Servicios Afectados:
Acceso al backoffice de BIMS,
Retraso en sincronizaciones de ventas desde el POS,
Nuevos accesos a POS
Observaciones: No se vio afectada la facturación desde los POS abiertos. Los servicios no se vieron interrumpidos de forma constante entre el primer reporte y la mitigación completa, se dieron eventos puntuales que se declaran en este informe.
Estado del Incidente: Mitigado
Cronología, Causas y Descripción de los Efectos del Incidente
A las 12:45 Hs. del sábado 3 de Mayo se alertó de problemas en el acceso al POS de BIMS.
Al momento del reporte los servicios estaban estables. No obstante, se observó sobrecarga de algunos servidores web backends, por lo que se aprovisionó manualmente una base de 30 servidores como prevención para soportar posibles picos de tráfico del tenant nc2, ya reportados en el pasdo en el mismo día de la semana y en el mismo horario.
Posteriormente, se registraron picos inusuales de tráfico del tenant nc2 en los siguientes horarios:
14:18, 14:26, 14:38, 14:58, 15:10, 15:22, 15:30.
El pico máximo se reportó entre las 15:22 y las 15:24 registrándose un total de 154.411 transacciones a su base de datos en un espacio de 2 minutos.
Si bien la escala de los servidores web soportó el tráfico, los recursos de su servidor de base de datos se vieron saturados, llegando al tope de CPU y memoria RAM asignados, provocándose en cada pico el reinicio automático del servidor de base de datos. Los reinicios, a su vez, tuvieron demoras excesivas de hasta 10 minutos debido a la cantidad de bases de datos residuales no operativas montadas en el mismo servidor, que quedaron luego de la copia para el montaje de una instancia dedicada para el tenant nc2.
Se identificaron muchos registros de error provocando el rollback de transacciones y deadlocks que demandaron un uso excesivo de RAM.
Uno de los errores identificados se trataba de intentos de inserciones de transacciones de ventas con conflictos en la numeración de la factura, que llevaban al rollback de la transacción y reporte de falla del API, para su encolamiento en la estación de trabajo. Se identicó como origen el punto de venta: "CAJA 1 - LIMPIO I". A las 17:48 se informó a softect para el análisis de su configuración.
A las 17:21 como medida paliativa se redimensionó el servidor de base de datos dedicado de NC2 de la siguiente manera:
CPU
12 cores
30 cores
RAM
8 GB
30 GB
El nuevo setup soportó satisfactoriamente el tráfico e incluso está sobredimensionado para la demanda computacional de nc2 aún con los picos históricos registrados. No obstante, se mantendrá por seguridad durante una semana, y se medirá su uso para evaluar una configuración óptima que aplicar.
Adicionalmente se eliminaron todas las bases de datos ajenas al tenant nc2 montadas en el mismo servidor de base datos, para reducir la latencia del startup del servidor de base de datos.
Se preservaron logs de las transacciones a la base de datos del tenant nc2, y un análisis de la naturaleza y origen de las transacciones está en curso.
Se deja constancia como antecedente potencialmente relevante que 24 horas antes de proveyó acceso directo a la BD a softec y a la empresa titular del tenant nc2.
Last updated
Was this helpful?