BIMS
Untitled
Untitled
  • Informes de Incidentes
  • 2025-03-01 11:40
  • 2025-05-03 12:45
Powered by GitBook
On this page
  • Informe de Incidente de Infraestructura Técnica de SaaS
  • Información General
  • Cronología, Causas y Descripción de los Efectos del Incidente
  • Impacto
  • Causa Raíz
  • Respuesta y Resolución
  • Lecciones Aprendidas
  • Plan de Seguimiento
  • Aprobaciones
  • Anexos

Was this helpful?

2025-03-01 11:40

Informe de Incidente de Infraestructura Técnica de SaaS

Información General

  • ID del Incidente: 88299

  • Fecha de Inicio: Sábado 1 de Marzo de 2025, 13:00 Hs.

  • Fecha de Mitigación Completa del Impacto: Lunes 4 de Marzo de 2025, 10:14 Hs.

  • Servicios Afectados:

    • Conexiones a SaaS,

    • Tiempos de Respuesta en Conexiones a SaaS,

    • Tiempos de Sincronización de Ventas

  • Estado del Incidente: Cerrado

Cronología, Causas y Descripción de los Efectos del Incidente

A las 13:00 Hs. del sábado 1 de Marzo se alertó la saturación del la plataforma Web para el servicio de BIMS SaaS.

La plataforma SaaS de BIMS cuenta con un sistema de escalamiento automático proactivo según estadísticas de carga, y reactivo según requerimientos de la carga actual. Esta plataforma al momento del inicio del incidente tenía definido un tope administrativo de 25 servidores.

En escenarios normales, los horarios pico de tráfico demanda un máximo de 20 servidores.

Sábado 1 de Marzo de 2025, 11:37

El día sábado 1 de Marzo de 2025 a las 11:45 Hs. la plataforma, debido a un pico pronunciado de tráfico, alcanzó el tope de escala de 25 servidores, y se sostuvo en esa capacidad saturando paulatinamente todos los recursos disponibles en los servidores web.

Tráfico anormal detectado:

Abonado
IP
Trx / Seg
Método
URL
Inicio
Fin
Duración

A

A

~540

POST

api/contacts

11:37:55

12:45:25

67.5'

La URL corresponde al endpoint del API para la creación de contactos. Sin embargo, no hay un pico de creación o edición de contactos en ese período. Por lo que se asume que el API retornó un error. Desafortunadamente no se disponen de registros de los datos de estos requests y de las respuestas generadas.

El evento saturó todos los front-ends activos hasta el tope administrativo de 25 paulatinamente.

Sábado 1 de Marzo de 2025, 14:00

La sobrecarga fue controlada a las 14:00 Hs. El tiempo en que el servicio estuvo inactivo, aunque no se interrumpió la facturación desde el POS, las ventas no se pudieron sincronizar con la nube, o lo hacían a una tasa insuficiente.

Cuando el servicio se reestableció, las colas de sincronización en las estaciones de trabajo, que acumulaban un volumen grande de ventas, intentaron sincronizarse de forma simultánea, copando ahora el tope de conexiones por servidor de base de datos, establecido en 2500 conexiones simultáneas.

Tras medidas de mitigación de la sobrecarga de tráfico, la sincronización de ventas del POS retomó su curso a una tasa controlada. Esto retrasó significativamente la finalización de la sincronización de un gran volumen de ventas en cola.

Impacto

  • Usuarios Afectados: Abonados SaaS con sus bases de datos montadas en servidor DB2.

  • Áreas de Impacto:

    • Conexiones a SaaS,

    • Tiempos de Respuesta en Conexiones a SaaS,

    • Tiempos de Sincronización de Ventas

Causa Raíz

  • Identificación de la Causa: Sobrecarga inicial reportada el Sábado 1 de Marzo a las 11:37 Hs.

Respuesta y Resolución

  • Medidas de Mitigación:

    • Se bloqueó la conexión desde la IP que generó los picos de tráfico.

    • Se aumentó el tope de conexiones por base de datos.

  • Soluciones Aplicadas:

    • Se modificó el código del POS de BIMS de manera que purgue la cola de sincronización a una tasa máxima de una venta por segundo por estación.

    • Se implementó restricciones tasas de transacciones generales a 1 transacción por segundo en las conexiones al API de BIMS.

    • Implementación de un servidor dedicado de Base de Datos para el abonado A.

  • Soluciones Proyectadas:

    • Implementación de Cloud Flare para el dominio bims.app.

    • Implementación de Google Cloud Armor para el host bims.softec.com.py.

Lecciones Aprendidas

  • Observaciones: Son necesarios controles de picos de tráfico anormales que pudieran ocasionar una denegación de servicio.

  • Recomendaciones: Implementar Google Cloud Armor y Cloud Flare. Establecer tiers comerciales de tráfico en términos de transacciones por minuto.

Plan de Seguimiento

  • Tareas Pendientes: Implementación de Google Clud Armor y Cloud Flare.

  • Responsables: Equipo de Plataforma.

  • Fecha de Revisión: 2025-03-07 16:00

Aprobaciones

  • Aprobado por: Víctor Cartes

  • Fecha de Aprobación: 4 de Marzo de 2025

Anexos

PreviousInformes de IncidentesNext2025-05-03 12:45

Last updated 2 months ago

Was this helpful?

Logs del Sistema:

Informe de Escalamiento de la Plataforma:

https://console.cloud.google.com/logs/query;query=logName%3D%22projects%2Fthermal-diorama-129401%2Flogs%2Fbims-saas-debug.logs%22%0ASEARCH%2528%22%60181.126.81.119%60%22%2529;cursorTimestamp=2025-03-01T15:27:08.937513954Z;startTime=2025-03-01T14:36:00.000Z;endTime=2025-03-01T17:44:00.000Z?referrer=search&project=thermal-diorama-129401
https://console.cloud.google.com/compute/instanceGroups/details/southamerica-east1-b/saas-web2?invt=AbrI4A&project=thermal-diorama-129401&inv=1
Escalador Automático (Con Desfazaje Horario de 2hs)