Caída de AWS en US-EAST-1 (20/10/2025): resumen claro y puntual

El Incidente

El 20 de octubre de 2025, un fallo de DNS en el endpoint de DynamoDB en US-EAST-1 (Virginia del Norte) provocó un efecto dominó en varios servicios de AWS, generando:

⚠️ Latencias elevadas
❌ Errores en servicios
🔴 Caídas en múltiples plataformas

Servicios Afectados

El fallo impactó a múltiples servicios críticos de AWS:

EC2 - Elastic Compute Cloud
Lambda - Funciones serverless
S3 - Almacenamiento de objetos
API Gateway - Gestión de APIs
Balanceadores de carga - ELB/ALB/NLB

Cronología del Evento

Inicio del Incidente

Región afectada: US-EAST-1 (Virginia del Norte)
Causa raíz: Fallo de DNS en endpoint de DynamoDB

Recuperación

Inicio de mitigación: Mediodía ET (~11:00 a.m. hora de Bogotá)
Estado: Recuperación gradual
Efectos residuales: Demoras en procesamiento de backlog

Impacto Global

US-EAST-1 es una de las regiones más utilizadas de AWS, lo que magnificó el impacto:

🌍 Afectación global en aplicaciones de consumo
🏢 Impacto en servicios empresariales
📊 Interrupciones en plataformas críticas

Respuesta de AWS

AWS implementó medidas progresivas:

Identificación del problema - Fallo de DNS en DynamoDB
Mitigaciones progresivas - Aplicación gradual de soluciones
Estabilización - Recuperación durante el transcurso del día
Comunicación pública - Actualizaciones constantes en Service Health Dashboard

Lecciones Aprendidas

Este incidente refuerza la importancia de:

✅ Arquitecturas multi-región - No depender de una sola región
✅ Planes de contingencia - Tener estrategias de failover
✅ Monitoreo proactivo - Detectar problemas tempranamente
✅ Diversificación de servicios - Considerar estrategias multi-cloud

Conclusión

Los incidentes en infraestructura cloud nos recuerdan que ningún proveedor es inmune a fallos. La clave está en diseñar sistemas resilientes que puedan manejar estas eventualidades sin afectar significativamente a los usuarios finales.

Comparto este resumen como contexto del incidente y su cronología pública para aprender de estos eventos y mejorar nuestras arquitecturas.

Fuente: LinkedIn Post Original