El Incidente
El 20 de octubre de 2025, un fallo de DNS en el endpoint de DynamoDB en US-EAST-1 (Virginia del Norte) provocó un efecto dominó en varios servicios de AWS, generando:
- ⚠️ Latencias elevadas
- ❌ Errores en servicios
- 🔴 Caídas en múltiples plataformas
Servicios Afectados
El fallo impactó a múltiples servicios críticos de AWS:
- EC2 - Elastic Compute Cloud
- Lambda - Funciones serverless
- S3 - Almacenamiento de objetos
- API Gateway - Gestión de APIs
- Balanceadores de carga - ELB/ALB/NLB
Cronología del Evento
Inicio del Incidente
- Región afectada: US-EAST-1 (Virginia del Norte)
- Causa raíz: Fallo de DNS en endpoint de DynamoDB
Recuperación
- Inicio de mitigación: Mediodía ET (~11:00 a.m. hora de Bogotá)
- Estado: Recuperación gradual
- Efectos residuales: Demoras en procesamiento de backlog
Impacto Global
US-EAST-1 es una de las regiones más utilizadas de AWS, lo que magnificó el impacto:
- 🌍 Afectación global en aplicaciones de consumo
- 🏢 Impacto en servicios empresariales
- 📊 Interrupciones en plataformas críticas
Respuesta de AWS
AWS implementó medidas progresivas:
- Identificación del problema - Fallo de DNS en DynamoDB
- Mitigaciones progresivas - Aplicación gradual de soluciones
- Estabilización - Recuperación durante el transcurso del día
- Comunicación pública - Actualizaciones constantes en Service Health Dashboard
Lecciones Aprendidas
Este incidente refuerza la importancia de:
- ✅ Arquitecturas multi-región - No depender de una sola región
- ✅ Planes de contingencia - Tener estrategias de failover
- ✅ Monitoreo proactivo - Detectar problemas tempranamente
- ✅ Diversificación de servicios - Considerar estrategias multi-cloud
Conclusión
Los incidentes en infraestructura cloud nos recuerdan que ningún proveedor es inmune a fallos. La clave está en diseñar sistemas resilientes que puedan manejar estas eventualidades sin afectar significativamente a los usuarios finales.
Comparto este resumen como contexto del incidente y su cronología pública para aprender de estos eventos y mejorar nuestras arquitecturas.
Fuente: LinkedIn Post Original