Caída de AWS en US-EAST-1 (20/10/2025): resumen claro y puntual

Cristian Leiton | Oct 20, 2025 min read

El Incidente

El 20 de octubre de 2025, un fallo de DNS en el endpoint de DynamoDB en US-EAST-1 (Virginia del Norte) provocó un efecto dominó en varios servicios de AWS, generando:

  • ⚠️ Latencias elevadas
  • ❌ Errores en servicios
  • 🔴 Caídas en múltiples plataformas

Servicios Afectados

El fallo impactó a múltiples servicios críticos de AWS:

  • EC2 - Elastic Compute Cloud
  • Lambda - Funciones serverless
  • S3 - Almacenamiento de objetos
  • API Gateway - Gestión de APIs
  • Balanceadores de carga - ELB/ALB/NLB

Cronología del Evento

Inicio del Incidente

  • Región afectada: US-EAST-1 (Virginia del Norte)
  • Causa raíz: Fallo de DNS en endpoint de DynamoDB

Recuperación

  • Inicio de mitigación: Mediodía ET (~11:00 a.m. hora de Bogotá)
  • Estado: Recuperación gradual
  • Efectos residuales: Demoras en procesamiento de backlog

Impacto Global

US-EAST-1 es una de las regiones más utilizadas de AWS, lo que magnificó el impacto:

  • 🌍 Afectación global en aplicaciones de consumo
  • 🏢 Impacto en servicios empresariales
  • 📊 Interrupciones en plataformas críticas

Respuesta de AWS

AWS implementó medidas progresivas:

  1. Identificación del problema - Fallo de DNS en DynamoDB
  2. Mitigaciones progresivas - Aplicación gradual de soluciones
  3. Estabilización - Recuperación durante el transcurso del día
  4. Comunicación pública - Actualizaciones constantes en Service Health Dashboard

Lecciones Aprendidas

Este incidente refuerza la importancia de:

  • Arquitecturas multi-región - No depender de una sola región
  • Planes de contingencia - Tener estrategias de failover
  • Monitoreo proactivo - Detectar problemas tempranamente
  • Diversificación de servicios - Considerar estrategias multi-cloud

Conclusión

Los incidentes en infraestructura cloud nos recuerdan que ningún proveedor es inmune a fallos. La clave está en diseñar sistemas resilientes que puedan manejar estas eventualidades sin afectar significativamente a los usuarios finales.

Comparto este resumen como contexto del incidente y su cronología pública para aprender de estos eventos y mejorar nuestras arquitecturas.


Fuente: LinkedIn Post Original