Amazon Web Services, uno de los proveedores de infraestructura en la nube más importantes del mundo, ha comenzado a recuperarse tras una interrupción el 20 de octubre que causó importantes fallas en docenas de plataformas, aplicaciones y juegos populares.
La interrupción, que comenzó la madrugada del lunes, afectó a las principales plataformas de consumo y empresas. Unas tres horas después del inicio de la interrupción, Amazon informó que el servicio comenzaba a recuperarse. No fue hasta alrededor de las 18:00 h (hora del este) que la compañía informó que "los servicios volvieron a la normalidad".
Los informes de Downdetector durante el día mostraron fallas de acceso generalizadas en Amazon, Coinbase, Ring, Snapchat, Reddit, Slack, United Airlines, Zoom y múltiples redes de juegos en línea, incluidas las de Fortnite, Roblox, Pokémon Go y los servicios de Epic Games.
El lunes por la noche, Amazon dijo que había abordado el problema subyacente de la interrupción y que estaba cerca de una resolución, pero informó que algunos usuarios aún experimentaban dificultades persistentes al utilizar servicios como Venmo y Zoom.
AWS, la división de nube de Amazon valorada en 100,000 millones de dólares, sustenta grandes áreas de infraestructura global y alberga desde plataformas de transmisión y aplicaciones para teléfonos inteligentes hasta servicios financieros y sistemas de emergencia.
AWS informó "mayores tasas de error y latencias" a partir de poco después de las 3:11 a. m. (hora del Este de EE. UU.), lo que afectó a varios servicios en su región US-East-1, un centro que impulsa gran parte de Internet global.
"Estos problemas están afectando a múltiples servicios que dependen de la infraestructura de AWS", declaró la compañía en un comunicado. "Estamos monitoreando la situación".
A las 5:01 a. m. ET, AWS declaró haber identificado una posible causa raíz, atribuyendo la interrupción a un problema que afectaba la conexión y comunicación de uno de sus principales sistemas de bases de datos. En concreto, Amazon explicó que el problema se debía a una interrupción en el acceso a su servicio DynamoDB a través de la red, y añadió que los ingenieros de la compañía estaban explorando múltiples vías paralelas para acelerar la recuperación.
AWS dijo a las 5:27 a. m. ET que estaba viendo "signos significativos de recuperación" y que la mayoría de las solicitudes de acceso a la red "ahora deberían tener éxito", y la compañía prometió más actualizaciones a medida que continúa la restauración.
A las 6:35 a. m. (hora del Este de EE. UU.), AWS emitió otra actualización que confirmaba que "el problema de DNS subyacente se había mitigado por completo", aunque advirtió que algunos servicios aún estaban trabajando con retrasos.
La compañía dijo que las solicitudes para poner online los sistemas en la región US-East-1 seguían enfrentando tasas de error elevadas y recomendó a los clientes que aún experimentaban problemas que limpiaran los cachés de DNS.
"Seguimos trabajando para lograr una resolución completa", afirmó AWS, señalando la persistente limitación en servicios como CloudTrail y Lambda.
Coinbase, el mayor exchange de criptomonedas con sede en Estados Unidos, informó a sus usuarios en un anuncio inicial a las 3:46 a. m. ET que muchos usuarios actualmente no podían acceder a sus servicios debido a la interrupción de AWS.
"Todos los fondos están seguros", declaró Coinbase, añadiendo que los equipos estaban trabajando para restablecer la funcionalidad. En una actualización posterior, alrededor de las 5:36 a. m. ET, Coinbase indicó que estaba observando "primeras señales de recuperación", con algunos usuarios que podían acceder a los servicios de la plataforma de criptomonedas.
Elon Musk, cuya plataforma X permaneció online, opinó sobre la interrupción con un posteo de dos palabras: "X funciona".
La interrupción se produjo pocos días después de que otra interrupción afectara a YouTube, propiedad de Alphabet, lo que impidió brevemente que usuarios de todo el mundo pudieran ver vídeos en YouTube, YouTube TV y YouTube Music. En su punto álgido, se registraron más de 360,000 informes de interrupciones solo en Estados Unidos, según Downdetector. Aunque no están relacionados, estos incidentes ponen de relieve la fragilidad de las plataformas que dependen en gran medida de redes centralizadas en la nube.
La región US-East-1 de AWS, con sede en el norte de Virginia, ya ha sufrido cortes de alto perfil, incluido un incidente en 2021 que provocó la caída de importantes plataformas en Internet.
En el incidente de diciembre de 2021, una sobrecarga de tráfico dentro de la red de Amazon interrumpió la comunicación entre los servicios principales, lo que provocó interrupciones generalizadas. AWS declaró posteriormente que el problema se agravó debido a los retrasos en la detección del problema, lo que provocó cambios en sus sistemas internos y herramientas de monitorización.
Dado que millones de empresas dependen de AWS, incluso interrupciones breves pueden provocar consecuencias operativas de gran alcance.
AWS dijo que continúa monitoreando la recuperación y proporcionará más actualizaciones.
Reuters y The Associated Press contribuyeron a este artículo.
Únase a nuestro canal de Telegram para recibir las últimas noticias al instante haciendo clic aquí