Las 10 mayores interrupciones de la nube en 2024

Wednesday 11th December 2024 03:04 PM

AT&T, Verizon, CrowdStrike y Microsoft se encuentran entre las empresas que experimentaron importantes cortes de servicios en la nube durante el último año.

Una interrupción de AT&T en febrero que recibió atención de los reguladores federales. Problemas en septiembre para clientes de Verizon. Y la actualización de cierto proveedor de ciberseguridad que bloqueó las máquinas con Windows en todo el mundo.

Estas se encuentran entre las mayores interrupciones de servicios en la nube que enfrentó el mundo en 2024 (al 4 de diciembre).

Para la lista, CRN se centró en problemas de la nube de particular importancia para los proveedores de soluciones, omitiendo las interrupciones de productos de consumo, incluidos Facebook e Instagram de Meta, cuya interrupción del 5 de marzo fue clasificada como la mayor del año por Ookla, matriz de Downdetector, con más de 11,1 millones de personas reportando problemas.

[RELATED: 2024 Year In Review]

Interrupciones de la nube en 2024

Un informe de octubre del proveedor de tecnología de observabilidad New Relic, basado en una encuesta de 1.700 profesionales de la tecnología en todo el mundo, mostró que el tiempo de inactividad anual promedio debido a cortes de alto impacto fue de 77 horas, con un costo por hora de hasta $1,9 millones en pérdida de ingresos y productividad y otros gastos.

Los equipos de ingeniería dijeron que dedican el 30 por ciento de su tiempo, 12 horas de cada semana laboral de 40 horas, a abordar las interrupciones del servicio, según el informe. Las fallas de la red, las fallas del servicio de terceros o proveedores de la nube y los errores humanos fueron las principales causas de interrupciones no planificadas.

“El estado de la resiliencia 2025”, un informe de octubre del proveedor de bases de datos Cockroach Labs basado en el compromiso con 1.000 altos ejecutivos de tecnología en todo el mundo, encontró que el 84 por ciento de los encuestados dijeron que habían perdido al menos $10.000 en ingresos debido a una interrupción en los últimos 12 meses. Un tercio dijo que perdió entre 100.000 dólares y más de 1 millón de dólares.

Otro CRN Los artículos de Year in Review hasta ahora incluyen Las 10 empresas emergentes de ciberseguridad más populares de 2024, Las 10 empresas emergentes de semiconductores más populares de 2024 y Las 10 mejores herramientas de software de código abierto de 2024.

Continúe leyendo para obtener más información sobre las 10 mayores interrupciones de la nube en 2024.

La actualización de la base de datos hunde a Jira en enero

El comienzo del año de Atlassian no fue tan sencillo con su herramienta de gestión de proyectos Jira que brindó a los usuarios 503 mensajes de servicio no disponible y otras advertencias de error durante aproximadamente cuatro horas a partir de las 6:52 UTC (Tiempo Universal Coordinado) del 18 de enero.

ThousandEyes dijo que los servicios de Jira volvieron a funcionar con normalidad a las 10:30 UTC. Los problemas afectaron a Jira Work Management, Jira Software, Jira Product Discovery y otros servicios ofrecidos por Atlassian, con sede en Australia, según un informe de ThousandEyes publicado el 2 de febrero.

Atlassian atribuyó el rendimiento degradado de la familia de productos Jira a “una actualización programada de la base de datos en un servicio interno de Atlassian Marketplace”.

“Esta degradación del rendimiento se manifestó en tiempos de respuesta cada vez mayores y, finalmente, en tiempos de espera”, según el proveedor. “Esta degradación del servicio luego se extendió en cascada y provocó que las solicitudes cayeran en toda la familia de productos Jira, lo que afectó las experiencias de los productos”.

La interrupción de AT&T en febrero llama la atención de la FCC

El 22 de febrero, los usuarios de AT&T informaron interrupciones en los servicios del gigante de las telecomunicaciones, incluido el acceso a Internet. Downdetector registró más de 3,4 millones de informes de usuarios sobre el problema, que duró más de 12 horas.

El 25 de febrero, el director ejecutivo de AT&T, John Stankey, dijo en un comunicado que la interrupción se produjo “debido a la aplicación y ejecución de un proceso incorrecto utilizado mientras trabajaba para expandir nuestra red”. El proveedor también ofreció créditos de 5 dólares a los clientes afectados por el corte.

En julio, la Comisión Federal de Comunicaciones emitió un informe sobre el incidente, atribuyendo la causa a una falta de revisión por pares, no realizar pruebas adecuadas después de la instalación, salvaguardias y controles insuficientes para obtener la aprobación de cambios que afectan la red y otros factores.

El informe señaló que AT&T ha realizado cambios para evitar que el problema vuelva a ocurrir, incluido “escanear la red en busca de elementos de la red que carezcan de los controles que habrían evitado la interrupción y establecer esos controles de inmediato”. El informe decía que el incidente fue remitido a la Oficina de Ejecución “por posibles violaciones de las partes 4 y 9 de las reglas de la Comisión”.

Ookla, matriz de Downdetector, calificó esta interrupción como la tercera más grande del mundo en 2024 y la mayor interrupción de un operador en el mundo desde 2020.

El 14 de febrero, un problema en el almacén de metadatos regional resultó en una interrupción para los usuarios de Google Cloud us-west1, dijo ThousandEyes en una publicación del 1 de marzo.

El incidente duró unas dos horas y 40 minutos, según Google. “Nuestro equipo de ingeniería mitigó el problema aislando el tráfico problemático e implementó medidas para evitar que se repita”, dijo Google, atribuyendo los problemas a su almacén de metadatos regional.

La interrupción afectó a una variedad de productos de Google Cloud, productos Vertex AI y Gestión de acceso e identidad (IAM).

Actualización defectuosa de CrowdStrike

Podría decirse que la interrupción más importante del año fue la actualización defectuosa de CrowdStrike que bloqueó millones de máquinas con Microsoft Windows en todo el mundo. El incidente continúa y Delta y CrowdStrike se demandan mutuamente sobre quién es el culpable de los 7.000 vuelos cancelados de la aerolínea durante cinco días.

A raíz de la interrupción, Microsoft revisó cómo los proveedores de tecnología de seguridad desarrollan productos para Windows. En noviembre, el gigante tecnológico dijo que está trabajando en una forma de permitir que los productos de seguridad eviten el acceso directo al kernel de Windows y se ejecuten en modo de usuario al igual que las aplicaciones.

El acceso de CrowdStrike al kernel, el centro de control central de Windows, ha sido señalado como un factor clave que permitió que la defectuosa actualización CrowdStrike Falcon del 19 de julio enviara 8,5 millones de dispositivos Windows a un estado de “pantalla azul de la muerte”, lo que provocó negocios generalizados y incluso perturbaciones sociales.

Interrupciones de Microsoft en julio

Más allá de la debacle de la actualización defectuosa de CrowdStrike, Microsoft experimentó dolores de cabeza por la interrupción del servicio en julio.

El 30 de julio, Azure Front Door (AFD), Azure Content Delivery Network (CDN) y los servicios posteriores que dependen de ellos sufrieron una interrupción, y partes de la red de Microsoft se degradaron alrededor de las 10:30 UTC, según ThousandEyes.

Microsoft atribuyó el problema al enrutamiento de tráfico predeterminado que no se reanudó como se esperaba luego de la mitigación automática de un intento de ataque de denegación de servicio distribuido (DDoS) y un corte de energía en un sitio en Europa.

Microsoft dijo en un informe posterior al incidente que la disponibilidad volvió a los niveles anteriores al incidente a las 19:43 UTC. El proveedor dijo que haría menos probable que el incidente volviera a ocurrir y tendría menos impacto al garantizar que los problemas de mitigación de DDoS en una geografía no se propaguen a otras y al mejorar el monitoreo y la detección de configuraciones no válidas.

Números de septiembre para AT&T y Microsoft

El 12 de septiembre, los usuarios de AT&T no pudieron acceder a los servicios de Microsoft 365 y Azure debido a “un incidente de un proveedor de servicios de Internet externo que afectó a un subconjunto de la capacidad de sus clientes”, según Microsoft.

En una publicación en X, Microsoft indicó que la interrupción fue causada por un “cambio” no especificado dentro del entorno administrado de un proveedor de servicios de Internet externo, identificado en otros lugares como AT&T.

ThousandEyes describió el problema como “limitado a un subconjunto de usuarios que se conectan a la red de Microsoft directamente desde o a través del punto de intercambio de AT&T”.

Durante aproximadamente 90 minutos, “los clientes que usaban AT&T para conectarse a los servicios de Microsoft experimentaron problemas para acceder a nuestros servicios”, dijo Microsoft en su página de estado de Azure.

El informe posterior al incidente de Microsoft dijo que el problema duró desde las 11:46 UTC hasta las 13:14 UTC.

Interrupción de ServiceNow

Se atribuyó a la actualización fallida de un certificado raíz caducado la interrupción de ServiceNow que experimentaron unos 600 clientes el 23 de septiembre a partir de las 2:00 UTC.

La interrupción afectó a un servidor de administración, instrumentación y descubrimiento (MID) y algunos clientes vieron problemas de conectividad entre las instancias de la nube y los servidores, según un informe de ThousandEyes sobre el problema.

“La interrupción sirve como recordatorio del papel fundamental que desempeña cada función en un ecosistema digital o cadena de entrega de extremo a extremo para mantener operaciones fluidas”, según el informe. “Una aplicación o servicio es tan fuerte como su eslabón más débil”.

Problemas de Verizon en septiembre

Los servicios de Verizon en EE. UU. sufrieron interrupciones el 30 de septiembre y Downdetector registró más de 1,7 millones de informes.

Los usuarios desde Nueva York hasta Los Ángeles informaron que no había servicio o que el servicio era limitado, con la excepción del “modo SOS”, que permite a los usuarios realizar llamadas de emergencia recurriendo a otras redes de operadores dentro del alcance.

Downdetector inició el problema alrededor de las 9:30 am ET, y Verizon publicó en X sobre el problema a las 11:48 am ET. Sólo entre las 11:15 y las 11:30 se presentaron más de 100.000 informes de incidentes, lo que elevó el número total de informes a más de 400.000 en ese momento.

Verizon dijo que el problema se resolvió después de aproximadamente 10 horas a las 7:18 pm ET.

Una publicación de Cloudflare sobre la interrupción decía que el tráfico HTTP cayó hasta un 9 por ciento por debajo de los niveles esperados durante la interrupción, y en lugares como Omaha, Nebraska, el tráfico disminuyó aproximadamente un 30 por ciento.

Ookla, matriz de Downdetector, clasificó la interrupción de Verizon en septiembre entre las más grandes del mundo en 2024 (la número 4 en los EE. UU.) con 2,4 millones de usuarios reportando problemas.

Interrupción de Salesforce en octubre

El 1 de octubre, el gigante del software de gestión de relaciones con el cliente (CRM), Salesforce, experimentó una interrupción global del servicio con instancias de espacio aislado funcionando al 50 por ciento de su capacidad a las 2:40 UTC.

“Durante el período de impacto, es posible que los usuarios no hayan podido acceder a los servicios de Salesforce, y un subconjunto adicional pudo iniciar sesión pero experimentó un rendimiento deficiente”, dijo Salesforce en un informe de noviembre sobre el tema. “Es posible que los usuarios hayan recibido el mensaje de error ‘Estamos inactivos por mantenimiento’ durante la interrupción y la degradación del rendimiento”.

El informe de la compañía sobre la interrupción decía que “la implementación completa de la versión de emergencia tomó 14 horas debido a los límites de capacidad en la cantidad de celdas que se pueden actualizar en paralelo”, con “esfuerzos manuales para suprimir los reinicios y agregar los metadatos faltantes”. mitigar los efectos.

Salesforce atribuyó la interrupción a “una configuración faltante de tiempo específico” que “impidió que se iniciaran los servidores de la aplicación principal (aplicación principal)”.

Interrupciones de Microsoft en noviembre

Independientemente de lo que Microsoft agradeciera en 2024, probablemente no incluyó la interrupción de más de un día de sus productos Outlook y Teams justo antes del Día de Acción de Gracias, lo que resultó en titulares en los medios de comunicación nacionales.

El 26 de noviembre, CNN dijo que había más de 5.000 problemas informados por los usuarios sobre el tema. Microsoft identificó problemas a la 1:06 am PT del 25 de noviembre e informó que el problema se había resuelto a las 12:07 pm PT del 26 de noviembre. Microsoft atribuyó la interrupción a “un cambio reciente”.

ThousandEyes dijo que observó errores del servidor, tiempos de espera y pérdida de paquetes para Outlook en línea y otros productos de Microsoft a partir de las 2:00 UTC del 25 de noviembre.