La madrugada del caos
19 de julio de 2024
En la quietud de la madrugada del 19 de julio, una actualización rutinaria de CrowdStrike desencadenó una tormenta digital. Millones de computadoras en todo el mundo se paralizaron, mostrando la temida "pantalla azul de la muerte".
¿Qué ocurrió?
CrowdStrike -proveedor de plataformas de ciberseguridad- lanzó una actualización de configuración del sensor Falcon para sistemas Windows. Era una operación rutinaria. Sin embargo, aquel día la actualización de configuración desencadenó un error lógico que provocó el bloqueo del sistema y la temida pantalla azul (Blue Screen Of Death o BSOD) se instaló en 8,5 millones de PCs y servidores con Microsoft Windows alrededor del mundo.
¿Quiénes se vieron afectados?
Se vieron afectados los clientes que tenían sensores Falcon para Windows versión 7.11 y superior en ejecución, que estuvieron en línea el viernes 19 de julio de 2024 entre las 04:09 UTC y las 05:27 UTC y también los sistemas que ejecutaban el sensor Falcon para Windows 7.11 y superior y que descargaron la configuración actualizada de las 04:09 UTC a las 05:27 UTC.
5:27 UTC
Aunque a las 5:27 UTC, 1 hora y 18 minutos después de ocurrido el fallo, CrowdStrike corrigió la actualización de la configuración del sensor que causó la interrupción del sistema, ya el impacto se había extendido a nivel mundial. Las computadoras, en lugar de iniciarse, mostraron “pantallas azules de muerte”, cerrando puertos y afectando la conectividad y la operación de miles de organizaciones a nivel global.
El caos se extendía, y en Escala 24x7, la alerta se encendió.
¿Cómo vivimos ese día en Escala 24x7?
Debido a nuestra disponibilidad 24x7 para clientes de servicios gestionados, teníamos ingenieros de soporte atentos a cualquier requerimiento de los clientes.
Los clientes de servicios gestionados, como EMx Ultra, reciben una atención personalizada de la mesa de soporte y tienen a su disposición ingenieros de nube para el monitoreo, así como un equipo de especialistas preparados para enfrentar situaciones complejas y desarrollar soluciones que le permitan al cliente mejorar su infraestructura en AWS.
De esta manera, al momento del fallo, estábamos en capacidad de brindar rápida respuesta a casos de soporte, reportar hallazgos de seguridad, alertar consumos excesivos de recursos, entre otras actividades prioritarias.
Respuesta inmediata
9:32 UTC
Con este equipo de especialistas disponible, a las 9:32 UTC, uno de nuestros clientes de servicios gestionados, con más de 250 workspaces afectados, acudió a nosotros en busca de ayuda. Levantó el caso de soporte y nuestros ingenieros en rol de guardia respondieron al llamado. No había tiempo que perder.
9:50 UTC
A las 9:50 UTC, nuestro equipo invitó al cliente a una videollamada para trabajar en la solución. Tras el análisis y diagnóstico previo, se identificaron siete (7) servidores Windows afectados y se asignaron los expertos y el orden de acciones prioritarias para el proceso de recuperación. Cada minuto contaba. La tensión era palpable, pero la determinación era aún mayor.
La batalla por la recuperación
11:42 UTC
A las 11:42 UTC se unió a la sesión el Cloud Engineer de Escala 24x7 asignado al cliente, quien validó el status y revisó la afectación de workspaces del cliente, encontrando más de 250 workspaces en estado “unhealthy”. Realizó un reboot masivo de workspaces usando un documento de Automatización con System Manager desarrollado por Escala 24x7, que le permitió reiniciar selectivamente la mayor cantidad posible de workspaces, logrando recuperar varios equipos y validar los que continuaban afectados. También hizo ajustes en la automatización para hacer "reboot" y "restore" de los workspaces en estado "unhealthy", pero desestimó la opción porque requería demasiado tiempo para la resolución.
13:30 UTC
A las 13:30 UTC se finalizó la restauración de los workspaces críticos indicados por el cliente.
La victoria del trabajo en equipo
14:00 UTC
A las 14:00 UTC el Cloud Engineer de Escala 24x7 realizó una sesión con AWS Support para revisar opciones de recuperación masiva de los workspaces afectados, sin embargo AWS indicó que la restauración debía hacerse manual o a través de CLI, para restaurar máximo 25 equipos en simultáneo.
14:30 UTC
A las 14:30 UTC, Escala 24x7 inició el proceso de restauración manual de aproximadamente 250 workspaces en grupos de 15-20 equipos, y a medida que avanzó la recuperación, validó los respectivos acceso con el cliente así como el correcto funcionamiento de los equipos.
19:00 UTC
A las 19:00 UTC terminó el proceso de restauración manual de los workspaces, así como el "rebuild" y migración de otros workspaces que habían marcado status de error. Es así como tras 10.5 horas, el incidente es superado, los workspaces son recuperados y la operación es restaurada.
A partir de entonces, el equipo técnico del cliente continuó el monitoreo e hizo ajustes adicionales a los servidores que fueron afectados. Escala 24x7 permaneció en rol de guardia y monitoreo activo, alerta 24x7 a cualquier solicitud de soporte durante el fin de semana.
22 de julio de 2024 - 00:00 UTC
El lunes 22 de julio, a las 00:00 UTC Escala 24x7 realizó una sesión de seguimiento y migración de los workspaces reportados como desactualizados o que presentaban alguna limitación. También se hizo el análisis para determinar la mejor estrategia de remediación y aplicarla de manera inmediata, garantizando así, que los usuarios finales pudieran desempeñar sus operaciones de manera efectiva.
Más allá de la crisis
El fallo de CrowdStrike nos recuerda que el viaje a la nube, aunque lleno de promesas, también está plagado de desafíos inesperados. En esos momentos críticos, contar con un partner de AWS como Escala 24x7 marca la diferencia entre el caos y la recuperación.
Nuestra especialización, conocimiento y experticia nos permiten no solo anticiparnos a posibles problemas, sino también responder con agilidad y eficacia cuando ocurren. No se trata solo de apagar incendios, sino de construir una infraestructura resiliente y acompañar a nuestros clientes en cada paso de su transformación digital.
“El fallo de CrowdStrike generó un momento crítico y de mucha presión para nuestro cliente y para Escala 24x7 como partner, pero gracias al trabajo en equipo y la sinergia entre ambas empresas, logramos recuperar el 100% de los recursos afectados. En Escala 24x7 nos desarrollamos y especializamos constantemente para brindar las mejores soluciones a nuestros clientes”, indicó Carlos Rubio, Cloud Engineer de Escala 24x7 encargado de este caso.
El fallo de CrowdStrike fue un desafío, pero también una oportunidad para demostrar nuestro compromiso. En Escala 24x7, no solo ofrecemos soluciones tecnológicas, sino también la tranquilidad de saber que, ante cualquier adversidad, estaremos ahí, hombro con hombro, para superarla juntos.
Porque en la nube, como en la vida, el camino se hace más fácil cuando se cuenta con un compañero de confianza. Y en Escala 24x7, estamos orgullosos de ser ese aliado para nuestros clientes.