El hecho de que
un fallo tipográfico haya provocado esta reacción en cadena, que ha supuesto
pérdidas de más de 140 millones de euros a los clientes, demuestra que Amazon
no construyó bien su sistema
Antes de subir
los datos a la nube, la gente quiere asegurarse de que este invisible
repositorio digital está bien construido. Y Amazon, que es el mayor proveedor
de servicios cloud del mundo, acaba de demostrar que su capacidad de construir
una nube segura deja bastante que desear.
El pasado
martes, grandes regiones de internet simplemente dejaron de funcionar. Slack no
permitía que los usuarios se comunicaran con sus compañeros, Trello no dejaba
gestionar proyectos y, tristemente, resultó imposible acceder a las noticias de
la web de la edición global de nuestra revista. Además, algunos dispositivos
inteligentes del hogar también dejaron de funcionar correctamente.
El motivo: un
fallo en el sistema de almacenamiento en la nube S3 de Amazon. Y dado que es el
mayor proveedor de computación en la nube del mundo, muchos servicios que
dependen de ella también se vieron afectados. El error no ha sido nada
desdeñable ya que el problema tardó más de cuatro horas en arreglarse.
Resulta difícil
cuantificar con precisión el coste real de una caída de servicio como esta.
Pero, según el The Wall Street Journal, la empresa de analítica Cyence estima
que ha supuesto pérdidas de más de 140 millones de euros a las empresas de la
lista S&P 500. Y la compañía de monitorización de tráfico Apica afirma que
54 de los 100 minoristas digitales líderes experimentaron un declive de
rendimiento de página de al menos un 20%. Así que no se puede negar que ha sido
caro.
Eso hace que la
causa del problema resulte aún más vergonzosa. En un comunicado que describió
el fallo, Amazon reconoce que la causa principal fue un comando incorrecto
ejecutado por un empleado en Virginia (EEUU) durante sus labores rutinarias de
mantenimiento. Desafortunadamente, este pequeño error provocó una catastrófica
cascada de acontecimientos.
El empleado
tenía que desconectar un pequeño número de servidores, pero cometió un error y
deshabilitó más de los debidos, incluidos dos que se utilizan para alimentar
procesos básicos del todo el sistema. El error, básicamente, impidió que las
instalaciones procesaran solicitudes de usuario.
Amazon trabaja
con múltiples "zonas de la nube" repartidas por el mundo, y los
clientes de sus servicios pueden almacenar ficheros y ejecutar código en más de
una. Pero es más caro y, como señala The Register, incluso las empresas que sí
se lo pueden permitir sufrieron fallos en sus sistemas, probablemente a causa
de una falta de capacidad.
En otro artículo
describimos los riesgos inherentes de los servicios web centralizados. Ante
esta concentración de funciones "la seguridad, la fiabilidad y la
profesionalidad" resultan vitales y desde luego este no ha sido el caso
(ver Millones de personas con un único servicio web (mal construido), colapso
seguro).
Amazon parece
estar de acuerdo. La compañía ya ha implementado medidas de seguridad para que
incidentes causados por la torpeza de un único empleado no vuelvan a provocar
una deshabilitación masiva tan inmediata como esta.
Es un comienzo.
Pero está claro que los servicios basados en la nube necesitan pólizas de
seguros adicionales si pretenden ser fiables. Amazon, por ejemplo, no debería
haber permitido que un solo fallo afectara a todas sus instalaciones de
Virginia, ya que deberían haber estado divididas en subsistemas independientes.
Incluso así, los
servicios web centralizados resultan vulnerables. Si un hacker dirigiese un
enorme ataque a un proveedor, por ejemplo con una botnet, podría volver a
desestabilizar grandes regiones de internet. Pero al menos la culpa no la
tendría un simple error tipográfico.
Fuente: MIT Technology Review