El tiempo de inactividad cero, la aspiración empresarial del siglo XXI

Opinión

04 FEB 2016

El tiempo de inactividad de los sistemas ha sido durante mucho tiempo la causa de los principales quebraderos de cabeza para los departamentos de TI de todo el mundo. Ahora que compañías de todos los tamaños dependen mucho más de sus sistemas que nunca antes, cualquier interrupción del servicio puede tener un efecto catastrófico en el balance final de una empresa.

Para valorar el problema que supone para una compañía la caída de sus sistemas, Rachel Dines, analista de Forrester, comenta que en agosto de 2013 Google sufrió una parada de 5 minutos y le supuso una reducción del tráfico global de un 40% y un coste para la compañía de 500.000 dólares. Este es un ejemplo clave del efecto que caídas del servicio no planificadas pueden tener sobre las finanzas de una organización, así como en su reputación. No obstante, este ejemplo no implica que el coste del tiempo de inactividad solo es importante para grandes compañías como Google, independientemente del tamaño de la organización, los problemas estas interrupciones son igual de graves.

Es vital que cualquier organización tenga una estrategia para identificar las razones de una posible caída del servicio. Pero además, una vez que se han identificado estas causas, las empresas deben poner en marcha planes para defenderse de esas amenazas. Solo de esta forma será posible lograr la meta de “tiempo de inactividad cero”.

Para saber más sobre cómo las empresas están haciendo frente a la cuestión, SUSE encargó un estudio para analizar el efecto que tiene el tiempo de inactividad en las organizaciones y los planes que están en marcha para hacer frente a las interrupciones. El informe reveló algunos hallazgos interesantes, como la brecha existente entre la necesidad de “tiempo de inactividad cero” y el tiempo en interrupción que las empresas están experimentando actualmente. Mientras que las empresas van reconociendo la necesidad de reducir el tiempo de inactividad, está claro que aún queda mucho por conseguir que esto sea posible.

Cerca de las tres cuartas partes de los profesionales de TI dijeron que su empresa considera una meta importante lograr cero interrupciones del servicio, mientras que un 89% espera experimentar alguna caída en su servicio más necesario en el próximo año. Sin embargo, el 80% de los encuestados experimentó interrupciones no planificadas. Aquellos que sufrieron las interrupciones no planificadas se encontraron con el mismo problema una media de más de dos veces al año en sus servicios más necesarios. Los fallos en la tecnología son, con mucha diferencia, la causa más frecuente de interrupciones del servicio no planificadas.

Las buenas noticias son que más de la mitad (el 54%) de los encuestados respondieron que están llevando a cabo una estrategia para reducir significativamente las caídas del sistema en el próximo año, y otro 17% tiene la estrategia pero aún no ha empezado a implementarla.

Entonces, ¿cuál es la solución?

Los profesionales de TI están evidentemente preocupados por el tiempo de inactividad no planificado que han experimentado en el último año y se encuentran bajo presión para asegurarse de que no vuelva a ocurrir. Está claro que reducir las caídas del servicio es una prioridad para los departamentos de TI de todo el mundo, sin embargo, las organizaciones no ven el “tiempo de inactividad cero” como una posibilidad realista, aceptando por ahora que un pequeño margen de inactividad es inevitable. Esta es una situación inaceptable, sin embargo, hay pasos que se pueden tomar para abordar la cuestión, que no requieren de borrón y cuenta nueva. Los pasos clave deberían incluir:

Construir sobre cimientos firmes – Conseguir el hardware y la plataforma operativa adecuados en primer lugar es fundamental para prevenir el tiempo de inactividad, proporcionando mayor estabilidad y disponibilidad.

Minimizar el error humano – Los humanos cometen errores inevitablemente, y en la administración de infraestructuras de TI esto no es diferente. La mejor manera de reducir con esto es fabricar herramientas lo más fáciles de usar posible para los empleados, acabando con los errores operacionales.

Desarrollar clústeres – Las tecnologías de clústering se usan hoy en día comúnmente para mejorar la disponibilidad general del sistema a través de la redundancia. Clusterizando y combinando varios servidores redundantes en un clúster, se puede conseguir mayor disponibilidad que con un único servidor.

Conseguir el “tiempo de inactividad cero” es una meta crucial para los negocios modernos, sin embargo, para muchos todavía parece demasiado poco realista. Hay pasos prácticos a seguir que pueden contribuir a este objetivo general, pero en última instancia, las herramientas adecuadas son cruciales en este proceso. Sólo a través de la correcta selección y aplicación efectiva de estas herramientas se conseguirá que el “tiempo de inactividad cero” se convierta en la norma generalizada.

Eduardo Rivas, territory manager SUSE España