Claves para evitar los tiempos de inactividad en los centros de datos:

Si le preguntas a cualquier responsable de instalaciones de centros de datos qué es lo que le quita el sueño, la respuesta siempre suele ser la misma: el miedo a los tiempos de inactividad, ya que, con cada minuto de inactividad del centro de datos, aumenta el riesgo de sufrir pérdidas graves. Según un informe de Uptime Institute, alrededor de un tercio de todas las interrupciones del suministro eléctrico notificadas cuestan más de 250.000$ y muchas superan el millón de $

La buena noticia es que la mayoría de las interrupciones de los servicios TI se pueden prevenir, y el 80% de los encuestados admite que su interrupción del suministro eléctrico más reciente podría haberse evitado.

En esta publicación, revisaremos algunas de las causas más comunes de los tiempos de inactividad de los centros de datos, como las interrupciones del suministro eléctrico, errores humanos, problemas de seguridad, refrigeración de las TI y también algunos pasos sencillos que puedes seguir para mitigar tus riesgos.

 

Causas de los tiempos de inactividad en los centros de datos

 

  • Interrupciones del suministro eléctrico

Si observamos las interrupciones del suministro eléctrico en los servicios públicos más importantes registradas por el Uptime Institute en un estudio reciente, veremos que las averías en el suministro fueron responsables de casi el 40% de dichas interrupciones (y el 33% de los encuestados dijeron que habían tenido este tipo de averías en el último año).

Esto hace que las interrupciones del suministro eléctrico sean la principal causa de los tiempos de inactividad.

Los problemas de red y los fallos del sistema de TI le siguen de cerca (sin embargo, si tenemos en cuenta los proveedores terceros del cloud, el colocation y el alojamiento en su conjunto, este grupo ocupa el segundo lugar entre las principales causas). 

 

  • Errores humanos

El Uptime Institute informó de que más del 70% de todas las interrupciones del suministro eléctrico en centros de datos son el resultado directo o indirecto de un error humano.

Estos errores comprenden desde errores muy simples (desconectar cables de un equipo de forma inadvertida o sobrecargar un circuito) hasta problemas más complejos (decisiones relacionadas con la disposición del equipo o unos procedimientos o una formación inadecuados).

Por ejemplo, los centros de datos que no siguen las mejores prácticas en la gestión de cables son vulnerables a los tiempos de inactividad cuando los cables de alimentación están tan comprimidos que el flujo de energía está restringido o cuando se usa el cable incorrecto para la aplicación.

 

  • Problemas de seguridad

Con sus enormes almacenes de datos y aplicaciones, los centros de datos son los principales objetivos de los piratas informáticos.

El ransomware, los servicios de acceso externo, los ataques a aplicaciones y la denegación de servicio distribuida (DDoS, por sus siglas en inglés) son métodos comunes que se utilizan para poner en peligro los sistemas.

En algunos centros de datos, el equipo se puede controlar y configurar de forma remota, lo que permite a los piratas informáticos interrumpir la alimentación. Y los que quieren comprometer los datos también pueden intentar atacar la estructura física del rack TI en sí.

Una empresa de software de ciberseguridad sugiere que «si bien los centros de datos contienen la mayor concentración de datos confidenciales y aplicaciones comerciales críticas, también tienden a tener los controles de seguridad más débiles, lo que permite que gran parte de estos datos altamente sensibles y críticos para la empresa sean vulnerables a los ataques cibernéticos».

 

  • Problemas en la refrigeración de los racks

No se puede sobrevalorar la importancia de una refrigeración adecuada del centro de datos y el rack TI.

Si observamos la causa principal de las interrupciones del suministro eléctrico más graves entre enero de 2016 y junio de 2018 (Uptime Institute, investigación del riesgo y la resiliencia, junio de 2018), la refrigeración fue responsable del 20% de estos incidentes.

Los servidores y los procesadores generan una cantidad significativa de calor (que crece a diario a medida que aumentan las densidades), lo que genera un riesgo continuo de sobrecalentamiento y averías si no se aplican los métodos y los equipos de refrigeración adecuados.

Por el contrario, una refrigeración excesiva puede crear humedad o condensación, que también podría provocar averías causadas por cortocircuitos y corrosión en los dispositivos TI.

 

Utiliza la refrigeración adecuada para mejorar la disponibilidad de los centros de datos

 

Hay tres tipos generales de refrigeración:

  • De sala
  • De pasillo (a veces denominado en línea)
  • De rack

La refrigeración de sala continua es la que se encuentra más lejos de las fuentes del calor generado y la refrigeración de rack es la que está más cerca, directamente dentro o conectada al propio rack TI.

Es fundamental que los responsables de las instalaciones de los centros de datos y los administradores de TI analicen en detalle los métodos de refrigeración más eficientes que hay disponibles y el proveedor con el que trabajarán para encontrar la solución más adecuada para sus necesidades.

Puedes leer más sobre estos métodos de refrigeración en nuestro artículo "Tendencias en la refrigeración de centros de datos".

 

Consejos adicionales para prevenir los tiempos de inactividad en los centros de datos

 

Los riesgos de los tiempos de inactividad deben controlarse en toda la empresa. Algunas amenazas son más graves, mientras que otras se pueden minimizar adoptando medidas sencillas, como:

  • Detectar de dónde proceden los problemas y dónde se puede mejorar al monitorizar el rendimiento de todos sus equipos. El software de monitorización puede enfocarse en las métricas de rendimiento tanto a nivel del centro de datos como a nivel del servidor, y la información de los datos se puede utilizar para garantizar una disponibilidad óptima. 

 

  • Asegurarse de que los servidores tengan la potencia de procesamiento y la capacidad de almacenamiento suficientes para satisfacer las necesidades de los clientes. Los servidores con un «tamaño adecuado» mejoran el rendimiento general de los centros de datos y minimizan la probabilidad de averías.

 

  • Agrupar equipos y racks TI de una manera que los equipos con densidades de carga de calor similares estén juntos. Esto hace que sea más sencillo abordar la refrigeración y prevenir un sobrecalentamiento.

 

  • Limpiar «un poco». Con el tiempo, el polvo y la suciedad se acumulan y pueden afectar el flujo de aire, disminuyendo la eficiencia del sistema de refrigeración. Ambos también pueden hacer que se acumule electricidad estática, lo que deriva en cortocircuitos que pueden hacer caer el sistema. Limpia por encima y por debajo de los racks TI para evitar estos problemas. 

 

  • Aprender de los fallos de los demás. La mayoría de los tipos de fallos del sistema ya se han producido y están bien documentados, lo que te brinda información que te permite adoptar medidas preventivas.

 

  • Solicitar a los proveedores de servicios de tu centro de datos (proveedores y operadores de cloud, alojamiento y colocation) que te proporcionen informes detallados del riesgo o la resiliencia. Este paso puede subrayar los riesgos potenciales e indicar cuáles son los mejores pasos a seguir para evitar un destino similar.

 

Un enfoque y un equipo de refrigeración incorrectos conllevan el riesgo de un tiempo de inactividad. Pero, ¿Cómo puedes saber qué es lo más adecuado para tu instalación? Habla con los expertos.

Descarga de manera gratuita nuestro White Paper «Refrigeración de Centros de Datos: 4 tipos efectivos de refrigeración líquida» para conocer las ventajas de una de las mejores formas de satisfacer estas nuevas demandas de manera eficiente y rentable.

Nueva llamada a la acción