¿Cómo protegernos frente a un escenario catastrófico de fallos en el sistema?

¿Qué opciones tenemos para protegernos frente a un escenario así?

Tras haber explicado en el post sobre Alta disponibilidad de Aplicaciones y Entornos Productivos I y II los problemas a los que nos enfrentábamos sobre fallos en el sistema, seguimos explorando este tema, dando ahora las soluciones que te recomendamos.

Partiendo de la premisa que disponemos de un solo CPD, tenemos diversas opciones:

Disponer de una segunda unidad de almacenamiento y realizar réplicas sobre la
misma, con herramientas como Veeam Backup and Replication o EMC Recover Point.

– Las ventajas de estos sistemas es que podemos disponer de réplicas de las MV’s de forma local o remota y a un coste asequible.

– En la siguiente tabla os contamos las diferencias entre ambos productos, una de las más importantes es desde luego el RPO en el cual Recover Point es claro ganador y no afecta a la producción. Por el contrario Recover Point no es un producto de backup y Veeam si nos ofrece esa funcionalidad adicional.

– Nuestro punto de vista es, que son soluciones complementarias que deben convivir juntas si lo que queremos es disponer de RPO muy bajos y además no afectar a la producción (No podemos estar lanzando snaps de nuestro Oracle cada 15 minutos!!!)

¿Qué ocurre si llega el fatídico día?

Hasta ahora hemos hablado de posibles escenarios de fallo dentro de una misma ubicación y como sobrevivir a ellos, ¿pero que pasa si es todo el CPD el que falla?

Es bueno introducir una consideración y saber que escenarios son los más posibles dependiendo de los eventos que suceden en el entorno IT para protegernos.

Como podemos ver, solo el 1% requieren que pongamos en producción un CPD secundario, el resto son el tipo de eventos que hemos comentado con anterioridad.

De la misma forma vamos a ver alternativas y opciones que nos da el mercado para poder disponer de medidas que hagan que nuestro negocio siga funcionando en perfectas condiciones en caso de este improbable 1%.

Replicación

La replicación ha sido el método más empleado para disponer de una copia Off-Site de nuestros datos. Hasta ahora la mayoría de empresas disponían de una replicación a nivel de cabinas de forma síncrona o asíncrona, siempre hablado de LUN’s completas.

Principales características:

  • RPO cerca de cero
  • RTO complejo en la mayoría de los casos, debido a la complejidad en las operaciones de restauración.
  • Failover complejo, Failback muchas veces imposible.
  • En caso de corrupción lógica del origen, el dato replicado también está corrupto, por lo que tenemos que optar por backup o acompañarlo de snaps de cabina, que añaden más complejidad.
  • No disponemos de granularidad para elegir que replicar a nivel de Máquina Virtual.

Recordemos que otro punto muy importante, al definir este tipo de solución es saber que carga queremos soportar en el CPD de respaldo, o solo los servicios mínimos o críticos.

A parte de esto, una consideración muy importante es que en estos escenarios, hay un Activo-Pasivo, por lo que normalmente disponemos de máquinas que no están trabajando y las hemos pagado.. mal negocio no?

En caso de que nuestra opción sea esta, por que nos encaja mejor o queramos aprovechar equipamiento retirado, podemos automatizar los procesos de Failover y Failback con herramientas que se integran con VMware y nos permiten reducir la complejidad y tiempo empleados, mejorando los RTO de forma sustancial.

Ventajas de Site Recovery Manager de VMWare:

  • Eliminamos la complejidad manual
  • Integrado con los sistemas de almacenamiento
  • Nos abstraemos de la capa física
  • Centralizamos los planes de DR.
  • Posibilidad de crear Workflows de arranque y apagado de máquinas
  • Test de pruebas, entornos de apagado de CPD, cumplir normativa

SI por el contrario, queremos disponer de una solución que puede ser desplegada de forma local o remota y que nos aporta la virtualización del almacenamiento, podemos optar por DELL EMC VPLEX o HIPERCONVERGENCIA.

 

EMC VPLEX:

Con VPLEX conseguimos federar el almacenamiento, que esto en resumen es como crear un “RAID de Cabinas”. Disponemos de una o más cabinas de un fabricante o varios y el sistema crea un capa virtual, que abstrae estas cabinas y presenta LUN’s concatenadas de las mismas.

Nuestros servidores físicos o virtuales siguen viendo LUN’s, pero estas están formadas por Lun’s concatenadas de diferentes cabinas. En caso de caída de una de ella, el sistema no lo nota y sigue funcionando de forma transparente.

Esta solucion de alta gama, nos permite disponer de CPD activo-activo, separados por distancias enormes y con la computación y almacenamiento trabajando, sin recursos ociosos y con RTO de cero.

 

HIPERCONVERGENCIA:

Aunque vamos a tratar la hiperconvergencia en otro blog más adelante, es bueno introducir de forma general el concepto de VSAN (VMWare) y como nos ayuda.

En este caso, disponemos de los mismos elementos: servidores, red y …… almacenamiento.. pero este está dentro de los servidores. Es VMWare VSAN quien se encarga de virtualizar este almacenamiento local y daros la magia del RAID de Máquinas Virtuales replicadas en los discos locales de cada servidor, según la política establecida.

Bueno, hemos podido ver las diferentes soluciones que existen en el mercado (no todas), pero si las más importantes y el concepto en los demás fabricantes es muy similar.

Con todo esto y según tu presupuesto, desde Base10 podemos diseñar la mejor solución para tu empresa.