Recuperación ante desastres y continuidad

Un plan de recuperación ante desastres o DRP incluye el conjunto de sistemas (hardware), aplicaciones (software), comunicaciones y procedimientos que permiten –en caso de desastre o pérdida de servicio en el Centro de Proceso de Datos principal— la continuidad del acceso al sistema de información, con el mínimo tiempo de indisponibilidad, y la menor pérdida de datos .

El DRP se diseña tras determinar razonablemente qué procesos y datos son más críticos, qué cantidad de datos se pueden perder en un incidente grave, en cuánto tiempo se desea restaurar el servicio y cuán vulnerables son las operaciones ante un desastre. (Mientras que el DRP se restringe a la restauración de los activos de IT, el plan de continuidad de negocio (BCP) es más general y abarca todos los aspectos operativos en sentido amplio).

Para intentar minimizar el tiempo de recuperación (RTO) es decir el tiempo en que los sistemas están indisponibles por un desastre y el punto de recuperación (RPO, es decir el tiempo – pasado – del que se puede recuperar una imagen coherente y operativa de los sistemas) existen múltiples estrategias (sucesivas o escalonadas en función de estos parámetros). Los servicios gestionados y de CPD de interhost_, así como la gestión de dos CPD en ubicaciones distintas (Madrid y Avilés) e interconectados por una red privada, ponen a disposición del cliente los elementos necesarios para implantar un portfolio de soluciones y un plan de disaster recovery completo, sin necesidad de recurrir a otros proveedores (obviamente una solución completa e integral de disaster recovery requiere de un conocimiento preciso y exhaustivo de la plataforma de explotación, de su parametrización, de los mecanismos de acceso a la misma, de las medidas de seguridad, de las políticas de salvaguarda, etc.).

El servicio de interhost_ para implantar un DRP comienza con el servicio de copias de seguridad prestado tanto para máquinas físicas a nivel de fichero (mediante agentes específicos), como para servidores virtuales (con la posibilidad del denominado image level backup, solución óptima para disaster recovery). En una segunda fase se puede optar –para equipamiento físico— por el denominado bare metal backup/recovery (se salvaguardan datos y una imagen del servidor de producción) al objeto de minimizar el tiempo RTO. Comoquiera que la recuperación de un servidor desde una imagen no es evidente salvo que el hardware de origen y el de destino sean similares el mantenimiento de esta solución es complejo, frente a la facilidad del image level backup de entornos virtuales.

interhost_ también soporta la posibilidad de efectuar el backup de forma remota o en otro CPD (electronic vaulting) alternativo, incluso de forma continua (CDP, Protección de Datos Continua) lo que permitiría alcanzar un RPO prácticamente cero, aunque la solución exige agentes de gestión y restuaración.

En todo caso la versatilidad que supone la gestión conjunta de un segundo CPD permite implantar soluciones de replicación de datos entre sites lo que constituye la solución más general para minimizar el RPO/RTO. La réplica puede a priori ser síncrona o asíncrona, aunque el primer mecanismo es muy sensible a la latencia de red y puede ser inaceptable por motivos de rendimiento. Cabe decir que la replicación proporciona protección de accesibilidad a los datos siendo la principal ventaja de la replicación remota tanto síncrona como asíncrona la mínima (asíncrona) o nula (síncrona) exposición al riesgo de pérdida de datos durante un desastre. interhost_ replica de forma automática y estándar las copias de seguridad entre los CPD de Madrid y Avilés haciendo uso de las facilidades que propone el fabricante de la solución y de sendos arrays en las dos ubicaciones

Si por fin lo que se desea es minimizar tanto el RPO como el RTO la tecnología de clúster geográfico activo/activo entre sites (mediante mirroring de datos) es la más eficaz y constituirá el estadio último de las denominadas arquitecturas de alta disponibilidad.

Más allá de las copias de seguridad es obvio que la implantación de un solución de réplica (síncrona, asíncrona, local, remota, clúster, etc.) exige un proyecto detallado: ha de tenerse en cuenta que dada la variabilidad y heterogeneidad de los sistemas alojados en cada caso se hará necesario el diseño de un plan específico y ad hoc que tenga en consideración la dependencia de las soluciones de réplica de la semántica de la propia aplicación a proteger.