Gerente del Programa de Recuperación ante Desastres de TI. Qué implica el puesto — definiciones, responsabilidades y plataformas de hardware y software comunes ¿Qué necesitas saber para una entrevista de trabajo?

Seguridad Informática_Planes de Contingencia_ Recuperación en Desastres_Análisis de Riesgos_FILEMAKER _GRC_Cursos_Consultoria-025

Resumen del trabajo (en una frase):
Serás responsable de diseñar, mantener, probar y gobernar el programa de Recuperación ante Desastres (Disaster Recovery, DR) para sistemas de IT y para sistemas vinculados a la manufactura (OT/ICS), asegurando que los servicios críticos puedan recuperarse dentro de objetivos acordados (RTO/RPO) y cumpliendo normativas y estándares.

Tareas diarias / recurrentes:

  • Mantener documentación y playbooks (runbooks) de recuperación.
  • Monitoreo de la salud de backups/replicaciones y del estado de SLAs (backups exitosos, lag de replicación).
  • Coordinar y ejecutar ejercicios (tabletop, simulación parcial, failover controlado).
  • Hacer BIAs (Business Impact Analyses) y reasignación de prioridades.
  • Gestionar proveedores, presupuestos y recursos para proyectos DR.
  • Soportar respuesta a incidentes reales y actuar como punto de contacto DR.
  • Mantener cumplimiento con ISO 22301, NIST, SEMI u otros estándares aplicables.

Definiciones clave rápidas (para internalizar):

  • RTO (Recovery Time Objective): tiempo máximo aceptable para recuperar un servicio.
  • RPO (Recovery Point Objective): punto máximo de datos que se puede perder (ej., 15 min).
  • BIA: análisis del impacto al negocio para categorizar criticidad.
  • Playbook / Runbook: pasos detallados a ejecutar durante la recuperación.
  • Tabletop / Full failover: niveles de pruebas de DR.
  • Cold/Warm/Hot site: tipos de sitio de recuperación (desde vacío hasta listo para producción).
  • CDP (Continuous Data Protection): protección con replicación continua en tiempo real.

Hardware / Infraestructura física (común en empresas tipo):

  • Centros de datos on-prem: racks, SAN/NAS, switches de producción y topologías redundantes (leaf/spine).
  • Almacenamiento empresarial: NetApp, EMC/Dell PowerMax/PowerStore, Pure Storage, HPE 3PAR.
  • Cabinas/arrays con replicación/async & sync replication.
  • Servidores x86 (Dell/HP/Lenovo), blades y virtualización (VMware ESXi, vSphere).
  • Tape libraries / LTO drives (IBM, HPE) para archivado a largo plazo (si se usa).
  • Redundancias eléctricas: UPS, generadores, transfer switches, PDUs.
  • Equipos de facilities críticos: HVAC redundante para salas limpias y control de humedad/partículas (importante en semiconductores).
  • Infraestructura OT: PLCs, DCS, sistemas de control, puertas de enlace industriales, segmentación física o lógica desde IT.

Software / Plataformas comerciales (frecuentemente usadas):

  • Backup/replication/orchestration: Veeam, Rubrik, Commvault, Veritas NetBackup, Dell EMC Avamar/NetWorker, Zerto (replicación/orquestación).
  • Virtualization/DR orchestration: VMware Site Recovery Manager (SRM), vSphere Replication, Microsoft Azure Site Recovery, AWS Elastic Disaster Recovery.
  • Cloud providers (DR target / backup): AWS, Azure, Google Cloud — soluciones nativas y servicios de recuperación.
  • Storage replication & snapshot management: herramientas del proveedor de almacenamiento (NetApp SnapMirror, Pure Cloud Snapshots).
  • Monitoring / observabilidad / SIEM: Splunk, Elastic Stack (ELK), Datadog, Prometheus + Grafana, Nagios, Zabbix.
  • ITSM / runbook / automation: ServiceNow, BMC Remedy, Ansible, Rundeck, SaltStack, Terraform (para infraestructura como código y reproducibilidad).
  • Database replication / HA: Oracle Data Guard, Microsoft SQL Server Always On, MySQL Group Replication / Percona XtraDB, PostgreSQL streaming replication, GoldenGate.
  • Storage-level replication & CDP vendors: Zerto, Actifio (o soluciones de snapshot/replica nativas).
  • Audit / compliance: herramientas de GRC o módulos en ServiceNow / Archer.

Software / herramientas open-source útiles o comunes:

  • Backup/scripting: Bacula, Restic, Borg, rsync, Duplicity (más común en infra no crí­tica o de soporte).
  • Monitoring/metrics: Prometheus + Grafana, Zabbix, ELK stack (Elasticsearch, Logstash, Kibana).
  • Orquestación y automatización: Ansible, Terraform, Salt, Jenkins/GitLab CI para pipelines de prueba.
  • Infraestructura como código y pruebas: containers/Kubernetes (para apps cloud-native), Velero (backup/restore para Kubernetes).
  • ChatOps / runbooks colaborativos: scripts en Git, Notion/Confluence para documentación.

Plataformas OT/ICS y consideraciones:

  • Herramientas SCADA/PLC de Siemens, Rockwell/Allen-Bradley, Schneider; protocolos Modbus/PROFINET/OPC UA.
  • Importante: separar planes DR para OT y para IT; en OT a menudo hay recuperación manual/segura y procedimientos aprobados por ingeniería de planta.

Tipos de pruebas DR que debes conocer:

  • Tabletop exercise (discusión de roles y pasos).
  • Walkthrough (recorrido paso a paso por runbooks).
  • Full failover test (recuperación real a site de DR o cloud).
  • Partial failover / application-level tests.
  • Parallel run (ejecutar sistema de recuperación en paralelo a prod para validar integridad).

Contáctanos! / Contact Us.

Contactanos-IADARA-Consultoria Especializada-Desarrollos a la Medida-Ciberseguridad-FileMaker
Contactanos-IADARA-Consultoria Especializada-Desarrollos a la Medida-Ciberseguridad-FileMaker

Please let us know how can we help you filling the following form or gives a call: +52 55 2060 4781 , number in Mexico.

Contáctenos llenando este formato o puede llamar al +52 55 2060 4781 en México.
Por favor, díganos sus necesidades y requerimientos.

    Related Posts