Resumen del trabajo (en una frase):
Serás responsable de diseñar, mantener, probar y gobernar el programa de Recuperación ante Desastres (Disaster Recovery, DR) para sistemas de IT y para sistemas vinculados a la manufactura (OT/ICS), asegurando que los servicios críticos puedan recuperarse dentro de objetivos acordados (RTO/RPO) y cumpliendo normativas y estándares.
Tareas diarias / recurrentes:
- Mantener documentación y playbooks (runbooks) de recuperación.
- Monitoreo de la salud de backups/replicaciones y del estado de SLAs (backups exitosos, lag de replicación).
- Coordinar y ejecutar ejercicios (tabletop, simulación parcial, failover controlado).
- Hacer BIAs (Business Impact Analyses) y reasignación de prioridades.
- Gestionar proveedores, presupuestos y recursos para proyectos DR.
- Soportar respuesta a incidentes reales y actuar como punto de contacto DR.
- Mantener cumplimiento con ISO 22301, NIST, SEMI u otros estándares aplicables.
Definiciones clave rápidas (para internalizar):
- RTO (Recovery Time Objective): tiempo máximo aceptable para recuperar un servicio.
- RPO (Recovery Point Objective): punto máximo de datos que se puede perder (ej., 15 min).
- BIA: análisis del impacto al negocio para categorizar criticidad.
- Playbook / Runbook: pasos detallados a ejecutar durante la recuperación.
- Tabletop / Full failover: niveles de pruebas de DR.
- Cold/Warm/Hot site: tipos de sitio de recuperación (desde vacío hasta listo para producción).
- CDP (Continuous Data Protection): protección con replicación continua en tiempo real.
Hardware / Infraestructura física (común en empresas tipo):
- Centros de datos on-prem: racks, SAN/NAS, switches de producción y topologías redundantes (leaf/spine).
- Almacenamiento empresarial: NetApp, EMC/Dell PowerMax/PowerStore, Pure Storage, HPE 3PAR.
- Cabinas/arrays con replicación/async & sync replication.
- Servidores x86 (Dell/HP/Lenovo), blades y virtualización (VMware ESXi, vSphere).
- Tape libraries / LTO drives (IBM, HPE) para archivado a largo plazo (si se usa).
- Redundancias eléctricas: UPS, generadores, transfer switches, PDUs.
- Equipos de facilities críticos: HVAC redundante para salas limpias y control de humedad/partículas (importante en semiconductores).
- Infraestructura OT: PLCs, DCS, sistemas de control, puertas de enlace industriales, segmentación física o lógica desde IT.
Software / Plataformas comerciales (frecuentemente usadas):
- Backup/replication/orchestration: Veeam, Rubrik, Commvault, Veritas NetBackup, Dell EMC Avamar/NetWorker, Zerto (replicación/orquestación).
- Virtualization/DR orchestration: VMware Site Recovery Manager (SRM), vSphere Replication, Microsoft Azure Site Recovery, AWS Elastic Disaster Recovery.
- Cloud providers (DR target / backup): AWS, Azure, Google Cloud — soluciones nativas y servicios de recuperación.
- Storage replication & snapshot management: herramientas del proveedor de almacenamiento (NetApp SnapMirror, Pure Cloud Snapshots).
- Monitoring / observabilidad / SIEM: Splunk, Elastic Stack (ELK), Datadog, Prometheus + Grafana, Nagios, Zabbix.
- ITSM / runbook / automation: ServiceNow, BMC Remedy, Ansible, Rundeck, SaltStack, Terraform (para infraestructura como código y reproducibilidad).
- Database replication / HA: Oracle Data Guard, Microsoft SQL Server Always On, MySQL Group Replication / Percona XtraDB, PostgreSQL streaming replication, GoldenGate.
- Storage-level replication & CDP vendors: Zerto, Actifio (o soluciones de snapshot/replica nativas).
- Audit / compliance: herramientas de GRC o módulos en ServiceNow / Archer.
Software / herramientas open-source útiles o comunes:
- Backup/scripting: Bacula, Restic, Borg, rsync, Duplicity (más común en infra no crítica o de soporte).
- Monitoring/metrics: Prometheus + Grafana, Zabbix, ELK stack (Elasticsearch, Logstash, Kibana).
- Orquestación y automatización: Ansible, Terraform, Salt, Jenkins/GitLab CI para pipelines de prueba.
- Infraestructura como código y pruebas: containers/Kubernetes (para apps cloud-native), Velero (backup/restore para Kubernetes).
- ChatOps / runbooks colaborativos: scripts en Git, Notion/Confluence para documentación.
Plataformas OT/ICS y consideraciones:
- Herramientas SCADA/PLC de Siemens, Rockwell/Allen-Bradley, Schneider; protocolos Modbus/PROFINET/OPC UA.
- Importante: separar planes DR para OT y para IT; en OT a menudo hay recuperación manual/segura y procedimientos aprobados por ingeniería de planta.
Tipos de pruebas DR que debes conocer:
- Tabletop exercise (discusión de roles y pasos).
- Walkthrough (recorrido paso a paso por runbooks).
- Full failover test (recuperación real a site de DR o cloud).
- Partial failover / application-level tests.
- Parallel run (ejecutar sistema de recuperación en paralelo a prod para validar integridad).

