En  el proceso de gestionar la disponibilidad de los recursos para SAP, una forma de económica y automática de recuperar el servicio cuando existen problemas físicos es mantener configuradas las instancias con EC2 Auto Recovery

Recuperación automática de instancias

Ocasionalmente las instancias EC2 que alojan sistemas SAP, podrían quedar en un estado de degradación de servicios motivado a fallas que pueden presentarse en el equipo físico (host) en el que la instancia reside, lo que puede provocar que los sistemas puedan comenzar a degradarse o inclusive fallar quedando inoperables. Es por ello, que una manera económica y sustentable para corregir automáticamente esta situación es utilizando la configuración del Auto Recovery en las instancias EC2. Esta funcionalidad permite identificar y proceder automáticamente a recuperarse en una nueva instancia idéntica a la original, la nueva instancia es creada con el mismo ID de la instancia anterior, direccionamiento IP, hostname, discos, y todos los metadatos, realizando todo el proceso de manera automatizada, costo eficiente y minimizando el objetivo de tiempo de recuperación (RTO).

La manera de habilitar la recuperación automática para instancias EC2 funciona creando una alarma de AWS CloudWatch que supervise el estado de la instancia. Entre los ejemplos de problemas que hacen que las verificaciones del estado del sistema fallen se incluyen:

  • Pérdida de conectividad de red
  • Pérdida de energía del sistema
  • Problemas de software en el host físico
  • Problemas de hardware en el host físico que afectan la accesibilidad de la red

Sin embargo, normalmente se necesitan menos de 15 minutos para que una instancia fallida se reinicie, EC2 Auto Recovery no ofrece un objetivo de nivel de servicio. Como punto importante hay que validar con el SAP Basis que los servicios de SAP están programados para iniciar de manera automática.

El consultor SAP/Soporte de SAP debe ser notificado cuando el AutoRecovery se realiza (puede ser notificado mediante un SNS) para ayudar con el soporte necesario para activar la licencia de SAP en el nuevo servidor que se desplegará de ser necesario. Dado que para este punto puede ser necesario la generación de llaves de hardware, se deben consultar las siguientes notas de SAP. Por favor tenga en cuenta que requiere acceso a SAP One Support Launchpad:

  • SAP Note 1178686 – Linux: Alternative method to generate a SAP hardware key
  • SAP Note 2327159 – SAP NW License Behavior in Virtual and Cloud Environments
  • SAP Note 1697114 – Determination of hardware ID In Amazon clouds
  • SAP Note 2113263 – Additional public key for AWS Hardware ID
  • SAP Note 2319387 – Adjustment of the license check for AWS China

Amazon EC2 realiza verificaciones automáticas en cada instancia EC2 en ejecución para identificar problemas de hardware y software.

Tipos de verificaciones de estado

Hay dos tipos de comprobaciones de estado: comprobaciones de estado del sistema y comprobaciones de estado de instancia.


Comprobaciones del estado del sistema

Supervisa los sistemas AWS en los que se ejecuta su instancia. Estas comprobaciones detectan problemas subyacentes con su instancia que requieren la intervención de AWS para su reparación. Cuando falla una verificación del estado del sistema, puede optar por esperar a que AWS solucione el problema o puede resolverlo usted mismo. Para las instancias respaldadas por Amazon EBS, puede detener e iniciar la instancia usted mismo, lo que en la mayoría de los casos hace que la instancia se migre a un nuevo host. Para las instancias respaldadas por el almacén de instancias, puede terminar y reemplazar la instancia.

Comprobaciones del estado de la instancia

Supervise el software y la configuración de red de su instancia individual. Amazon EC2 verifica el estado de la instancia enviando una solicitud de protocolo de resolución de direcciones (ARP) a la interfaz de red (NIC). Estas comprobaciones detectan problemas que requieren su intervención para repararlos. Cuando falla la verificación del estado de una instancia, normalmente debe abordar el problema usted mismo (por ejemplo, reiniciando la instancia o realizando cambios en la configuración de la instancia).


Activando el Auto-Recovery

1. Desde la consola AWS “CloudWatch”, se selecciona Alarmas → Crear Alarmas

2. Seleccione la instancia EC2 y buscas por la métrica StatusCheckFailed_System

3. Seleccione en Static, el valor Minimum y posterior coloque el periodo de tiempo que desea monitorear, en nuestro caso colocamos 1 minuto:

En la condición validamos que se seleccione el tipo de Threshold en Estático con un valor igual o mayor que >= 1 y en las configuraciones adicionales establecemos el Datapoints 1 out of 3

Seguimos con las acciones de la configuración, si deseamos ser notificados podemos seleccionar que cuando exista una alarma se nos envíe una notificación vía SNS a un tópico de nuestra preferencia (aquí podemos seleccionar el correo del soporte SAP)

En EC2 action es donde indicaremos la acción de Auto Recovery, seleccionando que cuando se cumpla la alarma se realice la acción de Auto Recovery como se muestra en la siguiente imagen:

Añada el nombre de la Alarma y una breve descripción, dar al botón siguiente, revise la configuración y seleccione crear Alarma

Conclusión

La solución de Auto Recovery es altamente recomendada para las instancias, ya que ayuda a recuperarse en poco tiempo de problemas inesperados provocados por fallas a nivel de hardware subyacente, de red o de energía.

Una vez creada la alarma, Cloudwatch se encargará de monitorear su instancia y en caso de cumplirse el umbral de la métrica seleccionada (StatusCheckFailed_System) procederá a realizar la acción, recuperando la instancia y minimizando el tiempo de caída del mismo. En todo caso es importante habilitar el envío de la alerta tanto al administrador de SAP como al administrador de la instancia.