PoC #1: Migración y Replicación de datos desde on-premises hacia AWS - parte 2
Experimento con datos y resultados
Para que puedas tener un contexto sobre esta PoC, te recomiendo que primero leas la parte 1, donde revisamos el problema a resolver, los objetivos, el diseño de la solución en AWS con su diagrama y los escenarios. En esta segunda parte presentaremos principalmente los resultados.
En esta segunda parte vamos a revisar lo siguiente:
Actividades realizadas
Resultados
Análisis
Defifi
Es importante considerar el contexto de la PoC, si bien los resultados entregan evidencia sustancial para fundamentar decisiones técnicas, en la práctica recomendaría intentar realizar sus propias PoC’s de acuerdo a sus contextos. De esta forma sus decisiones tendrán un mayor impacto.
1. Actividades realizadas
Para la construcción de escenarios, se realizaron una serie de actividades/tareas, en esta sección se nombran a modo general (porque para cada una, hay una serie de pasos para concretarla), con el fin de que sirvan de guía para futuras PoC.
Acceso AWS
Creación cuenta
Creación usuarios administradores
Creación VPC
Creación VPG
Creación CGW
Creación de bucket S3 Raw
Creación Instancia de réplica
Policy + Rol IAM para conectividad con el bucket S3 raw
S3 como target endpoint (hacer test de conexión)
Habilitar VPN Site-toSite
DB Oracle como source endpoint (hacer test de conexión)
DMS Task de migración con filtros para año 2022
Hints para filtrar información
DMS date format YYYY-MM-DD ó YYYY-MM-DD HH:MM:SS para filtrar.
DMS filtro entre fechas: “between”
DMS para referenciar vistas, agregar en json: "object-locator": {"table-type": "view"}
Oracle: uso de mayúscula en tablas y columnas
Oracle: uso de esquema
Creación de vistas en on-premise que cumpla criterio del filtro
2. Resultados
Para cada escenario se presentan 3 ítems con sus resultados:
Tiempo de carga: tiempo transcurrido en completar la transferencia de datos.
VPN DataIn: cantidad de datos entrantes hacia la VPN de AWS mientras transcurre la DMS Task.
Instancia de replicación: métricas asociadas al consumo de la instancia (CPU, Memoria).
2.1. Escenario 1
2.1.1. Tiempo de carga
Se utilizó la instancia dms.t3.medium. La tabla, muestra el tiempo que demoró la transferencia para cada tabla.
El tiempo total para terminar la tarea de migración DMS fue de 02:10:14 (HH:MM:SS) que es el equivalente al tiempo de carga transcurrido de la tabla que demora más (en este caso, corresponde a la Tabla_5)
2.1.2. VPN DataIn
La figura muestra la cantidad de datos entrantes hacia la VPN en AWS
El valor máximo para esta métrica fue de 17,7 MB.
2.1.3. Instancia de replicación
Las figuras muestran el uso de memoria en promedio en MB y el porcentaje de utilización de CPU de la instancia de replicación
El valor máximo de uso de memoria fue de 1,3 GB
El valor máximo del porcentaje de utilización de CPU fue de 18,906%
2.2. Escenario 2
2.2.1. Tiempo de carga
Se utilizó la instancia dms.c5.xlarge. La tabla, muestra el tiempo que demoró la transferencia para cada tabla.
El tiempo total para terminar la tarea de migración DMS fue de 01:57:41 (HH:MM:SS)
2.2.2. VPN DataIn
La figura muestra la cantidad de datos entrantes hacia la VPN en AWS
El valor máximo para esta métrica fue de 25,2 MB.
2.2.3. Instancia de replicación
Las figuras muestran el uso de memoria en promedio en MB y el porcentaje de utilización de CPU de la instancia de replicación
El valor máximo de uso de memoria fue de 2,816 GB
El valor máximo del porcentaje de utilización de CPU fue de 18,6%
3. Análisis
3.1. Tiempo de carga
La tabla, muestra de forma comparativa el tiempo de carga para cada tabla de acuerdo con su escenario
Para la tabla más ligera Tabla_2, el escenario 2 demoró 23 segundos más en completar la migración en comparación al escenario 1.
Para la tabla más pesada Tabla_5, el escenario 2 fue 12:33 min. más rápido en completar la migración en comparación al escenario 1.
En general, el escenario 2 tardó 12:33 menos en completar la migración de los 16,2 GB en comparación al escenario 1. Es decir, fue aproximadamente un 10% más rápido.
3.2. VPN DataIn
La tabla muestra los valores máximos obtenidos para la cantidad de datos entrantes en la VPN AWS.
En el escenario 1, se obtuvo un valor máximo mayor en 7,5 MB con respecto al escenario 1. Es decir, mejoró en su capacidad máxima un 42,3%.
3.3. Instancia de replicación
La tabla muestra los valores máximos promedio obtenidos para uso de memoria y utilización de CPU de la instancia de replicación.
El uso de memoria promedio máximo es de un 32,5% para el escenario 1 y de un 35,2% para el escenario 2.
En la utilización de CPU promedio máximo en ambos escenarios corresponde a un 18% aproximado, sin embargo, para el escenario 2 implica utilizar el doble de CPU (0,744) en comparación el escenario 1 (0,378)
3.4. Costos
El costo por instancia para cada escenario se muestran en la tabla
Para el escenario 2, cuesta aproximadamente 4,2 veces más por hora de uso en comparación al escenario 1.
4. Defifi
Si llegaste hasta acá te quiero agradecer, fue una PoC interesante y que reveló bastante información para tomar decisiones técnicas. Me gustaría pedirte que dejes en los comentarios, ¿qué aprendiste de esto?