Pipelines - Azure Data Factory

Orquestación de Pipeline Ingest - Proyecto¶

Configuración del Origen¶

Para poder realizar este segmento del proceso es necesario tener los recursos como la Virtual Machine con su respectiva conexión de Integration Runtimes(IR), el recursos Azure Data Lake Storage Gen2

El Pipeline consiste en la ingesta de datos desde el recurso de Virtual Machine hacia el recurso Azure Data Lake Storage Gen2

1.- Ingresamos a la sección de “Home” de Azure Data Factory
2.- Luego dar clic en “Ingest”

Pipeline Ingest - Azure Data Factory

Configurar modo de ejecución:

Indicamos que vamos a realizar un tarea de tipo "Built-in copy task"
Task cadence or task schedule: Seleccionamos "Run once now" que viene por defecto.
Haz clic al botón "Next".

Pipeline Ingest - Azure Data Factory

Configurar fuente de datos (Dataset):

1.- En tipo de fuente (Source type): Seleccionamos en este caso "File system", nos filtrara los linked services de "file system" para la conexión.
2.- En conexión (connection): Seleccionamos el linked service respectivo para este ejemplo el llamado "lkdsFileSystem".

En este punto 2 nuestro Azure Data Factory ya está lleyendo nuestro entorno de la VM, que tambieé podría se un entorno On-Premise.
3.- Seleccionamos la carpeta donde se encuentra almacenada la data a trabajar.
Mantenemos configuraciones por defecto.
4.- Haz clic en el botón "Next >".

Pipeline Ingest - Azure Data Factory

Configurar tipo de archivo (Configuration):

Se identifica el formato de la data.
Podemos pre visualizar la información obtenida para validar la data.
Haz clic en el botón "Next >".

Pipeline Ingest - Azure Data Factory

Configuración del Destino¶

Configurar fuente de datos (Dataset):

1.- En tipo de fuente (Source type): Seleccionamos en este caso "Azure Data Lake Storage Gen2", nos filtrara los linked services de "Azure Data Lake Storage Gen2" para la conexión.
2.- En conexión (connection): Seleccionamos el linked service respectivo para este ejemplo el llamado "lkdsAdls".
3.- Seleccionamos el directorio donde se almacenaremos la data a ingestada.
Mantenemos configuraciones por defecto.
4.- Seleccionamos como Comportamiento de copia(Copy behavior): "Preserve hierarchy" Preservar la jerarquía
5.- Haz clic en el botón "Next >".

Pipeline Ingest - Azure Data Factory

Acote punto 3 - Aki podemos ver la distribucion de directorios de nuestro container en Azure Data Lake Storage, en este caso seleccionaremos la capa "landing" donde almacenara la data cruda para poder ser procesada prosteriormente.

Pipeline Ingest - Azure Data Factory

Configurar formato de archivo:

Desactivamos la opción de Agregar encabezado al archivo (Add header to file), en caso nuestros archivos no tengan un encabezado del origen
Haz clic en el botón "Next >".

Pipeline Ingest - Azure Data Factory

Configurar nombre de pipeline:

1.- Definimos un nombre para nuestro Pipeline, en este caso le asignaremos el nombre de "PIPELINE_001_INGEST_RETAIL".
2.- Haz clic en el botón "Next >".

Pipeline Ingest - Azure Data Factory

Continuamos revisando las configuraciones y actualizamos los nombres de nuestros datasets para poder obtener una mejor identificación de los recursos a utilizar en este pipeline:

1.- Haz clic en "Edit"
2.- Asignale un nombre personalizado, por buenas practicas he decidido utilizar la siguiente convención llamando el origen como "src_fs_retail".
Continuamos, desplazamos hacia abajo.

Pipeline Ingest - Azure Data Factory

1.- Haz clic en "Edit"
2.- Asignale un nombre personalizado, por buenas practicas he decidido utilizar la siguiente convención llamando el destino como "des_adls_retail".
Clic en el botón de "Next >"

Pipeline Ingest - Azure Data Factory

Validamos que el Deployment este completado y le damos clic al botón "Finish".

Pipeline Ingest - Azure Data Factory

Regresamos a “Author”, seleccionamos nuestro pipeline "PIPELINE_001_INGEST_RETAIL" y ya lo podemos ejecutar con "Debug".

Pipeline Ingest - Azure Data Factory

En la parte inferior podremos validar si nuestro pipeline se ejecutó correctamente, además de tener datos adicionales sobre la ejecución.

Pipeline Ingest - Azure Data Factory

Si deseas cambiar la extensión de los archivos en el destino, puedes ir al apartado "Sink" y en la opción "File extension" actualizar al formato requerido.

Pipeline Ingest - Azure Data Factory

Podemos realizar un "Publish all" para guardar todas las actualizaciones en nuestro pipeline

Pipeline Ingest - Azure Data Factory

Finalmente podemos regresar a nuestro “ADLS”container “project” y validar la data.