Para las organizaciones que utilizan Azure como su principal proveedor de servicios cloud, Azure Data Factory es actualmente la herramienta predeterminada en cuanto a la orquestación de pipelines de procesamiento de datos. Es compatible con la ingesta de datos, copiando datos desde y hacia diferentes tipos de almacenamientos locales o en Azure y ejecutando lógica de transformación. Aunque sí que hemos tenido una experiencia adecuada con Azure Data Factory en migraciones sencillas de almacenamientos de datos desde local a la nube, no recomendamos el uso de Azure Data Factory para orquestación de pipelines complejas de procesamiento de datos y flujos de trabajo. Hemos tenido algún éxito con Azure Data Factory cuando lo hemos usado principalmente para mover datos entre sistemas. Para los pipelines de datos más complejos, todavía tiene sus retos, incluyendo una depuración mediocre y el informe de errores. Adicionalmente, la observabilidad es limitada, ya que la capacidad de registro de Azure Data Factory no se integra con otros productos como Azure Data Lake Storage o Databricks, lo que hace que sea complicado conseguir observabilidad extremo a extremo. Adicionalmente, la disponibilidad de los mecanismos de data source-triggering (desencadenamiento de fuente de datos) está limitada a ciertas regiones. En estos momentos, animamos a usar otras herramientas de código libre para la orquestación (e.g., Airflow para las pipelines de datos complejas y limitar el uso de Azure Data Factory para la copia de datos o la toma de instantáneas. Nuestros equipos siguen utilizando Data Factory para mover y extraer datos, pero para operaciones más amplias recomendamos otras herramientas con un flujo de trabajo más completo.
Azure Data Factory (ADF) es actualmente el producto por defecto de Azure, para la orquestación de flujos de procesamiento de datos. Permite ingesta de datos, copia de datos desde y hacia diferentes tipos de almacenamiento tanto On-Prem como Azure, y la ejecución de lógica de transformación. Si bien hemos tenido algunos resultados aceptables con ADF para migraciones simples de almacenes de datos de On-Prem a la nube, desaconsejamos el uso de Azure Data Factory para la orquestación de flujos de procesamiento de datos complejos. Nuestra experiencia ha sido desafiante debido a diferentes factores, incluyendo una cobertura limitada de capacidades que pueden implementarse dando prioridad a la codificación, ya que parece que ADF está priorizando dejar disponible primero las capacidades de plataforma de baja codificación; pocas facilidades para depuración y reporte de errores; observabilidad limitada ya que las capacidades de log de ADF no se integran con otros productos como Azure Data Lake Storage o Databricks, haciendo muy complicado disponer de una observabilidad de extremo a extremo en su lugar; y la disponibilidad de mecanismos de activación de la fuente de datos limitada a algunas regiones solamente. En este momento, aconsejamos utilizar otras herramientas de orquestación de código abierto (por ejemplo, Airflow) para flujos de datos complejos, y limitar el uso de ADF a copia de datos o snapshots. Confiamos en que ADF solucionará estas deficiencias para poder abastecer adecuadamente más flujos de procesamiento de datos complejos y priorizar el acceso a capacidades que anteponen la codificación.