Archivo de Febrero de 2018 Azure Data Factory (ADF) es el Orquestador nativo de Azure para entornos de Big Data, el equivalente a Oozie y Sqoop de Apache. Se trata de un servicio (PaaS) en modalidad de pago por uso (pay as you go), que permite encapsular Workflows ó Pipelines, las cuales pueden contener cualquier actividad necesaria para copiar y procesar/transformar datos (ej: U-SQL, Azure ML, MapReduce, Spark, Hive, etc.), y también nos permitirá planificar su ejecución desatendida y recurrente con hasta una Cadencia de Ingesta de Datos de 15 minutos (Time Slice ó Activity Window). Podremos redesplegarlos, pausarlos, pararlos, reanudarlos, reprocesarlos, etc. Oozie y Sqoop son dos de las principales tecnologías que podemos encontrar dentro de un Cluster de Hadoop, como es el caso de Azure HDInsight (Hortonworks). Oozie es un motor que permite ejecutar Workflows de acciones de diferentes tipos (ej: MapReduce, Hive, Pig, Sqoop, enviar emails, etc.) dentro de un Cluster de Hadoop, para que todas estas acciones se realicen en el orden correcto, permitiendo paralelizar, ejecución en ramas condicionadas, control de errores, etc. Sqoop es una tecnología que permite transferir datos a dentro y a fuera del almacenamiento compartido de nuestro Cluster de Hadoop HDInsight. Es un servicio para integrarse con bases de datos a través de JDBC, que traduce su esfuerzo a trabajos MapReduce. Pig es una tegnología que nos permite realizar transformaciones de datos utilizando el lenguaje Pig Latin, para lo cual utiliza resultados intermedios que denomina relaciones (relations), y que podemos extender creando funciones definidas por el usuario (UDF) en lenguajes como Java, C# y Python. Podemos utilizar la interfaz de comandos Grunt desde una sesión SSH (a través del comando pig), para ejecutar sentencias Pig Latin de forma interactiva o como un bloque (batch). Pig es una de las tecnologías que tenemos disponibles al crear un nuevo Cluster Hadoop con Azure HDInsight (Hortonworks). Hive proporciona un lenguaje con una sintaxis similar a SQL (HiveQL), que permite leer, escribir, y gestionar grandes DataSets. De este modo, podemos leer el contenido de una carpeta como si fuera una tabla, utilizando una sintaxis similar a SQL. Estas consultas son convertidas a trabajos (Jobs) que tienen asociadas operaciones Map and Reduce (habitualmente utilizando el motor Tez, en lugar del motor MapReduce). Hive lo tenemos disponible en Azure al montar un Cluster de Hadoop con HDInsight (que es Hortonworks). Una vez desplegado HDInsight, podremos consumir Hive desde la Hive Shell en una sesión SSH, la consola web para ejecutar consultas HiveQL (HUE), Visual Studio con Azure SDK, PowerShell, ODBC para Hive, etc. Como parte de la Solución de Big Data ofrecida por Microsoft en Azure, tenemos Azure Data Lake Store (como solución de almacenamiento infinito, cifrado, compatible con HDFS, e integrado en Azure AD) y Azure Data Lake Analytics (como solución de procesamiento masivo en paralelo), dos soluciones ofrecidas en formato Software as a Service (SaaS), que gracias a la potencia y riqueza del Lenguaje U-SQL (incluyendo su integración con C#, la utilización de los catálogos U-SQL de Analytics, y su integración con Visual Studio), nos permitirán realizar cualquier cosa que nos propongamos, de una forma rápida y sencilla. Hay producto. Git es el software de control de versiones de código diseñado por Linus Torvalds, ligero y distribuido, que se basa en una sencilla estructura de ficheros y carpetas por repositorio, gestionada a través de línea de comandos (el comando git). Git ha obtenido una gran popularidad en los últimos años, y junto a soluciones cloud como GitHub, no sólo permite los entornos de despliegue rápido e integración continua, sino que también favorecen el Social Coding, colaborar en proyectos de software de una manera rápida, sencilla y distribuida: clonar repositorios para trabajo local, push/merge de código, issues, forking, pull requests, y mucho más. Para quién aún no lo sepa, Visual Studio 2017 está disponible como descarga gratuita, tanto para Windows como para macOS, en su versión Visual Studio 2017 Community, prácticamente idéntica a la edición Professional, donde la principal diferencia la encontraremos en las condiciones de licenciamiento. De este modo, Visual Studio es accesible al gran público, para entornos de aprendizaje, investigación, desarrolladores individuales, contribución a proyectos de código abierto (Open Source), y organizaciones no empresariales para un máximo de cinco usuarios (la pequeña empresa). |