GuilleSQL :: Microsoft SQL Server, SSIS, y más !!

Introducción a Oozie y Sqoop en Azure HDInsight


Oozie y Sqoop son dos de las principales tecnologías que podemos encontrar dentro de un Cluster de Hadoop, como es el caso de Azure HDInsight (Hortonworks). Oozie es un motor que permite ejecutar Workflows de acciones de diferentes tipos (ej: MapReduce, Hive, Pig, Sqoop, enviar emails, etc.) dentro de un Cluster de Hadoop, para que todas estas acciones se realicen en el orden correcto, permitiendo paralelizar, ejecución en ramas condicionadas, control de errores, etc. Sqoop es una tecnología que permite transferir datos a dentro y a fuera del almacenamiento compartido de nuestro Cluster de Hadoop HDInsight. Es un servicio para integrarse con bases de datos a través de JDBC, que traduce su esfuerzo a trabajos MapReduce.

Oozie: Ejecución de Workflows en un Cluster de Hadoop

Oozie es un motor que permite ejecutar Workflows de acciones de diferentes tipos (ej: MapReduce, Hive, Pig, Sqoop, enviar emails, etc.) dentro de un Cluster de Hadoop. En este sentido es el orquestador o coordinador, para que todas estas acciones se realicen en el orden correcto para conseguir el resultado que deseamos, permitiendo paralelizar la ejecución de dichas acciones, su ejecución en ramas condicionadas, control de errores, etc. Para ello, necesitaremos crear un Oozie Workflow file (un fichero xml) y los Scripts necesarios (HiveQL, Pig Latin, etc.).

Podemos parametrizar un Script ejecutado en un Workflow de Oozie, para evitar hardcodear en su interior valores que pueden cambiar según el entorno de ejecución (ej: Producción, Test, Desarrollo, etc) o según cualquier otro criterio. Para ello utilizaremos variables en el fichero de Script que deseamos ejecutar, que referenciaremos indirectamente en el XML del Workflow, para finalmente especificar sus valores en el fichero de configuración del Workflow. A continuación se muestra un ejemplo:

Finalmente, podemos ejecutar nuestro Workflow de Oozie desde la línea de comandos de una sesión SSH a nuestro Cluster de Hadoop, ejecutando un comando similar al siguiente:

oozie job -oozie http://localhost:11000/oozie -config job.properties -run

Una vez ejecutado, nos devolverá un ID, que podremos utilizar para consultar el estado de su ejecución, por ejemplo de la siguiente manera:

oozie job -oozie http://localhost:11000/oozie -info 0000007-151218101418531-oozie-oozi-W

Sqoop: Transfiriendo datos entre HDFS y las Bases de Datos en Hadoop

Sqoop es una tecnología que permite transferir datos a dentro y a fuera del almacenamiento compartido de nuestro Cluster de Hadoop HDInsight. Es un servicio para integrarse con bases de datos a través de JDBC, que traduce su esfuerzo a trabajos MapReduce. Podemos ejecutar comandos Sqoop desde la línea de comandos de una sesión SSH en nuestro Cluster de Hadoop HDInsight (sqoop command --arg1 --arg2 … --argN). Tenemos disponible una gran variedad de comandos sqoop: import, export, help, import-all-tables, create-hive-table, list-databases, list-tables, eval, codegen, versión, etc.

A continuación se muestra un ejemplo de un comando sqoop para cargar datos en una base de datos Azure SQL Database:

sqoop --connect "jdbc:sqlserver://guillesql.database.windows.net;username=guillesql@guillesql;password=incorrect;database=guilledb" --table guille_tbl --export-dir /data/guille_processed --input-fields-terminated-by \\t

Despedida y Cierre

Hasta aquí llega el presente artículo, en el que hemos querido hacer una simple introducción a Oozie y Sqoop, dentro de la solución Hadoop de HDInsight, que actualmente es una implementación Hadoop de Hortonworks en formato PaaS de Azure.

Si te ha parecido interesante este artículo, te recomiendo que eches un vistazo al curso  gratuito de EDX DAT202.1x - Processing Big Data with Hadoop in Azure HDInsight, en el que podrás encontrar contenidos y Labs prácticos, además de conocer otras tecnologías relacionadas.

Poco más por hoy. Como siempre, confío que la lectura resulte de interés.

 


[Fecha del Artículo (UTC): 19/02/2018]
[Autor: GuilleSQL]



Escribir un Comentario

Para poder escribir un comentario, debe Iniciar Sesión con un usuario.

Si no dispone de un usuario, puede Registrarse y hacerse miembro.

Si dispone de un usuario, pero no recuerda sus credenciales de acceso, puede Restablecer su Contraseña.

Miembros de
Miembros de GITCA (Global IT Community Association)

Menu de Usuario
  Iniciar Sesión
  Registrarse
  Restablecer Contraseña
  Ventajas de Registrarse

Acerca de
  Contigo desde Oct 2007
  771 usuarios registrados
  86146 pageloads/mes
  Ranking Alexa 498160

Social Networks
Sigue a Portal GuilleSQL en Linkedin !!
Sigue a Portal GuilleSQL en Twitter !!



Archivo

Julio de 2018 (1)
Junio de 2018 (4)
Mayo de 2018 (5)
Abril de 2018 (3)
Marzo de 2018 (2)
Febrero de 2018 (7)
Enero de 2018 (1)
Diciembre de 2017 (15)
Noviembre de 2017 (7)
Junio de 2017 (3)
Mayo de 2017 (1)
Marzo de 2017 (3)
Enero de 2017 (4)
Junio de 2016 (1)
Mayo de 2016 (2)
Abril de 2016 (2)
Septiembre de 2015 (2)
Agosto de 2015 (2)
Junio de 2015 (10)
Mayo de 2015 (4)
Abril de 2015 (8)
Marzo de 2015 (11)
Octubre de 2014 (3)
Septiembre de 2014 (7)
Agosto de 2014 (5)
Julio de 2014 (2)
Mayo de 2014 (4)
Abril de 2014 (4)
Marzo de 2014 (4)
Febrero de 2014 (1)
Enero de 2014 (5)
Diciembre de 2013 (8)
Noviembre de 2013 (2)
Octubre de 2013 (7)
Septiembre de 2013 (6)
Agosto de 2013 (1)
Julio de 2013 (6)
Junio de 2013 (11)
Mayo de 2013 (7)
Abril de 2013 (6)
Febrero de 2013 (5)
Enero de 2013 (7)
Diciembre de 2012 (12)
Noviembre de 2012 (13)
Octubre de 2012 (5)
Septiembre de 2012 (3)
Agosto de 2012 (6)
Julio de 2012 (4)
Junio de 2012 (1)
Mayo de 2012 (2)
Abril de 2012 (7)
Marzo de 2012 (16)
Febrero de 2012 (9)
Enero de 2012 (5)
Diciembre de 2011 (10)
Noviembre de 2011 (10)
Octubre de 2011 (4)
Septiembre de 2011 (5)
Agosto de 2011 (2)
Julio de 2011 (2)
Junio de 2011 (4)
Mayo de 2011 (2)
Abril de 2011 (6)
Marzo de 2011 (4)
Febrero de 2011 (10)
Enero de 2011 (5)
Diciembre de 2010 (6)
Noviembre de 2010 (4)
Octubre de 2010 (8)
Septiembre de 2010 (4)
Agosto de 2010 (1)
Julio de 2010 (3)
Mayo de 2010 (5)
Abril de 2010 (6)
Marzo de 2010 (8)
Febrero de 2010 (3)
Enero de 2010 (1)
Diciembre de 2009 (9)
Noviembre de 2009 (14)
Octubre de 2009 (2)
Septiembre de 2009 (8)
Agosto de 2009 (2)
Julio de 2009 (10)
Junio de 2009 (9)
Mayo de 2009 (10)
Abril de 2009 (9)
Marzo de 2009 (3)
Febrero de 2009 (2)
Enero de 2009 (3)
Noviembre de 2008 (2)
Octubre de 2008 (2)
Septiembre de 2008 (2)
Agosto de 2008 (5)
Julio de 2008 (5)
Junio de 2008 (1)
Mayo de 2008 (3)
Abril de 2008 (2)
Marzo de 2008 (2)
Febrero de 2008 (2)
Enero de 2008 (5)
Noviembre de 2007 (2)
Octubre de 2007 (2)






Esta información se proporciona "como está" sin garantías de ninguna clase, y no otorga ningún derecho.
This information is provided "AS IS" with no warranties, and confers no rights.

Copyright © 2007 GuilleSQL, todos los derechos reservados.
GuilleSQL.com y GuilleSQL.net son también parte de Portal GuilleSQL.

Visitas recibidas (Page Loads) en GuilleSQL (fuente: StatCounter):

screen resolution stats
Visitas