GuilleSQL :: Microsoft SQL Server, SSIS, y más !!

Instalar Livy en un Cluster de Spark sobre Raspberry


Apache Livy nos ofrece una interfaz REST, con la cual vamos a poder extender nuestro Cluster de Spark, para hacerlo accesible desde el exterior, de una forma muy sencilla. De este modo podremos lanzar Jobs de Spark desde cualquier sitio, utilizando Scala, R, ó Python, incluso de forma interactiva. Podemos darle diferentes usos, desde permitir el acceso remoto a nuestro Cluster Spark desde la Web o desde Aplicaciones Móviles, hasta utilizarlo para dar servicio a los Jupyter Notebooks remotos de nuestros Científicos de Datos. Un ejemplo de caso de uso, la solución HDInsight de Microsoft (Hortonworks).

Hace pocos días vimos cómo instalar un Cluster de Hadoop, Hive, y Spark sobre Raspberry, como una forma económica y divertida de acercamiento a las tecnologías Apache del ecosistema de Big Data. En esa línea, en esta ocasión vamos a extender dicho Cluster utilizando Livy, para hacerlo disponible desde el exterior a través de REST, igualmente con un carácter más didáctico que productivo, y ahí Raspberry y su ligero sistema operativo Raspbian, cumplen con creces nuestros objetivos.

Instalando Livy en un Cluster de Spark sobre Raspberry

Vamos a instalar Livy sobre el Head Node (node01) de nuestro Cluster de Hadoop y Spark que montamos sobre nuestras Raspberry.

Para poder realizar la instalación de Livy, necesitaremos previamente haber instalado maven. En nuestro caso, deseamos instalar Livy en /opt/livy, para lo cual ejecutaremos los siguientes comandos para instalar maven, descargat livy de su repositorio de GitHub, crear el directorio de logs de livy, y compilar (build) Livy con maven (utilizaremos la opción -DskipTests para evitar errores de falta de memoria al ejecutar los tests).

sudo apt-get install maven
cd /opt
sudo git clone https://github.com/cloudera/livy.git
sudo chown hduser:hadoop livy -R
cd livy
mkdir logs
mnv -DskipTests package

A continuación se muestra una pantalla captura del final del proceso de compilación sobre la Raspberry.

Ahora editaremos el fichero .bashrc del home del usuario hduser, añadiendo al final del mismo la siguiente línea para incluir en el PATH la ruta de los binarios de livy.

export PATH=$PATH:/opt/livy/bin 

Si va todo bien, podremos arrancar manualmente livy, ejecutando el comando livy-server desde el home del usuario hduser (esto es importante al haber creado aquí el metastore de hive):

livy-server

A continuación se muestra la salida de ejecución.

Una vez arrancado Livy, si ejecutamos el comando jps, podremos ver que aparece como servicio arrancado. A continuación se muestra un ejemplo.

También deberemos poder acceder al Livy Web UI, que por defecto encontraremos disponible en el puerto 8998, accesible desde la propia máquina o desde cualquier otra máquina remota y sin autenticación. En nuestro caso de ejemplo, como hemos instalado Livy en nuestro Name Node que se llama node01, tendremos que acceder a http://node01:8998

Probando Livy con curl

Ahora que ya tenemos Livy levantado y funcionando en nuestro Cluster Spark de Raspberry, vamos a hacer las primera pruebas, para lo cual utilizaremos el comando curl para hacer las llamadas HTTP. Las pruebas que vamos a hacer a continuación, aunque son llamadas a localhost desde la propia Raspberry, también se podrían hacer desde una máquina remota, en cuyo caso invocaríamos al comando curl especificando la URL correspondiente, como sería http://node01:8998 en lugar de http://localhost:8998 y funcionando.

Lo primero que vamos a hacer es listar las sesiones de Livy. Esto nos devolverá un JSON, que podremos formatear (para que sea más fácil de leer) encadenándolo con una llamada python, tal y como se muestra en el siguiente ejemplo. Ahora que acabamos de levantar Livy, podremos ver que no existe ninguna sesión.

curl localhost:8998/sessions
curl localhost:8998/sessions | python -m json.tool

A continuación se muestra la salida de ejecución.

Seguidamente vamos a crear una nueva sesión Livy de tipo PySpark. Livy soporta tres lenguajes: spark (scala), PySpark (Python), y sparkr (R). En nuestro caso nos vamos a centrar en PySpark (Python). Crear una nueva session de Livy no es inmediato, tardará unos segundos, por lo que deberemos esperar a que esté en estado idle, antes de empezar a enviar código para su ejecución.

curl -X POST --data '{"kind": "pyspark"}' -H "Content-Type: application/json" localhost:8998/sessions
curl localhost:8998/sessions | python -m json.tool

A continuación se muestra un pantallazo a modo de ejemplo.

Ya tenemos Livy levantado, y una sesión de PySpark creada. Lo siguiente, enviar un comando para su ejecución. Para empezar, enviaremos una simple suma, simplemente para comprobar que nuestra arquitectura funciona, que somos capaces de enviar una operación básica, que se ejecutada remotamente, y capturamos su resultado. El código sería similar al siguiente.

curl localhost:8998/sessions/0/statements -X POST -H 'Content-Type: application/json' -d '{"code":"1 + 1"}'
curl localhost:8998/sessions/0/statements/0
curl localhost:8998/sessions/0/statements/0 | grep -m json.tool

Al ejecutarlo obtendremos una salida como la que podemos ver a continuación, donde comprobamos que el resultado devuelto es correcto (1+1=2).

Ahora vamos a dar un pasito más, y vamos a ejecutar un sencillo código que acceda al contexto de Spark. De nuevo, enviamos el código y comprobamos su ejecución.

curl localhost:8998/sessions/0/statements -X POST -H 'Content-Type: application/json' -d'{"code":"sc.parallelize([1, 2, 3, 4, 5]).count()"}'
curl localhost:8998/sessions/0/statements/1
curl localhost:8998/sessions/0/statements/1 | python -m json.tool

La salida de ejecución sería algo similar a lo siguiente.

Hecho todo esto, daremos por finalizadas nuestras primeras pruebas de Livy, por lo que ya sólo nos queda eliminar nuestra sesión Livy para liberar recursos, ejecutando para ello un código similar al siguiente.

curl localhost:8998/sessions/0 -X DELETE
localhost:8998/sessions | python -m json.tool

Como podemos comprobar, la sesión Livy ha finalizado, y ya tenemos ninguna sesión abierta.

Hasta aquí llega el presente artículo, en el que hemos visto la instalación básica de Livy sobre un Cluster de Spark sobre Raspberry, que sin ser un entorno productivo, nos aporta un escenario equivalente desde un punto de vista didáctico. A continuación aprovecho para compartir algunos enlaces de interés, para quien desee ampliar más información.

Poco más por hoy. Como siempre, confío que la lectura resulte de interés.

 


[Fecha del Artículo (UTC): 29/05/2018]
[Autor: GuilleSQL]



Escribir un Comentario

Para poder escribir un comentario, debe Iniciar Sesión con un usuario.

Si no dispone de un usuario, puede Registrarse y hacerse miembro.

Si dispone de un usuario, pero no recuerda sus credenciales de acceso, puede Restablecer su Contraseña.

Miembros de
Miembros de GITCA (Global IT Community Association)

Menu de Usuario
  Iniciar Sesión
  Registrarse
  Restablecer Contraseña
  Ventajas de Registrarse

Acerca de
  Contigo desde Oct 2007
  771 usuarios registrados
  86146 pageloads/mes
  Ranking Alexa 498160

Social Networks
Sigue a Portal GuilleSQL en Linkedin !!
Sigue a Portal GuilleSQL en Twitter !!



Archivo

Octubre de 2018 (1)
Julio de 2018 (1)
Junio de 2018 (4)
Mayo de 2018 (5)
Abril de 2018 (3)
Marzo de 2018 (2)
Febrero de 2018 (7)
Enero de 2018 (1)
Diciembre de 2017 (15)
Noviembre de 2017 (7)
Junio de 2017 (3)
Mayo de 2017 (1)
Marzo de 2017 (3)
Enero de 2017 (4)
Junio de 2016 (1)
Mayo de 2016 (2)
Abril de 2016 (2)
Septiembre de 2015 (2)
Agosto de 2015 (2)
Junio de 2015 (10)
Mayo de 2015 (4)
Abril de 2015 (8)
Marzo de 2015 (11)
Octubre de 2014 (3)
Septiembre de 2014 (7)
Agosto de 2014 (5)
Julio de 2014 (2)
Mayo de 2014 (4)
Abril de 2014 (4)
Marzo de 2014 (4)
Febrero de 2014 (1)
Enero de 2014 (5)
Diciembre de 2013 (8)
Noviembre de 2013 (2)
Octubre de 2013 (7)
Septiembre de 2013 (6)
Agosto de 2013 (1)
Julio de 2013 (6)
Junio de 2013 (11)
Mayo de 2013 (7)
Abril de 2013 (6)
Febrero de 2013 (5)
Enero de 2013 (7)
Diciembre de 2012 (12)
Noviembre de 2012 (13)
Octubre de 2012 (5)
Septiembre de 2012 (3)
Agosto de 2012 (6)
Julio de 2012 (4)
Junio de 2012 (1)
Mayo de 2012 (2)
Abril de 2012 (7)
Marzo de 2012 (16)
Febrero de 2012 (9)
Enero de 2012 (5)
Diciembre de 2011 (10)
Noviembre de 2011 (10)
Octubre de 2011 (4)
Septiembre de 2011 (5)
Agosto de 2011 (2)
Julio de 2011 (2)
Junio de 2011 (4)
Mayo de 2011 (2)
Abril de 2011 (6)
Marzo de 2011 (4)
Febrero de 2011 (10)
Enero de 2011 (5)
Diciembre de 2010 (6)
Noviembre de 2010 (4)
Octubre de 2010 (8)
Septiembre de 2010 (4)
Agosto de 2010 (1)
Julio de 2010 (3)
Mayo de 2010 (5)
Abril de 2010 (6)
Marzo de 2010 (8)
Febrero de 2010 (3)
Enero de 2010 (1)
Diciembre de 2009 (9)
Noviembre de 2009 (14)
Octubre de 2009 (2)
Septiembre de 2009 (8)
Agosto de 2009 (2)
Julio de 2009 (10)
Junio de 2009 (9)
Mayo de 2009 (10)
Abril de 2009 (9)
Marzo de 2009 (3)
Febrero de 2009 (2)
Enero de 2009 (3)
Noviembre de 2008 (2)
Octubre de 2008 (2)
Septiembre de 2008 (2)
Agosto de 2008 (5)
Julio de 2008 (5)
Junio de 2008 (1)
Mayo de 2008 (3)
Abril de 2008 (2)
Marzo de 2008 (2)
Febrero de 2008 (2)
Enero de 2008 (5)
Noviembre de 2007 (2)
Octubre de 2007 (2)






Esta información se proporciona "como está" sin garantías de ninguna clase, y no otorga ningún derecho.
This information is provided "AS IS" with no warranties, and confers no rights.

Copyright © 2007 GuilleSQL, todos los derechos reservados.
GuilleSQL.com y GuilleSQL.net son también parte de Portal GuilleSQL.

Visitas recibidas (Page Loads) en GuilleSQL (fuente: StatCounter):

screen resolution stats
Visitas