GuilleSQL :: Microsoft SQL Server, SSIS, y más !!

Instalar SparkMagic en Ubuntu para acceder a un Cluster remoto de Spark desde un Jupyter Notebook a través de Livy


En ocasiones nos puede interesar poder acceder a un Cluster remoto de Spark y Hive desde un Jupyter Notebook en nuestro escritorio de trabajo, de tal modo que podamos ejecutar Jupyter Notebooks que ejecutan sólo código local, o también que accedan a uno u otro Cluster Spark según nos haga falta. Esto lo podemos conseguir fácilmente si tenemos instalada la interfaz REST de Livy en nuestro Cluster de Spark, y además nos instalamos y configuramos SparkMargic en nuestra máquina escritorio, para conectar con Spark a través de Livy. Fácil y sencillo.

La arquitectura de todo esto es bastante más sencilla de lo que parece. Tenemos una máquina de trabajo con nuestro Jupyter Notebook. La instalamos SparkMagic y lo configuramos para acceder a nuestro Cluster de Spark remoto, algo que realizará conectándose a través de la interfaz REST de Livy. Por lo tanto, necesitamos tener un Cluster de Spark con Livy instalado. Un caso de uso sería HDInsight (Hortonworks), donde por ejemplo en caso de desplegarlo en formato R Server (que incluye Spark también), tendríamos Livy en el Name Node y SparkMagic en el Edge Node.

Vamos a ver ahora un ejemplo muy sencillo. Tenemos un Cluster de Hadoop, Hive y Spark sobre unas Rasberry, como ya comentamos hace unos días. Sobre este Cluster de Spark instalamos Apache Livy, para habilitar esta interfaz REST que nos permita comunicarnos desde una máquina remota, como podría ser una estación de trabajo. Esto también lo vimos. Ahora queda sólo la parte que tenemos que hacer en la estación de trabajo.

Para ello, vamos a utilizar un pequeño portátil con Ubuntu, desde el cual nos queremos poder conectar a nuestro Cluster de Spark desde un Jupyter Notebook que ejecutemos localmente desde dicho portátil. Para ello, lo primero que tenemos que hacer es instalar Anaconda, por ejemplo en el home del usuario (ej: /home/guillesql/anaconda3). Esto no tiene mucho truco, la verdad.

Una vez instalado anaconda, vamos a instalar sparkmagic (con los comandos conda install y jupyter nbextension), crearemos los kernel de SparkMagic que necesitemos con el comando jupyter-kernelspc (importante utilizar la opción --user para evitar tener problemas de permisos, así como utilizar la ruta dependiendo de donde esté instalado sparkmagic, de aquí el pip show), habilitaremos la extensión de sparkmagic en Jupyter con el comando jupyter serverextension (este paso es opcional), y crearemos el fichero de configuración .sparkmagic/config.json.

conda install -c conda-forge sparkmagic
jupyter nbextension enable --py --sys-prefix widgetsnbextension
pip show sparkmagic
cd /home/guillesql/anaconda/lib/python3.6/site-packages
jupyter-kernelspec install sparkmagic/kernels/sparkkernel --user

jupyter-kernelspec install sparkmagic/kernels/pysparkkernel --user

jupyter serverextension enable --py sparkmagic
cd
mkdir .sparkmagic
wget https://raw.githubusercontent.com/jupyter-incubator/sparkmagic/master/sparkmagic/example_config.json
cp example_config.json config.json

Realmente hay cuatro Kernels de Jupyter que podemos instalar, que según la documentación de GitHub del proyecto son:

jupyter-kernelspec install sparkmagic/kernels/sparkkernel
jupyter-kernelspec install sparkmagic/kernels/pysparkkernel
jupyter-kernelspec install sparkmagic/kernels/pyspark3kernel
jupyter-kernelspec install sparkmagic/kernels/sparkrkernel

Bueno, Bueno, ya casi está. Ya sólo queda editar el fichero .sparkmagic/config.json para poner los datos de conexión a nuestro Cluster de Spark, que en nuestro caso de ejemplo se limita a especificar la URL correcta (http://node01:8998) que corresponde al head node y al puerto por defecto de Apache Livy, que es donde tenemos instalado Livy y donde está escuchando. Hecho esto, abrimos nuestro Jupyter Notebook desde nuestro portátil, y a disfrutar.

Lo primero, vamos a lanzar una consulta SQL contra el Hive remoto de nuestro Cluster, utilizando el atajo %%sql de SparkMagic (hay más atajos parecidos en SparkMagic, como %%help, %%info, etc), tal como se muestra en la siguiente pantalla capturada.

Haremos alguna prueba más, accediendo y utilizando el contexto de Spark de nuestro Cluster Spark remoto (ojo, sc.textFile accederá a los ficheros remotos, no a los de nuestra máquina local), comprobando que todo funciona correctamente.

Hasta aquí llega el presente artículo, en el que hemos querido mostrar la forma de ejecutar Jupyter Notebooks utilizando un Cluster Spark remoto con SparkMagic y Livy. Aprovecho para compartir algún enlace de interés, para quien desee ampliar información.

Poco más por hoy. Como siempre confío que la lectura resulte de interés. 

 


]
[Autor: GuilleSQL]



Miembros de
Miembros de GITCA (Global IT Community Association)

Menu de Usuario
  Iniciar Sesión
  Registrarse
  Restablecer Contraseña
  Ventajas de Registrarse

Acerca de
  Contigo desde Oct 2007
  771 usuarios registrados
  86146 pageloads/mes
  Ranking Alexa 498160

Social Networks
Sigue a Portal GuilleSQL en Linkedin !!
Sigue a Portal GuilleSQL en Twitter !!



Archivo

Octubre de 2018 (1)
Julio de 2018 (1)
Junio de 2018 (4)
Mayo de 2018 (5)
Abril de 2018 (3)
Marzo de 2018 (2)
Febrero de 2018 (7)
Enero de 2018 (1)
Diciembre de 2017 (15)
Noviembre de 2017 (7)
Junio de 2017 (3)
Mayo de 2017 (1)
Marzo de 2017 (3)
Enero de 2017 (4)
Junio de 2016 (1)
Mayo de 2016 (2)
Abril de 2016 (2)
Septiembre de 2015 (2)
Agosto de 2015 (2)
Junio de 2015 (10)
Mayo de 2015 (4)
Abril de 2015 (8)
Marzo de 2015 (11)
Octubre de 2014 (3)
Septiembre de 2014 (7)
Agosto de 2014 (5)
Julio de 2014 (2)
Mayo de 2014 (4)
Abril de 2014 (4)
Marzo de 2014 (4)
Febrero de 2014 (1)
Enero de 2014 (5)
Diciembre de 2013 (8)
Noviembre de 2013 (2)
Octubre de 2013 (7)
Septiembre de 2013 (6)
Agosto de 2013 (1)
Julio de 2013 (6)
Junio de 2013 (11)
Mayo de 2013 (7)
Abril de 2013 (6)
Febrero de 2013 (5)
Enero de 2013 (7)
Diciembre de 2012 (12)
Noviembre de 2012 (13)
Octubre de 2012 (5)
Septiembre de 2012 (3)
Agosto de 2012 (6)
Julio de 2012 (4)
Junio de 2012 (1)
Mayo de 2012 (2)
Abril de 2012 (7)
Marzo de 2012 (16)
Febrero de 2012 (9)
Enero de 2012 (5)
Diciembre de 2011 (10)
Noviembre de 2011 (10)
Octubre de 2011 (4)
Septiembre de 2011 (5)
Agosto de 2011 (2)
Julio de 2011 (2)
Junio de 2011 (4)
Mayo de 2011 (2)
Abril de 2011 (6)
Marzo de 2011 (4)
Febrero de 2011 (10)
Enero de 2011 (5)
Diciembre de 2010 (6)
Noviembre de 2010 (4)
Octubre de 2010 (8)
Septiembre de 2010 (4)
Agosto de 2010 (1)
Julio de 2010 (3)
Mayo de 2010 (5)
Abril de 2010 (6)
Marzo de 2010 (8)
Febrero de 2010 (3)
Enero de 2010 (1)
Diciembre de 2009 (9)
Noviembre de 2009 (14)
Octubre de 2009 (2)
Septiembre de 2009 (8)
Agosto de 2009 (2)
Julio de 2009 (10)
Junio de 2009 (9)
Mayo de 2009 (10)
Abril de 2009 (9)
Marzo de 2009 (3)
Febrero de 2009 (2)
Enero de 2009 (3)
Noviembre de 2008 (2)
Octubre de 2008 (2)
Septiembre de 2008 (2)
Agosto de 2008 (5)
Julio de 2008 (5)
Junio de 2008 (1)
Mayo de 2008 (3)
Abril de 2008 (2)
Marzo de 2008 (2)
Febrero de 2008 (2)
Enero de 2008 (5)
Noviembre de 2007 (2)
Octubre de 2007 (2)






Copyright © 2007 GuilleSQL, todos los derechos reservados.