Archivo de Junio de 2018 Tenemos una forma muy fácil y ligera de utilizar Hadoop, Hive, y Spark en nuestro portátil, principalmente para pruebas de laboratorio, incluso con fines formativos. Se trata de la instalación en Local Mode de Hadoop, Hive y Spark. No tendremos necesidad de arrancar servicios, no tendremos YARN, y nuestro filesystem hará a su vez de HDFS, pero en función de para qué lo necesitemos, y sin tratarlo como un entorno productivo, nos puede valer y mucho. tmux es una utilidad muy muy interesante en el mundo Linux. Para mí, lo más importante es poder capturar una sesión de terminal que ha terminado, quizás, por un corte de red (sin tmux, nuestra sesión habría muerto, y no todo se puede lanzar con nohup y & para que perdure en background). Pero además, tmux también permite el trabajo cooperativo, dos o más personas conectadas a la misma sesión de terminal, permitiendo trabajar juntos (un poco a lo Google Docs). Hay más cosas, como poder partir nuestra ventana (ej: split vertical u horizontal, para tener dos terminales). Muy útil, y disponible desde tu Raspberry, hasta en tu mega pedazo servidor RedHat, CentoOS, Ubuntu, o lo que más te guste. ¿A qué esperas para instalarlo? Hace pocos días explicábamos como montar nuestro propio Cluster de Hadoop, Hive, y Spark sobre un conjunto de Raspberry, y entorno fabuloso para el aprendizaje y como laboratorio, que nos permitirá un acercamiento a las tecnologías Big Data con un coste muy bajo, además de que las Raspberry son dispositivos que ocupan muy poco espacio, gastan poca electricidad, y no hacen nada de ruido. En esta ocasión, vamos a extender nuestro Cluster configurando el metastore de Hive con un MySQL, y además de configurar Spark para acceder al metastore de Hive. En ocasiones nos puede interesar poder acceder a un Cluster remoto de Spark y Hive desde un Jupyter Notebook en nuestro escritorio de trabajo, de tal modo que podamos ejecutar Jupyter Notebooks que ejecutan sólo código local, o también que accedan a uno u otro Cluster Spark según nos haga falta. Esto lo podemos conseguir fácilmente si tenemos instalada la interfaz REST de Livy en nuestro Cluster de Spark, y además nos instalamos y configuramos SparkMargic en nuestra máquina escritorio, para conectar con Spark a través de Livy. Fácil y sencillo. |