Realmente, no vamos a llegar a arrancar el servicio HDFS ni YARN en ningún momento, por lo que estamos trabajando en modo local (HDFS local mode). En este modo, nuestro filesystem local hace a su vez también las veces de HDFS. Esto nos permite poder tener un entorno aislado de laboratorio en nuestro portátil, donde probar comandos HDFS, o lanzar tareas de procesamiento (en una única JVM, ya que no tenemos YARN, pero de la misma forma que haríamos en un Cluster).
A continuación vamos a ver cómo instalar, configurar, y probar Apache Hadoop, Hive y Spark en Local Mode. Hay más alternativas, como por ejemplo Instalar un Cluster de Hadoop, Hive y Spark sobre Raspberry.
Antes de comenzar, deberemos tener instalado Java 8 y establecida la variable de entorno JAVA_HOME. Suponemos que vamos a hacer todas estas tareas en una máquina Linux.
Instalando Hadoop en Local Mode
La instalación de Hadoop es muy sencilla, descargar y descomprimir Hadoop, para seguidamente establecer la variable de entorno HADOOP_HOME y añadir su directorio bin al PATH. Esta parte de las variables, es muy recomendable realizarla en el .bashrc. No tendremos que configurar nada más. Claro, que no tendremos un sistema de ficheros distribuido, ni tendremos YARN, aunque nos permitirá hacer cositas e incluso montar Hive y Spark. No está tan mal.
wget http://archive.apache.org/dist/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz tar -xzf hadoop-2.7.3.tar.gz
export HADOOP_HOME=`pwd`/hadoop-2.7.3 PATH=$HADOOP_HOME/bin:$PATH |
Instalando Spark en Local Mode
La instalación de Spark es similar, descargar y descomprimir Spark, para seguidamente establecer la variable de entorno SPARK_HOME y añadir su directorio bin al PATH. Esta parte de las variables, es muy recomendable realizarla en el .bashrc. De nuevo, no tendremos que configurar nada más. Qué maravilla.
wget http://archive.apache.org/dist/spark/spark-2.1.0/spark-2.1.0-bin-hadoop2.7.tgz tar -xzf spark-2.1.0-bin-hadoop2.7.tgz
export SPARK_HOME=`pwd`/spark-2.1.0-bin-hadoop2.7 PATH=$SPARK_HOME/bin:$PATH |
Instalando Hive en Local Mode
La instalación de Hive es también muy parecida, descargar y descomprimir Hive, para seguidamente establecer la variable de entorno HIVE_HOME y añadir su directorio bin al PATH. Igualmente, esta parte de las variables, es muy recomendable realizarla en el .bashrc. Fácil. Muy fácil.
wget http://archive.apache.org/dist/hive/hive-2.1.1/apache-hive-2.1.1-bin.tar.gz tar -xzf apache-hive-2.1.1-bin.tar.gz
export HIVE_HOME=`pwd`/apache-hive-2.1.1-bin PATH=$HIVE_HOME/bin:$PATH |
Probando Hadoop en Local Mode
Para probar Hadoop, crearemos un fichero local /tmp/zip_codes.csv con datos de ejemplo, y los subiremos a HDFS utilizando el comando hdfs dfs. No tiene ningún misterio, y funciona a la primera.
echo 28019, Madrid > /tmp/zip_codes.csv echo 45120, Toledo >> /tmp/zip_codes.csv echo 28044, Madrid >> /tmp/zip_codes.csv
hdfs dfs -mkdir input hdfs dfs -put /tmp/zip_codes.csv input cat input/zip_codes.csv |
Probando MapReduce en Local Mode
Con el commando hadoop jar, podemos ejecutar un JAR que contenga la implementación de los Mappers, Reduccers y sus dependencias. En nuestro caso de ejemplo ejecutaremos la clase wordcount que leerá todos los ficheros de la carpeta input de HDFS, y generará en output el resultado del procesamiento realizado (también en HDFS), en este caso, contar las diferentes palabras.
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount input output hdfs dfs -getmerge output /tmp/word_count.txt cat /tmp/word_count.txt |
Probando Spark en Local Mode
Para probar Spark ejecutaremos el comando spark-shell, lo cual nos permitirá acceder a una interfaz de línea de comandos donde ejecutar código en Scala. En nuestro caso de ejemplo, ejecutaremos la siguiente línea de comando:
sc.textFile("input").flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_ + _).collect().foreach(println) |
Probando Hive en Local Mode
Para probar Hive ejecutaremos el comando hive, lo cual nos permitirá acceder a una interfaz de línea de comandos donde podremos crear tablas en Hive, ejecutar consultas SQL, etc. En nuestro caso de ejemplo vamos a crear una tabla externa sobre un directorio de HDFS que contiene ficheros con el formato que se especifica, y seguidamente vamos a ejecutar una consulta SQL sobre dicha tabla.
CREATE EXTERNAL TABLE zips (zip int, city String) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LOCATION ’/guillesql/input'; select city, count(*) from zips group by city; |
Si al intentar abrir la interfaz de comandos de Hive, obtenemos algún error relacionado con el metastore, podemos eliminarlo y volverlo a crear ejecutando los siguientes comandos:
rm -rf metastore_db derby.log schematool -initSchema -dbType derby |
Poco más por hoy. Como siempre, confío que la lectura resulte de interés.