GuilleSQL :: Microsoft SQL Server, SSIS, y más !!

Configurar el metastore de Hive con MySQL (MariaDB)


Hace pocos días explicábamos como montar nuestro propio Cluster de Hadoop, Hive, y Spark sobre un conjunto de Raspberry, y entorno fabuloso para el aprendizaje y como laboratorio, que nos permitirá un acercamiento a las tecnologías Big Data con un coste muy bajo, además de que las Raspberry son dispositivos que ocupan muy poco espacio, gastan poca electricidad, y no hacen nada de ruido. En esta ocasión, vamos a extender nuestro Cluster configurando el metastore de Hive con un MySQL, y además de configurar Spark para acceder al metastore de Hive.

Hoy vamos a dar otro pasito para ir completando nuestro Cluster de Hadoop, Hive y Spark sobre Raspberry, para que poco a poco, se vaya convirtiendo en un entorno que nos permita hacer más y más pruebas. En este caso, configuraremos el Metastore de Hive con MySQL, en lugar de Derby (como estaba inicialmente), para así permitir también la concurrencia y minimizar los problemas de corrupción.

Instalaremos MySQL con apt-get, y crearemos un usuario en MySQL para Hive.

sudo apt-get install mysql-server
sudo su
mysql -uroot
CREATE USER 'hive'@'localhost' IDENTIFIED BY 'hive';
GRANT ALL PRIVILEGES ON *.* TO 'hive'@'localhost';
FLUSH PRIVILEGES;
exit
exit

Necesitaremos descargar un driver o conector Java para MySQL, y dejarlo copiado en el directorio lib de Hive (ej: /opt/hive/lib). El el siguiente trozo de código vemos un ejemplo, aunque también podríamos bajarlo directamente de MySQL, por ejemplo http://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.35.tar.gz. Seguidamente, crearemos el fichero hive-default.xml en /opt/hive/conf y lo editaremos.

wget -c http://central.maven.org/maven2/mysql/mysql-connector-java/5.1.28/mysql-connector-java-5.1.28.jar -P /opt/hive/lib/
cd /opt/hive/conf/
vi hive-default.xml

En el fichero hive-default.xml introduciremos la configuración de conexión a MySQL para Hive, de forma similar al siguiente ejemplo.

<configuration>
    <property>
        <name>javax.jdo.option.ConnectionURL</name>
        <value>jdbc:mysql://localhost/metastore?createDatabaseIfNotExist=true</value>
    </property>
    <property>
        <name>javax.jdo.option.ConnectionDriverName</name>
        <value>com.mysql.jdbc.Driver</value>
    </property>
    <property>
        <name>javax.jdo.option.ConnectionUserName</name>
        <value>hive</value>
    </property>
    <property>
        <name>javax.jdo.option.ConnectionPassword</name>
        <value>hive</value>
    </property>
    <property>
        <name>hive.metastore.schema.verification</name>
        <value>false</value>
    </property>
</configuration>

Inicializaremos el esquema de Hive y arrancaremos el servicio de metastore en segundo plano.

schematool -dbType mysql -initSchema
hive --service metastore &

Acontinuación podemos ver un ejemplo de la salida de ejecución.

Con el comando jps podremos comprobar que el servicio de metastore está arrancado. En el siguiente pantallazo de ejemplo corresponde con el proceso RunJar.

El metastore de Hive, por defecto escucha en el puerto tcp 9083, por lo que podemos utilizar el comando netstat para comprobar que hay algún servicio escuchando en ese puerto, y cuál es el PID de dicho proceso (en nuestro caso de ejemplo es el 27186, el mismo que vemos en la salida del anterior comando jps) con un comando como netstat -putona | grep 9083

Ahora vamos a probar el acceso a Hive desde Spark, con la spark-shell, ejecutando un programa como el siguiente (en nuestro caso hemos creado previamente una tabla hivesampletable).

import org.apache.spark.sql.hive.HiveContext
val sqlContext = new HiveContext(sc)
val sample = sqlContext.sql("select * from hivesampletable limit 10")
sample.collect().foreach(println)

Sin embargo, la ejecución acabará en error. Spark no es capaz de encontrar nuestra tabla de Hive.

Para solucionarlo, tendremos que compartir el fichero de configuración de Hive con Spark, algo que podemos hacer de forma elegante con un Soft Link. Lo mismo ocurrirá con el Driver de MySQL para que pueda acceder al metastore. Esto lo podemos conseguir con un par de comandos como los siguientes.

ln -s /opt/hive/conf/hive-site.xml /opt/spark/conf/hive-site.xml
ln -s /opt/hive/lib/mysql-connector-java-5.1.28.jar /opt/spark/jars/mysql-connector-java-5.1.28.jar

Ahora, si comprobamos el contenido del directorio de configuración de Spark, podremos ver claramente el Soft Link que acabamos de crear, tal y como se muestra en el siguiente pantallazo.

Ahora, vamos a ejecutar de nuevo el anterior programa desde la Spark Shell para comprobar el acceso a Hive desde Spark. Si. Ahora si funciona.

Con todo esto, el procedimiento de arranque de nuestro Cluster de Hadoop/Hive/Spark con Livy sobre Raspberry quedaría algo así.

start-dfs.sh
start-yarn.sh
start-master.sh
start-slaves.sh
hive --service metastore &
livy-server
jps

Antes de acabar, aprovecho para recomendar la lectura de 1.1 Billion Taxi Rides with Spark 2.2 & 3 Raspberry Pi 3 Model Bs.

Poco más por hoy. Como siempre, confío que la lectura resulte de interés.

 


Miembros de
Miembros de GITCA (Global IT Community Association)

Menu de Usuario
  Iniciar Sesión
  Registrarse
  Restablecer Contraseña
  Ventajas de Registrarse

Acerca de
  Contigo desde Oct 2007
  771 usuarios registrados
  86146 pageloads/mes
  Ranking Alexa 498160

Social Networks
Sigue a Portal GuilleSQL en Linkedin !!
Sigue a Portal GuilleSQL en Twitter !!



Archivo

Octubre de 2018 (1)
Julio de 2018 (1)
Junio de 2018 (4)
Mayo de 2018 (5)
Abril de 2018 (3)
Marzo de 2018 (2)
Febrero de 2018 (7)
Enero de 2018 (1)
Diciembre de 2017 (15)
Noviembre de 2017 (7)
Junio de 2017 (3)
Mayo de 2017 (1)
Marzo de 2017 (3)
Enero de 2017 (4)
Junio de 2016 (1)
Mayo de 2016 (2)
Abril de 2016 (2)
Septiembre de 2015 (2)
Agosto de 2015 (2)
Junio de 2015 (10)
Mayo de 2015 (4)
Abril de 2015 (8)
Marzo de 2015 (11)
Octubre de 2014 (3)
Septiembre de 2014 (7)
Agosto de 2014 (5)
Julio de 2014 (2)
Mayo de 2014 (4)
Abril de 2014 (4)
Marzo de 2014 (4)
Febrero de 2014 (1)
Enero de 2014 (5)
Diciembre de 2013 (8)
Noviembre de 2013 (2)
Octubre de 2013 (7)
Septiembre de 2013 (6)
Agosto de 2013 (1)
Julio de 2013 (6)
Junio de 2013 (11)
Mayo de 2013 (7)
Abril de 2013 (6)
Febrero de 2013 (5)
Enero de 2013 (7)
Diciembre de 2012 (12)
Noviembre de 2012 (13)
Octubre de 2012 (5)
Septiembre de 2012 (3)
Agosto de 2012 (6)
Julio de 2012 (4)
Junio de 2012 (1)
Mayo de 2012 (2)
Abril de 2012 (7)
Marzo de 2012 (16)
Febrero de 2012 (9)
Enero de 2012 (5)
Diciembre de 2011 (10)
Noviembre de 2011 (10)
Octubre de 2011 (4)
Septiembre de 2011 (5)
Agosto de 2011 (2)
Julio de 2011 (2)
Junio de 2011 (4)
Mayo de 2011 (2)
Abril de 2011 (6)
Marzo de 2011 (4)
Febrero de 2011 (10)
Enero de 2011 (5)
Diciembre de 2010 (6)
Noviembre de 2010 (4)
Octubre de 2010 (8)
Septiembre de 2010 (4)
Agosto de 2010 (1)
Julio de 2010 (3)
Mayo de 2010 (5)
Abril de 2010 (6)
Marzo de 2010 (8)
Febrero de 2010 (3)
Enero de 2010 (1)
Diciembre de 2009 (9)
Noviembre de 2009 (14)
Octubre de 2009 (2)
Septiembre de 2009 (8)
Agosto de 2009 (2)
Julio de 2009 (10)
Junio de 2009 (9)
Mayo de 2009 (10)
Abril de 2009 (9)
Marzo de 2009 (3)
Febrero de 2009 (2)
Enero de 2009 (3)
Noviembre de 2008 (2)
Octubre de 2008 (2)
Septiembre de 2008 (2)
Agosto de 2008 (5)
Julio de 2008 (5)
Junio de 2008 (1)
Mayo de 2008 (3)
Abril de 2008 (2)
Marzo de 2008 (2)
Febrero de 2008 (2)
Enero de 2008 (5)
Noviembre de 2007 (2)
Octubre de 2007 (2)






Copyright © 2007 GuilleSQL, todos los derechos reservados.