GuilleSQL :: Microsoft SQL Server, SSIS, y más !!

Sharding Pattern


El concepto de las Grandes Bases de Datos y Arquitecturas Monolíticas, es ya un término antiguo, casposo, desfasado. Obvio. Llega un punto en el que dejan de ser escalables, la contención y los bloqueos en entornos de alta concurrencia y grandes tamaños superan las ventajas del hardware más potente y moderno. Divide y vencerás. Particionar la Base de Datos se queda corto, eso era antes. Necesitamos dar un pasito más. Aquí, una Arquitectura basada en Microservicios y un Particionamiento Horizontal entre múltiples Instancias de Base de Datos (Sharding), es la solución que elevará la escalabilidad de nuestra aplicación hasta el infinito y más allá. En la Nube, y fuera de ella.

Las Grandes Bases de Datos ya no están de moda. Tienen más inconvenientes que ventajas. El rendimiento y la escalabilidad es quizás el principal argumento para muchos, pero su mantenimiento no es ninguna tontería: tiempos de Backup y Restore, Reindexaciones, Actualizaciones de Estadísticas, y ni hablemos de subidas de versión y migraciones. Nos quedamos sin ventana. Aumentamos los riesgos por indisponibilidad. Divide y Vencerás. Y si al dividir, nos quitamos un Oracle sobre HP-UX y montamos una granja de Postgres sobre Linux, pues además, eso que nos hemos ahorrado (Licencias, es decir, pasta), que con la correcta arquitectura además va a ir mejor, de hecho, mucho mejor (y más barato, recuerda). Además, podremos utilizar un Hardware más modesto, obteniendo por aquí otro ahorro de costes adicional.

La Arquitectura de Microservicios es una de las soluciones a aplicar en este escenario (y además es ágil), pero en el caso de este artículo vamos a hablar de otro Patrón de Diseño: Sharding Pattern. No pasa nada. Podemos usar los dos. De hecho, para grandes aplicaciones, es lo suyo.

El Sharding Pattern sugiere dividir nuestro Almacén de Datos o Base de Datos horizontalmente entre múltiples particiones (Shards). Es decir, en lugar de tener en una única Instancia una gran Base de Datos (Oracle o SQL Server, por ejemplo), se sugiere dividir toda esta información entre múltiples Instancias (que estarían idealmente en máquinas separadas), cada una de las cuáles tendrá el mismo esquema (mismas tablas, procedures, vistas, etc.) pero almacenará sólo una parte de la información.

De hecho, aunque en muchos casos aplicaremos esta arquitectura a la Base de Datos, este modelo se podría aplicar a cualquier Almacén de Datos, como por ejemplo a un FileShare de Documentos, por poner un ejemplo distinto al de una típica Base de Datos Transaccional.

Imaginemos una Base de Datos para almacenar las Identidades de todos los usuarios de Facebook. En lugar de tener una única gran Base de Datos, podríamos definir varias Zonas Geográfica, y utilizar una Instancia para almacenar los datos de los Usuarios de cada Zona, y cada Instancia en un Servidor o Cluster, con sus propios recursos de CPU, Memoria, Red, etc. Serían Instancias completamente independientes. Eso no quita, que además tengamos la tabla Usuarios particionada (por país/estado, o por el criterio que consideremos más apropiado) en todas nuestras Instancias.

De hecho, dividir por Zonas Geográficas, aunque didácticamente es interesante como una primera aproximación, sería una solución quizás incluso anticuada. Fijémonos que ya nos estamos poniendo un límite, en este caso geográfico. Podríamos utilizar cualquier criterio. De hecho, uno de los factores más importantes, es que en un futuro, nuestro diseño permita añadir más particiones o Shards, para que sea fácilmente escalable. Quizás sea tan simple, como que cada Shard pueda almacenar hasta un máximo de 5 millones de usuarios, sean los que sean. O quizás, queramos que cada Partición o Shard sea en base a la Zona Geográfica y a algo más (ej: un hash del correo electrónico del Usuario, o cualquier otra cosa), para salvar la limitación estrictamente geográfica, pero con la ventaja de poder poner las bases de datos de una Zona geográfica más cerca de los usuarios de dicha zona (y así minimizar latencias).

En cualquier caso, hace falta una Lógica que nos direccione a la Partición (Shard) que nos corresponda. Volviendo al usuario de Facebook, una lógica que al hacer Logon, sepa a qué Instancia nos debemos conectar para encontrar nuestros datos. Llámalo portero, director, dispatcher, o cómo más te guste. El que reparte. Hay principalmente tres estrategias comunes conocidas para implementar esta Lógica, que siguiendo el ejemplo de los Usuarios de Facebook, se podrían explicar así:

  • Lookup (Búsqueda). Mapeamos cada Usuario a una Partición o Shard. También podríamos plantear alternativas, como mapear la Población del Usuario a una Partición.
  • Range (Rango). Mapeamos rangos de Usuarios a cada Partición o Shard. Igualmente, también podríamos plantear alternativas, como mapear un rango de Poblaciones de Usuarios a cada Partición.
  • Hash. Aplicamos una función Hash, que por ejemplo, en función del ID del usuario, devuelva un valor entre 1 y 50 si queremos utilizar 50 Particiones o Shards.

Nuestra solución debería permitir migrar los datos entre Particiones (Shards) de forma transparente, sin tener que reconstruir la lógica de negocio de nuestra aplicación si en un futuro necesitamos redistribuir los datos entre Particiones (Shards) por cualquier motivo (ej: balancear el tamaño o carga de cada partición o Shard).

En el siguiente diagrama podemos ver una representación gráfica de este Patrón de Diseño para una implementación con Lógica de Búsqueda (Lookup).

Para más detalle, podéis consultar el siguiente enlace:

Poco más por hoy. Como siempre, confío que la lectura resulte de interés.


[Fecha del Artículo (UTC): 30/11/2017]
[Autor: GuilleSQL]



Escribir un Comentario

Para poder escribir un comentario, debe Iniciar Sesión con un usuario.

Si no dispone de un usuario, puede Registrarse y hacerse miembro.

Si dispone de un usuario, pero no recuerda sus credenciales de acceso, puede Restablecer su Contraseña.

Miembros de
Miembros de GITCA (Global IT Community Association)

Menu de Usuario
  Iniciar Sesión
  Registrarse
  Restablecer Contraseña
  Ventajas de Registrarse

Acerca de
  Contigo desde Oct 2007
  771 usuarios registrados
  86146 pageloads/mes
  Ranking Alexa 498160

Social Networks
Sigue a Portal GuilleSQL en Linkedin !!
Sigue a Portal GuilleSQL en Twitter !!



Archivo

Julio de 2018 (1)
Junio de 2018 (4)
Mayo de 2018 (5)
Abril de 2018 (3)
Marzo de 2018 (2)
Febrero de 2018 (7)
Enero de 2018 (1)
Diciembre de 2017 (15)
Noviembre de 2017 (7)
Junio de 2017 (3)
Mayo de 2017 (1)
Marzo de 2017 (3)
Enero de 2017 (4)
Junio de 2016 (1)
Mayo de 2016 (2)
Abril de 2016 (2)
Septiembre de 2015 (2)
Agosto de 2015 (2)
Junio de 2015 (10)
Mayo de 2015 (4)
Abril de 2015 (8)
Marzo de 2015 (11)
Octubre de 2014 (3)
Septiembre de 2014 (7)
Agosto de 2014 (5)
Julio de 2014 (2)
Mayo de 2014 (4)
Abril de 2014 (4)
Marzo de 2014 (4)
Febrero de 2014 (1)
Enero de 2014 (5)
Diciembre de 2013 (8)
Noviembre de 2013 (2)
Octubre de 2013 (7)
Septiembre de 2013 (6)
Agosto de 2013 (1)
Julio de 2013 (6)
Junio de 2013 (11)
Mayo de 2013 (7)
Abril de 2013 (6)
Febrero de 2013 (5)
Enero de 2013 (7)
Diciembre de 2012 (12)
Noviembre de 2012 (13)
Octubre de 2012 (5)
Septiembre de 2012 (3)
Agosto de 2012 (6)
Julio de 2012 (4)
Junio de 2012 (1)
Mayo de 2012 (2)
Abril de 2012 (7)
Marzo de 2012 (16)
Febrero de 2012 (9)
Enero de 2012 (5)
Diciembre de 2011 (10)
Noviembre de 2011 (10)
Octubre de 2011 (4)
Septiembre de 2011 (5)
Agosto de 2011 (2)
Julio de 2011 (2)
Junio de 2011 (4)
Mayo de 2011 (2)
Abril de 2011 (6)
Marzo de 2011 (4)
Febrero de 2011 (10)
Enero de 2011 (5)
Diciembre de 2010 (6)
Noviembre de 2010 (4)
Octubre de 2010 (8)
Septiembre de 2010 (4)
Agosto de 2010 (1)
Julio de 2010 (3)
Mayo de 2010 (5)
Abril de 2010 (6)
Marzo de 2010 (8)
Febrero de 2010 (3)
Enero de 2010 (1)
Diciembre de 2009 (9)
Noviembre de 2009 (14)
Octubre de 2009 (2)
Septiembre de 2009 (8)
Agosto de 2009 (2)
Julio de 2009 (10)
Junio de 2009 (9)
Mayo de 2009 (10)
Abril de 2009 (9)
Marzo de 2009 (3)
Febrero de 2009 (2)
Enero de 2009 (3)
Noviembre de 2008 (2)
Octubre de 2008 (2)
Septiembre de 2008 (2)
Agosto de 2008 (5)
Julio de 2008 (5)
Junio de 2008 (1)
Mayo de 2008 (3)
Abril de 2008 (2)
Marzo de 2008 (2)
Febrero de 2008 (2)
Enero de 2008 (5)
Noviembre de 2007 (2)
Octubre de 2007 (2)






Esta información se proporciona "como está" sin garantías de ninguna clase, y no otorga ningún derecho.
This information is provided "AS IS" with no warranties, and confers no rights.

Copyright © 2007 GuilleSQL, todos los derechos reservados.
GuilleSQL.com y GuilleSQL.net son también parte de Portal GuilleSQL.

Visitas recibidas (Page Loads) en GuilleSQL (fuente: StatCounter):

screen resolution stats
Visitas