GuilleSQL :: Microsoft SQL Server, SSIS, y más !!

Introducción: SELECT INTO, INSERT INTO, y el Data Warehouse

Volver a: [SELECT INTO, INSERT INTO y el LOG de SQL Server: alternativas para cargar tablas en un Data Warehouse]


Este primer capítulo es una simple introducción del presente artículo, dónde describir el alcance del mismo: conocer las diferencias entre SELECT INTO e INSERT INTO en SQL Server, conocer la implicación de la elección del Modo de Recuperación (Recovery) de SQL Server y de un buen dimensionamiento de los ficheros de base de datos, etc. Conceptos de especial importancia al trabajar con grandes volúmenes de datos en SQL Server, algo propio de entornos de Data Warehouse (DW) y Business Intelligence (BI).

Para el Diseño y Construcción de los procesos de carga (ETL) en un Data Warehouse basado en SQL Server y Transact-SQL (sin herramientas ETL externas, sólo con el motor de base de datos SQL Server), existen diferentes alternativas a utilizar (SELECT INTO, BULK INSERT, INSERT INTO, BCP.EXE, OPENROWSET BULK, etc), cada una de ellas con unas ventajas e inconvenientes, que nos obligan a tener que elegir cuál es la mejor solución para cada caso.

Si los datos de origen ya están ubicados en la misma instancia de SQL Server que los datos de destino (indiferentemente de que sean mismas o diferentes bases de datos), podemos utilizar SELECT INTO e INSERT INTO para cargar las tablas destino de nuestro Data Warehouse, siendo esta quizás la alternativa más rápida y sencilla de desarrollar nuestros procesos de carga (y con un excepcional rendimiento, al menos, en el caso de SELECT INTO en el Modo de Recuperación Simple y en el Modo de Recuperación de Copia Masiva, al tratarse de una Operación de Registro Mínimo).

El caso de trabajar con instancias separadas o con orígenes de datos heterogéneos es muy distinto, y queda fuera del alcance de este artículo, aunque es fácil predecir que si deseamos mover datos entre instancias separadas de SQL Server (o entre diferentes orígenes de datos) tendremos que evaluar la utilización de Servidores Vinculados (Linked Servers), OPENROWSET, y por supuesto, descargas y cargas de ficheros (BCP.EXE, BULK INSERT, SELECT INTO FROM OPENROWSET BULK, etc.), y por supuesto tener en cuenta que en función del Proveedor OLEDB, Proveedor .Net, o Driver ODBC utilizado, podremos encontrar grandes diferencias en rendimiento y en funcionalidad.

Para empezar, vamos presentar dichas alternativas básicas (SELECT INTO e INSERT INTO) de una forma unitaria, con el objetivo de conocer sus principales características teóricas, y así obtener una primera base que nos ayude en el diseño y construcción de procesos de carga (ETL) más complejos, mezclando las alternativas aquí expuestas, así como otras soluciones más avanzadas.

El contenido del presente Artículo tiene un carácter genérico, es decir, su alcance no se limita a entornos de Data Warehouse (DW) y Business Intelligence (BI). Sin embargo, es evidente que en este tipo de entornos, toma mayor importancia la optimización de este tipo de operaciones, pues se trata de entornos en los cuales se trabaja con grandes volúmenes de datos (en ocasiones, tablas con cientos de millones de filas), que necesitan leerse, transformarse, e insertarse en el menor tiempo y mejor rendimiento posible.

Puestos en situación, vamos a empezar a estudiar la utilización de SELECT INTO e INSERT INTO, sus consideraciones de consumo de LOG en función del Modo de Recuperación (Recovery) de SQL Server, y otras consideraciones y trucos a tener en cuenta.

Para el Diseño y Construcción de los procesos de carga (ETL) en un Data Warehouse basado en SQL Server y Transact-SQL (sin herramientas ETL externas, sólo con el motor de base de datos SQL Server), existen diferentes alternativas a utilizar (SELECT INTO, BULK INSERT, INSERT INTO, BCP.EXE, OPENROWSET BULK, etc), cada una de ellas con unas ventajas e inconvenientes, que nos obligan a tener que elegir cuál es la mejor solución para cada caso.

Si los datos de origen ya están ubicados en la misma instancia de SQL Server que los datos de destino (indiferentemente de que sean mismas o diferentes bases de datos), podemos utilizar SELECT INTO e INSERT INTO para cargar las tablas destino de nuestro Data Warehouse, siendo esta quizás la alternativa más rápida y sencilla de desarrollar nuestros procesos de carga (y con un excepcional rendimiento, al menos, en el caso de SELECT INTO en el Modo de Recuperación Simple y en el Modo de Recuperación de Copia Masiva, al tratarse de una Operación de Registro Mínimo).

El caso de trabajar con instancias separadas o con orígenes de datos heterogéneos es muy distinto, y queda fuera del alcance de este artículo, aunque es fácil predecir que si deseamos mover datos entre instancias separadas de SQL Server (o entre diferentes orígenes de datos) tendremos que evaluar la utilización de Servidores Vinculados (Linked Servers), OPENROWSET, y por supuesto, descargas y cargas de ficheros (BCP.EXE, BULK INSERT, SELECT INTO FROM OPENROWSET BULK, etc.), y por supuesto tener en cuenta que en función del Proveedor OLEDB, Proveedor .Net, o Driver ODBC utilizado, podremos encontrar grandes diferencias en rendimiento y en funcionalidad.

Para empezar, vamos presentar dichas alternativas básicas (SELECT INTO e INSERT INTO) de una forma unitaria, con el objetivo de conocer sus principales características teóricas, y así obtener una primera base que nos ayude en el diseño y construcción de procesos de carga (ETL) más complejos, mezclando las alternativas aquí expuestas, así como otras soluciones más avanzadas.

El contenido del presente Artículo tiene un carácter genérico, es decir, su alcance no se limita a entornos de Data Warehouse (DW) y Business Intelligence (BI). Sin embargo, es evidente que en este tipo de entornos, toma mayor importancia la optimización de este tipo de operaciones, pues se trata de entornos en los cuales se trabaja con grandes volúmenes de datos (en ocasiones, tablas con cientos de millones de filas), que necesitan leerse, transformarse, e insertarse en el menor tiempo y mejor rendimiento posible.

Puestos en situación, vamos a empezar a estudiar la utilización de SELECT INTO e INSERT INTO, sus consideraciones de consumo de LOG en función del Modo de Recuperación (Recovery) de SQL Server, y otras consideraciones y trucos a tener en cuenta.

Volver a: [SELECT INTO, INSERT INTO y el LOG de SQL Server: alternativas para cargar tablas en un Data Warehouse]




Miembros de
Miembros de GITCA (Global IT Community Association)

Menu de Usuario
  Iniciar Sesión
  Registrarse
  Restablecer Contraseña
  Ventajas de Registrarse

Acerca de
  Contigo desde Oct 2007
  771 usuarios registrados
  86146 pageloads/mes
  Ranking Alexa 498160

Social Networks
Sigue a Portal GuilleSQL en Linkedin !!
Sigue a Portal GuilleSQL en Twitter !!



Archivo

Marzo de 2019 (1)
Octubre de 2018 (1)
Julio de 2018 (1)
Junio de 2018 (4)
Mayo de 2018 (5)
Abril de 2018 (3)
Marzo de 2018 (2)
Febrero de 2018 (7)
Enero de 2018 (1)
Diciembre de 2017 (15)
Noviembre de 2017 (7)
Junio de 2017 (3)
Mayo de 2017 (1)
Marzo de 2017 (3)
Enero de 2017 (4)
Junio de 2016 (1)
Mayo de 2016 (2)
Abril de 2016 (2)
Septiembre de 2015 (2)
Agosto de 2015 (2)
Junio de 2015 (10)
Mayo de 2015 (4)
Abril de 2015 (8)
Marzo de 2015 (11)
Octubre de 2014 (3)
Septiembre de 2014 (7)
Agosto de 2014 (5)
Julio de 2014 (2)
Mayo de 2014 (4)
Abril de 2014 (4)
Marzo de 2014 (4)
Febrero de 2014 (1)
Enero de 2014 (5)
Diciembre de 2013 (8)
Noviembre de 2013 (2)
Octubre de 2013 (7)
Septiembre de 2013 (6)
Agosto de 2013 (1)
Julio de 2013 (6)
Junio de 2013 (11)
Mayo de 2013 (7)
Abril de 2013 (6)
Febrero de 2013 (5)
Enero de 2013 (7)
Diciembre de 2012 (12)
Noviembre de 2012 (13)
Octubre de 2012 (5)
Septiembre de 2012 (3)
Agosto de 2012 (6)
Julio de 2012 (4)
Junio de 2012 (1)
Mayo de 2012 (2)
Abril de 2012 (7)
Marzo de 2012 (16)
Febrero de 2012 (9)
Enero de 2012 (5)
Diciembre de 2011 (10)
Noviembre de 2011 (10)
Octubre de 2011 (4)
Septiembre de 2011 (5)
Agosto de 2011 (2)
Julio de 2011 (2)
Junio de 2011 (4)
Mayo de 2011 (2)
Abril de 2011 (6)
Marzo de 2011 (4)
Febrero de 2011 (10)
Enero de 2011 (5)
Diciembre de 2010 (6)
Noviembre de 2010 (4)
Octubre de 2010 (8)
Septiembre de 2010 (4)
Agosto de 2010 (1)
Julio de 2010 (3)
Mayo de 2010 (5)
Abril de 2010 (6)
Marzo de 2010 (8)
Febrero de 2010 (3)
Enero de 2010 (1)
Diciembre de 2009 (9)
Noviembre de 2009 (14)
Octubre de 2009 (2)
Septiembre de 2009 (8)
Agosto de 2009 (2)
Julio de 2009 (10)
Junio de 2009 (9)
Mayo de 2009 (10)
Abril de 2009 (9)
Marzo de 2009 (3)
Febrero de 2009 (2)
Enero de 2009 (3)
Noviembre de 2008 (2)
Octubre de 2008 (2)
Septiembre de 2008 (2)
Agosto de 2008 (5)
Julio de 2008 (5)
Junio de 2008 (1)
Mayo de 2008 (3)
Abril de 2008 (2)
Marzo de 2008 (2)
Febrero de 2008 (2)
Enero de 2008 (5)
Noviembre de 2007 (2)
Octubre de 2007 (2)






Copyright © 2007 GuilleSQL, todos los derechos reservados.