GuilleSQL :: Microsoft SQL Server, SSIS, y más !!

Diferencias entre SELECT INTO e INSERT INTO

Volver a: [SELECT INTO, INSERT INTO y el LOG de SQL Server: alternativas para cargar tablas en un Data Warehouse]


Este capítulo describe las diferencias funcionales existentes entre SELECT INTO e INSERT INTO en SQL Server, ofreciendo una primera visión global que nos ayude a elegir entre SELECT INTO e INSERT INTO, así como nos ayude a diseñar un esbozo de nuestros procesos de carga (ej: SELECT INTO sobre tabla temporal con el completo de filas, para un posterior INSERT INTO incremental sobre la tabla definitiva). Se introduce también las diferencias de rendimiento que pueden encontrarse entre SELECT INTO e INSERT INTO en SQL Server.

SELECT INTO e INSERT INTO son dos operaciones muy diferenciadas, al menos en el caso de SQL Server. Ambas son instrucciones de Transact-SQL que se ejecutan dentro de SQL Server (in-process). Recordar, que existen utilidades como BCP.EXE que se ejecutan fuera de la instancia de SQL Server (out-of-process), de hecho, son ejecutables independientes... como ocurre con utilidades similares en otros motores de base de datos como DB2, Informix, ORACLE, etc. A continuación se describen las características de ambas instrucciones:

  • SELECT INTO. Se trata de una Operación de Registro Mínimo, y dentro de este tipo de operaciones se trata de una operación de copia masiva (Bulk Copy ó BULK). Su ejecución escribirá en el LOG de SQL Server el mínimo de información necesaria, dependiendo del modo de recuperación (recovery) que tenga configurada la base de datos de destino, consiguiendo así mejorar el rendimiento sensiblemente.

    La tabla destino no debe existir, debido a que será creada al vuelo durante la ejecución de la sentencia SELECT INTO. Esto tiene varias implicaciones de importancia. Por un lado, no es posible utilizar SELECT INTO para agregar filas a una tabla existente, algo necesario en muchas ocasiones, y que resultaría beneficioso poder realizar a través de operaciones de registro mínimo (mejorando el rendimiento al minimizar las escrituras en LOG). Por otro lado, el tipo de datos, precisión y resto de características (ej: admitir valores NULL) de los campos de la tabla destino, serán inferidos de la consulta origen, teniendo en cuenta además, que no tenemos posibilidad de definir o inferir todas las características del origen (ej: la definición de índices, autonuméricos o IDENTITY, etc). El caso particular de los campos autonuméricos o IDENTITY podemos cubrirlo en cierta medida con las funciones de RANKING de SQL Server.

    En consecuencia, en ocasiones la tabla destino de un SELECT INTO, tiene campos con tipos de datos, precisiones u otras características, que no imaginábamos en un principio, que nos perjudica para nuestro propósito, y que nos puede costar controlar. Esto suele ocurrir cuando hacemos el INTO de una SELECT compleja, con cláusulas JOIN (ej: LEFT JOIN), realizando concatenaciones de campos, aplicando funciones a los campos seleccionados, haciendo conversiones de tipos (CASTING) explícitos e implícitos, etc.

    La tabla destino de un SELECT INTO no contendrá ningún índice, ni índices agrupados (clustered index) ni índices no agrupados (non-clustered index). Evidentemente, puesto que la tabla no puede existir, y durante la creación implícita de la tabla al ejecutar SELECT INTO se creará sin índices, por lo que será una simple estructura algorítmica de Montón (Heap).

    Es importante recordar que si intentamos ejecutar una sentencia SELECT INTO y la tabla de destino existe, obtendremos el siguiente error (evidente, ya que no debe existir la tabla destino previamente):

    Mens. 2714, Nivel 16, Estado 6, Línea 1
    Ya hay un objeto con el nombre ' DIM_Usuarios ' en la base de datos.

    Mens. 2714, Nivel 16, Estado 6, Línea 1
    There is already an object named ' DIM_Usuarios ' in the database.

    A continuación, se muestra un ejemplo de SELECT INTO.
SELECT
USU.USU_ID
,ISNULL(COL.COL_ID, ‘X’) AS COL_ID
,ISNULL(COL.COL_DESCRI, ‘Desconocido’) AS COL_DESCRI
INTO DataWarehouse.GuilleSQL.DIM_Usuarios
FROM Stagging.GuilleSQL.USUARIOS AS USU
LEFT JOIN Stagging.GuilleSQL.COLECTIVOS AS COL
ON USU.COL_ID = COL.COL_ID
  • INSERT INTO. Al contrario que SELECT INTO, INSERT INTO no es una Operación de Registro Mínimo, por lo cual, su ejecución realizará un registro completo en el LOG de SQL Server, independientemente del Modo de Recuperación utilizado.

    A diferencia que ocurre con SELECT INTO, INSERT INTO requiere que la tabla de destino ya exista, para poder ejecutarse (si no existe, deberemos crear la tabla previamente con un CREATE TABLE, o con un SELECT INTO con una condición falsa como WHERE 1=0).

    Las ventajas de tener creada la tabla destino previamente, es el hecho de que el esquema de la tabla destino lo tendremos controlado perfectamente (ej: tipos de datos, precisión, admisión de valores NULL, intercalación, utilización de campos autonuméricos para la creación de Claves Subrogadas, etc.). Evidentemente, al realizar una inserción fruto de una selección de múltiples filas, estamos expuestos a diferentes tipos de violaciones del esquema de destino, como pueda ser violación de clave primaria o de índices únicos, violación de restricciones NOT NULL, etc. Pero quizás la principal ventaja de INSERT INTO como consecuencia de que la tabla destino deba existir, es que con INSERT INTO podemos agregar filas a una tabla existente que ya contiene filas, mientras que con SELECT INTO siempre crearemos una nueva tabla vacía sobre la que insertaremos.

    La existencia de índices en la tabla destino puede perjudicar el rendimiento, por lo que se puede estudiar la posibilidad de eliminar índices antes de cargar, para cargar, y seguidamente crear de nuevo los índices.

    Volviendo al caso de uso de un Data Warehouse, es muy habitual el desarrollo de cargas incrementales de las tablas de hechos y tablas de dimensión. Por ejemplo, podemos tener un Data Mart que se carga con periodicidad mensual, y cada mes agregamos las nuevas filas de hechos y de dimensiones, para lo cual parece evidente que utilizaremos sentencias INSERT INTO (agregando así las nuevas filas a las tablas existentes), aunque en ocasiones utilicemos una tabla temporal (quizás con un SELECT INTO) con ciertas transformaciones básicas, como paso previo al INSERT INTO sobre la tabla definitiva (INSERT INTO que leerá de la tabla temporal creada previamente con SELECT INTO).

    A continuación se muestra un ejemplo de INSERT INTO.
INSERT INTO DataWarehouse.GuilleSQL.DIM_Usuarios
SELECT
USU.USU_ID
,ISNULL(COL.COL_ID, ‘X’) AS COL_ID
,ISNULL(COL.COL_DESCRI, ‘Desconocido’) AS COL_DESCRI
FROM Stagging.GuilleSQL.USUARIOS AS USU
LEFT JOIN Stagging.GuilleSQL.COLECTIVOS AS COL
ON USU.COL_ID = COL.COL_ID

Volver a: [SELECT INTO, INSERT INTO y el LOG de SQL Server: alternativas para cargar tablas en un Data Warehouse]




Miembros de
Miembros de GITCA (Global IT Community Association)

Menu de Usuario
  Iniciar Sesión
  Registrarse
  Restablecer Contraseña
  Ventajas de Registrarse

Acerca de
  Contigo desde Oct 2007
  771 usuarios registrados
  86146 pageloads/mes
  Ranking Alexa 498160

Social Networks
Sigue a Portal GuilleSQL en Linkedin !!
Sigue a Portal GuilleSQL en Twitter !!



Archivo

Febrero de 2018 (7)
Enero de 2018 (1)
Diciembre de 2017 (15)
Noviembre de 2017 (7)
Junio de 2017 (3)
Mayo de 2017 (1)
Marzo de 2017 (3)
Enero de 2017 (4)
Junio de 2016 (1)
Mayo de 2016 (2)
Abril de 2016 (2)
Septiembre de 2015 (2)
Agosto de 2015 (2)
Junio de 2015 (10)
Mayo de 2015 (4)
Abril de 2015 (8)
Marzo de 2015 (11)
Octubre de 2014 (3)
Septiembre de 2014 (7)
Agosto de 2014 (5)
Julio de 2014 (2)
Mayo de 2014 (4)
Abril de 2014 (4)
Marzo de 2014 (4)
Febrero de 2014 (1)
Enero de 2014 (5)
Diciembre de 2013 (8)
Noviembre de 2013 (2)
Octubre de 2013 (7)
Septiembre de 2013 (6)
Agosto de 2013 (1)
Julio de 2013 (6)
Junio de 2013 (11)
Mayo de 2013 (7)
Abril de 2013 (6)
Febrero de 2013 (5)
Enero de 2013 (7)
Diciembre de 2012 (12)
Noviembre de 2012 (13)
Octubre de 2012 (5)
Septiembre de 2012 (3)
Agosto de 2012 (6)
Julio de 2012 (4)
Junio de 2012 (1)
Mayo de 2012 (2)
Abril de 2012 (7)
Marzo de 2012 (16)
Febrero de 2012 (9)
Enero de 2012 (5)
Diciembre de 2011 (10)
Noviembre de 2011 (10)
Octubre de 2011 (4)
Septiembre de 2011 (5)
Agosto de 2011 (2)
Julio de 2011 (2)
Junio de 2011 (4)
Mayo de 2011 (2)
Abril de 2011 (6)
Marzo de 2011 (4)
Febrero de 2011 (10)
Enero de 2011 (5)
Diciembre de 2010 (6)
Noviembre de 2010 (4)
Octubre de 2010 (8)
Septiembre de 2010 (4)
Agosto de 2010 (1)
Julio de 2010 (3)
Mayo de 2010 (5)
Abril de 2010 (6)
Marzo de 2010 (8)
Febrero de 2010 (3)
Enero de 2010 (1)
Diciembre de 2009 (9)
Noviembre de 2009 (14)
Octubre de 2009 (2)
Septiembre de 2009 (8)
Agosto de 2009 (2)
Julio de 2009 (10)
Junio de 2009 (9)
Mayo de 2009 (10)
Abril de 2009 (9)
Marzo de 2009 (3)
Febrero de 2009 (2)
Enero de 2009 (3)
Noviembre de 2008 (2)
Octubre de 2008 (2)
Septiembre de 2008 (2)
Agosto de 2008 (5)
Julio de 2008 (5)
Junio de 2008 (1)
Mayo de 2008 (3)
Abril de 2008 (2)
Marzo de 2008 (2)
Febrero de 2008 (2)
Enero de 2008 (5)
Noviembre de 2007 (2)
Octubre de 2007 (2)






Copyright © 2007 GuilleSQL, todos los derechos reservados.