GuilleSQL :: Microsoft SQL Server, SSIS, y más !!

PostgreSQL: Vacuum Full, Plain Vacuum, Table Bloat, Index Bloat y MVCC


PostgreSQL tiene una peculiaridad por la cual se puede inflar el tamaño de tablas e índices (table bloat e index bloat) y generándose la correspondiente fragmentación, como consecuencia del funcionamiento interno de su modelo de versionado de filas MVCC (Multi-Version Concurrency Control). Algo que inicialmente podría verse como un inconveniente, pero que por el contrario tiene otros beneficios (el Rollback es muy muy rápido), y que conociendo bien el funcionamiento de Plain Vacuum y Vacuum Full, conseguiremos igualmente mantener nuestras bases de datos en buen estado.

PostgreSQL utiliza un sistema de versionado de filas similar al utilizado por ORACLE, que se denomina MVCC (Multi-Version Concurrency Control), el cual es una parte fundamental del corazón de PostgreSQL y no se puede deshabilitar, que permite que los usuarios puedan leer datos al mismos tiempo que otros usuarios realizan cambios, sin problemas de bloqueos, tal como ocurre con ORACLE o con SQL Server (al habilitar el versionado de filas de SQL Server).

El precio de esta virtud es que una sentencia UPDATE o DELETE (incluso un INSERT abortado) provocará el crecimiento de tamaño de tablas e índices (Table Bloat e Index Bloat) debido a las filas muertas (dead rows), algo que puede impactar en el rendimiento de la base de datos, ya que la fragmentación producida por las filas muertas podría implicar que para la leer un mismo conjunto de filas vivas sea necesario leer más páginas de disco, aumentado las IOs y en consecuencia el tiempo de ejecución y la memoria RAM necesaria en Buffer Cache.

En concreto, si hacemos un UPDATE, realmente estamos creando una nueva fila (como si fuese un INSERT) y marcando la fila antigua como obsoleta y no visible (como si fuese un DELETE), por lo que al final nos quedamos con dos filas, una fila viva y una fila muerta que desperdicia espacio y genera fragmentación. Pero por el contrario, esta forma de actuar implica que el ROLLBACK es muy muy rápido, ya que tan sólo habría que cambiar la visibilidad de las filas, para volver a dejar como visibles las filas originales (quién no se ha tirado horas esperando a que un Rollback de una transacción pesada finalice en Oracle o en SQL Server…).

VACUUM es el mecanismo por el cual podemos reclamar espacio en PostgreSQL. Sin embargo hay dos tipos de Vacuum:

  • Plain VACCUM. Es el utilizado por el demonio de Auto-Vacuum. Podría liberar espacio de tablas por las filas muertas localizadas al final de tabla, pero en ningún caso liberar espacio de índices, y no requiere exclusividad.
  • VACCUM FULL. Requiere acceso exclusivo, ya que creará de nuevo la tabla e índices (haciendo una copia y seguidamente eliminando la original), consiguiendo liberar todo el espacio desperdiciado por filas muertas, tanto en la tabla como índices. El problema, la exclusividad, y el hecho de que requiere espacio adicional en disco, por lo que debería realizarse en una ventana aprobada fuera de horario. Ya no es necesario REINDEXAR después, cómo se hacía antes en versiones 8.X.

Hay más escenarios posibles. Por ejemplo, ALTER TABLE DROP COLUMN no elimina realmente la columna (esto implicaría re-escribir de nuevo la tabla), sino que simplemente marca la columna como eliminada y no visible, convirtiéndolo en una operación muy rápida y minimizando la necesidad de acceso exclusivo a la tabla. Pero de nuevo, tendremos que recurrir al VACUUM FULL para conseguir liberar espacio.

Un problema adicional a todo esto, es que no tenemos de serie una forma clara de conocer cuánto espacio estamos desperdiciando (algo que si podemos hacer en otros motores como SQL Server). Resulta muy útil poder tener un CLON de nuestra Instancia de PostgreSQL que podamos crear con pg_dump y pg_restore (con carácter diario o semanal), para así poder comparar tamaños de tablas e índices y poder medir de forma objetiva los tamaños, con fragmentación y sin ella, y poder comparar.

Cómo ejecutar un Vacuum Full

No tiene mucho misterio. Podemos hacerlo desde una sesión de psql, conectarnos a la base de datos correspondiente, y ejecutar un comando VACUUM FULL con las opciones VERBOSE y ANALYZE para mostrar una salida detallada y realizar una actualización de estadísticas al finalizar.

VACUUM FULL VERBOSE ANALYZE public.guillesql_table;

La salida del comando anterior sería algo así:

INFO:  vacuuming "public.guillesql_table"
INFO:  " guillesql_table": found 0 removable, 13838044 nonremovable row versions in 3634213 pages
DETAIL:  0 dead row versions cannot be removed yet.
CPU 18.26s/34.36u sec elapsed 293.92 sec.
INFO:  analyzing "public.guillesql_table "
INFO:  "guillesql_table": scanned 30000 of 443308 pages, containing 936192 live rows and 0 dead rows; 30000 rows in sample, 13837773 estimated total rows

Es bastante rápido.

Algunas alternativas a Vacuum Full

Una opción que podemos manejar es hacer sólo un REINDEX de los índices que lo necesiten (requiere acceso exclusivo al índice). De esta forma sólo liberaremos espacio de índices, pero por el contrario será más ligero que un VACUUM FULL (no re-escribirmos la tabla ni el resto de índices que no lo necesiten).

Otra alternativa parecida a la anterior sería crear un índice concurrentemente (con la misma definición de un índice existente), eliminar el índice original, y renombrar el nuevo índice para que se llame como el original. De este modo, conseguimos el mismo efecto del REINDEX, y aunque sólo conseguimos liberar espacio de los índices, tiene la ventaja de aumentar la disponibilidad. El inconveniente de crear un índice concurrentemente, es que en algunas versiones de PostgreSQL nos podemos encontrar con algún Bug, y podemos acabar necesitando eliminar y volver a crear el índice de la forma tradicional.

Poco más por hoy. Como siempre, confío que la lectura resulte de interés.

 


]
[Autor: GuilleSQL]



Miembros de
Miembros de GITCA (Global IT Community Association)

Menu de Usuario
  Iniciar Sesión
  Registrarse
  Restablecer Contraseña
  Ventajas de Registrarse

Acerca de
  Contigo desde Oct 2007
  771 usuarios registrados
  86146 pageloads/mes
  Ranking Alexa 498160

Social Networks
Sigue a Portal GuilleSQL en Linkedin !!
Sigue a Portal GuilleSQL en Twitter !!



Archivo

Marzo de 2019 (1)
Octubre de 2018 (1)
Julio de 2018 (1)
Junio de 2018 (4)
Mayo de 2018 (5)
Abril de 2018 (3)
Marzo de 2018 (2)
Febrero de 2018 (7)
Enero de 2018 (1)
Diciembre de 2017 (15)
Noviembre de 2017 (7)
Junio de 2017 (3)
Mayo de 2017 (1)
Marzo de 2017 (3)
Enero de 2017 (4)
Junio de 2016 (1)
Mayo de 2016 (2)
Abril de 2016 (2)
Septiembre de 2015 (2)
Agosto de 2015 (2)
Junio de 2015 (10)
Mayo de 2015 (4)
Abril de 2015 (8)
Marzo de 2015 (11)
Octubre de 2014 (3)
Septiembre de 2014 (7)
Agosto de 2014 (5)
Julio de 2014 (2)
Mayo de 2014 (4)
Abril de 2014 (4)
Marzo de 2014 (4)
Febrero de 2014 (1)
Enero de 2014 (5)
Diciembre de 2013 (8)
Noviembre de 2013 (2)
Octubre de 2013 (7)
Septiembre de 2013 (6)
Agosto de 2013 (1)
Julio de 2013 (6)
Junio de 2013 (11)
Mayo de 2013 (7)
Abril de 2013 (6)
Febrero de 2013 (5)
Enero de 2013 (7)
Diciembre de 2012 (12)
Noviembre de 2012 (13)
Octubre de 2012 (5)
Septiembre de 2012 (3)
Agosto de 2012 (6)
Julio de 2012 (4)
Junio de 2012 (1)
Mayo de 2012 (2)
Abril de 2012 (7)
Marzo de 2012 (16)
Febrero de 2012 (9)
Enero de 2012 (5)
Diciembre de 2011 (10)
Noviembre de 2011 (10)
Octubre de 2011 (4)
Septiembre de 2011 (5)
Agosto de 2011 (2)
Julio de 2011 (2)
Junio de 2011 (4)
Mayo de 2011 (2)
Abril de 2011 (6)
Marzo de 2011 (4)
Febrero de 2011 (10)
Enero de 2011 (5)
Diciembre de 2010 (6)
Noviembre de 2010 (4)
Octubre de 2010 (8)
Septiembre de 2010 (4)
Agosto de 2010 (1)
Julio de 2010 (3)
Mayo de 2010 (5)
Abril de 2010 (6)
Marzo de 2010 (8)
Febrero de 2010 (3)
Enero de 2010 (1)
Diciembre de 2009 (9)
Noviembre de 2009 (14)
Octubre de 2009 (2)
Septiembre de 2009 (8)
Agosto de 2009 (2)
Julio de 2009 (10)
Junio de 2009 (9)
Mayo de 2009 (10)
Abril de 2009 (9)
Marzo de 2009 (3)
Febrero de 2009 (2)
Enero de 2009 (3)
Noviembre de 2008 (2)
Octubre de 2008 (2)
Septiembre de 2008 (2)
Agosto de 2008 (5)
Julio de 2008 (5)
Junio de 2008 (1)
Mayo de 2008 (3)
Abril de 2008 (2)
Marzo de 2008 (2)
Febrero de 2008 (2)
Enero de 2008 (5)
Noviembre de 2007 (2)
Octubre de 2007 (2)






Copyright © 2007 GuilleSQL, todos los derechos reservados.