Precios de AWS Glue
¿Por qué utilizar Glue?
Con AWS Glue, paga una tarifa por hora, que se factura por segundo, para los rastreadores (detección de datos) y los trabajos de extracción, transformación y carga (ETL) (procesamiento y carga de datos). Con el Catálogo de datos de AWS Glue, paga una tarifa mensual simplificada para almacenar los metadatos y acceder a ellos. Si aprovisiona para desarrollar su código de ETL de modo interactivo, paga una tarifa por hora, que se factura por segundo. El uso del registro de esquemas de AWS Glue se ofrece sin cargos adicionales.
Nota: los precios pueden variar según la región de AWS.
-
Trabajos de ETL y sesiones interactivas
-
Catálogo de datos
-
Rastreadores
-
Calidad de los datos
-
Trabajos de ETL y sesiones interactivas
-
Con AWS Glue, solo paga por el tiempo que tarden en ejecutarse los trabajos de extracción, transformación y carga (ETL) de AWS Glue. No tiene que administrar recursos, no hay costos iniciales y no debe pagar por el tiempo de inicio ni de apagado. AWS le cobra una tarifa por hora en función de la cantidad de unidades de procesamiento de datos (DPU) que utilice para ejecutar los trabajos de AWS Glue. Una sola DPU proporciona 4 CPU virtuales y 16 GB de memoria. AWS factura los trabajos y las sesiones interactivas de AWS Glue en incrementos de 1 segundo, redondeados al segundo más cercano.
Hay tres tipos de trabajos de AWS Glue: Apache Spark, Apache Spark Streaming y Shell de Python. Las ejecuciones de trabajos de Spark y Spark Streaming requieren un mínimo de 2 DPU. De forma predeterminada, AWS Glue asigna 10 DPU a cada trabajo de Spark y 2 DPU a cada trabajo de Spark Streaming. Los trabajos tienen un mínimo de 1 minuto.
Las sesiones interactivas son opcionales y la facturación se aplica solo si las usa para el desarrollo de código ETL interactivo. AWS cobra las sesiones interactivas en función del tiempo que la sesión esté activa y el número de DPU. Las sesiones interactivas tienen tiempos de espera por inactividad que pueden configurarse. Las sesiones interactivas requieren un mínimo de 2 DPU y tienen 5 DPU como valor predeterminado. Hay una duración mínima de facturación de 1 minuto para cada sesión interactiva que se aprovisionó. Los blocs de notas de trabajos de AWS Glue Studio proporcionan una interfaz integrada para las sesiones interactivas. AWS no cobra por los blocs de notas, pero sí por las sesiones interactivas que utilizan.
Las vistas previas de los datos de AWS Glue Studio le permiten probar las transformaciones durante el proceso de creación de los trabajos. Cada sesión de vista previa de datos de AWS Glue Studio utiliza 2 DPU, se ejecuta durante 30 minutos y se detiene automáticamente.
Ejemplos de precios
Trabajo de ETL: suponga que tiene un trabajo de Apache Spark para AWS Glue que se ejecuta durante 15 minutos y utiliza 6 DPU. El precio de 1 hora de DPU es de 0,434 EUR. Dado que el trabajo se ejecutó durante 15 minutos y utilizó 6 DPU, AWS le facturará 6 DPU * 0,25 hora * 0,434 EUR, o 0,65 EUR.
Blocs de notas de trabajos de AWS Glue Studio y sesiones interactivas: suponga que utiliza un bloc de notas en AWS Glue Studio para desarrollar el código ETL de manera interactiva. Una sesión interactiva tiene 5 DPU de forma predeterminada. El precio de 1 hora de DPU es de 0,434 EUR. Si ejecuta la sesión durante 24 minutos, se le facturarán 5 DPU * 0,4 horas* 0,434 EUR o 0,868 EUR.
-
Catálogo de datos
-
El Catálogo de datos de AWS Glue es el repositorio de metadatos técnicos centralizado para todos sus activos de datos en varios orígenes de datos, lo cual incluye Amazon S3, Amazon Redshift y orígenes de datos de terceros. Se puede acceder al catálogo de datos desde el almacén de lago de Amazon SageMaker para obtener datos, análisis e inteligencia artificial. Proporciona una interfaz unificada para organizar los datos como catálogos, bases de datos y tablas y consultarlos desde Amazon Redshift, Amazon Athena y Amazon EMR. Las capacidades de AWS Lake Formation del catálogo de datos le permiten centralizar la gobernanza de datos en AWS. Gestione los activos de datos mediante permisos de datos detallados y características conocidas al estilo de una base de datos.
Al usar el catálogo de datos, se le factura por almacenar y acceder a los metadatos de las tablas y por ejecutar trabajos de procesamiento de datos que calculan las estadísticas de las tablas y las optimizaciones de las tablas.
Mantenimiento de tablas y estadísticas
El catálogo de datos proporciona una compactación gestionada para las tablas de Apache Iceberg en el almacenamiento de objetos de Amazon S3, se compactan objetos pequeños en objetos más grandes para lograr un mejor rendimiento de lectura por parte de los servicios de análisis de AWS, como los trabajos ETL de Amazon Redshift, Athena, Amazon EMR y AWS Glue. Se le cobra una tarifa por hora en función de la cantidad de unidades de procesamiento de datos (o DPU) que utilice para la tabla de compactación. Una única unidad de procesamiento de datos (DPU) suministra 4 CPU virtuales y 16 GB de memoria. Se cobra en incrementos de 1 segundo, redondeado al segundo más cercano, con una duración mínima de 1 minuto por ejecución.
El catálogo de datos también es compatible con las estadísticas de tablas a nivel de columna para las tablas de AWS Glue. Estas estadísticas se integran con el optimizador basado en costos (CBO) en las consultas de lagos de datos en Athena y en Amazon Redshift, lo que mejora el rendimiento de las consultas y permite ahorrar costos.
Optimización
- 0,44 EUR por hora de DPU/hora para optimizar las tablas de Apache Iceberg, facturados por segundo con un mínimo de 1 minuto.
Estadísticas:
- 0,44 EUR por hora de DPU para generar estadísticas, facturado por segundo con un mínimo de 1 minuto.
Uso y costos adicionales
Almacenamiento
Con el catálogo de datos, puede crear y administrar tablas en Amazon S3 y Amazon Redshift, y se le facturarán las tarifas estándar de Amazon S3 o Amazon Redshift, respectivamente, por el almacenamiento de tablas. No hay cargos de almacenamiento adicionales en el catálogo de datos.
1. Por el almacenamiento de datos en Amazon S3, se le cobran las tarifas estándar de Amazon S3 por almacenamiento, solicitudes y transferencia de datos. Consulte los precios de Amazon S3 para obtener más información.2. Al almacenar datos en Amazon Redshift, se le facturan las tarifas estándar de Amazon Redshift por el almacenamiento. Para obtener más detalles, consulte los precios de Amazon Redshift.
Computación
Cuando accede a las tablas de Amazon Redshift desde Amazon EMR, AWS Glue, Athena o cualquier motor compatible con Apache Iceberg de código abierto o de terceros, se utiliza un grupo de trabajo Amazon Redshift sin servidor administrado por servicios para los recursos informáticos. El grupo de trabajo administrado de Amazon Redshift sin servidor se usa para filtrar los resultados de las tablas y se le cobra por los recursos informáticos que usa en función de las tarifas estándar de Amazon Redshift sin servidor. La consulta de tablas almacenadas en Amazon Redshift mediante Amazon Redshift no conlleva ningún cargo adicional. Visite la sección Precios de Amazon Redshift para obtener más información.
Permisos de Lake Formation
Lake Formation se integra con el catálogo de datos y proporciona permisos a nivel de bases de datos, tablas, columnas, filas y celdas mediante controles de acceso basados en etiquetas o nombres y el uso compartido entre cuentas. No hay cargos adicionales al crear permisos de Lake Formation o al usar los permisos de Lake Formation con servicios de AWS integrados.
Ejemplos de precios
Catálogo de datos en el nivel gratuito de AWS: supongamos que almacena un millón de objetos de metadatos en el catálogo de datos en un mes determinado y realiza 1 millón de solicitudes de metadatos para acceder a estas tablas. No pagará nada por el uso porque este estará cubierto por el nivel gratuito del catálogo de datos de AWS Glue. Puede almacenar el primer millón de objetos de metadatos y llevar a cabo un millón de solicitudes de metadatos al mes de manera gratuita.
Nivel estándar de Data Catalog: ahora considere que el uso del almacenamiento de metadatos es el mismo, con 1 millón de objetos de metadatos al mes, pero sus solicitudes se duplican hasta alcanzar los 2 millones de solicitudes de metadatos al mes. Supongamos que también utiliza rastreadores para encontrar tablas nuevas y que estos se ejecutan durante 30 minutos y que consumen 2 DPU.
El costo por almacenamiento continúa siendo 0 EUR, ya que el primer millón de objetos de metadatos es gratuito. El primer millón de solicitudes también es gratuito. Se le cobrará el millón de solicitudes que supera el nivel gratuito del catálogo de datos, cuyo costo sería 1 EUR.
Uso del catálogo de datos con otros servicios:
Por ejemplo, cuando consulte tablas en Amazon Redshift con Athena SQL en el almacén de lago de SageMaker, se le facturará por: el almacenamiento de tablas en Amazon Redshift según los precios estándar de Amazon Redshift; la solicitud de metadatos realizada al catálogo de datos según los precios de solicitud del catálogo de datos estándar; el almacenamiento de metadatos para almacenar metadatos de catálogos, bases de datos y tablas en el catálogo de datos; las horas de RPU de Amazon Redshift sin servidor por segundo (con un cargo mínimo de 60 segundos) para filtrar los resultados de las tablas de Amazon Redshift y el número de bytes escaneados por la consulta de Athena, redondeado al megabyte más cercano, con un mínimo de 10 MB de datos por consulta según los precios estándar de Athena.
En otro escenario en el que consulte tablas en Amazon Redshift con Amazon EMR sin servidor, se le facturará por: el almacenamiento de tablas en Amazon Redshift según los precios estándar de Amazon Redshift; la solicitud de metadatos realizada al catálogo de datos según los precios de solicitud del catálogo de datos estándar; el almacenamiento de metadatos para almacenar metadatos de catálogos, bases de datos y tablas en el catálogo de datos; las horas de RPU de Amazon Redshift sin servidor por segundo (con un cargo mínimo de 60 segundos) para filtrar los resultados de las tablas de Amazon Redshift y la cantidad de recursos de CPU virtual, memoria y almacenamiento consumido por sus trabajadores en una aplicación de Amazon EMR.
En otro escenario en el que consulte tablas de Apache Iceberg en el almacenamiento de objetos de Amazon S3 con Amazon Redshift sin servidor, se le facturará por: el almacenamiento de tablas de Apache Iceberg en Amazon S3 según los precios estándar de Amazon S3; la solicitud de metadatos realizada a Data Catalog según los precios de solicitud de catálogo de datos estándar; el almacenamiento de metadatos para almacenar metadatos de catálogos, bases de datos y tablas en el catálogo de datos; y las horas de procesamiento (horas de RPU) según los precios estándar de Amazon Redshift.
Los rastreadores de AWS Glue se facturan a 0,44 EUR por hora de DPU, por lo que pagará 2 DPU * 0.5 hora a 0,44 EUR la hora de DPU, lo que equivale a 0,44 EUR.
Si genera estadísticas en una tabla de AWS Glue y la ejecución de las estadísticas tarda 10 minutos y consume 1 DPU, se le facturará 1 DPU * 0,1666 hora * 0,44 EUR por hora de DPU, lo que equivale a 0,07 EUR.
Si compacta las tablas Apache Iceberg del almacenamiento de objetos de Amazon S3, y la compactación dura 30 minutos y consume 2 DPU, se le facturarán 2 DPU * 0,5 hora * 0,44 EUR por hora de DPU, lo que equivale a 0,44 EUR.
- 0,44 EUR por hora de DPU/hora para optimizar las tablas de Apache Iceberg, facturados por segundo con un mínimo de 1 minuto.
-
Rastreadores
-
-
Calidad de los datos
-
Calidad de datos de AWS Glue aumenta la confianza en sus datos ya que consigue que tengan una gran calidad. De forma automática, mide, supervisa y administra la calidad de los datos en sus lagos de datos y canalizaciones. Por ello, resulta más sencillo identificar datos inexistentes, obsoletos o erróneos.
Puede acceder a características de calidad de datos con el catálogo de datos y AWS Glue Studio y mediante las API de AWS Glue.
Precios para administrar la calidad de los conjuntos de datos catalogados en el Catálogo de datos:Puede elegir un conjunto de datos del Catálogo de datos y generar recomendaciones. Esta acción creará una tarea de recomendación, a la que aprovisionará unidades de procesamiento de datos (DPU). Tras obtener las recomendaciones, puede modificar o agregar nuevas reglas y programarlas. Estas tareas se denominan tareas de calidad de datos, a las que aprovisionará DPU. Necesitará un mínimo de 2 DPU con una duración mínima de facturación de 1 minuto.
Precios para administrar la calidad de los conjuntos de datos procesados en ETL de AWS Glue:También puede agregar comprobaciones de la calidad de datos a los trabajos de ETL para evitar que se ingresen datos erróneos en los lagos de datos. Estas reglas de calidad de datos se incluirán en los trabajos de ETL, lo que dará lugar a un mayor tiempo de ejecución o un mayor consumo de DPU. Como alternativa, puede usar la ejecución flexible para cargas de trabajo confidenciales no relacionadas al SLA.
Precios para detectar anomalías en ETL de AWS Glue ETL:
Detección de anomalías:
Incurrirá en 1 DPU por estadística, además de las DPU de trabajo de ETL, durante el tiempo necesario para detectar anomalías. En promedio, se necesitan entre 10 y 20 segundos para detectar una anomalía en una estadística. Supongamos que ha configurado dos reglas (regla 1: el volumen de datos debe ser superior a 1000 registros, regla 2: el recuento de columnas debe ser superior a 10) y un analizador (analizador 1: supervisar la integridad de una columna). Esta configuración generará tres estadísticas: recuento de filas, recuento de columnas y porcentaje de integridad de una columna. Se le cobrarán 3 DPU adicionales por el tiempo que lleve detectar anomalías con un mínimo de 1 segundo. Consulte el ejemplo 4 para obtener más información.
Reentrenamiento:
Es posible que desee excluir las ejecuciones de trabajos o las estadísticas anómalas para que el algoritmo de detección de anomalías prediga con precisión las anomalías posteriores. Para ello, AWS Glue le permite excluir o incluir estadísticas. Se necesitará 1 DPU para volver a entrenar el modelo durante el tiempo que lleve volver a entrenarlo. En promedio, el reentrenamiento demora de 10 segundos a 20 minutos por estadística. Consulte el ejemplo 5 para obtener más información.
Almacenamiento de estadísticas:
No hay ningún cargo por almacenar las estadísticas recopiladas. Hay un límite de 100 000 estadísticas por cuenta y se almacenarán durante 2 años.
Cargos adicionales:
AWS Glue procesa datos directamente de Amazon Simple Storage Service (Amazon S3). La lectura de sus datos con AWS Glue no conlleva cargos de almacenamiento adicionales. Se le cobran las tarifas estándar de Amazon S3 por almacenamiento, solicitudes y transferencia de datos. En función de su configuración, los archivos temporales, los resultados de la calidad de datos y los archivos aleatorios se almacenan en un bucket de S3 de su elección y también se facturan según las tarifas estándar de S3.
Si usa el catálogo de datos, se le cobrarán las tarifas estándar del catálogo de datos. Para más detalles, elija la pestaña Solicitudes y almacenamiento en el catálogo de datos.
Ejemplos de precios
Ejemplo 1: obtener recomendaciones para una tabla del catálogo de datosPor ejemplo, considere una tarea de recomendación con 5 DPU que se completa en 10 minutos. Pagarás 5 DPU* 1/6 hora* 0,44 EUR, lo que equivale a 0,37 EUR.
Ejemplo 2: evaluar la calidad de datos de una tabla del catálogo de datosTras revisar las recomendaciones, puede editarlas si fuera necesario y, a continuación, programar la tarea de calidad de datos mediante el aprovisionamiento de DPU. Por ejemplo, considere una tarea de evaluación de la calidad de datos con 5 DPU que se completa en 20 minutos.
Pagarás 5 DPU* 1/3 de hora * 0,44 EUR, lo que equivale a 0,73 EUR.
Ejemplo 3: evaluar la calidad de datos en un trabajo de ETL de AWS GlueTambién puede agregar estas comprobaciones de la calidad de datos a los trabajos de ETL de AWS Glue para evitar que se ingresen datos erróneos en los lagos de datos. Para ello, agregue Data Quality Transform a AWS Glue Studio o use las API de AWS Glue en el código que ha creado en los blocs de notas de AWS Glue Studio. Considere que un trabajo de AWS Glue se ejecuta con reglas de calidad de datos configuradas en la canalización, y que se ejecuta durante 20 minutos (1/3 de hora) con 6 DPU. Se le cobrarán 6 DPU * 1/3 de hora * 0,44 EUR, lo que equivale a 0,88 EUR. Como alternativa, puede usar Flex, por lo que se le cobrará 6 DPU * 1/3 de hora * 0,29 EUR, lo que equivale a 0,58 EUR.
Ejemplo 4: Evaluar la calidad de los datos en un trabajo de ETL de AWS Glue con Detección de anomalías
Considere un trabajo de AWS Glue que lee datos de Amazon S3, transforma datos y ejecuta comprobaciones de calidad de datos antes de cargarlos en Amazon Redshift. Suponga que esta canalización tuviera 10 reglas y 10 analizadores, con el resultado de 20 estadísticas recopiladas. Además, suponga que la extracción, el proceso de transformación, la carga, la recopilación de estadísticas y la evaluación de la calidad de los datos demorarán 20 minutos. Si la detección de anomalías no está habilitada, se le cobrarán al cliente 6 DPU * 1/3 de hora (20 minutos) * 0,44 EUR, lo que equivale a 0,88 EUR (A). Con la detección de anomalías activada, agregaremos 1 DPU por cada estadística y, en promedio, tardaremos 15 segundos en detectar anomalías. En este ejemplo, el cliente generará 20 estadísticas * 1 DPU * 15/3600 (0,0041 horas/estadística) * 0,44 EUR (costo por DPU/hora) = 0,037 EUR (B). Su coste total del trabajo será de 0,88 EUR (A) + 0,037 EUR (B) = 0,917 EUR.
Ejemplo 5: ReentrenamientoTenga en cuenta que su trabajo de Glue detectó una anomalía. Decide excluir la anomalía del modelo para que el algoritmo de detección de anomalías prediga con precisión las anomalías futuras. Para ello, puede volver a entrenar el modelo excluyendo esta estadística anómala. Incurrirá en 1 DPU por estadística durante el tiempo que lleve volver a entrenar el modelo. En promedio, esto puede demorar 15 segundos. En este ejemplo, suponiendo que excluya 1 punto de datos, incurrirá en 1 estadística * 1 DPU * 15/3600 (0,0041 hora/estadística) * 0,44 EUR = 0,00185 EUR.