- Analytique›
- AWS Glue›
- Tarification
Tarification AWS Glue
Pourquoi choisir Glue ?
Avec AWS Glue, vous payez un taux horaire facturé à la seconde pour les robots (la recherche de données) et les tâches d’extraction, transformation et chargement (ETL) (traitement et chargement de données). Pour le catalogue de données AWS Glue, vous payez des frais mensuels simplifiés pour stocker et accéder aux métadonnées. Si vous mettez en service un point de terminaison de développement pour développer votre code ETL de façon interactive, vous payez un taux horaire facturé à la seconde. L’utilisation d’AWS Glue Schema Registry est proposée sans frais supplémentaires.
Remarque : la tarification peut varier en fonction de la région AWS.
-
Tâches ETL et sessions interactives
-
Catalogue de données
-
Robots
-
Qualité des données
-
Tâches ETL et sessions interactives
-
Avec AWS Glue, vous ne payez que pour le temps nécessaire à l’exécution de vos tâches d’extraction, de transformation et de chargement (ETL) AWS Glue. Il n’y a pas de ressources à gérer ni aucun coût initial, et les temps de démarrage et d’arrêts ne vous sont pas facturés. AWS facture à l’heure en fonction du nombre d’unités de traitement des données (ou DPU) utilisées pour exécuter vos tâches AWS Glue. Une seule DPU fournit 4 vCPU et 16 Go de mémoire. AWS facture les tâches et les sessions interactives AWS Glue par tranches d’une seconde, arrondies à la seconde la plus proche.
Il y a trois types de tâches dans AWS Glue : Apache Spark, Apache Spark Streaming et Python Shell. L’exécution des tâches Spark et Spark Streaming nécessite 2 DPU minimum. Par défaut, AWS Glue attribue 10 DPU à chaque tâche Spark et 2 DPU à chaque tâche Spark Streaming. Les tâches ont une durée minimale d’une minute.
Les sessions interactives sont en option et la facturation ne s’applique que si vous les utilisez pour le développement de code ETL interactif. AWS facture les sessions interactives en fonction de la durée d’activation de la session et du nombre de DPU. Les sessions interactives ont des délais d’inactivité configurables. Les sessions interactives nécessitent un minimum de 2 DPU et ont 5 DPU par défaut. Il y a une durée de facturation minimum d’une minute pour chaque session interactive provisionnée. Les blocs-notes de tâches AWS Glue Studio fournissent une interface intégrée pour les sessions interactives. AWS ne facture pas les blocs-notes de tâches, mais facture les sessions interactives qu’ils utilisent.
Avec les aperçus de données AWS Glue Studio, vous pouvez tester vos transformations au cours du processus de création de tâches. Chaque session de prévisualisation des données AWS Glue Studio utilise 2 DPU, s’exécute pendant 30 minutes puis s’arrête automatiquement.
Exemples de tarification
Tâche ETL : imaginez une tâche AWS Glue Apache Spark qui s’exécute pendant 15 minutes et utilise 6 DPU. Le prix d’une DPU par heure est de 0,434 €. Étant donné que votre tâche a duré 15 minutes et a utilisé 6 DPU, AWS vous facturera 6 DPU * 0,25 heure * 0,434 €, soit 0,65 €.
Bloc-notes de tâches et sessions interactives AWS Glue Studio : imaginons que vous utilisiez un bloc-notes dans AWS Glue Studio pour développer votre code ETL de manière interactive. Une session interactive a 5 DPU par défaut. Le prix d’une DPU par heure est de 0,434 €. Si vous maintenez la session en cours pendant 24 minutes, vous serez facturé pour 5 DPU * 0,4 heure * 0,434 €, soit 0,868 €.
-
Catalogue de données
-
Le catalogue de données AWS Glue est le référentiel de métadonnées techniques centralisé pour tous vos actifs de données provenant de différentes sources de données, notamment d’Amazon S3, d’Amazon Redshift et des sources de données tierces. Le catalogue de données est accessible depuis Amazon SageMaker Lakehouse pour les données, l’analytique et l’IA. Il fournit une interface unifiée permettant d’organiser les données sous forme de catalogues, de bases de données et de tables et de les interroger depuis Amazon Redshift, Amazon Athena et Amazon EMR. Les fonctionnalités d’AWS Lake Formation dans le catalogue de données vous permettent de centraliser la gouvernance des données dans AWS. Gérez les actifs de données à l’aide d’autorisations de données précises et de fonctionnalités d’un type base de données familier.
Lorsque vous utilisez le catalogue de données, vous êtes facturé pour le stockage et l’accès aux métadonnées de table, ainsi que pour l’exécution de tâches de traitement des données qui calculent les statistiques des tables et les optimisent.
Maintenance des tables et statistiques
Le catalogue de données fournit un compactage géré pour les tables Apache Iceberg dans le stockage d’objets Amazon S3, en compactant les petits objets en objets plus grands pour améliorer les performances de lecture par les services analytiques AWS tels qu’Amazon Redshift, Athena, Amazon EMR et les tâches ETL d’AWS Glue. Un taux horaire vous est facturé en fonction du nombre d’unités de traitement des données (ou DPU) utilisées pour le compactage de la table. Une seule unité de traitement de données (DPU) fournit 4 vCPU et 16 Go de mémoire. Vous êtes facturé par tranches de 1 seconde, arrondies à la seconde supérieure, avec une durée minimale de 1 minute par exécution.
Le catalogue de données prend également en charge les statistiques des tables au niveau des colonnes pour les tables AWS Glue. Ces statistiques sont intégrées à l’optimiseur basé sur les coûts (CBO) dans les requêtes Athena et du lac de données d’Amazon Redshift, ce qui permet d’améliorer les performances des requêtes et de réaliser de potentielles économies.
Optimisation
- 0,44 € par DPU par heure pour l’optimisation des tables Apache Iceberg, facturé à la seconde avec un minimum d’une minute.
Statistiques :
- 0,44 € par DPU par heure pour la génération de statistiques, facturé à la seconde avec un minimum d’une minute.
Utilisation et coûts supplémentaires
Stockage
À l’aide du catalogue de données, vous pouvez créer et gérer des tables dans Amazon S3 et Amazon Redshift, et les tarifs standards Amazon S3 ou Amazon Redshift vous sont facturés respectivement pour le stockage des tables. Aucun coût de stockage supplémentaire n’est prévu dans le catalogue de données.
1. Lorsque vous stockez les données dans Amazon S3, le stockage, les demandes et le transfert de données sont facturés selon les tarifs Amazon S3 standards. Consultez la tarification Amazon S3 pour en savoir plus.2. Lorsque vous stockez des données dans Amazon Redshift, les tarifs de stockage standards d’Amazon Redshift vous sont facturés. Pour en savoir plus, consultez la page de Tarification d’Amazon Redshift.
Calcul
Lorsque vous accédez aux tables Amazon Redshift à partir d’Amazon EMR, d’AWS Glue, d’Athena ou de tout autre moteur open source ou tiers compatible avec Apache Iceberg, un groupe de travail Amazon Redshift Serverless géré par des services est utilisé pour les ressources de calcul. Le groupe de travail géré Amazon Redshift Serverless est utilisé pour filtrer les résultats des tables, et les ressources de calcul que vous utilisez vous sont facturées sur la base des tarifs standards d’Amazon Redshift Serverless. Les requêtes de tables stockées dans Amazon Redshift à l’aide d’Amazon Redshift ne sont pas facturées séparément. Consultez la page de Tarification d’Amazon Redshift pour en savoir plus.
Autorisations Lake Formation
Lake Formation s’intègre au catalogue de données et fournit des autorisations au niveau des bases de données, des tables, des colonnes, des lignes et des cellules à l’aide du partage entre comptes et de contrôles d’accès basés sur des balises ou des noms. Des frais distincts ne s’appliquent pas lors de la création d’autorisations Lake Formation ou de l’utilisation des autorisations Lake Formation avec des services AWS intégrés.
Exemples de tarification
Catalogue de données sur l’offre gratuite AWS : supposons que vous stockiez un million d’objets de métadonnées dans le catalogue de données au cours d’un mois donné et que vous effectuiez un million de demandes de métadonnées pour accéder à ces tables. Vous payez 0 €, car votre utilisation sera couverte par l’offre gratuite du catalogue de données AWS Glue. Le premier million d’objets stockés et le premier million de requêtes effectuées sont gratuits.
Niveau standard du catalogue de données : considérez maintenant que votre utilisation du stockage de métadonnées reste la même, à savoir 1 million d’objets de métadonnées par mois, mais que le nombre de vos demandes double pour atteindre 2 millions de demandes de métadonnées par mois. Supposons également que vous utilisiez des robots pour trouver de nouvelles tables et qu’ils fonctionnent pendant 30 minutes et consomment 2 DPU.
Vos frais de stockage restent à 0 €, étant donné que le stockage du premier million d’objets de métadonnées est gratuit. Votre premier million de requêtes est également gratuit. Vous serez facturé pour 1 million de requêtes au-delà de l’offre gratuite, ce qui équivaut à 1 €.
Utilisation du catalogue de données avec d’autres services :
Par exemple, lorsque vous interrogez des tables dans Amazon Redshift à l’aide d’Athena SQL dans SageMaker Lakehouse, vous êtes facturé pour : le stockage des tables dans Amazon Redshift selon la tarification standard d’Amazon Redshift ; la demande de métadonnées faite au catalogue de données sur la base de la tarification standard du catalogue de données ; le stockage des métadonnées pour le stockage des métadonnées du catalogue, de la base de données et des tables dans le catalogue de données ; les heures RPU d’Amazon Redshift Serverless sur une base par seconde (avec un coût minimum de 60 secondes) pour filtrer les résultats des tables Amazon Redshift ; et le nombre d’octets scannés par la requête Athena, arrondi au mégaoctet le plus proche, avec un minimum de 10 Mo par requête, selon la tarification Athena standard.
Dans un autre scénario où vous interrogez des tables dans Amazon Redshift à l’aide d’Amazon EMR Serverless, vous serez facturé pour : le stockage des tables dans Amazon Redshift selon la tarification standard d’Amazon Redshift ; la demande de métadonnées faite au catalogue de données sur la base de la tarification standard du catalogue de données ; le stockage des métadonnées pour le stockage des métadonnées du catalogue, de la base de données et des tables dans le catalogue de données ; les heures RPU d’Amazon Redshift Serverless par seconde (avec un coût minimum de 60 secondes) pour le filtrage des résultats de la table Amazon Redshift ; et la quantité de vCPU, de mémoire et de ressources de stockage consommée par vos travailleurs dans une application Amazon EMR.
Dans un autre scénario où vous interrogez des tables Apache Iceberg dans le stockage d’objets Amazon S3 à l’aide d’Amazon Redshift Serverless, vous serez facturé pour : le stockage des tables Apache Iceberg dans Amazon S3 sur la base de la tarification standard d’Amazon S3 ; la demande de métadonnées envoyée au catalogue de données sur la base de la tarification standard du catalogue de données ; le stockage des métadonnées pour stocker des métadonnées du catalogue, de la base de données et des tables dans le catalogue de données ; et les heures de calcul (heures RPU) basées sur la tarification standard d’Amazon Redshift.
Les robots AWS Glue sont facturés au taux de 0,44 € par DPU par heure. Vous devrez donc payer pour 2 DPU * 0,5 heure à un taux de 0,44 € par DPU par heure, soit 0,44 €.
Si vous générez des statistiques pour une table AWS Glue et que l’exécution des statistiques prend 10 minutes et consomme 1 DPU, vous serez facturé 1 DPU * 0,1666 heure * 0,44 €/heure de DPU, soit 0,07 €.
Si vous compactez des tables Apache Iceberg stockées dans le stockage d’objets Amazon S3 et que le compactage dure 30 minutes et consomme 2 DPU, vous serez facturé 2 DPU * 0,5 heure * 0,44 €/heure de DPU, soit 0,44 €.
- 0,44 € par DPU par heure pour l’optimisation des tables Apache Iceberg, facturé à la seconde avec un minimum d’une minute.
-
Robots
-
-
Qualité des données
-
La qualité des données d’AWS Glue renforce la confiance dans vos données en vous aidant à obtenir une qualité de données élevée. Il mesure, surveille et gère automatiquement la qualité des données dans vos lacs de données et vos pipelines en facilitant l’identification des données manquantes, périmées ou erronées.
Vous pouvez accéder aux fonctionnalités de qualité des données depuis le catalogue de données et AWS Glue Studio et par le biais des API AWS Glue.
Tarification pour la gestion de la qualité des données des jeux de données catalogués dans le catalogue de données :Vous pouvez choisir un jeu de données dans le catalogue de données et générer des recommandations. Cette action créera une tâche de recommandation pour laquelle vous fournirez des unités de traitement de données (DPU). Après avoir obtenu les recommandations, vous pouvez modifier ou ajouter de nouvelles règles et les programmer. Ces tâches sont appelées tâches de qualité des données pour lesquelles vous allez fournir des DPU. Vous aurez besoin d’un minimum de 2 DPU avec une durée de facturation minimale d’une minute.
Tarification pour la gestion de la qualité des données des jeux de données traités sur AWS Glue ETL :Vous pouvez également ajouter des contrôles de qualité des données à vos tâches ETL afin d’empêcher les mauvaises données d’entrer dans les lacs de données. Ces règles de qualité des données résideront dans vos tâches ETL, ce qui entraînera une augmentation du temps d’exécution ou de la consommation de DPU. Vous pouvez également utiliser l’exécution flexible pour les charges de travail non sensibles aux SLA.
Tarification de la détection d’anomalies dans AWS Glue ETL :
Détection des anomalies :
Vous devrez payer 1 DPU par statistique en plus des DPU de vos tâches ETL pendant le temps nécessaire à la détection des anomalies. En moyenne, il faut entre 10 et 20 secondes pour détecter une anomalie pour une statistique. Supposons que vous ayez configuré deux règles (Règle 1 : le volume de données doit être supérieur à 1 000 enregistrements, Règle 2 : le nombre de colonnes doit être supérieur à 10) et un analyseur (Analyseur 1 : contrôle de l’exhaustivité d’une colonne). Cette configuration générera trois statistiques : le nombre de lignes, le nombre de colonnes et le pourcentage de complétude d’une colonne. Trois DPU supplémentaires vous seront facturés pour le temps nécessaire à la détection des anomalies, avec un minimum d’une seconde. Voir l’exemple 4 pour plus de détails.
Réentraînement :
Vous voudrez peut-être exclure les exécutions de tâches ou les statistiques anormales afin que l’algorithme de détection des anomalies prédise avec précision les anomalies ultérieures. Pour ce faire, AWS Glue vous permet d’exclure ou d’inclure des statistiques. Vous devrez payer 1 DPU pour entraîner de nouveau le modèle pendant le temps nécessaire à l’entraînement. En moyenne, le réentraînement prend de 10 secondes à 20 minutes par statistique. Voir l’exemple 5 pour plus de détails.
Stockage des statistiques :
Le stockage des statistiques collectées est gratuit. Il y a une limite de 100 000 statistiques par compte et elles seront stockées pendant 2 ans.
Frais supplémentaires :
AWS Glue traite les données directement à partir d’Amazon Simple Storage Service (Amazon S3). Il n’y a pas de frais de stockage supplémentaires pour la lecture de vos données avec AWS Glue. Le stockage, les requêtes et le transfert de données sont facturés selon les tarifs Amazon S3 standard. En fonction de votre configuration, les fichiers temporaires, les résultats de la qualité des données et les fichiers de brassage sont stockés dans un compartiment S3 de votre choix et sont également facturés aux tarifs S3 standard.
Si vous utilisez le catalogue de données, les tarifs standards du catalogue de données s’appliquent. Pour plus d’informations, cliquez sur l’onglet Stockage et requêtes du catalogue de données.
Exemples de tarification
Exemple 1 – Obtenir des recommandations pour une table dans le catalogue de donnéesPar exemple, considérons une tâche de recommandation avec 5 DPU qui se termine en 10 minutes. Vous paierez 5 DPU * 1/6 d’heure * 0,44 €, soit 0,37 €.
Exemple 2 – Évaluer la qualité des données dans une table dans le catalogue de donnéesAprès avoir examiné les recommandations, vous pouvez les modifier si nécessaire, puis planifier la tâche de qualité des données en approvisionnant les DPU. Par exemple, considérons une tâche d’évaluation de la qualité des données avec 5 DPU qui se termine en 20 minutes.
Vous paierez 5 DPU * 1/3 d’heure * 0,44 €, soit 0,73 €.
Exemple 3 – Évaluer la qualité des données dans une tâche AWS Glue ETLVous pouvez également ajouter ces contrôles de qualité des données à vos tâches ETL AWS Glue afin d’empêcher les mauvaises données d’entrer dans vos lacs de données. Vous pouvez le faire en ajoutant Data Quality Transform sur AWS Glue Studio ou en utilisant les API AWS Glue dans le code que vous rédigez dans les blocs-notes AWS Glue Studio. Prenons l’exemple d’une tâche AWS Glue qui s’exécute là où les règles de qualité des données sont configurées dans le pipeline, et qui s’exécute pendant 20 minutes (1/3 d’heure) avec 6 DPU. Vous serez facturé 6 DPU * 1/3 d’heure * 0,44 €, soit 0,88 €. Vous pouvez également utiliser Flex, pour lequel vous serez facturé 6 DPU * 1/3 d’heure * 0,29 €, soit 0,58 €.
Exemple 4 – Évaluer la qualité des données dans une tâche AWS Glue ETL avec détection d’anomalies
Considérez une tâche AWS Glue qui lit des données à partir d’Amazon S3, transforme les données et exécute des contrôles de qualité des données avant de les charger sur Amazon Redshift. Supposons que ce pipeline comportait 10 règles et 10 analyseurs, ce qui a permis de recueillir 20 statistiques. Supposons également que l’extraction, le processus de transformation, le chargement, la collecte de statistiques et l’évaluation de la qualité des données prendront 20 minutes. Si la détection des anomalies n’est pas activée, le client sera facturé 6 DPU * 1/3 d’heure (20 minutes) * 0,44 €, soit 0,88 € (A). Lorsque la détection des anomalies est activée, nous ajouterons 1 DPU pour chaque statistique et la détection des anomalies prendra en moyenne 15 secondes. Dans cet exemple, le client devra payer 20 statistiques * 1 DPU * 15/3600 (0,0041 heure/statistique) * 0,44 € (coût par DPU/heure) = 0,037 € (B). Le coût total de la tâche sera de 0,88 € (A) + 0,037 € (B) = 0,917 €.
Exemple 5 – RéentraînementSupposons que votre tâche Glue ait détecté une anomalie. Vous décidez d’exclure l’anomalie du modèle afin que l’algorithme de détection des anomalies puisse prédire les anomalies futures avec précision. Pour ce faire, vous pouvez entraîner de nouveau le modèle en excluant cette statistique anormale. Vous devrez payer 1 DPU par statistique pendant le temps nécessaire pour entraîner de nouveau le modèle. En moyenne, cela peut prendre 15 secondes. Dans cet exemple, en supposant que vous excluez 1 point de données, vous paierez 1 statistique * 1 DPU * 15/3600 (0,0041 heure/statistique) * 0,44 € = 0,00185 €.