- Analisi dei dati›
- AWS Glue›
- Prezzi
Prezzi di AWS Glue
Perché scegliere Glue?
Con AWS Glue, ottieni una tariffa oraria, fatturata al secondo, per le operazioni dei crawler (rilevamento di dati) e di estrazione, trasformazione e caricamento (ETL), ovvero elaborazione e caricamento dei dati. Per il Catalogo dati AWS Glue, è prevista una tariffa mensile semplificata per l'archiviazione e l'accesso ai metadati. Se esegui il provisioning di un endpoint per sviluppare in modo interattivo il codice ETL, ti sarà addebitata una tariffa oraria, fatturata al secondo. L'uso del Registro degli schemi di AWS Glue è offerto senza costi aggiuntivi.
Nota: i prezzi possono variare in base alla Regione AWS.
-
Processi ETL e sessioni interattive
-
Catalogo dati
-
Crawler
-
Qualità dei dati
-
Processi ETL e sessioni interattive
-
Con AWS Glue, paghi solo per il tempo impiegato dai processi di estrazione, trasformazione e caricamento (ETL) di AWS Glue. Non vi sono risorse da gestire né costi anticipati e non ti verranno addebitati i tempi di avviamento o spegnimento. AWS addebita una tariffa oraria basata sul numero di unità di elaborazione dati (o DPU) utilizzate per eseguire i processi di AWS Glue. Una singola DPU fornisce 4 vCPU e 16 GB di memoria. AWS fattura i processi e le sessioni interattive di AWS Glue con incrementi di 1 secondo, arrotondati al secondo più vicino.
Esistono tre tipologie di processi in AWS Glue: Apache Spark, Spark Streaming e shell Python. L'esecuzione dei processi Spark e Spark Streaming richiede un minimo di 2 DPU. Tuttavia, per impostazione predefinita AWS Glue alloca 10 DPU per ogni processo Spark e 2 DPU per ogni processo Spark Streaming. I processi hanno una durata minima di 1 minuto.
Le sessioni interattive sono facoltative e la fatturazione è prevista solo se vengono utilizzate per lo sviluppo del codice ETL interattivo. AWS addebita le sessioni interattive per il tempo in cui la sessione è rimasta attiva e in base al numero di DPU. Le sessioni interattive hanno timeout di inattività configurabili. Le sessioni interattive richiedono un minimo di 2 DPU e hanno 5 DPU per impostazione predefinita. È prevista una durata minima di fatturazione di 1 minuto per ogni sessione interattiva per cui viene effettuato il provisioning. I notebook dei processi di AWS Glue Studio forniscono un'interfaccia integrata per le sessioni interattive. AWS non prevede addebiti per i notebook dei processi, tuttavia effettua addebiti per le sessioni interattive utilizzate.
Con le anteprime dei dati AWS Glue Studio puoi testare le trasformazioni durante il processo di scrittura. Ogni sessione di anteprima dei dati di AWS Glue Studio utilizza 2 DPU, ha un'esecuzione di 30 minuti e si interrompe automaticamente.
Esempi di prezzo
Processo ETL: si consideri un processo AWS Glue Apache Spark che viene eseguito per 15 minuti e utilizzi 6 DPU. Il prezzo di 1 DPU all'ora è 0,434 €. Poiché il processo è stato eseguito per 15 minuti e ha utilizzato 6 DPU, AWS fatturerà 6 DPU x 0,25 ore x 0,434 €, ovvero 0,65 €.
Notebook di processi di AWS Glue Studio e sessioni interattive: si assuma di utilizzare un notebook in AWS Glue Studio per sviluppare il codice ETL in maniera interattiva. Per impostazione predefinita, una sessione interattiva ha 5 DPU. Il prezzo di 1 DPU all'ora è 0,434 €. Se si mantiene la sessione in esecuzione per 24 minuti, verranno addebitate 5 DPU x 0,4 ore x 0,434 €, ovvero 0,868 €.
-
Catalogo dati
-
Il Catalogo dati AWS Glue è il repository di metadati tecnici centralizzato per tutte le risorse di dati provenienti da varie origini dati, tra cui Amazon S3, Amazon Redshift e origini dati di terze parti. È possibile accedere al Catalogo dati da Amazon SageMaker Lakehouse per dati, analisi e intelligenza artificiale. Fornisce un'interfaccia unificata per organizzare i dati come cataloghi, database e tabelle, e interrogarli da Amazon Redshift, Amazon Athena e Amazon EMR. Le capacità di AWS Lake Formation nel Catalogo dati consentono di centralizzare la governance dei dati in AWS. Gestisci le risorse di dati utilizzando autorizzazioni di dati granulari e funzionalità consuete in stile database.
Quando si utilizza il Catalogo dati, verranno addebitati i costi per l'archiviazione e l'accesso ai metadati delle tabelle e per l'esecuzione di processi di elaborazione dati che processano le statistiche delle tabelle e le ottimizzazioni.
Manutenzione della tabella e statistiche
Il Catalogo dati fornisce una compattazione gestita per le tabelle Apache Iceberg nell'archiviazione di oggetti Amazon S3, compattando piccoli oggetti in oggetti più grandi per migliorare le prestazioni di lettura dei servizi di analisi AWS come Amazon Redshift, Athena, Amazon EMR e i processi ETL di AWS Glue. Viene addebitata una tariffa oraria calcolata sul numero di unità di elaborazione dati (DPU) utilizzate per la compattazione della tabella. Una singola unità di elaborazione dati (DPU) fornisce 4 vCPU e 16 GB di memoria. La fatturazione prevede incrementi di 1 secondo, arrotondati al secondo più vicino, con una durata minima di 1 minuto per ciascuna esecuzione.
Il Catalogo dati supporta anche le statistiche delle tabelle a livello di colonna per le tabelle AWS Glue. Queste statistiche si integrano con il sistema di ottimizzazione basato sui costi (CBO) in Athena e nell'interrogazione del data lake di Amazon Redshift, migliorando le prestazioni delle query e riducendo potenzialmente i costi.
Ottimizzazione
- 0,44 € per DPU all'ora per l'ottimizzazione delle tabelle Apache Iceberg, fatturati al secondo con un minimo di 1 minuto.
Statistiche:
- 0,44 € per DPU all'ora per la generazione di statistiche, fatturati al secondo con un minimo di 1 minuto.
Utilizzo e costi aggiuntivi
Archiviazione
Utilizzando il Catalogo dati, puoi creare e gestire tabelle in Amazon S3 e Amazon Redshift e ti verranno addebitate rispettivamente le tariffe standard di Amazon S3 o Amazon Redshift per l'archiviazione delle tabelle. Non sono previsti costi di archiviazione aggiuntivi nel Catalogo dati.
1. Quando vengono archiviati dati in Amazon S3, saranno però addebitati i costi standard di Amazon S3 per archiviazione, richieste e trasferimento di dati. Per maggiori informazioni, consulta la pagina dei prezzi di Amazon S3.2. Quando si archiviano dati in Amazon Redshift, vengono addebitate le tariffe standard di Amazon Redshift per l'archiviazione. Per i dettagli, consulta i prezzi di Amazon Redshift.
Calcolo
Quando si accede alle tabelle Amazon Redshift da Amazon EMR, AWS Glue, Athena o da qualsiasi motore open source o di terze parti compatibile con Apache Iceberg, per le risorse di calcolo viene utilizzato un gruppo di lavoro Amazon Redshift serverless gestito dal servizio. Il gruppo di lavoro Amazon Redshift serverless gestito viene utilizzato per filtrare i risultati delle tabelle e vengono addebitate le risorse di calcolo utilizzate in base alle tariffe standard di Amazon Redshift serverless. Non sono previsti costi separati per interrogare le tabelle archiviate in Amazon Redshift utilizzando Amazon Redshift. Visita la pagina dei prezzi di Amazon Redshift per saperne di più.
Autorizzazioni Lake Formation
Lake Formation si integra con il Catalogo dati e fornisce autorizzazioni a livello di database, tabella, colonna, riga e cella utilizzando controlli di accesso basati su tag o nomi e condivisione tra account. Non sono previsti costi separati per la creazione di autorizzazioni di Lake Formation o l'utilizzo delle autorizzazioni di Lake Formation con servizi AWS integrati.
Esempi di prezzo
Catalogo dati nel piano gratuito AWS: supponi di archiviare un milione di oggetti di metadati nel Catalogo dati in un determinato mese e di effettuare 1 milione di richieste di metadati per accedere a queste tabelle. Il costo addebitato equivale a 0 €, dal momento che il tuo utilizzo verrà coperto dal piano gratuito del Catalogo dati AWS Glue. Puoi eseguire l'archiviazione del primo milione di oggetti di metadati ed effettuare un milione di richieste di metadati al mese gratuitamente.
Catalogo dati al livello standard: ora supponi che l'utilizzo dell'archiviazione dei metadati rimanga la stessa con 1 milione di oggetti di metadati al mese, ma le tue richieste raddoppiano, arrivando a 2 milioni di richieste di metadati al mese. Ipotizziamo che utilizzi anche crawler per individuare nuove tabelle e che questi siano in esecuzione per 30 minuti e consumino 2 DPU.
Il costo di archiviazione è comunque pari a 0 €, dal momento che l'archiviazione del tuo primo milione di oggetti metadati è gratuita. Anche il tuo primo milione di richieste è gratuito. Verrà addebitato il costo per il milione di richieste eccedenti il piano gratuito di Catalogo dati, ovvero 1 €.
Utilizzo di Catalogo dati con altri servizi:
Ad esempio, quando si interrogano le tabelle in Amazon Redshift utilizzando Athena SQL in SageMaker Lakehouse, verranno addebitati: l'archiviazione delle tabelle in Amazon Redshift in base ai prezzi standard di Amazon Redshift; la richiesta di metadati effettuata a Catalogo dati in base ai prezzi di richiesta standard di Catalogo dati; l'archiviazione dei metadati per l'archiviazione dei metadati di cataloghi, database e tabelle in Catalogo dati; ore di RPU di Amazon Redshift serverless calcolate al secondo (con un addebito minimo di 60 secondi) per filtrare i risultati delle tabelle di Amazon Redshift e numero di byte scansionati dalla query Athena, arrotondato al megabyte più vicino, con un minimo di 10 MB di dati per query utilizzando i prezzi standard di Athena.
In un altro scenario in cui si interrogano le tabelle in Amazon Redshift utilizzando Amazon EMR serverless, verranno addebitati: l'archiviazione delle tabelle in Amazon Redshift in base ai prezzi standard di Amazon Redshift; la richiesta di metadati effettuata al Catalogo dati in base ai prezzi di richiesta standard di Catalogo dati; l'archiviazione dei metadati per l'archiviazione dei metadati di cataloghi, database e tabelle in Catalogo dati; ore di RPU di Amazon Redshift serverless calcolate al secondo (con un addebito minimo di 60 secondi) per filtrare i risultati delle tabelle di Amazon Redshift e la quantità di vCPU, memoria e risorse di archiviazione consumata dai lavoratori in un'applicazione Amazon EMR.
In un altro scenario in cui si interrogano le tabelle Apache Iceberg nell'archiviazione di oggetti Amazon S3 utilizzando Amazon Redshift serverless, verranno addebitati: l'archiviazione delle tabelle Apache Iceberg in Amazon S3 in base ai prezzi standard di Amazon S3; la richiesta di metadati effettuata a Catalogo dati in base ai prezzi di richiesta standard di Catalogo dati; l'archiviazione dei metadati per l'archiviazione dei metadati di catalogo, database e tabella in Catalogo dati; e le ore di calcolo (ore RPU) in base ai prezzi standard di Amazon Redshift.
I crawler di AWS Glue vengono fatturati a 0,44 € per DPU all'ora, quindi pagherai un costo pari a 2 DPU x 0,5 ore a 0,44 € per DPU all'ora, ovvero 0,44 €.
Se generi statistiche per una tabella AWS Glue e la loro esecuzione richiede 10 minuti e consuma 1 DPU, riceverai un addebito di 1 DPU x 0,1666 ore x 0,44 € per DPU all'ora, ovvero 0,07 €.
Se compatti le tabelle Apache Iceberg archiviate nell'archiviazione di oggetti Amazon S3 e la compattazione viene eseguita per 30 minuti e consuma 2 DPU, riceverai un addebito di 2 DPU x 0,5 ore x 0,44 € per DPU all'ora, ovvero 0,44 €.
- 0,44 € per DPU all'ora per l'ottimizzazione delle tabelle Apache Iceberg, fatturati al secondo con un minimo di 1 minuto.
-
Crawler
-
-
Qualità dei dati
-
Qualità dei dati di AWS Glue rende i dati affidabili aiutandoti a renderli di alta qualità. Misura, monitora e gestisce automaticamente la qualità dei dati nei data lake e nelle pipeline, facilitando l'identificazione di dati mancanti, vecchi o errati.
È possibile accedere alle funzionalità di qualità dei dati tramite il Catalogo dati e AWS Glue Studio oppure tramite le API di AWS Glue.
Prezzi della gestione della qualità dei dati dei set di dati presenti nel Catalogo dati:È possibile scegliere un set di dati dal Catalogo dati e generare suggerimenti. Questa operazione crea un'attività di suggerimento per la quale verrà effettuato il provisioning dell'unità di elaborazione dati (DPU). Dopo aver ottenuto i suggerimenti, potrai modificare o aggiungere nuove regole e pianificarle. Queste attività sono chiamate "attività di qualità dei dati", per le quali verrà effettuato il provisioning delle DPU. Sono necessarie almeno 2 DPU con una durata di fatturazione minima di 1 minuto.
Prezzi della gestione della qualità dei dati dei set di dati elaborati su AWS Glue ETL:Inoltre, è possibile aggiungere controlli di qualità dei dati ai processi ETL per evitare l'ingresso di dati errati nel data lake. Queste regole relative alla qualità dei dati risiederanno nei processi ETL e comporteranno un incremento del runtime o del consumo di DPU. In alternativa, è possibile utilizzare l'esecuzione flessibile per carichi di lavoro non sensibili agli SLA.
Prezzi del rilevamento delle anomalie in ETL di AWS Glue:
Rilevamento delle anomalie:
Si dovranno sostenere i costi di 1 DPU per statistica in aggiunta alle DPU dei processi ETL per il tempo necessario a rilevare le anomalie. In media, il rilevamento di un'anomalia per 1 statistica richiede dai 10 ai 20 secondi. Supponiamo di aver configurato due regole (regola 1: il volume dei dati deve essere superiore a 1.000 record, regola 2: il conteggio delle colonne deve essere superiore a 10) e un analizzatore (analizzatore 1: monitora la completezza di una colonna). Questa configurazione genererà tre statistiche: numero di righe, numero di colonne e percentuale di completezza di una colonna. Verranno addebitate 3 DPU aggiuntive per il tempo necessario a rilevare le anomalie con almeno 1 secondo. Vedi l'esempio 4 per maggiori dettagli.
Riaddestramento:
È possibile escludere le esecuzioni di processi o le statistiche anomale in modo che l'algoritmo di rilevamento delle anomalie preveda con precisione le anomalie successive. A tale scopo, AWS Glue consente di escludere o includere statistiche. Si dovranno sostenere i costi di 1 DPU per riaddestrare il modello per il tempo necessario per questa operazione. In media, il riaddestramento richiede dai 10 secondi ai 20 minuti per statistica. Vedi l'esempio 5 per maggiori dettagli.
Archiviazione delle statistiche:
L'archiviazione delle statistiche raccolte è gratuita. Esiste un limite di 100.000 statistiche per account, che verranno archiviate per 2 anni.
Costi aggiuntivi:
AWS Glue elabora i dati direttamente da Amazon Simple Storage Service (Amazon S3). Non sono previsti costi di archiviazione aggiuntivi per la lettura dei dati con AWS Glue. Saranno però addebitati i costi standard di Amazon S3 per archiviazione, richieste e trasferimento di dati. In base alla configurazione impostata, i file temporanei, i risultati della qualità dei dati e i file casuali vengono archiviati in un bucket S3 di tua scelta e fatturati secondo le tariffe standard di S3.
Se utilizzi il Catalogo dati, ti saranno addebitate le tariffe standard del Catalogo dati. Per ulteriori dettagli, seleziona la tabella dell'archiviazione e delle richieste del Catalogo dati.
Esempi di prezzo
Esempio 1: ottenimento di suggerimenti per una tabella nel Catalogo datiAd esempio, si consideri un'attività di suggerimento con 5 DPU che viene completata in 10 minuti. Pagherai 5 DPU x 1/6 ora x 0,44 €, ovvero 0,37 €.
Esempio 2: valutazione della qualità dei dati di una tabella nel Catalogo datiDopo aver esaminato i suggerimenti, puoi modificarli, se necessario, e successivamente pianificare le attività di qualità dei dati allocando delle DPU. Come esempio, si consideri un'attività di valutazione della qualità dei dati con 5 DPU che viene completata in 20 minuti.
Pagherai 5 DPU x 1/3 ora x 0,44 €, ovvero 0,73 €.
Esempio 3: valutazione della qualità dei dati in un processo ETL di AWS GluePuoi anche aggiungere questi controlli di qualità dei dati ai tuoi processi ETL di AWS Glue per evitare l'ingresso di dati errati nel data lake. Per farlo, puoi aggiungere Data Quality Transform su AWS Glue Studio o utilizzare le API AWS Glue all'interno del codice che scrivi nei notebook AWS Glue Studio. Consideriamo un processo AWS Glue eseguito dove sono configurate le regole di qualità dei dati all'interno della pipeline e che si realizza in 20 minuti (1/3 ora) con 6 DPU. Ti verranno addebitate 6 DPU x 1/3 ora x 0,44 €, che equivalgono a 0,88 €. In alternativa, puoi utilizzare Flex e pagherai 6 DPU x 1/3 di ora x 0,29 €, ovvero 0,58 €.
Esempio 4: valutazione della qualità dei dati in un processo ETL di AWS Glue con il rilevamento delle anomalie
Consideriamo un processo di AWS Glue che legge i dati da Amazon S3, li trasforma ed esegue controlli di qualità dei dati prima di caricarli su Amazon Redshift. Supponiamo che questa pipeline contenga 10 regole e 10 analizzatori, con conseguente raccolta di 20 statistiche. Inoltre, supponiamo che l'estrazione, il processo di trasformazione, il caricamento, la raccolta di statistiche e la valutazione della qualità dei dati richiedano 20 minuti. Se il rilevamento delle anomalie non è abilitato, al cliente verranno addebitati 6 DPU x 1/3 di ora (20 minuti) x 0,44 €, ovvero 0,88 € (A). Se il rilevamento delle anomalie è abilitato, verrà aggiunta 1 DPU per ogni statistica e saranno necessari in media 15 secondi per rilevare le anomalie. In questo esempio, il cliente dovrà sostenere costi pari a 20 statistiche x 1 DPU x 15/3600 (0,0041 ora/statistica) x 0,44 € (costo per DPU/ora) = 0,037 € (B). Il loro costo totale del lavoro sarà di 0,88 € (A) + 0,037 € (B) = 0,917 €.
Esempio 5: riaddestramentoSupponiamo che il processo con Glue abbia rilevato un'anomalia. Decidiamo di escludere l'anomalia dal modello in modo che l'algoritmo di rilevamento delle anomalie possa prevedere con precisione le anomalie future. A tale scopo, è possibile riaddestrare il modello escludendo questa statistica anomala. Si dovranno sostenere i costi di 1 DPU per statistica per il tempo necessario per riaddestrare il modello. In media, questa operazione può richiedere 15 secondi. Supponendo di escludere 1 punto dati, in questo esempio i costi saranno pari a 1 statistica x 1 DPU x 15/3600 (0,0041 ora/statistica) x 0,44 € = 0,00185 €.