AWS Glue – Preise

Warum Glue?

Bei AWS Glue zahlen Sie einen sekundengenau abgerechneten Stundensatz für Crawler (Datenermittlung) und Extract, Transform, Load (ETL)-Aufträge (Verarbeitung und Laden von Daten). Für den AWS-Glue-Datenkatalog zahlen Sie eine vereinfachte monatliche Gebühr für die Speicherung und den Zugriff auf die Metadaten. Wenn Sie für die interaktive Entwicklung Ihres ETL-Codes bereitstellen, zahlen Sie einen Stundensatz, der pro Sekunde abgerechnet wird. Die Nutzung der AWS-Glue-Schema-Registrierung wird ohne zusätzliche Gebühren angeboten.

Hinweis: Die Preise können je nach AWS-Region variieren.

  • ETL-Aufträge und interaktive Sitzungen
  • Mit AWS Glue zahlen Sie nur für die Zeit, die die Ausführung Ihrer Extract, Transform, Load (ETL)-Aufträge von AWS Glue in Anspruch nimmt. Es gibt keine Ressourcen, die Sie verwalten müssen, keine Vorlaufkosten und Sie werden nicht für Start- oder Stillstandszeiten berechnet. AWS berechnet einen Stundenpreis basierend auf der Anzahl der Datenverarbeitungseinheiten (oder DPUs), die zur Ausführung Ihrer AWS-Glue-Aufträge verwendet werden. Eine einzelne DPU bietet 4 vCPU und 16 GB Arbeitsspeicher. AWS stellt Aufträge und interaktive AWS-Glue-Sitzungen in Schritten von 1 Sekunde in Rechnung, aufgerundet auf die nächste Sekunde.

    Es gibt drei Arten von Aufträgen in AWS Glue: Apache Spark, Spark Streaming und Python Shell. Spark- und Spark-Streaming-Auftragsausführungen erfordern mindestens 2 DPUs. Standardmäßig weist AWS Glue jedem Spark-Auftrag 10 DPUs und jedem Spark-Streaming-Auftrag 2 DPUs zu. Aufträge haben ein Minimum von 1 Minute.

    Interaktive Sitzungen sind optional und werden nur dann abgerechnet, wenn Sie sie für die interaktive Entwicklung von ETL-Code verwenden. AWS erhebt Gebühren für interaktive Sitzungen basierend auf der Zeit, in der die Sitzung aktiv ist, und der Anzahl der DPUs. Interaktive Sitzungen haben konfigurierbare Leerlauf-Timeouts. Interaktive Sitzungen erfordern mindestens 2 DPUs und haben einen Standardwert von 5 DPU. Für jede bereitgestellte interaktive Sitzung gilt eine Mindestabrechnungsdauer von 1 Minute. AWS Glue Studio Job Notebooks bieten eine integrierte Schnittstelle für interaktive Sitzungen. AWS erhebt keine Gebühren für Job Notebooks, berechnet jedoch Gebühren für die interaktiven Sitzungen, die sie verwenden.

    Mit den Datenvorschauen von AWS Glue Studio können Sie Ihre Transformationen während des Auftragserstellungs-Prozesses testen. Jede Datenvorschau-Sitzung von AWS Glue Studio verwendet 2 DPUs, läuft 30 Minuten lang und stoppt automatisch.

    Preisbeispiele

    ETL-Auftrag: Stellen Sie sich einen Auftrag von AWS Glue Apache Spark vor, der 15 Minuten lang ausgeführt wird und 6 DPU verwendet. Der Preis für 1 DPU-Stunde beträgt 0,434 €. Da Ihr Auftrag 15 Minuten lief und 6 DPUs verbrauchte, stellt Ihnen AWS 6 DPU * 0,25 Stunden * 0,434 € oder 0,65 € in Rechnung.

    AWS Glue Studio Job Notebooks und interaktive Sitzungen: Angenommen, Sie verwenden ein Notebook in AWS Glue Studio, um Ihren ETL-Code interaktiv zu entwickeln. Eine interaktive Sitzung hat standardmäßig 5 DPU. Der Preis für 1 DPU-Stunde beträgt 0,434 €. Wenn Sie die Sitzung 24 Minuten lang laufen lassen, werden Ihnen 5 DPUs * 0,4 Stunden * 0,434 € oder 0,868 € in Rechnung gestellt.

  • Datenkatalog
  • Der AWS-Glue-Datenkatalog ist das zentrale technische Metadaten-Repository für all Ihre Datenbestände aus verschiedenen Datenquellen, einschließlich Amazon S3, Amazon Redshift und Datenquellen von Drittanbietern. Auf den Datenkatalog kann von Amazon SageMaker Lakehouse aus für Daten, Analysen und KI zugegriffen werden. Es bietet eine einheitliche Oberfläche, um Daten als Kataloge, Datenbanken und Tabellen zu organisieren und sie von Amazon Redshift, Amazon Athena und Amazon EMR abzufragen. Die Funktionen von AWS Lake Formation im Datenkatalog ermöglichen es Ihnen, die Daten-Governance in AWS zu zentralisieren. Steuern Sie Datenbestände mithilfe detaillierter Datenberechtigungen und vertrauter Features im Datenbankstil.

    Wenn Sie den Datenkatalog verwenden, fallen Gebühren für das Speichern und Zugreifen auf Tabellenmetadaten sowie für die Ausführung von Datenverarbeitungsaufträgen zur Berechnung von Tabellenstatistiken und Tabellenoptimierungen an.

    Tabellenpflege und Statistik

    Der Datenkatalog bietet verwaltete Komprimierung für Apache-Iceberg-Tabellen im Amazon-S3-Objektspeicher und komprimiert kleine Objekte zu größeren Objekten, um die Leseleistung von AWS-Analytik-Services wie Amazon Redshift, Athena, Amazon EMR und AWS-Glue-ETL-Aufträge zu verbessern. Sie zahlen einen Stundenpreis auf der Basis der Zahl von Datenverarbeitungseinheiten (oder DPUs), die für die Tabellenverdichtung genutzt werden. Eine einzelne Datenverarbeitungseinheit (DPU) enthält 4 vCPUs und 16 GB RAM. Sie bezahlen in Schritten von 1 Sekunde, aufgerundet auf die nächste Sekunde, mit einer Mindestdauer von 1 Minute pro Lauf.

    Der Datenkatalog unterstützt auch Tabellenstatistiken auf Spaltenebene für AWS-Glue-Tabellen. Diese Statistiken sind in den kostenbasierten Optimizer (CBO) in Athena und Amazon-Redshift-Data-Lake-Abfragen integriert, was zu einer verbesserten Abfrageleistung und potenziellen Kosteneinsparungen führt.

    Optimierung

    • 0,44 € pro DPU-Stunde für die Optimierung von Apache-Iceberg-Tabellen, abgerechnet pro Sekunde mit einem Minimum von 1 Minute.

    Statistiken:

    • 0,44 € pro DPU-Stunde für die Erstellung von Statistiken, abgerechnet pro Sekunde mit einem Minimum von 1 Minute.

    Zusätzliche Nutzung und Kosten

    Speicher

    Mithilfe des Datenkatalogs können Sie Tabellen in Amazon S3 und Amazon Redshift erstellen und verwalten. Für die Tabellenspeicherung werden Ihnen die Standardtarife von Amazon S3 bzw. Amazon Redshift berechnet. Im Datenkatalog fallen keine zusätzlichen Speichergebühren an.

        1. Beim Speichern von Daten in Amazon S3 werden Ihnen die Amazon-S3-Standardtarife für Speicher, Anfragen und Datenübertragung berechnet. Weitere Informationen finden Sie unter Preise für Amazon S3.

        2. Wenn Sie Daten in Amazon Redshift speichern, werden Ihnen die Amazon-Redshift-Standardtarife für den Speicher berechnet. Einzelheiten finden Sie unter Amazon-Redshift-Preise.

    Datenverarbeitung

    Wenn Sie von Amazon EMR, AWS Glue, Athena oder einer anderen Open-Source-Engine oder einer Apache-Iceberg-kompatiblen Engine eines Drittanbieters aus auf Amazon-Redshift-Tabellen zugreifen, wird eine serviceverwaltete Amazon-Redshift-Serverless-Arbeitsgruppe für Datenverarbeitungsressourcen verwendet. Die von Amazon Redshift Serverless verwaltete Arbeitsgruppe wird zum Filtern von Tabellenergebnissen verwendet. Die von Ihnen verwendeten Rechenressourcen werden Ihnen auf der Grundlage der Amazon-Redshift-Serverless-Standardtarife in Rechnung gestellt. Für die Abfrage von in Amazon Redshift gespeicherten Tabellen mit Amazon Redshift fallen keine gesonderten Gebühren an. Weitere Informationen finden Sie unter Amazon-Redshift-Preise.

    Lake-Formation-Berechtigungen

    Lake Formation ist in den Datenkatalog integriert und bietet Berechtigungen auf Datenbank-, Tabellen-, Spalten-, Zeilen- und Zellenebene mithilfe von tagbasierten oder namensbasierten Zugriffskontrollen und kontoübergreifender gemeinsamen Nutzung. Bei der Erstellung von Lake-Formation-Berechtigungen oder der Verwendung von Lake-Formation-Berechtigungen mit integrierten AWS-Services fallen keine separaten Gebühren an.

    Preisbeispiele

    Datenkatalog im kostenlosen AWS-Kontingent: Nehmen wir an, Sie speichern in einem bestimmten Monat eine Million Metadatenobjekte im Datenkatalog und stellen 1 Million Metadatenanfragen, um auf diese Tabellen zuzugreifen. Sie zahlen dafür 0 €, weil Ihre Nutzung unter dem kostenlosen Kontingent des AWS-Glue-Datenkatalogs abgedeckt wird. Das Speichern der ersten Million Metadatenobjekte und das Stellen der ersten Million Metadatenanfragen pro Monat sind kostenlos.

    Datenkatalog-Standardstufe: Gehen wir nun davon aus, dass Ihre Metadatenspeichernutzung mit 1 Million Metadatenobjekten pro Monat gleich bleibt, Ihre Anfragen jedoch auf 2 Millionen Metadatenanfragen pro Monat verdoppeln. Nehmen wir außerdem an, dass Sie zusätzlich Crawler einsetzen, um neue Tabellen zu finden, und dass diese 30 Minuten lang ausgeführt werden und dabei 2 DPUs verbrauchen.

    Ihre Speicherkosten belaufen sich dann immer noch auf 0 €, da Sie Ihre erste Million Metadatenobjekte kostenlos speichern können. Ihre erste Million Anfragen sind ebenfalls kostenlos. Sie erhalten nur eine Rechnung über die erste 1 Million Anfragen, die das kostenlose Kontingent für den Datenkatalog überschreiten, was 1 € entspricht.

    Verwenden des Datenkatalogs mit anderen Services:

    Wenn Sie beispielsweise Tabellen in Amazon Redshift mit Athena SQL in SageMaker Lakehouse abfragen, wird Ihnen Folgendes in Rechnung gestellt: das Speichern von Tabellen in Amazon Redshift auf der Grundlage der Amazon-Redshift-Standardpreise; die Metadatenanfrage an den Datenkatalog auf der Grundlage der Standardpreise für Datenkataloganfragen; Metadatenspeicherung zum Speichern von Katalog-, Datenbank- und Tabellenmetadaten im Datenkatalog; Amazon-Redshift-Serverless-RPU-Stunden pro Sekunde (mit einer Mindestgebühr von 60 Sekunden) zum Filtern der Amazon-Redshift-Tabellenergebnisse; und Anzahl der von der Athena-Abfrage gescannten Byte, aufgerundet auf das nächste Megabyte, mit einem Minimum von 10 MB pro Abfragedaten bei Standardpreisen von Athena.

    In einem anderen Szenario, in dem Sie Tabellen in Amazon Redshift mithilfe von Amazon EMR Serverless abfragen, werden Ihnen folgende Kosten in Rechnung gestellt: Speichern von Tabellen in Amazon Redshift auf Grundlage der Standardpreise von Amazon Redshift; die Metadatenanfrage an den Datenkatalog auf Grundlage der Standardpreise für Datenkataloganfragen; Metadatenspeicherung zum Speichern von Katalog-, Datenbank- und Tabellenmetadaten im Datenkatalog; Amazon-Redshift-Serverless-RPU-Stunden pro Sekunde (mit einer Mindestgebühr von 60 Sekunden) für das Filtern der Amazon-Redshift-Tabellenergebnisse und die Menge an vCPU-, Arbeitsspeicher- und Speicherressourcen, die von Ihren Workern in einer Amazon-EMR-Anwendung verbraucht werden.

    In einem anderen Szenario, in dem Sie Apache-Iceberg-Tabellen im Amazon-S3-Objektspeicher mithilfe von Amazon Redshift Serverless abfragen, werden Ihnen folgende Kosten in Rechnung gestellt: Speichern von Apache-Iceberg-Tabellen in Amazon S3 auf Basis der Standardpreise von Amazon S3; die Metadatenanfrage an den Datenkatalog basiert auf Standardpreisen für Datenkataloganfragen; Metadatenspeicherung zum Speichern von Katalog-, Datenbank- und Tabellenmetadaten im Datenkatalog; und Datenverarbeitungsstunden (RPU-Stunden) auf der Grundlage der Amazon-Redshift-Standardpreise.

    AWS-Glue-Crawler werden mit 0,44 € pro DPU-Stunde berechnet. Sie zahlen also für 2 DPUs * 0,5 Stunden bei 0,44 € pro DPU-Stunde, was 0,44 € entspricht.

    Wenn Sie Statistiken für eine AWS-Glue-Tabelle erstellen und der Statistiklauf 10 Minuten dauert und 1 DPU verbraucht, wird Ihnen 1 DPU * 0,1666 Stunde * 0,44 € pro DPU-Stunde in Rechnung gestellt, was 0,07 € entspricht.

    Wenn Sie im Amazon-S3-Objektspeicher gespeicherte Apache-Iceberg-Tabellen komprimieren und die Komprimierung 30 Minuten lang läuft und 2 DPUs verbraucht, werden Ihnen 2 DPUs * 0,5 Stunden * 0,44 €/DPU-Stunde in Rechnung gestellt, was 0,44 € entspricht.

  • Crawler
  • Datenqualität
  • AWS Glue Data Quality stärkt das Vertrauen in Ihre Daten, indem es Ihnen hilft, eine hohe Datenqualität zu erreichen. Es misst, überwacht und verwaltet automatisch die Datenqualität in Ihren Data Lakes und Pipelines und macht es einfacher, fehlende, veraltete oder schlechte Daten zu identifizieren.

    Sie können auf die Datenqualitätsfunktionen aus Datenkatalog und AWS Glue Studio und über AWS Glue APIs zugreifen.

    Preise für die Verwaltung der Datenqualität von Datensätzen, die im Datenkatalog katalogisiert sind:

    Sie können einen Datensatz aus dem Datenkatalog auswählen und Empfehlungen generieren. Mit dieser Aktion erstellen Sie eine Empfehlungsaufgabe, für die Sie Datenverarbeitungseinheiten (DPU) bereitstellen werden. Nachdem Sie die Empfehlungen erhalten haben, können Sie die Regeln ändern oder neue hinzufügen und diese planen. Diese Aufgaben werden als Datenqualitätsaufgaben bezeichnet, für die Sie DPU bereitstellen werden. Sie benötigen mindestens 2 DPU mit einer Mindestabrechnungsdauer von 1 Minute.

    Preise für die Verwaltung der Datenqualität von Datensätzen, die auf AWS Glue ETL verarbeitet werden:

    Sie können auch Datenqualitätsprüfungen zu Ihren ETL-Aufträgen hinzufügen, um zu verhindern, dass schlechte Daten in Data Lakes gelangen. Diese Datenqualitätsregeln befinden sich in Ihren ETL-Aufträgen, was zu einer längeren Laufzeit oder einem höheren DPU-Verbrauch führt. Alternativ können Sie die flexible Ausführung für nicht SLA-sensitive Workloads verwenden.

    Preise für die Erkennung von Anomalien in AWS Glue ETL:

    Anomalieerkennung:
    Für die Zeit, die zur Erkennung von Anomalien benötigt wird, fällt zusätzlich zu Ihrem ETL-Auftrags-DPU 1 DPU pro Statistik an. Im Durchschnitt dauert es zwischen 10 und 20 Sekunden, um eine Anomalie für eine Statistik zu erkennen. Nehmen wir an, Sie haben zwei Regeln (Regel1: Datenvolumen muss größer als 1000 Datensätze sein, Regel2: Spaltenanzahl muss größer als 10 sein) und einen Analyzer (Analyzer 1: Vollständigkeit einer Spalte überwachen) konfiguriert. Diese Konfiguration generiert drei Statistiken: Zeilenzahl, Spaltenzahl und Vollständigkeitsprozentsatz einer Spalte. Für die Zeit, die zur Erkennung von Anomalien benötigt wird, werden Ihnen 3 zusätzliche DPU in Rechnung gestellt, mit einer Mindestdauer von 1 Sekunde. Weitere Informationen finden Sie in Beispiel 4.

    Umschulung:
    Möglicherweise möchten Sie anomale Auftragsausführungen oder Statistiken ausschließen, damit der Anomalieerkennungsalgorithmus nachfolgende Anomalien genau vorhersagen kann. Zu diesem Zweck können Sie mit AWS Glue Statistiken ausschließen oder einschließen. Für die Zeit, die für die Umschulung des Modells benötigt wird, fällt 1 DPU an. Im Durchschnitt dauert die Umschulung pro Statistik 10 Sekunden bis 20 Minuten. Weitere Informationen finden Sie in Beispiel 5.

    Statistikspeicher:
    Für die Speicherung der gesammelten Statistiken fallen keine Gebühren an. Es gibt ein Limit von 100 000 Statistiken pro Konto und sie werden 2 Jahre lang gespeichert.

    Zusätzliche Gebühren:
    AWS Glue verarbeitet Daten direkt aus Amazon Simple Storage Service (Amazon S3). Für das Lesen Ihrer Daten mit AWS Glue fallen keine zusätzlichen Speichergebühren an. Ihnen werden die Standardtarife von Amazon S3 für Speicher, Anfragen und Datentransfer berechnet. Je nach Ihrer Konfiguration werden temporäre Dateien, Datenqualitätsergebnisse und Shuffle-Dateien in einem S3-Bucket Ihrer Wahl gespeichert und ebenfalls zu den Standard-S3-Tarifen abgerechnet.


    Wenn Sie den Datenkatalog verwenden, werden die Standardraten des Datenkatalogs berechnet. Details finden Sie auf der Registerkarte Datenkatalogspeicher und -anfragen.

    Preisbeispiele

    Beispiel 1 – Empfehlungen für eine Tabelle im Datenkatalog abrufen

    Nehmen wir zum Beispiel eine Empfehlungsaufgabe mit 5 DPUs, die in 10 Minuten abgeschlossen ist. Sie zahlen 5 DPUs * 1/6 Stunde * 0,44 €, was 0,37 € entspricht.

    Beispiel 2 – Bewerten der Datenqualität einer Tabelle im Datenkatalog

    Nachdem Sie die Empfehlungen geprüft haben, können Sie sie bei Bedarf bearbeiten und dann die Datenqualitätsaufgabe planen, indem Sie DPU bereitstellen. Nehmen wir zum Beispiel eine Aufgabe zur Bewertung der Datenqualität mit 5 DPU, die in 20 Minuten abgeschlossen ist.
    Sie zahlen 5 DPUs * 1/3 Stunde * 0,44 €, was 0,73 € entspricht.

    Beispiel 3 – Bewerten der Datenqualität in einem AWS Glue ETL-Auftrag

    Sie können diese Datenqualitätsprüfungen auch zu Ihren ETL-Aufträgen in AWS Glue hinzufügen, um zu verhindern, dass schlechte Daten in Ihre Data Lakes gelangen. Sie können dies tun, indem Sie Data Quality Transform in AWS Glue Studio hinzufügen oder AWS Glue-APIs innerhalb des Codes verwenden, den Sie in AWS Glue Studio-Notebooks verfassen. Nehmen wir einen AWS Glue-Auftrag, der dort ausgeführt wird, wo Datenqualitätsregeln innerhalb der Pipeline konfiguriert sind, und der 20 Minuten (1/3 Stunde) mit 6 DPU ausgeführt wird. Ihnen werden 6 DPUs * 1/3 Stunde * 0,44 € berechnet, was 0,88 € entspricht. Alternativ können Sie auch Flex nutzen, wofür Ihnen 6 DPU * 1/3 Stunde * 0,29 €, also 0,58 €, berechnet werden.

    Beispiel 4 – Bewerten der Datenqualität in einem AWS Glue ETL-Auftrag mit Anomalie-Erkennung

    Stellen Sie sich einen AWS Glue-Auftrag vor, der Daten aus Amazon S3 liest, Daten transformiert und Datenqualitätsprüfungen durchführt, bevor er in Amazon Redshift geladen wird. Nehmen Sie an, dass diese Pipeline 10 Regeln und 10 Analysatoren enthält, was zu 20 gesammelten Statistiken führt. Nehmen Sie außerdem an, dass die Extraktion, der Transformationsprozess, das Laden, das Sammeln von Statistiken und die Bewertung der Datenqualität 20 Minuten dauern. Ohne aktivierte Anomalieerkennung werden dem Kunden 6 DPU * 1/3 Stunde (20 Minuten) * 0,44 € berechnet, was 0,88 € (A) entspricht. Wenn die Anomalieerkennung aktiviert ist, fügen wir für jede Statistik 1 DPU hinzu, und es dauert durchschnittlich 15 Sekunden, um Anomalien zu erkennen. In diesem Beispiel fallen für den Kunden 20 Statistiken * 1 DPU * 15/3600 (0,0041 Stunde/Statistik) * 0,44 € (Kosten pro DPU/Stunde) = 0,037 € (B) an. Ihre Gesamtkosten für den Auftrag betragen 0,88 € (A) + 0,037 € (B) = 0,917 €.

    Beispiel 5 – Umschulung

    Stellen Sie sich vor, dass Ihr Glue-Auftrag eine Anomalie erkannt hat. Sie entscheiden sich, die Anomalie aus dem Modell auszuschließen, damit der Anomalieerkennungsalgorithmus zukünftige Anomalien genau vorhersagen kann. Zu diesem Zweck können Sie das Modell umschulen, indem Sie diese anomale Statistik ausschließen. Für die Zeit, die zum Umschulen des Modells benötigt wird, fällt 1 DPU pro Statistik an. Im Durchschnitt kann dies 15 Sekunden dauern. In diesem Beispiel fallen unter der Annahme, dass Sie 1 Datenpunkt ausschließen, 1 Statistik * 1 DPU * 15/3600 (0,0041 Stunden/Statistik) * 0,44 € = 0,00185 € an.