Building Batch Data Analytics Solutions on AWS

Weiterbildung

Beschreibung

In diesem Kurs lernst du den Aufbau von Batch-Datenanalyselösungen mit Amazon EMR, einem verwalteten Apache Spark- und Apache Hadoop-Service der Enterprise-Klasse.

Inhalte

Erfahre, wie Amazon EMR mit Open-Source-Projekten wie Apache Hive, Hue und HBase und mit AWS-Services wie AWS Glue und AWS Lake Formation integriert wird. Der Kurs behandelt die Komponenten Datenerfassung, -aufnahme, -katalogisierung, -speicherung und -verarbeitung im Kontext von Spark und Hadoop. Du lernst die Verwendung von EMR Notebooks zur Unterstützung von Analyse- und Machine-Learning-Arbeitslasten. Du lernst auch, die besten Praktiken für Sicherheit, Leistung und Kostenmanagement auf den Betrieb von Amazon EMR anzuwenden.

Modul A: Überblick über Datenanalyse und die Datenpipeline

Anwendungsfälle der Datenanalyse
Verwendung der Datenpipeline für die Datenanalyse

Modul 1: Einführung in Amazon EMR

Verwendung von Amazon EMR in Analyselösungen
Architektur von Amazon-EMR-Clustern
Interaktive Demo 1: Starten eines Amazon-EMR-Clusters
Strategien zur Kostenverwaltung

Modul 2: Datenanalyse-Pipeline mit Amazon EMR: Ingestion und Speicherung

Speicheroptimierung mit Amazon EMR
Techniken zur Datenübernahme

Modul 3: Leistungsstarke Batch-Datenanalyse mit Apache Spark auf Amazon EMR

Anwendungsfälle für Apache Spark auf Amazon EMR
Warum Apache Spark auf Amazon EMR?
Spark-Konzepte
Interaktive Demo 2: Verbinde dich mit einem EMR-Cluster und führe Scala-Befehle mit der Spark-Shell
Transformation, Verarbeitung und Analyse
Verwendung von Notebooks mit Amazon EMR
Practice Lab 1: Datenanalyse mit niedriger Latenz mit Apache Spark auf Amazon EMR

Modul 4: Verarbeiten und Analysieren von Batch-Daten mit Amazon EMR und Apache Hive

Verwendung von Amazon EMR mit Hive zur Verarbeitung von Stapeldaten
Transformation, Verarbeitung und Analyse
Practice Lab 2: Batch-Datenverarbeitung mit Amazon EMR und Hive
Einführung in Apache HBase auf Amazon EMR

Modul 5: Serverlose Datenverarbeitung

Serverlose Datenverarbeitung, -transformation und -analytik
Verwendung von AWS Glue mit Amazon-EMR-Arbeitslasten
Practice Lab 3: Orchestrierung der Datenverarbeitung in Spark mit AWS Step Functions

Modul 6: Sicherheit und Überwachung von Amazon EMR-Clustern

Sichern von EMR-Clustern
Interaktive Demo 3: Client-seitige Verschlüsselung mit EMRFS
Überwachung und Fehlersuche bei Amazon-EMR-Clustern
Demo: Überprüfung des Verlaufs von Apache-Spark-Clustern

Modul 7: Entwerfen von Batch-Datenanalyselösungen

Anwendungsfälle für die Batch-Datenanalytik
Aktivität: Entwerfen eines Arbeitsablaufs für die Batch-Datenanalyse

Modul B: Entwickeln moderner Datenarchitekturen auf AWS

Moderne Datenarchitekturen

Weiterbildungslevel

Level 1

Level 2

Level 3

Level 4

Bei unseren Weiterbildungsangeboten unterscheiden wir unterschiedliche Levels

Level 1: Grundkenntnisse
Level 2: Anwenderkenntnisse
Level 3: Expertenkenntnisse
Level 4: Kenntnisse für Führungskräfte