n diesem Kurs lernst du den Aufbau von Batch-Datenanalyselösungen mit Amazon EMR, einem verwalteten Apache Spark- und Apache Hadoop-Service der Enterprise-Klasse.
Inhalte
Erfahre, wie Amazon EMR mit Open-Source-Projekten wie Apache Hive, Hue und HBase und mit AWS-Services wie AWS Glue und AWS Lake Formation integriert wird. Der Kurs behandelt die Komponenten Datenerfassung, -aufnahme, -katalogisierung, -speicherung und -verarbeitung im Kontext von Spark und Hadoop. Du lernst die Verwendung von EMR Notebooks zur Unterstützung von Analyse- und Machine-Learning-Arbeitslasten. Du lernst auch, die besten Praktiken für Sicherheit, Leistung und Kostenmanagement auf den Betrieb von Amazon EMR anzuwenden.
Modul A: Überblick über Datenanalyse und die Datenpipeline
Anwendungsfälle der Datenanalyse
Verwendung der Datenpipeline für die Datenanalyse
Modul 1: Einführung in Amazon EMR
Verwendung von Amazon EMR in Analyselösungen
Architektur von Amazon-EMR-Clustern
Interaktive Demo 1: Starten eines Amazon-EMR-Clusters
Strategien zur Kostenverwaltung
Modul 2: Datenanalyse-Pipeline mit Amazon EMR: Ingestion und Speicherung
Speicheroptimierung mit Amazon EMR
Techniken zur Datenübernahme
Modul 3: Leistungsstarke Batch-Datenanalyse mit Apache Spark auf Amazon EMR
Anwendungsfälle für Apache Spark auf Amazon EMR
Warum Apache Spark auf Amazon EMR?
Spark-Konzepte
Interaktive Demo 2: Verbinde dich mit einem EMR-Cluster und führe Scala-Befehle mit der Spark-Shell
Transformation, Verarbeitung und Analyse
Verwendung von Notebooks mit Amazon EMR
Practice Lab 1: Datenanalyse mit niedriger Latenz mit Apache Spark auf Amazon EMR
Modul 4: Verarbeiten und Analysieren von Batch-Daten mit Amazon EMR und Apache Hive
Verwendung von Amazon EMR mit Hive zur Verarbeitung von Stapeldaten
Transformation, Verarbeitung und Analyse
Practice Lab 2: Batch-Datenverarbeitung mit Amazon EMR und Hive
Einführung in Apache HBase auf Amazon EMR
Modul 5: Serverlose Datenverarbeitung
Serverlose Datenverarbeitung, -transformation und -analytik
Verwendung von AWS Glue mit Amazon-EMR-Arbeitslasten
Practice Lab 3: Orchestrierung der Datenverarbeitung in Spark mit AWS Step Functions
Modul 6: Sicherheit und Überwachung von Amazon EMR-Clustern
Sichern von EMR-Clustern
Interaktive Demo 3: Client-seitige Verschlüsselung mit EMRFS
Überwachung und Fehlersuche bei Amazon-EMR-Clustern
Demo: Überprüfung des Verlaufs von Apache-Spark-Clustern
Modul 7: Entwerfen von Batch-Datenanalyselösungen
Anwendungsfälle für die Batch-Datenanalytik
Aktivität: Entwerfen eines Arbeitsablaufs für die Batch-Datenanalyse
Modul B: Entwickeln moderner Datenarchitekturen auf AWS
Moderne Datenarchitekturen
https://www.haufe-akademie.de/36413