Daten automatisiert und in Echtzeit verarbeiten, analysieren und daraus Erkenntnisse ableiten zu können, gehört zu den zentralen Anforderungen von Unternehmen. Die Daten-Pipelines dafür aufzubauen, ist die Aufgabe von Data Scientists - ein Berufsfeld, das derzeit besonders gefragt ist und große Chancen bietet. Diese zertifizierte Online-Weiterbildung befähigt Sie, Data-Mining-Prozesse aufzusetzen, Machine-Learning-Algorithmen anzuwenden, Prognosemodelle zu erstellen und diese in automatisierten Workflows produktiv zu setzen. Dabei wird die Programmiersprache Python mit ihren führenden Machine-Learning-Bibliotheken verwendet. Dieser Online-Kurs ist so konzipiert, dass Sie flexibel und in Ihrem eigenen Tempo lernen können. Es erwarten Sie Videos, interaktive Grafiken, Texte und viele praktische Übungen mit umfangreichen Datensätzen und Coding-Aufgaben. Bei Fragen stehen Ihnen erfahrene Datenanalysten als Mentoren zur Seite.
Inhalte
1. Grundlagen Data Analytics mit Python
- Arbeiten mit dem Data Lab
- Grundlagen und Konzepte in Python
- Vorstellung der Tools pandas, matplotlib uns Seaborn
- Datenbankanfragen mir SQL Alchemy
2. Lineare Algebra
- Mathematische Hintergründe
- Grundbegriffe der linearen Algebra
- Berechnung mit Vektoren und Matrizen
- Einsatz der Python-Bibliothek numpy
3. Wahrscheinlichkeitsverteilung
- Statistik in Data-Science-Algorithmen
- Diskrete und kontinuierliche Verteilungen
- Versionierung von Code in Git
4. Überwachtes Lernen (Regression)
- Lineare Regression einsetzen
- Einsatz des Python-Pakets sklearn
- Regressionsmodelle verstehen
- Evaluation der Prognosen
- Bias-Variance-Trade-Off und Regularisierung
- Messung der Modellgüte
5. Überwachtes Lernen (Klassifikation)
- Konzepte des Supervised Learning
- Einführung in Klassifikationsalgorithmen
- Der k-Nearest-Neighbors-Algorithmus
- Einschätzung der Klassifikationsperformance
- Optimierung der Parameter
- Aufteilung der Daten in Trainings- und Evaluationssets
6. Unüberwachtes Lernen (Clustering)
- Konzepte des Unsupervised Learning
- Der k-Means-Algorithmus
- Evaluation der Performance-Metriken
- Alternativen zum k-Means-Clustering
7. Unüberwachtes Lernen (Dimensionsreduktion)
- Dimensionen in der Datenbetrachtung reduzieren
- Principal Component Analysis (PCA)
- Unkorrelierte Features aus Ursprungsdaten erzeugen
- Einführung in Feature Engineering
8. Ausreißer identifizieren und ausschließen
- Methoden zur Erkennung von Ausreißern
- Kriterien ungewöhnlicher Datenpunkte
- Robuste Maße und Reduktion der Einflüsse durch Ausreißer
9. Daten sammeln und zusammenführen
- Daten aus Webseiten und PDF-Dokumenten auslesen
- Einsatz von Regulären Ausdrücken
- Textdaten vor der Verarbeitung strukturieren
10. Logistische Regression
- Konzepte der logistischen Regression
- Performance-Metriken zur Evaluation
- Nicht-numerische Daten in Modellen einsetzen
11. Entscheidungsbäume und Random Forests
- Das Konzept der Decision Trees
- Mehrere Modelle zu Ensembles kombinieren
- Methoden zur Verbesserung der Vorhersage-Qualität
12. Support Vector Machines
- Einsatz von Support Vector Machines (SVM)
- Einführung in Natural Language Processing (NLP)
- Textklassifikation mit Bag-of-Words-Modellen
13. Neuronale Netze
- Grundlagen künstliche neuronaler Netze (KNN)
- Grundlagen des Deep Learnings
- Tieferes Verständnis der Schichten in KNN
14. Visualisierung und Model-Interpretation
- Funktionsweisen von Modellen ableiten und darstellen
- Methoden zur Interpretation und Visualisierung
- Modelagnostische Methoden anwenden
15. Verteilte Datenbanken einsetzen
- Das Python-Paket PySpark einsetzen
- Daten aus verteilten Datenbanken auslesen
- Grundlagen von Big-Data-Analysen
- Machine-Learning-Algorithmen in verteilten Systemen nutzen
16. Übungsprojekt
- Umfassenden Übungsprojekt selbstständig bearbeiten
- Prädiktionsproblem mithilfe eines größeren Datensets lösen
- Vorbereitung für das Abschlussprojekt
17. Abschlussprojekt
- Selbstständige Analyse des Datenprojekts
- Ergebnispräsentation und 1:1-Feedbackgespräch mit Mentoring-Team
- Erhalt des Zertifikats zum Data Scientist mit Python