Extraktion, Bereinigung und Vorbereitung von Daten aus unterschiedlichen Quellen für das Modelltraining