Block 06 | Modul 106¶
Automatisierung des Datenverarbeitungsprozesses mit Pipelines¶
-
Pipelines automatisieren die Vorbereitung und Verarbeitung von Daten für das Training von ML-Modellen.
-
Schritte innerhalb einer Pipeline:
-
Datenaufnahme (Ingestion)
-
Bereinigung und Transformation
-
Feature Engineering
-
Datenaufteilung (Data Splitting)
-
Modelltraining und Validierung
-
Vorteile:
-
Wiederholbarkeit, Skalierbarkeit, weniger manuelle Fehler
Data-Splitting im Machine Learning¶
-
Aufteilung des Datensatzes in verschiedene Teilmengen:
-
Training Set: Für das Modelltraining (ca. 70–80 % der Daten)
-
Validation Set: Für die Optimierung von Hyperparametern (ca. 10–15 %)
-
Test Set: Für die abschliessende Bewertung der Modellqualität (ca. 10–15 %)
-
Ziel: Verhindern von Overfitting und faire Beurteilung des Modells
Umgang mit unbalancierten/unvollständigen Datensätzen¶
Unbalancierte Datensätze:
-
Oversampling der Minderheitsklasse (z. B. SMOTE)
-
Undersampling der Mehrheitsklasse
-
Verwendung von gewichteten Loss-Funktionen
-
Wahl robusterer Modelle (z. B. Decision Trees)
Unvollständige Datensätze:
-
Entfernen unvollständiger Datenzeilen (wenn vertretbar)
-
Imputation fehlender Werte (Mittelwert, Median, Modelle)
-
Nutzung spezialisierter Algorithmen, die mit fehlenden Werten umgehen können
Data Insights¶
-
Erkenntnisse, die aus der Analyse von Daten gewonnen werden.
-
Wichtig, um fundierte Geschäftsentscheidungen zu treffen, Trends zu erkennen und Prozesse zu optimieren.
Visualisierungsmöglichkeiten¶
-
Diagramme: Balken-, Linien-, Kreisdiagramme
-
Heatmaps
-
Dashboards: z. B. AWS QuickSight
-
Interaktive Analysen: Drill-Down, Filter, dynamische Ansichten
Einfluss von Business Needs auf die Tool-Wahl¶
-
Echtzeitanalyse erforderlich?
-
Komplexität und Umfang der Daten
-
Zielgruppe (Management, Technik, operative Ebene)
-
Budget, Lizenzen, Integration mit bestehenden Systemen
Bereich der Grafik für M11¶
-
Interactive Analytics (untere rechte Ecke):
-
Athena: SQL-Analyse von Daten direkt in S3.
-
QuickSight: Dashboards und Visualisierungen.
-
OpenSearch Service: Such- und Analysefunktionen