Zum Inhalt

Block 06 | Modul 106

Automatisierung des Datenverarbeitungsprozesses mit Pipelines

  • Pipelines automatisieren die Vorbereitung und Verarbeitung von Daten für das Training von ML-Modellen.

  • Schritte innerhalb einer Pipeline:

  • Datenaufnahme (Ingestion)

  • Bereinigung und Transformation

  • Feature Engineering

  • Datenaufteilung (Data Splitting)

  • Modelltraining und Validierung

  • Vorteile:

  • Wiederholbarkeit, Skalierbarkeit, weniger manuelle Fehler

Data-Splitting im Machine Learning

  • Aufteilung des Datensatzes in verschiedene Teilmengen:

  • Training Set: Für das Modelltraining (ca. 70–80 % der Daten)

  • Validation Set: Für die Optimierung von Hyperparametern (ca. 10–15 %)

  • Test Set: Für die abschliessende Bewertung der Modellqualität (ca. 10–15 %)

  • Ziel: Verhindern von Overfitting und faire Beurteilung des Modells

Umgang mit unbalancierten/unvollständigen Datensätzen

Unbalancierte Datensätze:

  • Oversampling der Minderheitsklasse (z. B. SMOTE)

  • Undersampling der Mehrheitsklasse

  • Verwendung von gewichteten Loss-Funktionen

  • Wahl robusterer Modelle (z. B. Decision Trees)

Unvollständige Datensätze:

  • Entfernen unvollständiger Datenzeilen (wenn vertretbar)

  • Imputation fehlender Werte (Mittelwert, Median, Modelle)

  • Nutzung spezialisierter Algorithmen, die mit fehlenden Werten umgehen können


Data Insights

  • Erkenntnisse, die aus der Analyse von Daten gewonnen werden.

  • Wichtig, um fundierte Geschäftsentscheidungen zu treffen, Trends zu erkennen und Prozesse zu optimieren.

Visualisierungsmöglichkeiten

  • Diagramme: Balken-, Linien-, Kreisdiagramme

  • Heatmaps

  • Dashboards: z. B. AWS QuickSight

  • Interaktive Analysen: Drill-Down, Filter, dynamische Ansichten

Einfluss von Business Needs auf die Tool-Wahl

  • Echtzeitanalyse erforderlich?

  • Komplexität und Umfang der Daten

  • Zielgruppe (Management, Technik, operative Ebene)

  • Budget, Lizenzen, Integration mit bestehenden Systemen

Bereich der Grafik für M11

  • Interactive Analytics (untere rechte Ecke):

  • Athena: SQL-Analyse von Daten direkt in S3.

  • QuickSight: Dashboards und Visualisierungen.

  • OpenSearch Service: Such- und Analysefunktionen