Zum Inhalt

Dokumentationsseite Tim

Block_06

Block 06 | Modul 106¶

Automatisierung des Datenverarbeitungsprozesses mit Pipelines¶

Pipelines automatisieren die Vorbereitung und Verarbeitung von Daten für das Training von ML-Modellen.
Schritte innerhalb einer Pipeline:
Datenaufnahme (Ingestion)
Bereinigung und Transformation
Feature Engineering
Datenaufteilung (Data Splitting)
Modelltraining und Validierung
Vorteile:
Wiederholbarkeit, Skalierbarkeit, weniger manuelle Fehler

Data-Splitting im Machine Learning¶

Aufteilung des Datensatzes in verschiedene Teilmengen:
Training Set: Für das Modelltraining (ca. 70–80 % der Daten)
Validation Set: Für die Optimierung von Hyperparametern (ca. 10–15 %)
Test Set: Für die abschliessende Bewertung der Modellqualität (ca. 10–15 %)
Ziel: Verhindern von Overfitting und faire Beurteilung des Modells

Umgang mit unbalancierten/unvollständigen Datensätzen¶

Unbalancierte Datensätze:

Oversampling der Minderheitsklasse (z. B. SMOTE)
Undersampling der Mehrheitsklasse
Verwendung von gewichteten Loss-Funktionen
Wahl robusterer Modelle (z. B. Decision Trees)

Unvollständige Datensätze:

Entfernen unvollständiger Datenzeilen (wenn vertretbar)
Imputation fehlender Werte (Mittelwert, Median, Modelle)
Nutzung spezialisierter Algorithmen, die mit fehlenden Werten umgehen können

Data Insights¶

Erkenntnisse, die aus der Analyse von Daten gewonnen werden.
Wichtig, um fundierte Geschäftsentscheidungen zu treffen, Trends zu erkennen und Prozesse zu optimieren.

Visualisierungsmöglichkeiten¶

Diagramme: Balken-, Linien-, Kreisdiagramme
Heatmaps
Dashboards: z. B. AWS QuickSight
Interaktive Analysen: Drill-Down, Filter, dynamische Ansichten

Einfluss von Business Needs auf die Tool-Wahl¶

Echtzeitanalyse erforderlich?
Komplexität und Umfang der Daten
Zielgruppe (Management, Technik, operative Ebene)
Budget, Lizenzen, Integration mit bestehenden Systemen

Bereich der Grafik für M11¶

Interactive Analytics (untere rechte Ecke):
Athena: SQL-Analyse von Daten direkt in S3.
QuickSight: Dashboards und Visualisierungen.
OpenSearch Service: Such- und Analysefunktionen