Zum Inhalt

Block 01 | Modul 106

Datenanalyse KI/ML
Ist die systematische Analyse grosser Datensätze (Big Data), um Muster und Trends zu finden und umsetzbare Erkenntnisse zu gewinnen Ist eine Reihe von mathematischen Modellen, die verwendet werden, um Vorhersagen aus Daten in einem Umfang zu treffen, der für Menschen schwierig oder unmöglich ist
Verwendet Programmierlogik, um Fragen aus Daten zu beantworten Verwendet Beispiele aus grossen Datenmengen, um über die Daten zu lernen und Fragen zu beantworten
Ist gut für strukturierte Daten mit einer begrenzten Anzahl von Variablen Ist gut für unstrukturierte Daten und wo die Variablen komplex sind

Beispiel Daten Pipeline

5Vs

Erklärung 5vs

| Konzept                        | Erklärung                                                                                   | Beispiel                                                                                          |
| ------------------------------ | ------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------- |
| **Velocity (Geschwindigkeit)** | Beschreibt, wie schnell Daten in eine Pipeline gelangen und sich durch diese bewegen.       | Ein Online-Shop verarbeitet Bestellungen schnell, damit sie rasch versendet werden können.        |
| **Volume (Datenmenge)**        | Bezieht sich auf die enorme Menge an Daten, die täglich generiert wird.                     | Facebook verarbeitet Milliarden von Posts, Bildern und Videos täglich.                            |
| **Variety (Vielfalt)**         | Daten kommen in verschiedenen Formaten – strukturiert, unstrukturiert und halbstrukturiert. | Netflix analysiert verschiedene Datenformate wie Bewertungen, Videodateien und Nutzungsverhalten. |
| **Veracity (Wahrhaftigkeit)**  | Die Qualität und Vertrauenswürdigkeit der Daten ist entscheidend.                           | Eine Bank überprüft Kundendaten genau, um Betrug zu verhindern.                                   |
| **Value (Wert)**               | Daten sind nur dann nützlich, wenn sie einen Mehrwert bieten.                               | Amazon nutzt Kaufhistorien und Suchverhalten für gezielte Produktempfehlungen.                    |

Rolle_Data_Engineer

Ein Data Engineer entwickelt die Infrastruktur, die grosse Datenmengen speichert, verarbeitet und bereitstellt. Er baut Daten-Pipelines, die Daten aus verschiedenen Quellen sammeln, bereinigen und schnell zugänglich machen.

**Beispiel:**
Ein Online-Shop verarbeitet täglich Kundendaten. Der Data Engineer sorgt dafür, dass diese effizient gespeichert und analysiert werden, sodass gezielte Produktempfehlungen möglich sind.

Modul 3:

Data Typen

AWS-Service Einfache Erklärung
Amazon S3 Speichert Dateien und Daten in der Cloud
Amazon Redshift Macht große Daten für Berichte und Abfragen schnell nutzbar
AWS Glue Bereitet Daten automatisch auf (z. B. sortieren, bereinigen)
Amazon Athena Führt SQL-Abfragen direkt auf Daten in S3 aus
Amazon Kinesis Verarbeitet Daten in Echtzeit (z. B. Live-Datenströme)
Amazon DynamoDB Schnelle Datenbank für einfache, schnelle Abfragen
Amazon RDS Verwalten von normalen Datenbanken wie MySQL oder PostgreSQL
Amazon Aurora Starke, schnelle Datenbank mit hoher Sicherheit
Amazon QuickSight Erstellt schöne Diagramme und Dashboards
Amazon SageMaker Hilft beim Erstellen von KI- und Machine-Learning-Modellen
Amazon Bedrock Macht KI-Modelle über einfache APIs nutzbar
Amazon Q Developer KI-Hilfe für Entwickler beim Schreiben von Code
AWS Lambda Führt Code automatisch aus, wenn etwas passiert
AWS CloudFormation Baut AWS-Infrastruktur automatisch mit Code
AWS DataSync Überträgt Daten von deinem PC/Server zu AWS
AWS Step Functions Verbindet mehrere Schritte zu einem automatischen Ablauf
Amazon CloudWatch Überwacht, ob alles in der Cloud richtig funktioniert
AWS IAM Bestimmt, wer was in der Cloud darf
AWS CloudTrail Zeichnet auf, wer was in AWS gemacht hat