Block 01 | Modul 106¶

Datenanalyse	KI/ML
Ist die systematische Analyse grosser Datensätze (Big Data), um Muster und Trends zu finden und umsetzbare Erkenntnisse zu gewinnen	Ist eine Reihe von mathematischen Modellen, die verwendet werden, um Vorhersagen aus Daten in einem Umfang zu treffen, der für Menschen schwierig oder unmöglich ist
Verwendet Programmierlogik, um Fragen aus Daten zu beantworten	Verwendet Beispiele aus grossen Datenmengen, um über die Daten zu lernen und Fragen zu beantworten
Ist gut für strukturierte Daten mit einer begrenzten Anzahl von Variablen	Ist gut für unstrukturierte Daten und wo die Variablen komplex sind

Beispiel Daten Pipeline¶

5Vs¶

Erklärung 5vs¶

| Konzept                        | Erklärung                                                                                   | Beispiel                                                                                          |
| ------------------------------ | ------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------- |
| **Velocity (Geschwindigkeit)** | Beschreibt, wie schnell Daten in eine Pipeline gelangen und sich durch diese bewegen.       | Ein Online-Shop verarbeitet Bestellungen schnell, damit sie rasch versendet werden können.        |
| **Volume (Datenmenge)**        | Bezieht sich auf die enorme Menge an Daten, die täglich generiert wird.                     | Facebook verarbeitet Milliarden von Posts, Bildern und Videos täglich.                            |
| **Variety (Vielfalt)**         | Daten kommen in verschiedenen Formaten – strukturiert, unstrukturiert und halbstrukturiert. | Netflix analysiert verschiedene Datenformate wie Bewertungen, Videodateien und Nutzungsverhalten. |
| **Veracity (Wahrhaftigkeit)**  | Die Qualität und Vertrauenswürdigkeit der Daten ist entscheidend.                           | Eine Bank überprüft Kundendaten genau, um Betrug zu verhindern.                                   |
| **Value (Wert)**               | Daten sind nur dann nützlich, wenn sie einen Mehrwert bieten.                               | Amazon nutzt Kaufhistorien und Suchverhalten für gezielte Produktempfehlungen.                    |

Rolle_Data_Engineer¶

Ein Data Engineer entwickelt die Infrastruktur, die grosse Datenmengen speichert, verarbeitet und bereitstellt. Er baut Daten-Pipelines, die Daten aus verschiedenen Quellen sammeln, bereinigen und schnell zugänglich machen.

**Beispiel:**
Ein Online-Shop verarbeitet täglich Kundendaten. Der Data Engineer sorgt dafür, dass diese effizient gespeichert und analysiert werden, sodass gezielte Produktempfehlungen möglich sind.

Modul 3:¶

Data Typen¶

AWS-Service	Einfache Erklärung
Amazon S3	Speichert Dateien und Daten in der Cloud
Amazon Redshift	Macht große Daten für Berichte und Abfragen schnell nutzbar
AWS Glue	Bereitet Daten automatisch auf (z. B. sortieren, bereinigen)
Amazon Athena	Führt SQL-Abfragen direkt auf Daten in S3 aus
Amazon Kinesis	Verarbeitet Daten in Echtzeit (z. B. Live-Datenströme)
Amazon DynamoDB	Schnelle Datenbank für einfache, schnelle Abfragen
Amazon RDS	Verwalten von normalen Datenbanken wie MySQL oder PostgreSQL
Amazon Aurora	Starke, schnelle Datenbank mit hoher Sicherheit
Amazon QuickSight	Erstellt schöne Diagramme und Dashboards
Amazon SageMaker	Hilft beim Erstellen von KI- und Machine-Learning-Modellen
Amazon Bedrock	Macht KI-Modelle über einfache APIs nutzbar
Amazon Q Developer	KI-Hilfe für Entwickler beim Schreiben von Code
AWS Lambda	Führt Code automatisch aus, wenn etwas passiert
AWS CloudFormation	Baut AWS-Infrastruktur automatisch mit Code
AWS DataSync	Überträgt Daten von deinem PC/Server zu AWS
AWS Step Functions	Verbindet mehrere Schritte zu einem automatischen Ablauf
Amazon CloudWatch	Überwacht, ob alles in der Cloud richtig funktioniert
AWS IAM	Bestimmt, wer was in der Cloud darf
AWS CloudTrail	Zeichnet auf, wer was in AWS gemacht hat