Zum Inhalt

Dokumentationsseite Tim

Block_04

Block 04 | Modul 106¶

Grundlegende Abläufe und Unterschiede¶

Batch Ingestion:

Grosse Datenmengen werden gesammelt und in festen Zeitintervallen verarbeitet.
Typische Intervallgrössen: stündlich, täglich, wöchentlich.
Beispiel: Logdateien, Monatsberichte.
Vorteile:
Effiziente Verarbeitung grosser Datenmengen.
Einfacher umzusetzen.
Nachteile:
Keine Echtzeitverarbeitung.
Verzögerung bis zur Verfügbarkeit der Daten.

Stream Ingestion:

Daten werden laufend, nahezu in Echtzeit, verarbeitet.
Daten werden einzeln oder in kleinen Paketen sofort übernommen.
Beispiel: Sensor-Daten, Finanztransaktionen, Web-Tracking.
Vorteile:
Nahezu sofortige Verarbeitung.
Geeignet für zeitkritische Anwendungen.
Nachteile:
Komplexer in der Implementierung.
Höhere Anforderungen an Stabilität und Skalierbarkeit.

Speicheroptionen neben S3¶¶

Amazon EFS (Elastic File System):
Netzlaufwerk, skalierbar für parallelen Zugriff von mehreren Instanzen.
Amazon EBS (Elastic Block Store):
Blockspeicher für EC2-Instanzen, hoher Datendurchsatz und geringe Latenz.

Weitere Beispiele wären: Glacier (Archivierung), FSx (Windows/Linux File Server), DynamoDB (NoSQL).

Unterschiede Data Lake vs. Data Warehouse¶¶

Data Lake:

Speichert rohe, unstrukturierte und strukturierte Daten.
Flexibel für verschiedene Datentypen und Formate.
Geringere Speicherkosten.
Beispiel: Speicherung von Logdaten, IoT-Daten, Medien.

Data Warehouse:

Speichert strukturierte, aufbereitete Daten für Analysen.
Optimiert für schnelle Abfragen und Business Intelligence.
Höhere Anforderungen an Datenqualität und -struktur.
Beispiel: Reporting, Finanzanalysen.

Anwendungsbeispiele¶

Data Lake: IoT-Daten von Sensoren, Logdaten von Webservern.
Data Warehouse: Umsatzanalysen, Kundenberichte im Controlling.

Kriterien bei der Auswahl einer Datenbank¶

Transaktionsanforderungen (z. B. ACID, Caching)
Zugriffs- und Aktualisierungshäufigkeit
Latenz, Antwortzeiten und Datengrösse
Benutzeranforderungen, Failover, Backup und zukünftige Upgrades

Weitere Datenbanktypen¶

NoSQL (z. B. DynamoDB):
Key-Value, Dokumenten- oder Graphdatenbanken für flexible, schemalose Daten.
Anwendung: Benutzerprofile in Webanwendungen.

Sicherheitskonzept bei Redshift¶

Trennung von Service-Sicherheit und DB-Sicherheit:
Service-Sicherheit: Netzwerksicherheit, IAM, Verschlüsselung.
DB-Sicherheit: Benutzerrechte, Rollen, Zugriff auf Tabellen und Daten.

Definition Big Data¶

Big Data bezeichnet grosse, komplexe und schnell wachsende Datenmengen, die mit klassischen Methoden schwer zu verarbeiten sind.
Merkmale: Volume, Velocity, Variety, Veracity, Value (5V).
Beispiele:
Social-Media-Daten (Posts, Bilder, Likes)
Sensordaten aus IoT-Geräten (z. B. Smart Homes, Maschinenüberwachung)

Batch vs. Streaming bei Big Data¶

Batch Processing:

Verarbeitung grosser Datenmengen in festen Zeitabständen.
Geeignet für umfangreiche Analysen und Auswertungen.
Vorteile:
Effizient bei grossen Datenmengen.
Einfacher umzusetzen.
Nachteile:
Keine Echtzeitverarbeitung.
Verzögerte Ergebnisse.

Streaming Processing:

Laufende Verarbeitung von Daten nahezu in Echtzeit.
Geeignet für zeitkritische Analysen.
Vorteile:
Schnelle Reaktion auf Ereignisse.
Echtzeit-Überwachung möglich.
Nachteile:
Komplexere Architektur.
Höhere Anforderungen an Infrastruktur und Fehlertoleranz.

Herausforderungen bei der Analyse von Big Data¶

Datenqualität und -bereinigung
Hoher Speicher- und Rechenbedarf
Komplexität bei der Datenintegration aus verschiedenen Quellen
Datenschutz und Sicherheit
Skalierbarkeit der Systeme