Zum Inhalt

Block 04 | Modul 106

Grundlegende Abläufe und Unterschiede

Batch Ingestion:

  • Grosse Datenmengen werden gesammelt und in festen Zeitintervallen verarbeitet.

  • Typische Intervallgrössen: stündlich, täglich, wöchentlich.

  • Beispiel: Logdateien, Monatsberichte.

  • Vorteile:

  • Effiziente Verarbeitung grosser Datenmengen.

  • Einfacher umzusetzen.

  • Nachteile:

  • Keine Echtzeitverarbeitung.

  • Verzögerung bis zur Verfügbarkeit der Daten.

Stream Ingestion:

  • Daten werden laufend, nahezu in Echtzeit, verarbeitet.

  • Daten werden einzeln oder in kleinen Paketen sofort übernommen.

  • Beispiel: Sensor-Daten, Finanztransaktionen, Web-Tracking.

  • Vorteile:

  • Nahezu sofortige Verarbeitung.

  • Geeignet für zeitkritische Anwendungen.

  • Nachteile:

  • Komplexer in der Implementierung.

  • Höhere Anforderungen an Stabilität und Skalierbarkeit.


Speicheroptionen neben S3

  • Amazon EFS (Elastic File System):
    Netzlaufwerk, skalierbar für parallelen Zugriff von mehreren Instanzen.

  • Amazon EBS (Elastic Block Store):
    Blockspeicher für EC2-Instanzen, hoher Datendurchsatz und geringe Latenz.

Weitere Beispiele wären: Glacier (Archivierung), FSx (Windows/Linux File Server), DynamoDB (NoSQL).

Unterschiede Data Lake vs. Data Warehouse

Data Lake:

  • Speichert rohe, unstrukturierte und strukturierte Daten.

  • Flexibel für verschiedene Datentypen und Formate.

  • Geringere Speicherkosten.

  • Beispiel: Speicherung von Logdaten, IoT-Daten, Medien.

Data Warehouse:

  • Speichert strukturierte, aufbereitete Daten für Analysen.

  • Optimiert für schnelle Abfragen und Business Intelligence.

  • Höhere Anforderungen an Datenqualität und -struktur.

  • Beispiel: Reporting, Finanzanalysen.

Anwendungsbeispiele

  • Data Lake: IoT-Daten von Sensoren, Logdaten von Webservern.

  • Data Warehouse: Umsatzanalysen, Kundenberichte im Controlling.

Kriterien bei der Auswahl einer Datenbank

  • Transaktionsanforderungen (z. B. ACID, Caching)

  • Zugriffs- und Aktualisierungshäufigkeit

  • Latenz, Antwortzeiten und Datengrösse

  • Benutzeranforderungen, Failover, Backup und zukünftige Upgrades

Weitere Datenbanktypen

  • NoSQL (z. B. DynamoDB):
    Key-Value, Dokumenten- oder Graphdatenbanken für flexible, schemalose Daten.
    Anwendung: Benutzerprofile in Webanwendungen.

Sicherheitskonzept bei Redshift

  • Trennung von Service-Sicherheit und DB-Sicherheit:

  • Service-Sicherheit: Netzwerksicherheit, IAM, Verschlüsselung.

  • DB-Sicherheit: Benutzerrechte, Rollen, Zugriff auf Tabellen und Daten.


Definition Big Data

  • Big Data bezeichnet grosse, komplexe und schnell wachsende Datenmengen, die mit klassischen Methoden schwer zu verarbeiten sind.

  • Merkmale: Volume, Velocity, Variety, Veracity, Value (5V).

  • Beispiele:

  • Social-Media-Daten (Posts, Bilder, Likes)

  • Sensordaten aus IoT-Geräten (z. B. Smart Homes, Maschinenüberwachung)

Batch vs. Streaming bei Big Data

Batch Processing:

  • Verarbeitung grosser Datenmengen in festen Zeitabständen.

  • Geeignet für umfangreiche Analysen und Auswertungen.

  • Vorteile:

  • Effizient bei grossen Datenmengen.

  • Einfacher umzusetzen.

  • Nachteile:

  • Keine Echtzeitverarbeitung.

  • Verzögerte Ergebnisse.

Streaming Processing:

  • Laufende Verarbeitung von Daten nahezu in Echtzeit.

  • Geeignet für zeitkritische Analysen.

  • Vorteile:

  • Schnelle Reaktion auf Ereignisse.

  • Echtzeit-Überwachung möglich.

  • Nachteile:

  • Komplexere Architektur.

  • Höhere Anforderungen an Infrastruktur und Fehlertoleranz.

Herausforderungen bei der Analyse von Big Data

  • Datenqualität und -bereinigung

  • Hoher Speicher- und Rechenbedarf

  • Komplexität bei der Datenintegration aus verschiedenen Quellen

  • Datenschutz und Sicherheit

  • Skalierbarkeit der Systeme