Zum Inhalt

Ganze_Theorie

Lernfeld 1: Theorie


1. Was ist eine "data-driven organization"?

Das ist ein Unternehmen, das Entscheidungen auf Basis von Daten trifft. Beispiel: Statt einfach ein neues Produkt zu erfinden, schaut man zuerst in den Daten, was die Kunden wirklich wollen.


2. Welche Vorteile hat das?

  • Entscheidungen sind faktenbasiert, nicht nur aus Gefühl
  • Man kann besser planen und vorhersagen
  • Fehler fallen früher auf
  • Man spart Zeit und Geld, weil man gezielter arbeitet

3. Beispiel für so ein Unternehmen

Netflix: Sie analysieren, was die Leute schauen – wann sie stoppen, weiterschauen usw. Dann produzieren sie gezielt Serien, die gut ankommen. So sparen sie Geld und bekommen viele Zuschauer.


4. Was machen Datenanalysten und Data Scientists?

Rolle Aufgabe
Datenanalyst Sammelt und wertet Daten aus, z. B. für Berichte oder Diagramme
Data Scientist Baut Programme, die mit den Daten z. B. Vorhersagen oder Empfehlungen machen

5. Erklärung vom Lego-Diagramm

alt text

Das Bild mit Lego zeigt den Ablauf:

  • Viele bunte Steine = Rohdaten
  • Lastwagen bringt sie = Datenaufnahme
  • Teile werden geordnet = Verarbeitung
  • Haus entsteht = Entscheidung auf Basis von Daten

Es zeigt: Aus Chaos (Rohdaten) wird Struktur → man kann etwas draus machen.


6. Was sind die Elemente einer Data Pipeline?

Eine Data-Pipeline ist wie eine Datenstrasse. Schritt für Schritt:

  1. Daten sammeln (z. B. von Webseiten, Apps)
  2. Speichern (z. B. in S3 oder Redshift)
  3. Verarbeiten (z. B. aufräumen, umwandeln)
  4. Analysieren (z. B. mit SQL)
  5. Anzeigen (z. B. in Diagrammen)
  6. Entscheiden/automatisieren

Diagramm erklären:

alt text

Das Diagramm zeigt, wie man Daten nutzen kann – von einfach bis komplex:

  • Descriptive: Was ist passiert? (z. B. Anzahl Verkäufe letzte Woche)
  • Diagnostic: Warum ist es passiert? (z. B. wegen Rabattaktion)
  • Predictive: Was wird passieren? (z. B. nächste Woche steigen Verkäufe wieder)
  • Prescriptive: Was sollen wir tun? (z. B. Werbung starten, um mehr Verkäufe zu bekommen)

Je weiter rechts, desto nützlicher, aber auch schwieriger.

Lernfeld 2: The Elements of Data (Modul 3)

Strukturierte, halbstrukturierte, unstrukturierte Daten:

  • Strukturiert: In Tabellen, mit klaren Spalten (z. B. Excel, SQL-Datenbank)
  • Halbstrukturiert: Hat Struktur, aber nicht fix (z. B. JSON, XML)
  • Unstrukturiert: Keine feste Form (z. B. Bilder, Videos, Texte)

Die 5 V's im Datenbereich:

  1. Volume = Datenmenge
  2. Velocity = Geschwindigkeit der Entstehung
  3. Variety = Unterschiedliche Datenformate
  4. Veracity = Vertrauenswürdigkeit / Qualität
  5. Value = Nutzen der Daten

Was bedeuten sie?

  • Volume: Wie viel Daten gibt es? (z. B. viele Log-Dateien, grosse Datenbanken)
  • Velocity: Wie schnell kommen neue Daten? (z. B. Livestream, Sensoren)
  • Variety: Welche Arten von Daten? (z. B. Video, Text, Zahl)
  • Veracity: Sind die Daten korrekt? (z. B. falsch erfasst oder manipuliert?)
  • Value: Was bringt mir das Ganze? (Nutzwert für die Firma)

Welches V ist am wichtigsten?

Value – denn am Ende zählt nur, ob die Daten einen Nutzen bringen. Viele Daten nützen nichts, wenn man sie nicht sinnvoll einsetzen kann.


Wie hängen Volumen & Geschwindigkeit zusammen?

Je mehr Daten (Volume) es gibt und je schneller (Velocity) sie ankommen, desto stärker wird das System belastet. Man braucht also gute Tools, um die Daten schnell zu verarbeiten – sonst gibt es Verzögerungen.


Beispiel Börse (Hochfrequenzhandel):

Hier kommen sehr viele Daten pro Sekunde (hohes Volume) und sie müssen sofort verarbeitet werden (hohe Velocity). Das ist extrem fordernd und braucht Echtzeitverarbeitung.


Einschätzung für die Börse:

  • Value: Sehr hoch – jede Millisekunde entscheidet über Gewinn oder Verlust
  • Veracity: Muss hoch sein – Fehlerhafte Daten → falsche Entscheidungen
  • Variety: Eher niedrig – es sind meist strukturierte Zahlen (z. B. Kurse, Zeitstempel)

Lernfeld 3: Design Principles and Patterns for Data Pipelines

Wie vereinheitlicht AWS verschiedene Datenquellen?

AWS speichert alle Daten – egal ob strukturiert oder unstrukturiert – in einem zentralen Speicher, z. B. Amazon S3. Dann können Tools wie Athena, Glue, Redshift, SageMaker auf die gleichen Daten zugreifen. Das macht eine einheitliche Sicht auf die Daten möglich – egal woher sie kommen.


Aufbau einer modernen Datenarchitektur (siehe Diagramm):

alt text

  • Amazon S3 ist die zentrale Speicherstelle (Data Lake).
  • Athena greift direkt auf die Daten zu (für SQL-Abfragen).
  • Andere Dienste wie Redshift (Data Warehouse), EMR (Big Data) oder SageMaker (ML) greifen ebenfalls auf diese Daten zu.
  • Ziel: Skalierbar, günstig, leistungsfähig

In welchen Ebenen passiert was?

  • Nutzungsebene → SQL-Abfragen (z. B. mit Athena)
  • Verarbeitungsebene → Big-Data-Verarbeitung (z. B. mit EMR oder Glue)

Was ist eine Streaming-Analytics-Pipeline?

Daten kommen laufend (z. B. aus Sensoren, Börse).

  • Produzenten senden die Daten (z. B. ein Gerät oder Server)
  • Konsumenten lesen & analysieren die Daten (z. B. AWS Kinesis, Lambda)

Beispielworkflow: Athena + Glue

  1. Daten liegen in S3
  2. Glue-Datenkatalog beschreibt die Struktur (Tabelleninfos)
  3. Athena nutzt diesen Katalog und führt SQL-Abfragen auf den Daten aus

AWS Glue

= Aufräumer

  • Holt Daten, erkennt Spalten, macht sie bereit
  • Merkt sich, wie die Daten aussehen (= Glue-Katalog)

Amazon Athena

= Frager

  • Du stellst Fragen an die Daten mit SQL
  • Antwortet direkt auf Daten, die in S3 liegen

Glue bereitet vor – Athena fragt ab. Beides braucht man oft zusammen.


QAY<§sawq

Begriffserklärung:

  • SQL: Sprache zum Abfragen von Daten
  • DDL: Data Definition Language (z. B. CREATE TABLE)
  • DML: Data Manipulation Language (z. B. SELECT, INSERT)

Datenherkunft bei CREATE EXTERNAL TABLE

Die Daten werden nicht in die Tabelle geladen, sondern liegen extern in S3 (LOCATION ...). Mit ROW FORMAT SERDE wird gesagt, wie die Daten gelesen werden (z. B. Trennzeichen).


Erklärung SQL-SELECT (Bild 3)

SELECT count(count), sum(total), pickup
FROM yellow
WHERE pickup BETWEEN ...
GROUP BY pickup

→ Zeigt: Wie viele Fahrten und wie viel Geld pro Tag im Januar 2017. Wird gruppiert nach Datum (GROUP BY pickup)


Erklärung SELECT sum(total), paytype ...

→ Rechnet Gesamtumsatz für paytype = '1' Wird gruppiert nach Zahlungsart


Erklärung CREATE VIEW

CREATE VIEW cctrips AS
SELECT sum(fare) AS CreditCardFares
FROM yellow
WHERE paytype = '1';

→ Erstellt eine sichtbare Abfrage (View), die immer den Gesamtbetrag aller Kreditkartenzahlungen zeigt. Vorteil: Muss nicht immer neu geschrieben werden


Was macht SELECT * FROM cctrips?

→ Holt die gespeicherten Daten aus der View – zeigt alle Zeilen der View cctrips.


Erklärung AWS Template (Named Query)

AWSTemplateFormatVersion: 2010-09-09
Resources:
  AthenaNamedQuery:
    Type: AWS::Athena::NamedQuery
    Properties:
      Database: "taxidata"
      Name: "FaresOver100DollarsUS"
      QueryString: >
        SELECT ... WHERE total >= 100.0

→ Speichert eine SQL-Abfrage dauerhaft in Athena, um alle Fahrten mit Preis über 100 Dollar zu analysieren.


Lernfeld 4: Securing and Scaling (M5)

1. Zwei Massnahmen bei verdächtigen Aktivitäten:

  • CloudTrail aktivieren → zeichnet alle API-Zugriffe auf
  • IAM-Rollen einschränken → nur das Nötigste erlauben (Least Privilege)

2. Skalierbarkeit der Datenpipeline sicherstellen:

  • Auto Scaling aktivieren (z. B. bei Kinesis oder Glue)
  • Serverless-Dienste wie Athena, Glue, Lambda nutzen → skalieren automatisch

Ingesting and Preparing Data (M6)

3. Was ist ein ETL-Dienst wie AWS Glue?

Daten werden gesammelt (Extract), umgewandelt (Transformiert) und gespeichert (Load) Glue hilft dabei automatisch → ohne eigenen Server


4. Vorteile ETL statt ELT:

  • Daten werden vor dem Speichern aufgeräumt
  • Spart Speicherplatz
  • Nur saubere Daten kommen ins Ziel

5. Vorteile ELT statt ETL:

  • Rohdaten bleiben erhalten (für spätere Nutzung)
  • Rechenlast ist im Zielsystem
  • Flexibler bei späteren Änderungen

Okay – hier ganz genau erklärt, was ETL und ELT sind:


ETL = Extract – Transform – Load

1. Extract = Daten werden geholt → z. B. aus Excel, Datenbanken, CSV-Dateien

2. Transform = Daten werden bearbeitet / umgewandelt → z. B. Spalten umbenennen, Werte berechnen, Fehler korrigieren

3. Load = Fertige Daten werden gespeichert → z. B. in Amazon Redshift oder S3

Verarbeitung passiert vor dem Speichern


ELT = Extract – Load – Transform

1. Extract = Daten holen 2. Load = Daten sofort ungereinigt speichern 3. Transform = Daten werden danach im Zielsystem aufbereitet

Verarbeitung passiert erst nach dem Speichern


Unterschied:

ETL ELT
Aufräumen Vor dem Speichern Nach dem Speichern
Speicher Nur saubere Daten Auch Rohdaten bleiben
Rechenlast Im ETL-Tool (z. B. Glue) Im Zielsystem (z. B. Redshift)
Flexibilität Weniger, aber schneller Mehr, aber braucht mehr Power

Beispiel AWS Glue: → Glue kann ETL automatisch machen (also alles aufräumen und dann speichern)

6. Was ist Data Wrangling?

→ Daten zusammenführen, bereinigen und umwandeln – vor allem wenn sie aus verschiedenen Quellen kommen (z. B. Excel, JSON, SQL)


7. Schritte im Data Wrangling:

  • Cleaning → Fehler entfernen
  • Structuring → gleiche Struktur machen
  • Enriching → neue Infos hinzufügen
  • Validating → prüfen, ob alles korrekt ist

Ingesting by Batch or Stream (M7)

8. Unterschied Batch vs Stream:

Batch Stream
Daten werden gesammelt Daten kommen sofort
Verarbeitung nach Plan Echtzeitverarbeitung
z. B. Tagesbericht z. B. Live-Aktienkurs

9. Wann welche Methode?

  • Batch: ideal bei statischen Daten (Berichte, Backups)
  • Stream: ideal bei Live-Daten (Sensoren, Börse, Klicks)

Lernfeld 5: Storing and Organizing (M8)

1. Zwei weitere Speicherlösungen neben S3:

  • Amazon RDS: Relationale Datenbank (z. B. MySQL, PostgreSQL) → für strukturierte Daten
  • Amazon DynamoDB: NoSQL-Datenbank → für sehr schnelle, flexible Datenzugriffe (z. B. Userprofile)

2. Unterschied Data Lake vs. Data Warehouse:

Merkmal Data Lake Data Warehouse
Datentyp Rohdaten (alle Formate) Nur strukturierte Daten
Flexibilität Sehr flexibel Strenger Aufbau
Kosten Günstiger Teurer
Zugriff Später verarbeitet Für schnelle Analyse gedacht

3. Anwendungsfälle:

  • Data Lake: Wenn viele verschiedene Formate vorliegen, z. B. Bilder, Videos, JSON (z. B. Social Media Archiv)
  • Data Warehouse: Wenn schnelle Analysen nötig sind, z. B. BI-Berichte für Verkaufszahlen

4. Kriterien für die optimale Datenbank:

(Bild oben hilft – rote Balken stehen für Kategorien)

  • Workload type: Transaktionen oder Analysen?
  • Data model: Wie oft & wie wird zugegriffen?
  • Performance: Muss es schnell sein?
  • Operational needs: Sicherheit, Backups, Updates?

5. Weitere DB-Art + Beispiel:

  • DocumentDB / MongoDB (NoSQL) → z. B. für Produktkataloge in Online-Shops mit variabler Struktur

6. Redshift: getrennte Sicherheit

  • Service-Sicherheit: Wer darf Redshift überhaupt benutzen (z. B. über IAM)
  • Datenbanksicherheit: Wer darf welche Tabellen/Spalten sehen oder ändern

Processing Big Data (M9)

7. Was ist Big Data + 2 Beispiele:

Sehr grosse, schnelle oder vielfältige Datenmengen Beispiele:

  • Verkehrsdaten von GPS-Geräten
  • Klickverhalten von Millionen Webseitenbesuchern

8. Batch vs. Streaming (bei Big Data):

Methode Vorteil Nachteil
Batch Einfach, effizient Nicht in Echtzeit
Streaming Echtzeitanalyse möglich Komplexer, teurer

9. Herausforderungen bei Big Data:

  • Speicherung grosser Mengen
  • Echtzeitverarbeitung bei hohem Tempo
  • Datenqualität prüfen
  • Sicherheit & Zugriff korrekt steuern

Lernfeld 6: Processing Data for Machine Learning (M10)

1. Wie automatisiert man den Datenverarbeitungsprozess?

→ Mit Pipelines: Abläufe wie Daten bereinigen → umwandeln → trainieren → testen werden automatisch Schritt für Schritt ausgeführt. Tools: z. B. AWS SageMaker Pipelines


2. Was ist Data-Splitting?

→ Aufteilen der Daten in:

  • Training Set: Modell lernt damit
  • Test Set: Modell wird geprüft (meist z. B. 80 % Training, 20 % Test)

So vermeidet man, dass das Modell „auswendig lernt“.


3. Was tun bei unbalancierten oder unvollständigen Daten?

  • Unbalanciert (z. B. 95 % Nein, 5 % Ja):

  • Mehr Daten vom seltenen Fall sammeln

  • Gewichtung anpassen oder Sampling nutzen

  • Unvollständig:

  • Fehlende Werte auffüllen (z. B. Durchschnitt)

  • Oder: Zeilen mit fehlenden Daten weglassen (wenn wenige)