Ganze_Theorie

Lernfeld 1: Theorie¶

1. Was ist eine "data-driven organization"?¶

Das ist ein Unternehmen, das Entscheidungen auf Basis von Daten trifft. Beispiel: Statt einfach ein neues Produkt zu erfinden, schaut man zuerst in den Daten, was die Kunden wirklich wollen.

2. Welche Vorteile hat das?¶

Entscheidungen sind faktenbasiert, nicht nur aus Gefühl
Man kann besser planen und vorhersagen
Fehler fallen früher auf
Man spart Zeit und Geld, weil man gezielter arbeitet

3. Beispiel für so ein Unternehmen¶

Netflix: Sie analysieren, was die Leute schauen – wann sie stoppen, weiterschauen usw. Dann produzieren sie gezielt Serien, die gut ankommen. So sparen sie Geld und bekommen viele Zuschauer.

4. Was machen Datenanalysten und Data Scientists?¶

Rolle	Aufgabe
Datenanalyst	Sammelt und wertet Daten aus, z. B. für Berichte oder Diagramme
Data Scientist	Baut Programme, die mit den Daten z. B. Vorhersagen oder Empfehlungen machen

5. Erklärung vom Lego-Diagramm¶

Das Bild mit Lego zeigt den Ablauf:

Viele bunte Steine = Rohdaten
Lastwagen bringt sie = Datenaufnahme
Teile werden geordnet = Verarbeitung
Haus entsteht = Entscheidung auf Basis von Daten

Es zeigt: Aus Chaos (Rohdaten) wird Struktur → man kann etwas draus machen.

6. Was sind die Elemente einer Data Pipeline?¶

Eine Data-Pipeline ist wie eine Datenstrasse. Schritt für Schritt:

Daten sammeln (z. B. von Webseiten, Apps)
Speichern (z. B. in S3 oder Redshift)
Verarbeiten (z. B. aufräumen, umwandeln)
Analysieren (z. B. mit SQL)
Anzeigen (z. B. in Diagrammen)
Entscheiden/automatisieren

Diagramm erklären:¶

Das Diagramm zeigt, wie man Daten nutzen kann – von einfach bis komplex:

Descriptive: Was ist passiert? (z. B. Anzahl Verkäufe letzte Woche)
Diagnostic: Warum ist es passiert? (z. B. wegen Rabattaktion)
Predictive: Was wird passieren? (z. B. nächste Woche steigen Verkäufe wieder)
Prescriptive: Was sollen wir tun? (z. B. Werbung starten, um mehr Verkäufe zu bekommen)

Je weiter rechts, desto nützlicher, aber auch schwieriger.

Lernfeld 2: The Elements of Data (Modul 3)¶

Strukturierte, halbstrukturierte, unstrukturierte Daten:¶

Strukturiert: In Tabellen, mit klaren Spalten (z. B. Excel, SQL-Datenbank)
Halbstrukturiert: Hat Struktur, aber nicht fix (z. B. JSON, XML)
Unstrukturiert: Keine feste Form (z. B. Bilder, Videos, Texte)

Die 5 V's im Datenbereich:¶

Volume = Datenmenge
Velocity = Geschwindigkeit der Entstehung
Variety = Unterschiedliche Datenformate
Veracity = Vertrauenswürdigkeit / Qualität
Value = Nutzen der Daten

Was bedeuten sie?¶

Volume: Wie viel Daten gibt es? (z. B. viele Log-Dateien, grosse Datenbanken)
Velocity: Wie schnell kommen neue Daten? (z. B. Livestream, Sensoren)
Variety: Welche Arten von Daten? (z. B. Video, Text, Zahl)
Veracity: Sind die Daten korrekt? (z. B. falsch erfasst oder manipuliert?)
Value: Was bringt mir das Ganze? (Nutzwert für die Firma)

Welches V ist am wichtigsten?¶

Value – denn am Ende zählt nur, ob die Daten einen Nutzen bringen. Viele Daten nützen nichts, wenn man sie nicht sinnvoll einsetzen kann.

Wie hängen Volumen & Geschwindigkeit zusammen?¶

Je mehr Daten (Volume) es gibt und je schneller (Velocity) sie ankommen, desto stärker wird das System belastet. Man braucht also gute Tools, um die Daten schnell zu verarbeiten – sonst gibt es Verzögerungen.

Beispiel Börse (Hochfrequenzhandel):¶

Hier kommen sehr viele Daten pro Sekunde (hohes Volume) und sie müssen sofort verarbeitet werden (hohe Velocity). Das ist extrem fordernd und braucht Echtzeitverarbeitung.

Einschätzung für die Börse:¶

Value: Sehr hoch – jede Millisekunde entscheidet über Gewinn oder Verlust
Veracity: Muss hoch sein – Fehlerhafte Daten → falsche Entscheidungen
Variety: Eher niedrig – es sind meist strukturierte Zahlen (z. B. Kurse, Zeitstempel)

Lernfeld 3: Design Principles and Patterns for Data Pipelines¶

Wie vereinheitlicht AWS verschiedene Datenquellen?¶

AWS speichert alle Daten – egal ob strukturiert oder unstrukturiert – in einem zentralen Speicher, z. B. Amazon S3. Dann können Tools wie Athena, Glue, Redshift, SageMaker auf die gleichen Daten zugreifen. Das macht eine einheitliche Sicht auf die Daten möglich – egal woher sie kommen.

Aufbau einer modernen Datenarchitektur (siehe Diagramm):¶

Amazon S3 ist die zentrale Speicherstelle (Data Lake).
Athena greift direkt auf die Daten zu (für SQL-Abfragen).
Andere Dienste wie Redshift (Data Warehouse), EMR (Big Data) oder SageMaker (ML) greifen ebenfalls auf diese Daten zu.
Ziel: Skalierbar, günstig, leistungsfähig

In welchen Ebenen passiert was?¶

Nutzungsebene → SQL-Abfragen (z. B. mit Athena)
Verarbeitungsebene → Big-Data-Verarbeitung (z. B. mit EMR oder Glue)

Was ist eine Streaming-Analytics-Pipeline?¶

Daten kommen laufend (z. B. aus Sensoren, Börse).

Produzenten senden die Daten (z. B. ein Gerät oder Server)
Konsumenten lesen & analysieren die Daten (z. B. AWS Kinesis, Lambda)

Beispielworkflow: Athena + Glue¶

Daten liegen in S3
Glue-Datenkatalog beschreibt die Struktur (Tabelleninfos)
Athena nutzt diesen Katalog und führt SQL-Abfragen auf den Daten aus

AWS Glue¶

= Aufräumer

Holt Daten, erkennt Spalten, macht sie bereit
Merkt sich, wie die Daten aussehen (= Glue-Katalog)

Amazon Athena¶

= Frager

Du stellst Fragen an die Daten mit SQL
Antwortet direkt auf Daten, die in S3 liegen

Glue bereitet vor – Athena fragt ab. Beides braucht man oft zusammen.

QAY<§sawq

Begriffserklärung:¶

SQL: Sprache zum Abfragen von Daten
DDL: Data Definition Language (z. B. CREATE TABLE)
DML: Data Manipulation Language (z. B. SELECT, INSERT)

Datenherkunft bei `CREATE EXTERNAL TABLE`¶

Die Daten werden nicht in die Tabelle geladen, sondern liegen extern in S3 (LOCATION ...). Mit ROW FORMAT SERDE wird gesagt, wie die Daten gelesen werden (z. B. Trennzeichen).

Erklärung SQL-SELECT (Bild 3)¶

SELECT count(count), sum(total), pickup
FROM yellow
WHERE pickup BETWEEN ...
GROUP BY pickup

→ Zeigt: Wie viele Fahrten und wie viel Geld pro Tag im Januar 2017. Wird gruppiert nach Datum (GROUP BY pickup)

Erklärung `SELECT sum(total), paytype ...`¶

→ Rechnet Gesamtumsatz für paytype = '1' Wird gruppiert nach Zahlungsart

Erklärung `CREATE VIEW`¶

CREATE VIEW cctrips AS
SELECT sum(fare) AS CreditCardFares
FROM yellow
WHERE paytype = '1';

→ Erstellt eine sichtbare Abfrage (View), die immer den Gesamtbetrag aller Kreditkartenzahlungen zeigt. Vorteil: Muss nicht immer neu geschrieben werden

Was macht `SELECT * FROM cctrips`?¶

→ Holt die gespeicherten Daten aus der View – zeigt alle Zeilen der View cctrips.

Erklärung AWS Template (Named Query)¶

AWSTemplateFormatVersion: 2010-09-09
Resources:
  AthenaNamedQuery:
    Type: AWS::Athena::NamedQuery
    Properties:
      Database: "taxidata"
      Name: "FaresOver100DollarsUS"
      QueryString: >
        SELECT ... WHERE total >= 100.0

→ Speichert eine SQL-Abfrage dauerhaft in Athena, um alle Fahrten mit Preis über 100 Dollar zu analysieren.

Lernfeld 4: Securing and Scaling (M5)¶

1. Zwei Massnahmen bei verdächtigen Aktivitäten:¶

CloudTrail aktivieren → zeichnet alle API-Zugriffe auf
IAM-Rollen einschränken → nur das Nötigste erlauben (Least Privilege)

2. Skalierbarkeit der Datenpipeline sicherstellen:¶

Auto Scaling aktivieren (z. B. bei Kinesis oder Glue)
Serverless-Dienste wie Athena, Glue, Lambda nutzen → skalieren automatisch

Ingesting and Preparing Data (M6)¶

3. Was ist ein ETL-Dienst wie AWS Glue?¶

→ Daten werden gesammelt (Extract), umgewandelt (Transformiert) und gespeichert (Load) Glue hilft dabei automatisch → ohne eigenen Server

4. Vorteile ETL statt ELT:¶

Daten werden vor dem Speichern aufgeräumt
Spart Speicherplatz
Nur saubere Daten kommen ins Ziel

5. Vorteile ELT statt ETL:¶

Rohdaten bleiben erhalten (für spätere Nutzung)
Rechenlast ist im Zielsystem
Flexibler bei späteren Änderungen

Okay – hier ganz genau erklärt, was ETL und ELT sind:

ETL = Extract – Transform – Load¶

1. Extract = Daten werden geholt → z. B. aus Excel, Datenbanken, CSV-Dateien

2. Transform = Daten werden bearbeitet / umgewandelt → z. B. Spalten umbenennen, Werte berechnen, Fehler korrigieren

3. Load = Fertige Daten werden gespeichert → z. B. in Amazon Redshift oder S3

Verarbeitung passiert vor dem Speichern

ELT = Extract – Load – Transform¶

1. Extract = Daten holen 2. Load = Daten sofort ungereinigt speichern 3. Transform = Daten werden danach im Zielsystem aufbereitet

Verarbeitung passiert erst nach dem Speichern

Unterschied:

	ETL	ELT
Aufräumen	Vor dem Speichern	Nach dem Speichern
Speicher	Nur saubere Daten	Auch Rohdaten bleiben
Rechenlast	Im ETL-Tool (z. B. Glue)	Im Zielsystem (z. B. Redshift)
Flexibilität	Weniger, aber schneller	Mehr, aber braucht mehr Power

Beispiel AWS Glue: → Glue kann ETL automatisch machen (also alles aufräumen und dann speichern)

6. Was ist Data Wrangling?¶

→ Daten zusammenführen, bereinigen und umwandeln – vor allem wenn sie aus verschiedenen Quellen kommen (z. B. Excel, JSON, SQL)

7. Schritte im Data Wrangling:¶

Cleaning → Fehler entfernen
Structuring → gleiche Struktur machen
Enriching → neue Infos hinzufügen
Validating → prüfen, ob alles korrekt ist

Ingesting by Batch or Stream (M7)¶

8. Unterschied Batch vs Stream:¶

Batch	Stream
Daten werden gesammelt	Daten kommen sofort
Verarbeitung nach Plan	Echtzeitverarbeitung
z. B. Tagesbericht	z. B. Live-Aktienkurs

9. Wann welche Methode?¶

Batch: ideal bei statischen Daten (Berichte, Backups)
Stream: ideal bei Live-Daten (Sensoren, Börse, Klicks)

Lernfeld 5: Storing and Organizing (M8)¶

1. Zwei weitere Speicherlösungen neben S3:¶

Amazon RDS: Relationale Datenbank (z. B. MySQL, PostgreSQL) → für strukturierte Daten
Amazon DynamoDB: NoSQL-Datenbank → für sehr schnelle, flexible Datenzugriffe (z. B. Userprofile)

2. Unterschied Data Lake vs. Data Warehouse:¶

Merkmal	Data Lake	Data Warehouse
Datentyp	Rohdaten (alle Formate)	Nur strukturierte Daten
Flexibilität	Sehr flexibel	Strenger Aufbau
Kosten	Günstiger	Teurer
Zugriff	Später verarbeitet	Für schnelle Analyse gedacht

3. Anwendungsfälle:¶

Data Lake: Wenn viele verschiedene Formate vorliegen, z. B. Bilder, Videos, JSON (z. B. Social Media Archiv)
Data Warehouse: Wenn schnelle Analysen nötig sind, z. B. BI-Berichte für Verkaufszahlen

4. Kriterien für die optimale Datenbank:¶

(Bild oben hilft – rote Balken stehen für Kategorien)

Workload type: Transaktionen oder Analysen?
Data model: Wie oft & wie wird zugegriffen?
Performance: Muss es schnell sein?
Operational needs: Sicherheit, Backups, Updates?

5. Weitere DB-Art + Beispiel:¶

DocumentDB / MongoDB (NoSQL) → z. B. für Produktkataloge in Online-Shops mit variabler Struktur

6. Redshift: getrennte Sicherheit¶

Service-Sicherheit: Wer darf Redshift überhaupt benutzen (z. B. über IAM)
Datenbanksicherheit: Wer darf welche Tabellen/Spalten sehen oder ändern

Processing Big Data (M9)¶

7. Was ist Big Data + 2 Beispiele:¶

→ Sehr grosse, schnelle oder vielfältige Datenmengen Beispiele:

Verkehrsdaten von GPS-Geräten
Klickverhalten von Millionen Webseitenbesuchern

8. Batch vs. Streaming (bei Big Data):¶

Methode	Vorteil	Nachteil
Batch	Einfach, effizient	Nicht in Echtzeit
Streaming	Echtzeitanalyse möglich	Komplexer, teurer

9. Herausforderungen bei Big Data:¶

Speicherung grosser Mengen
Echtzeitverarbeitung bei hohem Tempo
Datenqualität prüfen
Sicherheit & Zugriff korrekt steuern

Lernfeld 6: Processing Data for Machine Learning (M10)¶

1. Wie automatisiert man den Datenverarbeitungsprozess?¶

→ Mit Pipelines: Abläufe wie Daten bereinigen → umwandeln → trainieren → testen werden automatisch Schritt für Schritt ausgeführt. Tools: z. B. AWS SageMaker Pipelines

2. Was ist Data-Splitting?¶

→ Aufteilen der Daten in:

Training Set: Modell lernt damit
Test Set: Modell wird geprüft (meist z. B. 80 % Training, 20 % Test)

So vermeidet man, dass das Modell „auswendig lernt“.

3. Was tun bei unbalancierten oder unvollständigen Daten?¶

Unbalanciert (z. B. 95 % Nein, 5 % Ja):
Mehr Daten vom seltenen Fall sammeln
Gewichtung anpassen oder Sampling nutzen
Unvollständig:
Fehlende Werte auffüllen (z. B. Durchschnitt)
Oder: Zeilen mit fehlenden Daten weglassen (wenn wenige)