| Vorhersage | Kein Betrug | Betrug |
|---|---|---|
| Kein Betrug | 0 EUR | -100 EUR |
| Betrug | -25 EUR | +65 EUR |
Fallstudie in Supervised Machine Learning
Erkennung von Kreditkartenbetrug (msbank StudentCard)
1 Kontext
Die msbank ist eine junge, digitale Direktbank mit Fokus auf Studierende und junge Erwachsene. Zur Reduktion von Betrugsfällen nutzt die Bank ein Echtzeit-Scoring für Kreditkartentransaktionen. Ihre Aufgabe ist es, ein Klassifikationsmodell zu entwickeln, das Betrug zuverlässig erkennt, ohne zu viele unberechtigte Verdachtsfälle auszulösen.

2 Daten
Die msbank stellt einen Datensatz mit 100.000 Kreditkartentransaktionen bereit (ursprünglich von Hugging Face). Er enthält Informationen zu Transaktionszeitpunkt und -ort, Händler, Karteninhaber etc. Zielvariable ist is_fraud (binär).
Laden Sie den Datensatz hier herunter: credit_card_transactions.rds.
2.1 Kosten-/Ertragsmatrix
Bei der Modellbewertung berücksichtigen wir folgende finanzielle Auswirkungen (pro Vorhersagefall):
2.2 Interpretation & Herleitung der Kosten-/Nutzenwerte
Annahmen:
- Direkter Verlust pro tatsächlich betrügerischer Transaktion: 100 EUR
- Prüf-/Interventionskosten pro als „Betrug“ markierter Transaktion: 5 EUR (z. B. manuelle Sichtung, Rückfrage beim/via App, ggf. temporäre Kartensperre)
- Erfolgswahrscheinlichkeit der Prävention bei rechtzeitigem Eingreifen: 70 %
- Kosten eines Fehlalarms (False Positive): 25 EUR (operative Prüfkosten + Opportunitäts-/Friktionskosten, z. B. Kund:innen-Unmut, Abbruch legitimer Zahlung)
- Keine Folgekosten bei korrekt als „kein Betrug“ erkannten legitimen Transaktionen.
3 Aufgabenstellung
Ziel ist ein Modell, das Betrug möglichst kosteneffizient erkennt. Ihre finale Bewertung erfolgt über die Gesamtkosten/-erträge auf einem Holdout-Datensatz (Zielvariable unbekannt). Vermeiden Sie Overfitting (Train/Test-Split oder Resampling).
Vorgehen:
- Data Understanding & EDA: Überblick, Datenqualität, Visualisierungen.
- Data Preparation & Feature Engineering: sinnvolle neue Variablen ableiten.
- Modeling: geeignete Klassifikationsverfahren trainieren & Hyperparameter tunen.
- Modellauswahl: mit Metriken (u. a. AUC) und mit der Kosten-/Ertragsfunktion vergleichen.
- Interpretation: wichtige Treiber (z. B. Feature Importance, PDP) erläutern.
- Darstellung: aussagekräftige Tabellen/Abbildungen mit präziser Interpretation.
4 Format
Ihre Abgabe besteht aus folgenden Teilen:
4.1 R Code (40%)
Reichen Sie den R-Code (Analyse, Modellierung, Vorhersage) ein. Der Code soll lauffähig, sauber dokumentiert und reproduzierbar sein; Ergebnisse müssen zum Bericht passen.
4.2 Fallstudienbericht (40%)
Bericht (max. 10 Seiten) mit:
- Titel (inkl. Autor:innen), Executive Summary (2–5 Sätze), Einleitung (Ziele),
- Methodik (kurz, ohne Theorie-Exkurse),
- Ergebnisse (Tabellen/Abbildungen nummeriert und im Text referenziert),
- Diskussion/Ausblick (u. a. Verbesserungspotential, ethische Aspekte),
- Literatur (falls genutzt),
- Anhang (optional, kein Seitenlimit).
4.3 Vorhersagen (20%)
Reichen Sie Zwischenergebnisse über Teams gemäß folgendem Plan ein. Die Dateien enthalten jeweils Ihre aktuellen Vorhersagen:
| Datum | Datensatz | Abgabe |
|---|---|---|
| 11.06.2026 | credit_card_transactions_prediction1.rds | Vorhersagen für credit_card_transactions_prediction1.rds |
| 18.06.2026 | credit_card_transactions_prediction2.rds | Vorhersagen für credit_card_transactions_prediction2.rds |
| 25.06.2026 | credit_card_transactions_prediction3.rds | Vorhersagen für credit_card_transactions_prediction3.rds |
| 03.07.2026 | credit_card_transactions_prediction4.rds | Vorhersagen für credit_card_transactions_prediction4.rds, R-Code, Fallstudienbericht |
Die Güte Ihrer Vorhersagen wird zeitnah gemessen und auf dem Leaderboard angezeigt. Je nach Leistung kann es Zusatzpunkte geben.
Format der Vorhersage-Dateien (*.rds):
- Data Frame mit drei Spalten:
trans_num(der eindeutige Transaktions-Identifier aus dem Datensatz)prediction_prob(Wahrscheinlichkeit für Betrug)prediction_class(factormitno= kein Betrug,yes= Betrug)
Beispiel:
| trans_num | prediction_prob | prediction_class |
|---|---|---|
| a1b2c3d4e5 | 0.123 | no |
| f6g7h8i9j0 | 0.292 | yes |
| k1l2m3n4o5 | 0.001 | no |
| p6q7r8s9t0 | 0.987 | yes |
| u1v2w3x4y5 | 0.231 | yes |
| ... | ... | ... |
Achten Sie unbedingt auf das korrekte Format!
5 Merkmale des Datensatzes
Die Spalte is_fraud ist die Zielvariable (Betrug ja/nein). Alle übrigen Spalten sind Prädiktoren.
| Spalte | Aussage | Generischer_Typ |
|---|---|---|
| trans_date_trans_time | Zeitstempel der Transaktion (Datum und Uhrzeit) | Datum/Zeit |
| cc_num | Kreditkartennummer (anonymisiert) | Text |
| merchant | Händlername | Kategorisch |
| category | Transaktionskategorie (z. B. grocery_pos, gas_transport) | Kategorisch |
| amt | Transaktionsbetrag (USD) | Numerisch |
| first | Vorname Karteninhaber:in | Text |
| last | Nachname Karteninhaber:in | Text |
| gender | Geschlecht Karteninhaber:in | Kategorisch |
| street | Straße Karteninhaber:in | Text |
| city | Stadt Karteninhaber:in | Kategorisch |
| state | Bundesstaat (USA) | Kategorisch |
| zip | ZIP-Code (als String, führende Nullen bleiben erhalten) | Text |
| lat | Breitengrad des Transaktionsorts | Numerisch |
| long | Längengrad des Transaktionsorts | Numerisch |
| city_pop | Einwohnerzahl der Stadt | Numerisch |
| job | Beruf Karteninhaber:in | Kategorisch |
| dob | Geburtsdatum Karteninhaber:in | Datum/Zeit |
| trans_num | Eindeutiger Transaktions-Identifier | Text |
| merch_lat | Breitengrad des Händlerorts | Numerisch |
| merch_long | Längengrad des Händlerorts | Numerisch |
| merch_zipcode | ZIP-Code Händler (nullable integer) | Numerisch |
| is_fraud | Zielvariable: Betrug (`TRUE`/`FALSE`) | Kategorisch (binär) |
6 Abgabe
Abgabe von Code (*.R Skript / Quarto) und Bericht (PDF, via Word oder Quarto) über Teams (Kurskanal) bis zum 03.07.2026.
Bitte nutzen Sie die Vorlage Abgabe_SupervisedMachineLearning_Team1.qmd und passen Sie Dateinamen/Metadaten an (FH-Kennung, Name, Matrikelnummer).
7 Bewertungskriterien
- Korrektheit der fachlichen Lösung & Umfang der Analysen
- Angemessener Einsatz & kritische Reflexion der Methoden/Werkzeuge
- Übersichtlichkeit & Nachvollziehbarkeit des Codes
- Strukturierung, Gestaltung & fachliche Korrektheit des Berichts
- Prognosegüte in den 4 Zwischen-Vorhersagen (Zusatzpunkte möglich)