Fallstudie in Supervised Machine Learning

Erkennung von Kreditkartenbetrug (msbank StudentCard)

1 Kontext

Die msbank ist eine junge, digitale Direktbank mit Fokus auf Studierende und junge Erwachsene. Zur Reduktion von Betrugsfällen nutzt die Bank ein Echtzeit-Scoring für Kreditkartentransaktionen. Ihre Aufgabe ist es, ein Klassifikationsmodell zu entwickeln, das Betrug zuverlässig erkennt, ohne zu viele unberechtigte Verdachtsfälle auszulösen.

2 Daten

Die msbank stellt einen Datensatz mit 100.000 Kreditkartentransaktionen bereit (ursprünglich von Hugging Face). Er enthält Informationen zu Transaktionszeitpunkt und -ort, Händler, Karteninhaber etc. Zielvariable ist is_fraud (binär).

Laden Sie den Datensatz hier herunter: credit_card_transactions.rds.

2.1 Kosten-/Ertragsmatrix

Bei der Modellbewertung berücksichtigen wir folgende finanzielle Auswirkungen (pro Vorhersagefall):

Wahrheit
Vorhersage Kein Betrug Betrug
Kein Betrug 0 EUR -100 EUR
Betrug -25 EUR +65 EUR

2.2 Interpretation & Herleitung der Kosten-/Nutzenwerte

Annahmen:

  • Direkter Verlust pro tatsächlich betrügerischer Transaktion: 100 EUR
  • Prüf-/Interventionskosten pro als „Betrug“ markierter Transaktion: 5 EUR (z. B. manuelle Sichtung, Rückfrage beim/via App, ggf. temporäre Kartensperre)
  • Erfolgswahrscheinlichkeit der Prävention bei rechtzeitigem Eingreifen: 70 %
  • Kosten eines Fehlalarms (False Positive): 25 EUR (operative Prüfkosten + Opportunitäts-/Friktionskosten, z. B. Kund:innen-Unmut, Abbruch legitimer Zahlung)
  • Keine Folgekosten bei korrekt als „kein Betrug“ erkannten legitimen Transaktionen.

3 Aufgabenstellung

Ziel ist ein Modell, das Betrug möglichst kosteneffizient erkennt. Ihre finale Bewertung erfolgt über die Gesamtkosten/-erträge auf einem Holdout-Datensatz (Zielvariable unbekannt). Vermeiden Sie Overfitting (Train/Test-Split oder Resampling).

Vorgehen:

  1. Data Understanding & EDA: Überblick, Datenqualität, Visualisierungen.
  2. Data Preparation & Feature Engineering: sinnvolle neue Variablen ableiten.
  3. Modeling: geeignete Klassifikationsverfahren trainieren & Hyperparameter tunen.
  4. Modellauswahl: mit Metriken (u. a. AUC) und mit der Kosten-/Ertragsfunktion vergleichen.
  5. Interpretation: wichtige Treiber (z. B. Feature Importance, PDP) erläutern.
  6. Darstellung: aussagekräftige Tabellen/Abbildungen mit präziser Interpretation.

4 Format

Ihre Abgabe besteht aus folgenden Teilen:

4.1 R Code (40%)

Reichen Sie den R-Code (Analyse, Modellierung, Vorhersage) ein. Der Code soll lauffähig, sauber dokumentiert und reproduzierbar sein; Ergebnisse müssen zum Bericht passen.

4.2 Fallstudienbericht (40%)

Bericht (max. 10 Seiten) mit:

  • Titel (inkl. Autor:innen), Executive Summary (2–5 Sätze), Einleitung (Ziele),
  • Methodik (kurz, ohne Theorie-Exkurse),
  • Ergebnisse (Tabellen/Abbildungen nummeriert und im Text referenziert),
  • Diskussion/Ausblick (u. a. Verbesserungspotential, ethische Aspekte),
  • Literatur (falls genutzt),
  • Anhang (optional, kein Seitenlimit).

4.3 Vorhersagen (20%)

Reichen Sie Zwischenergebnisse über Teams gemäß folgendem Plan ein. Die Dateien enthalten jeweils Ihre aktuellen Vorhersagen:

Datum Datensatz Abgabe
11.06.2026 credit_card_transactions_prediction1.rds Vorhersagen für credit_card_transactions_prediction1.rds
18.06.2026 credit_card_transactions_prediction2.rds Vorhersagen für credit_card_transactions_prediction2.rds
25.06.2026 credit_card_transactions_prediction3.rds Vorhersagen für credit_card_transactions_prediction3.rds
03.07.2026 credit_card_transactions_prediction4.rds Vorhersagen für credit_card_transactions_prediction4.rds, R-Code, Fallstudienbericht

Die Güte Ihrer Vorhersagen wird zeitnah gemessen und auf dem Leaderboard angezeigt. Je nach Leistung kann es Zusatzpunkte geben.

Format der Vorhersage-Dateien (*.rds):

  • Data Frame mit drei Spalten:
    • trans_num (der eindeutige Transaktions-Identifier aus dem Datensatz)
    • prediction_prob (Wahrscheinlichkeit für Betrug)
    • prediction_class (factor mit no = kein Betrug, yes = Betrug)

Beispiel:

trans_num prediction_prob prediction_class
a1b2c3d4e5 0.123 no
f6g7h8i9j0 0.292 yes
k1l2m3n4o5 0.001 no
p6q7r8s9t0 0.987 yes
u1v2w3x4y5 0.231 yes
... ... ...

Achten Sie unbedingt auf das korrekte Format!

5 Merkmale des Datensatzes

Die Spalte is_fraud ist die Zielvariable (Betrug ja/nein). Alle übrigen Spalten sind Prädiktoren.

Tabelle 1: Beschreibung der Variablen im Kreditkarten-Transaktionsdatensatz
Spalte Aussage Generischer_Typ
trans_date_trans_time Zeitstempel der Transaktion (Datum und Uhrzeit) Datum/Zeit
cc_num Kreditkartennummer (anonymisiert) Text
merchant Händlername Kategorisch
category Transaktionskategorie (z. B. grocery_pos, gas_transport) Kategorisch
amt Transaktionsbetrag (USD) Numerisch
first Vorname Karteninhaber:in Text
last Nachname Karteninhaber:in Text
gender Geschlecht Karteninhaber:in Kategorisch
street Straße Karteninhaber:in Text
city Stadt Karteninhaber:in Kategorisch
state Bundesstaat (USA) Kategorisch
zip ZIP-Code (als String, führende Nullen bleiben erhalten) Text
lat Breitengrad des Transaktionsorts Numerisch
long Längengrad des Transaktionsorts Numerisch
city_pop Einwohnerzahl der Stadt Numerisch
job Beruf Karteninhaber:in Kategorisch
dob Geburtsdatum Karteninhaber:in Datum/Zeit
trans_num Eindeutiger Transaktions-Identifier Text
merch_lat Breitengrad des Händlerorts Numerisch
merch_long Längengrad des Händlerorts Numerisch
merch_zipcode ZIP-Code Händler (nullable integer) Numerisch
is_fraud Zielvariable: Betrug (`TRUE`/`FALSE`) Kategorisch (binär)

6 Abgabe

Abgabe von Code (*.R Skript / Quarto) und Bericht (PDF, via Word oder Quarto) über Teams (Kurskanal) bis zum 03.07.2026.
Bitte nutzen Sie die Vorlage Abgabe_SupervisedMachineLearning_Team1.qmd und passen Sie Dateinamen/Metadaten an (FH-Kennung, Name, Matrikelnummer).

7 Bewertungskriterien

  • Korrektheit der fachlichen Lösung & Umfang der Analysen
  • Angemessener Einsatz & kritische Reflexion der Methoden/Werkzeuge
  • Übersichtlichkeit & Nachvollziehbarkeit des Codes
  • Strukturierung, Gestaltung & fachliche Korrektheit des Berichts
  • Prognosegüte in den 4 Zwischen-Vorhersagen (Zusatzpunkte möglich)
Zurück nach oben