Vorlesung Machine Learning (Advanced Data Science)
Dies ist die Webseite zur Vorlesung “Machine Learning” im Erweiterungsmodul “Advanced Data Science”1 von Prof. Dr. Michael Bücker.
“Learning from data is the essence of intelligence.”
— Mitchell (1997)
Einführung
Die Vorlesung „Machine Learning“ im Erweiterungsmodul Advanced Data Science vermittelt die theoretischen Grundlagen und praktischen Verfahren des maschinellen Lernens mit R. Im Mittelpunkt steht das Ziel, aus Daten zu lernen – also Muster zu erkennen, Vorhersagen zu treffen und Strukturen zu verstehen.
Wir betrachten dabei zwei zentrale Perspektiven:
- Supervised Machine Learning – Lernen mit bekannten Zielgrößen (Vorhersage, Klassifikation, Regression)
- Unsupervised Machine Learning – Lernen ohne vorgegebene Zielgrößen (Struktur- und Mustererkennung)
Beide Teile umfassen in etwa denselben zeitlichen und inhaltlichen Umfang.
Ziel der Veranstaltung
Nach Abschluss der Vorlesung können Sie:
- Supervised-Learning-Modelle in R entwickeln, trainieren und evaluieren (z. B. logistische Regression, Entscheidungsbäume, Random Forests, Boosting)
- Unsupervised-Learning-Verfahren anwenden und interpretieren (z. B. PCA, Faktoranalyse, hierarchische und partitionierende Clusteranalyse)
- Daten vorbereiten, aufteilen und modellieren mit dem Framework tidymodels
- Modellgüte bewerten und vergleichen (Accuracy, ROC, Cross-Validation etc.)
- Ergebnisse visualisieren, erklären und kritisch reflektieren
Das übergeordnete Ziel besteht darin, dass Sie Machine Learning als analytischen Prozess verstehen – von der Problemdefinition bis zur Interpretation der Ergebnisse.
Themenüberblick
Teil 1: Supervised Machine Learning
- Einführung und Überblick über den Data-Mining-Prozess
- Business & Data Understanding
- Data Preparatio, Feature engineering
- Modeling – Entscheidungsbäume: Aufbau, Overfitting,
- Evaluation – Train/Test, Metriken, Validierung
- Modeling (Fortsetzung) – Resampling, Tuning, Pruning
- Ensemble Models – Bagging, Random Forest, Boosting
- Evaluation – Explainability (PDP, SHAP)
- Deployment – Modellbereitstellung
Teil 2: Unsupervised Machine Learning
- Dimensionsreduktion: PCA, Faktoranalyse (MDS Ausblick)
- Clusteranalyse: hierarchische & partitionierende Verfahren, Profiling
Lehr- und Lernkonzept
Die Veranstaltung kombiniert Theorie, Live-Coding und Fallstudien. Alle Methoden werden mit praxisnahen Datensätzen aus Wirtschaft und Gesellschaft demonstriert.
- Fallstudien: Zwei Gruppenarbeiten (je 2 Studierende) – eine aus dem Bereich Supervised, eine aus Unsupervised Learning. Jede Fallstudie umfasst Datenerhebung, Modellierung, Auswertung und Dokumentation (inkl. R-Code).
- Tutorium: Unterstützung bei den Fallstudien; Kommunikation über Microsoft Teams.
- Software:
R + RStudio / posit, empfohlen über die Arbeitsumgebung r-workbench.fh-muenster.de.
Verwendung von KI-Tools
Der Einsatz von Künstlicher Intelligenz (KI) – z. B. ChatGPT oder Copilot – ist grundsätzlich erlaubt, sofern er unterstützend und reflektiert erfolgt. Ziel ist, dass Sie den Lernprozess selbst gestalten und KI gezielt als Hilfsmittel nutzen.
Bitte beachten Sie folgende Grundsätze:
- Erst selbst denken, dann KI fragen.
Lösen Sie Aufgaben zunächst eigenständig, bevor Sie Unterstützung anfordern – nur so entsteht echter Lerneffekt.
- Verstehen statt Kopieren.
Verwenden Sie KI-generierten Code nur, wenn Sie jede Zeile erklären können.
- KI als Lernhilfe.
Nutzen Sie KI zum Debugging, für Erklärungen oder zur Ideenfindung – nicht als Ersatz für eigenes Arbeiten.
- Transparenz.
Bei umfangreicher KI-Nutzung kennzeichnen Sie diese bitte offen in Ihren Fallstudien.
KI kann beim Lernen unterstützen – entscheidend ist die Art der Nutzung, nicht das Werkzeug selbst.
Motivation
Machine Learning ist mehr als Statistik oder Informatik: Es ist die Verbindung aus Daten, Modellen und Interpretation. Wer versteht, wie Algorithmen lernen, kann Geschäftsprozesse analysieren, Prognosen verbessern und datenbasierte Entscheidungen treffen.
In dieser Vorlesung erwerben Sie die Fähigkeit, Modelle nicht nur auszuführen, sondern zu verstehen – und damit Data-Science-Projekte kritisch zu gestalten.
Literatur
Fußnoten
ehemals Vorlesung “Data Mining” im Erweiterungsmodul “Quantitative Methoden 2”↩︎