| Verspätung | 5 | 10 | 15 | 20 | 25 | 30 |
| abs. Hfgk. | 5 | 6 | 2 | 4 | 2 | 1 |
Kapitel 2: Häufigkeiten und deren grafische Darstellung
Wird an n Untersuchungseinheiten das Merkmal X mit den möglichen k Ausprägungen x_1, x_2, ... , x_k betrachtet, so heißt
die Anzahl H(x_i), mit der die Ausprägung x_i vorkommt, absolute Häufigkeit von x_i und
der Anteil h(x_i) = \frac{H(x_i)}{n}, mit der Ausprägung x_i vorkommt, relative Häufigkeit von x_i.
Es gilt:
\begin{split} & H(x_1)+H(x_2)+...+H(x_k) \\ = & \sum_{i=1}^k H(x_i)\\ = & n \end{split}
Weiterhin gilt:
\begin{split} & h(x_1)+h(x_2)+...+h(x_k) \\ & =\sum_{i=1}^k h(x_i) \\ & = 1 \end{split}
Ein unabhängiges Forschungsinstitut hat während einer Woche im Sommer 2022 folgende Zugverspätungen (in Minuten) am Hauptbahnhof Münster registriert:
10, 20, 5, 10, 30, 25, 5, 5, 10, 20,
15, 10, 5, 20, 15, 10, 5, 20, 25, 10
Für die absoluten und relativen Häufigkeiten ergeben sich folgende Ergebnisse:
| Verspätung | 5 | 10 | 15 | 20 | 25 | 30 |
| abs. Hfgk. | 5 | 6 | 2 | 4 | 2 | 1 |
| Verspätung | 5 | 10 | 15 | 20 | 25 | 30 |
| rel. Hfgk. | 0,25 | 0,30 | 0,10 | 0,20 | 0,10 | 0,05 |
In R können absolute und relative Häufigkeitstabellen berechnet werden, indem die Funktion table() bzw. prop.table(table()) verwendet wird. Übergeben wird ein Vektor, für den die absoluten bzw. relativen Häufigkeiten bestimmt werden:
Achtung
Für die Funktion prop.table() müssen absolute Häufigkeiten übergeben werden. Die Funktion table() benötigt lediglich einen Vektor.
Bemerkungen
Mit der Abfrage ?table oder help(table) kann die Hilfefunktion von R für die Funktion table() aufgerufen werden.
Alternativ kann die Berechnung der relativen Häufigkeiten auch über die absoluten Häufigkeiten bestimmt werden, indem diese durch die Gesamtanzahl geteilt werden. Dafür wird mit der Funktion length() die Anzahl an Einträgen im Vektor bestimmt.
Bemerkungen
Die Funktionen table() und prop.table() haben weitere Argumente. Hierzu können entsprechende weitergehende Informationen den Hilfefunktion der Funktionen entnommen werden.
Stabdiagramm der absoluten Häufigkeiten der Verspätungen:

Achtung
Bei Balkendiagrammen ist auch die Höhe als entsprechende Häufigkeit zu interpretieren. Intuitiv interpretieren wir allerdings typischerweise die Fläche der Balken.
Balkendiagramm der absoluten Häufigkeiten der Verspätungen:

Balkendiagramm der absoluten Häufigkeiten der Verspätungen:

Balkendiagramm der relativen Häufigkeiten der Verspätungen:

Hinweis
Balkendiagramme für relative und absolute Häufigkeiten unterscheiden sich nicht in der Verteilung der Häufigkeiten sondern lediglich bezüglich der Werte auf der Ordinate.
Die einfachste Möglichkeit, Stabdiagramme in R zu erzeugen gelingt unter Verwendung der Funktion plot() mit dem Argument type = "h":
Hinweis
xlab und ylab können die Beschriftungen der x- und y-Achse angepasst werden.plot(..., type = "h") nutzt eine kontinuierliche x-Achse (fehlende Werte erscheinen als Lücken), barplot(table(...)) zeigt nur vorhandene Ausprägungen als Kategorien.
Achtung
Tortendiagramme sind in der Regel nicht geeignet, um die Häufigkeiten einzelner Werte zu vergleichen. In der Abbildung links ist beispielsweise mit dem Auge nicht erkennbar, ob Verspätungen mit 15 Minuten oder mit 25 Minuten häufiger auftreten. Das ist nur möglich, wenn die entsprechenden Häufigkeiten mit abgebildet werden.
2,10, 2,30, 2,00, 2,20, 2,35, 2,10, 2,25, 1,80, 2,00, 2,50
1,95, 2,15, 1,90, 2,30, 2,10, 1,85, 2,20, 2,15, 1,85, 1,95
Als Häufigkeiten der Bierpreise ergeben sich:
| Bierpreis | 1,80 | 1,85 | 1,90 | 1,95 | 2,00 | 2,10 | 2,15 | 2,20 | 2,25 | 2,30 | 2,35 | 2,50 |
| absolute Häufigkeit | 1 | 2 | 1 | 2 | 2 | 3 | 2 | 2 | 1 | 2 | 1 | 1 |
| relative Häufigkeit | 0,05 | 0,10 | 0,05 | 0,10 | 0,10 | 0,15 | 0,10 | 0,10 | 0,05 | 0,10 | 0,05 | 0,05 |
Die Darstellung der Häufigkeiten der Bierpreise als Balkendiagramm ergibt:

| Klasse | relative Häufigkeit | Höhe |
|---|---|---|
| 1,80 ≤ xᵢ < 2,00 | 0,30 | 1,50 |
| 2,00 ≤ xᵢ < 2,20 | 0,35 | 1,75 |
| 2,20 ≤ xᵢ < 2,40 | 0,30 | 1,50 |
| 2,40 ≤ xᵢ < 2,60 | 0,05 | 0,25 |
Bemerkungen
Die Höhe der Balken ergibt sich also als \text{Höhe} = \frac{\text{relative Häufigkeit}}{\text{Klassenbreite}} Diese wird häufig auch als “Dichte” bezeichnet.
Das Histogramm der Bierpreise mit den oben gewählten Klassengrenzen sieht also wie folgt aus:

| Klasse | relative Häufigkeit | Höhe |
|---|---|---|
| 1,80 ≤ xᵢ < 2,00 | 0,30 | 1,50 |
| 2,00 ≤ xᵢ < 2,20 | 0,35 | 1,75 |
| 2,20 ≤ xᵢ < 2,50 | 0,35 | 1,17 |
Das Histogramm der Bierpreise mit den neuen Klassengrenzen sieht dann wie folgt aus:

Die einfachste Möglichkeit der Darstellung eines Histogramms in R bietet die Funktion hist:

Bemerkung
Das Argument freq = FALSE stellt sicher, dass die Fläche der Balken den relativen Häufigkeiten entspricht. Falls freq = TRUE (das ist der Standardwert), so werden auf der Ordinate die absoluten Häufigkeiten angezeigt.
Wie sollen Klassen gewählt werden?
Bemerkungen
hist verwendetÜbung
Bestimmen und zeichnen Sie das Histogramm der Spalte qsec des Datensatzes mtcars in R. Wöhlen Sie dafür verschiedene Möglichkeiten für die Klassengrenzen.
Für ein metrisch skaliertes Merkmal X heißt die Funktion
\begin{aligned} F \colon \mathbb{R} &\to [0;1]\\ x &\mapsto F(x) = \sum_{x_i \leq x} h(x_i) \end{aligned}
empirische Verteilungsfunktion.
Die empirische Verteilungsfunktion summiert die relativen Häufigkeiten des Merkmals X also kumulativ auf. Sie kann für jedes beliebige x\in\mathbb{R} berechnet werden, selbst wenn x keine tatsächlich auftretende Merkmalsausprägung von X ist.
Bemerkungen
Für die empirische Verteilungsfunktion gilt:
| Verspätung | 5 | 10 | 15 | 20 | 25 | 30 |
| rel. Hfgk. | 0,25 | 0,30 | 0,10 | 0,20 | 0,10 | 0,05 |
| x | (-∞;5) | [5;10) | [10;15) | [15;20) | [20;25) | [25;30) | [30;∞) |
| F(x) | 0,00 | 0,25 | 0,55 | 0,65 | 0,85 | 0,95 | 1,00 |
Die empirische Verteilungsfunktion können wir also formulieren als
F(x) = \left\{\begin{array}{ll} 0 & \text{für } x \in (-\infty;5)\\ 0.25 & \text{für } x \in [5;10)\\ 0.55 & \text{für } x \in [10;15)\\ 0.65 & \text{für } x \in [15;20)\\ 0.85 & \text{für } x \in [20;25)\\ 0.95 & \text{für } x \in [25;30)\\ 1 & \text{für } x \in [30;\infty)\\ \end{array} \right.
Die Visualisierung der Funktion hat folgende Form:

Interpretation
Die Visualisierung der Funktion hat folgende Form:

Interpretation
ecdf bestimmenÜbung
Bestimmen und zeichnen Sie die empirische Verteilungsfunktion der Spalte qsec des Datensatzes mtcars in R. Interpretieren Sie ihr Ergebnis!

Vorlesung Statistik – Prof. Dr. Michael Bücker und Dr. Nina Büchel