225 lines
8.1 KiB
Markdown
225 lines
8.1 KiB
Markdown
<style>
|
|
img {
|
|
max-height: 300px;
|
|
}
|
|
</style>
|
|
|
|
# Stochastik und Statistik
|
|
|
|
- [Stochastik und Statistik](#stochastik-und-statistik)
|
|
- [Deskriptive Statistik](#deskriptive-statistik)
|
|
- [Merkmals-Typen](#merkmals-typen)
|
|
- [Häufigkeiten](#häufigkeiten)
|
|
- [Klassierte Stichproben im Histogramm](#klassierte-stichproben-im-histogramm)
|
|
- [Kennwerte](#kennwerte)
|
|
- [Quantile](#quantile)
|
|
- [Boxplot](#boxplot)
|
|
- [Lage-Kennwerte](#lage-kennwerte)
|
|
- [Streuungs-Kennwerte](#streuungs-kennwerte)
|
|
- [Lagewerte in Klassierten Daten](#lagewerte-in-klassierten-daten)
|
|
- [Glossar](#glossar)
|
|
|
|
## Deskriptive Statistik
|
|
Ermittlung von Kenngrössen und Datenvalidierung
|
|
|
|
### Merkmals-Typen
|
|
```mermaid
|
|
flowchart TD
|
|
r[Merkmals-Typ]
|
|
q[Qualitativ/Kategoriell]
|
|
m[Quantitativ/Metrisch]
|
|
n[Nominal]
|
|
o[Ordinal]
|
|
d[Diskret]
|
|
s[Stetig]
|
|
r --> q
|
|
r --> m
|
|
q --> n
|
|
q --> o
|
|
m --> d
|
|
m --> s
|
|
```
|
|
|
|
- Qualitativ/Kategoriell - Unmessbar
|
|
- Nominal: Nicht mit bestimmtem Wert verbunden
|
|
- Ordinal: Mit Wert verbunden
|
|
- Quantitativ/Metrisch - Messbar
|
|
- Diskret: Nur bestimmte Werte möglich
|
|
- Stetig: Jegliche Werte möglich
|
|
|
|
***Beispiele:***
|
|
|
|
Frage: Welche Sprache sprichst du?
|
|
|
|
| Ausprägungen | Merkmal-Typ |
|
|
| ------------------------------------------------ | ----------- |
|
|
| Deutsch, Französisch, Italienisch, Rätoromanisch | Nominal |
|
|
|
|
Frage: Ich würde das Produkt weiterempfehlen
|
|
|
|
| Ausprägungen | Merkmal-Typ |
|
|
| ------------------------------------------------------------------------------ | ----------- |
|
|
| Stimme nicht zu, Stimme eher nicht zu, Keine Angabe, Stimme eher zu, Stimme zu | Ordinal |
|
|
|
|
Frage: Wieviele Male hast du heute Steam gestartet?
|
|
|
|
| Ausprägungen | Merkmal-Typ | Bemerkung |
|
|
| ------------------ | ----------- | --------------------------------------------------- |
|
|
| Ganze Zahlen $> 0$ | Diskret | Es sind keine beliebigen Werte möglich (bspw. 0.5). |
|
|
|
|
Frage: Was ist dein Welt-Rekord im 100-Meter-Lauf?
|
|
|
|
| Ausprägungen | Merkmal-Typ | Bemerkung |
|
|
| -------------- | ----------- | ---------------------------------------------------------------- |
|
|
| Beliebige Zeit | Stetig | Jegliche Zahlen (mit beliebig vielen Kommastellen) sind möglich. |
|
|
|
|
Frage: Wieviel kostet ein Mars-Riegel?
|
|
|
|
| Ausprägungen | Merkmal-Typ | Bemerkung |
|
|
| ----------------------- | ----------- | ------------------------------------------------------------------- |
|
|
| Beliebiger Preis in CHF | Diskret | Beträge, die nicht durch 5 Rappen teilbar sind, sind nicht möglich. |
|
|
|
|
### Häufigkeiten
|
|
Eine Häufigkeit ist die Anzahl Male, die ein Merkmalsträger in der Stichprobe eine bestimmte Eigenschaft erfüllt.
|
|
Diese kann auf verschiedene Weisen dargestellt werden.
|
|
|
|
- ***Absolute Häufigkeit $h_i$:*** Die absolute Häufigkeit ist die Anzahl der gezählten Elemente.
|
|
- ***Relative Häufigkeit $f_i$:*** Ergibt sich, indem man die absolute Häufigkeit durch den Stichproben-Umfang teilt.
|
|
$$f_i = \frac{h_i}{n}$$
|
|
|
|
Zudem gelten folgende Regeln:
|
|
|
|
$$\sum_{i = 1}^n h_i = n$$
|
|
$$\sum_{i = 1}^n f_i = 1$$
|
|
|
|
Die Funktion für die Häufigkeitsfunktion (auch genannt: Dichtefunktion) hat folgende Abkürzungen:
|
|
|
|
- Für diskrete Merkmale: _PMF_ (probability mass function)
|
|
- Für stetige Merkmale: _PDF_ (probability density function)
|
|
|
|
Zudem gibt es folgende Verteilungsfunktionen:
|
|
- $H(x)$ Absolute Summenhäufigkeit: Anzahl Merkmalträger mit Merkmal $x_i$ mit $x_i < x$
|
|
- $F(x)$ Kummulative Verteilungsfunktion _CDF_: Relative Häufigkeit der Merkmalträger mit Merkmal $x_i$ mit $x_i < x$
|
|
|
|
Beispiele der wichtigsten Häufigkeits-Funktionen:
|
|
|
|
![](./Probabilities.png)
|
|
|
|
<div class="letters">
|
|
|
|
- $f_i$: Relative Häufigkeit
|
|
- $h_i$: Absolute Häufigkeit
|
|
- $n$: Anzahl Merkmalträger in der Stichprobe
|
|
|
|
</div>
|
|
|
|
#### Klassierte Stichproben im Histogramm
|
|
Klassierte Stellen werden durch Grösse der Klasse geteilt, um diese zu berücksichtigen.
|
|
|
|
Daraus gewonnene Daten können in einem Histogramm dargestellt werden.
|
|
|
|
Beispiel:
|
|
| Klasse | $[100,200[$ | $[200,500[$ | $[500,800[$ | $[800,1000[$ | $[1000,2000[$ | Total |
|
|
| ---------------------------- | -------------------------- | --------------------------- | --------------------------- | -------------------------- | ---------------------------- | ----- |
|
|
| Absolute Häufigkeit | $35$ | $182$ | $317$ | $84$ | $132$ | $750$ |
|
|
| Relative Häufigkeit | $\frac{35}{750}$ | $\frac{182}{750}$ | $\frac{317}{750}$ | $\frac{84}{750}$ | $\frac{132}{750}$ | $1$ |
|
|
| Klassen-Grösse | $100$ | $300$ | $300$ | $200$ | $1000$ |
|
|
| Säulenhöhe für Absolut | $\frac{35}{100}$ | $\frac{182}{300}$ | $\frac{317}{300}$ | $\frac{84}{200}$ | $\frac{132}{1000}$ | |
|
|
| Säulenhöhe für Relativ (PDF) | $\frac{35}{750 \cdot 100}$ | $\frac{182}{750 \cdot 300}$ | $\frac{317}{750 \cdot 300}$ | $\frac{84}{750 \cdot 200}$ | $\frac{132}{750 \cdot 1000}$ | |
|
|
|
|
Histogramm der genannten Daten:
|
|
|
|
![](./Histogram.png)
|
|
|
|
### Kennwerte
|
|
#### Quantile
|
|
Ein $q$-Quantil definiert den Wert des $\lceil n \cdot q \rceil$-te Element.
|
|
|
|
Folgende bekannte $q$-Quantile gibt es:
|
|
- $0.25$-Quantil: Das 1. Quartil
|
|
- $0.50$-Quantil: Das 2. Quartil auch "Median" oder "Zentralwert"
|
|
- $0.75$-Quantil: Das 3. Quartil
|
|
|
|
Beispiel einer Statistik mit eingezeichneten Quartilen:
|
|
|
|
![](./Quantiles.png)
|
|
|
|
#### Boxplot
|
|
- Boxplots zeigen folgende Informationen
|
|
- Das 1. Quartil $Q_1$
|
|
- Den Median $Q_2$
|
|
- Das 3. Quartil $Q_3$
|
|
- Den Minimalwert (min. $1.5 \cdot (Q_3 - Q_1)$)
|
|
- Den Maximalwert (max. $1.5 \cdot (Q_3 - Q_1)$)
|
|
|
|
![](Boxplot.png)
|
|
|
|
#### Lage-Kennwerte
|
|
- Arithmetisches Mittel $\overline{x}$: Mittelwert der Stichprobenwerte
|
|
- Median $x_\text{med}$: Wert des 2. Quartil $Q_2$
|
|
- Modus $x_\text{mod}$: Der häufigste Wert in der Stichprobe
|
|
|
|
#### Streuungs-Kennwerte
|
|
|
|
<div class="formula">
|
|
|
|
***Varianz $\tilde{s}^2$:***
|
|
|
|
$$\tilde{s}^2 = \left(\frac{1}{n} \cdot \sum_{i = 1}^m{a_i^2 \cdot h_i}\right) - \tilde{x}^2$$
|
|
|
|
alternative Schreibweisen:
|
|
|
|
$$\begin{aligned}
|
|
\tilde{s}^2 &= \frac{1}{n} \cdot \sum_{i = 1}^n(x_i - \overline{x})^2 = \frac{1}{n} \cdot \sum_{i = 1}^m{h_i \cdot (a_i - \overline{x})^2} \\
|
|
&= \left(\frac{1}{n} \cdot \sum_{i = 1}^n x_i^2\right) - \overline{x}^2 = \left(\sum_{i = 1}^m{a_i^2 \cdot f_i}\right) - \overline{x}^2
|
|
\end{aligned}
|
|
$$
|
|
|
|
***Standardabweichung $\tilde{s}$:***
|
|
|
|
$$\tilde{s} = \sqrt{\tilde{s}^2}$$
|
|
|
|
***Korrigierte Varianz $s^2$:***
|
|
|
|
$$s^2 = \frac{n}{n - 1} \tilde{s}^2$$
|
|
|
|
***Korrigierte Standardabweichung $s$:***
|
|
|
|
$$s = \sqrt{s^2} = \sqrt{\frac{n}{n - 1}} \cdot \tilde{s}$$
|
|
|
|
***Interquartilsabstand $IQR$:***
|
|
|
|
$$IQR = Q_3 - Q_1$$
|
|
|
|
</div>
|
|
|
|
<div class="letters">
|
|
|
|
- $a_i$: $i$-te Merkmals-Ausprägung
|
|
- $m$: Anzahl unterschiedlicher Merkmals-Ausprägungen (oder Klassen)
|
|
|
|
</div>
|
|
|
|
#### Lagewerte in Klassierten Daten
|
|
Einige Werte berechnen sich speziell in klassierten Daten.
|
|
|
|
***Quantile:***
|
|
|
|
Der Wert $R_q$ eines $q$-Quantils berechnet sich, indem folgendes durchgeführt wird:
|
|
|
|
1. Erste Klasse $K$ mit einem $CDF > q$ finden
|
|
2. $K_0$ auf untere und $K_1$ auf obere Grenze der Klasse $K$ setzen
|
|
3. Folgendes berechnen:
|
|
$$R_q = K_0 + \frac{(K_1 - K_0) \cdot (q - CDF(K_0))}{CDF(K_1) - CDF(K_0)}$$
|
|
4. $R_q$ entspricht nun dem $q$-Quartil
|
|
|
|
***Modus:***
|
|
|
|
1. Klasse $K$ mit grösster relativer Häufigkeit bestimmen
|
|
2. $K_0$ auf untere und $K_1$ auf obere Grenze der Klasse $K$ setzen
|
|
3. Folgendes berechnen:
|
|
$$x_\text{mod} = K_0 + \frac{K_1 - K_0}{2}$$
|
|
|
|
# Glossar
|
|
- Univariate Daten: Daten, welche nur ein Merkmal haben
|