Zählstatistik

Datensatz

In dieser App werden Daten aus dem Labor von Univ.-Prof. Dr. Paul Scheier genau unter die Lupe genommen. Die Daten stammen aus einem Massenspektrometer, mit dem die atomaren/molekularen Bestandteile von Substanzen extrem genau bestimmt werden können. Solche Datensätze kommen in unzähligen Labors auf der Welt zustande. Zum Beispiel zur Untersuchung von medizinischen Proben oder zur Messung der Luftverschmutzung. In unserem Fall handelt es sich um einen schwer zu erzeugenden Cluster aus Helium Atomen. Wir sehen uns einen kleinen Ausschnitt aus der gesamten Messung an.

Hier geht's zum wissenschaftlichen Artikel über die gesamte Messung.

Die Zufallsvariable $X$ ist eine Zählfunktion. Sie zählt die Anzahl der Cluster einer bestimmten Sorte, die binnen zwei Sekunden am Detektor ankommen. In diesem Beispiel handelt es sich um positive geladene Helium-Cluster, die aus 14 Atomen bestehen und mit einem Massenspektrometer über eine Zeit von 800 Sekunden detektiert wurden. Der Datensatz enthält demnach 400 Realisierungen für $X$. Diese sind in folgendem Scatter-Plot dargestellt:

Arithmetisches Mittel, Median, Quantile der Messreihe


          

          

Wie groß ist die Standardabweichung bei der gegebenen Varianz?

Vergleiche Erwartungswert und Varianz!

Säulendiagramm

Das Säulendiagramm ist eine übersichtliche Darstellung der statistischen Daten. Die Säulen überspannen auf der $x$-Achse Intervalle (auch "Bin" genannt). Wir suchen die Anzahl der Messpunkte im obigen Scatter-Plot, die in das jeweilige Intervall fallen und tragen den Wert auf der $y$-Achse auf. Zum Beispiel lesen wir bei einer Bin-Breite von 50 ab, dass 119-mal eine Anzahl zwischen 4250 und 4300 Cluster binnen 2 Sekunden am Detektor ankamen.

Arbeitsauftrag

Wieviele Cluster mit einer Anzahl zwischen 4300 und 4400 kommen insgesamt in den gesamten 800 Sekunden am Detektor an? (Hinweis: Wähle die Breite der Bins passend.)

Histogramm und empirische Dichtefunktion

Addiert man im Säulendiagramm alle Balkenhöhen, dann kommt man auf die Gesamtanzahl von 400 Messungen. Multipliziert man alle Säulenhöhen mit einer bestimmten Zahl (das nennt man auch "Skalieren"), so kann die Gesamtfläche aller Säulen auf 1 gesetzt werden. Das ergibt das sogenannte Histogramm, das auf den ersten Blick sehr ähnlich aussieht wie das Säulendiagramm, sich aber in der Höhe, vgl. $y$-Achse, unterscheidet. Bei einer Binbreite von 1 würde das Histogramm die relative Häufigkeit einer bestimmten Anzahl bedeuten. Bei größerer Binbreite ergibt sich eine mittlere relative Häufigkeit je Bin. Die schwarze Linie ist eine geglättete Näherung des Histogramms und wird als empirische Dichtefunktion bezeichnet.

Arbeitsauftrag

Mit welcher Zahl müssen wir die Höhe der Säulen im Säulendiagramm multiplizieren, um die Höhe der Säulen im Histogramm zu erhalten?

Bemerkung

Das Säulendiagramm wird manchmal auch "absolutes Histogramm" genannt, während das Histogramm als "relatives Histogramm" bezeichnet wird.

Empirische Verteilungsfunktion

Bei der empirischen Verteilungsfunktion $F$ mit $F(x)=R(X \leq x)$ für $x \in \mathbb{R}$ ist der Funktionswert an der Stelle $x$ ungefähr gleich der Fläche der Balken im Histogramm zwischen 0 und x. Genauer gesagt, gibt sie die relative Häufigkeit an, wie oft eine Cluster-Anzahl von x oder kleiner als x gemessen wurde.

Arbeitsauftrag

Wie häufig kommt es vor (in Prozent), dass in 2 Sekunden mehr als 4400 Cluster am Detektor gemessen werden?


Binomialverteilung

Die Wiederholrate des Experiments beträgt $10 \text{kHz}$. Das heißt, dass in 2 Sekunden 20000-mal überprüft wird, ob ein Cluster am Detektor ankommt oder nicht. Das ist ein typisches Bernoulli-Experiment, ähnlich wie zum Beispiel auch beim wiederholten Würfeln oder beim wiederholten Münzwurf. In unserem Fall haben wir 20000 Wiederholungen. Bei der Frage nach der Anzahl der Cluster binnen 2 Sekunden erwarten wir, dass diese Zufallsvariable binomialverteilt ist. Für jedes einzelne Ereignis benennen wir die noch zu bestimmende Erfolgswahrscheinlichkeit mit $p$. Die Binomialverteilung liefert die Wahrscheinlichkeit $$B_{np}(\{x\})=\binom{n}{x}p^x (1-p)^{n-x}$$ für $x \in \mathbb{N}$ mit $n = 20000$. Diese Wahrscheinlichkeiten sind in grün eingezeichnet. Für eine natürliche Zahl $k$ ist $B_{np}(\{k\})$ die Wahrscheinlichkeit, mit der ein Cluster der Größe $k$ auftritt.

Güte der Näherung

Wenn wir den maximalen Abstand zwischen der empirischen und der theoretischen Verteilungsfunktion berechnen, so haben wir ein Qualitätskriterium für die Güte der Passung (des Fits) durch das gegebene Modell. (Genaueres siehe Tab Vertiefung).

Für die aktuell gewählte Verteilung ist dieser Abstand:

Je kleiner $d$ ist, desto besser ist der Fit. Dieser Abstand ist oben als rote Linie eingezeichnet.

Arbeitsauftrag

Finde die Wahrscheinlichkeit $p$, sodass die empirische Verteilungsfunktion bzw. Dichte (schwarze Linien) möglichst gut mit der Binomialverteilung (grün) genähert werden. Möglichst gut bedeutet, dass $d$ möglichst klein werden soll. Dabei ist $p$ die Wahrscheinlichkeit, dass bei einer Einzelmessung ein Cluster am Detektor registriert wird.

Berechne Erwartungswert und Varianz der resultierenden Binomialverteilung und vergleiche mit dem empirischen Mittelwert und der empirischen Varianz.



Binomialverteilung, Poissonverteilung, Normalverteilung

Bei einer großen Anzahl an Versuchen und kleiner Erfolgswahrscheinlichkeit ($n$ groß, $p$ klein) ähnelt die Binomialverteilung immer mehr der Poissonverteilung mit Erwartungswert $\lambda=np$. Außerdem ähnelt die Poissonverteilung für große Werte von $\lambda$ der Normalverteilung. Man sagt die Normalverteilung ist die Grenzverteilung der Poissonverteilung, die Poissonverteilung ist die Grenzverteilung der Binomialverteilung.

$n =$

$p =$

$\lambda =$

$\mu =$

$\sigma =$

Güte der Näherung

Binomialwahrscheinlichkeit

$$B_{np}(\{x\})=\binom{n}{x}p^x (1-p)^{n-x}$$

$$\text{Erwartungswert: } np$$

$$\text{Varianz: } np(1-p)$$

Güte der Näherung

Poisson-Wahrscheinlichkeit

$$P_{\lambda}(\{x\})=\frac{\lambda^x}{x!} e^{-\lambda}$$

$$\text{Erwartungswert: } \lambda$$

$$\text{Varianz: } \lambda$$

Güte der Näherung

Dichtefunktion der Normalverteilung

$$f_{\mu,\sigma}(x)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}} \:\: \text{für} \:\: x \in \mathbb{R} $$

$$\text{Erwartungswert: } \mu$$

$$\text{Varianz: } \sigma^2$$

Arbeitsauftrag

a) Finde für die Binomial-, Poisson-, und Normalverteilung Parameter, sodass der Datensatz möglichst gut mit der jeweiligen Verteilung beschrieben wird.

b) Verwende den empirischen Mittelwert und die empirische Varianz (siehe Tab Stichprobe), um $$n, p, \lambda, \mu, \sigma$$ aus Erwartungswerten und Varianzen der theoretischen Verteilungen zu berechnen. Was fällt dir anhand der drei Graphen auf?

c) Ist die Normalverteilung auch Grenzverteilung der Binomialverteilung? Welcher mathematische Satz der Wahrscheinlichkeitstheorie steckt dahinter?

Welche Verteilung passt zu meinen Daten?

Hier kannst du eigene Daten in einem Text-File hochladen und dann aus einer Reihe von Verteilungen auswählen. Das Textfile (".txt" oder ".csv") sollte eine Spalte mit den Daten ohne Überschrift enthalten. Das Komma sollte entsprechend der Englischen Notation ein "." sein. Am Anfang zeigen die beiden Diagramme eine Stichprobe einer Binomialverteilung.

Güte der Näherung

Fit-Parameter

Erklärung zum Fit: Das Programm versucht automatisch für eine gewählte theoretische Verteilung die bestmöglichen Parameter zu bestimmen. Dies geschieht durch eine mathematische Optimierung, die in vielen Fällen aber nicht immer funktioniert. Die gefundenen Parameter sind oben unter Fit-Parameter zu finden.

Güte der Näherung nach dem Kolmogorov-Smirnov Kriterium

Die Qualität der Übereinstimmung zwischen der empirischen Verteilungsfunktion $F_{emp}$ und der theoretischen Verteilungsfunktion $F_{theor}$ kann zum Beispiel mit dem Kriterium von Kolmogorov-Smirnov gemessen werden. Dazu wird der maximale vertikale Abstand zwischen den beiden Verteilungsfunktionen $$d = \sup_{x \in \mathbb{R}} |F_{emp}(x)-F_{theor}(x)|$$ berechnet.

Je kleiner d ist, desto besser ist die gegebene empirische Verteilung durch die theoretische Verteilung beschrieben. Man kann dann sagen, dass das angenommene Modell die Daten gut beschreibt. Das Kriterium eignet sich auch für einen Hypothesentest, ob ein angenommenes Modell geeignet ist. Genaueres dazu findest du auf

Wikipedia: Kolmogorov-Smirnov-Test