Die Normalverteilung kennen wir alle aus der Statistik: Sie sieht schön aus und ermöglicht die meisten unserer statistischen Analysen. Doch was genau ist «normal» an der Normalverteilung? Und was kann sie uns Spannendes über unsere Welt verraten?
S eien wir ehrlich, Statistik ist eine relativ trockene Wissenschaft. Mit ihr werden spannende Erkenntnisse in anderen Wissenschaften wie der Psychologie gewonnen, aber sie selbst scheint wie die Mathematik aus der Anwendung von Regeln zu bestehen, ohne selbst spannende Einsichten über die Welt zu geben. Doch wenn genauer hingeschaut wird in die Hintergründe dieser Regeln der Statistik, zeigen sich faszinierende Einblicke in die Grundstruktur der Wirklichkeit. Ein solcher Einblick liefert die Normalverteilung.
Wie kam es zur Normalverteilung?
Die Entwicklung oder Entdeckung der Normalverteilung geht auf den deutschen Mathematiker Carl Friedrich Gauss zurück, weshalb sie auch Gaussverteilung genannt wird (Brückler, 2017). In seiner 1809 publizierten Schrift mit dem unscheinbaren Titel «Theorie der Bewegung der Himmelskörper, die in Kegelschnitten die Sonne umlaufen» definierte er erstmals die Normalverteilung. Nebenbei entwickelte er in dieser Schrift auch die Methode der kleinsten Quadrate und die Maximum-Likelihood-Schätzung, die ebenfalls zentral für statistische Analysen sind. Man kann also sagen, dass Gauss in einer Schrift die moderne Statistik eingeleitet hat. Wichtige Vorarbeiten für die Normalverteilung leisteten die französischen Mathematiker Abraham de Moivre und Pierre-Simon Marquis de Laplace. Ebenfalls war es Laplace, der 1810 den Zentralen Grenzwertsatz entwickelte (Brückler, 2017).
Normalverteilung und Zentraler Grenzwertsatz
Was ist nun speziell an der Normalverteilung? An sich eigentlich nicht viel: Sie ist unimodal (eingipflig), symmetrisch und abhängig von der Standardabweichung und dem Mittelwert ihrer Werte, so dass etwa 95 Prozent der Werte innerhalb von zwei Standardabweichungen des Mittelwerts liegen (Rice, 2006). Was die Normalverteilung jedoch speziell und auch normal macht, sind die Eigenschaften, die ihr wegen des Zentralen Grenzwertsatzes zukommen. Er erklärt, warum in der Natur Normalverteilungen häufig zu beobachten sind (sprich «normal» sind) und warum die Normalverteilung eine so zentrale Rolle in der Statistik hat.
Der Zentrale Grenzwertsatz besagt, dass eine Summe von unabhängig und identisch verteilten («i.i.d.») Zufallsvariablen mit steigender Anzahl Zufallsvariablen zu einer Normalverteilung tendiert (Rice, 2006). Unabhängig verteilt bedeutet, dass die Zufallsvariablen einander nicht beeinflussen. Identisch verteilt bedeutet, sie haben die gleiche Verteilung (wobei diese Bedingung unter gewissen Annahmen fallen gelassen werden kann) (Rice, 2006). Entscheidend für die Macht des Zentralen Grenzwertsatzes und der Normalverteilung ist dabei, dass die einzelnen Zufallsvariablen nicht normalverteilt sein müssen. Erst ihre Summe tendiert zur Normalverteilung.
Ein geläufiges Beispiel vom Zentralen Grenzwertsatz und der Normalverteilung ist das Würfeln mehrerer identischer Würfelpaare (Rice, 2006). Die Augensumme jedes Würfelpaars ist dabei eine Zufallsvariable. Die Verteilung der einzelnen Würfelpaare ist identisch und unabhängig, aber keine Normalverteilung (sondern eine diskrete Verteilung). Wenn nun genug Würfelpaare gewürfelt werden, wird die Häufigkeit der Augensummen eine approximative Normalverteilung bilden mit Mittelwert sieben (Rice, 2006).
Normalverteilung in der Forschung
Warum brauchen wir die Normalverteilung in der Wissenschaft? In der empirischen Forschung wird in der Regel angenommen, dass Beobachtungen einer Stichprobe i.i.d. Zufallsvariablen entsprechen (Stock & Watson, 2015). Somit folgen die Beobachtungswerte auf Stichprobenebene annähernd einer Normalverteilung. Dies ermöglicht statistische Analysen mittels Regressionen oder ANOVA (oder vereinfacht sie stark). Die Normalverteilung der Strichprobendaten kann dabei mittels deskriptiven und analytischen Verfahren überprüft werden (bei starken Abweichungen müssen statistische Verfahren angepasst werden). In der Regel wird über die Stichproben- und Beobachtungserhebung versucht eine i.i.d. Verteilung der Beobachtungen zu erreichen. Dabei kann die Unabhängigkeit der Beobachtungen überprüft werden, während die Identität plausibel gemacht werden muss (Stock & Watson, 2015).
Was ist «normal» an der Normalverteilung?
Die Normalverteilung ist «normal» in dem Sinn, dass sie sehr häufig vorkommt (Kruskal & Stigler, 1997). Viele Phänomene der Welt sind annähernd normalverteilt (Stock & Watson, 2015). Dies ist darauf zurückzuführen, dass einzelne Beobachtungen von Phänomenen (vermutlich) etwa i.i.d. verteilt sind und somit der Zentrale Grenzwertsatz zum Zuge kommt (Stock & Watson, 2015). Zum Beispiel ist das der Fall für viele Eigenschaften des Menschen wie Körpergrösse und Intelligenzmasse (A’Hearn et al., 2009; Thomas, 1982). Das heisst der Eigenschaftswert eines einzelnen Menschen als Zufallsvariable folgt annäherungsweise derselben unterliegenden Verteilung, wie die der anderen Menschen und ist zudem unabhängig von diesen. Somit kommt für die Summe dieser Eigenschaftswerte der Zentrale Grenzwertsatz zum Zuge.
Interessanterweise war diese Bedeutung von «normal» nicht im Sinne von Gauss bei seiner Entwicklung der Normalverteilung (Kruskal & Stigler, 1997). Er bezeichnet mittels «normal» die Orthogonalität der Gleichungen, die gebraucht werden, um die Normalverteilung aufzustellen. Erst durch spätere Autor*innen erhielt das «normal» der Normalverteilung die Bedeutung von «üblich» (Kruskal & Stigler, 1997).
Warum soll die Normalverteilung nun faszinierend sein?
Das faszinierende für mich an der Normalverteilung ist die Allgemeingültigkeit, die sie durch den Zentralen Grenzwertsatz erhält. Selbst wenn i.i.d. Beobachtungen selbst nicht normalverteilt sind, wird ihre Summe annähernd normalverteilt sein bei genügend Beobachtungen. Und dies ist immer der Fall. Ein universelles Gesetz also ähnlich wie die physikalischen Naturgesetze. Somit findet man die Normalverteilung überall in der Natur. Sie ist in das Fundament unserer Wirklichkeit eingearbeitet. Warum das so ist? Natürlich können die Normalverteilung und der Zentrale Grenzwertsatz mathematisch bewiesen werden. Aber schliesslich ist es genau wie die Naturgesetze einfach eine fundamentale Tatsache unserer Welt. Genau diesen Aspekt finde ich faszinierend.