Inhalt
In der Statistik wird die Gaußsche oder Normalverteilung verwendet, um komplexe Systeme mit vielen Faktoren zu charakterisieren. Wie in Stephen Stiglers The History of Statistics beschrieben, hat Abraham De Moivre die Distribution erfunden, die den Namen von Karl Fredrick Gauss trägt. Gauß 'Beitrag lag in der Anwendung des Ansatzes der Verteilung auf die kleinsten Fehlerquadrate, um Fehler bei der Anpassung von Daten mit einer Linie der besten Anpassung zu minimieren. Er machte es damit zur wichtigsten Fehlerverteilung in der Statistik.
Motivation
Wie ist die Verteilung einer Datenstichprobe? Was ist, wenn Sie die zugrunde liegende Verteilung der Daten nicht kennen? Gibt es eine Möglichkeit, Hypothesen zu den Daten zu testen, ohne die zugrunde liegende Verteilung zu kennen? Dank des zentralen Grenzwertsatzes lautet die Antwort ja.
Aussage des Satzes
Darin heißt es, dass ein Stichprobenmittelwert aus einer unendlichen Population annähernd normal oder Gauß'sch ist, wobei der Mittelwert dem der zugrunde liegenden Population entspricht und die Varianz der Populationsvarianz geteilt durch die Stichprobengröße entspricht. Die Annäherung verbessert sich, wenn die Stichprobengröße groß wird.
Die Annäherungsangabe wird manchmal als Schlussfolgerung über die Konvergenz zu einer Normalverteilung falsch angegeben. Da sich die angenäherte Normalverteilung mit zunehmender Stichprobengröße ändert, ist eine solche Aussage irreführend.
Der Satz wurde von Pierre Simon Laplace entwickelt.
Warum ist es überall
Normalverteilungen sind allgegenwärtig. Der Grund stammt aus dem zentralen Grenzwertsatz. Wenn ein Wert gemessen wird, ist dies häufig die Summe vieler unabhängiger Variablen. Daher hat der gemessene Wert selbst eine durchschnittliche Stichprobenqualität. Beispielsweise kann eine Verteilung der Leistungen eines Athleten aufgrund von Unterschieden in Ernährung, Training, Genetik, Coaching und Psychologie eine Glockenform haben. Auch die Körpergröße von Männern ist normal verteilt und hängt von vielen biologischen Faktoren ab.
Gaußsche Copulas
Was als „Copula-Funktion“ mit einer Gauß-Verteilung bezeichnet wird, wurde 2009 in den Nachrichten veröffentlicht, da es zur Beurteilung des Risikos einer Investition in besicherte Anleihen herangezogen wurde. Der Missbrauch der Funktion war maßgeblich an der Finanzkrise von 2008-2009 beteiligt. Obwohl es viele Ursachen für die Krise gab, dürften im Nachhinein keine Gaußschen Verteilungen verwendet worden sein. Eine Funktion mit einem dickeren Schwanz hätte unerwünschten Ereignissen eine größere Wahrscheinlichkeit zugeordnet.
Ableitung
Der zentrale Grenzwertsatz kann in vielen Zeilen bewiesen werden, indem die Momenterzeugungsfunktion (mgf) von (Stichprobenmittel - Populationsmittel) / (Populationsvarianz / Stichprobengröße) als Funktion der mgf der zugrunde liegenden Population analysiert wird. Der Approximationsteil des Theorems wird eingeführt, indem die mgf der zugrunde liegenden Population als Potenzreihe erweitert wird und die meisten Terme dann mit zunehmender Stichprobengröße nicht mehr relevant sind.
Es kann in weitaus weniger Zeilen bewiesen werden, indem eine Taylor-Erweiterung auf die charakteristische Gleichung derselben Funktion angewendet und die Stichprobengröße vergrößert wird.
Computational Convenience
Einige statistische Modelle gehen von einem Gaußschen Fehler aus. Dies ermöglicht die Verwendung von Funktionsverteilungen von Normalvariablen wie der Chi-Quadrat- und F-Verteilung beim Testen von Hypothesen. Insbesondere im F-Test setzt sich die F-Statistik aus einem Verhältnis der Chi-Quadrat-Verteilungen zusammen, die selbst Funktionen eines normalen Varianzparameters sind. Das Verhältnis der beiden bewirkt, dass sich die Varianz aufhebt, wodurch Hypothesentests ohne Kenntnis der Varianzen abgesehen von ihrer Normalität und Konstanz ermöglicht werden.