Die Nachteile der linearen Regression

Posted on
Autor: Peter Berry
Erstelldatum: 19 August 2021
Aktualisierungsdatum: 12 Kann 2024
Anonim
Einfache vs. multiple Regression - warum Variablen nicht signifikant bleiben
Video: Einfache vs. multiple Regression - warum Variablen nicht signifikant bleiben

Inhalt

Die lineare Regression ist eine statistische Methode zur Untersuchung der Beziehung zwischen einer abhängigen Variablen, bezeichnet als y, und eine oder mehrere unabhängige Variablen, bezeichnet als X. Die abhängige Variable muss stetig sein, dh sie kann einen beliebigen Wert annehmen oder zumindest annähernd stetig sein. Die unabhängigen Variablen können von einem beliebigen Typ sein. Obwohl die lineare Regression selbst keine Kausalität aufweisen kann, wird die abhängige Variable normalerweise von den unabhängigen Variablen beeinflusst.


Die lineare Regression ist auf lineare Beziehungen beschränkt

Die lineare Regression betrachtet naturgemäß nur lineare Beziehungen zwischen abhängigen und unabhängigen Variablen. Das heißt, es wird davon ausgegangen, dass zwischen ihnen eine lineare Beziehung besteht. Manchmal ist das falsch. Beispielsweise ist die Beziehung zwischen Einkommen und Alter gekrümmt, d. H. Das Einkommen steigt tendenziell in den frühen Teilen des Erwachsenenalters an, nimmt im späteren Erwachsenenalter ab und nimmt ab, nachdem Menschen in den Ruhestand getreten sind. Ob dies ein Problem ist, können Sie anhand grafischer Darstellungen der Beziehungen erkennen.

Lineare Regression Betrachtet nur den Mittelwert der abhängigen Variablen

Die lineare Regression untersucht eine Beziehung zwischen dem Mittelwert der abhängigen Variablen und den unabhängigen Variablen. Wenn Sie sich beispielsweise die Beziehung zwischen dem Geburtsgewicht von Säuglingen und mütterlichen Merkmalen wie dem Alter ansehen, wird bei der linearen Regression das Durchschnittsgewicht von Babys berücksichtigt, die von Müttern unterschiedlichen Alters geboren wurden. Manchmal müssen Sie sich jedoch die Extreme der abhängigen Variablen ansehen, z. B. sind Babys gefährdet, wenn ihre Gewichte niedrig sind. In diesem Beispiel sollten Sie sich also die Extreme ansehen.


So wie der Mittelwert keine vollständige Beschreibung einer einzelnen Variablen ist, ist die lineare Regression keine vollständige Beschreibung der Beziehungen zwischen Variablen. Sie können mit diesem Problem umgehen, indem Sie die Quantilregression verwenden.

Lineare Regression ist empfindlich gegenüber Ausreißern

Ausreißer sind Daten, die überraschen. Ausreißer können univariat (basierend auf einer Variablen) oder multivariat sein. Wenn Sie Alter und Einkommen betrachten, sind univariate Ausreißer Dinge wie eine Person, die 118 Jahre alt ist, oder eine Person, die letztes Jahr 12 Millionen US-Dollar verdient hat. Ein multivariater Ausreißer wäre ein 18-Jähriger, der 200.000 US-Dollar verdient. In diesem Fall sind weder das Alter noch das Einkommen sehr extrem, aber nur sehr wenige 18-jährige verdienen so viel Geld.

Ausreißer können enorme Auswirkungen auf die Regression haben. Sie können dieses Problem beheben, indem Sie Einflussstatistiken von Ihrer Statistiksoftware anfordern.


Daten müssen unabhängig sein

Die lineare Regression setzt voraus, dass die Daten unabhängig sind. Das bedeutet, dass die Punktzahlen eines Subjekts (z. B. einer Person) nichts mit denen eines anderen Subjekts zu tun haben. Dies ist oft, aber nicht immer sinnvoll. Zwei häufige Fälle, in denen dies keinen Sinn ergibt, sind räumliche und zeitliche Clusterbildung.

Ein klassisches Beispiel für Clustering im Weltraum sind Schüler-Testergebnisse, wenn Sie Schüler aus verschiedenen Klassen, Klassenstufen, Schulen und Schulbezirken haben. Schüler in der gleichen Klasse sind sich in vielerlei Hinsicht ähnlich, d. H. Sie kommen oft aus der gleichen Nachbarschaft, haben die gleichen Lehrer usw. Daher sind sie nicht unabhängig.

Beispiele für Clustering in der Zeit sind alle Studien, bei denen Sie dieselben Probanden mehrmals messen. Beispielsweise können Sie in einer Diät- und Gewichtsstudie jede Person mehrmals messen. Diese Daten sind nicht unabhängig, da das, was eine Person bei einer Gelegenheit wiegt, mit dem zusammenhängt, was sie bei einer anderen Gelegenheit wiegt. Eine Möglichkeit, damit umzugehen, sind Mehrebenenmodelle.