Regression/Korrelation/Bestimmtheitsmaß

...komplette Frage anzeigen

4 Antworten

Für die Korrelation von 2 Merkmalen - sie werden hier als gleichberechtigt betrachtet - legt man eine Gerade so in die Punktwolke, dass die Summe der quadrierten Abstände von den einzelnen Punkten zu der Geraden möglichst klein wird, Diese Abstände sind also Geradenstücke, die senkrecht auf der Korrelationsgeraden stehen und damit schief im Achsenkreuz, so wie die Korrelationsgerade selbst. (Steigung Korr.Ger. * Steigung der Abstände = -1)

Für die Regression von einer abhängigen auf eine unabhängige Variable - sie sind hier also nicht mehr gleichberechtigt - minimiert man die Summe der quadrierten Abstände in senkrechter Richtung, senkrecht im Achsenkreuz, wenn die abhängige Variable wie üblich auf der senkrechten , der y-Achse, abgetragen wird.

Bei der Korrelation kommt es also darauf an, dass die Punkte so nah wie möglich an der Geraden liegen, bei der Regression kommt es darauf an, dass die Abweichungen in y-Richtung möglichst klein sind.

Alles Gesagte bezieht sich nur auf die lineare Regression. Es gibt ja auch noch andere, wie schon Josef050153 bemerkte. Die kann man dann gar nicht mehr der Korrelation gegenüberstellen.

Das Bestimmtheitsmaß bei der Regression (linear wie nicht-linear) gibt an, für welchen Teil der Varianz der abhängigen Variablen die unabhängige Variable verantwortlich ist, welcher Teil also durch die Regressionsgerade (Regressionskurve bei nicht-linearer Regression - betrachten wir weiterhin nur noch die lineare Regression) erklärt ist. Liegen alle Punkte genau auf der Regressionsgeraden, so ist es 1. Ansonsten bestimmt man die Varianz der abhängigen Variablen (ohne die unabhängige zu berücksichtigen), dann die Quadratsumme der senkrechten Abstände zur Regr.geraden, das ist die sogenannte Fehlervarianz, (die ist ja 0 wenn alle Punkte genau auf der Geraden liegen) und zieht diese ab von der vorherigen "Gesamt-" Varianz. Was übrigbleibt, ist das Bestimmtheitsmaß R² als (Gesamt-Varianz - Fehler-Varianz) / Gesamt-Varianz. Klar ist R² > 0 (allenfalls = 0), denn die Gesamtvarianz summiert sich aus den quadrierten Abständen der einzelnen Punkte zu ihrem Gesamtmittelwert, also der entsprechenden horizontalen Linie, und die quadrierten Abstände zu der ja entsprechend optimal bestimmten Geraden sind natürlich in Summe kleiner als die zur horizontalen Mittelwert-Linie. Korrelation 0 bedeutet übrigens, dass die Regressionsgerade horizontal ist, dann stimmen die beiden genannten Varianzen überein und ihre Differenz R² ist dann auch 0, also die horizontale Variable hat keinerlei Vorhersagekraft für die vertikale.

Du zeigst damit den "linearen" Zusammenhang zwischen den beiden Variablen Möglicherweise einen positiven / negativen und natürlich auch wie "stark " dieser positive / negative lineare Zusammenhang ist

Und wo ist der genaue Unterschied zwischen Korrelation und Bestimmtheitsmaß? Das Bestimmtheitsmaß ist ja das Quadrat des Korrelationskoeffizienten

wenn man eine Gerade einzeichnen möchte?

Das stimmt nur bei einer linearen Regression. Regressionen können aber auch logarithmisch, exponentiell ... sein.

richtig er sprach ja von linearen Zusammenhängen , nämlich einer Geraden

0

Was möchtest Du wissen?