Benutzer-Werkzeuge

Webseiten-Werkzeuge


statistik_mit_r:beispiele_verfahren:beispiele_grundlv:regression

Lineare Regression

Diese Seite beschreibt das Handling mit "R". Für Erklärungen zu den statistischen Inhalten besuchen Sie bitte die Vorlesung und die Übungen, und arbeiten Sie bitte Vorlesungs- und Übungsskripten durch!

Kontrollieren Sie bitte, ob Sie im R Commander im Menü 'Modelle' die beiden Einträge Regression Streudiagramm und Regression Konfidenzintervalle vorfinden. Die Menüpunkte sind ausgegraut, solange Sie noch kein Modell erstellt haben. Sollten sie nicht vorhanden sein, müssen sie erst das R Paket RcmdrPlugin.iasc installieren bzw. laden.


Daten einlesen

Folgende Anleitung können Sie mit folgender Beispiel-Datei nachvollziehen: luzernegrasmischungen.csv
(Zur Erinnerung: Anleitung CSV-Dateien einlesen)

Angabe:

Die Luzerne (Medicago sativa) findet in der Landwirtschaft Verwendung als Viehfutter. Im Zuge der Sortenprüfung von Luzernen wird bei der Sorte "Europe" der Ernteertrag in Abhängigkeit des ausgesääten Grasanteils geprüft.

In der Beispiel-Datei 'Luzernegrasmischungen.csv' wird der Ertrag von Luzernegrasmischungen (in dt/ha) zusammen mit dem verwendeten Grasanteil (in %) angegeben. Im Beispiel wird davon ausgegangen, dass die Datei in den DataFrame 'gras' eingelesen wurde.


Lineare Regression

Mittels linearer Regression kann der Ertrag (abhängige Variable) als lineare Funktion des Grasanteils (unabhängige Variable) beschrieben werden. Wichtig ist, dass Sie aus Ihrer Angabe richtig ableiten, welche Größe die abhängige Variable (Zielgröße) darstellt und welche die unabhängige Variable (Einflussgröße). Ein verwechseln der beiden Variablen führt zu einem gänzlich anderen und falschen Modell.

Im obigen Fall lautet das korrekte Modell:

$$Ertrag = a + b \cdot Grasanteil + \varepsilon. $$

'Statistik' > 'Modelle anpassen' > 'Lineare Regression …'

Wählen Sie abhängige und unabhängige Variable:

Aus der Tabelle 'Coefficients' können die Werte für die Regressionsparameter $a = 115.67500$ (Achsenabschnitt, engl. intercept) und $b = 0.20571$ (Einfluss Grasanteil) abgelesen werden.

Das geschätzte Modell lautet also: $Ertrag = 115.67500 + 0.20571 * Grasanteil$.

Ob die Parameter signifikant von Null verschieden sind, kann mithilfe der p-Werte in der letzten Spalte $Pr(>|t|)$ beurteilt werden, wobei kleine p-Werte gegen die Nullhypothese sprechen. Wählt man beispielsweise als Irrtumswahrscheinlichkeit $\alpha = 0.05$ ist der Parameter $b$ (Einfluss Grasanteil) signifikant von Null verschieden, da der p-Wert ($0.016$) kleiner als $\alpha = 0.05$ ist. Die Nullhypothese $\textrm{H}_0{:}~ b = 0$ wird daher verworfen. Der Test für den Paramter $a$ läuft genau so ab.

Bestimmtheitsmaß

Als numerisches Kriterium, wie gut das Modell den Zusammenhang zwischen abhängiger und unabhängiger Variable beschreibt, kann das Bestimmtheitsmaß $R^2$ verwendet werden. Dieses ist im R-Output nach der Koeffiziententabelle unter der Bezeichnung "Multiple R-squared" angegeben. In diesem Beispiel beträgt $R^2=0.6474$. Es können also knapp 65 % der Variabilität des Ertrags durch das Modell erklärt werden.

Scatterplot (Streudiagramm)

Das Streudiagramm dient zur grafischen Beurteilung, wie gut die Modellgerade den Zusammenhang zwischen den beiden Variablen beschreibt.

'Modelle' > 'Regression Streudiagramm':
(Hinweis: Die Menüpunkte sind ausgegraut, solange Sie noch kein Modell erstellt haben.)

Konfidenzintervall

Ein beidseitig beschränktes 95 %-iges Konfidenzintervall für den erwarteten Ertrag bei einem Grasanteil von 20 % soll berechnet werden:

'Modelle' > 'Regression Konfidenzintervalle …'
(Hinweis: Die Menüpunkte sind ausgegraut, solange Sie noch kein Modell erstellt haben.)

Damit erhalten wir als Grenzen eines 95 %-igen Konfidenzintervalls für den erwarteten Ertrag bei einem Grasanteil von 20 % 118.0 und 121.6 dt/ha. In Intervallschreibweise lautet das gesuchte Intervall also $[118.0, 121.6]$.

Um ein nach oben beschränktes 90 %-iges Vorhersageintervall für einen (gemessenen) Ertrag bei einem Grasanteil von 25 % berechnen zu können, muss $\alpha$ für das Konfidenzintervall verdoppelt werden.

Damit erhalten wir als obere Grenze eines nach oben beschränkten 90 %-igen Vorhersageintervalls für einen (gemessenen) Ertrag bei einem Grasanteil von 25 % 124.0 dt/ha. Die untere Grenze kann $-\infty$ gesetzt werden, da ein nach oben beschränktes Intervall verlangt ist. In Intervallschreibweise lautet das gesuchte Intervall also $(-\infty, 124.0]$.

Überprüfung der Voraussetzungen zur Regression

Unter dem Menü 'Modelle' > 'Grafiken' > 'Grundlegende diagnostische Grafiken' erhält man diagnostische Grafiken, mit denen sich die Voraussetzungen der Regressionsanalyse überprüfen lassen.

Die Residuen haben einer Normalverteilung mit dem Erwartungswert 0 zu folgen. Dies ist gegeben, wenn in der ersten Abbildung (Residuals vs. Fitted) die Punkte gleichmäßig um 0 streuen (rote Linie folgt der grau strichlierten Linie) und in der zweiten Abbildung (Normal Q-Q) die Punkte auf der strichliert eingezeichneten Diagonalen zu liegen kommen. Mithilfe der dritten Teilgrafik (Scale-Location) ist die Annahme der Varianzhomogenität zu prüfen, also ob die Varianz der Residuen unabhängig von der Zielgröße (fitted value) ist.


Wie geht es nun weiter?

Falls Sie bei obigen Schritten Schwierigkeiten hatten ...

  • … fragen Sie bitte in der nächsten Übungseinheit Ihre Übungleiterin oder Ihren Übungsleiter.
  • … fragen Sie auch Ihre Mitstudierenden, entweder persönlich in der nächsten Pause, oder im Forum des BOKUlearn-Kurses der Lehrveranstaltung.

Diese Seite beschreibt das Handling mit "R". Für Erklärungen zu den statistischen Inhalten besuchen Sie bitte die Vorlesung und die Übungen, und arbeiten Sie bitte Vorlesungs- und Übungsskripten durch!

statistik_mit_r/beispiele_verfahren/beispiele_grundlv/regression.txt · Zuletzt geändert: 2019-10-25 21:56 von Robert Wiedermann