Regression

[+/-]

Widgets

Widgets

Letzte Änderungen
Gewünschte Seiten
Wer ist online?
Aus Matura Wiki
Wechseln zu: Navigation, Suche

Die Regression ist eine Methode in der Statistik, den Zusammenhang (= Korrelation) zwischen zwei Merkmalen zu überprüfen.

Einleitung

Beispiel einer typischen linearen Regression

Sind zwei metrische Merkmale gegeben (z. B. Alter und Verdienst in einer Firma), so kann mithilfe der Regression der Zusammenhang dieser Merkmale überprüft und beschrieben werden.


Zuerst werden die Merkmale in einer Punktwolke dargestellt. Die Regression versucht nun, den Graphen einer Funktionmöglichst gut“ durch diese Punkte zu legen. „Möglichst gut“ bedeutet dabei, dass die Summe der Quadrate der $y$-Abstände zwischen Funktion und Punkten so gering wie möglich sein soll.

$Aha!$ $\ $ Dieses Arbeitsblatt zeigt dir die grundlegende Idee am Beispiel einer linearen Regression, bei der die „bestmögliche“ Gerade gesucht ist:


Was bei diesem Applet zu tun ist:

In der obigen Graphik siehst du $4$ Punkte, die durch eine Gerade möglichst gut angenähert werden sollen.

1. Hake das Kästchen „Gerade“ an.
2. Nun kannst du dir die vertikalen Abstände der Punkte zur Geraden und die Abstandsquadrate anzeigen lassen.
3. Verschiebe die blauen Punkte auf der Geraden so, dass die Summe der Abstandsquadrate minimal wird.
4. Wenn du glaubst, du hast nun die beste Gerade entdeckt, klicke auf das Kästchen bei „Trendlinie”. Die Trendlinie ist das Ergebnis der linearen Regression und gibt jene Gerade an, deren Abstandsquadrate minimal sind.


Idee der Regression

Falls das Applet nicht angezeigt wird, klicke hier.

Da wir im Unterricht die Regressionsgleichung immer mithilfe des Technologieeinsatzes lösen, überspringen wir die Herleitung der Regressionsgleichungen.

Regressionsgleichung mithilfe von Technologie berechnen und darstellen


GeoGebra Ti-8x
Wichtig beim ersten Mal: $\ $ Damit bei der Regression auch der Korrelationskoeffizient angezeigt wird, muss „Diagnostic“ auf „ON“ sein. Dies machst du, indem du auf Folgendes klickst:

$[2nd]+[0]$, dann gehe hinunter zu $DiagnosticOn$ und drücke $2$-mal $[Enter]$.

Das Video zeigt dir, wie die Regression mit einer linearen Funktion funktioniert.


Achtung: $\ $ Mit dem TI-82 musst du, um die lineare Funktion automatisch zu zeichnen (anders als im Video (siehe Minute 1:26 )), den Befehl $$LinReg(ax+b)\ L1,\ L2,\ Y1$$ eintippen. ($L1$ und $L2$ findest du bei $[2nd]+[1]$ bzw. $[2nd]+[2]$ und $Y1$ findest du unter $[VARS]+[\rightarrow ]+[Function]$)



Lineare Regression

Bei der linearen Regression werden die Daten mithilfe einer linearen Funktion („Gerade“) verbunden.

Musterbeispiel

Bsp.png

Alter (X) Gehalt (Y)
25 1800
27 2500
28 2400
35 3000
40 3000
40 2000
50 3600

Gegeben ist die folgende Tabelle, die das Alter und Gehalt der Bediensteten in einer Firma angibt.



a) Stellen Sie die Daten in einer Punktwolke dar, wobei das Alter die $x$- und das Gehalt die $y$-Koordinate eines jeden Punktes angeben soll.

b) Ermitteln Sie die Gleichung der Regressionsgeraden und zeichnen Sie diese in die Graphik ein.

c) Berechnen Sie mithilfe der Gleichung der Regressionsgeraden jenes Gehalt, über das eine 45-jährige Person verfügen sollte.

d) Bestimmen Sie mithilfe der Gleichung der Regressionsgeraden jenes Alter, bei dem ein Gehalt von $€4 200$ erreicht werden sollte.



a) Stellen Sie die Daten in einer Punktwolke dar, wobei das Alter die $x$- und das Gehalt die $y$-Koordinate eines jeden Punktes angeben soll.
Punktwolke: Jeder Punkt entspricht einer Person, mit $x$-Koordinate als Alter und $y$-Koordinate als Gehalt.


b) Ermitteln Sie die Gleichung der Regressionsgeraden und zeichnen Sie diese in die Graphik ein.

Durch Einsatz von Technologie erhalten wir die Gleichung $$f(x)=49.59x+878.63$$

Da die Regressionsgerade eine positive Steigung hat, herrscht ein positiver Zusammenhang, d. h je Älter eine Person ist, desto höher ist in der Regel ihr Gehalt. (Die Bedeutung des Korrelationskoeffizienten lernst du im nächsten Abschnitt).



c) Berechnen Sie mithilfe der Gleichung der Regressionsgeraden jenes Gehalt, über das eine 45-jährige Person verfügen sollte.

Aus der Angabe wissen wir, dass $x=45$. Gesucht ist nun der passende $y$-Wert $y=f(45)$. $$f(x)=49.59x+878.63$$ $$f(45)=49.59\cdot 45+878.63$$ $$f(45)=3110.18 $$ Bei einem Alter von 45 Jahren ist ein Gehalt von $€3 110.18$ zu erwarten.



Graphische Lösung der Aufgaben c) und d)

d) Bestimmen Sie mithilfe der Gleichung der Regressionsgeraden jenes Alter, bei dem ein Gehalt von $€4 200$.


Gegeben ist die $y$-Korrdinate $y=f(x)=4200$. Gesucht ist nun der $x$-Wert: $$f(x)=49.59x+878.63$$ $$4200=49.59x+878.63$$ Durch Freistellen von $x$ (siehe Äquivalenzumformungen) erhalten wir $$x=66.97$$ Bei einem Alter von ca. $67$ Jahren wäre ein Gehalt von $€4 200$ zu erwarten (vorausgesetzt, die Person ist noch nicht in Pension).


Korrelationskoeffizient $r$

Durch Berechnung der Regressionsgeraden kann noch keine Aussage über die Stärke des Zusammenhangs zweier Merkmale ($X$ und $Y$) ausgesagt werden. Dazu benötigt man den


Definition
Grün rufezeichen.png
Korrelationskoeffizient $r$

Der Korrelationskoeffizient $r$ gibt an, wie stark zwei Merkmale $X$ und $Y$ zusammenhängen.

  • Je stärker die Korrelation, desto näher ist $r$ bei $+1$ (bei einem positiven Zusammenhang) oder bei $-1$ (bei einem negativen Zusammenhang).
  • Je weiter entfernt $r$ von $\pm 1$ ist, desto schwächer ist die Korrelation.
  • Ist $r$ bei $0$, so herrscht keine Korrelation.
Aussage des Korrelationskoeffizienten $r$ über den Zusammenhang (= Korrelation)


$Aha!$ $\ $ In folgendem GeoGebra-Applet lernst du, wie die Korrelation durch die Lage der Punkte verändert wird.


Wie dieses Applet funktioniert:

Der Korrelationskoeffizient $r$ gibt an, wie stark oder schwach der lineare Zusammenhang zwischen dem $x$- und dem $y$-Wert ist.

Verschiebe die grünen Punkte (Datenpunkte), so dass
a) ein starker positiver Zusammenhang (d. h. $r\approx 1$),
b) ein starker negativer Zusammenhang (d. h. $r\approx -1$),
c) ein schwacher negativer Zusammenhang (d. h. $0.3\leq r\leq 0$) oder
d) kein Zusammenhang (d. h. $r=0$)
herrscht.


Übung zum Korrelationskoeffizient

Falls das Applet nicht angezeigt wird, klicke hier.





Korrelation und Kausalität

Merke
Rotes rufezeichen.png
Eine starke Korrelation (d. h. $\vert r\vert$ nahe bei 1) bedeutet noch lange nicht, dass es auch einen ursächlichen Zusammenhang zwischen zwei Merkmalen gibt. Oft spielen z. B. noch viel mehr Einflüsse eine Rolle.


Beispiele für Korrelation aber (wahrscheinlich) keinen direkten ursächlichen Zusammenhang:

  • Die Größe der Bevölkerung ($X$) hat Auswirkungen auf die Geschwindigkeit der Plattentektonik ($Y$).
Je mehr Menschen auf einer Kontinentalplatte leben, desto schneller bewegt sich diese. Beispiele: Indien, Japan.
  • Ein Rückgang an Störchen führt zu einer Abnahme an Neugeburten (Quelle).
Tatsächlich spielt hier eine dritte Variable, nämlich die Verstädterung einer Region eine Rolle.



Matura-Aufgaben

Merke
Rotes rufezeichen.png
Schrittfolge zur Berechnung von Regressionsaufgaben
  1. Schritt: Bestimme die $x$-Variablen (unabhängige Variable) und $y$-Variable (abhängige Variable).
  2. Schritt: Berechne die Regressionsgerade und den Korrelationskoeffizienten.
  3. Schritte: Verwende die Regressionsgerade, um die weiteren Aufgaben und Interpretationen zu lösen.


$Bifie$: Schotterwerk (leicht-mittel-mittel)
siehe auch

$Bifie$: Reisekosten (leicht-leicht-schwer-leicht)
siehe auch

$Bifie$: Preis und Absatz (mittel)
siehe auch

$Bifie$: Hustensaft (mittel-mittel-leicht)
siehe auch

$Bifie$: Intelligenzquotient (leicht-leicht-leicht)
siehe auch

$Bifie$: Kängurusprünge (leicht-mittel-leicht)
siehe auch

$Bifie$: Elektronikhersteller (mittel-schwer-leicht)
siehe auch

$Bifie$: Sektkellerei (mittel-leicht-schwer)
siehe auch

$Bifie$: Fahrzeugtests (2) (mittel)
siehe auch

$Bifie$: CeBit (2) ((leicht-mittel-mittel)
siehe auch

$Bifie$: Jahresumsatz ((leicht-leicht-mittel)
siehe auch

$Bifie$: Kostenanalyse (leicht-mittel-leicht)
siehe auch

$Bifie$: Urlaubsreisen (mittel-leicht-leicht)
siehe auch