Inhalt:Statistik:Daten und Diagramme: Unterschied zwischen den Versionen
Zeile 403: | Zeile 403: | ||
<div class="bild">[[Datei:Getoetete3.PNG|thumb|left|356px]]</div> | <div class="bild">[[Datei:Getoetete3.PNG|thumb|left|356px]]</div> | ||
+ | |||
+ | = Beispiele = | ||
+ | |||
+ | == Beschreibende Statistik (WS 1.1-1.4) == | ||
+ | |||
+ | {{#widget:Iframe | ||
+ | |url= https://h5p.org/h5p/embed/763955 | ||
+ | |width= 90% | ||
+ | |height= 700 | ||
+ | |border=1 | ||
+ | }} | ||
+ | <br> | ||
[[Kategorie:Statistik]] | [[Kategorie:Statistik]] |
Version vom 11. April 2020, 15:30 Uhr
Inhaltsverzeichnis
Daten und Diagramme
Begriffe
$n...$ Umfang der Stichprobe
$x_1...$ Zahl an der 1. Stelle
$x_i...$ Zahl an der $i.$ Stelle
$\{ x_1;x_2;.....;x_n \} ...$ Stichprobe (z. B. $\{ 1; 2; 5; 5; 5; 10;\}$ )
$a_1...$ erster Wert, der in der Stichprobe vorkommt (im oberen Beispiel ist $a_1=1$)
$a_4...$ vierter Wert, der in der Stichprobe vorkommt (im oberen Beispiel ist $a_4=10$)
$a_i...$ $i.$ Wert, der in der Stichprobe vorkommt
Arten von Merkmalen/Daten
Im Groben unterscheidet man zwischen $3$ Arten von Merkmalen:
- Nominale Merkmale können nicht sinnvoll durch eine Zahl beschrieben oder in eine Reihenfolge gebracht werden. Beispiele sind „Geschlecht“ und „Haarfarbe“.
- Ordinale Merkmale können in eine Reihenfolge gebracht werden, eignen sich aber nicht für Rechnungen (wie z. B. Addition). Beispiele sind „Platzierung bei einem Rennen“ und „Bildungsabschlüsse“.
- Metrische Merkmale können durch Zahlen beschrieben werden, mit denen man auch rechnen kann. Beispiele sind „Gehalt“, „Alter“ und „Schuhgröße“.
Absolute und relative Häufigkeit
|
Die absolute Häufigkeit $H_i$ gibt an, wie oft das $i-$te Element in der Stichprobe auftritt.
Z. B.: In der Menge $\{ 1;2;2;2;4;4;6\}$ ist die absolute Häufigkeit der Zahl $2$ genau $H=3$, da die $2$ insgesamt dreimal vorkommt. |
In einer (kleinen) Umfrage werden von $n=15$ Personen die Schuhgrößen gemessen. Das Ergebnis ist in der folgenden Liste angegeben:
$$\{36;36;36;37;37;37;37;38;38;40;41;42;42;42;46\}$$
Aufgabe: Ermitteln Sie in einer Tabelle die Häufigkeit jedes Merkmals ($=a_i$).
{
Werte $a_i$ $\\ $ | Häufigkeiten $H_i$ $\\ $ |
---|---|
36 | 3 |
37 | 4 |
38 | 2 |
40 | 1 |
41 | 1 |
42 | 3 |
46 | 1 |
Summe | 15 |
Aus der absoluten Häufigkeit kann man noch nicht darauf schließen, ob ein Merkmal wirklich häufig auftritt oder nicht, da es immer auch auf die Gesamtanzahl $n$ der untersuchten Werte ankommt.
So ist eine absolute Häufigkeit von $100$ für $n=150$ sehr groß, für $n=1$ Mrd. dagegen wohl eher klein.
In solchen Fällen ist es hilfreich zu wissen, wie viel Prozent der Gesamtmenge $n$ dieses Merkmal besitzen. Dies wird berechnet mit ...
|
Die relative Häufigkeit $h_i$ gibt an, mit wie viel Prozent ein Merkmal in Bezug auf die Gesamtmenge $n$ auftritt. Es gilt:
$$h_i=\frac{H_i}{n}$$ Z. B.: In der Menge $\{1;2;2;2;4;4;6\}$ ist die absolute Häufigkeit der Zahl $2$ genau $H=3$, die relative Häufigkeit ergibt sich dann mit: $$h=\frac{H}{n}=\frac{3}{7}\approx 43\%$$ |
Berechnen Sie mithilfe der Tabelle aus der Schuhgrößenumfrage (siehe oben) die relativen Häufigkeiten $h_i$.
Werte $a_i$ | absolute Häufigkeiten $H_i$ | relative Häufigkeiten $h_i$ |
---|---|---|
36 | 3 | $\ \ \ $ |
37 | 4 | |
38 | 2 | |
40 | 1 | |
41 | 1 | |
42 | 3 | |
46 | 1 | |
Summe | 15 |
$n=15$ {
Werte $a_i$ | absolute Häufigkeiten $H_i$ | relative Häufigkeiten $h_i$ |
---|---|---|
36 | 3 | $\frac{3}{15}=20$% |
37 | 4 | $\frac{4}{15}=26.7$% |
38 | 2 | $\frac{2}{15}=13.3$% |
40 | 1 | $\frac{1}{15}=6.7$% |
41 | 1 | $\frac{1}{15}=6.7$% |
42 | 3 | $\frac{3}{15}=20$% |
46 | 1 | $\frac{1}{15}=6.7$% |
Summe | 15 | $\frac{15}{15}=100$% |
Diagramme
Stab-/Säulen- und Balkendiagramm
In Stab- oder Säulendiagrammen gibt die $y$-Achse die absolute Häufigkeit (oder relative Häufigkeit) eines Merkmals auf der $x$-Achse an.
Bei Balkendiagrammen sind die Achsen vertauscht.
Schummeln: Klassen vereinigen Histogramm noch ausständig
Kreisdiagramm
Bei Kreisdiagrammen entspricht ein Kreissegment der relativen Häufigkeit eines Merkmals. Alle Kreissegmente zusammen (d. h. alle relativen Häufigkeiten) ergeben einen ganzen Kreis (d. h. $100 \%$).
|
Schummeln mit Kreisdiagrammen Bei dreidimensionalen Kreisdiagrammen erscheinen Segmente im hinteren Bereich kleiner als Segmente im vorderen Bereich. Deshalb sollte man auf den 3d-Effekt verzichten. |
Boxplot (Kastenschaubild)
Boxplot-Diagramme geben einen Überblick über die Verteilung der Daten, indem Sie die Datenreihe in vier $25 \%$-Bereiche teilen. Hierbei bildet der Bereich zwischen den Quartilen den „Kasten“, von dem aus die Antennen zum minimalen und maximalen Wert gehen ($x_{min}$ und $x_{max}$).
|
In jedem der $4$ Bereiche eines Boxplot-Diagramms liegen ca. $25 \%$ aller Werte |
Gegeben ist das folgende Boxplot-Diagramm, das aus den Daten der Schuhgrößen erstellt wurde.
Entscheiden Sie, ob die folgenden Aussagen richtig oder falsch sind und begründen Sie diese Entscheidung:
- Die Anzahl der Werte zwischen $36$ und $37$ ist mit Sicherheit geringer als die Anzahl der Werte zwischen $42$ und $46$.
- Weniger als $25 \%$ aller Werte sind kleiner oder gleich $42$.
- Falsch! Da jeder Bereich ca. $ 25 \%$ aller Werte umfasst, liegen in beiden Bereichen ungefähr gleich viele Werte.
- Falsch! Es sind mindestens $75 \%$ aller Werte kleiner oder gleich $42$ (oder weniger als $25 \%$ aller Werte sind größer als $42$).
http://tube.geogebra.org/student/m5245
http://tube.geogebra.org/student/m274871 (Andi Lindner)
http://tube.geogebra.org/student/b115371#material/56673 (sollte bearbeitet werden)
http://tube.geogebra.org/student/m129201 (Test)
Schummeln mit Statistik
Manipulieren von Liniendiagrammen
Die folgende Tabelle bildet die Grundlage für das Einführungsbeispiel:
Anzahl der im Straßenverkehr Getöteten in Österreich:
Jahr |
1995 |
1996 |
1997 |
1998 |
1999 |
2000 |
2001 |
2002 |
2003 |
2004 |
2005 |
2006 |
2007 |
2008 |
2009 |
2010 |
2011 |
2012 |
2013 |
2014 |
2015 |
Getötete |
1210 |
1027 |
1105 |
963 |
1079 |
976 |
958 |
956 |
931 |
878 |
768 |
730 |
691 |
679 |
633 |
552 |
521 |
531 |
455 |
430 |
475 |
Quelle: Statistik Austria
Das entsprechende Liniendiagramm sieht folgendermaßen aus:
Die an sich schon beeindruckende Statistik kann aber durchaus noch beeindruckender dargestellt werden, indem verschiedene Manipulationsmöglichkeiten angewendet werden.
Gezielte Auswahl der Datenreihe
In den Jahren 1999 bis 2014 sind die Werte bis auf eine kleine Ausnahme immer gesunken. Diese Daten nehmen wir im folgenden Diagramm.
Verkürzung der $y$-Achse
Um das Sinken der Werte noch deutlicher zu machen, wird die $y$-Achse erst bei $400$ gestartet.
Schon beeindruckender, nicht?
Dehnen und Stauchen der Achsen
Eine einfache Art, die Steilheit des Graphen zu verändern, ist das Stauchen der $x$-Achse bzw. entsprechendes Dehnen der $y$-Achse.
Beispiele
Beschreibende Statistik (WS 1.1-1.4)