Statistik:Daten und Diagramme

[+/-]

Widgets

Widgets

Letzte Änderungen
Gewünschte Seiten
Wer ist online?
Aus Matura Wiki
Wechseln zu: Navigation, Suche

Begriffe

$n...$ Umfang der Stichprobe

$x_1...$ Zahl an der 1. Stelle

$x_i...$ Zahl an der $i.$ Stelle

$\{ x_1;x_2;.....;x_n \} ...$ Stichprobe (z. B. $\{ 1; 2; 5; 5; 5; 10;\}$ )

$a_1...$ erster Wert, der in der Stichprobe vorkommt (im oberen Beispiel ist $a_1=1$)

$a_4...$ vierter Wert, der in der Stichprobe vorkommt (im oberen Beispiel ist $a_4=10$)

$a_i...$ $i.$ Wert, der in der Stichprobe vorkommt


Arten von Merkmalen/Daten

Im Groben unterscheidet man zwischen $3$ Arten von Merkmalen:

  • Nominale Merkmale können nicht sinnvoll durch eine Zahl beschrieben oder in eine Reihenfolge gebracht werden. Beispiele sind „Geschlecht“ und „Haarfarbe“.
  • Ordinale Merkmale können in eine Reihenfolge gebracht werden, eignen sich aber nicht für Rechnungen (wie z. B. Addition). Beispiele sind „Platzierung bei einem Rennen“ und „Bildungsabschlüsse“.
  • Metrische Merkmale können durch Zahlen beschrieben werden, mit denen man auch rechnen kann. Beispiele sind „Gehalt“, „Alter“ und „Schuhgröße“.



Absolute und relative Häufigkeit

Definition
Grün rufezeichen.png
Die absolute Häufigkeit $H_i$ gibt an, wie oft das $i-$te Element in der Stichprobe auftritt.

Z. B.: In der Menge $\{ 1;2;2;2;4;4;6\}$ ist die absolute Häufigkeit der Zahl $2$ genau $H=3$, da die $2$ insgesamt dreimal vorkommt.


Bsp.png

In einer (kleinen) Umfrage werden von $n=15$ Personen die Schuhgrößen gemessen. Das Ergebnis ist in der folgenden Liste angegeben: $$\{36;36;36;37;37;37;37;38;38;40;41;42;42;42;46\}$$ Aufgabe: Ermitteln Sie in einer Tabelle die Häufigkeit jedes Merkmals ($=a_i$).

Lösung

{

Werte $a_i$ $\\ $ Häufigkeiten $H_i$ $\\ $
36 3
37 4
38 2
40 1
41 1
42 3
46 1
Summe 15


Aus der absoluten Häufigkeit kann man noch nicht darauf schließen, ob ein Merkmal wirklich häufig auftritt oder nicht, da es immer auch auf die Gesamtanzahl $n$ der untersuchten Werte ankommt.

So ist eine absolute Häufigkeit von $100$ für $n=150$ sehr groß, für $n=1$ Mrd. dagegen wohl eher klein.


In solchen Fällen ist es hilfreich zu wissen, wie viel Prozent der Gesamtmenge $n$ dieses Merkmal besitzen. Dies wird berechnet mit ...

Definition
Grün rufezeichen.png
Die relative Häufigkeit $h_i$ gibt an, mit wie viel Prozent ein Merkmal in Bezug auf die Gesamtmenge $n$ auftritt. Es gilt:

$$h_i=\frac{H_i}{n}$$

Z. B.: In der Menge $\{1;2;2;2;4;4;6\}$ ist die absolute Häufigkeit der Zahl $2$ genau $H=3$, die relative Häufigkeit ergibt sich dann mit: $$h=\frac{H}{n}=\frac{3}{7}\approx 43\%$$


Bsp.png

Berechnen Sie mithilfe der Tabelle aus der Schuhgrößenumfrage (siehe oben) die relativen Häufigkeiten $h_i$.

Werte $a_i$ absolute Häufigkeiten $H_i$ relative Häufigkeiten $h_i$
36 3 $\ \ \ $
37 4
38 2
40 1
41 1
42 3
46 1
Summe 15



Lösung

$n=15$ {

Werte $a_i$ absolute Häufigkeiten $H_i$ relative Häufigkeiten $h_i$
36 3 $\frac{3}{15}=20$%
37 4 $\frac{4}{15}=26.7$%
38 2 $\frac{2}{15}=13.3$%
40 1 $\frac{1}{15}=6.7$%
41 1 $\frac{1}{15}=6.7$%
42 3 $\frac{3}{15}=20$%
46 1 $\frac{1}{15}=6.7$%
Summe 15 $\frac{15}{15}=100$%



Diagramme

Säulen- und Balkendiagramm

In Säulendiagrammen gibt die $y$-Achse die absolute Häufigkeit (oder relative Häufigkeit) eines Merkmals auf der $x$-Achse an.

Säulendiagramm der Schuhgrößen


Bei Balkendiagrammen sind die Achsen vertauscht.

Balkendiagramm der Schuhgrößen


Histogramm

Analog zum Säulen- und Balkendiagramm können absolute Zahlen und Prozentsätze auch in einem Histogramm dargestellt werden. In beiden Fällen ist auf eine geeignete Beschriftung der Achsen zu achten. Im Unterschied zu einem Säulendiagramm entsprechen die absoluten oder relativen Häufigkeiten nun nicht mehr den Höhen der Säulen, sondern den rechteckigen Flächen der Säulen. Auf Zwischenräume bei den einzelnen Säulen kann auch verzichtet werden. Bei einem Histogramm mit Klasseneinteilung werden zuerst die Werte zu Klassen zusammengefasst, wobei möglichst gleich breite Klassen anzustreben sind. Für die Höhe der Rechtecke gilt: $$\text{Rechteckshöhe}=\frac{\text{absolute bzw. relative Häufigkeit}}{\text{Klassenbreite}}$$

Im Beispiel fassen wir die Schuhgrößen in Klassen mit der Klassenbreite $2$ zusammen und erstellen eine Häufigkeitstabelle.

Schuhgrößen absolute Häufigkeiten $H_i$ relative Häufigkeiten $h_i$ Rechteckshöhe
$[36; 38[$ $7$ $\frac{7}{15}=46.7 \% $ $\frac{7}{2}=3.5$ bzw. $\frac{46.7}{2}=23.3$
$[38; 40[$ $2$ $\frac{2}{15}=13.3 \%$ $\frac{2}{2}=1$ bzw. $\frac{13.3}{2}=6.7$
$[40; 42[$ $2$ $\frac{2}{15}=13.3 \%$ $\frac{2}{2}=1$ bzw. $\frac{13.3}{2}=6.7$
$[42; 44[$ $3$ $\frac{3}{15}=20 \%$ $\frac{3}{2}=1.5$ bzw. $\frac{20}{2}=10$
$[44; 46]$ $1$ $\frac{1}{15}=6.7 \%$ $\frac{1}{2}=0.5$ bzw. $\frac{6.7}{2}=3.3$


Anhand der Daten aus der Tabelle lassen sich abschließend Histogramme mit absoluten bzw. relativen Häufigkeiten erstellen.

Histogramm mit absoluten Häufigkeiten


Histogramm mit relativen Häufigkeiten



Kreisdiagramm

Bei Kreisdiagrammen entspricht ein Kreissegment der relativen Häufigkeit eines Merkmals. Alle Kreissegmente zusammen (d. h. alle relativen Häufigkeiten) ergeben einen ganzen Kreis (d. h. $100 \%$).

Kreisdiagramm der Schuhgrößen


Merke
Rotes rufezeichen.png
Kreisdiagramm mit 3d-Effekt

Schummeln mit Kreisdiagrammen

Bei dreidimensionalen Kreisdiagrammen erscheinen Segmente im hinteren Bereich kleiner als Segmente im vorderen Bereich. Deshalb sollte man auf den 3d-Effekt verzichten.


Boxplot (Kastenschaubild)

Boxplot-Diagramme geben einen Überblick über die Verteilung der Daten, indem Sie die Datenreihe in vier $25 \%$-Bereiche teilen. Hierbei bildet der Bereich zwischen den Quartilen den „Kasten“, von dem aus die Antennen zum minimalen und maximalen Wert gehen ($x_{min}$ und $x_{max}$).

Boxplot-Diagramm


Merke
Rotes rufezeichen.png
In jedem der $4$ Bereiche eines Boxplot-Diagramms liegen ca. $25 \%$ aller Werte



Bsp.png

Gegeben ist das folgende Boxplot-Diagramm, das aus den Daten der Schuhgrößen erstellt wurde.

Boxplot der Daten für die Schuhgrößen

Entscheiden Sie, ob die folgenden Aussagen richtig oder falsch sind und begründen Sie diese Entscheidung:

  1. Die Anzahl der Werte zwischen $36$ und $37$ ist mit Sicherheit geringer als die Anzahl der Werte zwischen $42$ und $46$.
  2. Weniger als $25 \%$ aller Werte sind kleiner oder gleich $42$.



$\ $
  1. Falsch! Da jeder Bereich ca. $ 25 \%$ aller Werte umfasst, liegen in beiden Bereichen ungefähr gleich viele Werte.
  2. Falsch! Es sind mindestens $75 \%$ aller Werte kleiner oder gleich $42$ (oder weniger als $25 \%$ aller Werte sind größer als $42$).


Hilfreiche GeoGebra-Applets



Manipulieren von Liniendiagrammen

Die folgende Tabelle bildet die Grundlage für das Einführungsbeispiel:

Anzahl der im Straßenverkehr Getöteten in Österreich:

Jahr

1995

1996

1997

1998

1999

2000

2001

2002

2003

2004

2005

2006

2007

2008

2009

2010

2011

2012

2013

2014

2015

Getötete

1210

1027

1105

963

1079

976

958

956

931

878

768

730

691

679

633

552

521

531

455

430

475

Quelle: Statistik Austria

Das entsprechende Liniendiagramm sieht folgendermaßen aus:

Getoetete1.PNG


Die an sich schon beeindruckende Statistik kann aber durchaus noch beeindruckender dargestellt werden, indem verschiedene Manipulationsmöglichkeiten angewendet werden.


Gezielte Auswahl der Datenreihe

In den Jahren 1999 bis 2014 sind die Werte bis auf eine kleine Ausnahme immer gesunken. Diese Daten nehmen wir im folgenden Diagramm.


Verkürzung der $y$-Achse

Um das Sinken der Werte noch deutlicher zu machen, wird die $y$-Achse erst bei $400$ gestartet.

Getoetete2.PNG

Schon beeindruckender, nicht?


Dehnen und Stauchen der Achsen

Eine einfache Art, die Steilheit des Graphen zu verändern, ist das Stauchen der $x$-Achse bzw. entsprechendes Dehnen der $y$-Achse.

Getoetete3.PNG


Quiz: Beschreibende Statistik (WS 1.1-1.4)