Dieser Artikel von Wikipedia ist u.U. veraltet. Die neue Version gibt es hier. Mit Hilfe Schätzen und Testen möchte man Informationen über eine unbekannte Grundgesamtheit erhalten.
Kann diese Grundgesamheit vollständig beobachtet werden sie die gewünschten Informationen.
Beispiel
In einer Urne sind fünf rote vier blaue Kugeln. Es werden drei Kugeln Zurücklegen aus dieser Urne gezogen. Definiert man Zufallsvariable X: Zahl der roten Kugeln unter drei gezogenen ist X hypergeometrisch verteilt mit M=5 als Zahl der roten in der Urne N=9 als Gesamtzahl der in der Urne und n=3 als Zahl Versuche. Hier können alle Informationen über die von X gewonnen werden.
In den meisten Fällen kann jedoch Grundgesamtheit nicht vollständig beobachtet werden weil sie groß ist. Interessiert man sich etwa für mittlere Größe eines 18jährigen Knaben in der müsste man alle 18jährigen messen was praktisch ist. In diesem Sinne könnte man das von oben etwa so abwandeln:
Beispiel
Ein Lebensmittelgroßmarkt bekommt eine Lieferung von Gläsern mit Pflaumenkompott. Problematisch sind in den verbliebene Kerne. Der Kunde toleriert einen Anteil Gläsern mit Kernen von 5%. Er möchte bei dieser Lieferung vergewissern dass diese Quote überschritten wird. Eine komplette Erhebung der Grundgesamtheit 2000 Gläsern ist allerdings nicht durchführbar denn Gläser zu kontrollieren ist zu aufwendig und zerstört das Öffnen eines Glases die Ware.
Allerdings könnte man eine kleine Zahl Gläsern zufällig aussuchen also eine Stichprobe nehmen die Zahl der zu beanstandenden Gläser zählen. die Zahl eine bestimmte Grenze den kritischen der Prüfgröße geht man davon aus dass in der Lieferung zu viele zu beanstandende sind. Man hofft dass die Stichprobe die wiederspiegelt. Geht die Lieferung deswegen zurück besteht Möglichkeit dass die Entscheidung richtig war dass zu viele Gläser mit Kernen in der sind aber es kann auch die Stichprobe ausgefallen sein und man lehnt die Lieferung ab.
Ist die Grundgesamtheit einer Zufallsvariablen unbekannt man eine Stichprobe: Man wählt n viele zufällig aus der Grundgesamtheit aus. Mit Hilfe Stichprobenelemente schätzt man den unbekannten Parameter der Diese Schätzung wird als Schätzfunktion bezeichnet. Da Stichprobe aufgrund der Zufälligkeit anders ausfällt sind diese Schätzfunktionen Zufallsvariablen deren Verteilung von der des Merkmals in der Grundgesamtheit abhängt. Mit dieser Verteilung kann man Wahrscheinlichkeiten für Intervalle in denen sich mit größter Wahrscheinlichkeit der Parameter befindet oder man testet ob eine Vermutung eine Hypothese über den Parameter bestätigt kann.
Man betrachtet ein quantitatives statistisches Merkmal Modelltheoretisch wird dieses Merkmal idealisiert: Man davon dass es sich in Wahrheit um eine X handelt deren tatsächliche „wahre“ Verteilung und Verteilungsparameter unbekannt sind. Man nennt dies die des Merkmals.
Diese Informationen erhofft man sich durch Stichprobe: Man entnimmt der Grundgesamtheit zufällig n Elemente. Mit Hilfe dieser Stichprobenelemente schätzt man die Parameter.
Um einen Parameter γ einer Verteilung schätzen nimmt man aus der Grundgesamtheit eine Zufallsstichprobe vom Umfang n es werden also Realisationen x i (i = 1 ... n) der X beobachtet. Man fasst die n Realisationen als unabhängige Folge von n Zufallsvariablen X i auf. Um den Parameter γ zu werden die X i in geeigneter Weise zusammengefasst. Sie bilden Schätzfunktion g(X 1 X 2 ... X n ) oder Stichprobenfunktion. Da die Stichprobe zufällig ist die Schätzfunktion wiederum eine Zufallsvariable.
Ist die Verteilung des Merkmal unbekannt bei genügend großem Stichprobenumfang die Verteilung der näherungsweise mit der Normalverteilung angegeben werden.
Man betrachtet hier das Urnenmodell mit Sorten Kugeln. Es soll der Anteilswert der erster Sorte in der Grundgesamtheit geschätzt werden. Schätzfunktion verwendet man den Anteil der Kugeln Sorte in der Stichprobe
<math>P=\frac{X}{n}
</math>
mit X: Zahl der Kugeln erster in der Stichprobe. Die Verteilung von P die gleiche wie die der entsprechenden Zufallsvariablen also eine Binomialverteilung im Modell mit Zurücklegen und eine hypergeometrische Verteilung im Modell ohne Zurücklegen.
Die Schätzfunktion soll eine möglichst kleine haben. Die Schätzfunktion g* aus allen erwartungstreuen g k die die kleinste Varianz hat wird beste oder wirksamste Schätzfunktion bezeichnet.
Die Ausführungen sollen zum besseren Verständnis eines (frei erfundenen) Beispiels erläutert werden.
In einem privat betriebenen medizinischen Labor eine neue Methode zur Vermehrung von Gewebezellen worden. Dieses Gewebe soll vor allem bei Verbrennungen auf die beschädigte Haut transplantiert werden. weiter planen zu können braucht man nähere über die Schnelligkeit des Zellwachstums. Man interessiert für die Frage: “Wie schwer ist ein bestimmten Gewichts nach vier Wochen Zucht?“.
Man definiert nun die Zufallsvariable X: eines Zellklumpens [g]. Da es sich dabei ein natürliches Phänomen handelt kann man nach zentralen Grenzwertsatz vermuten dass X normalverteilt ist. geht nun aber darum Informationen über die der Verteilung zu erhalten: Wie schwer ist ein Zellklumpen im Mittel und wie sehr die einzelnen Gewichte? Man sucht Informationen über Erwartungswert und die Varianz der Zufallsvariablen.
Tatsächlich ist das Gewicht eines Zellklumpens mit dem Erwartungwert μ = 10 [g] der Varianz σ 2 = 4 [g 2 ]. Diese "wahren" Parameter regieren also die sie sind den Laborbetreibern aber unbekannt .
Ergebnis des iten Röhrchens
x 1
x 2
x 3
x 4
x 5
Gewicht der Zellen x
7 4
9 4
10 2
9 6
11 7
Man kann nun den Erwartungswert schätzen mit dem arithmetischen Mittel als Schätzfunktion g 1
<math>\bar x=
\frac{1}{5}(7 4+9 4+...+11 7)=9 7
</math> .
Da jede Stichprobe vom Umfang 5 ausfallen kann ist das Mittel selbst eine
Es wäre aber als Schätzer g 2 für μ auch der Median z Es ist der drittgrößte Wert:
<math>z=9 6
</math> .
Zur Veranschaulichung wurde 1000 mal eine Stichprobe per Zufallszahlen erzeugt. Die ersten 18 werden in der unten folgenden Tabelle gezeigt. ersten fünf Spalten zeigen die einzelnen Ergebnisse folgen einige Schätzfunktionen.
Man sieht dass beispielsweise der arithmetische von 7 bis 11 2 schwankt. Auch Mediane variieren stark.
Wir könnten noch weitere Schätzfunktionen für vorschlagen etwa
<math> g_3=\frac{1}{2}(x_{[1]}+x_{[5]})
</math>
den Durchschnitt zwischen der kleinsten und Beobachtung oder
<math> g_4=\sqrt{x_1}.
</math>
Welche Schätzfunktion soll man nun verwenden? Kriterium ist die Erwartungstreue. Erwartungstreu sind vermutlich arithmetische Mittel und der Median aber auch Schätzfunktion g 3 . g 4 ist offensichtlich Unsinn wie auch ein auf die Tabelle zeigt.
Aus den drei akzeptablen Schätzfunktionen wird die mit der kleinsten Varianz ausgewählt denn ist der Schätzwert am verlässlichsten. Man kann dass das arithmetische Mittel die kleinste Varianz <math>\bar x</math> ist also ein bester Schätzer.
Die nächste Tabelle zeigt die Durchschnitte vier Schätzfunktionen und auch ihre Varianz.
Schätzfunktion für μ
Arithmetisches Mittel
Median
((min(x) + max(x))/2
Wurzel(x 1 )
Mittelwert der 1000 Schätzer
10 00
9 97
10 02
3 15
Varianz der 1000 Schätzer
0 79
1 22
1 01
0 10
.
Das Labor schätzt also den Erwartungswert 9 7 und die Varianz mit