Studium, Ausbildung und Beruf

web uni-protokolle.de
 powered by
NachrichtenLexikonProtokolleBücherForenMittwoch, 16. Oktober 2019 

Multivariate Verteilung


Dieser Artikel von Wikipedia ist u.U. veraltet. Die neue Version gibt es hier.
Die gemeinsame Wahrscheinlichkeitsverteilung mehrerer Zufallsvariablen nennt multivariate Verteilung oder auch mehrdimensionale Verteilung.

Inhaltsverzeichnis

Formale Darstellung

Um Verwechslungen zu vermeiden werden Zufallsvariablen wie meistens - groß geschrieben Zufallsvektoren jedoch klein. Matrizen und Vektoren werden

Man betrachtet p viele Zufallsvariablen X j (j = 1 ... p) jeweils einem Erwartungswert EX j und der Varianz varX j . Die Zufallsvariablen sind zudem paarweise korreliert der Kovarianz covX j X k (j k = 1 ... p; ≠ k).

Man interessiert sich für die gemeinsame dass alle X j höchstens gleich einer jeweiligen Konstanten x j sind also

P(X 1 ≤ x 1 ∧ X 2 ≤ x 2 ∧ ... ∧ X p ≤ x p ) = F X (x 1 ;x 2 ; ... x p ).

Multivariate Zufallsvariablen werden i.a. in Matrixform dargestellt. Man fasst die Zufallsvariablen in (px1)-Zufallsvektor X zusammen:

<math>\underline x =
 \begin{pmatrix} X_1 \\ X_2 \\  
...\\
 X_p \end{pmatrix}  
</math> .

Für die obige gemeinsame Wahrscheinlichkeit erhält

<math>F_x(\underline x)=F_X
 \begin{pmatrix} x_1 \\ x_2 \\  
...\\
 x_p \end{pmatrix}  
</math>.

Die Erwartungswerte befinden sich im (px1)-Erwartungswertvektor

<math>\underline {Ex}=
 \begin{pmatrix} EX_1 \\ EX_2 \\  
...\\
 EX_p \end{pmatrix}  
</math> .

Die Varianzen werden zusammen mit den in der (pxp)-Kovarianzmatrix Σ aufgeführt:

<math>\underline \Sigma=
 \begin{pmatrix} varX_1 & covX_2X_1 & covX_1X_3& & covX_1X_p \\ covX_2X_1 & varX_2& covX_2X_3 ... & covX_2X_p \\ ...&...&...&covX_jX_k&... \\ covX_pX_1 covX_pX_2& covX_pX_3 & ... & varX_p \\ 
\end{pmatrix} </math>

Man sieht dass Σ symmetrisch ist. Auf der Hauptdiagonalen sind die angeordnet. x ist also verteilt mit dem Erwartungswertvektor EX und der Kovarianzmatrix Σ .

Die Umformung zu den Korrelationskoeffizienten

<math>\rho_{jk}={covX_jX_k \over\ \sqrt{varX_j\cdot varX_k}}</math>
  
ergibt die Korrelationsmatrix

<math>\underline R=
 \begin{pmatrix} 1 &\rho_{12}& \rho_{13}& ... & \\ \rho_{21}&1& \rho_{23}& ... & \rho_{2p} \\ \rho_{jk}&... \\ \rho_{p1}& \rho_{p2}& \rho_{p3} & ... 1\\  
\end{pmatrix} </math>

Gemeinsame Wahrscheinlichkeiten sind häufig schwierig zu vor allem wenn schon die Einzelwahrscheinlichkeiten nicht bestimmbar sind. Man behilft sich dann gegebenenfalls Abschätzungen. Vor allem können die Auswirkungen der auf die Verteilung in der Regel nicht werden.

Sind die Zufallsvariablen stochastisch unabhängig ist die gemeinsame Wahrscheinlichkeit gleich dem der entsprechenden Einzelwahrscheinlichkeiten.

<math>F_x(\underline x)=\underline F_X
 \begin{pmatrix} x_1 \\ x_2 \\  
...\\
 x_p \end{pmatrix}=F_{X_1}(x_1) \cdot F_{X_2}(x_2) \cdot ... F_{X_p}(x_p)  
</math>.

Ausgewählte multivariate Verteilungen

Von Bedeutung sind vor allem die

die multivariaten Verfahren zu Grunde liegen. Meistens ist es mittels einer linearen Transformation den Zufallsvektor in Skalar umzuwandeln das dann univariat verteilt ist so als Testprüfgröße fungiert.

Die multivariate Normalverteilung

Gegeben ist ein Vektor x aus p gemeinsam normalverteilten Zufallsvariablen mit Erwartungswertvektor μ und der Kovarianzmatrix Σ . Die gemeinsame Dichtefunktion der Vektorkomponenten ist durch

<math>f_x(x)=(2\pi)^{-{p\over2}}|\underline \Sigma|^{-{1 \over 2}}exp(-{1 \over 2}(\underline x-\underline \Sigma^{-1}(\underline x-\underline \mu))
</math>.

Es ist also

<math>\underline x\sim N_p(\underline \mu;\underline \Sigma)</math>.

Die Kovarianzmatrix Σ ist i. a. positiv definit. Die der Verteilungsfunktion F müssen numerisch ermittelt werden.

Die multivariate Normalverteilung hat spezielle Eigenschaften:

  • Sind die Komponenten des Zufallsvektors x paarweise unkorreliert sind sie auch stochastisch

  • Die lineare Transformation y = a + BX mit B als (qxp)-Matrix (q ≤ p) und a als (qx1)-Vektor ist q-dimensional normalverteilt als q ( a + ; BΣB T ).

  • Die lineare Transformation
<math>\underline y=\underline \Sigma^{-{1\over2}}(\underline X-\underline \mu) </math>
standardisiert den Zufallsvektor x . Es ist

<math>\underline Y \sim N_p(\underline 0;\underline 1)</math>.

also sind die Komponenten von y stochastisch unabhängig.

  • X kann auch eine singuläre Kovarianzmatrix besitzen. Man spricht dann von degenierten oder singulären multivariaten Normalverteilung.

Beispiel für eine multivariate Normalverteilung

Betrachtet wird eine Apfelbaumplantage mit sehr gleich alten also vergleichbaren Apfelbäumen. Man interessiert für die Merkmale Größe der Apfelbäume die der Blätter und die Erträge. Es werden die Zufallsvariablen definiert:

X 1 : Höhe eines Baumes [m]; X 2 : Ertrag [100 kg]; X 3 : Zahl der Blätter [1000 Stück].

Die Variablen sind jeweils normalverteilt wie

<math>X_1 \sim N(4;1); X_2 \sim N(20;100); X_3 N(20;225);</math>

Die meisten Bäume sind also um ± 1m groß sehr kleine oder sehr Bäume sind eher selten. Bei einem großen ist der Ertrag tendenziell größer als bei kleinen Baum aber es gibt natürlich hin wieder einen großen Baum mit wenig Ertrag. und Größe sind korreliert die Kovarianz beträgt 1 X 2 =9 und der Korrelationskoeffizient ρ 1 2 = 0 9.

Ebenso ist covX 1 X 3 =12 75 mit dem Korrelationskoeffzienten ρ 13 = 0 85 und covX 2 X 3 =120 mit dem Korrelationskoeffzienten ρ 23 = 0 8.

Fasst man die drei Zufallsvariablen im x zusammen ist x multivariat normalverteilt mit

<math>\underline \mu =
 \begin{pmatrix} 4 \\ 20 \\ 20  
</math>

und

<math>\underline \Sigma=
 \begin{pmatrix} 1& 9 &12 75 \\ &100& 120 \\ 12 75 &120& 225 
\end{pmatrix} </math> .

Die entsprechende Korrelationsmatrix ist

<math>\underline R=
 \begin{pmatrix} 1& 0 9 &0 85 0 9 &1& 0 8 \\ 0 &0 8&1  
\end{pmatrix} </math>.

Stichproben bei Multivariaten Verteilungen

In der Realität werden in aller die Verteilungsparameter einer Multivariaten Verteilung nicht bekannt Diese Parameter müssen also geschätzt werden.

Man zieht eine Stichprobe vom Umfang Jede Realisation i (i=1 ... n) des x könnte man als Punkt in einem Hyperraum auffassen. Man erhält so die (nxp)-Datenmatrix X als

<math>\underline X=
\begin{pmatrix} x_{11}& x_{12}& \cdots &x_{1j}&\cdots &x_{1p}\\ x_{22}& \cdots &x_{2j}&\cdots &x_{2p}\\ \vdots& & & &\vdots \\ x_{i1}& x_{i2}& \cdots &x_{ij}&\cdots &x_{ip}\\ & & & &\vdots \\ x_{n1}& x_{n2}& &x_{nj}&\cdots &x_{np} \end{pmatrix} </math>

die in jeder Zeile die Koordinaten Punktes enthält.

Der Erwartungswertvektor wird geschätzt durch den der p arithmetischen Durchschnitte

<math>\underline \widehat{Ex}=\underline \bar x=
 \begin{pmatrix}  
\bar x_1\\ \bar x_2\\ \vdots\\ \bar \vdots\\ \bar x_p
 \end{pmatrix}  
</math>

mit den Komponenten

<math> \bar x_j = \frac{1}{n}\sum_{i=1}^n x_{ij}

Für die Schätzung der Kovarianzmatrix erweist die bezüglich der arithmetischen Mittelwerte zentrierte Datenmatrix X* als nützlich. Sie berechnet sich als

<math> \underline X^*=\underline X-\underline l\cdot\underline \bar </math>

mit den Elementen x* ij wobei l einen (nx1)-Spaltenvektor mit lauter Einsen bedeutet.

Die (pxp)-Kovarianzmatrix hat die geschätzten Komponenten

<math>s_{jk}=\widehat{covX_jX_k}=\frac{1}{n-1}\sum_{i=1}^n x*_{ij}x*_{ik}</math>.

Sie ergibt sich als

<math>\widehat{\underline \Sigma}=\underline S= \frac{1}{n-1}\underline X^{*T}\underline X^*</math>.

Die Korrelationsmatrix R wird geschätzt durch die paarweisen Korrelationskoeffizienten

<math>r_{jk}= \frac{\sum_{i=1}^n x*_{ij}x*_{ik}} {\sqrt{\sum_{i=1}^n x*_{ij}^2}\sqrt{\sum_{i=1}^n x*_{ik}^2}}</math>

auf ihrer Hauptdiagonalen stehen Einsen.

Beispiel zu Stichproben

Es wurden 10 Apfelbäume zufällig ausgewählt. 10 Beobachtungen werden in der Datenmatrix X zusammengefasst:

<math>\underline X=
\begin{pmatrix} 3 3&24& 24 \\ 4 41&55\\ 5 9& 46&52 \\ 5 2& 3 6& 29 &34 \\ 4 2&33& \\ 5 0&42& 43\\ 5 1&35& 54 6 8&69& 70 \\ 5 0&41&50 \end{pmatrix} .

Die Mittelwerte berechnen sich wie beispielhaft <math>\bar x_1</math> gezeigt als

<math> \bar x_1=\frac{1}{10}(3 3+4 9+...+5 0)=4 9</math>.

Sie ergeben den Mittelwertvektor

<math>\underline \bar x=
 \begin{pmatrix}  
4 9\\ 40\\ 49
 \end{pmatrix}  
</math>

Für die zentrierte Datenmatrix X * erhält man die zentrierten Beobachtungen indem von den Spalten den entsprechenden Mittelwert abzieht:

3 3 - 4 9 = 6; 24 – 40 = -16; 27 - 40 = -22
4 9 - 4 0 = 41 - 40 = 1; 55 - 49 = 6
...

also

<math>\underline \underline X^*=
\begin{pmatrix} -1 6&-16& -22 \\ 0 1&6\\ 1 0& 6&3 \\ 0 3& -1 3& -11 &-15 \\ -0 7&-7& \\ 0 1&2& -6\\ 0 2&-5& 5 1 9&20& 21 \\ 0 1&1&1 \end{pmatrix} .

Man berechnet für die Kovarianzmatrix die wie im Beipiel

<math>s_{12}=\widehat{covX_1X_2}=\frac{1}{9}(-1 6 \cdot (-16)+0\cdot 1+...+0 1\cdot 1) 10 09</math>

und entsprechend die Varianzen

<math>s_{22}=\widehat{varX_2}=\frac{1}{9}((-16)^2 +0^2+...+1^2) =\frac{974}{9}\approx 108 22</math>

so dass sich die Kovarianzmatrix

<math>\underline S=
\begin{pmatrix} 1 06&10 09&10 91 \\ 09& 108 22&106 22\\ 10 91& 106 89 \end{pmatrix} </math>

ergibt.

Entsprechend erhält man für die Korrelationsmatrix Beispiel

<math> r_{12}=\frac{10 09}{\sqrt{1 06\cdot 108 22 }} 0 9439</math>

bzw. insgesamt

<math>\underline R=
\begin{pmatrix} 1&0 9439&0 8884 \\ 0 1&0 8542\\ 0 8884& 0 8542&1 \end{pmatrix} .

Literatur

  • Mardia KV Kent JT Bibby JM: Multivariate Analysis New York 1979
  • Fahrmeir Ludwig Hamerle Alfred Tutz Gerhard (Hrsg): Multivariate statistische Verfahren New York 1996
  • Hartung Joachim Elpelt Bärbel: Multivariate Statistik München Wien 1999



Bücher zum Thema Multivariate Verteilung

Dieser Artikel von Wikipedia unterliegt der GNU FDL.

ImpressumLesezeichen setzenSeite versendenSeite drucken

HTML-Code zum Verweis auf diese Seite:
<a href="http://www.uni-protokolle.de/Lexikon/Multivariate_Verteilung.html">Multivariate Verteilung </a>