Studium, Ausbildung und Beruf
 StudiumHome   FAQFAQ   RegelnRegeln   SuchenSuchen    RegistrierenRegistrieren   LoginLogin

verschiedene Unabhängige Variablen kombinieren - Anfänger :(
Neues Thema eröffnen   Neue Antwort erstellen
Foren-Übersicht -> Mathe-Forum -> verschiedene Unabhängige Variablen kombinieren - Anfänger :(
 
Autor Nachricht
SPSS_Sandra
Newbie
Benutzer-Profile anzeigen
Newbie


Anmeldungsdatum: 04.04.2013
Beiträge: 2

BeitragVerfasst am: 04 Apr 2013 - 14:38:17    Titel: verschiedene Unabhängige Variablen kombinieren - Anfänger :(

Hallo liebe User,

folgende Situation: Ich schreibe gerade eine Seminararbeit in Politik die einen statistischen Anteil hat, dessen Anspruch ich wohl unterschätzt habe.

Es geht in der Arbeit um Zusammenhänge zwischen der amerikanischen Wirtschaftslage und dem Wahlergebnis bei Präsidentschaftswahlen.

Die abhängige Variable ist der Stimmenanteil des Kandidaten der Partei des Amtsinhabers da, nach meiner Argumentation, die Partei weniger Stimmen bekommt, wenn die Wirtschaft den Bach runtergeht.

Ich habe zuerst einzelne erklärende Variablen in einfachen linearen Regressionen als vermutlich signifikant identifiziert. Dazu zählen so Faktoren wie "Entwicklung der Arbeitslosenquote in der Legislaturperiode" (Ich beobachte nur 25 Fälle, da weiter zurück kaum Daten vorliegen). Außerdem habe ich, in Anlehung an <a href='http://fairmodel.econ.yale.edu/rayfair/pdf/2006chtm.htm' target='_blank'>fairmodel.econ.yale.edu/rayfair/pdf/2006chtm.htm</a> aber auch Variablen die nur ja/nein (1/0) oder positiv/neutral/negativ (1/0/-1) wiedergeben um zum Beispiel sowas zu berücksichtigen wie ob der Kandidat als wirtschaftspolitisch kompetent gilt oder nicht.

Mein Problem ist, wie ich diese Variablen kombinieren kann, um zu einer Wahlfunktion zu kommen, die etwa so aussieht:

f(Stimmenanteil_amtsinhabende_Partei)=Konstante b + b1*arbeitslosigkeit + b2*Inflationsrate + bn*weitere_Variablen

Meine Fragen sind jetzt:
1. Wie bekomme ich die Konstante heraus und
2. woher die Regressionskoeffizienten? (ich arbeite mit SPSS Version 21)
3. Muss ich was besonderes beachten, weil ich die verschiedenen Variablenformen (prozentuelle Veränderung, 1/0, 1/0/-1) verwende?
4. Gibt es ein Verfahren, stufenweise eine Variable hinzuzufügen um so festzustellen, ob eine als scheinbar signifikant identifizierte Variable aufgrund von Korrelationen mit einer anderen Variable (zB Wachstum und Arbeitslosigkeit) nicht zur Verbesserung des Modells beiträgt und daher ausgeschlossen werden kann?

Ich hoffe, dass ich das jetzt einigermaßen verständlich dargestellt habe und habe noch die Hoffnung, dass das für jemanden, der Ahnung von Statistik hat, ein Kinderspiel ist.
Ich muss (Schande über mein Haupt) nichtmal genau verstehen, was da mathematisch von sich geht. Wenn jemand sagt, was ich in SPSS klicken muss um die Ergebnisse zu bekommen, wäre ich schon unendlich dankbar Smile.

Auch wenn ihr mir nur einen Tipp geben könnt, bitte tut es. Ich befürchte, jeder hier weiß mehr als ich.
So, ich gebe mich dann mal wieder meinem 900 Seiten-Schinken zu "Multivariaten Analyseverfahren" hin in der Hoffnung, dass ich vll. doch noch selbst auf die Lösung komme... VIELEN DANK schonmal!!!!!!

P.S.: Ich habe die Suchfunktion genutzt, konnte dies aber aufgrund fehlenden Wissens über die Bezeichnung der gesuchten Verfahren möglicherweise nicht effizient tun. Falls meine Frage hier schon beantwortet wurde: Sorry!

P.P.S.: Ich habe diese Frage auch in folgenden Foren auf anderen Internetseiten gestellt: http://matheplanet.de/matheplanet/nuke/html/viewtopic.php?topic=180075
M_Hammer_Kruse
Valued Contributor
Benutzer-Profile anzeigen
Valued Contributor


Anmeldungsdatum: 06.03.2006
Beiträge: 8216
Wohnort: Kiel

BeitragVerfasst am: 04 Apr 2013 - 18:39:36    Titel:

Was du brauchst, ist eine multilineare Regression. Multi, weil dein Zielwert (die abhängige Variable) linear von mehreren unabhängigen Variablen abhängen soll.

Nenne den Zielwert y und die unabhängigen Variablen x_k. Du suchst eine Funktion
[;z=b_0+b_1*x_1+...+b_n*x_n;]
(nicht "f(z)", wie du schreibst).

Nun liegen dir Sätze von Messpunkten y_i; x_1,i; ...; x_n,i vor und du suchst nun die besten Werte für die b-Koeffizienten dieser Funktion, so dass die z-Werte, die sich nach der Funktion ergeben, möglichst gut mit den gemessenen y-Werten übereinstimmen.

Das ist das Ziel, das man bei einer linearen Regression verfolgt.
Und das erreicht man so:

"Möglichst gute Übereinstimmung" heißt: Die größte Wahrscheinlichkeit. Nun wird es keine lineare Funktion geben, bei der man die b-Werte so geschickt gewählt hat, dass die y-Werte exakt getroffen werden. Wir betrachten daher die Abweichungen zwischen den rechnerisch ermittelten z-Werten und den gemessenen y-Werten.

Dabei nehmen wir an, dass die Wahrscheinlichkeit p(z_i), dass ein errechneter Wert z_i richtig ist, gaußverteilt mit der Abweichung vom gemessenen Wert y_i sinkt, also mit einem (hier unerheblichen, wie sich zeigen wird,) Proportionalitätsfaktor k:
[;p(z_i)=k*e^{-(z_i-y_i)^2};]
Die Wahrscheinlichkeit für einen vollständigen Satz von z-y-Abweichungen über alle Messpunkte ist das Produkt dieser Wahrscheinlichkeiten (weil es sich um eine logische Und-Verknüpfung der Abweichungen handelt), also
[;p_{ges}=k^n*e^{-\sum_i^n{(z_i-y_i)^2};].
(Diese letzte Gleichung ist übrigens der Hintergrund für die gaußsche Methode der kleinsten Quadratsumme.)

Wir wollen jetzt die b-Koeffizienten so wählen, dass diese Wahrscheinlichkeit maximal wird. Diese Koeffizienten stehen zwar in der letzen Gleichung noch gar nicht drin, aber sie verstecken sich in den z_i Werten. Wo das Maximum auftritt, bestimmt man wie üblich, indem man die Nullstelle der Ableitung feststellt. In diesem Fall - da wir mehrere b-Werte suchen - geht das über die partiellen Ableitungen nach allen einzelnen b-Koeffizienten.

Das im Detail vorzurechnen, würde hier den Rahmen sprengen. Nur soviel: Bei jeder Ableitung bleibt k^n als konstanter Faktor erhalten. Die Kettenregel lässt bei der äußeren Ableitung den Exponentialterm unverändert. Erst die innere Ableitung (also die des Exponenten) liefert dann etwas Interessantes, nämlich einen Faktor
[;\frac{\partial}{\partial b_j}\sum_i^n{-(z_i-y_i)^2};]
Nach dem Nullsetzen der Ableitungen kann man durch die Faktoren k^n und den Exponentialterm dividieren (e^x ist nie Null!), so dass letztlich nur die zuletzt benannten partiellen Ableitungen des Exponenten übrigbleiben.

Wenn man diese Ableitungen ausführt, bekommt man ein homogenes lineares Gleichungssystem mit insgesamt n+1 Gleichungen für b_0 bis b_n. In diesem Gleichungssystem stehen genau solche Terme mit Summen über die unabhängigen und die abhängige Variable und deren Mittelwerte, wie man sie aus den Formeln für den Korrelationskoeffizienten und die Regressionsgerade kennt.

Für eine multilineare Regression ist die symbolische Invertierung der (n+1)*(n+1)-Matrix dieses Gleichungssytems kaum noch handhabbar. Darum sollte man hier die Messwerte einsetzen und das System dann numerisch lösen.

Das liefert die optimalen Werte für b_0 bis b_n und damit die gesuchte Funktion.

Gruß, mike


Zuletzt bearbeitet von M_Hammer_Kruse am 04 Apr 2013 - 20:50:42, insgesamt einmal bearbeitet
SPSS_Sandra
Newbie
Benutzer-Profile anzeigen
Newbie


Anmeldungsdatum: 04.04.2013
Beiträge: 2

BeitragVerfasst am: 04 Apr 2013 - 19:52:05    Titel:

Hey, wow, vielen, vielen Dank für die ausführliche Antwort!! Ich werde das morgen mal testen und hoffe, dass ich das alles mit SPSS umsetzen kann Smile
Beiträge der letzten Zeit anzeigen:   
Foren-Übersicht -> Mathe-Forum -> verschiedene Unabhängige Variablen kombinieren - Anfänger :(
Neues Thema eröffnen   Neue Antwort erstellen Alle Zeiten sind GMT + 1 Stunde
Seite 1 von 1

 
Gehe zu:  
Du kannst keine Beiträge in dieses Forum schreiben.
Du kannst auf Beiträge in diesem Forum nicht antworten.
Du kannst deine Beiträge in diesem Forum nicht bearbeiten.
Du kannst deine Beiträge in diesem Forum nicht löschen.
Du kannst an Umfragen in diesem Forum nicht mitmachen.

Chat :: Nachrichten:: Lexikon :: Bücher :: Impressum