Studium, Ausbildung und Beruf
 StudiumHome   FAQFAQ   RegelnRegeln   SuchenSuchen    RegistrierenRegistrieren   LoginLogin

Statistik Problem
Neues Thema eröffnen   Neue Antwort erstellen
Foren-Übersicht -> Mathe-Forum -> Statistik Problem
 
Autor Nachricht
davor
Newbie
Benutzer-Profile anzeigen
Newbie


Anmeldungsdatum: 02.08.2005
Beiträge: 3

BeitragVerfasst am: 02 Aug 2005 - 22:25:41    Titel: Statistik Problem

Hallo zusammen,
ich suche nach Rat in folgender Situation:
ich habe eine Anzahl von Datensätzen, die das Merkmal A (=spät) oder B(=rechtzeitig) tragen. Nun möchte ich herausfinden, ob andere Merkmale (z.B. Herkunftsort des Datensatzes) dieser Datensätze mit diesem Merkmal (A oder B) zusammenhängen. - Ein mögliches Ergebnis wäre z.B. das Datensätze des Herkunftsortes x mit hoher Wahrscheinlichkeit das Merkmal B tragen - ein anderes mögliches Ergebnis wäre, dass das Merkmal "Herkunftsort" keinen Einfluß auf die Merkmale A/B hat.

Jetzt meine Frage: Mit welchen Formeln kann ich diesem Problem Herr werden - Meine einzige Idee wäre hier eine Kontingenztafel zu benutzen(?)
kpforr
Junior Member
Benutzer-Profile anzeigen
Junior Member


Anmeldungsdatum: 21.07.2005
Beiträge: 54

BeitragVerfasst am: 03 Aug 2005 - 00:56:40    Titel:

zu allererst mal vorweg:
Meinst Du mit Datensätzen einzelne Fälle (Personen o.ä.) oder ganzen Mengen von Fällen?
Muss ich mir das so vorstellen?
Code:

Fall Id   Merkmal    Herkunftsort
1          spät            A
2          rechtzeitig     A
3          spät            B
4          rechtzeitig     B
5          rechtzeitig     C
...

Weiterhin unklar: Hat der Herkunftsort auch mehrere Ausprägungen so wie in meinem Beispiel oder nur zwei?

Grundsätzlich kann man hier nicht viele statistische Kennzahlen betrachten, da beide Variablen kategorial sind. Sinnvoll ist zu allererst eine Kreuztabelle:
Code:

                            Merkmal
Herkunftsort      spät       rechtzeitig
           A          N1          N2
           B          N3          N4
           C          N5          N6
              ...

Hier kann man dann schonmal Prozentsatzdifferenzen ausrechnen, d.h. ist der Anteil der späten in einem Herkunftsort X1 höher als im Herkunftsort X2. Das ist leider immer etwas hässlich, wenn man mehrere Herkunftsorte hat. Darüber hinaus gibt es die Kennzahl Cramers V (siehe z.B. Excel-Hilfe), die eine Aussage über die Abweichung von der Gleichverteilung macht, d.h. ob der Anteil spät/rechtzeitig überall eher gleich oder eher von ort zu ort verschieden ist. Cramers V geht von 0 bis 1, ist aber nicht inhaltlich interpretierbar ausser bei genau 0 bzw. 1 (0: alle anteile für alle orte gleich, 1: anteile bei einem ort 100% und bei allen anderen orten 0%) Ansonste gibts die sogenannte Hausnummernregel (0<=V<0.5 schwacher , 0.5<=V<0.8 mittlerer, 0.8<=V<=1 starker Zusammenhang).
Danach kann man sich die Frage der Signifikanz eines etwaigen Zusammenhangs stellen. Hierbei verwendet man üblicherweise den Chi^2-UNabhängigkeitstest (die Summe der quadrierten Abweichungen der Zellen der empirischen Kreuztabelle von den Zellen einer hypothetischen Kreuztabelle mit gleichen Randverteilungen (d.h. aggregiert derselbe Anteil spät/rechtzeitig und die selben Anteile auf den Orten), aber mit gleichen Anteilen spät/rechtzeitig in den Zellen! (d.h. Indifferenztabelle)).
Auch hier gibts wieder ausreichend Info z.B. in der Excel-Hilfe.
Schön ist dann noch, zu testen, ob die Differenzen zwischen einzelnen Anteilen (die oben erwähnten Prozentsatzdiff'n) statistisch signifikant verschieden von Null sind. Dabei rechnet man letztlich immer eine logistische Regression (nicht in Excel implemtiert, kann man auch nur mti erheblichem Aufwand selbst rechnen (keine analytische Lösung, sondern numerisch!))
Infos dazu allgemein gibts z.B. im englischen Wiki oder vielleicht noch besser hier: http://www.sowi.uni-mannheim.de/lehrstuehle/lessm/veranst/MultiVorlesung.pdf ab S.49.
Wichtig ist, dass du die Orte als erklärende (sog. unabhängige) Variablen verstehst, die die Unterschiede in den Anteilen spät/rechtzeitig erklären. (insoweit hast du hier eine Menge von Dummy-Variablen...)
Logit Rechnen und Signifikanz testen kann man online z.B. bei http://members.aol.com/johnp71/logistic.html oder mit Standard-Statistiksoftware (stata, spss, usw.).
davor
Newbie
Benutzer-Profile anzeigen
Newbie


Anmeldungsdatum: 02.08.2005
Beiträge: 3

BeitragVerfasst am: 05 Aug 2005 - 11:47:46    Titel:

Danke für die ausführliche Antwort!!! Du hast schon richtig vermutet, dass der Herkunfsort mehrere Ausprägungen hat (A,B,.C...). Bei den Datensätzen handelt es sich jeweils um einen Fall (also keine schon aggregierte Fallmenge).

Leide musste ich bei meiner ersten Anwendung feststellen, dass eine Grundvorraussetzung für chi-quadrat und darauf aufbauende
Konzepte (Phi, Cramers V und Kontingenzkoeffizient) von meinen Daten nicht erfüllt wurde (--> die erwarteten Werte der Indifferenztabelle waren zu einem großen Teil < 5).

Also werde ich jetzt versuchen meinen Auswertung dahin gehend abzuwandeln, dass ich für jeden Datensatz den gesamten Erstellungszeitraum darstelle (Datensätze mit der Charakteristik "spät" bringen halt einfach einen längeren Erstellungszeitraum mit sich).

Kann ich nun für jedes Merkmal (also Herkunftsland) Standardabweichung und Varianz (von einem gemeinsamen Mittelwert) messen - und somit einen Zusammenhang darstellen (Herkunftsland mit hoher Varianz "seiner" Datensätze hat mit hoher Wahrscheinlichkeit Einfluß auf "späte" Erstellung) - oder gibt es hier noch andere Auswertungsmöglichkeiten?
kpforr
Junior Member
Benutzer-Profile anzeigen
Junior Member


Anmeldungsdatum: 21.07.2005
Beiträge: 54

BeitragVerfasst am: 05 Aug 2005 - 14:27:37    Titel:

davor hat folgendes geschrieben:
Leide musste ich bei meiner ersten Anwendung feststellen, dass eine Grundvorraussetzung für chi-quadrat und darauf aufbauende
Konzepte (Phi, Cramers V und Kontingenzkoeffizient) von meinen Daten nicht erfüllt wurde (--> die erwarteten Werte der Indifferenztabelle waren zu einem großen Teil < 5).


allumfassendes hä?

Zu allererst mal vorweg. Das was Du Datensatz nennst, wird üblicherweise einfach als Fall bezeichnet. Ein Datensatz ist dem gegenüber die Menge aller Fälle mit den zugehörigen Variablenausprägungen (aus dem Englischen data set, wobei set eben Menge heisst).

Was meinst Du mit dem Erstellungszeitraum? Ist die kategoriale Variable nachträglich aus einer metrischen Variable über den Erstellungszeitraum gebildet? Wenn das der Fall, kann ich nur sagen, dass man sowas immer vermeiden sollte, da man durch die Aggregierung INformation verliert (wo du vorher weisst, dass ein Fall mehr oder weniger spät ist, hast du danach nur noch spät oder nciht spät. Ähnliche Fälle fallen, obwohl sie eigentlich unterscheidbar sind, in eine ununterscheidbare Gruppe). Dann kannst Du eine multivariate lineare Regression rechnen, d.h. du kriegst als interpretierbares Ergebnis, die bedingten Mittelwerten des Erstellungszeitraum je nach Ort, wobei noch testen kannst, ob die Differenzen in den Mittelwerten über die Orte hinweg signifikant sind.

Das mit diesem <5 versteh ich nicht. Wieviele Fälle und Orte hast Du denn? Wenn Du fsast so viele Orte wie Fälle hast, d.h. in jedem Ort nur ne Handvoll Fälle liegen, kannst Du jede Analyse vergessen, es sei denn, Du hast eine echte und gute Vollerhebung. erzähl mal noch ein bischen mehr zu deinen Daten.
Beiträge der letzten Zeit anzeigen:   
Foren-Übersicht -> Mathe-Forum -> Statistik Problem
Neues Thema eröffnen   Neue Antwort erstellen Alle Zeiten sind GMT + 1 Stunde
Seite 1 von 1

 
Gehe zu:  
Du kannst keine Beiträge in dieses Forum schreiben.
Du kannst auf Beiträge in diesem Forum nicht antworten.
Du kannst deine Beiträge in diesem Forum nicht bearbeiten.
Du kannst deine Beiträge in diesem Forum nicht löschen.
Du kannst an Umfragen in diesem Forum nicht mitmachen.

Chat :: Nachrichten:: Lexikon :: Bücher :: Impressum