Nehmen wir an, wir wollen die Hypothese testen, dass der Anteil der blauäugigen Marsmenschen im Laufe des 20. Jahrhunderts abgenommen hat. Leider schwankt die Marsbevölkerung stark, so dass jedes Jahrzehnt ein großer Unterschied in der Gesamtbevölkerung besteht [Update: Betrachten Sie die Marsbevölkerung als konstant bei einer Milliarde Marsmenschen. Die folgenden Daten sind Zufallsstichproben für jedes Jahr. Der Datensatz (der sich beim Schreiben zusammensetzt) könnte ungefähr so aussehen:
Year | Total martian population | Blue-eyed martians | Proportion
1910 | 400 | 250 | 0.625
1920 | 2000 | 1000 | 0.500
1930 | 70 | 40 | 0.571
1940 | 30 | 14 | 0.467
1950 | 10 | 4 | 0.400
1960 | 140 | 52 | 0.371
1970 | 50 000 | 15 400 | 0.308
1980 | 70 000 | 22 000 | 0.314
1990 | 1500 | 80 | 0.053
2000 | 5000 | 800 | 0.160
Die Analyse von Jahren, in denen die Marsbevölkerung unter 100 Jahre alt ist, ist statistisch eindeutig nicht so aussagekräftig wie bei einer Bevölkerung über 10 000, da wir im letzteren Fall einen größeren Datensatz haben. Dennoch möchten wir alle verfügbaren Daten verwenden, um unsere Hypothese mit einem herkömmlichen Signifikanzniveau von 95% zu überprüfen.
Wie Fahren wir fort? Gewichten wir die Wichtigkeit eines jeden Jahres nach der Größe der Stichprobe zu der Zeit?
Weitere Änderungen, um den Bedenken gerecht zu werden: Hier geht es darum, wie wir jeden Datensatz angemessen gewichten, wobei zu berücksichtigen ist, dass er so unterschiedliche Größen hat. Es gibt keine Stichprobenverschiebung, da die Daten zufällig ausgewählt werden.
Antworten:
Jedes Jahrzehnt kennen wir und diese sind durch die Daten gegeben - aber wir kennen . Wir können es schätzen, indem wir annehmen, dass die logarithmischen Quoten , die entsprechen, linear von Jahr zu Jahr variieren (zumindest in guter Näherung). Dies bedeutet, dass wir davon ausgehen, dass es die Zahlen und so dassn k p p β0 β1
Gleichermaßen
Wenn Sie dies in (1) einstecken, haben Sie die Möglichkeit, aus während eines bestimmten Jahres als zu beobachtenk n t
Unter der Annahme, dass die Proben unabhängig in den Jahren usw. erhalten werden und die entsprechenden und von blauäugigen Probanden als und , ist die Wahrscheinlichkeit der Daten das Produkt der Wahrscheinlichkeiten der einzelnen Ergebnisse. Dieses Produkt ist (per Definition) die Wahrscheinlichkeit von . Wir können diese Parameter als die Werte schätzen , die die Wahrscheinlichkeit maximieren; Entsprechend maximieren sie die Log-Wahrscheinlichkeitt1,t2, ni ki (β0,β1) (β^0,β^1)
erhalten aus .(2)
(Dies vereinfacht sich erheblich, wenn Logarithmenregeln verwendet werden. Dies ist ein Grund, die Zeit-Verhältnis-Beziehung in Form von Log-Quoten auszudrücken. Wenn alle Proportionen ungefähr zwischen und , gibt es nur einen geringen qualitativen Unterschied zwischen der Verwendung von Wahrscheinlichkeiten oder ihrem Log Gewinnchancen: Die angepasste Kurve ist linear bzw. nahezu linear.)0.2 0.8 p
glm
R
Die Daten in dieser Figur sind mit Scheiben aufgetragen, deren Flächen proportional zu den Stichprobengrößen sind. Die GLM-Passform ist krummlinig. Zum Vergleich ist in grau die Zeile dargestellt, die wir erhalten würden, wenn wir die in der Frage angezeigten Daten in einen gewöhnlichen Löser für kleinste Quadrate ausgeben würden. Beide Passungen werden trotz der damals geringen Stichprobengröße durch die größeren Anteile in früheren Jahren beeinflusst. Die GLM-Anpassung kann jedoch die Anteile in den größten Proben, die 1970 und 1980 erhalten wurden, besser approximieren. Die gepunktete blaue Linie wird nachstehend beschrieben.(Year,Proportion)
Durch Hinzufügen eines quadratischen Terms können wir die Anpassungsgüte testen. Es verbessert die GLM-Anpassung erheblich (obwohl der Unterschied optisch nicht groß ist) und liefert den Beweis, dass dieses Modell die Variation der Ergebnisse nicht gut beschreibt. Ein Blick auf die Darstellung zeigt, dass das Ergebnis im Jahr 1990 viel niedriger war als vom Modell vorhergesagt.
Ein alternativer, aber vergleichbarer Ansatz besteht darin, für jedes Jahr einzeln zu schätzen , möglicherweise als (obwohl andere Schätzer möglich sind). Eine lineare Regression der logarithmischen Quoten dieser Schätzungen gegenüber dem Jahr, gewichtet mit den Stichprobengrößen oder der Regression der gewichteten kleinsten Quadrate, ergibtp ti ki/ni ni
Die Standardfehler dieser Schätzungen betragen bzw. , was darauf hinweist, dass sich die WLS-Schätzungen nicht wesentlich vom Binomial-GLM unterscheiden. (Die Standardfehler des GLM sind jedoch erheblich kleiner: Es "weiß", dass diese Stichprobengrößen ziemlich groß sind, während die lineare Regression überhaupt nichts über die Stichprobengrößen "weiß": Es gibt nur eine Folge von zehn separaten Beobachtungen.) Beachten Sie, dass dies der Fall ist Eine Alternative ist möglicherweise nicht verfügbar, wenn oder , es sei denn, ein anderer Schätzer der Wahrscheinlichkeiten wird verwendet (der keine Werte von oder ).15.55 0.00787 ki=ni ki=0 0 1
Schließlich könnten wir einfach eine gewichtete Regression der kleinsten Quadrate der Rohwahrscheinlichkeitsschätzungen gegenüber dem Jahr durchführen, die umgekehrt durch eine Schätzung der Stichprobenvarianz gewichtet wird. Die Varianz einer Binomialverteilung Variable , Wieder ausgedrückt als Verhältnis ist . Das kann aus einer Stichprobe als geschätzt werdenk/n (n,p) X X/n p(1−p)/n
Das Ergebnis erscheint in der Abbildung als gepunktete blaue Linie. In diesem Fall scheint es einen Kompromiss zwischen den GLM- und OLS-Anpassungen zu geben.
Der folgende
R
Code führte die Analysen durch und erzeugte die Figur.quelle