Was bedeutet "unabhängige Beobachtung"?

28

Ich versuche zu verstehen, was die Annahme unabhängiger Beobachtungen bedeutet. Einige Definitionen sind:

  1. "Zwei Ereignisse sind genau dann unabhängig, wenn ." ( Statistisches Wörterbuch )P(ab)=P(a)P(b)
  2. "Das Eintreten eines Ereignisses ändert nicht die Wahrscheinlichkeit für ein anderes" ( Wikipedia ).
  3. "Die Auswahl einer Beobachtung hat keinen Einfluss auf die Wahl der zweiten Beobachtung" ( David M. Lane ).

Ein Beispiel für abhängige Beobachtungen, die häufig gegeben werden, sind Schüler, die wie folgt in Lehrern verschachtelt sind. Nehmen wir an, dass Lehrer die Schüler beeinflussen, die Schüler sich jedoch nicht gegenseitig beeinflussen.

Wie werden diese Definitionen für diese Daten verletzt? Die Auswahl von [Note = 7] für [Student = 1] hat keinen Einfluss auf die Wahrscheinlichkeitsverteilung für die Note, die als Nächstes ermittelt wird. (Oder doch? Und wenn ja, was sagt die Beobachtung 1 für die nächste Beobachtung voraus?)

Warum wären die Beobachtungen unabhängig, wenn ich gender statt gemessen hätte teacher_id? Beeinflussen sie die Beobachtungen nicht auf die gleiche Weise?

teacher_id   student_id   grade
         1            1       7
         1            2       7
         1            3       6
         2            4       8
         2            5       8
         2            6       9
RubenGeert
quelle
4
Man könnte annehmen, dass die Notenverteilung für Lehrer 1 einen niedrigeren "Mittelwert" hatte als für Lehrer 2, und daher würden alle Schüler von Lehrer 1 im Durchschnitt schlechtere Noten haben als die Schüler von Lehrer 2. Mit anderen Worten Die Verteilung der Schüler / Noten für die beiden Lehrer kann durchaus unterschiedlich sein. Das würde ausreichen, um die Beobachtungen abhängig zu machen.
Setzen Sie Monica - G. Simpson
1
@ GavinSimpson: Ich habe über genau diese Argumentation nachgedacht. Was aber, wenn ich ersetzen teacherdurch gender? Geschlecht ist in den meisten sozialwissenschaftlichen Daten vorhanden und korreliert in gewissem Maße mit fast allem.
RubenGeert
1
Es muss sicher von der Reaktion abhängen. Wenn wir uns die Grade von Studenten der Naturwissenschaften in Großbritannien ansehen, würde sich möglicherweise ein Effekt mit unterschiedlichen Leistungsverteilungen für die beiden Geschlechter ergeben, im Durchschnitt über die Populationen, die Sie studieren. Auf jeden Fall ist all dies (in einem statistischen Modell) nur für die Residuen von Bedeutung oder für die vom angepassten Modell abhängigen Antworten anders. Mit anderen Worten, wenn Beobachtungen nicht unabhängig sind, ist dies in Ordnung, solange das Modell dies so berücksichtigt, dass die Residuen unabhängig sind.
Wiedereinsetzung von Monica - G. Simpson
4
Sie können weder (1) noch (2) als Definitionen der (statistischen) Unabhängigkeit verwenden, da die Unabhängigkeit ohne Bezug auf die Kausalität definiert werden kann. Alle drei Zitate sind nur Bestrebungen, informelle, intuitive Beispiele zu liefern . ((3) könnte möglicherweise als Definition angesehen werden, vorausgesetzt, Sie haben Zugang zu einer quantitativen, strengen Definition der Informationsmenge.) Es ist daher eine gute Idee, auf eine tatsächliche Definition wie die unter der Überschrift "Definition" aufgeführten zu verweisen. In dem Wikipedia-Artikel, auf den Sie verweisen.
whuber
1
Nein, Sie können die Residuen unabhängig machen (oder die Abhängigkeit zumindest so weit verringern, dass die Residuen unabhängig erscheinen). Dies ergibt sich beispielsweise aus den Annahmen des linearen Modells; wobei eine Korrelationsmatrix ist. Die übliche Annahme ist, dass eine Identitätsmatrix ist, daher sind Off-Diagonalen Null und daher die Annahme der Unabhängigkeit bei den Residuen. Anders ausgedrückt : wenn, dann ist dies eine Aussage über abhängig das angepasste Modell. εN(0,σ2Λ)ΛΛy
Setzen Sie Monica - G. Simpson

Antworten:

11

In der Wahrscheinlichkeitstheorie wird statistische Unabhängigkeit (die nicht mit kausaler Unabhängigkeit identisch ist) als Ihre Eigenschaft definiert (3), aber (1) folgt als Konsequenz . Die Ereignisse und gelten genau dann als statistisch unabhängig, wenn:AB

P(AB)=P(A)P(B).

Wenn dann gilt Folgendes:P(B)>0

P(A|B)=P(AB)P(B)=P(A)P(B)P(B)=P(A).

Dies bedeutet, dass die statistische Unabhängigkeit impliziert, dass das Auftreten eines Ereignisses die Wahrscheinlichkeit des anderen Ereignisses nicht beeinflusst. Eine andere Art, dies zu sagen, ist, dass das Auftreten eines Ereignisses Ihre Überzeugungen über das andere nicht ändern sollte. Das Konzept der statistischen Unabhängigkeit wird im Allgemeinen von Ereignissen auf Zufallsvariablen ausgedehnt, so dass analoge Aussagen für Zufallsvariablen getroffen werden können, einschließlich kontinuierlicher Zufallsvariablen (bei denen die Wahrscheinlichkeit eines bestimmten Ergebnisses gleich Null ist). Die Behandlung der Unabhängigkeit für Zufallsvariablen beinhaltet grundsätzlich die gleichen Definitionen, die für Verteilungsfunktionen gelten.


Es ist wichtig zu verstehen, dass Unabhängigkeit eine sehr starke Eigenschaft ist. Wenn Ereignisse statistisch unabhängig sind, können wir (per Definition) nicht aus der Beobachtung des anderen lernen. Aus diesem Grund beinhalten statistische Modelle im Allgemeinen Annahmen einer bedingten Unabhängigkeit, wenn bestimmte zugrunde liegende Verteilungen oder Parameter gegeben sind. Der genaue konzeptionelle Rahmen hängt davon ab, ob man Bayes'sche oder klassische Methoden anwendet. Ersteres beinhaltet eine explizite Abhängigkeit zwischen beobachtbaren Werten, während letzteres eine (komplizierte und subtile) implizite Form der Abhängigkeit beinhaltet. Um dieses Problem richtig zu verstehen, ist ein gewisses Verständnis der klassischen und der bayesianischen Statistik erforderlich.

Statistische Modelle gehen häufig davon aus, dass Sequenzen von Zufallsvariablen "unabhängig und identisch verteilt (IID)" sind. Sie könnten beispielsweise eine beobachtbare Folge , was bedeutet, dass jede beobachtbare Zufallsvariable normal mit dem Mittelwert und StandardabweichungX1,X2,X3,...IID N(μ,σ2)Xiμσ. Jede der Zufallsvariablen in der Sequenz ist "unabhängig" von den anderen in dem Sinne, dass ihr Ergebnis die angegebene Verteilung der anderen Werte nicht verändert. In dieser Art von Modell verwenden wir die beobachteten Werte der Sequenz, um die Parameter im Modell zu schätzen, und können dann wiederum unbeobachtete Werte der Sequenz vorhersagen. Dies beinhaltet notwendigerweise die Verwendung einiger beobachteter Werte, um mehr über andere zu erfahren.

Bayes'sche Statistik: Alles ist konzeptionell einfach. Nehmen Sie an, dass mit den Parametern und bedingt IID sind , und behandeln Sie diese unbekannten Parameter als Zufallsvariablen. Bei nicht entarteter vorheriger Verteilung dieser Parameter sind die Werte in der beobachtbaren Sequenz (unbedingt) abhängig, im Allgemeinen mit positiver Korrelation. Daher ist es durchaus sinnvoll, dass wir beobachtete Ergebnisse verwenden, um spätere unbeobachtete Ergebnisse vorherzusagen - sie sind bedingt unabhängig, aber bedingungslos abhängig.X1,X2,X3,...μσ

Klassische Statistik: Dies ist ziemlich kompliziert und subtil. Angenommen, sind IID mit den Parametern und , aber behandeln Sie diese Parameter als "unbekannte Konstanten". Da die Parameter als Konstanten behandelt werden, gibt es in diesem Fall keinen eindeutigen Unterschied zwischen bedingter und bedingungsloser Unabhängigkeit. Trotzdem verwenden wir die beobachteten Werte weiterhin, um die Parameter abzuschätzen und Vorhersagen über die nicht beobachteten Werte zu treffen. Daher verwenden wir die beobachteten Ergebnisse, um spätere unbeobachtete Ergebnisse vorherzusagen, obwohl sie fiktiv "unabhängig" voneinander sind. Diese offensichtliche Inkongruenz wird in O'Neill, B. (2009), Austauschbarkeit, Korrelation und Bayes-Effekt ausführlich diskutiert . X1,X2,X3,...μσInternational Statistical Review 77 (2) , S. 241 - 250 .


Angewandt auf Ihre Schülernoten Daten, würden Sie wahrscheinlich Modell so etwas wie dies , dass unter der Annahme gradeist bedingt unabhängig gegebene teacher_id. Sie würden die Daten verwenden, um Rückschlüsse auf die Notenverteilung für jeden Lehrer zu ziehen (was nicht als gleich angenommen werden würde), und dies würde es Ihnen ermöglichen, Vorhersagen über das Unbekannte gradeeines anderen Schülers zu treffen . Da die gradeVariable in der Folgerung verwendet wird, wirkt sie sich auf Ihre Vorhersagen einer unbekannten gradeVariablen für einen anderen Schüler aus. Durch Ersetzen teacher_iddurch wird genderdies nicht geändert. In beiden Fällen haben Sie eine Variable, die Sie als Prädiktor für verwenden können grade.

Wenn Sie die Bayes'sche Methode anwenden, gehen Sie explizit von einer bedingten Unabhängigkeit und einer vorherigen Verteilung der Notenverteilungen der Lehrer aus. Dies führt zu einer bedingungslosen (prädiktiven) Abhängigkeit der Noten, sodass Sie eine Note rational für die Vorhersage einer anderen Note verwenden können. Wenn Sie klassische Statistiken verwenden, gehen Sie von einer Unabhängigkeit aus (basierend auf Parametern, die "unbekannte Konstanten" sind) und verwenden klassische statistische Vorhersagemethoden, mit denen Sie eine Note zur Vorhersage einer anderen verwenden können.


Es gibt einige grundlegende Darstellungen der Wahrscheinlichkeitstheorie, die die Unabhängigkeit über die bedingte Wahrscheinlichkeitsangabe definieren und dann die gemeinsame Wahrscheinlichkeitsangabe als Konsequenz geben. Dies ist weniger verbreitet.

Setzen Sie Monica wieder ein
quelle
6
Die statistische Unabhängigkeit ist in hohem Maße das, was Sie im ersten Teil Ihrer Antwort beschreiben. Aber Ihr Satz "... wenn Ereignisse statistisch unabhängig sind, dann können wir (per Definition) nicht aus der Beobachtung der anderen etwas lernen." ist offensichtlich falsch. Die Welt ist voll von statistisch unabhängigen, aber ähnlichen Ereignissen und Zufallsvariablen.
Alecos Papadopoulos
1
Würde "Lernen" nicht bedeuten, unsere Überzeugungen über etwas zu ändern, das auf der Beobachtung eines anderen beruht? Wenn ja, schließt die Unabhängigkeit dies nicht (definitiv) aus?
Setzen Sie Monica
6
Ich wollte einen ähnlichen Kommentar abgeben wie @Alecos. Der Gesamteindruck, den man bekommt, ist, dass Sie behaupten, dass die Beobachtung einer Realisierung einer Zufallsvariablen nichts über ihre Verteilung , so dass Sie nichts über eine zweite unabhängige Realisierung vorhersagen können. Wenn dies der Fall wäre, wäre es unmöglich, den größten Teil der Theorie der Probenahme und Schätzung zu entwickeln. Aber Sie haben insofern Recht, als wir, wenn wir kennen und eine Realisierung beobachten, keine zusätzlichen Informationen über irgendeine andere unabhängige Realisierung erhalten. FF
Whuber
4
Ich denke, das Problem hierbei ist, dass das Standard-IID-Modell mit der Verteilung implizit eine Annahme der bedingten Unabhängigkeit verwendet, wenn Kenntnisse über vorliegen . Unter der Bedingung , dass Sie , sind die Beobachtungen unabhängig, aber Sie haben bedingungslos eine Situation, in der jede Beobachtung Informationen über liefert , die sich dann auf Ihre Überzeugungen über die anderen Beobachtungen auswirken. F F FFFFF
Setzen Sie Monica
2
Die Schwierigkeit in dieser Ausgabe besteht darin, dass die klassische Statistik die zugrunde liegende Verteilung und Parameter als "unbekannte Konstanten" behandelt und daher in diesem Fall nicht explizit zwischen bedingter und bedingungsloser Unabhängigkeit unterscheidet. In der Bayes'schen Statistik ist alles sehr einfach.
Setzen Sie Monica
4

Sei durch einen dimensionalen Zufallsvektor, dh eine ortsfeste Sammlung von Zufallsvariablen (messbare reelle Funktionen).x=(X1,...,Xj,...,Xk)k

Betrachten Sie viele solcher Vektoren, sagen wir , und indizieren Sie diese Vektoren mit , also sagen wirni=1,...,n

xi=(X1i,...,Xji,...,Xki)
und betrachte sie als eine Sammlung namens "the sample", . Dann bezeichnen wir jeden dimensionalen Vektor als "Beobachtung" (obwohl dies nur dann tatsächlich der Fall ist, wenn wir die Realisierungen der beteiligten Zufallsvariablen messen und aufzeichnen).S=(x1,...,xi,...,xn)k

Lassen Sie uns zunächst den Fall behandeln, in dem entweder eine Wahrscheinlichkeitsmassenfunktion (PMF) oder eine Wahrscheinlichkeitsdichtefunktion (PDF) existiert, und solche Funktionen auch zusammenfassen. Bezeichne mit die gemeinsame PMF oder gemeinsame PDF jedes Zufallsvektors und die gemeinsame PMF oder gemeinsame PDF aller dieser Vektoren zusammen. fi(xi),i=1,...,nf(x1,...,xi,...,xn)

Dann wird die Stichprobe eine "unabhängige Stichprobe" genannt, wenn die folgende mathematische Gleichheit gilt:S

f(x1,...,xi,...,xn)=i=1nfi(xi),(x1,...,xi,...,xn)DS

wobei die gemeinsame Domäne ist, die durch die zufälligen Vektoren / Beobachtungen erzeugt wird.DSn

Dies bedeutet, dass die "Beobachtungen" "gemeinsam unabhängig" sind (im statistischen Sinne oder "unabhängig in der Wahrscheinlichkeit", wie es das alte Sprichwort war, das man heute noch manchmal sieht). Die Gewohnheit ist, sie einfach "unabhängige Beobachtungen" zu nennen.

Beachten Sie, dass die statistische Unabhängigkeitseigenschaft hier über dem Index , dh zwischen den Beobachtungen. Es hängt nicht mit den wahrscheinlichkeitsabhängigen / statistischen Beziehungen zwischen den Zufallsvariablen in jeder Beobachtung zusammen (im allgemeinen Fall behandeln wir hier, wo jede Beobachtung mehrdimensional ist).i

Es ist auch zu beachten, dass in Fällen, in denen wir kontinuierliche Zufallsvariablen ohne Dichten haben, das Obige in Form der Verteilungsfunktionen ausgedrückt werden kann.

Dies ist, was "unabhängige Beobachtungen" bedeutet . Es ist eine genau definierte Eigenschaft, die in mathematischen Begriffen ausgedrückt wird. Mal sehen, was das bedeutet .

EINIGE FOLGEN UNABHÄNGIGER BEMERKUNGEN

A. Wenn zwei Beobachtungen Teil einer Gruppe von gemeinsam unabhängigen Beobachtungen sind, dann sind sie auch "paarweise unabhängig" (statistisch).

f(xi,xm)=fi(xi)fm(xm)im,i,m=1,...,n

Dies impliziert wiederum, dass bedingte PMFs / PDFs den "marginalen" entsprechen

f(xixm)=fi(xi)im,i,m=1,...,n

Dies verallgemeinert sich auf viele Argumente, zum Beispiel konditioniert oder konditioniert

f(xi,xxm)=f(xi,x),f(xixm,x)=fi(xi)

usw., solange sich die Indizes auf der linken Seite von den Indizes auf der rechten Seite der vertikalen Linie unterscheiden.

Dies impliziert, dass sich die Wahrscheinlichkeiten, die eine andere Beobachtung der Probe charakterisieren, nicht ändern, wenn wir tatsächlich eine Beobachtung beobachten. In Bezug auf die Vorhersage ist eine unabhängige Stichprobe nicht unser bester Freund. Wir würden es vorziehen, abhängig zu sein, damit wir mit jeder Beobachtung etwas mehr über jede andere Beobachtung sagen können.

B. Andererseits hat eine unabhängige Stichprobe einen maximalen Informationsgehalt. Da jede Beobachtung unabhängig ist, enthält sie Informationen, die von keiner anderen Beobachtung in der Stichprobe ganz oder teilweise abgeleitet werden können. Die Gesamtsumme ist also maximal, verglichen mit jeder vergleichbaren Stichprobe, bei der zwischen einigen Beobachtungen eine statistische Abhängigkeit besteht. Aber von welchem ​​Nutzen sind diese Informationen, wenn sie uns nicht helfen können, unsere Vorhersagen zu verbessern?

Nun, dies sind indirekte Informationen über die Wahrscheinlichkeiten, die die Zufallsvariablen in der Stichprobe charakterisieren. Je mehr diese Beobachtungen gemeinsame Merkmale aufweisen (in unserem Fall eine gemeinsame Wahrscheinlichkeitsverteilung), desto besser können wir sie aufdecken, wenn unsere Stichprobe unabhängig ist.

Mit anderen Worten, wenn die Stichprobe unabhängig und "identisch verteilt" ist

fi(xi)=fm(xm)=f(x),im

Dies ist die bestmögliche Stichprobe, um nicht nur Informationen über die gemeinsame Wahrscheinlichkeitsverteilung , sondern auch über die Randverteilungen der Zufallsvariablen, aus denen jede Beobachtung besteht, z. B. . f(x)fj(xji)

Auch wenn also , ist die zusätzliche Vorhersagekraft für die tatsächliche Realisierung von mit einer unabhängigen und identisch verteilten Stichprobe gleich Null Position, um die Funktionen (oder einige ihrer Eigenschaften), dh die Randverteilungen , aufzudecken .f(xixm)=fi(xi)xi fi

In Bezug auf die Schätzung (die manchmal als Sammelbegriff verwendet wird, aber hier vom Konzept der Vorhersage unterschieden werden sollte ) ist eine unabhängige Stichprobe daher unser "bester Freund", wenn sie mit der "identisch verteilten" Schätzung kombiniert wird " Eigentum.

C. Daraus folgt auch, dass eine unabhängige Stichprobe von Beobachtungen, bei denen jede durch eine völlig andere Wahrscheinlichkeitsverteilung gekennzeichnet ist und keinerlei gemeinsame Merkmale aufweist, eine Sammlung von Informationen so wertlos ist, wie man sie erhalten kann (natürlich ist jede Information für sich allein Das Problem hierbei ist, dass diese nicht kombiniert werden können, um etwas Sinnvolles zu bieten. Stellen Sie sich eine Probe mit drei Beobachtungen vor: eine enthält (quantitative Merkmale von) Früchten aus Südamerika, eine andere enthält Berge aus Europa und eine dritte enthält Kleidung aus Asien. Ziemlich interessante Informationen, die alle drei zusammengenommen nichts statistisch Nützliches für uns tun können.

Anders ausgedrückt, eine notwendige und ausreichende Bedingung für die Nützlichkeit einer unabhängigen Stichprobe ist, dass die Beobachtungen einige statistische Merkmale gemeinsam haben. Aus diesem Grund ist das Wort "Stichprobe" in der Statistik nicht gleichbedeutend mit "Sammlung von Informationen" im Allgemeinen, sondern mit "Sammlung von Informationen zu Entitäten mit einigen gemeinsamen Merkmalen".

ANWENDUNG AUF DAS DATENBEISPIEL DES OP

Als Antwort auf eine Anfrage von Benutzer @gung betrachten wir das Beispiel des OP im Lichte der obigen Ausführungen. Wir gehen davon aus, dass wir in einer Schule mit mehr als zwei Lehrern und mehr als sechs Schülern sind. Also a) nehmen wir sowohl Schüler als auch Lehrer in die Stichprobe auf und b) nehmen in unseren Datensatz die Note auf, die jeder Lehrer-Schüler-Kombination entspricht.

Die Noten werden nämlich nicht "beprobt", sondern sind eine Folge der Beprobung von Lehrern und Schülern. Daher ist es sinnvoll, die Zufallsvariable (= Note) als "abhängige Variable" zu behandeln, während Schüler ( ) und Lehrer ( "erklärende Variablen" sind (nicht alle möglichen erklärenden Variablen, nur einige ). Unsere Stichprobe besteht aus sechs Beobachtungen, die wir explizit schreiben: asGPTS=(s1,...,s6)

s1=(T1,P1,G1)s2=(T1,P2,G2)s3=(T1,P3,G3)s3=(T2,P4,G4)s4=(T2,P5,G5)s5=(T2,P6,G6)

Unter der Annahme "Schüler beeinflussen sich nicht gegenseitig" können wir die Variablen als unabhängig verteilt betrachten. Unter der Annahme, dass "alle anderen Faktoren", die die Note beeinflussen können, unabhängig voneinander sind, können wir die Variablen auch als unabhängig voneinander betrachten. Schließlich können wir die Variablen unter der Annahme, dass sich die Lehrer nicht gegenseitig beeinflussen als statistisch unabhängig betrachten.PiGi
T1,T2

Aber unabhängig davon , was kausal / Struktur Annahme wir in Bezug auf die Beziehung zwischen Lehrer machen und Schüler , die Tatsache bleibt , dass Beobachtungen enthalten die gleiche Zufallsvariable ( ), während Beobachtungen enthält auch dieselbe Zufallsvariable ( ). s1,s2,s3T1s4,s5,s6T2

Beachten Sie sorgfältig die Unterscheidung zwischen "derselben Zufallsvariablen" und "zwei unterschiedlichen Zufallsvariablen mit identischen Verteilungen".

Selbst wenn wir davon ausgehen, dass "Lehrer die Schüler NICHT beeinflussen", ist unsere Stichprobe wie oben definiert keine unabhängige Stichprobe, da statistisch durch abhängig sind , während sind statistisch abhängig von . s1,s2,s3T1s4,s5,s6T2

Es wird nun angenommen , dass wir ausschließen , den Zufallsvariable „Lehrer“ aus unserem Beispiel. Ist die Stichprobe (Schüler, Klasse) von sechs Beobachtungen eine unabhängige Stichprobe? Hier sind die Annahmen von Bedeutung, die wir in Bezug auf die strukturelle Beziehung zwischen Lehrern, Schülern und Noten treffen.

Beeinflussen Lehrer die Zufallsvariable "Note" direkt , vielleicht durch unterschiedliche "Benotungsstile"? Beispielsweise kann ein "harter Grader" sein, während möglicherweise nicht ist. In einem solchen Fall macht das "Nicht-Sehen" der Variablen "Lehrer" die Stichprobe nicht unabhängig, da es nun die sind, die aufgrund einer gemeinsamen Einflussquelle von abhängig sind (und analog für die anderen drei ). T1T2G1,G2,G3T1

Sagen wir aber, dass die Lehrer in dieser Hinsicht identisch sind. Dann haben wir wieder unter der genannten Annahme "Lehrer beeinflussen Schüler", dass die ersten drei Beobachtungen voneinander abhängig sind, weil Lehrer Schüler beeinflussen, die Noten beeinflussen, und wir kommen zu dem gleichen Ergebnis, wenn auch in diesem Fall indirekt (und ebenfalls für die Schüler) andere drei). Die Stichprobe ist also nicht unabhängig.

DER FALL DES GESCHLECHTS

Nun wollen sie die (Schüler, Grad) sechsBeobachtungsProbe machen „bedingt unabhängig in Bezug auf Lehrer“ (siehe andere Antworten) unter der Annahme , dass alle sechs Schüler in Wirklichkeit haben die gleichen Lehrer. Nehmen wir aber zusätzlich die Zufallsvariable " = Geschlecht" in die Stichprobe auf, die traditionell zwei Werte ( ) annimmt , während in letzter Zeit mehr angenommen wurden. Unsere wieder dreidimensionale sechs Beobachtungsprobe ist jetztGeM,F

s1=(Ge1,P1,G1)s2=(Ge2,P2,G2)s3=(Ge3,P3,G3)s3=(Ge4,P4,G4)s4=(Ge5,P5,G5)s5=(Ge6,P6,G6)

Beachten Sie bitte, dass es sich bei dem, was wir in der Beschreibung der Stichprobe in Bezug auf das Geschlecht aufgenommen haben, nicht um den tatsächlichen Wert handelt, den jeder Schüler annimmt, sondern um die Zufallsvariable "Geschlecht" . Schauen Sie sich am Anfang dieser sehr langen Antwort noch einmal um: Die Stichprobe ist nicht als Sammlung von Zahlen (oder festen Zahlen oder nicht Werten im Allgemeinen) definiert, sondern als Sammlung von Zufallsvariablen (dh von Funktionen).

Beeinflusst nun das Geschlecht eines Schülers (strukturell oder statistisch) das Geschlecht des anderen Schülers? Wir könnten vernünftigerweise argumentieren, dass dies nicht der Fall ist. Insofern sind die Variablen unabhängig. das Geschlecht von Schüler , , auf andere Weise direkt einen anderen Schüler ( )? Hmm, es gibt kämpfende Bildungstheorien, wenn ich mich recht erinnere. Also , wenn wir davon ausgehen , dass es funktioniert nicht , dann aus geht es eine weitere mögliche Quelle der Abhängigkeit zwischen Beobachtungen. Hat das Geschlecht eines Schülers direkten Einfluss auf die Noten eines anderen Schülers? Wenn wir das nicht behaupten, erhalten wir eine unabhängige Stichprobe 1 G E 1 P 2 , P 3 , . . .Gei1Ge1P2,P3,... (Voraussetzung ist, dass alle Schüler den gleichen Lehrer haben).

Alecos Papadopoulos
quelle
Ich stimme in Ihrem Punkt B nicht zu. Für einige Zwecke, wie die Schätzung eines Mittelwerts, ist eine negative Korrelation besser als Unabhängigkeit.
kjetil b halvorsen
@kjetil Inwiefern besser?
Alecos Papadopoulos
Es wäre hilfreich, wenn Sie dies konkret mit den Fragen des OP im Text in Verbindung bringen könnten. Wie verstehen wir unter diesen Umständen, dass die aufgeführten Beobachtungen nicht unabhängig sind? & inwiefern unterscheidet es sich, wenn man Lehrer auslässt, von Sex?
gung - Wiedereinsetzung von Monica
@gung Ich habe einige Ausarbeitungen in die von Ihnen vorgeschlagene Richtung aufgenommen.
Alecos Papadopoulos
Besser im Sinne einer Verringerung der Varianz
kjetil b halvorsen
2

Die Definitionen der statistischen Unabhängigkeit , dass Sie in Ihrem Beitrag geben , sind alle wesentlichen korrekt, aber sie nicht zu Herzen der Unabhängigkeit erhalten Annahme in einem statistischen Modell . Um zu verstehen, was wir unter der Annahme unabhängiger Beobachtungen in einem statistischen Modell verstehen, ist es hilfreich zu überdenken, was ein statistisches Modell auf konzeptioneller Ebene ist.

Statistische Modelle als Annäherung an "Naturwürfel"

Nehmen wir ein bekanntes Beispiel: Wir sammeln eine Zufallsstichprobe erwachsener Menschen (aus einer genau definierten Population - sagen wir alle erwachsenen Menschen auf der Erde) und messen ihre Höhe. Wir möchten die durchschnittliche Bevölkerungsgröße erwachsener Menschen schätzen. Dazu konstruieren wir ein einfaches statistisches Modell, indem wir annehmen, dass sich die Körpergrößen aus einer Normalverteilung ergeben.

Unser Modell wird gut sein, wenn eine Normalverteilung eine gute Annäherung dafür liefert, wie die Natur Höhen für Menschen "auswählt". Wenn wir also Daten unter unserem normalen Modell simulieren, ähnelt der resultierende Datensatz (im statistischen Sinne) sehr stark dem, was wir in der Natur beobachten? Bietet unser Zufallszahlengenerator im Kontext unseres Modells eine gute Simulation des komplizierten stochastischen Prozesses, den die Natur verwendet, um die Höhen zufällig ausgewählter menschlicher Erwachsener zu bestimmen ("Naturwürfel")?

Die Unabhängigkeitsannahme in einem einfachen Modellierungskontext

Wenn wir davon ausgegangen sind, dass wir "Naturwürfel" durch Ziehen von Zufallszahlen aus einer Normalverteilung approximieren können, haben wir nicht gemeint, dass wir eine einzelne Zahl aus der Normalverteilung ziehen und diese Höhe dann jedem zuweisen. Wir wollten, dass wir unabhängig voneinander Zahlen für alle aus der gleichen Normalverteilung ziehen. Dies ist unsere Unabhängigkeitsannahme.

Stellen Sie sich jetzt vor, dass unsere Stichprobe von Erwachsenen keine Zufallsstichprobe war, sondern aus einer Handvoll Familien stammte. In einigen Familien ist die Größe groß, in anderen ist die Größe klein. Wir haben bereits gesagt, dass wir davon ausgehen wollen, dass die Höhen aller Erwachsenen aus einer Normalverteilung stammen. Eine Stichprobe aus der Normalverteilung würde jedoch keinen Datensatz ergeben, der unserer Stichprobe sehr ähnlich ist (unsere Stichprobe würde "Klumpen" von Punkten zeigen, einige kurz, andere groß - jeder Klumpen ist eine Familie). Die Körpergrößen der Personen in unserer Stichprobe sind keine von der Gesamtnormalverteilung unabhängigen Größen.

Die Unabhängigkeitsannahme in einem komplizierteren Modellierungskontext

Aber nicht alles ist verloren! Vielleicht können wir ein besseres Modell für unsere Stichprobe aufschreiben - eines, das die Unabhängigkeit der Höhen bewahrt. Zum Beispiel könnten wir ein lineares Modell aufschreiben, bei dem Höhen aus einer Normalverteilung mit einem Mittelwert entstehen, der von der Familie abhängt, zu der das Subjekt gehört. In diesem Zusammenhang beschreibt die Normalverteilung die verbleibende Variation , NACHDEM wir den Einfluss der Familie berücksichtigen. Unabhängige Stichproben aus einer Normalverteilung könnten ein gutes Modell für diese Restvariation sein.

Insgesamt haben wir hier ein differenzierteres Modell aufgeschrieben, wie sich die Würfel der Natur im Rahmen unserer Studie verhalten sollen. Wenn wir ein gutes Modell aufschreiben, können wir dennoch davon ausgehen, dass der zufällige Teil des Modells (dh die zufällige Variation um das Familienmittel) für jedes Mitglied der Population unabhängig beprobt wird.

Die (bedingte) Unabhängigkeitsannahme in einem allgemeinen Modellierungskontext

Im Allgemeinen gehen statistische Modelle davon aus, dass die Daten aus einer Wahrscheinlichkeitsverteilung stammen. Die Parameter dieser Verteilung (wie der Mittelwert der Normalverteilung im obigen Beispiel) können von Kovariaten abhängen (wie die Familie im obigen Beispiel). Aber natürlich sind endlose Variationen möglich. Die Verteilung ist möglicherweise nicht normal, der Parameter, der von den Kovariaten abhängt, ist möglicherweise nicht der Mittelwert, die Form der Abhängigkeit ist möglicherweise nicht linear usw. Alle diese Modelle beruhen auf der Annahme, dass sie eine einigermaßen gute Annäherung an die Art der Naturwürfel liefern Verhalten (auch hier sehen die im Modell simulierten Daten statistisch den von der Natur erhaltenen tatsächlichen Daten ähnlich).

Wenn wir Daten unter dem Modell simulieren, besteht der letzte Schritt immer darin, eine Zufallszahl gemäß einer modellierten Wahrscheinlichkeitsverteilung zu zeichnen. Dies sind die Draws, von denen wir annehmen, dass sie unabhängig voneinander sind. Die tatsächlichen Daten, die wir erhalten, sehen möglicherweise nicht unabhängig aus, da Kovariaten oder andere Merkmale des Modells uns möglicherweise anweisen, unterschiedliche Wahrscheinlichkeitsverteilungen für verschiedene Ziehungen (oder Ziehungssätze) zu verwenden. Alle diese Informationen müssen jedoch in das Modell selbst eingebaut werden. Wir dürfen nicht zulassen, dass die Zufallszahl davon abhängt, welche Werte wir für andere Datenpunkte gezogen haben. Die Ereignisse, die unabhängig sein müssen, sind also die Würfelspiele der Natur im Kontext unseres Modells.

Es ist nützlich, diese Situation als bedingte Unabhängigkeit zu bezeichnen , was bedeutet, dass die Datenpunkte unabhängig voneinander sind, wenn die Kovariaten gegeben sind (dh davon abhängig sind). In unserem Größenbeispiel gehen wir davon aus, dass meine Größe und die Größe meines Bruders, die von meiner Familie abhängig sind, unabhängig voneinander sind und auch unabhängig von Ihrer Größe und der Größe Ihrer Schwester, die von Ihrer Familie abhängig ist. Sobald wir die Familie einer Person kennen, wissen wir, aus welcher Normalverteilung wir zeichnen müssen, um ihre Größe zu simulieren. Die Zeichnungen für verschiedene Personen sind unabhängig von ihrer Familie (auch wenn unsere Wahl, aus welcher Normalverteilung wir zeichnen möchten, von der Familie abhängt). Es ist auch möglich, dass wir auch nach dem Umgang mit der Familienstruktur unserer Daten keine gute bedingte Unabhängigkeit erreichen (vielleicht ist es auch wichtig, zum Beispiel das Geschlecht zu modellieren).

Letztendlich ist es eine Entscheidung, die im Kontext eines bestimmten Modells getroffen werden muss , ob die Annahme einer bedingten Unabhängigkeit von Beobachtungen sinnvoll ist. Aus diesem Grund prüfen wir beispielsweise bei der linearen Regression nicht, ob die Daten aus einer Normalverteilung stammen, sondern, ob die RESTPOSITIONEN aus einer Normalverteilung stammen (und aus der GLEICHEN Normalverteilung über den gesamten Bereich der Daten). Bei der linearen Regression wird davon ausgegangen, dass die Daten nach Berücksichtigung des Einflusses von Kovariaten (der Regressionslinie) unabhängig von einer Normalverteilung gemäß der strengen Definition der Unabhängigkeit im ursprünglichen Beitrag abgetastet werden.

Im Kontext Ihres Beispiels

"Lehrer" in Ihren Daten könnte wie "Familie" im Höhenbeispiel sein.

Ein letzter Dreh drauf

Viele bekannte Modelle gehen davon aus, dass die Residuen aus einer Normalverteilung stammen. Stellen Sie sich vor, ich hätte Ihnen einige Daten gegeben, die ganz klar NICHT normal waren. Vielleicht sind sie stark verzerrt oder bimodal. Und ich sagte Ihnen: "Diese Daten stammen aus einer normalen Verteilung."

"Auf keinen Fall", sagen Sie, "es ist offensichtlich, dass diese nicht normal sind!"

"Wer hat gesagt, dass die Daten normal sind?" Ich sage. "Ich habe nur gesagt, dass sie aus einer Normalverteilung stammen."

"Einer im selben!" du sagst. "Wir wissen, dass ein Histogramm einer ziemlich großen Probe aus einer Normalverteilung dazu neigen wird, ungefähr normal auszusehen!"

"Aber", sage ich, "ich habe nie gesagt, dass die Daten unabhängig von der Normalverteilung abgetastet wurden . Die DO stammen von einer Normalverteilung, aber sie sind keine unabhängigen Zeichnungen."

Die Annahme der (bedingten) Unabhängigkeit bei der statistischen Modellierung soll verhindern, dass Smart-Alecks wie ich die Verteilung der Residuen ignorieren und das Modell falsch anwenden.

Zwei Schlussnoten

1) Der Begriff "Naturwürfel" gehört ursprünglich nicht mir, aber obwohl ich einige Referenzen zu Rate gezogen habe, kann ich nicht herausfinden, woher ich ihn in diesem Zusammenhang habe.

2) Einige statistische Modelle (z. B. autoregressive Modelle) erfordern auf diese Weise keine Unabhängigkeit von Beobachtungen. Insbesondere ermöglichen sie, dass die Stichprobenverteilung für eine bestimmte Beobachtung nicht nur von festen Kovariaten abhängt, sondern auch von den Daten, die davor lagen.

Jacob Socolar
quelle
Danke dafür. Mir gefällt, dass es sehr leicht zugänglich ist. Sie sprechen die Frage an, wie sich dies für den Lehrer auswirkt. Können Sie die Diskussion ausweiten, um auch die Vorstellung von Sex als Kovariate anzusprechen?
gung - Reinstate Monica