Stellen Sie sich vor, Sie wiederholen ein Experiment dreimal. In jedem Experiment sammeln Sie dreifache Messungen. Die Triplikate sind im Vergleich zu den Unterschieden zwischen den drei experimentellen Mitteln eher eng beieinander. Die Berechnung des Mittelwerts ist ziemlich einfach. Aber wie kann man ein Konfidenzintervall für den Mittelwert berechnen?
Beispieldaten:
Experiment 1: 34, 41, 39
Experiment 2: 45, 51, 52
Experiment 3: 29, 31, 35
Angenommen, die Wiederholungswerte innerhalb eines Experiments folgen einer Gaußschen Verteilung, ebenso wie die Mittelwerte jedes Experiments. Die SD der Variation innerhalb eines Experiments ist unter den experimentellen Mitteln kleiner als die SD. Es sei auch angenommen, dass es in jedem Experiment keine Reihenfolge der drei Werte gibt. Die Reihenfolge der drei Werte in jeder Zeile von links nach rechts ist völlig willkürlich.
Der einfache Ansatz besteht darin, zuerst den Mittelwert jedes Experiments zu berechnen: 38,0, 49,3 und 31,7, und dann den Mittelwert und das 95% -Konfidenzintervall dieser drei Werte zu berechnen. Mit dieser Methode ergibt sich ein Mittelwert von 39,7, wobei das 95% -Konfidenzintervall zwischen 17,4 und 61,9 liegt.
Das Problem bei diesem Ansatz ist, dass die Variation zwischen den Dreifachwerten völlig ignoriert wird. Ich frage mich, ob es keinen guten Weg gibt, diese Variation zu erklären.
quelle
Antworten:
Es gibt einen natürlichen genauen Konfidenzintervall für die grandmean in dem symmetrischen Zufall Einweg-ANOVA - Modell Tatsächlich ist es leichtzu überprüfendass die Verteilung der beobachteten Mittel ˉ y i ∙ ist ˉ y i ∙ ~ iid N ( μ , τ 2 ) mit & tgr; 2 = σ 2 b + σ 2 w
Beachten Sie, dass dieses Konfidenzintervall nichts anderes als das klassische Intervall für einen Gaußschen Mittelwert ist, indem Sie nur das Gruppenmittel als die Beobachtungen betrachteny¯ich ∙ . So der einfache Ansatz, den Sie erwähnen:
ist richtig. Und deine Intuition über die ignorierte Variante:
ist falsch. Ich erwähne auch die Richtigkeit einer solchen Vereinfachung in /stats//a/72578/8402
Update 12/04/2014
Einige Details sind jetzt in meinem Blog geschrieben: Reduzieren eines Modells, um Konfidenzintervalle zu erhalten .
quelle
Dies ist eine Frage der Schätzung innerhalb eines linearen Mischeffektmodells. Das Problem ist, dass die Varianz des Mittelwerts eine gewichtete Summe von zwei Varianzkomponenten ist, die separat geschätzt werden müssen (über eine ANOVA der Daten). Die Schätzungen haben unterschiedliche Freiheitsgrade. Obwohl man versuchen kann, ein Konfidenzintervall für den Mittelwert unter Verwendung der üblichen kleinen Stichprobenformeln (Student t) zu konstruieren, ist es daher unwahrscheinlich, dass seine nominelle Abdeckung erreicht wird, da die Abweichungen vom Mittelwert nicht genau einer Student t-Verteilung folgen.
In einem kürzlich erschienenen Artikel (2010) von Eva Jarosova, Schätzung mit dem linearen Mixed-Effects-Modell , wird dieses Problem erörtert. (Ab 2015 scheint es nicht mehr im Web verfügbar zu sein.) Im Kontext eines "kleinen" Datensatzes (der jedoch etwa dreimal so groß ist wie dieser) verwendet sie die Simulation, um zwei ungefähre CI-Berechnungen (das Bohrloch) auszuwerten -bekannte Satterthwaite-Approximation und die "Kenward-Roger-Methode"). Ihre Schlussfolgerungen sind
Kurz gesagt, scheint ein guter Ansatz zu sein
Berechnen Sie ein herkömmliches CI, indem Sie die Schätzungen der Varianzkomponenten verwenden und so tun, als ob eine t-Verteilung zutrifft.
Berechnen Sie auch mindestens eines der angepassten CIs.
Wenn die Berechnungen "nah" sind, akzeptieren Sie die herkömmliche CI. Andernfalls melden Sie, dass nicht genügend Daten vorhanden sind, um ein zuverlässiges CI zu erstellen.
quelle
Es kann kein Konfidenzintervall geben, das beide Probleme löst. Sie müssen eine auswählen. Sie können einen aus einem mittleren Quadratfehlerterm innerhalb der experimentellen Varianz ableiten, der es Ihnen ermöglicht, etwas darüber zu sagen, wie genau Sie die Werte innerhalb des Experiments schätzen können, oder Sie können es zwischen zwei Experimenten tun. Wenn ich nur den ersteren gemacht hätte, würde ich ihn eher um 0 als um den großen Mittelwert zeichnen wollen, weil er nichts über den tatsächlichen Mittelwert aussagt, nur über einen Effekt (in diesem Fall 0). Oder Sie können einfach beides zeichnen und beschreiben, was sie tun.
Sie haben die Zwischenzeit im Griff. Für das Innere ist es wie das Berechnen des Fehlerausdrucks in einer ANOVA, um eine MSE zum Arbeiten zu bringen, und von dort ist die SE für das CI nur sqrt (MSE / n) (in diesem Fall n = 3).
quelle
Ich denke, das CI für den großen Mittelwert ist zu weit [17,62], selbst für den Bereich der Originaldaten.
Diese Experimente sind in der Chemie SEHR verbreitet. Bei der Zertifizierung von Referenzmaterialien müssen Sie beispielsweise einige Flaschen zufällig aus der gesamten Partie entnehmen und für jede Flasche eine Replikationsanalyse durchführen. Wie berechnen Sie den Referenzwert und seine Unsicherheit? Es gibt viele Möglichkeiten, dies zu tun, aber die ausgefeilteste (und meiner Meinung nach richtige) Methode ist die Anwendung von Metaanalysen oder ML (Dersimonian-Laird, Vangel-Rukhin usw.).
Was ist mit Bootstrap-Schätzungen?
quelle