Ich habe zwei 2 Stunden GPS-Daten mit einer Abtastrate von 1 Hz (7200 Messungen). Die Daten werden in der Form gegeben , wobei ist die Messunsicherheit.
Wenn ich den Mittelwert aller Messungen nehme (z. B. den durchschnittlichen Z-Wert dieser zwei Stunden), wie hoch ist die Standardabweichung? Ich kann natürlich die Standardabweichung von den Z-Werten berechnen, vernachlässige dann aber die Tatsache, dass Messunsicherheiten bekannt sind ...
Bearbeiten: Die Daten stammen alle von derselben Station, und alle Koordinaten werden jede Sekunde neu gemessen. Aufgrund von Satellitenkonstellationen usw. weist jede Messung eine andere Unsicherheit auf. Der Zweck meiner Analyse ist es, die Verschiebung aufgrund eines äußeren Ereignisses (dh eines Erdbebens) zu finden. Ich möchte den Mittelwert für 7200 Messungen (2 Stunden) vor dem Erdbeben und einen weiteren Mittelwert für 2 Stunden nach dem Erdbeben nehmen und dann die resultierende Differenz berechnen (z. B. in der Höhe). Um die Standardabweichung dieser Differenz zu bestimmen, muss ich die Standardabweichung der beiden Mittel kennen.
quelle
Antworten:
Ich vermute, dass die vorherigen Antworten auf diese Frage ein bisschen falsch sind. Es scheint mir , dass das ursprüngliche Plakat , was wirklich hier fragt als „gegeben eine Reihe von Vektormessungen umformuliert werden: mit i = 1 , 2 , 3 , . . . , 7200 und Messkovarianz : C i = ( X 2 σ , i 0 0 0 Y
Im Allgemeinen finde ich es bei der Beantwortung von Fragen zu stackexchange.com normalerweise nicht nützlich, lange Ableitungen, die bereits in zahlreichen Lehrbüchern vorgestellt wurden, neu zu verpacken - wenn Sie das Material wirklich verstehen und verstehen möchten, warum die Antworten so aussehen So wie sie es tun, dann sollten Sie einfach die Erklärungen lesen, die bereits von den Lehrbuchautoren veröffentlicht wurden. In diesem Sinne werde ich einfach direkt zu den Antworten springen, die andere bereits gegeben haben. Nach Frederick James beträgt der gewichtete Mittelwert bei : - 1 i ) - 1 ( N ∑ i = 1 C -N=7200
quelle
Dies sollte leicht durch Bayes'sche Inferenz gelöst werden können. Sie kennen die Messeigenschaften der einzelnen Punkte in Bezug auf ihren wahren Wert und möchten auf den Populationsmittelwert und die SD schließen, die die wahren Werte generiert haben. Dies ist ein hierarchisches Modell.
Umformulierung des Problems (Bayes-Grundlagen)
Beachten Sie, dass orthodoxe Statistiken nur einen Mittelwert liefern, während Sie im Bayes'schen Rahmen eine Verteilung der glaubwürdigen Werte des Mittelwerts erhalten. ZB könnten die Beobachtungen (1, 2, 3) mit SDs (2, 2, 3) durch die Maximum-Likelihood-Schätzung von 2, aber auch durch einen Mittelwert von 2,1 oder 1,8 erzeugt worden sein, obwohl dies (gemessen an den Daten) etwas weniger wahrscheinlich ist als die MLE. Neben dem SD schließen wir also auch den Mittelwert .
Ein weiterer konzeptioneller Unterschied besteht darin, dass Sie Ihren Wissensstand definieren müssen, bevor Sie Beobachtungen anstellen. Wir nennen das Priors . Möglicherweise wissen Sie im Voraus, dass ein bestimmter Bereich in einem bestimmten Höhenbereich gescannt wurde. Das völlige Fehlen von Wissen würde darin bestehen, einheitliche (-90, 90) Grad wie zuvor in X und Y und möglicherweise einheitliche (0, 10000) Meter in der Höhe (über dem Ozean, unter dem höchsten Punkt der Erde) zu haben. Sie müssen Prior-Verteilungen für alle Parameter definieren, die Sie schätzen möchten, dh für die Sie Posterior-Verteilungen erhalten möchten . Dies gilt auch für die Standardabweichung.
Wenn Sie also Ihr Problem umformulieren, gehe ich davon aus, dass Sie glaubwürdige Werte für drei Mittelwerte (X.Mittelwert, Y.Mittelwert, X.Mittelwert) und drei Standardabweichungen (X.SD, Y.SD, X.SD) ableiten möchten generiert Ihre Daten.
Das Model
Wenn Sie die Standard-BUGS-Syntax verwenden (verwenden Sie WinBUGS, OpenBUGS, JAGS, Stan oder andere Pakete, um dies auszuführen), würde Ihr Modell ungefähr so aussehen:
Natürlich überwachen Sie die .mean- und .sd-Parameter und verwenden deren posterioren Parameter zur Inferenz.
Simulation
Ich habe einige Daten wie diese simuliert:
Anschließend wurde das Modell mit JAGS für 2000 Iterationen nach einem Burnin von 500 Iterationen ausgeführt. Hier ist das Ergebnis für X.sd.
Der blaue Bereich gibt das 95% -ige Intervall für die höchste posteriore Dichte oder das glaubwürdige Intervall an (wenn Sie glauben, dass der Parameter nach der Beobachtung der Daten ermittelt wurde. Beachten Sie, dass ein orthodoxes Konfidenzintervall dies nicht ergibt).
Die rote vertikale Linie ist die MLE-Schätzung der Rohdaten. Normalerweise ist der wahrscheinlichste Parameter in der Bayes'schen Schätzung auch der wahrscheinlichste (maximale Wahrscheinlichkeits-) Parameter in orthodoxen Statistiken. Aber Sie sollten sich nicht zu sehr um die Oberseite des Seitenzahns kümmern. Der Mittelwert oder Median ist besser, wenn Sie ihn auf eine einzelne Zahl reduzieren möchten.
Beachten Sie, dass MLE / top nicht bei 5 liegt, da die Daten zufällig generiert wurden und nicht aufgrund falscher Statistiken.
Einschränkungen
Dies ist ein einfaches Modell, das derzeit mehrere Mängel aufweist.
Ich sollte erwähnen, dass es eine Menge Literatur zu räumlichen Bayes'schen Modellen gibt, über die ich mich nicht auskenne.
quelle
Ich führe zunächst eine Notation ein und richte das Problem mit dem von Ihnen erwähnten einfachen Ansatz ein. Dann geh weiter. ich werde benützenz um sich auf den von Ihnen angegebenen Vektor Z zu beziehen.
Betrachten Sie das folgende Modell, bei dem der explizite Erwähnungsmessfehler fehlt:Z¯= ∑ni = 1μZ+ϵichn , wo Z¯ ist der geschätzte Durchschnittswert von z , und μZ ist der wahre Durchschnittswert von Z. Hier, ϵ ist ein Vektor der Fehler in Ihren Daten, und Sie erwarten dies, wenn Ihre Stichprobe groß ist Z¯ konvergieren zu μZ . Wenn Sie einfach das Beobachtete nehmenZ Werte und deren Durchschnitt erhalten Sie Z¯ und wenn Sie die Standardabweichung der Stichprobe berechnen, erhalten Sie σ^ , die Schätzung der wahren Populationsstandardabweichung σ . Was ist, wenn Sie etwas Wissen über den Messfehler nutzen möchten?
Beachten Sie zunächst, dass wir das ursprüngliche Modell wie folgt umformulieren können:z = 1 β+ ϵ , wo 1 ist ein Vektor von Einsen und β wird am Ende sein Z¯ . Das sieht nun wirklich nach Regression aus, aber wir bekommen im Grunde immer noch nur eine Schätzung vonμZ . Wenn wir eine solche Regression durchführen, erhalten wir auch eine Schätzung für den Standardfehler vonϵ , das ist fast das, was wir wollen - das ist nichts als der Standardfehler von z (aber wir wollen immer noch Messfehler berücksichtigen).
Wir können unser ursprüngliches Modell erweitern, um ein Modell mit gemischten Effekten zu erhalten.z = 1 β+ Q u + ϵ , wo u ist ein Vektor von zufälligen Effekten, und Q. ist der Regressor im Zusammenhang z zu u . Wie bei jedem zufälligen Effekt müssen Sie eine Annahme über die Verteilung von treffenu . Ist es richtig, dassZσ ist die Verteilung des Messfehlers für z ? Wenn ja, kann dies verwendet werden, um die Verteilung der zufälligen Effekte bereitzustellen. In der Regel geht die Software zur Durchführung der grundlegenden Modellierung gemischter Effekte davon aus, dass die zufälligen Effekte eine normale Verteilung haben (mit dem Mittelwert 0 ...) und die Varianz für Sie schätzen. Vielleicht können Sie dies versuchen, um das Konzept zu testen. Wenn Sie Ihre vorherigen Informationen zur Verteilung des Messfehlers verwenden möchten, ist ein Bayes'sches Mischeffektmodell in Ordnung. Sie können R2OpenBUGS verwenden.
Nach der Schätzung dieses Modells erhalten Sie den Standardfehler für die Residuenϵ Dies ist der Standardfehler, an dem Sie Ihr Interesse bekunden. Intuitiv saugt die Zufallseffektkomponente des Modells einige der Variationen auf, die Sie erklären können, weil Sie wissen, dass ein Messfehler vorliegt. Auf diese Weise können Sie eine relevantere Schätzung der Variation von erhaltenϵ
Sehen Sie dieses Papier für eine tiefere Diskussion zu diesem Ansatz von zufälligen Effekten Rechnung für Messfehler. Ihre Situation ähnelt der, für die die Autoren eine Einführung gebenD und sein Messfehler beschädigte Version W . Das Beispiel in Abschnitt 4 bietet möglicherweise einige Einblicke in Ihre Situation.
Wie von whuber erwähnt, möchten Sie möglicherweise die Autokorrelation in Ihren Daten berücksichtigen. Die Verwendung von zufälligen Effekten löst dieses Problem nicht.
quelle