Statistische Tests, die Messunsicherheit beinhalten

11

Angenommen, ich erhalte zwei Gruppen von Massenmessungen (in mg), die als y1 und y2 bezeichnet werden. Ich möchte einen Test durchführen, um festzustellen, ob die beiden Proben aus Populationen mit unterschiedlichen Mitteln stammen. So etwas zum Beispiel (in R):

y1 <- c(10.5,2.9,2.0,4.4,2.8,5.9,4.2,2.7,4.7,6.6)
y2 <- c(3.8,4.3,2.8,5.0,9.3,6.0,7.6,3.8,6.8,7.9)
t.test(y1,y2)

Ich erhalte einen p-Wert von 0,3234 und lehne bei einem Signifikanzniveau von 0,05 die Nullhypothese nicht ab, dass die beiden Gruppen aus Populationen mit demselben Mittelwert stammen. Jetzt werden mir für jede Messung Unsicherheiten gegeben:

u1 <- c(2.3,1.7,1.7,1.7,2.0,2.2,2.1,1.7,2.3,2.2)
u2 <- c(2.4,1.8,1.6,2.3,2.5,1.8,1.9,1.5,2.3,2.3)

Dabei ist u1 [1] die kombinierte Standardunsicherheit bei der Messung y1 [1] (und so weiter). Wie beziehe ich diese Unsicherheiten in den statistischen Test ein?

Tom
quelle
Sind das gepaarte Messungen oder nicht? (Ich nehme nicht an.) Die Unsicherheiten könnten verwendet werden, um Gewichte abzuleiten, die Ihre Schlussfolgerung verbessern könnten, aber die Variation der Unsicherheiten ist ziemlich gering, so dass es keinen großen Gewinn geben wird, selbst wenn die Unsicherheiten genau sind.
Glen_b -Reinstate Monica
Dies ist eine Teilmenge realer ungepaarter Daten. Das Beispiel sollte in erster Linie die Frage klären. Was ich wirklich suche, ist eine allgemeine Anleitung, wie man die Messunsicherheit am besten in einen Hypothesentest einbezieht (wie beim Test). Es scheint mir, dass wir viele wertvolle Informationen verschwenden, wenn wir die Messunsicherheiten nicht nutzen, aber ich konnte in der Literatur keine klare Anleitung zu diesem Thema finden.
Tom
Um sie optimal nutzen zu können, müssen Sie sie in ein Wahrscheinlichkeitsmodell für die Beobachtungen integrieren. Was bedeuten die Messunsicherheiten tatsächlich ? (Sie können dies nicht von Hand winken, seien Sie also vorsichtig.)
Glen_b

Antworten:

1

Es hört sich so an, als ob Sie eine gewichtete Analyse durchführen möchten. Siehe "Beispiel für gewichtete Statistiken" im Abschnitt "Konzepte" der SAS-Dokumentation.

Rick
quelle
Also machen wir einfach den t-Test mit den gewichteten Mitteln und gewichteten Standardabweichungen, wobei u1 und u1 die Gewichte sind?
Tom
Ja. Sie würden annehmen, dass die Varianz der i-ten Beobachtung Var / w_i ist, wobei w_i das Gewicht für die i-te Beobachtung und Var> 0 ist.
Rick
1

Warum nicht simulieren? Fügen Sie also Ihre Unsicherheit als Rauschrealisierung zu jeder Beobachtung hinzu. Wiederholen Sie dann den Hypothesentest. Tun Sie dies ungefähr 1000 Mal und sehen Sie, wie oft die Null abgelehnt wurde. Sie müssen eine Verteilung für das Rauschen auswählen. Das Normale scheint eine Option zu sein, könnte jedoch negative Beobachtungen hervorrufen, was nicht realistisch ist.

soakley
quelle
1

Sie könnten daraus ein Regressionsproblem machen und die Unsicherheiten als Gewichte verwenden. Das heißt, prognostizieren Sie die Gruppe (1 oder 2?) Aus der Messung in einer Regression.

Aber

Die Unsicherheiten sind ungefähr konstant, so dass es wahrscheinlich ist, dass sich durch ihre Verwendung auch nicht viel ändert.

Sie haben einen milden Ausreißer bei 10,5, was die Sache kompliziert, indem Sie die Differenz zwischen den Mitteln verringern. Aber wenn Sie die Unsicherheiten glauben können, ist dieser Wert nicht verdächtiger als jeder andere.

Der t-Test weiß nicht, dass Ihre alternative Hypothese darin besteht, dass zwei Proben aus verschiedenen Populationen gezogen werden. Alles, was es weiß, ist das Vergleichen von Mitteln unter bestimmten Annahmen. Rangbasierte Tests sind eine Alternative, aber wenn Sie an diesen Daten als Messungen interessiert sind, klingen sie für Ihre Ziele nicht vorzuziehen.

Nick Cox
quelle
Punkt genommen. Ich habe die Frage geändert, um sie in Bezug auf die Mittel auszudrücken.
Tom
0

In gewöhnlichen kleinsten Quadraten (z. B. lm (y ~ x)) berücksichtigen Sie die Variabilität (Unsicherheit) um y-Werte bei einem x-Wert. Wenn Sie die Regression umdrehen (lm (x ~)), minimieren Sie die Fehler um x. In beiden Fällen wird angenommen, dass die Fehler ziemlich homogen sind.

Wenn Sie den Betrag der Varianz um jede Beobachtung Ihrer Antwortvariablen kennen und diese Varianz nicht konstant ist, wenn sie nach x geordnet ist, möchten Sie gewichtete kleinste Quadrate verwenden. Sie können die y-Werte mit Faktoren von 1 / (Varianz) gewichten.

Wenn Sie befürchten, dass sowohl x als auch y eine Unsicherheit aufweisen und die Unsicherheit zwischen beiden nicht gleich ist, möchten Sie die Residuen (Adressunsicherheit) nicht einfach senkrecht zu einer Ihrer Achsen minimieren. Idealerweise minimieren Sie die Unsicherheit senkrecht zur angepassten Trendlinie. Zu diesem Zweck können Sie die PCA-Regression verwenden (auch als orthogonale Regression oder Total Least Squares bezeichnet). Es gibt R-Pakete für die PCA-Regression , und es wurden bereits Beiträge zu diesem Thema auf dieser Website veröffentlicht , die dann auch an anderer Stelle behandelt wurden Außerdem denke ich (dh ich kann mich irren ...), dass Sie immer noch eine gewichtete Version dieser Regression erstellen können, indem Sie Ihr Wissen über die Varianzen nutzen.

rbatt
quelle