Angenommen, ich erhalte zwei Gruppen von Massenmessungen (in mg), die als y1 und y2 bezeichnet werden. Ich möchte einen Test durchführen, um festzustellen, ob die beiden Proben aus Populationen mit unterschiedlichen Mitteln stammen. So etwas zum Beispiel (in R):
y1 <- c(10.5,2.9,2.0,4.4,2.8,5.9,4.2,2.7,4.7,6.6)
y2 <- c(3.8,4.3,2.8,5.0,9.3,6.0,7.6,3.8,6.8,7.9)
t.test(y1,y2)
Ich erhalte einen p-Wert von 0,3234 und lehne bei einem Signifikanzniveau von 0,05 die Nullhypothese nicht ab, dass die beiden Gruppen aus Populationen mit demselben Mittelwert stammen. Jetzt werden mir für jede Messung Unsicherheiten gegeben:
u1 <- c(2.3,1.7,1.7,1.7,2.0,2.2,2.1,1.7,2.3,2.2)
u2 <- c(2.4,1.8,1.6,2.3,2.5,1.8,1.9,1.5,2.3,2.3)
Dabei ist u1 [1] die kombinierte Standardunsicherheit bei der Messung y1 [1] (und so weiter). Wie beziehe ich diese Unsicherheiten in den statistischen Test ein?
Antworten:
Es hört sich so an, als ob Sie eine gewichtete Analyse durchführen möchten. Siehe "Beispiel für gewichtete Statistiken" im Abschnitt "Konzepte" der SAS-Dokumentation.
quelle
Warum nicht simulieren? Fügen Sie also Ihre Unsicherheit als Rauschrealisierung zu jeder Beobachtung hinzu. Wiederholen Sie dann den Hypothesentest. Tun Sie dies ungefähr 1000 Mal und sehen Sie, wie oft die Null abgelehnt wurde. Sie müssen eine Verteilung für das Rauschen auswählen. Das Normale scheint eine Option zu sein, könnte jedoch negative Beobachtungen hervorrufen, was nicht realistisch ist.
quelle
Sie könnten daraus ein Regressionsproblem machen und die Unsicherheiten als Gewichte verwenden. Das heißt, prognostizieren Sie die Gruppe (1 oder 2?) Aus der Messung in einer Regression.
Aber
Die Unsicherheiten sind ungefähr konstant, so dass es wahrscheinlich ist, dass sich durch ihre Verwendung auch nicht viel ändert.
Sie haben einen milden Ausreißer bei 10,5, was die Sache kompliziert, indem Sie die Differenz zwischen den Mitteln verringern. Aber wenn Sie die Unsicherheiten glauben können, ist dieser Wert nicht verdächtiger als jeder andere.
Der t-Test weiß nicht, dass Ihre alternative Hypothese darin besteht, dass zwei Proben aus verschiedenen Populationen gezogen werden. Alles, was es weiß, ist das Vergleichen von Mitteln unter bestimmten Annahmen. Rangbasierte Tests sind eine Alternative, aber wenn Sie an diesen Daten als Messungen interessiert sind, klingen sie für Ihre Ziele nicht vorzuziehen.
quelle
In gewöhnlichen kleinsten Quadraten (z. B. lm (y ~ x)) berücksichtigen Sie die Variabilität (Unsicherheit) um y-Werte bei einem x-Wert. Wenn Sie die Regression umdrehen (lm (x ~)), minimieren Sie die Fehler um x. In beiden Fällen wird angenommen, dass die Fehler ziemlich homogen sind.
Wenn Sie den Betrag der Varianz um jede Beobachtung Ihrer Antwortvariablen kennen und diese Varianz nicht konstant ist, wenn sie nach x geordnet ist, möchten Sie gewichtete kleinste Quadrate verwenden. Sie können die y-Werte mit Faktoren von 1 / (Varianz) gewichten.
Wenn Sie befürchten, dass sowohl x als auch y eine Unsicherheit aufweisen und die Unsicherheit zwischen beiden nicht gleich ist, möchten Sie die Residuen (Adressunsicherheit) nicht einfach senkrecht zu einer Ihrer Achsen minimieren. Idealerweise minimieren Sie die Unsicherheit senkrecht zur angepassten Trendlinie. Zu diesem Zweck können Sie die PCA-Regression verwenden (auch als orthogonale Regression oder Total Least Squares bezeichnet). Es gibt R-Pakete für die PCA-Regression , und es wurden bereits Beiträge zu diesem Thema auf dieser Website veröffentlicht , die dann auch an anderer Stelle behandelt wurden Außerdem denke ich (dh ich kann mich irren ...), dass Sie immer noch eine gewichtete Version dieser Regression erstellen können, indem Sie Ihr Wissen über die Varianzen nutzen.
quelle