Nehmen wir an, ich habe zwei Proben. Wenn ich herausfinden will, ob sie aus verschiedenen Populationen stammen, kann ich einen T-Test durchführen. Angenommen, ich möchte testen, ob die Stichproben aus derselben Population stammen. Wie macht man das? Wie berechne ich die statistische Wahrscheinlichkeit, dass diese beiden Stichproben aus derselben Grundgesamtheit stammen?
statistical-significance
user1566200
quelle
quelle
Antworten:
Die Tests, die Verteilungen vergleichen, sind Ausschlusstests. Sie beginnen mit der Nullhypothese, dass die beiden Populationen identisch sind, und versuchen dann, diese Hypothese abzulehnen. Wir können niemals beweisen, dass die Null wahr ist, lehnen sie einfach ab, sodass diese Tests nicht wirklich dazu dienen können, zu zeigen, dass zwei Proben aus derselben Population (oder aus identischen Populationen) stammen.
Dies liegt daran, dass es geringfügige Unterschiede in den Verteilungen geben kann (was bedeutet, dass sie nicht identisch sind), diese jedoch so klein sind, dass Tests den Unterschied nicht wirklich feststellen können.
Betrachten Sie 2 Verteilungen, die erste ist einheitlich von 0 bis 1, die zweite ist eine Mischung aus 2 Uniformen, also 1 zwischen 0 und 0,999 und 1 zwischen 9,999 und 10 (0 an anderer Stelle). Es ist also klar, dass diese Verteilungen unterschiedlich sind (ob der Unterschied bedeutsam ist, ist eine andere Frage). Wenn Sie jedoch eine Stichprobengröße von 50 (insgesamt 100) wählen, besteht eine Wahrscheinlichkeit von über 90%, dass Sie nur Werte zwischen 0 und 0,999 und sehen kann keinen wirklichen Unterschied erkennen.
Es gibt Möglichkeiten, so genannte Äquivalenztests durchzuführen, bei denen Sie fragen, ob die 2 Verteilungen / Populationen äquivalent sind. Sie müssen jedoch definieren, was Sie als äquivalent betrachten. In der Regel liegt ein Differenzmaß innerhalb eines bestimmten Bereichs, dh die Differenz der 2 Mittelwerte beträgt weniger als 5% des Durchschnitts der 2 Mittelwerte, oder die KS-Statistik liegt unter einem bestimmten Grenzwert usw. Wenn Sie kann dann ein Konfidenzintervall für die Differenzstatistik berechnen (Mittelwertdifferenz kann nur das Konfidenzintervall sein, Bootstrapping, Simulation oder andere Methoden können für andere Statistiken erforderlich sein). Wenn das gesamte Konfidenzintervall in den "Äquivalenzbereich" fällt, betrachten wir die 2 Populationen / Verteilungen als "äquivalent".
Der schwierige Teil besteht darin, herauszufinden, wie die Äquivalenzregion aussehen soll.
quelle
http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test
Unter der Annahme, dass Ihre Stichprobenwerte aus kontinuierlichen Verteilungen stammen, würde ich den Kolmogorov-Smirnov-Test vorschlagen. Es kann verwendet werden, um zu testen, ob zwei Stichproben aus unterschiedlichen Verteilungen stammen (so interpretiere ich Ihre Verwendung der Grundgesamtheit), basierend auf den zugehörigen empirischen Verteilungen.
Direkt aus Wikipedia:
Die Funktion ks.test in R kann für diesen Test verwendet werden.
Zwar prüft der kstest nicht auf Homogenität, aber ich würde argumentieren, dass Sie behaupten können, wenn Sie nicht mit einer ausreichend großen Stichprobe (einem Hochleistungstest) ablehnen, dass die Unterschiede praktisch nicht signifikant sind. Sie können daraus schließen, dass Unterschiede wahrscheinlich nicht aussagekräftig sind (auch hier wird von einer großen Stichprobe ausgegangen). Sie können nicht schlussfolgern, dass sie aus der gleichen Population stammen, die andere korrekt angegeben haben. In der Regel würde ich die beiden Stichproben nur grafisch auf Ähnlichkeit untersuchen.
quelle
Sie können eine Shift-Funktion verwenden, die prüft, ob sich die beiden Verteilungen bei jedem Dezil unterscheiden. Während es technisch gesehen ein Test ist, ob sie aus verschiedenen Populationen und nicht aus der gleichen sind, können Sie sich sicher sein, dass die Verteilungen bei keinem der Dezile unterschiedlich sind, insbesondere wenn die Gruppengröße groß ist.
Ich würde mir auch die 2 Gruppen vorstellen: Überlagern Sie ihre Verteilungen und prüfen Sie, ob sie einander ähneln, oder zeichnen Sie besser ein paar tausend Bootstrap-Beispiele aus jeder Gruppe und zeichnen Sie diese auf , da Sie so eine Vorstellung davon bekommen, ob sie von derselben stammen Grundgesamtheit, insbesondere wenn die betreffende Grundgesamtheit für Sie nicht normalverteilt ist.
quelle