Das fühlt sich wie eine sehr naive Frage an, aber ich habe Schwierigkeiten, die Antwort zu sehen.
Ich habe einen Satz von 30 Werten. Unabhängig davon habe ich einen 31. Wert erhalten. Die Nullhypothese lautet, dass der 31. Wert Teil derselben Verteilung ist. Alternative ist, dass es anders ist. Ich möchte eine Art p-Wert oder Wahrscheinlichkeitsmaß.
Einige Gedanken, die ich hatte:
- Dies ähnelt dem Wunsch, einen T-Test mit zwei Stichproben durchzuführen - mit der Ausnahme, dass ich für die zweite Stichprobe nur einen einzigen Wert habe und die 30 Werte nicht unbedingt normal verteilt sind.
- Wenn ich anstelle von 30 Messungen 10000 Messungen hätte, könnte der Rang der Einzelmessung einige nützliche Informationen liefern.
Wie kann ich diese Wahrscheinlichkeit oder diesen p-Wert berechnen?
Vielen Dank! Yannick
hypothesis-testing
bayesian
t-test
Yannick Wurm
quelle
quelle
Antworten:
Im unimodalen Fall kann die Vysochanskij-Petunin-Ungleichung ein grobes Vorhersageintervall ergeben. Hier ist die Wikipedia-Site: http://en.wikipedia.org/wiki/Vysochanski%C3%AF%E2%80%93Petunin_inequality
Die Verwendung von führt zu einem Vorhersageintervall von ungefähr 95%.λ = 3
Sie schätzen also den Mittelwert und die Standardabweichung Ihrer Population und verwenden einfach den Stichprobenmittelwert plus oder minus 3 s als Intervall.x¯ 3 s
Bei diesem Ansatz gibt es einige Probleme. Sie kennen den Mittelwert oder die Standardabweichung nicht wirklich. Sie verwenden Schätzungen. Und im Allgemeinen werden Sie keine unimodalen Verteilungen haben, was bedeutet, dass Sie spezielle Versionen von Chebyshevs Ungleichung verwenden müssen. Aber zumindest haben Sie einen Ausgangspunkt.
quelle
Richtig. Die Idee ist ein bisschen wie ein T-Test mit einem einzelnen Wert. Da die Verteilung nicht bekannt ist und die Normalität mit nur 30 Datenpunkten möglicherweise etwas schwer zu schlucken ist, ist eine Art nichtparametrischer Test erforderlich.
Selbst bei 30 Messungen kann der Rang informativ sein.
Wie @whuber hervorgehoben hat, möchten Sie eine Art Vorhersageintervall. Für den nichtparametrischen Fall fragen Sie im Wesentlichen Folgendes: Wie hoch ist die Wahrscheinlichkeit, dass ein bestimmter Datenpunkt zufällig den Rang hat, den wir für Ihre 31. Messung beobachten?
Dies kann durch einen einfachen Permutationstest behoben werden. Hier ist ein Beispiel mit 15 Werten und einem Roman (16. Beobachtung), der tatsächlich größer ist als jeder der vorherigen:
Wir führen N Permutationen durch, bei denen die Reihenfolge der Elemente in der Liste gemischt wird, und stellen dann die Frage: Welchen Rang hat der Wert des ersten Elements in der (gemischten) Liste?
Das Durchführen von N = 1.000 Permutationen ergibt 608 Fälle, in denen der Rang des ersten Elements in der Liste gleich oder besser dem Rang des neuen Werts entspricht (tatsächlich gleich, da der neue Wert der beste ist). Wenn wir die Simulation für 1.000 Permutationen erneut ausführen, erhalten wir 658 solcher Fälle, dann 663 ...
Wenn wir N = 1.000.000 Permutationen durchführen, erhalten wir 62825 Fälle, in denen der Rang des ersten Elements in der Liste gleich oder besser dem Rang des neuen Werts entspricht (weitere Simulationen ergeben 62871 Fälle, dann 62840 ...). Wenn das Verhältnis zwischen Fällen, in denen die Bedingung erfüllt ist, und der Gesamtzahl der Permutationen genommen wird, erhalten wir Zahlen wie 0,062825, 0,062871, 0,06284 ...
Sie können sehen, dass diese Werte gegen 1/16 = 0,0625 (6,25%) konvergieren. Dies ist, wie @whuber feststellt, die Wahrscheinlichkeit, dass ein bestimmter Wert (von 16), der zufällig gezogen wird, den bestmöglichen Rang unter ihnen hat.
Für einen neuen Datensatz, bei dem der neue Wert der zweitbeste Wert ist (dh Rang 2):
wir erhalten (für N = 1.000.000 Permutationen): 125235, 124883 ... günstige Fälle, die wiederum die Wahrscheinlichkeit annähern, dass ein zufällig gezogener Wert (von 16) den zweitbesten Rang unter ihnen hat: 2/16 = 0,125 (12,5%).
quelle