Entspricht dieser einzelne Wert dieser Verteilung?

10

Das fühlt sich wie eine sehr naive Frage an, aber ich habe Schwierigkeiten, die Antwort zu sehen.

Ich habe einen Satz von 30 Werten. Unabhängig davon habe ich einen 31. Wert erhalten. Die Nullhypothese lautet, dass der 31. Wert Teil derselben Verteilung ist. Alternative ist, dass es anders ist. Ich möchte eine Art p-Wert oder Wahrscheinlichkeitsmaß.

Einige Gedanken, die ich hatte:

  • Dies ähnelt dem Wunsch, einen T-Test mit zwei Stichproben durchzuführen - mit der Ausnahme, dass ich für die zweite Stichprobe nur einen einzigen Wert habe und die 30 Werte nicht unbedingt normal verteilt sind.
  • Wenn ich anstelle von 30 Messungen 10000 Messungen hätte, könnte der Rang der Einzelmessung einige nützliche Informationen liefern.

Wie kann ich diese Wahrscheinlichkeit oder diesen p-Wert berechnen?

Vielen Dank! Yannick

Yannick Wurm
quelle
4
Sie fragen nach einem Vorhersageintervall . Ihr zweiter Gedanke führt zu nicht parametrischen Vorhersageintervallen (von denen ich glaube, dass sie auf dieser Site noch nicht erwähnt wurden).
whuber
Was können Sie uns noch über Ihre Bevölkerung erzählen? Sind alle Werte positiv? Würden Sie erwarten, dass es symmetrisch ist? Unimodal?
Soakley
Danke und Entschuldigung, ich hätte mehr Infos geben sollen. Wir schauen uns die Vorhersageintervalle an. Grundsätzlich haben wir die Länge einer fokalen Genvorhersage. Und die Länge ähnlicher Gene in Datenbanken. Alle Zahlen sind also positive ganze Zahlen. In einem einfachen Fall ist die Verteilung der Längen unimodal. In Wirklichkeit sind sie oft nicht; In diesem Stadium können wir annehmen, dass dies der Fall ist. Einige Diagramme von Verteilungen werden hier gezeigt: github.com/monicadragan/gene_prediction/tree/master/…
Yannick Wurm
Ich bin nicht davon überzeugt, dass wir ein "Vorhersageintervall" wollen. Wir wollen nicht vorhersagen ... und wir wollen kein Intervall ...?
Yannick Wurm
1
Fachbegriffe nicht überinterpretieren. Per Definition wird aus den 30 Werten ein "Vorhersageintervall" so konstruiert , dass unter der angenommenen gemeinsamen Verteilung aller 31 Werte die Wahrscheinlichkeit, dass der 31. Wert innerhalb von I liegt, einem gegebenen Ziel entspricht, beispielsweise 95%. Wenn der 31. Wert tatsächlich nicht innerhalb von I liegt , können Sie daraus schließen, dass Sie entweder (i) Pech hatten (was nur eine 5% ige Chance hatte, bevor Sie die Daten gesammelt haben) oder (ii) dies tatsächlich nicht ist der Fall, dass der 31. Wert die Verteilung hat, von der Sie angenommen haben, dass sie es getan hat: und das möchten Sie testen. I3031II
whuber

Antworten:

7

Im unimodalen Fall kann die Vysochanskij-Petunin-Ungleichung ein grobes Vorhersageintervall ergeben. Hier ist die Wikipedia-Site: http://en.wikipedia.org/wiki/Vysochanski%C3%AF%E2%80%93Petunin_inequality

Die Verwendung von führt zu einem Vorhersageintervall von ungefähr 95%.λ=3

Sie schätzen also den Mittelwert und die Standardabweichung Ihrer Population und verwenden einfach den Stichprobenmittelwert plus oder minus 3 s als Intervall.x¯3s

Bei diesem Ansatz gibt es einige Probleme. Sie kennen den Mittelwert oder die Standardabweichung nicht wirklich. Sie verwenden Schätzungen. Und im Allgemeinen werden Sie keine unimodalen Verteilungen haben, was bedeutet, dass Sie spezielle Versionen von Chebyshevs Ungleichung verwenden müssen. Aber zumindest haben Sie einen Ausgangspunkt.

[x(i),x(j)]Xjin+1.X[x(1),x(30)].

[x¯λ(1+1n)1/2s , x¯+λ(1+1n)1/2s],

n=30,λ=3.2

soakley
quelle
Dies scheint eine falsche Anwendung der Ungleichung zu sein: Es wird davon ausgegangen, dass der Mittelwert und die Varianz bekannt sind , wobei die Varianz nur aus den Daten in diesem Zusammenhang geschätzt werden kann. Der Unterschied kann sehr groß sein, insbesondere bei kleinen Datensätzen. In meinen Simulationsstudien zu ähnlichen Vorschlägen mit Chebyshevs Ungleichung fand ich eine erstaunlich schlechte Leistung. Intuitiv ähnelt dies der Einsicht von Student, dass die t-Verteilung anstelle der Normalverteilung zum Erstellen von CIs verwendet werden sollte. Da ein PI viel weiter "da draußen" in den Schwänzen ist, wird der Unterschied vergrößert.
whuber
2
2/316.456.45
0

Einige Gedanken, die ich hatte:

Dies ähnelt dem Wunsch, einen T-Test mit zwei Stichproben durchzuführen - mit der Ausnahme, dass ich für die zweite Stichprobe nur einen einzigen Wert habe und die 30 Werte nicht unbedingt normal verteilt sind.

Richtig. Die Idee ist ein bisschen wie ein T-Test mit einem einzelnen Wert. Da die Verteilung nicht bekannt ist und die Normalität mit nur 30 Datenpunkten möglicherweise etwas schwer zu schlucken ist, ist eine Art nichtparametrischer Test erforderlich.

Wenn ich anstelle von 30 Messungen 10000 Messungen hätte, könnte der Rang der Einzelmessung einige nützliche Informationen liefern.

Selbst bei 30 Messungen kann der Rang informativ sein.

Wie @whuber hervorgehoben hat, möchten Sie eine Art Vorhersageintervall. Für den nichtparametrischen Fall fragen Sie im Wesentlichen Folgendes: Wie hoch ist die Wahrscheinlichkeit, dass ein bestimmter Datenpunkt zufällig den Rang hat, den wir für Ihre 31. Messung beobachten?

Dies kann durch einen einfachen Permutationstest behoben werden. Hier ist ein Beispiel mit 15 Werten und einem Roman (16. Beobachtung), der tatsächlich größer ist als jeder der vorherigen:

932
915
865
998
521
462
688
1228
746
433
662
404
301
473
647

new value: 1374

Wir führen N Permutationen durch, bei denen die Reihenfolge der Elemente in der Liste gemischt wird, und stellen dann die Frage: Welchen Rang hat der Wert des ersten Elements in der (gemischten) Liste?

Das Durchführen von N = 1.000 Permutationen ergibt 608 Fälle, in denen der Rang des ersten Elements in der Liste gleich oder besser dem Rang des neuen Werts entspricht (tatsächlich gleich, da der neue Wert der beste ist). Wenn wir die Simulation für 1.000 Permutationen erneut ausführen, erhalten wir 658 solcher Fälle, dann 663 ...

Wenn wir N = 1.000.000 Permutationen durchführen, erhalten wir 62825 Fälle, in denen der Rang des ersten Elements in der Liste gleich oder besser dem Rang des neuen Werts entspricht (weitere Simulationen ergeben 62871 Fälle, dann 62840 ...). Wenn das Verhältnis zwischen Fällen, in denen die Bedingung erfüllt ist, und der Gesamtzahl der Permutationen genommen wird, erhalten wir Zahlen wie 0,062825, 0,062871, 0,06284 ...

Sie können sehen, dass diese Werte gegen 1/16 = 0,0625 (6,25%) konvergieren. Dies ist, wie @whuber feststellt, die Wahrscheinlichkeit, dass ein bestimmter Wert (von 16), der zufällig gezogen wird, den bestmöglichen Rang unter ihnen hat.

Für einen neuen Datensatz, bei dem der neue Wert der zweitbeste Wert ist (dh Rang 2):

6423
8552
6341
6410
6589
6134
6500
6746
8176
6264
6365
5930
6331
6012
5594

new value: 8202

wir erhalten (für N = 1.000.000 Permutationen): 125235, 124883 ... günstige Fälle, die wiederum die Wahrscheinlichkeit annähern, dass ein zufällig gezogener Wert (von 16) den zweitbesten Rang unter ihnen hat: 2/16 = 0,125 (12,5%).

pythiest
quelle