Wie kann ich die Wahrscheinlichkeit abschätzen, dass ein zufälliges Mitglied aus einer Population „besser“ ist als ein zufälliges Mitglied aus einer anderen Population?

Angenommen, ich habe Proben aus zwei verschiedenen Populationen. Wenn ich messe, wie lange jedes Mitglied für eine Aufgabe benötigt, kann ich den Mittelwert und die Varianz jeder Population leicht abschätzen.

Wenn ich jetzt eine zufällige Paarung mit einem Individuum aus jeder Population annehme, kann ich dann die Wahrscheinlichkeit abschätzen, dass das erste Individuum schneller ist als das zweite?

Ich habe ein konkretes Beispiel im Sinn: Die Messungen sind für mich die Zeiten, zu denen ich von A nach B fahre, und die Populationen repräsentieren verschiedene Wege, die ich einschlagen könnte. Ich versuche herauszufinden, wie wahrscheinlich es ist, dass die Auswahl von Route A für meinen nächsten Zyklus schneller ist als die Auswahl von Route B. Wenn ich den Zyklus tatsächlich durchführe, habe ich einen anderen Datenpunkt für meinen Beispielsatz :).

Ich bin mir bewusst, dass dies ein schrecklich simpler Weg ist, um das herauszufinden, nicht zuletzt, weil der Wind an einem bestimmten Tag eher meine Zeit beeinflusst als alles andere. Lassen Sie es mich bitte wissen, wenn Sie meinen, ich frage die falsche frage ...

probability normal-distribution Andrew Aylett
quelle

Dies kann durch einfache Binomialtests erfolgen und @Macro hat eine gute Antwort. Ein Problem betrifft jedoch die Stichproben selbst: Gibt es irgendetwas, das Ihre Entscheidung für Route A oder Route B beeinflussen könnte? Nehmen Sie die Route A besonders gern, wenn die Straßen trocken sind, der Wind auf Ihrem Rücken weht und das Abendessen wartet? :) Seien Sie vorsichtig mit allem, was Ausreißer in einem der Sets beeinflussen oder die Stichproben in irgendeiner Weise verzerren könnte. Versuchen Sie zum Beispiel, Ihren Probenahmeplan im Voraus einzurichten, und berücksichtigen Sie dabei eventuelle Abweichungen (z. B. Sicherheit).

Iterator

Eine weitere Überlegung: Angenommen, Sie haben zwei Routen mit sehr ähnlichen Mitteln und keine dominiert die andere hinsichtlich der Wahrscheinlichkeit, dass sie schneller ist. ZB ist eine immer entweder 10 oder 20 Minuten, während die andere immer genau 15 Minuten ist. Möglicherweise ist es besser, eine größere Unsicherheit (z. B. Standardabweichung) zu bestrafen oder eine zu bevorzugen, bei der die Wahrscheinlichkeit geringer ist als eine bestimmte Zeitschwelle. Ihre Frage wie sie ist ist in Ordnung; Ich schlage nur eine zukünftige Verfeinerung vor.

Iterator

Die statistische Frage ist in Ordnung, aber wenn Sie die Wahrscheinlichkeit herausfinden möchten, welche Route schneller ist, sollte ich vorschlagen, die Länge der Routen zu messen. Wenn das Gelände nicht hügelig ist, ist die kürzere Route immer schneller.

mpiktas

Wenn Wind ein wichtiger Faktor ist und wenn die Windgeschwindigkeiten für die beiden Routen in Beziehung stehen, würde es scheinen, dass eine Person Informationen über die Abhängigkeit zwischen A und B benötigt, um die Frage genau zu beantworten. Dafür werden bivariate Daten benötigt, und es ist schwierig, zwei Pfade gleichzeitig zu fahren. Sie könnten eine andere Person für die Datenerfassung gewinnen, müssten dann aber die Variabilität zwischen den Fahrern berücksichtigen. In dem Fall, dass A und B unabhängig sind, sind die Antworten unten großartig.

Anders ausgedrückt: Wenn ich mich für einen Weg entscheide, einen durch einen Tunnel, einen durch ein Feld, und der Wind wie verrückt weht, kann ich das Feld sehr gut auswählen, auch wenn es im Durchschnitt fürchterlich schlimmer ist.

Antworten:

Lösung

Die beiden Mittelwerte seien und und ihre Standardabweichungen seien $\mu_x$ $\mu_y$ bzw. . Der Zeitunterschied zwischen zwei Fahrten ( ) hat daher den Mittelwert und die Standardabweichung $\sigma_x$ $\sigma_y$ $Y-X$ $\mu_y - \mu_x$ . Die standardisierte Differenz ("z score") beträgt $\sqrt{\sigma_x^2 + \sigma_y^2}$

z = \frac{μ_{y} - μ_{x}}{\sqrt{σ_{x}^{2} + σ_{y}^{2}}} .

$z = \frac{\mu_y - \mu_x}{\sqrt{\sigma_x^2 + \sigma_y^2}}.$

Es sei denn , Ihre Fahrt mal seltsame Distributionen haben, dass die Chance Fahrt länger als Fahrt dauert ist etwa die Normalverteilung, , bei ausgewertet . $Y$ $X$ $\Phi$ $z$

Berechnung

Sie können diese Wahrscheinlichkeit auf einer Ihrer Fahrten berechnen, da Sie bereits Schätzungen von usw. haben :-). Es ist einfach ein paar wichtige Werte für diesen Zweck merken : , , , und $\mu_x$ $\Phi$ $\Phi(0) = .5 = 1/2$ $\Phi(-1) \approx 0.16 \approx 1/6$ $\Phi(-2) \approx 0.022 \approx 1/40$ . (Die Näherung mag für sehr viel größer als schlecht sein, aber die Kenntnis von hilft bei der Interpolation.) In Verbindung mit und etwas Interpolation erhalten Sie kann die Wahrscheinlichkeit schnell auf eine signifikante Zahl abschätzen, was angesichts der Art des Problems und der Daten mehr als genau genug ist. $\Phi(-3) \approx 0.0013 \approx 1/750$ $|z|$ $2$ $\Phi(-3)$ $\Phi(z) = 1 - \Phi(-z)$

Beispiel

Angenommen, Route dauert 30 Minuten mit einer Standardabweichung von 6 Minuten und Route dauert 36 Minuten mit einer Standardabweichung von 8 Minuten. Wenn genügend Daten für einen weiten Bereich von Bedingungen vorliegen, können die Histogramme Ihrer Daten möglicherweise ungefähr so aussehen: $X$ $Y$

Zwei Histogramme

(Hierbei handelt es sich um Wahrscheinlichkeitsdichtefunktionen für Gamma-Variablen (25, 30/25) und Gamma-Variablen (20, 36/20). Beachten Sie, dass sie deutlich nach rechts verschoben sind, wie dies für die Fahrzeit zu erwarten ist.)

Dann

μ_{x} = 30, μ_{y} = 36, σ_{x} = 6, σ_{y} = 8.

$\mu_x = 30, \quad \mu_y = 36, \quad \sigma_x = 6, \quad \sigma_y = 8.$

Woher

z = \frac{36 - 30}{\sqrt{6^{2} + 8^{2}}} = 0.6.

$z = \frac{36 - 30}{\sqrt{6^2 + 8^2}} = 0.6.$

Wir haben

Φ (0) = 0.5; Φ (1) = 1 - Φ (- 1) \approx 1 - 0.16 = 0.84.

$\Phi(0) = 0.5; \quad \Phi(1) = 1 - \Phi(-1) \approx 1 - 0.16 = 0.84.$

Wir schätzen daher, dass die Antwort zwischen 0,5 und 0,84 0,6 beträgt: 0,5 + 0,6 * (0,84 - 0,5) = ungefähr 0,70. (Der korrekte, aber zu genaue Wert für die Normalverteilung ist 0,73.)

Die Wahrscheinlichkeit, dass Route länger dauert als Route bei etwa 70% . Wenn Sie diese Berechnung in Ihrem Kopf durchführen, werden Sie vom nächsten Hügel abgekommen sein. :-) $Y$ $X$

(Die korrekte Wahrscheinlichkeit für die angezeigten Histogramme beträgt 72%, auch wenn keines von beiden normal ist. Dies veranschaulicht den Umfang und die Nützlichkeit der normalen Näherung für die Differenz der Auslösezeiten.)

whuber
quelle

Wenn Sie Erkenntnisse aus jeder Verteilung haben, was ist dann der Vorteil der Verwendung der normalen Näherung anstelle eines Monte-Carlo-Re-Sampling-Ansatzes (meine Antwort) zur Schätzung von

P (X > Y)

$P(X>Y)$

Makro

@Macro: Wenn die Daten auf zusammenfassende Statistiken für das gewünschte Q reduziert werden können, kann man weniger Daten speichern ... nur ein Gedanke.

Iterator

Tut mir leid, mein Gehirn wurde von Hitze gebraten und ich habe die offensichtliche Antwort verpasst. Sie beantworten jeweils unterschiedliche Fragen. Die Bootstrap-Methode, die Sie angegeben haben, schätzt

, während @whuber den Unterschied in den mittleren Zeiten berücksichtigt, der nicht derselbe ist. Es ist nicht allzu schwer, einen Fall zu konstruieren, in dem Option

60% der Fälle kürzer als Option

ist, der Mittelwert für

jedoch größer als der Mittelwert für

P (X > Y)

$P(X > Y)$

Y

$Y$

X

$X$

Y

$Y$

X

$X$

Iterator

FWIW: @whuber beschreibt den Student-t-Test für die Mittelwertdifferenz zwischen zwei Stichproben mit unterschiedlichen Standardabweichungen.

Iterator

Danke, @whuber, das ist die Antwort auf die Frage, die ich stellen wollte :).

Andrew Aylett

Mein instinktiver Ansatz ist vielleicht nicht der statistisch ausgefeilteste, aber du findest es vielleicht spaßiger :)

Ich würde ein anständiges Blatt Millimeterpapier bekommen und die Spalten in Zeitblöcke aufteilen. Je nachdem, wie lange Ihre Fahrten dauern - sprechen wir von einer durchschnittlichen Zeit von 5 Minuten oder einer Stunde - können Sie Blöcke unterschiedlicher Größe verwenden. Angenommen, jede Spalte besteht aus einem Block von zwei Minuten. Wählen Sie eine Farbe für Route A und eine andere Farbe für Route B und markieren Sie nach jeder Fahrt die entsprechende Spalte mit einem Punkt. Wenn bereits ein Punkt dieser Farbe vorhanden ist, rücken Sie eine Zeile nach oben. Mit anderen Worten wäre dies ein Histogramm in absoluten Zahlen.

Dann würden Sie mit jeder Fahrt, die Sie unternehmen, ein lustiges Histogramm erstellen und den Unterschied zwischen den beiden Routen visuell erkennen.

Mein Gefühl basiert auf meiner eigenen Erfahrung als Fahrradpendler (nicht durch Quantifizierung verifiziert), dass die Zeiten nicht normal verteilt sind - sie würden einen positiven Versatz haben, oder mit anderen Worten einen langen Schwanz der oberen Endzeiten. Meine typische Zeit ist nicht viel länger als meine kürzeste mögliche Zeit, aber ab und zu scheine ich alle roten Ampeln zu treffen, und es gibt ein viel höheres oberes Ende. Ihre Erfahrung kann anders sein. Aus diesem Grund ist der Histogrammansatz meines Erachtens möglicherweise besser, sodass Sie die Form der Verteilung selbst beobachten können.

PS: Ich habe nicht genug Repräsentanten, um in diesem Forum Kommentare abzugeben, aber ich liebe Whubers Antwort! Mit einer Stichprobenanalyse begegnet er meiner Sorge um die Schiefe ziemlich effektiv. Und ich mag die Idee, in deinem Kopf zu rechnen, um dich vom nächsten Hügel abzuhalten :)

Jonathan
quelle

+1 Für Kreativität. Tatsächlich ist Ihre Idee auf dem Weg zum praktischen Nutzen. Es wäre ein bisschen interessanter, eine der Fahrrad-Tracking-Sites zu verwenden (ich vergesse jetzt welche, aber wenn Sie wissen, fügen Sie hinzu), um die Segmentzeiten zu verfolgen. Wenn das OP mit einer Frage zum Zeichnen der Segmentzeit auf CV oder StackOverflow zurückgreifen und eine damit verbundene Dichte erhalten würde, wäre dies eine fabelhafte statistische Übung - GIS, statistische Visualisierung und Dichtefunktionen, oh mein Gott! :)

Iterator

Ich habe Google MyTracks auf meinem Handy verwendet, um Fahrradsegmente zu verfolgen. Ich finde, dass das Telefon nicht besonders gut darin ist, da es bei einem Gerät, das nicht für dieses Gerät optimiert ist, zu einem Stromausfall neigt. Garmin (und andere) stellen GPS-Geräte speziell für Läufer und Biker her, um die auf Routen verbrachte Zeit zu verfolgen und übersichtliche Karten in einer Online-Benutzeroberfläche bereitzustellen. Ich benutze selbst kein spezielles GPS-Gerät, aber einige meiner Freunde nutzen es, um Routen auf Facebook zu teilen.

Jonathan

Hier ist ein Beispiel dafür, was das Garmin-Gerät produziert. Das Problem mit den Diagrammen ist, dass sie bereits stark vorverarbeitet, geglättet usw. sind. Außerdem gibt es keine bequeme Möglichkeit, die Daten beispielsweise nach R zu importieren. Aber als dediziertes Gerät macht es seine Arbeit hervorragend, ich kann mir nicht vorstellen, ohne es zu laufen oder zu radeln.

mpiktas

+1 Beachten Sie, dass die roten Ampeln nicht zu stark verzerren (es sei denn, sie sind zeitgesteuert): Zusammengenommen fügen sie der Zeitverteilung normalerweise nur etwas Gaußsches Rauschen hinzu. (Die Berechnung der Varianz ist eine weitere mentale Übung, die Sie auf dem nächsten Hügel ausführen können.) In der Praxis ergibt sich der Versatz aus der nicht-gaußschen Variation der wenigen wichtigen Faktoren, die die gesamte Fahrt steuern: Wetter, wie Sie sich fühlen, mit wem Sie zusammen sind. reiten, und der gelegentliche Unfall / Umweg / Stau etc.

whuber

Jetzt, wo ich noch etwas darüber nachdenke, ist die Tageszeit ein weiterer sehr wichtiger Faktor. Die Ampeln verhalten sich in Spitzenverkehrszeiten sehr unterschiedlich - viel längere Grüns für die stark frequentierte Straße. In Zeiten außerhalb der Stoßzeiten fahren die Lichter in der Regel schnell und werden standardmäßig für stark befahrene Straßen grün angezeigt. Sie ändern sich jedoch schnell, wenn ich die Kreuzungstaste drücke oder ein Auto den Sensor aktiviert.

Jonathan

$X$ $Y$ $x,y$ $x > y$ $P(X_{i} > Y_{j})$ $i,j$

#X, Y are the two data sets
ii = rep(0,10000)
for(k in 1:10000)
{
   x1 = sample(X,1)
   y1 = sample(Y,1)
   ii[k] = (x1>y1) 
}

# this is an estimate of P(X>Y)
mean(ii)

Makro
quelle

Dies ist eine gute Antwort, aber Sie können sie vereinfachen, indem Sie die forSchleife entfernen : Lassen Sie x1 = sample(X, 10000, replace = TRUE)und y1 = sample(Y, 10000, replace = TRUE)rechnen Sie dann mean(x1 > y1)zusammen mit mean(x1 == y1)-, um ein Gefühl dafür zu bekommen, wie oft die Werte gleich sind.

Iterator

Vielen Dank. Ich wusste, dass die Schleife unnötig war, aber ich wollte, dass die Logik, die dem Ansatz zugrunde liegt, überaus klar ist. Ihr Code würde mit Sicherheit die gleichen Ergebnisse erzielen.

Makro