Angenommen, ich habe Proben aus zwei verschiedenen Populationen. Wenn ich messe, wie lange jedes Mitglied für eine Aufgabe benötigt, kann ich den Mittelwert und die Varianz jeder Population leicht abschätzen.
Wenn ich jetzt eine zufällige Paarung mit einem Individuum aus jeder Population annehme, kann ich dann die Wahrscheinlichkeit abschätzen, dass das erste Individuum schneller ist als das zweite?
Ich habe ein konkretes Beispiel im Sinn: Die Messungen sind für mich die Zeiten, zu denen ich von A nach B fahre, und die Populationen repräsentieren verschiedene Wege, die ich einschlagen könnte. Ich versuche herauszufinden, wie wahrscheinlich es ist, dass die Auswahl von Route A für meinen nächsten Zyklus schneller ist als die Auswahl von Route B. Wenn ich den Zyklus tatsächlich durchführe, habe ich einen anderen Datenpunkt für meinen Beispielsatz :).
Ich bin mir bewusst, dass dies ein schrecklich simpler Weg ist, um das herauszufinden, nicht zuletzt, weil der Wind an einem bestimmten Tag eher meine Zeit beeinflusst als alles andere. Lassen Sie es mich bitte wissen, wenn Sie meinen, ich frage die falsche frage ...
quelle
Antworten:
Lösung
Die beiden Mittelwerte seien und μ y und ihre Standardabweichungen seienμx μy bzw. σ y . Der Zeitunterschied zwischen zwei Fahrten ( Y - X ) hat daher den Mittelwert μ y - μ x und die Standardabweichung √σx σy Y−X μy-μx . Die standardisierte Differenz ("z score") beträgtσ2x+ σ2y------√
Es sei denn , Ihre Fahrt mal seltsame Distributionen haben, dass die Chance Fahrt länger als Fahrt dauert X ist etwa die Normalverteilung, Φ , bei ausgewertet z .Y. X Φ z
Berechnung
Sie können diese Wahrscheinlichkeit auf einer Ihrer Fahrten berechnen, da Sie bereits Schätzungen von usw. haben :-). Es ist einfach ein paar wichtige Werte für diesen Zweck merken Φ : Φ ( 0 ) = 0,5 = 1 / 2 , Φ ( - 1 ) ≈ 0,16 ≈ 1 / 6 , Φ ( - 2 ) ≈ 0.022 ≈ 1 / 40 , und Φ ( - 3 ) ≈ 0,0013μx Φ Φ(0)=.5=1/2 Φ(−1)≈0.16≈1/6 Φ(−2)≈0.022≈1/40 . (Die Näherung mag für | z | sehr viel größer als 2 schlecht sein, aber die Kenntnis von Φ ( - 3 ) hilft bei der Interpolation.) In Verbindung mit Φ ( z ) = 1 - Φ ( - z ) und etwas Interpolation erhalten Sie kann die Wahrscheinlichkeit schnell auf eine signifikante Zahl abschätzen, was angesichts der Art des Problems und der Daten mehr als genau genug ist.Φ(−3)≈0.0013≈1/750 |z| 2 Φ(−3) Φ(z)=1−Φ(−z)
Beispiel
Angenommen, Route dauert 30 Minuten mit einer Standardabweichung von 6 Minuten und Route Y dauert 36 Minuten mit einer Standardabweichung von 8 Minuten. Wenn genügend Daten für einen weiten Bereich von Bedingungen vorliegen, können die Histogramme Ihrer Daten möglicherweise ungefähr so aussehen:X Y
(Hierbei handelt es sich um Wahrscheinlichkeitsdichtefunktionen für Gamma-Variablen (25, 30/25) und Gamma-Variablen (20, 36/20). Beachten Sie, dass sie deutlich nach rechts verschoben sind, wie dies für die Fahrzeit zu erwarten ist.)
Dann
Woher
Wir haben
Wir schätzen daher, dass die Antwort zwischen 0,5 und 0,84 0,6 beträgt: 0,5 + 0,6 * (0,84 - 0,5) = ungefähr 0,70. (Der korrekte, aber zu genaue Wert für die Normalverteilung ist 0,73.)
Die Wahrscheinlichkeit, dass Route länger dauert als Route X, liegt bei etwa 70% . Wenn Sie diese Berechnung in Ihrem Kopf durchführen, werden Sie vom nächsten Hügel abgekommen sein. :-)Y X
(Die korrekte Wahrscheinlichkeit für die angezeigten Histogramme beträgt 72%, auch wenn keines von beiden normal ist. Dies veranschaulicht den Umfang und die Nützlichkeit der normalen Näherung für die Differenz der Auslösezeiten.)
quelle
Mein instinktiver Ansatz ist vielleicht nicht der statistisch ausgefeilteste, aber du findest es vielleicht spaßiger :)
Ich würde ein anständiges Blatt Millimeterpapier bekommen und die Spalten in Zeitblöcke aufteilen. Je nachdem, wie lange Ihre Fahrten dauern - sprechen wir von einer durchschnittlichen Zeit von 5 Minuten oder einer Stunde - können Sie Blöcke unterschiedlicher Größe verwenden. Angenommen, jede Spalte besteht aus einem Block von zwei Minuten. Wählen Sie eine Farbe für Route A und eine andere Farbe für Route B und markieren Sie nach jeder Fahrt die entsprechende Spalte mit einem Punkt. Wenn bereits ein Punkt dieser Farbe vorhanden ist, rücken Sie eine Zeile nach oben. Mit anderen Worten wäre dies ein Histogramm in absoluten Zahlen.
Dann würden Sie mit jeder Fahrt, die Sie unternehmen, ein lustiges Histogramm erstellen und den Unterschied zwischen den beiden Routen visuell erkennen.
Mein Gefühl basiert auf meiner eigenen Erfahrung als Fahrradpendler (nicht durch Quantifizierung verifiziert), dass die Zeiten nicht normal verteilt sind - sie würden einen positiven Versatz haben, oder mit anderen Worten einen langen Schwanz der oberen Endzeiten. Meine typische Zeit ist nicht viel länger als meine kürzeste mögliche Zeit, aber ab und zu scheine ich alle roten Ampeln zu treffen, und es gibt ein viel höheres oberes Ende. Ihre Erfahrung kann anders sein. Aus diesem Grund ist der Histogrammansatz meines Erachtens möglicherweise besser, sodass Sie die Form der Verteilung selbst beobachten können.
PS: Ich habe nicht genug Repräsentanten, um in diesem Forum Kommentare abzugeben, aber ich liebe Whubers Antwort! Mit einer Stichprobenanalyse begegnet er meiner Sorge um die Schiefe ziemlich effektiv. Und ich mag die Idee, in deinem Kopf zu rechnen, um dich vom nächsten Hügel abzuhalten :)
quelle
quelle
for
Schleife entfernen : Lassen Siex1 = sample(X, 10000, replace = TRUE)
undy1 = sample(Y, 10000, replace = TRUE)
rechnen Sie dannmean(x1 > y1)
zusammen mitmean(x1 == y1)
-, um ein Gefühl dafür zu bekommen, wie oft die Werte gleich sind.