Kann ein Wahrscheinlichkeitsverteilungswert von mehr als 1 in Ordnung sein?

149

Auf der Wikipedia-Seite über naive Bayes-Klassifikatoren gibt es diese Zeile:

p(heichGht|meinle)=1,5789 (Eine Wahrscheinlichkeitsverteilung über 1 ist in Ordnung. Es ist die Fläche unter der Glockenkurve, die gleich 1 ist.)

Wie kann ein Wert >1 OK sein? Ich dachte, dass alle Wahrscheinlichkeitswerte im Bereich ausgedrückt wurden 0p1. Wenn es möglich ist, einen solchen Wert zu haben, wie wird dieser Wert in dem auf der Seite gezeigten Beispiel erhalten?

babelproofreader
quelle
2
Als ich sah, dass ich dachte, dass es die Höhe der Wahrscheinlichkeitsdichtefunktion sein könnte, die eine beliebige positive Zahl sein kann, solange sie über ein beliebiges Intervall integriert ist, ist das Integral kleiner oder gleich 1. Wikipedia sollte diesen Eintrag korrigieren.
Michael Chernick
16
Da dies zukünftigen Lesern helfen könnte, biete ich eine geometrische Übersetzung des allgemeinen Teils dieser Frage an: "Wie kann sich eine Form, deren Fläche nicht überschreitet, möglicherweise mehr als 1 in eine Richtung erstrecken?" Insbesondere ist die Form der Teil der oberen Halbebene, der oben durch das Diagramm der PDF-Datei begrenzt ist und dessen Richtung vertikal ist. In der geometrischen Einstellung (der Wahrscheinlichkeits Interpretation geschoren) es ist leicht aus den Beispielen zu denken, wie beispielsweise ein Rechteck von Base nicht mehr als 1 / 2 und die Höhe 2 . 111/22
whuber
Der Wikipedia-Artikel verwendet jetzt Kleinbuchstaben pfür die Wahrscheinlichkeitsdichte und Großbuchstaben Pfür die Wahrscheinlichkeit
Aprillion
Ich lasse das hier nur für den nächsten Kerl: en.wikipedia.org/wiki/Dirac_delta_function
Joshua
Erwähnenswert ist, dass eine kumulative Verteilungsfunktion (das Integral der PDF) nicht über 1 hinausgehen kann. Die CDF ist in vielen Fällen viel intuitiver zu bedienen.
naught101

Antworten:

167

Diese Wiki-Seite missbraucht die Sprache, indem sie auf diese Zahl als Wahrscheinlichkeit verweist. Sie haben Recht, dass es nicht ist. Es ist tatsächlich eine Wahrscheinlichkeit pro Fuß . Insbesondere impliziert der Wert von 1,5789 (für eine Höhe von 6 Fuß), dass die Wahrscheinlichkeit einer Höhe zwischen beispielsweise 5,99 und 6,01 Fuß in der Nähe des folgenden Werts ohne Einheit liegt:

1,5789[1/Fuß]×(6.01-5,99)[Füße]=0,0316

Dieser Wert darf , wie Sie wissen, 1 nicht überschreiten. (Der kleine Höhenbereich (0,02 in diesem Beispiel) ist ein entscheidender Teil des Wahrscheinlichkeitsapparats. Es ist das "Differential" der Höhe, das ich mit abkürzen werde .) Wahrscheinlichkeiten pro Einheit von etwas werden in Analogie Dichten genannt auf andere Dichten, wie Masse pro Volumeneinheit.d(Höhe)

Bona - fide - Wahrscheinlichkeitsdichten haben beliebig große Werte, auch unendlich diejenigen.

Gamma-Verteilung

Dieses Beispiel zeigt die Wahrscheinlichkeitsdichtefunktion für eine Verteilung Gamma (mit Formparametern von und der Skala von 1 / 5 ). Da der größte Teil der Dichte kleiner als 1 ist , muss die Kurve höher als 1 ansteigen, um für alle Wahrscheinlichkeitsverteilungen eine Gesamtfläche von 1 zu erhalten .3/21/5111

Betaverteilung

Diese Dichte (für eine Beta - Verteilung mit Parametern , ) wird bei unendlicher 0 und 1 . Die Gesamtfläche ist noch begrenzt (und entspricht 1 )!1/2,1/10011


Der Wert von 1,5789 / Fuß wird in diesem Beispiel erhalten, indem geschätzt wird, dass die Höhen der Männchen eine Normalverteilung mit einem Mittelwert von 5,855 Fuß und einer Varianz von 3,50e-2 Quadratfuß aufweisen. (Dies ist in einer vorhergehenden Tabelle zu finden.) Die Quadratwurzel dieser Varianz ist die Standardabweichung von 0,18717 Fuß. Wir drücken 6 Fuß als Anzahl der SDs aus dem Mittelwert erneut aus:

z=(6-5,855)/0,18717=0,7747

Die Division durch die Standardabweichung ergibt eine Beziehung

dz=d(Höhe)/0,18717

Die Normale Wahrscheinlichkeitsdichte ist per Definition gleich

12πexp(-z2/2)dz=0,29544 d(Höhe)/0,18717=1,5789 d(Höhe).

d(Höhe)1,5789

whuber
quelle
Ich stelle fest, dass das Beispiel auf dieser Wiki-Seite Wahrscheinlichkeitsdichten anstelle der tatsächlichen Wahrscheinlichkeiten für die Berechnung der Seitenzähne verwendet, vermutlich, weil der Aspekt pro Einheit für Vergleichszwecke nicht erforderlich ist, wenn die verglichenen Einheiten gleich sind. Wenn man dies erweitern möchte, ohne Normalität anzunehmen, sondern empirische Daten hat, aus denen sich die Dichte abschätzen lässt, z. B. eine Schätzung der Kerndichte, wäre es gültig, einen Messwert bei einem bestimmten Wert auf der x-Achse daraus zu verwenden kde als Eingabe für die Berechnung von Nachkommen in einem naiven Bayes-Klassifikator, unter der Annahme gleich pro Einheit?
babelproofreader
1
@babelproofreader Ich glaube, die Posteriors sind bayesianische Updates, über die Trainingsdaten von Priors. Es ist unklar, wie ein KDE ähnlich ausgelegt werden könnte, aber ich bin kein Experte auf diesem Gebiet. Ihre Frage ist so interessant, dass Sie sie möglicherweise separat veröffentlichen möchten.
whuber
Wie bestimmen Sie, was ein gutes Differential ist? Was wäre, wenn Sie stattdessen ein Differential von 1 gewählt hätten? die wahrscheinlichkeit wäre dann größer als 1? Entschuldigen Sie meine Verwirrung hier. Können Sie erklären?
Fiacobelli
3
@tree Die Fläche eines Dreiecks ist das halbe Produkt aus der Länge seiner Basis und seiner Höhe.
whuber
1
@ user929304 Sie können sich auf jedes theoretische Lehrbuch beziehen, das Sie anspricht: Dies ist Teil der Grundlagen von Wahrscheinlichkeit und Statistik. Dieses besondere Konzept der Wahrscheinlichkeitsdichte ist in den besseren Einführungslehrbücher, wie schön diskutiert Freedman, Pisani, & Purves .
Whuber
43

Dies ist ein häufiger Fehler, wenn der Unterschied zwischen Wahrscheinlichkeitsmassenfunktionen, bei denen die Variable diskret ist, und Wahrscheinlichkeitsdichtefunktionen, bei denen die Variable stetig ist, nicht verstanden wird. Siehe Was ist eine Wahrscheinlichkeitsverteilung :

kontinuierliche wahrscheinlichkeitsfunktionen sind für eine unendliche anzahl von punkten über ein kontinuierliches intervall definiert, die wahrscheinlichkeit an einem einzelnen punkt ist immer null. Wahrscheinlichkeiten werden über Intervalle gemessen, nicht über einzelne Punkte. Das heißt, der Bereich unter der Kurve zwischen zwei unterschiedlichen Punkten definiert die Wahrscheinlichkeit für dieses Intervall. Dies bedeutet, dass die Höhe der Wahrscheinlichkeitsfunktion tatsächlich größer als eins sein kann. Die Eigenschaft, dass das Integral gleich eins sein muss, entspricht der Eigenschaft für diskrete Verteilungen, dass die Summe aller Wahrscheinlichkeiten gleich eins sein muss.

Tristan
quelle
14
Das NIST ist normalerweise maßgebend, aber hier ist es technisch inkorrekt (und ungrammatisch zu booten): Wenn eine Wahrscheinlichkeit auf "unendlich viele Punkte" festgelegt ist, bedeutet dies nicht, dass die "Wahrscheinlichkeit für einen einzelnen Punkt immer Null" ist. Natürlich meiden sie nur die Ablenkung von unendlichen Kardinalitäten, aber die Argumentation hier ist irreführend. Es wäre für sie besser, nur den ersten Satz im Zitat wegzulassen.
whuber
23

[ein,b]1/(b-ein)b-ein11/(b-ein)

[0,0,5]1/(0,5-0)=2[0,0,1]10


quelle
4

Ich weiß nicht, ob der Wikipedia-Artikel nach den ersten Beiträgen in diesem Thread bearbeitet wurde, aber jetzt heißt es "Beachten Sie, dass hier ein Wert größer als 1 in Ordnung ist - es handelt sich eher um eine Wahrscheinlichkeitsdichte als um eine Wahrscheinlichkeit, da es sich um eine Höhe handelt eine stetige Variable. ", und zumindest in diesem unmittelbaren Zusammenhang wird P für die Wahrscheinlichkeit und p für die Wahrscheinlichkeitsdichte verwendet. Ja, sehr schlampig, da der Artikel p an einigen Stellen als Wahrscheinlichkeitsdichte und an anderen Stellen als Wahrscheinlichkeitsdichte verwendet.

Zurück zur ursprünglichen Frage "Kann ein Wahrscheinlichkeitsverteilungswert größer als 1 in Ordnung sein?" Nein, aber ich habe es gesehen (siehe meinen letzten Absatz unten).

So interpretieren Sie eine Wahrscheinlichkeit> 1. Beachten Sie zunächst, dass Menschen 150% ihrer Leistung erbringen können und tun, wie wir es im Sport oft hören und manchmal arbeiten. Https://www.youtube.com/watch?v=br_vSdAOHQQ . Wenn Sie sicher sind, dass etwas passieren wird, ist das eine Wahrscheinlichkeit von 1. Eine Wahrscheinlichkeit von 1,5 kann so interpretiert werden, dass Sie sich zu 150% sicher sind, dass das Ereignis eintrifft - wie wenn Sie sich zu 150% anstrengen.

Und wenn Sie eine Wahrscheinlichkeit> 1 haben können, können Sie vermutlich eine Wahrscheinlichkeit <0 haben. Negative Wahrscheinlichkeiten können wie folgt interpretiert werden. Eine Wahrscheinlichkeit von 0,001 bedeutet, dass das Ereignis so gut wie nicht eintreten kann. Wahrscheinlichkeit = 0 bedeutet "no way". Eine negative Wahrscheinlichkeit, wie zum Beispiel -1,2, entspricht "Du machst Witze".

PyPyPyPyPyPyPyPyauf ca. 1.8 aufsteigen. Und so wurde die Einheitsbarriere in der Wahrscheinlichkeit gebrochen. Aber der Typ wusste nicht, dass er diese Pionierleistung vollbracht hatte, bis ich ihn darauf hinwies, nachdem ich gerade in einem abgedunkelten Konferenzraum eine schnelle Berechnung mit einem Casio-Taschenrechner in Kreditkartengröße durchgeführt hatte (was nicht möglich gewesen wäre) einen solarbetriebenen Rechner). Das wäre so, als würde Chuck Yeager sonntags in seinem Flugzeug eine Spritztour machen und erst Monate später erfahren, dass er die Schallmauer durchbrochen hat.

Mark L. Stone
quelle
Coole Geschichte. Haben Sie weitere Informationen dazu, wie ein Zitat?
Jay Schyler Raadt
1
@ Jay Schyler Raadt Dies ist dokumentiert unter stats.stackexchange.com/questions/4220/… , ha ha.
Mark L. Stone
0

Xf(X)f(X)dXf(X)f(Höhe|männlich)f(Höhe|männlich)dHöhe

XP(X[X,X+dX))=f(X)dXP(X[ein,b])=einbf(X)dXP(X=X)=P(X[X,X])=0

Esmailian
quelle
-1

Der Punktwert bei einem bestimmten Parameterwert eines Wahrscheinlichkeitsdichtediagramms wäre eine Wahrscheinlichkeit, oder? In diesem Fall kann die Aussage durch einfaches Ändern von P (Größe | Mann) in L (Größe | Mann) korrigiert werden.

Michael Lew
quelle