Warum hilft es bei oben und unten begrenzten Zahlen?
Eine auf definierte Verteilung macht es als Modell für Daten auf geeignet . Ich denke nicht, dass der Text mehr impliziert als "es ist ein Modell für Daten zu " (oder allgemeiner zu ).( 0 , 1 ) ( 0 , 1 ) ( a , b )( 0 , 1 )( 0 , 1 )( 0 , 1 )( a , b )
Was ist diese Verteilung ...?
Der Begriff "Log-Odds-Verteilung" ist leider nicht ganz Standard (und selbst dann kein sehr verbreiteter Begriff).
Ich werde einige Möglichkeiten diskutieren, was es bedeuten könnte. Betrachten wir zunächst eine Möglichkeit, Verteilungen für Werte im Einheitsintervall zu erstellen.
Eine übliche Methode zur Modellierung einer kontinuierlichen Zufallsvariablen, in ist die Beta-Verteilung , und eine übliche Methode zur Modellierung diskreter Proportionen in ist ein skaliertes Binom ( , zumindest wenn ist eine Zählung).( 0 , 1 ) [ 0 , 1 ] P = X / n X.P(0,1)[0,1]P=X/nX
Eine Alternative zur Verwendung einer Beta-Verteilung wäre, eine kontinuierliche inverse CDF ( ) zu verwenden, um die Werte in in die reelle Linie (oder selten in die reelle halbe Linie) umzuwandeln. Verwenden Sie dann eine relevante Verteilung ( ), um die Werte im transformierten Bereich zu modellieren. Dies eröffnet viele Möglichkeiten, da für die Transformation und das Modell jedes Paar kontinuierlicher Verteilungen auf der realen Linie ( ) verfügbar ist. ( 0 , 1 ) G F , G.F−1(0,1)GF,G
So zum Beispiel das Log-Odds - Transformation (auch genannt logit ) wäre eine solche inverse cdf Transformation ( das ist der inverse CDF eines Standard logistischer ) und dann gibt es viele Verteilungen, die wir als Modelle für betrachten könnten .Y.Y=log(P1−P)Y
Wir könnten dann (zum Beispiel) ein logistisches Modell für , eine einfache Zwei-Parameter-Familie auf der realen Linie. Die Rücktransformation zu über die inverse Log-Odds-Transformation (dh ) ergibt eine Zwei-Parameter-Verteilung für , eine, die sein kann unimodal oder U-förmig oder J-förmig, symmetrisch oder schief, in vielerlei Hinsicht ähnlich wie eine Beta-Distribution (persönlich würde ich dies als logit-logistisch bezeichnen, da es logistisch ist). Hier sind einige Beispiele für verschiedene Werte von :Y ( 0 , 1 ) P = exp ( Y )(μ,τ)Y(0,1) Pμ,τP=exp(Y)1+exp(Y)Pμ,τ
Wenn man sich die kurze Erwähnung im Text von Witten et al. Betrachtet, könnte dies das sein, was mit "Log-Odds-Verteilung" gemeint ist - aber sie könnten genauso gut etwas anderes bedeuten.
Eine andere Möglichkeit ist, dass das Logit-Normal beabsichtigt war.
Der Begriff scheint jedoch von van Erp & van Gelder (2008) , um sich beispielsweise auf eine Log-Odds-Transformation für eine Beta-Verteilung zu beziehen (also tatsächlich als logistische und als Verteilung des Protokolls einer Beta-Prime- Zufallsvariablen oder äquivalent die Verteilung der Differenz der Protokolle zweier Chi-Quadrat-Zufallsvariablen). Allerdings verwenden sie dieses Modell zu tun Zählung Proportionen, die diskret sind. Dies führt natürlich zu einigen Problemen (verursacht durch den Versuch, eine Verteilung mit endlicher Wahrscheinlichkeit bei 0 und 1 mit eins auf zu modellieren. FG(0,1)[1]FG(0,1)), für die sie dann scheinbar viel Mühe aufwenden. (Es scheint einfacher zu sein, das unangemessene Modell zu vermeiden, aber vielleicht bin das nur ich.)
Mehrere andere Dokumente (ich habe mindestens drei gefunden) beziehen sich auf die Stichprobenverteilung der Log-Odds (dh auf der Skala von oben) als "Log-Odds-Verteilung" (in einigen Fällen, in denen ein diskreter Anteil ist * und in einigen Fälle, in denen es sich um ein kontinuierliches Verhältnis handelt) - in diesem Fall handelt es sich also nicht um ein Wahrscheinlichkeitsmodell als solches, sondern um etwas, auf das Sie möglicherweise ein Verteilungsmodell auf die reale Linie anwenden.P.YP
* Wieder, hat das Problem , dass , wenn genau 0 oder 1 ist, wird der Wert von wird oder jeweils ... , das wir die Verteilung schlägt entfernt es für diesen Zweck von 0 und 1 zu verwenden gebunden sind .Y - ∞ ∞PY−∞∞
Die Dissertation von Yan Guo (2009) verwendet den Begriff, um sich auf eine log-logistische Verteilung zu beziehen, eine Verteilung mit rechtem Versatz auf der realen halben Linie.[2]
Wie Sie sehen, ist es kein Begriff mit einer einzigen Bedeutung. Ohne einen klareren Hinweis von Witten oder einem der anderen Autoren dieses Buches können wir nur raten, was beabsichtigt ist.
[1]: Noel van Erp und Pieter van Gelder, (2008),
"Wie man die Beta-Verteilung im Falle eines Zusammenbruchs interpretiert",
Proceedings of the 6th International Probabilistic Workshop , Darmstadt
pdf link
[2]: Yan Guo, (2009),
The New Methods on NDE Systems, Bewertung der Pod-Fähigkeit und Robustheit,
Dissertation, eingereicht an der Graduate School der Wayne State University, Detroit, Michigan
Ich bin Softwareentwickler (kein Statistiker) und habe kürzlich ein Buch mit dem Titel Eine Einführung in das statistische Lernen gelesen. Mit Anwendungen in R.
Ich denke, was Sie lesen, ist Log-Odds oder Logit. Seite 132
http://www-bcf.usc.edu/~gareth/ISL/ISLR%20Fourth%20Printing.pdf
Geniales Buch - ich habe es von Anfang bis Ende gelesen. Hoffe das hilft
quelle