Wie finde ich den Modus einer Wahrscheinlichkeitsdichtefunktion?

14

Inspiriert von meiner anderen Frage möchte ich fragen, wie man den Modus einer Wahrscheinlichkeitsdichtefunktion (PDF) einer Funktion f(x) .

Gibt es ein "Kochbuch" -Verfahren dafür? Anscheinend ist diese Aufgabe viel schwieriger als es zunächst scheint.

mmh
quelle
3
Wenn Sie sich über die sehr unterschiedlichen Antworten wundern, beachten Sie, dass sich Nicks Antwort * auf eine Schätzung aus einer Stichprobe bezieht und nicht auf die Situation, in der Sie ein bekanntes PDF haben. Ich habe Ihre Frage als Frage zum bekannten PDF-Fall gelesen, aber es ist ein sehr nützlicher Beitrag, wenn Sie sich ansehen möchten, wie man Dinge aus Beispielen macht. ...(* Bei Pierre geht es auch um die Schätzung
anhand

Antworten:

13

"Der Modus" zu sagen bedeutet, dass die Distribution nur einen hat. Im Allgemeinen kann eine Distribution viele oder (wohl) keine Modi haben.

Wenn es mehr als einen Modus gibt, müssen Sie angeben, ob Sie alle oder nur den globalen Modus (wenn es genau einen gibt) möchten.

Angenommen, wir beschränken uns auf unimodale Verteilungen *, so dass wir vom "the" -Modus sprechen können, werden sie auf die gleiche Weise gefunden wie Maxima von Funktionen im Allgemeinen.

* Beachten Sie, dass die Seite " als Begriff" Modus "mehrere Bedeutungen hat, ebenso wie der Begriff" unimodal " und verschiedene Definitionen des Modus bietet - was genau als Modus gelten kann, unabhängig davon, ob 0 1 oder 0 ist more - und ändert auch die Strategie, um sie zu identifizieren. Beachten Sie insbesondere, wie allgemein die "allgemeinere" Formulierung dessen, was Unimodalität im ersten Absatz ist, " Unimodalität bedeutet, dass es nur einen einzigen höchsten Wert gibt, der irgendwie definiert ist ".

Eine Definition, die auf dieser Seite angeboten wird, ist:

Ein Modus einer kontinuierlichen Wahrscheinlichkeitsverteilung ist ein Wert, bei dem die Wahrscheinlichkeitsdichtefunktion (pdf) ihren Maximalwert erreicht

Wenn Sie also eine bestimmte Definition des Modus angeben , finden Sie diese Definition als "höchster Wert", wenn Sie sich allgemeiner mit Funktionen befassen (vorausgesetzt, die Verteilung ist unter dieser Definition unimodal).

In der Mathematik gibt es eine Vielzahl von Strategien, um solche Dinge in Abhängigkeit von den Umständen zu identifizieren. Siehe den Abschnitt "Finden von funktionalen Maxima und Minima" auf der Wikipedia-Seite zu Maxima und Minima , in dem eine kurze Diskussion gegeben wird.

Wenn die Dinge zum Beispiel ausreichend schön sind - sagen wir, wir haben es mit einer kontinuierlichen Zufallsvariablen zu tun, bei der die Dichtefunktion eine kontinuierliche erste Ableitung hat -, können Sie versuchen, herauszufinden, wo die Ableitung der Dichtefunktion Null ist, und dies überprüfen welche Art von kritischem Punkt es ist (maximaler, minimaler, horizontaler Wendepunkt). Wenn es genau einen solchen Punkt gibt, der ein lokales Maximum darstellt, sollte dies der Modus einer unimodalen Verteilung sein.

Im Allgemeinen sind die Dinge jedoch komplizierter (z. B. der Modus ist möglicherweise kein kritischer Punkt), und die breiteren Strategien zum Auffinden von Funktionsmaxima kommen zum Tragen.

Manchmal kann es schwierig oder zumindest umständlich sein, algebraisch zu bestimmen, wo Ableitungen Null sind, aber es ist immer noch möglich, Maxima auf andere Weise zu identifizieren. Zum Beispiel kann es sein, dass man Symmetrieüberlegungen beim Identifizieren des Modus einer unimodalen Verteilung heranzieht. Oder man ruft auf einem Computer eine Art numerischen Algorithmus auf, um einen Modus numerisch zu finden.

In den folgenden Fällen werden typische Dinge veranschaulicht, auf die Sie prüfen müssen - auch wenn die Funktion unimodal und zumindest stückweise kontinuierlich ist.

Bildbeschreibung hier eingeben

So müssen wir beispielsweise Endpunkte (Mitteldiagramm), Punkte, an denen sich das Vorzeichen der Ableitung ändert (aber möglicherweise nicht Null ist; erstes Diagramm) und Diskontinuitätspunkte (drittes Diagramm) überprüfen.

In einigen Fällen sind die Dinge möglicherweise nicht so ordentlich wie diese drei; Sie müssen versuchen, die Eigenschaften der jeweiligen Funktion zu verstehen, mit der Sie sich befassen.


Ich habe den multivariaten Fall noch nicht angesprochen, in dem das Auffinden lokaler Maxima selbst dann wesentlich komplexer sein kann, wenn Funktionen "nett" sind (z. B. können die numerischen Methoden dafür im praktischen Sinne fehlschlagen, auch wenn sie logisch erfolgreich sein müssen) schließlich).

Glen_b - Setzen Sie Monica wieder ein
quelle
1
+1 Als kleine Beobachtung ist der globale Modus möglicherweise auch nicht eindeutig. zum Beispiel eine Mischungsdichte mit gleichen Gewichten einer und einer N ( - 1 , 1 ) Zufallsvariablen. N(1,1)N(-1,1)
Dilip Sarwate
@ Dilip Ich werde einen kleinen Text dazu hinzufügen.
Glen_b -Reinstate Monica
1
@DilipSarwate Auch Modi aus der gemeinsamen Verteilung können sich von Modi aus der Randverteilung unterscheiden.
Marcelo Ventura
17

Diese Antwort konzentriert sich ausschließlich auf die Modenschätzung anhand einer Stichprobe, wobei ein bestimmtes Verfahren im Vordergrund steht. Wenn Sie die Dichte in einem bestimmten Sinn bereits analytisch oder numerisch kennen, ist es die bevorzugte Antwort, wie in der Antwort von @Glen_b, direkt nach dem einzelnen Maximum oder den mehreren Maxima zu suchen.

"Halbabtastungsmodi" können unter Verwendung einer rekursiven Auswahl der Halbabtastung mit der kürzesten Länge berechnet werden. Obwohl es längere Wurzeln hat, wurde diese Idee von Bickel und Frühwirth (2006) ausgezeichnet dargestellt.

Die Idee, den Modus als Mittelpunkt des kürzesten Intervalls zu schätzen, das eine feste Anzahl von Beobachtungen enthält, geht zumindest auf Dalenius (1965) zurück. Siehe auch Robertson und Cryer (1974), Bickel (2002) und Bickel und Frühwirth (2006) zu anderen Schätzern des Modus.

Die Ordnungsstatistik einer Stichprobe von Werten von x ist definiert durch x ( 1 )x ( 2 )xnx .x(1)x(2)x(n1)x(n)

Der Half-Sample-Modus wird hier nach zwei Regeln definiert.

Regel 1. Wenn , ist der Halbabtastmodus x ( 1 ) . Wenn n = 2 ist , ist der Halbabtastmodus ( x ( 1 ) + x ( 2 ) ) / 2 . Wenn n = 3 ist , ist der Halbabtastmodus ( x ( 1 ) + x ( 2 ) ) / 2, wenn x ( 1 ) und x ( 2)n=1x(1)n=2(x(1)+x(2))/2n=3(x(1)+x(2))/2x(1) näher sind als x ( 2 ) und x) / 2,wenn das Gegenteil zutrifft, und x ( 2 ) ansonsten.x(2)x(2) ,( x ( 2 ) + x ( 3 )x(3)(x(2)+x(3))/2x(2)

Regel 2. Wenn , wenden wir die rekursive Auswahl an, bis 3 oder weniger Werte übrig bleiben . Zuerst sei h 1 = n / 2 . Die kürzeste Hälfte der Daten von Rang k bis Rang k + h 1 wird identifiziert, um x ( k + h 1 ) - x ( k ) über k = 1 , , n - h 1 zu minimieren . Dann die kürzeste Hälfte davonn43h1=n/2kk+h1x(k+h1)x(k)k=1,,nh1 Werte, und wird unter Verwendung von h identifizierth1+1 , und so weiter. Verwenden Sie zum Abschluss Regel 1.h2=h1/2

Die Idee, die kürzeste Hälfte zu identifizieren, wird in der von JW Tukey genannten "Shorth" -Studie und in der von Andrews, Bickel, Hampel, Huber, Rogers und Tukey (1972, S. 26) durchgeführten Robustheitsstudie der Standortschätzer von Princeton als die "Shorth" -Studie eingeführt Mittelwert der kürzesten halben Länge für h = n / 2 . Rousseeuw (1984), aufbauend auf einem Vorschlag von Hampel (1975), wies darauf hin, dass der Mittelpunkt der kürzesten Hälfte ( x k + x ( k + h )x(k),,x(k+h)h=n/2 ist der kleinste Median der Quadrate (LMS) des Orts für x . Siehe Rousseeuw (1984) und Rousseeuw und Leroy (1987) für Anwendungen von LMS und verwandten Ideen auf Regression und andere Probleme. Beachten Sie, dass dieser LMS-Mittelpunkt in neuerer Literatur auch als kurz bezeichnet wird (z. B. Maronna, Martin und Yohai 2006, S. 48). Ferner wird die kürzeste Hälfte selbst manchmal auch als Kurzhaar bezeichnet, wie der Titel von Grübel (1988) andeutet. Weitere Informationen zur Implementierung von Stata finden Sie in SSC.(xk+x(k+h))/2xshorth

Einige breit gefächerte Kommentare beziehen sich auf die Vor- und Nachteile von Halbabtastungsmodi, sowohl vom Standpunkt praktischer Datenanalysten als auch mathematischer oder theoretischer Statistiker. Unabhängig vom Projekt ist es immer ratsam, die Ergebnisse mit zusammenfassenden Standardmaßen (z. B. Medianwerte oder Mittelwerte, einschließlich geometrischer und harmonischer Mittelwerte) zu vergleichen und die Ergebnisse mit Verteilungsdiagrammen in Beziehung zu setzen. Wenn Sie an der Existenz oder dem Ausmaß der Bimodalität oder Multimodalität interessiert sind, ist es außerdem am besten, die geeignet geglätteten Schätzungen der Dichtefunktion direkt zu betrachten.

Modusschätzung Durch Zusammenfassen, wo die Daten am dichtesten sind, fügt der Halbabtastungsmodus der Toolbox einen automatisierten Schätzer des Modus hinzu. Herkömmlichere Schätzungen des Modus, die auf der Identifizierung von Peaks in Histogrammen oder sogar Kerneldichtediagrammen basieren, sind empfindlich gegenüber Entscheidungen über Bin-Ursprung oder Breite oder Kerneltyp und Kernel-Halbwertsbreite und in jedem Fall schwieriger zu automatisieren. Bei Verteilungen, die unimodal und ungefähr symmetrisch sind, liegt der Halbabtastungsmodus in der Nähe des Mittelwerts und des Medians, ist jedoch resistenter als der Mittelwert für Ausreißer in beiden Endbereichen. Bei Verteilungen, die unimodal und asymmetrisch sind, ist der Halbabtastungsmodus in der Regel viel näher an dem Modus, der durch andere Methoden als den Mittelwert oder den Median ermittelt wurde.

Einfachheit Die Idee des Halbstichprobenmodus ist für Studenten und Forscher, die sich nicht als Statistikspezialisten verstehen, relativ einfach und leicht zu erklären.

Grafische Interpretation Der Halbabtastungsmodus kann leicht mit Standardanzeigen von Verteilungen wie Kerndichtediagrammen, kumulativen Verteilungs- und Quantildiagrammen, Histogrammen und Stiel-Blatt-Diagrammen in Beziehung gesetzt werden.

Beachten Sie zur gleichen Zeit, dass

Nicht für alle Verteilungen geeignet Bei Verteilungen, die ungefähr J-förmig sind, nähert sich der Halbabtastmodus dem Minimum der Daten. Bei Verteilungen, die ungefähr U-förmig sind, liegt der Halbabtastmodus innerhalb der Hälfte der Verteilung, die zufällig eine höhere durchschnittliche Dichte aufweist. Keines der beiden Verhalten scheint besonders interessant oder nützlich zu sein, aber es gibt ebenso wenig Anlass für Singlemode-ähnliche Zusammenfassungen für J- oder U-förmige Verteilungen. Bei U-Formen führt die Bimodalität dazu, dass die Idee eines Single-Mode-Modells umstritten ist, wenn nicht sogar ungültig.

Krawatten Die kürzeste Hälfte darf nicht eindeutig definiert sein. Selbst bei gemessenen Daten kann die Rundung der gemeldeten Werte häufig zu Bindungen führen. Was mit zwei oder mehr kürzesten Hälften zu tun ist, ist in der Literatur wenig diskutiert worden. Es ist zu beachten, dass sich gebundene Hälften entweder überlappen oder nicht verbunden sind.

hsmodettt/2 in Reihenfolge . Dies ist also der 1. von 2, der 2. von 3 oder 4 und so weiter.

9,4,1,0,1,4,90.501+n/2nnDies ist schwierig, wenn man bedenkt, dass die Fensterlänge niemals mit der Stichprobengröße abnimmt. Wir glauben lieber, dass dies ein kleines Problem bei Datensätzen von angemessener Größe ist.

1+n/2nnn=1,Der Halbabtastmodus ist nur der Einzelabtastwert und bei als noch einfachere Regel zu verwenden, außer dass Ihre Stichprobengröße oder -variable für diesen Zweck wahrscheinlich ungeeignet ist, wenn es einen großen Unterschied macht.n=2n/2

1.6,3.11,3.95,4.2,4.2,4.62,4.62,4.62,4.7,4.87,5.04,5.29,5.3,5.38,5.38,5.38,5.54,5.54,5.63,5.71,6.13,6.38,6.38,6.67,6.69,6.97,7.22,7.72,7.98,7.98,8.74,8.99,9.27,9.74,10.66.hsmode5.00,5.02,5.04

Andrews, DF, PJ Bickel, FR Hampel, PJ Huber, WH Rogers und JW Tukey. 1972. Robuste Standortschätzungen: Überblick und Fortschritte. Princeton, New Jersey: Princeton University Press.

Bickel, DR 2002. Robuste Schätzer für den Modus und die Schiefe kontinuierlicher Daten. Computational Statistics & Data Analysis 39: 153 & ndash ; 163.

Bickel, DR und R. Frühwirth. 2006. Auf einem schnellen, robusten Schätzer des Modus: Vergleiche mit anderen Schätzern mit Anwendungen. Computerstatistik und Datenanalyse 50: 3500-3530.

Dalenius, T. 1965. Der Modus - Ein vernachlässigter statistischer Parameter. Journal, Royal Statistical Society A 128: 110 & ndash; 117.

Grübel, R. 1988. Die Länge des Kurzhaars. Annals of Statistics 16: 619-628.

Hampel, FR 1975. Über Standortparameter hinaus: robuste Konzepte und Methoden. Bulletin, International Statistical Institute 46: 375 & ndash; 382.

Maronna, RA, RD Martin und VJ Yohai. 2006. Robuste Statistik: Theorie und Methoden . Chichester: John Wiley.

Robertson, T. und JD Cryer. 1974. Eine iterative Prozedur zum Schätzen des Modus. Journal, American Statistical Association 69: 1012 & ndash; 1016.

Rousseeuw, PJ 1984. Niedrigster Median der Quadratregression. Journal, American Statistical Association 79: 871 & ndash; 880.

Rousseeuw, PJ und AM Leroy. 1987. Robuste Regression und Erkennung von Ausreißern . New York: John Wiley.

Dieses Konto basiert auf der Dokumentation für

Cox, NJ 2007. HSMODE: Stata-Modul zur Berechnung von Halbabtastungsmodi , http://EconPapers.repec.org/RePEc:boc:bocode:s456818 .

Informationen zu Implementierungen in anderer Software finden Sie hier auf der Website von David R. Bickel .

Nick Cox
quelle
5

Wenn Sie Beispiele aus der Verteilung in einem Vektor "x" haben, würde ich Folgendes tun:

 mymode <- function(x){
   d<-density(x)
   return(d$x[which(d$y==max(d$y)[1])])
 }

Sie sollten die Dichtefunktion so einstellen, dass sie oben glatt genug ist ;-).

Wenn Sie nur die Dichte der Verteilung haben, würde ich einen Optimierer verwenden, um den Modus zu finden (REML, LBFGS, Simplex usw.)

 fx <- function(x) {some density equation}
 mode <- optim(inits,fx)

Oder verwenden Sie einen Monte-Carlo-Sampler, um einige Beispiele aus der Distribution (Paket rstan) abzurufen und gehen Sie wie oben beschrieben vor. (Wie auch immer, Stan-Paket als "Optimierungs" -Funktion, um den Modus einer Distribution zu erhalten).

Pierre Lebrun
quelle
Es scheint, dass solche Schätzungen nie mehr verwendet werden. Sie müssen die Kernelbreite angeben, um Kerneldichteschätzer verwenden zu können. Andererseits müssen HSM und HRM überhaupt nicht abgestimmt werden und arbeiten in linearer Zeit.
Viktor