Wenn ich ein Histogramm meiner Daten zeichne, hat es zwei Peaks:
Bedeutet das eine mögliche multimodale Verteilung? Ich habe das dip.test
in R ( library(diptest)
) ausgeführt und die Ausgabe ist:
D = 0.0275, p-value = 0.7913
Kann ich daraus schließen, dass meine Daten eine multimodale Verteilung haben?
DATEN
10346 13698 13894 19854 28066 26620 27066 16658 9221 13578 11483 10390 11126 13487
15851 16116 24102 30892 25081 14067 10433 15591 8639 10345 10639 15796 14507 21289
25444 26149 23612 19671 12447 13535 10667 11255 8442 11546 15958 21058 28088 23827
30707 19653 12791 13463 11465 12326 12277 12769 18341 19140 24590 28277 22694 15489
11070 11002 11579 9834 9364 15128 15147 18499 25134 32116 24475 21952 10272 15404
13079 10633 10761 13714 16073 23335 29822 26800 31489 19780 12238 15318 9646 11786
10906 13056 17599 22524 25057 28809 27880 19912 12319 18240 11934 10290 11304 16092
15911 24671 31081 27716 25388 22665 10603 14409 10736 9651 12533 17546 16863 23598
25867 31774 24216 20448 12548 15129 11687 11581
r
hypothesis-testing
distributions
self-study
histogram
user1260391
quelle
quelle
Antworten:
@NickCox hat eine interessante Strategie vorgestellt (+1). Ich könnte es für mehr explorativen in der Natur jedoch aufgrund der Sorge , dass @whuber weist darauf hin .
Lassen Sie mich eine andere Strategie vorschlagen: Sie könnten ein Gaußsches Modell für endliche Gemische verwenden. Beachten Sie, dass dies zu der starken Annahme führt, dass Ihre Daten aus einer oder mehreren echten Normalen stammen. Wie sowohl @whuber als auch @NickCox in den Kommentaren darlegen, sollte diese Strategie auch als explorativ betrachtet werden, ohne dass eine inhaltliche Interpretation dieser Daten - unterstützt durch eine gut etablierte Theorie - diese Annahme stützt.
Folgen wir zunächst dem Vorschlag von @ Glen_b und sehen uns Ihre Daten mit doppelt so vielen Behältern an:
Wir sehen immer noch zwei Modi; wenn überhaupt, kommen sie hier deutlicher durch. (Beachten Sie auch, dass die Kerneldichtelinie identisch sein sollte, jedoch aufgrund der größeren Anzahl von Fächern breiter erscheint.)
Passen wir nun ein Gaußsches Modell mit endlicher Mischung an. In
R
können Sie dasMclust
Paket verwenden, um dies zu tun:Zwei normale Komponenten optimieren den BIC. Zum Vergleich können wir eine Einkomponentenanpassung erzwingen und einen Likelihood-Ratio-Test durchführen:
Dies legt den Schluss nahe, dass es äußerst unwahrscheinlich ist, dass Sie Daten finden, die so unimodal sind wie Ihre, wenn sie aus einer einzigen echten Normalverteilung stammen.
Einige Leute fühlen sich mit einem parametrischen Test hier nicht wohl (obwohl ich, wenn die Annahmen stimmen, kein Problem kenne). Eine sehr allgemein anwendbare Technik ist die Verwendung der parametrischen Bootstrap-Cross-Fitting-Methode (den Algorithmus beschreibe ich hier ). Wir können versuchen, es auf diese Daten anzuwenden:
Die zusammenfassende Statistik und die Kernel-Dichtediagramme für die Stichprobenverteilungen zeigen einige interessante Merkmale. Die Protokollwahrscheinlichkeit für das Einzelkomponentenmodell ist selten größer als die der Zweikomponentenanpassung, selbst wenn der Prozess zur Erzeugung echter Daten nur eine einzelne Komponente enthält und wenn sie größer ist, ist die Menge trivial. Die Idee, Modelle zu vergleichen, die sich in ihrer Fähigkeit unterscheiden, Daten anzupassen, ist eine der Beweggründe für die PBCM. Die beiden Stichprobenverteilungen überlappen sich kaum; nur .35% von
x2.d
sind kleiner als das Maximumx1.d
Wert. Wenn Sie ein Zweikomponentenmodell ausgewählt haben, bei dem der Unterschied in der Protokollwahrscheinlichkeit> 9,7 war, haben Sie in den meisten Fällen fälschlicherweise das Einkomponentenmodell 0,01% und das Zweikomponentenmodell 0,02% ausgewählt. Diese sind sehr diskriminierbar. Wenn Sie sich dagegen für die Verwendung des Einkomponentenmodells als Nullhypothese entschieden haben, ist das beobachtete Ergebnis so gering, dass es in der empirischen Stichprobenverteilung in 10.000 Iterationen nicht auftaucht. Wir können die Regel 3 (siehe hier ) verwenden, um eine Obergrenze für den p-Wert festzulegen. Wir schätzen nämlich, dass Ihr p-Wert kleiner als 0,0003 ist. Das heißt, das ist sehr wichtig.quelle
Im Anschluss an den Ideen in @ Nick Antwort und Kommentare können Sie sehen , wie breit der Bandbreitenbedarf sein , um nur den sekundären Modus verflachen:
Nehmen Sie diese Schätzung der Kerneldichte als proximale Null - die Verteilung, die den Daten am nächsten kommt, aber dennoch mit der Nullhypothese übereinstimmt, dass es sich um eine Stichprobe aus einer unimodalen Population handelt - und simulieren Sie daraus. In den simulierten Samples sieht der sekundäre Modus nicht so deutlich aus, und Sie müssen die Bandbreite nicht so stark vergrößern, um ihn zu reduzieren.
Die Formalisierung dieses Ansatzes führt zu dem Test in Silverman (1981), "Verwendung von Kerndichteschätzungen zur Untersuchung der Modalität", JRSS B , 43 , 1. Das
silvermantest
Paket von Schwaiger & Holzmann implementiert diesen Test und das von Hall & York ( 2001), "Zur Kalibrierung von Silvermans Test auf Multimodalität", Statistica Sinica , 11 , S. 515, der sich auf asymptotischen Konservatismus einstellt. Wenn Sie den Test für Ihre Daten mit einer Nullhypothese der Unimodalität durchführen, erhalten Sie p-Werte von 0,08 ohne Kalibrierung und 0,02 mit Kalibrierung. Ich kenne den Dip-Test nicht gut genug, um zu erraten, warum er sich unterscheiden könnte.R-Code:
quelle
->
; Ich bin nur amüsiert.Die Dinge, über die man sich Sorgen machen muss, sind:
Die Größe des Datensatzes. Es ist nicht klein, nicht groß.
Die Abhängigkeit dessen, was Sie sehen, von Histogrammursprung und Behälterbreite. Mit nur einer Wahl haben Sie (und wir) keine Ahnung von Sensibilität.
Die Abhängigkeit dessen, was Sie sehen, von Kerneltyp und -breite und was auch immer für andere Auswahlmöglichkeiten Sie bei der Dichteschätzung treffen. Mit nur einer Wahl haben Sie (und wir) keine Ahnung von Sensibilität.
An anderer Stelle habe ich vorläufig vorgeschlagen, dass die Glaubwürdigkeit von Verkehrsträgern durch eine inhaltliche Auslegung und durch die Fähigkeit, die gleiche Modalität in anderen Datensätzen derselben Größe zu erkennen, gestützt (aber nicht nachgewiesen) wird. (Größer ist auch besser ....)
Beides können wir hier nicht kommentieren. Ein kleiner Punkt bei der Wiederholbarkeit ist der Vergleich mit Bootstrap-Beispielen derselben Größe. Hier sind die Ergebnisse eines Token-Experiments mit Stata, aber was Sie sehen, ist willkürlich auf die Standardeinstellungen von Stata beschränkt, die selbst als aus der Luft gezupft dokumentiert sind . Ich habe Dichteschätzungen für die Originaldaten und für 24 Bootstrap-Beispiele von denselben erhalten.
Der Indikator (nicht mehr und nicht weniger) ist, wie erfahrene Analysten meiner Meinung nach nur vermuten, aus Ihrer Grafik heraus. Der linke Modus ist sehr wiederholbar und der rechte Modus ist deutlich anfälliger.
Beachten Sie, dass dies unvermeidlich ist: Da sich weniger Daten in der Nähe des rechten Modus befinden, werden sie in einem Bootstrap-Beispiel nicht immer wieder angezeigt. Das ist aber auch der entscheidende Punkt.
Beachten Sie, dass Punkt 3. oben unberührt bleibt. Die Ergebnisse liegen jedoch irgendwo zwischen unimodal und bimodal.
Für Interessierte ist dies der Code:
quelle
LP Nonparametric Mode Identification (Name des LPMode- Algorithmus, siehe unten)
MaxEnt- Modi [Rote Farbdreiecke im Diagramm]: 12783,36 und 24654,28.
L2- Modi [Grüne Farbdreiecke im Diagramm]: 13054.70 und 24111.61.
Interessant sind die modalen Formen, insbesondere die zweite, die eine beträchtliche Schiefe aufweist (traditionelles Modell der Gaußschen Mischung, das hier wahrscheinlich versagt).
Mukhopadhyay, S. (2016) Identifizierung im großen Maßstab und datengetriebene Wissenschaften. https://arxiv.org/abs/1509.06428
quelle