Wie heißt dieses „Phänomen“?

8

Unten finden Sie ein Histogramm einiger Daten. Die Bins sind Ganzzahlen, die anderen Parameter sind irrelevant.

Überlappende Verteilungen

Wie Sie sehen können, scheint es zwei getrennte, aber überlappende Normalverteilungen für ungerade und gerade Zahlen zu geben.

Die Wahrscheinlichkeit, eine gerade Zahl zu sein, beträgt 1/3, bei einer ungeraden Zahl ebenfalls 2/3.

Ich habe keine Ahnung von der tatsächlichen statistischen Signifikanz, um ehrlich zu sein, also versuche ich herauszufinden, was es heißt, mehr zu lernen, aber ich kann nichts finden, ich habe so viele Suchbegriffe versucht, um dies und sogar zu finden Reverse-Image-Suche, aber alles, was ich bekomme, sind Informationen über multimodale Verteilungen usw. und ich kann nichts darüber finden, wann sich die multimodalen Verteilungen tatsächlich auf diese Weise überlappen

Gibt es einen Namen dafür?

Für Interessenten stammen die Daten aus 1.000.000 randomisierten Goofspiel-Spielen (N = 13) mit dem Matlab-Skript

N = 1000000;
random = zeros(1,N);
for i = 1 : N
    pc = randperm(13);
    p1 = randperm(13);
    p2 = randperm(13);
    random(i) = sum(pc.*sign(p1-p2));
end
histogram(random,'BinMethod','integer')

Ein allgemeineres (wenn auch künstliches) Beispiel wäre das folgende

a = [1:50 50:-1:1];
b = normpdf(linspace(-2,2),0,0.5).*50;
c = a;
rng('default') %For reproducibility
d = logical(randi([0,1],1,length(a)));
for i = 1:length(c) %There's gotta be a way to do this without an explicit loop
    if(d(i)) 
        c(i) = b(i);
    end
end
bar(c)

Allgemeines Beispiel

Wie im ersten Beispiel überlappen sich zwei Verteilungen (dreieckig und normal), aber in diesem Fall ist es zufällig, anstatt an jedem Punkt zu wechseln.

Ich weiß, dass dies ein übertriebenes Beispiel ist (und nicht einmal ein Histogramm), aber es muss Beispiele dafür geben, dass solche Dinge tatsächlich mit statistischen Daten geschehen, oder? Andererseits vielleicht auch nicht oder völlig irrelevant?

Die eigentliche Frage ist zweifach:
Die allgemeine Frage: Wie heißt diese Art von "Ding", wenn überhaupt? - damit ich (oder jemand anderes, der darauf stößt) mehr darüber erfahren kann und ob Anpassungen vorgenommen werden müssen.
Die Frage, die sich speziell auf meinen ersten Datensatz bezieht, sollte ich die ungeraden und geraden Werte trennen oder eine Normalverteilung an den gesamten Satz anpassen?

Benjamin Tilbury
quelle
Sieht aus wie ein funky Mischungsmodell, bei dem das PDF 1/3 (PDF von Evens) +2/3 (PDF von Odds) ist. Ich weiß allerdings nicht, wie ich die Normalverteilung einarbeiten soll, da sie eindeutig nicht kontinuierlich ist.
Huy Pham
Was genau ist die Frage? Sie scheinen einige Daten zu simulieren, die einer seltsamen Verteilung folgen, aber was genau ist das Problem?
Tim
1
@ Tim Ich habe es bearbeitet, um ein bisschen klarer zu sein. Ich gehe davon aus, dass dies weniger selten ist als es ist und bereits untersucht wurde. Wenn dies nicht der Fall ist, ist die Frage einfach, wie ich die Verteilung meines ersten Datensatzes beschreiben / modellieren würde
Benjamin Tilbury
@BenjaminTilbury bezüglich Ihrer letzten Frage, passend. Sie können eine normale Dichtekurve einfacher an das Histogramm anpassen, wenn Sie die Behältergröße auf zwei erhöhen. Ein anderer Ansatz wäre, die kumulative Verteilung anzupassen. Welche Option Sie wählen, hängt ein wenig davon ab, was Sie damit machen werden. Möglicherweise liegt Ihr Interesse eher an der kumulativen Verteilungsfunktion.
Sextus Empiricus
Es wird "Aliasing" genannt. Moiré-Muster sind eines von (sehr vielen) Beispielen.
whuber

Antworten:

4

Diese Antwort ist keine direkte Antwort auf Ihre Frage, da sie sich auf eine andere Ursache des Musters bezieht.

Aber es bezieht sich auf das gleiche grafische Erscheinungsbild, und deshalb poste ich es eher als Antwort als als Kommentar (bevor ich Ihr Matlab-Skript las, dachte ich tatsächlich, dass das Muster in Ihrem Histogramm auf diese unterschiedliche Ursache zurückzuführen ist).


Ihre Frage hat mich dazu gebracht, ein Histogramm erneut zu besuchen, das ich in einer Antwort auf eine aktuelle Frage aufgezeichnet habe .

alte Illustration

Ich habe Binsize 1 verwendet, während der Abstand zwischen den (diskreten) Ergebnissen 0,538 betrug. Die Balken des Histogramms werden gelegentlich mit den Zählwerten für einen einzelnen Wert anstelle der Zählwerte für zwei Werte geplottet.

Nach dem Anpassen der Behältergrößen erschien das Histogramm typischer

neue Illustration

In diesem Fall könnten wir das Muster als Moiré-Muster bezeichnen , bei dem künstliche helle und dunkle Bänder aufgrund einer Fehlausrichtung zweier diskreter Skalen auftreten.

In Ihrem Fall ist das periodische Muster jedoch kein künstlicher Effekt im Histogramm, sondern ein wirklich periodisches Verhalten in der Wahrscheinlichkeitsmassenfunktion. Wie auch immer, ich fand es nützlich, dieses verwandte Moiré-Muster zu erwähnen.

Sextus Empiricus
quelle
2
Wenn Sie ein bisschen googeln, finden Sie viele Histogramme mit ähnlichen Moiré-Mustern. Zum Beispiel auf diesem SAS-Blog diesen Artikel über
Sextus Empiricus
-1

Entschuldigung, ich kenne keinen etablierten Namen, aber um Ihre zweite Frage anzugehen:

sollte ich die ungeraden und geraden Werte trennen oder eine Normalverteilung an die gesamte Menge anpassen?

Ich denke, du solltest sie trennen. Ihre Analyse hat ergeben, dass der wichtigste Faktor / Prädiktor darin besteht, ob die Eingabe ungerade oder gerade ist. Wenn Sie sie also zusammenführen, verwischen Sie beide Verteilungen und machen sie weniger nützlich (*).

*: Natürlich hängt es wirklich von Ihrer Definition von nützlich ab. Ich nähere mich dem aus der Sicht, dass Sie einige Eingaben haben und ein Modell erstellen möchten, um einige Ausgaben vorherzusagen. Sobald wir wissen, dass es wichtig ist, möchte ich dem Modell den Hinweis geben, dass die Parität einer / einiger Eingaben von Bedeutung ist.

Übrigens, wie in Martijn Weterings 'Antwort, als ich zuvor solche gezackten Histogramme hatte, wurde dies mit der Wahl der Behältergröße in Verbindung gebracht. Mir wurde klar, dass das Experimentieren mit der Behältergröße ein weiteres Werkzeug in der Toolbox "Lügen mit Statistiken" ist :-)

Darren Cook
quelle
Lieber Downvoter, waren Sie mit etwas Besonderem nicht einverstanden? Wenn ja, erziehe mich bitte.
Darren Cook