Unten finden Sie ein Histogramm einiger Daten. Die Bins sind Ganzzahlen, die anderen Parameter sind irrelevant.
Wie Sie sehen können, scheint es zwei getrennte, aber überlappende Normalverteilungen für ungerade und gerade Zahlen zu geben.
Die Wahrscheinlichkeit, eine gerade Zahl zu sein, beträgt 1/3, bei einer ungeraden Zahl ebenfalls 2/3.
Ich habe keine Ahnung von der tatsächlichen statistischen Signifikanz, um ehrlich zu sein, also versuche ich herauszufinden, was es heißt, mehr zu lernen, aber ich kann nichts finden, ich habe so viele Suchbegriffe versucht, um dies und sogar zu finden Reverse-Image-Suche, aber alles, was ich bekomme, sind Informationen über multimodale Verteilungen usw. und ich kann nichts darüber finden, wann sich die multimodalen Verteilungen tatsächlich auf diese Weise überlappen
Gibt es einen Namen dafür?
Für Interessenten stammen die Daten aus 1.000.000 randomisierten Goofspiel-Spielen (N = 13) mit dem Matlab-Skript
N = 1000000;
random = zeros(1,N);
for i = 1 : N
pc = randperm(13);
p1 = randperm(13);
p2 = randperm(13);
random(i) = sum(pc.*sign(p1-p2));
end
histogram(random,'BinMethod','integer')
Ein allgemeineres (wenn auch künstliches) Beispiel wäre das folgende
a = [1:50 50:-1:1];
b = normpdf(linspace(-2,2),0,0.5).*50;
c = a;
rng('default') %For reproducibility
d = logical(randi([0,1],1,length(a)));
for i = 1:length(c) %There's gotta be a way to do this without an explicit loop
if(d(i))
c(i) = b(i);
end
end
bar(c)
Wie im ersten Beispiel überlappen sich zwei Verteilungen (dreieckig und normal), aber in diesem Fall ist es zufällig, anstatt an jedem Punkt zu wechseln.
Ich weiß, dass dies ein übertriebenes Beispiel ist (und nicht einmal ein Histogramm), aber es muss Beispiele dafür geben, dass solche Dinge tatsächlich mit statistischen Daten geschehen, oder? Andererseits vielleicht auch nicht oder völlig irrelevant?
Die eigentliche Frage ist zweifach:
Die allgemeine Frage: Wie heißt diese Art von "Ding", wenn überhaupt? - damit ich (oder jemand anderes, der darauf stößt) mehr darüber erfahren kann und ob Anpassungen vorgenommen werden müssen.
Die Frage, die sich speziell auf meinen ersten Datensatz bezieht, sollte ich die ungeraden und geraden Werte trennen oder eine Normalverteilung an den gesamten Satz anpassen?
quelle
Antworten:
Diese Antwort ist keine direkte Antwort auf Ihre Frage, da sie sich auf eine andere Ursache des Musters bezieht.
Aber es bezieht sich auf das gleiche grafische Erscheinungsbild, und deshalb poste ich es eher als Antwort als als Kommentar (bevor ich Ihr Matlab-Skript las, dachte ich tatsächlich, dass das Muster in Ihrem Histogramm auf diese unterschiedliche Ursache zurückzuführen ist).
Ihre Frage hat mich dazu gebracht, ein Histogramm erneut zu besuchen, das ich in einer Antwort auf eine aktuelle Frage aufgezeichnet habe .
Ich habe Binsize 1 verwendet, während der Abstand zwischen den (diskreten) Ergebnissen 0,538 betrug. Die Balken des Histogramms werden gelegentlich mit den Zählwerten für einen einzelnen Wert anstelle der Zählwerte für zwei Werte geplottet.
Nach dem Anpassen der Behältergrößen erschien das Histogramm typischer
In diesem Fall könnten wir das Muster als Moiré-Muster bezeichnen , bei dem künstliche helle und dunkle Bänder aufgrund einer Fehlausrichtung zweier diskreter Skalen auftreten.
In Ihrem Fall ist das periodische Muster jedoch kein künstlicher Effekt im Histogramm, sondern ein wirklich periodisches Verhalten in der Wahrscheinlichkeitsmassenfunktion. Wie auch immer, ich fand es nützlich, dieses verwandte Moiré-Muster zu erwähnen.
quelle
Entschuldigung, ich kenne keinen etablierten Namen, aber um Ihre zweite Frage anzugehen:
Ich denke, du solltest sie trennen. Ihre Analyse hat ergeben, dass der wichtigste Faktor / Prädiktor darin besteht, ob die Eingabe ungerade oder gerade ist. Wenn Sie sie also zusammenführen, verwischen Sie beide Verteilungen und machen sie weniger nützlich (*).
*: Natürlich hängt es wirklich von Ihrer Definition von nützlich ab. Ich nähere mich dem aus der Sicht, dass Sie einige Eingaben haben und ein Modell erstellen möchten, um einige Ausgaben vorherzusagen. Sobald wir wissen, dass es wichtig ist, möchte ich dem Modell den Hinweis geben, dass die Parität einer / einiger Eingaben von Bedeutung ist.
Übrigens, wie in Martijn Weterings 'Antwort, als ich zuvor solche gezackten Histogramme hatte, wurde dies mit der Wahl der Behältergröße in Verbindung gebracht. Mir wurde klar, dass das Experimentieren mit der Behältergröße ein weiteres Werkzeug in der Toolbox "Lügen mit Statistiken" ist :-)
quelle