Ich habe im Internet nachgeschlagen, aber nichts Hilfreiches gefunden.
Ich suche im Grunde nach einer Methode, um zu messen, wie „gleichmäßig“ ein Wert verteilt ist. Wie in einer "gleichmäßig" verteilten Distribution wie X :
und eine 'ungleich' verteilte Verteilung Y von ungefähr dem gleichen Mittelwert und der gleichen Standardabweichung:
Aber gibt es ein Ebenheitsmaß m, so dass m (X)> m (Y) ist? Wenn dies nicht der Fall ist, wie lässt sich eine solche Kennzahl am besten erstellen?
(Bilder Screenshot von Khan Academy)
Antworten:
Ein standardmäßiges, leistungsfähiges, gut verstandenes, theoretisch gut etabliertes und häufig implementiertes Maß für "Ebenheit" ist die Ripley-K-Funktion und deren enger Verwandter, die L-Funktion. Obwohl diese normalerweise zur Bewertung zweidimensionaler räumlicher Punktkonfigurationen verwendet werden, ist die Analyse, die erforderlich ist, um sie an eine Dimension anzupassen (was normalerweise nicht in Referenzen angegeben ist), einfach.
Theorie
Die K-Funktion schätzt den mittleren Anteil von Punkten innerhalb eines Abstands von einem typischen Punkt. Für eine gleichmäßige Verteilung auf das Intervall [ 0 , 1 ] kann der wahre Anteil berechnet werden und (asymptotisch in der Stichprobengröße) gleich 1 - ( 1 - d ) 2 sein . Die entsprechende eindimensionale Version der L-Funktion subtrahiert diesen Wert von K, um Abweichungen von der Homogenität zu zeigen . Wir könnten daher in Betracht ziehen, einen Datenstapel auf einen Einheitenbereich zu normieren und seine L-Funktion auf Abweichungen um Null zu untersuchen.d [0,1] 1−(1−d)2
Arbeitsbeispiele
Zur Veranschaulichung , ich habe simuliert unabhängige Proben der Größe 64 von einer gleichförmigen Verteilung und aufgetragen ihre (normalisierte) L - Funktionen für kürzere Entfernungen (von 0 bis 1 / 3 ), um dadurch eine Hülle zu schaffen , die Stichprobenverteilung der L Funktion zu schätzen. (In diesem Umschlag gut eingezeichnete Punkte können nicht signifikant von der Gleichmäßigkeit unterschieden werden.) Darüber habe ich die L-Funktionen für Proben gleicher Größe aus einer U-förmigen Verteilung, einer Mischungsverteilung mit vier offensichtlichen Komponenten und einer Standardnormalverteilung eingezeichnet. Die Histogramme dieser Stichproben (und ihrer übergeordneten Verteilungen) werden als Referenz gezeigt, wobei Liniensymbole verwendet werden, um mit denen der L-Funktionen übereinzustimmen.999 64 0 1/3
Die scharf getrennten Spitzen der U-förmigen Verteilung (gestrichelte rote Linie, Histogramm ganz links) erzeugen Cluster mit eng beieinander liegenden Werten. Dies zeigt sich an einer sehr großen Steigung in der L-Funktion bei . Die L-Funktion nimmt dann ab und wird schließlich negativ, um die Lücken bei Zwischenabständen wiederzugeben.0
Die Probe aus der Normalverteilung (durchgezogene blaue Linie, Histogramm ganz rechts) ist ziemlich gleichmäßig verteilt. Dementsprechend weicht seine L-Funktion nicht schnell von . Bei Abständen von etwa 0,10 ist sie jedoch ausreichend über die Hüllkurve gestiegen, um eine leichte Tendenz zur Clusterbildung zu signalisieren. Der fortgesetzte Anstieg über mittlere Entfernungen zeigt, dass die Clusterbildung diffus und weit verbreitet ist (nicht auf einige isolierte Peaks beschränkt).0 0.10
Die anfänglich große Steigung der Probe aus der Gemischverteilung (mittleres Histogramm) zeigt eine Häufung bei kleinen Entfernungen (weniger als ). Durch Absinken auf negative Werte wird eine Trennung in Zwischenabständen signalisiert. Der Vergleich mit der L-Funktion der U-förmigen Verteilung zeigt: Die Steigungen bei 0 , die Beträge, um die diese Kurven über 0 ansteigen , und die Raten, mit denen sie schließlich wieder auf 0 abfallen, geben Auskunft über die Art der Clusterbildung in die Daten. Jedes dieser Merkmale könnte als einzelnes Maß für die "Gleichmäßigkeit" ausgewählt werden, um einer bestimmten Anwendung zu entsprechen.0.15 0 0 0
Diese Beispiele zeigen, wie eine L-Funktion untersucht werden kann, um Abweichungen der Daten von der Gleichmäßigkeit ("Gleichmäßigkeit") zu bewerten, und wie quantitative Informationen über den Maßstab und die Art der Abweichungen daraus extrahiert werden können.
(Man kann tatsächlich die gesamte L-Funktion aufzeichnen, die sich auf den gesamten normalisierten Abstand von , um Abweichungen von der Homogenität in großem Maßstab zu beurteilen. Normalerweise ist es jedoch von größerer Bedeutung, das Verhalten der Daten in kleineren Abständen zu beurteilen.)1
Software
R
Code zum Generieren dieser Figur folgt. Zunächst werden Funktionen zur Berechnung von K und L definiert. Es wird eine Simulationsfunktion für eine Gemischverteilung erstellt. Dann werden die simulierten Daten generiert und die Diagramme erstellt.quelle
Ripley.L
.Ich gehe davon aus, dass Sie messen möchten, wie nah die Verteilung an der Uniform ist.
Sie können den Abstand zwischen der kumulativen Verteilungsfunktion der Gleichverteilung und der empirischen kumulativen Verteilungsfunktion der Stichprobe untersuchen.
Als Maß für den Abstand zwischen den Verteilungen nehmen wir nun die Summe der Abstände an jedem Punkt, d. H
In komplizierteren Fällen müssen Sie die oben verwendete Norm überarbeiten, aber die Grundidee bleibt gleich. Wenn Sie ein Testverfahren benötigen, kann es sinnvoll sein, Normen zu verwenden, für die Tests entwickelt wurden (die von @TomMinka angegeben wurden).
quelle
Wenn ich Ihre Frage richtig verstehe, ist die "gleichmäßigste" Verteilung für Sie eine, bei der die Zufallsvariable jeden beobachteten Wert einmal annimmt - in gewissem Sinne einheitlich. Wenn es "Cluster" von Beobachtungen mit demselben Wert gibt, wäre das ungleichmäßig. Angenommen, es handelt sich um diskrete Beobachtungen, könnten Sie sich sowohl die durchschnittliche Differenz zwischen den Wahrscheinlichkeitsmassenpunkten als auch die maximale Differenz ansehen, oder vielleicht, wie viele Beobachtungen über einem bestimmten Schwellenwert eine Differenz zum "Durchschnitt" aufweisen.
Wenn es in den Beobachtungen wirklich gleichmäßig wäre, sollten alle PM-Punkte den gleichen Wert haben, und die Differenz zwischen max und min ist 0. Je näher die durchschnittliche Differenz an 0 ist, desto "gerader" ist der Großteil der Beobachtungen, desto geringer Die maximale Differenz und die geringeren "Peaks" zeigen auch, wie "gerade" die empirischen Beobachtungen sind.
Update Natürlich können Sie einen Chi-Quadrat-Test für die Homogenität verwenden oder die empirische Verteilungsfunktion mit einer Uniform vergleichen, aber in diesen Fällen werden Sie durch große "Lücken" in den Beobachtungen bestraft, obwohl die Verteilungen der Beobachtungen immer noch bestehen "sogar".
quelle
Die Maßnahme, nach der Sie suchen, wird formal als Diskrepanz bezeichnet .
Die eindimensionale Version ist wie folgt:
The discrepancy thus compares the actual number of points in a given volume with the expected number of points in that volume, assuming the sequencex1,…,xN is uniformly distributed in I .
Low discrepancy sequences are often called quasirandom sequences.
A basic overview of low discrepancy sequences can be found here, and my blog post "The unreasonable effectiveness of quasirandom sequences" compares various methods when applied to Numerical Integration, mapping points to the surface of a sphere, and quasiperiodic tiling.
quelle
It sounds like you are interested in the pairwise differences of randomly observed values in a particular sequence, as in the case of modeling growth or trend. There are a number of ways to do so in time series analyses. A very basic approach is just a simple linear model regressing the sequence values upon their index values. In the first case, your linear model would give you a singular regression coefficient of 1 (predictiveR2=1 ). In the later case, this would be a coefficient of 1.51 and an R2 of 0.78.
quelle