Ich versuche, eine Metrik zum Messen der Ungleichmäßigkeit einer Verteilung für ein Experiment zu finden, das ich durchführe. Ich habe eine Zufallsvariable, die in den meisten Fällen gleichmäßig verteilt sein sollte, und ich möchte in der Lage sein, Beispiele für Datensätze zu identifizieren (und möglicherweise deren Grad zu messen), bei denen die Variable innerhalb eines bestimmten Bereichs nicht gleichmäßig verteilt ist.
Ein Beispiel für drei Datenreihen mit jeweils 10 Messungen, die die Häufigkeit des Auftretens von Messobjekten darstellen, könnte folgendermaßen aussehen:
a: [10% 11% 10% 9% 9% 11% 10% 10% 12% 8%]
b: [10% 10% 10% 8% 10% 10% 9% 9% 12% 8%]
c: [ 3% 2% 60% 2% 3% 7% 6% 5% 5% 7%] <-- non-uniform
d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%]
Ich möchte in der Lage sein, Verteilungen wie c von solchen wie a und b zu unterscheiden und die Abweichung von c von einer Gleichverteilung zu messen. Wenn es eine Metrik für die Gleichmäßigkeit einer Verteilung gibt (Standardabweichung nahe Null?), Kann ich sie möglicherweise verwenden, um diejenigen mit hoher Varianz zu unterscheiden. Meine Daten haben jedoch möglicherweise nur einen oder zwei Ausreißer, wie im obigen Beispiel c, und ich bin nicht sicher, ob dies auf diese Weise leicht erkennbar ist.
Ich kann etwas hacken, um dies in Software zu tun, suche aber nach statistischen Methoden / Ansätzen, um dies formal zu rechtfertigen. Ich habe vor Jahren Unterricht genommen, aber Statistiken sind nicht meine Region. Dies scheint etwas zu sein, das einen bekannten Ansatz haben sollte. Tut mir leid, wenn irgendetwas davon komplett mit Knochen ist. Danke im Voraus!
Antworten:
Wenn Sie nicht nur die Frequenzen, sondern auch die tatsächliche Anzahl haben, können Sie für jede Datenreihe einen -Anpassungstest verwenden. Insbesondere möchten Sie den Test für eine diskrete Gleichverteilung verwenden . Auf diese Weise erhalten Sie einen guten Test , mit dem Sie herausfinden können, welche Datenreihen wahrscheinlich nicht durch eine gleichmäßige Verteilung generiert wurden, aber kein Maß für die Gleichmäßigkeit darstellen.χ2
Es gibt andere mögliche Ansätze, z. B. die Berechnung der Entropie jeder Reihe - die gleichmäßige Verteilung maximiert die Entropie. Wenn die Entropie also verdächtig niedrig ist, würden Sie den Schluss ziehen, dass Sie wahrscheinlich keine gleichmäßige Verteilung haben. Das ist in gewisser Weise ein Maß für die Einheitlichkeit.
Ein weiterer Vorschlag wäre, ein Maß wie die Kullback-Leibler-Divergenz zu verwenden , das die Ähnlichkeit zweier Verteilungen misst.
quelle
Zusätzlich zu den guten Ideen von @MansT können Sie sich auch andere Maßnahmen einfallen lassen. Dies hängt jedoch davon ab, was Sie unter "Uneinheitlichkeit" verstehen. Um es einfach zu halten, schauen wir uns 4 Ebenen an. Perfekte Gleichmäßigkeit lässt sich leicht definieren:
25 25 25 25
aber welche der folgenden ist ungleichmäßiger?
20 20 30 30 oder 20 20 25 35
oder sind sie gleich ungleichmäßig?
Wenn Sie glauben, dass sie gleichermaßen ungleichmäßig sind, können Sie ein Maß verwenden, das auf der Summe der absoluten Werte der Abweichungen von der Norm basiert und mit dem maximal möglichen Wert skaliert wird. Dann ist die erste 5 + 5 + 5 + 5 = 20 und die zweite 5 + 5 + 0 + 10 = 20. Wenn Sie jedoch glauben, dass die zweite ungleichmäßiger ist, könnten Sie etwas verwenden, das auf den quadratischen Abweichungen basiert Das erste erhält 25 + 25 + 25 + 25 = 100 und das zweite 25 + 25 + 0 + 100 = 150.
quelle
Hier ist eine einfache Heuristik: Wenn Sie Elemente in einer Vektorsumme auf (oder einfach jedes Element mit der Summe normalisieren, um dies zu erreichen), kann die Homogenität durch die L2-Norm dargestellt werden, die von 1 reicht1 bis1, wobeiddie Dimension von Vektoren ist.1d√ 1 d
Die Untergrenze entspricht derHomogenitätund der Obergrenze des1-Punkt-Vektors.1d√ 1
Um dies auf eine Punktzahl zwischen und 1 zu skalieren , können Sie n ∗ √ verwenden0 1 , wobeindie L2-Norm ist.n ∗ d√- 1d√- 1 n
Ein von Ihnen modifiziertes Beispiel mit Elementen, die zur Vereinfachung zu summieren, und allen Vektoren mit derselben Dimension:1
Folgendes ergibt , 0,0051 und 0,4529 für die Zeilen:0,0028 0,0051 0,4529
quelle
Bin kürzlich darauf gestoßen und habe die Antwort von @ user495285 ergänzt, soweit ich das verstehe:
Ich bin der Meinung, dass die Nützlichkeit von geometrischen Maßen gegeben ist, wenn angenommen wird, dass jede Position (Dimension) des beschriebenen Raums auf äquivalenten Skalen gemessen wird, z. Die gleichen Annahmen, die einer Änderung der Basen wie PCA / SVD zugrunde liegen, sind hier wahrscheinlich ähnlich. Aber andererseits bin ich kein Mathematiker, also überlasse ich das den Informierteren.
quelle