Unter "kreisförmig" verstehe ich, dass sich die Verteilung auf einen kreisförmigen Bereich konzentriert, wie in diesem Konturdiagramm eines PDFs.
Wenn eine solche Struktur auch nur teilweise existiert, besteht eine natürliche Methode zur Identifizierung und Messung darin, die Verteilung kreisförmig um ihr Zentrum zu mitteln . (Intuitiv bedeutet dies, dass wir für jeden möglichen Radius die Wahrscheinlichkeit, dass wir uns im Abstand r vom Zentrum befinden, gleichmäßig in alle Richtungen verteilen sollten .) Wenn die Variablen als ( X , Y ) bezeichnet werden , muss sich das Zentrum am Punkt von befinden erste Momente ( μ X , μ Y ) . Für die Mittelung ist es zweckmäßig, die radiale Verteilungsfunktion zu definierenrr(X,Y)(μX,μY)
F ( ρ ) = 0 , ρ < 0.
F(ρ)=Pr[(X−μX)2+(Y−μY)2≤ρ2],ρ≥0;
F(ρ)=0,ρ<0.
Dies erfasst die Gesamtwahrscheinlichkeit, zwischen dem Abstand und ρ des Zentrums zu liegen. Verbreiten sie in alle Richtungen, lassen R eine Zufallsvariable mit cdf F und Θ werden , um eine einheitliche Zufallsvariable auf [ 0 , 2 π ] unabhängig von R . Das bivariate Zufallsvariable ( Ξ , H ) = ( R cos ( Θ ) + μ X , R sin ( Θ ) + μ Y0ρRFΘ[0,2π]R) gleich wahrscheinlich sind.)(Ξ,H)=(Rcos(Θ)+μX,Rsin(Θ)+μY)ist der kreisförmige Durchschnitt von . (Dies macht den Job, den unsere Intuition von einem "kreisförmigen Durchschnitt" verlangt, weil (a) er konstruktionsbedingt die richtige radiale Verteilung hat, nämlich F , und (b) alle Richtungen vom Zentrum ( Θ)(X,Y)FΘ
An diesem Punkt haben Sie viele Möglichkeiten: Sie müssen nur noch die Verteilung von mit der von ( Ξ , H ) vergleichen . Zu den Möglichkeiten gehören ein L p- Abstand und die Kullback-Leibler-Divergenz (zusammen mit unzähligen verwandten Abstandsmaßen: symmetrisierte Divergenz, Hellinger-Abstand, gegenseitige Information usw. ). Der Vergleich legt nahe, dass ( X , Y ) eine kreisförmige Struktur haben kann, wenn es "nahe" an ( Ξ , H ) liegt.(X,Y)(Ξ,H)Lp(X,Y)(Ξ,H). In diesem Fall kann die Struktur aus den Eigenschaften von "extrahiert" werden . Zum Beispiel identifiziert ein Maß für die zentrale Position von F , wie sein Mittelwert oder Median, den "Radius" der Verteilung von ( X , Y ) , und die Standardabweichung (oder ein anderes Maß für die Skalierung) von F drückt aus, wie "Ausbreitung" out " ( X , Y ) liegen in radialer Richtung um ihren zentralen Ort ( μ X , μ Y ) .FF(X,Y)F(X,Y)(μX,μY)
Bei der Abtastung aus einer Verteilung mit Daten , besteht ein vernünftiger Test der Zirkularität darin, den zentralen Ort wie gewohnt (mit Mittelwerten oder Medianwerten) zu schätzen und von dort jeden Wert ( x i , y i ) in Polarkoordinaten ( r i , θ i )(xi,yi),1≤i≤n(xi,yi)(ri,θi)relativ zu diesem geschätzten Zentrum. Vergleichen Sie die Standardabweichung (oder den IQR) der Radien mit ihrem Mittelwert (oder Median). Für nicht kreisförmige Verteilungen ist das Verhältnis groß; für Kreisverteilungen sollte es relativ klein sein. (Wenn Sie ein bestimmtes Modell für die zugrunde liegende Verteilung im Auge haben, können Sie die Stichprobenverteilung der Radialstatistik berechnen und damit einen Signifikanztest erstellen.) Testen Sie die Winkelkoordinate separat auf Gleichmäßigkeit im Intervall . Sie ist für Kreisverteilungen (und auch für einige andere Verteilungen) ungefähr gleichmäßig. Eine Ungleichmäßigkeit zeigt eine Abweichung von der Zirkularität an. [0,2π)
Gegenseitige Information haben Eigenschaften, die der Kovarianz etwas analog sind. Die Kovarianz ist eine Zahl, die für unabhängige Variablen 0 und für linear abhängige Variablen ungleich Null ist. Insbesondere wenn zwei Variablen gleich sind, ist die Kovarianz gleich der Varianz (was normalerweise eine positive Zahl ist). Ein Problem bei der Kovarianz ist, dass sie Null sein kann, selbst wenn zwei Variablen nicht unabhängig sind, vorausgesetzt, die Abhängigkeit ist nichtlinear.
Gegenseitige Information (MI) ist eine nicht negative Zahl. Sie ist genau dann Null, wenn die beiden Variablen statistisch unabhängig sind. Diese Eigenschaft ist allgemeiner als die der Kovarianz und deckt alle Abhängigkeiten ab, einschließlich nichtlinearer.
Wenn die beiden Variablen gleich sind, ist MI gleich der Entropie der Variablen (wiederum normalerweise eine positive Zahl). Wenn die Variablen unterschiedlich und nicht deterministisch zusammenhängen, ist der MI kleiner als die Entropie. In diesem Sinne liegt der MI zweier Variablen zwischen 0 und H (der Entropie), wobei 0 nur dann unabhängig ist und H nur dann, wenn er deterministisch abhängig ist.
quelle
Bitte werfen Sie einen Blick auf den folgenden Artikel aus der Wissenschaft - er spricht genau Ihren Punkt an:
Erkennung neuartiger Assoziationen in großen Datenmengen von David N. Reshef et al.
Aus der Zusammenfassung:
Ergänzendes Material finden Sie hier: http://www.sciencemag.org/content/suppl/2011/12/14/334.6062.1518.DC1
Die Autoren stellen sogar ein kostenloses Tool zur Verfügung, das die neuartige Methode enthält, die mit R und Python verwendet werden kann: http://www.exploredata.net/
quelle