Angenommen , ich habe eine Probe aus der gemeinsamen Verteilung von und . Wie teste ich die Hypothese , dass und sind unabhängig ?X Y X Y
Es wird keine Annahme über die Gelenk- oder Randverteilungsgesetze von und (am allerwenigsten die Gelenknormalität, da in diesem Fall die Unabhängigkeit mit der Korrelation identisch ist ).Y 0
Es wird keine Annahme über die Art einer möglichen Beziehung zwischen und ; Es kann nichtlinear sein, daher sind die Variablen nicht korreliert ( ), aber stark koabhängig ( ).Y r = 0 I = H
Ich sehe zwei Ansätze:
Bin beide Variablen und benutze Fischers genauen Test oder G-Test .
- Pro: Verwenden Sie gut etablierte statistische Tests
- Con: hängt vom Binning ab
Schätzen Sie die Abhängigkeit von und : (dies ist für unabhängiges und und wenn sie sich vollständig bestimmen).Y I ( X ; Y )XY1
- Pro: Erzeugt eine Zahl mit einer klaren theoretischen Bedeutung
- Con: hängt von der ungefähren Entropieberechnung ab (dh erneutes Binning)
Sind diese Ansätze sinnvoll?
Welche anderen Methoden wenden die Leute an?
Antworten:
Dies ist im Allgemeinen ein sehr schweres Problem, obwohl Ihre Variablen anscheinend nur 1d sind, was hilft. Natürlich sollte der erste Schritt (wenn möglich) darin bestehen, die Daten zu zeichnen und festzustellen, ob etwas auf Sie zukommt. Du bist in 2D, das sollte also einfach sein.
Hier sind einige Ansätze, die in oder noch allgemeineren Einstellungen funktionieren :Rn
Wie Sie bereits erwähnt haben, schätzen Sie die gegenseitige Information über Entropien. Dies ist möglicherweise die beste Option. Schätzer auf der Basis des nächsten Nachbarn sind in niedrigen Dimensionen in Ordnung, und selbst Histogramme sind in 2d nicht schrecklich. Wenn Sie sich Sorgen über Schätzfehler machen, ist dieser Schätzer einfach und gibt Ihnen Grenzen für endliche Stichproben (die meisten anderen beweisen nur asymptotische Eigenschaften):
Alternativ gibt es ähnliche direkte Schätzer zur gegenseitigen Information, z
Das Hilbert-Schmidt-Unabhängigkeitskriterium: ein kernelbasierter Ansatz (im Sinne von RKHS, nicht KDE).
Der Schweizer-Wolff-Ansatz: basiert auf Copula-Transformationen und ist daher für monoton zunehmende Transformationen unveränderlich. Ich bin nicht sehr vertraut mit diesem, aber ich denke, es ist rechnerisch einfacher, aber vielleicht auch weniger leistungsfähig.
quelle
k
Nachbarn zu erhalten). Keine Ahnung, wie es in Bezug auf statistische Leistung / etc. vergleichtHoeffding entwickelte einen allgemeinen nichtparametrischen Test für die Unabhängigkeit zweier stetiger Variablen unter Verwendung gemeinsamer Reihen, um zu testen . Dieser Test von 1948 ist in der Funktion des R- Pakets implementiert .H0:H(x,y)=F(x)G(y)
Hmisc
hoeffd
quelle
Wie wäre es mit diesem Papier:
http://arxiv.org/pdf/0803.4101.pdf
"Messen und Testen der Abhängigkeit durch Korrelation von Entfernungen". Székely und Bakirov haben immer interessante Sachen.
Es gibt Matlab-Code für die Implementierung:
http://www.mathworks.com/matlabcentral/fileexchange/39905-distance-correlation
Wenn Sie einen anderen (einfach zu implementierenden) Test für die Unabhängigkeit finden, lassen Sie es uns wissen.
quelle
Die Verbindung zwischen Distanz-Kovarianz- und Kernel-Tests (basierend auf dem Hilbert-Schmidt-Unabhängigkeitskriterium) wird in der Veröffentlichung angegeben:
Sejdinovic, D., Sriperumbudur, B., Gretton, A. und Fukumizu, K., Äquivalenz von entfernungsbasierter und RKHS-basierter Statistik bei Hypothesentests, Annals of Statistics, 41 (5), S. 2263-2702, 2013
Es wird gezeigt, dass die Distanz-Kovarianz ein Sonderfall der Kernel-Statistik für eine bestimmte Familie von Kerneln ist.
Wenn Sie beabsichtigen, gegenseitige Informationen zu verwenden, lautet ein Test, der auf einer zusammengefassten Schätzung des MI basiert, wie folgt:
Gretton, A. und Gyorfi, L., Consistent Nonparametric Tests of Independence, Journal of Machine Learning Research, 11, S. 1391–1423, 2010.
Wenn Sie an der bestmöglichen Testleistung interessiert sind, sollten Sie lieber die Kerneltests verwenden, als Binning und gegenseitige Informationen.
Angesichts der Tatsache, dass Ihre Variablen univariat sind, sind klassische nichtparametrische Unabhängigkeitstests wie der von Höffding wahrscheinlich in Ordnung.
quelle
In Statistiken können Sie selten (nie?) Nachweisen, dass Ihre Beispielstatistik ein Punktwert ist. Sie können anhand von Punktwerten testen und diese entweder ausschließen oder nicht ausschließen. In der Statistik geht es jedoch darum, variable Daten zu untersuchen. Da es immer Abweichungen gibt, gibt es zwangsläufig keine Möglichkeit zu erkennen, dass etwas nicht genau verwandt, normal, gaußartig usw. ist. Sie können nur einen Bereich von Werten dafür kennen. Sie könnten wissen, ob ein Wert aus dem Bereich plausibler Werte ausgeschlossen ist. Zum Beispiel ist es einfach, keine Beziehung auszuschließen und einen Wertebereich für die Größe der Beziehung anzugeben.
Daher wird der Versuch, keine Beziehung zu demonstrieren, im Wesentlichen den Punktwert von
relationship = 0
nicht zum Erfolg führen. Wenn Sie eine Reihe von Beziehungsmaßen haben, die mit ungefähr 0 akzeptabel sind, ist es möglich, einen Test zu erstellen.Unter der Annahme, dass Sie diese Einschränkung akzeptieren können, wäre es für Personen hilfreich, die Ihnen bei der Erstellung eines Streudiagramms mit einer Kurve mit geringer Abweichung behilflich sind. Da Sie nach R-Lösungen suchen, versuchen Sie:
Aufgrund der begrenzten Informationen, die Sie bisher angegeben haben, denke ich, dass ein verallgemeinertes additives Modell das Beste ist, um die Nichtunabhängigkeit zu testen. Wenn Sie das mit CIs um die vorhergesagten Werte zeichnen, können Sie möglicherweise Aussagen über den Glauben an Unabhängigkeit treffen. Schauen Sie sich
gam
das mgcv-Paket an. Die Hilfe ist recht gut und es gibt hier Unterstützung in Bezug auf das CI .quelle
Es könnte interessant sein ...
Garcia, JE; Gonzalez-Lopez, VA (2014) Unabhängigkeitstests für kontinuierliche Zufallsvariablen basierend auf der am längsten zunehmenden Teilsequenz. Journal of Multivariate Analysis, v. 127 p. 126-146.
http://www.sciencedirect.com/science/article/pii/S0047259X14000335
quelle