Kürzlich habe ich zwei Artikel gelesen. Erstens geht es um die Geschichte der Korrelation und zweitens um die neue Methode mit dem Namen Maximal Information Coefficient (MIC). Ich benötige Ihre Hilfe zum Verständnis der MIC-Methode zur Schätzung nichtlinearer Korrelationen zwischen Variablen.
Eine Anleitung zur Verwendung in R finden Sie außerdem auf der Website des Autors (unter Downloads ):
Ich hoffe, dies wäre eine gute Plattform, um diese Methode zu diskutieren und zu verstehen. Mein Interesse, eine Intuition hinter dieser Methode zu diskutieren und wie sie, wie der Autor sagte, erweitert werden kann.
" ... wir brauchen Erweiterungen von MIC (X, Y) zu MIC (X, Y | Z). Wir werden wissen wollen, wie viele Daten benötigt werden, um stabile Schätzungen von MIC zu erhalten, wie anfällig es für Ausreißer ist, welche drei - oder höherdimensionale Beziehungen, die es vermissen wird, und mehr. MIC ist ein großer Schritt nach vorne, aber es gibt noch viele weitere Schritte zu unternehmen. "
Antworten:
Ist es nicht aussagekräftig, dass dies in einer nicht statistischen Zeitschrift veröffentlicht wurde, deren statistische Begutachtung unsicher ist? Dieses Problem wurde 1948 von Höffding (Annals of Mathematical Statistics 19: 546) gelöst, der einen einfachen Algorithmus entwickelte, der weder ein Binning noch mehrere Schritte erfordert. Hoeffdings Arbeit wurde nicht einmal im Science-Artikel erwähnt. Dies ist seit vielen Jahren in der R-
hoeffd
Funktion imHmisc
Paket. Hier ist ein Beispiel (geben Sieexample(hoeffd)
R ein):hoeffd
verwendet eine ziemlich effiziente Fortran-Implementierung der Hoeffding-Methode. Die Grundidee seines Tests besteht darin, den Unterschied zwischen den gemeinsamen Rängen von X und Y und dem Produkt aus dem Grenzrang von X und dem Grenzrang von Y in geeigneter Skalierung zu berücksichtigen.Aktualisieren
Hmisc
quelle
Die Hauptidee der Autoren besteht darin, die Daten in viele verschiedene zweidimensionale Gitter zu diskretisieren und normalisierte Punktzahlen zu berechnen, die die gegenseitige Information der beiden Variablen in jedem Gitter darstellen. Die Werte werden normalisiert, um einen fairen Vergleich zwischen verschiedenen Rastern zu gewährleisten, und variieren zwischen 0 (nicht korreliert) und 1 (hohe Korrelationen).
quelle
Ich fand zwei gute Artikel, die die Idee von MIC genauer erläuterten, insbesondere diesen ; hier der zweite .
Wie ich anhand dieser Lektüre verstanden habe, können Sie unterschiedliche Komplexitäten und Skalen von Beziehungen zwischen zwei Variablen vergrößern, indem Sie verschiedene Kombinationen von Gittern untersuchen. Diese Gitter werden verwendet, um den zweidimensionalen Raum in Zellen aufzuteilen. Durch Auswahl des Rasters, das die meisten Informationen darüber enthält, wie die Zellen den Raum aufteilen, den Sie für das MIC auswählen.
Ich möchte @mbq fragen, ob er das, was er "Plot-all-scatterplots-and-peak-those-with-greatest-white-area" nennt, und die unwirkliche Komplexität von O (M2) erweitern könnte.
quelle