Auf der Suche nach einem robusten, verteilungsfreien / nichtparametrischen Abstand zwischen multivariaten Stichproben

8

Es gibt viele Distanzfunktionen für Verteilungen, aber es fällt mir schwer, sie alle zu durchsuchen, um eine zu finden, die

  1. ist "verteilungsfrei" oder "nichtparametrisch", womit ich nur meine, dass es nur wenige / schwache Annahmen über die zugrunde liegenden Verteilungen macht (insbesondere keine Normalität annimmt);
  2. ist robust gegenüber Ausreißern.

(Von diesen beiden gewünschten Eigenschaften ist (1) wesentlich wichtiger als (2).)

Mir ist klar, dass die oben genannten Merkmale wahrscheinlich die Unterscheidungskraft einer Maßnahme verringern würden, aber sie spiegeln die Realität der Daten wider, mit denen ich arbeite 1 .

Wenn es hilft, das Problem zu klären, könnte ich eine kleine Teilstichprobe der Daten veröffentlichen, deren Funktionen angemessen getarnt sind (dies sind unveröffentlichte Daten, die meinen Mitarbeitern gehören). Die einzige Sorge, die ich habe, ist, dass jede Teilstichprobe, die klein genug ist, um als Teil eines CrossValidated-Posts "postbar" zu sein, zu klein ist, um den gesamten Datensatz angemessen darzustellen. Ich würde mich über eine Anleitung in dieser Angelegenheit freuen.


Hintergrund (aka tl; dr)

Ich wollte ursprünglich den Bhattacharyya-Abstand , um Abstände zwischen den Stichprobenverteilungen verschiedener Paare von Teilstichproben in meinem zu messen Datensatz, aber ich stieß schnell auf das Problem, dass die Matrix , deren Inverse erforderlich ist, um 2 ist für viele dieser Paare schlecht konditioniert .DB(x,y)(x,y)(cov(x)+cov(y))/2DB(x,y)(x,y)

Dies führte mich dazu, mehr über die Theorie hinter zu lesen , aus der ich zusammenfasste, dass die Formel, die ich zur Berechnung verwendet hatte, davon ausgeht, dass die zugrunde liegenden Verteilungen alle normal sind. Ich nahm an, dass zwischen den numerischen Problemen, auf die ich gestoßen bin, und der Tatsache, dass die Verteilungen, mit denen ich arbeite, möglicherweise nicht annähernd diese Normalitätsbedingung erfüllen, ein gewisser (jedoch schwacher) Zusammenhang besteht.DB

Meine Intuition (die jemand mit mehr Mathe-Fu als ich möglicherweise mehr oder weniger rigoros rechtfertigen kann) ist, dass die klassischen analytischen Verteilungen gerade wegen der starken analytischen Einschränkungen, die zu ihrer "feinen / lokalen Struktur" führen, mächtig sind, und daher zu all den tiefgreifenden, weitreichenden Theoremen, die wir über sie haben. Es ist diese Theorie, die diese Verteilungen "mächtig" macht. Wenn diese Vermutung überhaupt zutrifft, würde man erwarten, dass aus solchen Verteilungen abgeleitete Analyseergebnisse tendenziell sehr empfindlich auf numerische Unvollkommenheiten (Ausreißer, Kollinearität usw.) in den Daten reagieren.

Auf jeden Fall interpretierte ich die numerischen Probleme, auf die ich stieß, möglicherweise als einen barmherzigen Hinweis der Götter der Statistik, dass ich das falsche Werkzeug für den Job verwendete.

Dies hat mich dazu gebracht, nach einer "verteilungsfreien" / "nichtparametrischen" Alternative zu zu .DB


1 Die Daten bestehen aus ~ 500 automatisch gesammelten Merkmalen einzelner kultivierter Zellen. Alle Merkmale haben positive Werte. Ich habe mir Histogramme mehrerer zufällig ausgewählter Merkmale angesehen, die auf zufälligen Teilstichproben der Daten basierten, und kein einziges gefunden, das normal verteilt aussah. diejenigen, die unimodal glockenförmig waren, hatten alle einen signifikanten Versatz. Einige Merkmale hatten extreme Ausreißer (daher enthielten die Histogramme nur ein oder zwei Behälter, die groß genug waren, um vom leeren Behälter unterschieden zu werden).

Die Zellen wurden aus Patientenbiopsien kultiviert, die in ~ 2500 Subkulturen unterteilt waren, die eine von ~ 800 verschiedenen möglichen Behandlungen erhielten, einschließlich einer Kontrolle ohne Behandlung. Die Behandlungen selbst fallen in ~ 200 verschiedene Gruppen. Stellen Sie sich daher vor, Sie teilen alle Beobachtungen in ~ 200 Teilproben auf, eine für jede dieser ~ 200 Behandlungsgruppen. Im Moment bin ich daran interessiert, die Abstände zwischen den (multivariaten) Probenverteilungen, die jeder dieser Teilproben entsprechen, und der Kontroll-Teilprobe (keine Behandlung) zu messen.

2 Genauer gesagt ist diese Umkehrung erforderlich, um mit der Formel zu berechnen , die ich dafür habe. In der Ableitung dieser speziellen Formel und nicht in der Definition von an sich erscheint die Normalitätsannahme. Ich habe die Formel aus Kailaths Arbeit von 1967 erhalten (Kailath, Thomas. "Die Divergenz- und Bhattacharyya-Entfernungsmaße bei der Signalauswahl." Communication Technology, IEEE Transactions on 15.1 (1967): 52-60.).DBDB

kjo
quelle
Wäre es fair anzunehmen, dass beide Prozesse entweder von derselben oder einer anderen DGP stammen? Und darf getestet werden, ob die Proben bekannten Verteilungen entsprechen (z. B. Student's t)?
Jean-Paul
@ Jean-Paul: Hier ist die Sache: Die Variablen, die in jede einzelne Beobachtung einfließen , stammen aus Messungen wild unterschiedlicher Merkmale, und dort gibt es ungefähr 500 dieser Variablen. Einige dieser Variablen eignen sich möglicherweise für einige Annahmen wie die von Ihnen genannten, aber keineswegs alle oder sogar die meisten.
kjo
Die Beschreibung ist immer noch zu vage, um eine hilfreiche Antwort zu geben. Wäre es möglich, die Daten zu teilen?
Jean-Paul
@ Jean-Paul: Ich kann die Daten nicht teilen, weil (1) sie Forschern (nicht mir) gehören, die beabsichtigen, Veröffentlichungen darauf aufzubauen; und (2) es ist massiv; Sagen wir einfach, dass das Teilen durch das Versenden von Festplatten per Post schneller ist als durch jede Form der internetbasierten Übertragung.
Kjo
OK. Und wie unterscheidet man verschiedene "Samples"? Wie definieren Sie die Beispiele?
Jean-Paul

Antworten:

6

Zunächst rate ich Ihnen, sich die Encyclopedia of Distances von Michel und Elena Deza anzusehen . Beim schnellen Durchsuchen des PDF-Dokuments (z. B. S. 327-330) sehen Sie bereits eine Vielzahl möglicher statistischer Kennzahlen für multivariate Populationen. Obwohl einfach, könnte eine davon gut genug sein, um die statistische Divergenz zwischen den verschiedenen Populationen anzunähern. Darüber hinaus gibt es viele weitere " vereinfachte " statistische Entfernungen, die Sie möglicherweise berücksichtigen möchten. Sie können beispielsweise den Begriff googeln Nonparametric multivariate distanceund viele Entfernungsmessungen werden angezeigt.

In einer komplizierteren Weise könnte eine erste Intuition darin bestehen, zuerst die Behandlungsklassifikation in den Daten beizubehalten und dann die Abstände zwischen zwei möglichen Hierarchien / Klassifikationen zu schätzen, da das Problem multivariate Daten betrifft, die in verschiedene Untergruppen klassifiziert werden können. Ein solches Maß ist der Abstand in geteilter Ordnung, wie im folgenden Artikel zu finden ist:

Zhang et al. (2009), Split-Order Distance für Clustering- und Klassifikationshierarchien, Lecture Notes in Computer Science , Vol. 5566, S. 517-534. Hier herunterladen

Diese Technik (und ähnliche Techniken) versuchen, die Daten nach verschiedenen möglichen Hierarchien zu klassifizieren. Ich bin mir nicht ganz sicher, ob dies auf die von Ihnen erwähnte Subkulturstruktur zutrifft, aber es könnte interessant sein, einen Blick darauf zu werfen. Diese Art der Schätzung der statistischen Entfernung hängt jedoch stark von der Implementierung von Algorithmen (und damit der Informatik) ab.

Eine statistischere Art , das Problem zu betrachten, besteht darin, die Daten einfach so zu verwenden, als ob sie kategorisiert wären, wenn Sie die Behandlungsklassifizierung als Aufteilung zwischen verschiedenen Subpopulationen verwenden. Daher wird keine spezifische Hierarchie angenommen. Die nichtparametrischen Maßnahmen, die dann nützlich wären, basieren entweder auf Bootstrapping oder auf der Annäherung der Momente der zugrunde liegenden Verteilung, wobei die bekannteste die Methode der Momente ist . Die darauf basierenden Abstandsmaße beruhen häufig auf der einfachen Annahme, dass der erste und der zweite Moment endlich sind. Ein gutes Beispiel für eine solche Maßnahme ist das folgende Papier:

Székely, GJ, Rizzo, ML, (2004), Testen auf gleichmäßige Verteilungen in hoher Dimension, Interstat 2004 . Hier herunterladen

Wobei die Gleichheit zweier multivariater Verteilungen nichtparametrisch getestet wird. Ein weiterer interessanter nichtparametrischer Test, der auf der Datentiefe basiert, ist zu finden in:

Chenouri, S., Farrar, TJ (2012), Ein nichtparametrischer multivariater Skalentest mit zwei Stichproben basierend auf der Datentiefe, Electronic Journal of Statistics , Vol. 3, No. 6, S. 760-782. Hier herunterladen

Abgesehen davon, dass Sie die Unterschiede zwischen zwei Stichproben testen, möchten Sie möglicherweise nur einen statistischen Unterschied zwischen ihnen interpretieren. In diesem Fall möchten Sie möglicherweise Divergenzmaße wie die Bhattacharyya-Distanz oder f- Divergenzen wie die Hellinger-Distanz untersuchen .

Alle diese Maßnahmen haben unterschiedliche Vor- und Nachteile und sollten unter bestimmten Bedingungen angewendet werden. Achten Sie immer auf die Skalierung Ihrer Variablen, da große Skalierungen überproportional zu jeder Messung beitragen. Wenn also Variablen auf verschiedenen Skalen gemessen werden, verwenden Sie standardisierte Werte, bevor Sie Entfernungen berechnen. Daher sollten für Stichproben (Gruppen) die Variablen über alle Gruppen auf den Mittelwert Null und die Einheitsvarianz standardisiert werden. Viel Glück!nn

PS Beachten Sie, dass robuste Statistiken häufig eine andere Bestrafungsfunktion wie die mittlere absolute Abweichung verwenden, anstatt den Abstand zwischen der Beobachtung und dem Mittelwert zu quadrieren. Dies kann Ihnen bei der Suche nach einer robusten Maßnahme helfen.

Jean Paul
quelle
1
Danke danke danke! Dies ist eine wunderbare Antwort. Ich wusste über die Bhattacharyya-Distanz Bescheid, aber als ich mehr darüber las, hatte ich den Eindruck, dass die Annahme der Normalität der zugrunde liegenden Verteilungen ziemlich wichtig war, und genau das veranlasste mich, nach "verteilungsfreien" Alternativen zu suchen. Übrigens hätte ich stattdessen das Adjektiv "nichtparametrisch" verwendet, aber ich wurde dafür bestraft, dass ich diesen Begriff in einem anderen Beitrag verwendet habe, und sagte, ich hätte stattdessen "verteilungsfrei" verwenden sollen. Ich habe jetzt beide Adjektive, zum guten Teil. ;)
kjo
@kjo Ah ich verstehe. Die zugrunde liegenden Annahmen sollten ab sofort Ihr Hauptaugenmerk sein: Es stehen Dutzende von Maßnahmen zur Auswahl, aber jetzt kommt es auf die Annahmen an, die Ihrer Meinung nach am besten zu Ihrem Zweck passen. Vielleicht in ähnlicher Literatur stöbern, um nach gemeinsamen Ansätzen zu suchen.
Jean-Paul
Nachdem ich Ihre Antwort und Kommentare gelesen hatte, stellte ich fest, dass mein ursprünglicher Beitrag nicht so vage und schwer zu adressieren gewesen wäre, als wenn ich einige spezifische Hintergrundinformationen erwähnt hätte. Ich habe meinen Beitrag bearbeitet, um dies zu korrigieren, auch wenn dies verspätet ist. Entschuldigung für die unnötige Unbestimmtheit des Originals.
Kjo
Ich nehme an, Sie wollten Ihre Antwort aktualisieren und nicht Ihre Frage. Wenn ja, nein, Ihre Antwort gibt mir viel zu tun, so wie es ist. Wenn Sie Lust haben, es zu aktualisieren, fahren Sie bitte fort, aber ich denke, es ist großartig, wie es ist. Vielen Dank.
Kjo
@kjo Ein Tippfehler in der Tat; Ich meinte Antwort. Viel Glück mit dem Projekt und ich hoffe, Sie können eine geeignete Funktion finden.
Jean-Paul
0

Kennen Sie die T-SNE-Methode? Es wird häufig nur für diese Art von Problem (Zellmarker) verwendet, um eine Gruppierung durchzuführen.

http://en.wikipedia.org/wiki/T-distributed_stochastic_neighbor_embedding

http://lvdmaaten.github.io/tsne/

überspringen
quelle
Hallo überspringen, willkommen im Lebenslauf. Könnten Sie bitte weitere Informationen in Ihrer Antwort angeben? Standalone-Antworten sind in der Regel besser als solche, die auf andere Webseiten verweisen, da Links unterbrochen werden können.
Patrick Coulombe