Wie kann getestet werden, ob zwei multivariate Verteilungen aus derselben Grundgesamtheit stammen?

13

Angenommen, Sie erhalten zwei multivariate Datensätze, einen alten und einen neuen, die nach demselben Verfahren erstellt wurden (für das Sie kein Modell haben), aber möglicherweise irgendwo entlang der Linie des Sammelns / Erstellens Bei den Daten ging etwas schief. Sie möchten die neuen Daten nicht als Validierungssatz für die alten Daten verwenden oder zu den alten Daten hinzufügen.

Sie können eine Reihe von 1-d-Statistiken (pro Variable) erstellen, z. B. die Wilcoxon-Rangsumme, und eine Mehrfachtestkorrektur durchführen, aber ich bin mir nicht sicher, ob dies optimal ist (um die Feinheiten multivariater Daten zu erfassen, geschweige denn Probleme mit Mehrfachtests). Eine Möglichkeit besteht darin, einen Klassifikator zu verwenden und zu prüfen, ob Sie zwischen den beiden Datensätzen unterscheiden können (vorausgesetzt, ein optimaler Klassifikator ist optimal). Das scheint zu funktionieren, aber a) Perhpas, es gibt einen besseren Weg. B) Es ist nicht wirklich dazu gedacht, Ihnen zu sagen, warum es anders ist (wenn nichts anderes verwendet es die besten Prädiktoren und vermisst möglicherweise andere gute Prädiktoren, die von den besseren unterbunden wurden.)

ein Diamant
quelle

Antworten:

3
http://131.95.113.139/courses/multivariate/mantel.pdf

Erläutert zwei mögliche Vorgehensweisen, wenn Ihre Datasets dieselbe Größe haben. Der grundlegende Ansatz besteht darin, eine Abstandsmetrik zwischen Ihren beiden beobachteten Matrizen zu berechnen. Um festzustellen, ob dieser Abstand signifikant ist, verwenden Sie einen Permutationstest .

Wenn Ihre Datensätze nicht dieselbe Größe haben, können Sie den Cross-Match-Test verwenden, obwohl er nicht sehr beliebt zu sein scheint. Anstelle des Cross-Match-Tests können Sie versuchen, Ihre Daten auf- oder abzutasten, damit sie dieselbe Größe haben, und dann einen der im ersten Artikel genannten Ansätze anwenden.

Amit Deshwar
quelle
Sie erwähnen, wenn wir Datensätze mit ungleicher Größe haben, verwenden Sie den Cross-Match-Test. Im Anschluss an das von Ihnen erwähnte Papier verwenden sie jedoch die gleichen Datensätze und versuchen, basierend auf den Entfernungen ein Paar zu bilden. Haben Sie Beweise dafür gefunden, dass diese verwendet werden? Selbst in den
Versionshinweisen