Angenommen, Sie erhalten zwei multivariate Datensätze, einen alten und einen neuen, die nach demselben Verfahren erstellt wurden (für das Sie kein Modell haben), aber möglicherweise irgendwo entlang der Linie des Sammelns / Erstellens Bei den Daten ging etwas schief. Sie möchten die neuen Daten nicht als Validierungssatz für die alten Daten verwenden oder zu den alten Daten hinzufügen.
Sie können eine Reihe von 1-d-Statistiken (pro Variable) erstellen, z. B. die Wilcoxon-Rangsumme, und eine Mehrfachtestkorrektur durchführen, aber ich bin mir nicht sicher, ob dies optimal ist (um die Feinheiten multivariater Daten zu erfassen, geschweige denn Probleme mit Mehrfachtests). Eine Möglichkeit besteht darin, einen Klassifikator zu verwenden und zu prüfen, ob Sie zwischen den beiden Datensätzen unterscheiden können (vorausgesetzt, ein optimaler Klassifikator ist optimal). Das scheint zu funktionieren, aber a) Perhpas, es gibt einen besseren Weg. B) Es ist nicht wirklich dazu gedacht, Ihnen zu sagen, warum es anders ist (wenn nichts anderes verwendet es die besten Prädiktoren und vermisst möglicherweise andere gute Prädiktoren, die von den besseren unterbunden wurden.)
quelle
Sehen Sie sich Hotellings T ^ 2 an oder schauen Sie sich diese an: http://normaldeviate.wordpress.com/2012/07/14/modern-two-sample-tests/
quelle