Covariate Shift Detection

7

Gibt es einen Standardansatz zur Erkennung der kovariaten Verschiebung zwischen Trainings- und Testdaten? Dies wäre nützlich, um die Annahme zu bestätigen, dass in meiner Datenbank, die einige hundert Bilder enthält, eine kovariate Verschiebung vorliegt.

Daniel Wonglee
quelle

Antworten:

3

Es gibt Methoden wie das Kullback-Leibler-Divergenzmodell , den Wald-Wolfowitz-Test zum Nachweis von Nicht-Zufälligkeit und Kovarianzverschiebung.

Ein einfacher Test zur schnellen Analyse des Kovarianztests wäre die Erstellung eines maschinellen Lernmodells, bei dem das Modell wiederholt mit der Eingabe von Trainingsdaten und Produktionsdaten getestet wird.

Wenn das Modell den Unterschied zwischen den Trainings- und Produktionsdatensätzen erkennen kann, kann dies ein Zeichen für eine Verschiebung der Kovarianz sein.

Dawny33
quelle
1

Hier ist ein einfaches Verfahren, das Sie verwenden können:

  1. Lernen Sie einen Klassifikator, um zwischen Zug- / Testdaten zu unterscheiden (unter Verwendung regulärer X-Funktionen).
  2. Berechnen Sie den Phi-Korrelationskoeffizienten , um die Qualität des Klassifikators = die Trennbarkeit der Zug- / Testdaten abzuschätzen
  3. Stellen Sie einen Schwellenwert (z. B. 2) ein, über dem Sie behaupten können, dass es eine kovariate Verschiebung gibt (und beginnen Sie, nach Korrekturen zu suchen).
oDDsKooL
quelle
0

Sie geben nicht viele Hinweise darauf, welche Eigenschaften der Bilder Sie möglicherweise in Betracht ziehen, aber es scheint, dass Sie den Unterschied in der Verteilung der Trainings- und Testsätze messen möchten. Ein nützlicher Ausgangspunkt wäre die Kullback-Leibler-Divergenz, die ein Maß für die Differenz zweier Verteilungen ist.

image_doctor
quelle
0

Das Problem der Kovariatenverschiebung führt letztendlich zu Datensätzen mit unterschiedlicher zugrunde liegender mathematischer Struktur. Nun Manifold Lernen schätzt eine geringe dimensionale Darstellung von hochdimensionalen Daten , wodurch die darunter liegende Struktur enthüllt. Oft sind Manifold Learning-Techniken keine Projektionen - daher anders und leistungsfähiger als Standard-PCA.

Ich habe vielfältige Lerntechniken (z. B. IsoMap, MDS usw.) verwendet, um die "(Dis-) Ähnlichkeit" zwischen Zug- und Testdatensätzen zu visualisieren (und wenn möglich zu quantifizieren).

Imran.Fanaswala
quelle