Schätzen der Dimension eines Datensatzes

9

Ein Kollege für angewandte Statistik hat mir folgendes geschickt:

"Ich habe mich gefragt, ob Sie eine Möglichkeit kennen, die wahre Dimension der Domäne einer Funktion herauszufinden. Zum Beispiel ist ein Kreis eine eindimensionale Funktion in einem zweidimensionalen Raum. Wenn ich nicht weiß, wie man zeichnet, gibt es eine Eine Statistik, die ich berechnen kann und die mir sagt, dass es sich um ein eindimensionales Objekt in einem zweidimensionalen Raum handelt. Ich muss dies in hochdimensionalen Situationen tun, kann also keine Bilder zeichnen. Jede Hilfe wird sehr geschätzt. "

Der Begriff der Dimension ist hier offensichtlich schlecht definiert. Ich meine, ich könnte eine Kurve durch jede endliche Sammlung von Punkten im hochdimensionalen Raum ziehen und sagen, dass meine Daten eindimensional sind. Abhängig von der Konfiguration kann es jedoch eine einfachere oder effizientere Möglichkeit geben, die Daten als höherdimensionale Menge zu beschreiben.

Solche Probleme müssen in der Statistikliteratur berücksichtigt worden sein, aber ich bin damit nicht vertraut. Irgendwelche Hinweise oder Vorschläge? Vielen Dank!


quelle

Antworten:

7

Sehen

Levina, E. und Bickel, P. (2004) "Maximum Likelihood Estimation of Intrinsic Dimension". Fortschritte in neuronalen Informationsverarbeitungssystemen 17

http://books.nips.cc/papers/files/nips17/NIPS2004_0094.pdf

RmRpm<pt

vqv
quelle
1
+1 Schöner Fund! Das Papier enthält auch eine kurze Diskussion des PCA-Ansatzes (sowie einiger anderer Methoden).
whuber
Vielen Dank, ich denke, dass dies dem am nächsten kommt, wonach mein Kollege gesucht hat.
7

Hauptkomponentenanalyse von lokalen Daten ist ein guter Ausgangspunkt. Wir müssen jedoch einige Sorgfalt darauf verwenden, die lokale (intrinsische) von der globalen (extrinsischen) Dimension zu unterscheiden. Im Beispiel von Punkten auf einem Kreis ist die lokale Dimension 1, aber insgesamt liegen die Punkte innerhalb des Kreises in einem 2D-Raum. Um PCA darauf anzuwenden, besteht der Trick darin, zu lokalisieren : Wählen Sie einen Datenpunkt aus und extrahieren Sie nur diejenigen, die sich in der Nähe befinden. Wenden Sie PCA auf diese Teilmenge an. Die Anzahl der großen Eigenwerte legt die intrinsische Dimension nahe. Wenn Sie dies an anderen Datenpunkten wiederholen, wird angezeigt, ob die Daten durchgehend eine konstante intrinsische Dimension aufweisen. In diesem Fall liefert jedes der PCA-Ergebnisse einen Teilatlas des Verteilers.

whuber
quelle
Vielen Dank für Ihre Antwort. Ich werde es an meinen Kollegen weitergeben.
3

Ich bin mir über den Teil 'Domäne einer Funktion' nicht sicher, aber Hausdorff Dimension scheint diese Frage zu beantworten. Es hat die seltsame Eigenschaft, einfachen Beispielen zuzustimmen ( z. B. der Kreis hat die Hausdorff-Dimension 1), aber für einige Mengen ('Fraktale') nichtintegrale Ergebnisse zu liefern.

shabbychef
quelle
1
Ich würde sogar sagen, Box-Dimension für eine praktischere Statistik.
Raskolnikov
2

Ich empfehle dringend, diese Umfrage zu lesen: Camastra, F. (2003). Methoden zur Schätzung der Datendimensionalität: eine Umfrage. Pattern Recognition , 36 (12), 2945-2954 .

Für diese Schätzung habe ich in matlab Matlab Toolbox eine sehr gute Toolbox zur Reduzierung der Dimensionalität gefunden . Zusätzlich zu den Techniken zur Dimensionsreduktion enthält die Toolbox Implementierungen von 6 Techniken zur intrinsischen Dimensionalitätsschätzung

Glücklicher Zufall
quelle