In der statistischen Literatur gibt es viele Verweise auf " Funktionsdaten " (dh Daten, die Kurven sind) und parallel auf " hochdimensionale Daten " (dh wenn Daten hochdimensionale Vektoren sind). Meine Frage betrifft den Unterschied zwischen den beiden Datentypen.
Wenn von angewandten statistischen Methoden gesprochen wird, die in Fall 1 gelten, kann dies als Umformulierung von Methoden aus Fall 2 durch eine Projektion in einen endlichen dimensionalen Unterraum eines Funktionsraums verstanden werden. Dies können Polynome, Splines, Wavelet, Fourier, ... sein. . und wird das Funktionsproblem in ein endlichdimensionales vektorielles Problem übersetzen (da in der angewandten Mathematik irgendwann alles endlich wird).
Meine Frage ist: Können wir sagen, dass jedes statistische Verfahren, das für Funktionsdaten gilt, auch (fast direkt) auf hochdimensionale Daten angewendet werden kann und dass jedes Verfahren, das sich auf hochdimensionale Daten bezieht, (fast direkt) auf Funktionsdaten angewendet werden kann?
Wenn die Antwort nein ist, können Sie veranschaulichen?
EDIT / UPDATE mit Hilfe von Simon Byrnes Antwort:
- Die Sparsamkeit (S-spärliche Annahme, Ball und schwacher Ball für p <1 ) wird als strukturelle Annahme in der hochdimensionalen statistischen Analyse verwendet.
- "Glätte" wird als strukturelle Annahme in der Funktionsdatenanalyse verwendet.
Andererseits wandeln die inverse Fourier-Transformation und die inverse Wavelet-Transformation die Spärlichkeit in Glätte um, und die Glätte wird durch Wavelet- und Fourier-Transformation in Spärlichkeit umgewandelt. Dies macht den von Simon erwähnten kritischen Unterschied nicht so kritisch?
quelle
Antworten:
Funktionsdaten beinhalten oft unterschiedliche Fragen. Ich habe Functional Data Analysis, Ramsey und Silverman gelesen und sie diskutieren viel über Kurvenregistrierung, Warping-Funktionen und das Schätzen von Kurvenableitungen. Dies sind in der Regel ganz andere Fragen als die von Personen, die an der Untersuchung hochdimensionaler Daten interessiert sind.
quelle
Ja und nein. Auf theoretischer Ebene können beide Fälle ähnliche Techniken und Rahmenbedingungen verwenden (ein hervorragendes Beispiel ist die Gaußsche Prozessregression).
Der entscheidende Unterschied sind die Annahmen, die verwendet werden, um eine Überanpassung (Regularisierung) zu verhindern:
Im funktionalen Fall wird normalerweise von einer gewissen Glätte ausgegangen, mit anderen Worten, Werte, die nahe beieinander auftreten, sollten systematisch ähnlich sein. Dies führt zur Verwendung von Techniken wie Splines, Löss, Gaußschen Prozessen usw.
Im hochdimensionalen Fall wird normalerweise von Sparsity ausgegangen: Das heißt, nur eine Teilmenge der Dimensionen hat ein Signal. Dies führt zu Techniken, die darauf abzielen, diese Dimensionen zu identifizieren (Lasso, LARS, Platten- und Spike-Priors usw.).
AKTUALISIEREN:
Ich habe nicht wirklich über Wavelet / Fourier-Methoden nachgedacht, aber ja, die für solche Methoden verwendeten Schwellenwerttechniken zielen auf Sparsamkeit im projizierten Raum ab. Umgekehrt setzen einige hochdimensionale Techniken eine Projektion auf eine niedrigdimensionale Mannigfaltigkeit voraus (z. B. Hauptkomponentenanalyse), was eine Art von Glättungsannahme ist.
quelle