Was ist der Unterschied zwischen funktionaler Datenanalyse und hochdimensionaler Datenanalyse?

10

In der statistischen Literatur gibt es viele Verweise auf " Funktionsdaten " (dh Daten, die Kurven sind) und parallel auf " hochdimensionale Daten " (dh wenn Daten hochdimensionale Vektoren sind). Meine Frage betrifft den Unterschied zwischen den beiden Datentypen.

Wenn von angewandten statistischen Methoden gesprochen wird, die in Fall 1 gelten, kann dies als Umformulierung von Methoden aus Fall 2 durch eine Projektion in einen endlichen dimensionalen Unterraum eines Funktionsraums verstanden werden. Dies können Polynome, Splines, Wavelet, Fourier, ... sein. . und wird das Funktionsproblem in ein endlichdimensionales vektorielles Problem übersetzen (da in der angewandten Mathematik irgendwann alles endlich wird).

Meine Frage ist: Können wir sagen, dass jedes statistische Verfahren, das für Funktionsdaten gilt, auch (fast direkt) auf hochdimensionale Daten angewendet werden kann und dass jedes Verfahren, das sich auf hochdimensionale Daten bezieht, (fast direkt) auf Funktionsdaten angewendet werden kann?

Wenn die Antwort nein ist, können Sie veranschaulichen?

EDIT / UPDATE mit Hilfe von Simon Byrnes Antwort:

  • Die Sparsamkeit (S-spärliche Annahme, Ball und schwacher Ball für p <1 ) wird als strukturelle Annahme in der hochdimensionalen statistischen Analyse verwendet.lplpp<1
  • "Glätte" wird als strukturelle Annahme in der Funktionsdatenanalyse verwendet.

Andererseits wandeln die inverse Fourier-Transformation und die inverse Wavelet-Transformation die Spärlichkeit in Glätte um, und die Glätte wird durch Wavelet- und Fourier-Transformation in Spärlichkeit umgewandelt. Dies macht den von Simon erwähnten kritischen Unterschied nicht so kritisch?

Robin Girard
quelle
1
Die Glättung ist ein großer Teil der Funktionsdatenanalyse und kann durch Projektion auf eine geeignete Basis (z. B. Fourier oder Wavelet) in ein Vektormittelwertschätzungsproblem umgewandelt werden. Abhängig von der Funktionsstruktur gibt es jedoch andere Probleme bei der Funktionsdatenanalyse nicht so einfach zu übersetzen. Nehmen Sie zum Beispiel die funktionale Regression, bei der Sie eine funktionale Reaktion von Kovariaten vorhersagen möchten.
VQV

Antworten:

12

Funktionsdaten beinhalten oft unterschiedliche Fragen. Ich habe Functional Data Analysis, Ramsey und Silverman gelesen und sie diskutieren viel über Kurvenregistrierung, Warping-Funktionen und das Schätzen von Kurvenableitungen. Dies sind in der Regel ganz andere Fragen als die von Personen, die an der Untersuchung hochdimensionaler Daten interessiert sind.

user549
quelle
Stimme absolut zu ! Die Fragen, die gestellt werden, sind unterschiedlich. Registrierung, Landmarking und Schätzung von Derivaten können sich aus der funktionalen Sicht ergeben. Das überzeugt mich! Die große Sache mit funktionalen Daten (wie sie in der statistischen Literatur stehen) wäre also nicht, dass sie auf einer kontinuierlichen Menge definiert sind, sondern eher, dass sie auf einer geordneten Menge indiziert sind?
Robin Girard
Es ist nicht nur so, dass es auf einem geordneten Satz definiert ist. Wie würden Sie sonst die Zeitreihenanalyse von der Funktionsdatenanalyse unterscheiden? Ich stimme @ user549 darin zu, dass es sich um die Art der Fragen handelt, die gestellt werden. Sie sind spezifisch für die Struktur der Daten.
VQV
15

Ja und nein. Auf theoretischer Ebene können beide Fälle ähnliche Techniken und Rahmenbedingungen verwenden (ein hervorragendes Beispiel ist die Gaußsche Prozessregression).

Der entscheidende Unterschied sind die Annahmen, die verwendet werden, um eine Überanpassung (Regularisierung) zu verhindern:

  • Im funktionalen Fall wird normalerweise von einer gewissen Glätte ausgegangen, mit anderen Worten, Werte, die nahe beieinander auftreten, sollten systematisch ähnlich sein. Dies führt zur Verwendung von Techniken wie Splines, Löss, Gaußschen Prozessen usw.

  • Im hochdimensionalen Fall wird normalerweise von Sparsity ausgegangen: Das heißt, nur eine Teilmenge der Dimensionen hat ein Signal. Dies führt zu Techniken, die darauf abzielen, diese Dimensionen zu identifizieren (Lasso, LARS, Platten- und Spike-Priors usw.).

AKTUALISIEREN:

Ich habe nicht wirklich über Wavelet / Fourier-Methoden nachgedacht, aber ja, die für solche Methoden verwendeten Schwellenwerttechniken zielen auf Sparsamkeit im projizierten Raum ab. Umgekehrt setzen einige hochdimensionale Techniken eine Projektion auf eine niedrigdimensionale Mannigfaltigkeit voraus (z. B. Hauptkomponentenanalyse), was eine Art von Glättungsannahme ist.

Simon Byrne
quelle