Mehr Prädiktoren als Beobachtungen?

9

Was bedeutet es, wenn Statistiker davon sprechen, mehr Prädiktoren als Beobachtungen in einem Regressionsmodell zu haben? Wie könnte das überhaupt möglich sein? Warum ist es ein Problem bei der Regression? Entschuldigung, ich bin neu in der Quantanalyse und Statistik, also nicht ganz sicher, warum dies der Fall ist? Ich würde mich über die einfachste Erklärung freuen -

user3424836
quelle
2
Stellen
Für ein ähnliches Beispiel siehe Olivetti Gesichter Datensatz
Jakub Bartczuk
Entschuldigung, dieses Beispiel ist mir nicht sehr klar, aber danke
user3424836
4
Stellen Sie sich als einfaches Beispiel vor, Sie hätten 5 Schüler und möchten deren Größe anhand anderer Variablen vorhersagen. Sie messen also Geschlecht, Stadt, Anzahl der Buchstaben im Nachnamen, Schuhgröße, Haarlänge und Gewicht. Wenn Sie diese alle in einem Modell zusammenfassen, hätten Sie sechs Prädiktoren und nur fünf Beobachtungen.
Sal Mangiafico
Danke, das ist sehr hilfreich. Ihre Antwort hat mir klar gemacht, wo das Problem liegt.
user3424836

Antworten:

5

Ich denke, dass die Verwirrung von der Art und Weise herrührt, wie das Wort "Beobachtung" manchmal verwendet wird. Angenommen, Sie wollten wissen, wie die Expression von 20.000 Genen mit einer kontinuierlichen biologischen Variablen wie dem Blutdruck zusammenhängt. Sie haben Daten sowohl zur Expression von 20.000 Genen als auch zum Blutdruck von 10.000 Personen. Sie könnten denken, dass dies 10.000 * 20.001 = 200.010.000 Beobachtungen beinhaltet. Es gibt sicherlich so viele einzelne Datenpunkte. Aber wenn Leute sagen, dass es in diesem Fall "mehr Prädiktoren als Beobachtungen" gibt, zählen sie nur jede einzelne Person als "Beobachtung"; Eine "Beobachtung" ist dann ein Vektor aller Datenpunkte, die an einer einzelnen Person gesammelt wurden. Es mag weniger verwirrend sein, "Fälle" statt "Beobachtungen" zu sagen, aber die Verwendung in der Praxis hat oft versteckte Annahmen wie diese.

Das Problem mit mehr Prädiktoren als Fällen (normalerweise als " " angegeben) besteht darin, dass es dann keine eindeutige Lösung für ein Standardproblem der linearen Regression gibt. Wenn Zeilen der Matrix von Datenpunkten Fälle darstellen und Spalten Prädiktoren darstellen, gibt es notwendigerweise lineare Abhängigkeiten zwischen den Spalten der Matrix. Sobald Sie also Koeffizienten für der Prädiktoren gefunden haben, können die Koeffizienten für die anderen Prädiktoren als beliebige lineare Kombinationen dieser ersten Prädiktoren ausgedrückt werden . Andere Ansätze wie LASSO oder Ridge Regression oder eine Vielzahl anderer Ansätze des maschinellen Lernens bieten Möglichkeiten, in solchen Fällen vorzugehen.p>nn(pn)n

EdM
quelle
Danke, das ist sehr hilfreich. Nach dem, was ich aufgrund Ihrer sehr umfassenden Antwort erfahre, besteht das Problem bei dieser Art von Situation darin, dass Prädiktoren korreliert oder kollinear sind. Ist mein Verständnis Ihrer Erklärung richtig?
user3424836
Jede Lösung, die die Summe der Quadrate minimiert, ergibt eine perfekte Anpassung. Ich denke, das Überanpassungsproblem ist ein weitaus schwerwiegenderes Problem, wenn die Anzahl der Parameter (Koeffizienten für Prädiktorvariablen) die Anzahl der Datenpunkte überschreitet als die Nicht-Eindeutigkeit der Lösung. Beachten Sie auch, dass es eine eindeutige Lösung gibt und Sie immer noch eine perfekte Anpassung haben, wenn die Anzahl der Parameter der Anzahl der Datenpunkte entspricht.
Michael R. Chernick
Die Techniken wie LASSO, die @EdM erwähnt, sind alle Techniken zur Variablenauswahl, die die Anzahl der Prädiktorvariablen reduzieren. Die meisten von ihnen bieten Möglichkeiten zu entscheiden, welche Prädiktorvariablen am wichtigsten sind.
Michael R. Chernick
Das ist sehr hilfreich. Wenn Sie sagen, dass die Lösung nicht eindeutig ist, bezieht sich das auf den Datensatz?
user3424836
@ user3424836 hat es mit der allgemeinen Struktur der Daten zu tun, nicht mit den weiteren Details des Datensatzes. Jede Situation mit hat dieses Problem, egal ob Sie es als nicht eindeutige lineare Regressionslösungen betrachten, wie ich es beschrieben habe, oder als Überanpassung, wie Michael Chernick es beschreibt. p>n
EdM