Was ist das Problem mit

7

Ich weiß, dass dies das Lösungssystem des linearen Gleichungsproblems ist.

Aber meine Frage ist, warum es ein Problem ist, dass die Anzahl der Beobachtungen geringer ist als die Anzahl der Prädiktoren. Wie kann das passieren?

Kommt die Datenerfassung nicht aus dem heiklen Umfragedesign oder dem experimentellen Design, sofern sie zumindest über diese Sache nachdenken?

Wenn die Datenerfassung 45 Variablen für die Durchführung von Forschungsarbeiten erfassen möchte, warum sollte er dann weniger als 45 Beobachtungen erfassen? Habe ich etwas verpasst und obwohl der Modellauswahlteil auch die nicht verbesserten Variablen in der Antwort eliminiert hat und immer die gesammelte Variable eliminiert wird45(45p) Recht?

Warum sollten wir uns dann in diesem Fall der nicht eindeutigen Lösung stellen?

EconBoy
quelle
1
Ich vermute, Sie sind noch nicht über die schrittweise Modellauswahl aufgeklärt , aber diese Frage gefällt mir.
Alexis
Ja, ohne Zweifel nicht. Ich verstehe den Konzeptteil aber teilweise über die Kombination des Modells in Mathe. warum sollten wir unter p> n leiden?
EconBoy
2
Es kann Fälle geben, in denen es billig ist, (Zehntausende) Variablen zu messen, sobald Sie ein Thema in Ihrer Stichprobe haben - zumindest nicht teurer als 10 oder 100. Bioinformatik? automatisierte Sensoren?
kjetil b halvorsen
3
Manchmal ist es einfach nicht möglich, genügend Beobachtungen zu haben, um allen Variablen entgegenzuwirken, die berücksichtigt werden müssen. Klassische Beispiele sind medizinische Studien, bei denen die Anzahl der Personen, die Sie behandeln können, sehr begrenzt ist.
Nein,

Antworten:

3

Dies kann in vielen Szenarien auftreten. Einige Beispiele sind:

  1. Medizinische Datenanalyse in Krankenhäusern. Medizinische Forscher, die einen bestimmten Krebs untersuchen, können Daten hauptsächlich in ihrem eigenen Krankenhaus erfassen, und ich denke, es ist keine schlechte Sache, dass sie versuchen, möglichst viele Variablen von einem bestimmten Patienten wie Alter, Geschlecht, Tumorgröße, MRT, CT-Volumen zu erfassen.
  2. Mikroplatereader-Array-Studien in der Bioinformatik. Es ist häufig der Fall, dass Sie nicht viele Arten haben, aber in der Lage sein möchten, so viele Effekte wie möglich zu testen.
  3. Analyse mit Bildern. Sie haben oft 16 Millionen Pixel, während es sehr schwierig ist, so viele Bilder zu sammeln und zu speichern.
  4. MRT-Rekonstruktionen sind oft ähnliche Probleme, die spärliche Regressionstechniken erfordern, und ihre Verbesserung ist wirklich eine zentrale Frage in der MRT-Bildgebungsforschung.

Die Lösung besteht darin, in der Regressionsliteratur nachzuschlagen, was für Ihre Anwendung am besten geeignet ist.

  1. Wenn Sie über Domänenkenntnisse verfügen, nehmen Sie diese in Ihre vorherige Verteilung auf und verfolgen Sie einen Bayes'schen Ansatz mit Bayes'scher linearer Regression.

  2. Wenn Sie eine spärliche Lösung finden möchten, ist der empirische Bayes-Ansatz der automatischen Relevanzbestimmung möglicherweise der richtige Weg.

  3. Wenn Sie der Meinung sind, dass es bei Ihrem Problem unangemessen ist, eine Vorstellung von Wahrscheinlichkeiten zu haben (wie das Lösen eines linearen Gleichungssystems), ist es möglicherweise sinnvoll, die Moore-Penrose-Pseudoinverse zu betrachten.

  4. Sie können es aus der Perspektive der Merkmalsauswahl betrachten und die Anzahl von p reduzieren, bis es sich um ein gut gestelltes Problem handelt.

Boomkin
quelle
Vielen Dank für die Antwort. Ich wäre Ihnen dankbar, wenn Sie mir einen Fall für das Studium geben würden. Nach dem, was ich von Ihnen gehört habe, klingt es wie "der Fall, in dem es selten ist und der Forscher wirklich tief in dieses Ding eintauchen möchte, mit der riesigen Menge an Variablen, von denen er glaubt, dass sie das nützliche Muster und die Informationen extrahieren, um diese Seltenheit vorherzusagen?"
EconBoy
1
Sie können es eine seltene Krebserkrankung nennen, aber meiner Erfahrung nach braucht es Zeit, um genügend Daten zu sammeln, auch für häufigere, wenn Sie auf die Patienten eines Krankenhauses beschränkt sind. Der Schlüssel ist, dass n knapp ist, während p nicht ist. Ich suche immer noch nach einem guten, praktischen Beispiel, aber David Wipfs Arbeit zur Bildgebung durch übervollständige Wörterbücher könnte aus der angewandten theoretischen Perspektive ein guter Anfang sein.
Boomkin
10

Das ist eine sehr gute Frage. Wenn die Anzahl der Kandidaten Prädiktorenp ist mehr als die effektive Stichprobengröße nund man legt keine Einschränkungen für die Regressionskoeffizienten fest (z. B. verwendet man keine Schrumpfung, auch bekannt als bestrafte Maximum-Likelihood-Schätzung oder Regularisierung), ist die Situation hoffnungslos. Ich sage das aus mehreren Gründen, einschließlich

  • Wenn Sie über die Anzahl der nicht redundanten linearen Kombinationen von Variablen nachdenken, die analysiert werden können, ist dies die Anzahl min(n,p). Zum Beispiel können Sie nicht einmal Hauptkomponenten jenseits von berechnen , geschweige denn vertrauen .min(n,p)
  • Mit und keinen zwei Koordinaten auf einer vertikalen Linie beim Zeichnen kann man für jeden Datensatz selbst wenn die wahre Population 0,0 ist.p=ny(x,y)R2=1.0R2
  • Wenn Sie einen Merkmalsauswahlalgorithmus verwenden, z. B. gefürchtete schrittweise Regressionsmodelle, ist die Liste der "ausgewählten" Merkmale im Wesentlichen ein zufälliger Satz von Merkmalen, ohne die Hoffnung, in einem anderen Beispiel repliziert zu werden. Dies gilt insbesondere dann, wenn Korrelationen zwischen den Kandidatenmerkmalen bestehen, z. B. Co-Linearität.
  • Der Wert von benötigt wird, um einen einzelnen Korrelationskoeffizienten zwischen zwei Variablen mit angemessener Genauigkeit abzuschätzen , beträgt ungefähr 400. Siehe hier .n

Im Allgemeinen ist eine Studie, die 45 Variablen zu 45 Themen analysieren soll, schlecht geplant, und die einzigen mir bekannten Möglichkeiten, sie zu retten, sind

  • Geben Sie einen oder zwei Prädiktoren vor, um den Rest zu analysieren und zu ignorieren
  • Verwenden Sie eine bestrafte Schätzung wie die Gratregression, um alle Variablen anzupassen, aber nehmen Sie die Koeffizienten mit einem Körnchen Salz (starke Diskontierung).
  • Verwenden Sie die Datenreduktion, z. B. Hauptkomponenten, Variablenclustering, spärliche Hauptkomponenten (mein Favorit), wie in meinem RMS-Buch und in den Kursnotizen beschrieben . Dies beinhaltet das Kombinieren von Variablen, die schwer zu trennen sind, und nicht den Versuch, separate Effekte für sie abzuschätzen. Für Sie möglicherweise nur mit 2 reduzierten Punkten aus, wenn Sie gegen . Datenreduktion (unbeaufsichtigtes Lernen) ist besser interpretierbar als die meisten anderen Methoden.n=45y

Ein technisches Detail: Wenn Sie eine der besten Methoden zur Auswahl / Bestrafung von Kombinationsvariablen wie Lasso oder elastisches Netz verwenden , können Sie die Wahrscheinlichkeit einer Überanpassung verringern, werden jedoch letztendlich enttäuscht sein, dass die Liste der ausgewählten Funktionen sehr instabil ist und sich in anderen nicht repliziert Datensätze.

Frank Harrell
quelle
Das ist wirklich hilfreich, Frank! Ich lerne, wie ich mit den Fällen umgehen soll, in denen p> n ist, und weiß, warum es sich um ein Problem handelt und zu welchen Problemen es führen kann. Ich habe wirklich viele Antworten darauf von Ihnen bekommen, obwohl Sie meinen Standpunkt verfehlen, stelle ich nur eine einfache Frage, warum dieser Fall passieren könnte, wenn sie eine heikle Datenerfassung durchführen. Statistiker wissen, dass es ein Problem sein kann. Warum sie es nicht verhindert haben, wissen sie offensichtlich, das heißt, sie versuchen es, können es aber nicht. Warum können sie das nicht? Ich danke dir sehr !!!
EconBoy
Bei dieser Frage geht es mehr um Psychologie und Logistik. Ich finde, dass Studien sehr oft vom Komitee entworfen werden und jeder eine Lieblingsvariable hat. Bevor Sie es bemerken, ist die Liste der Variablen zu lang, um (1) alle zuverlässig messen und (2) analysieren zu können.
Frank Harrell