Ich weiß, dass dies das Lösungssystem des linearen Gleichungsproblems ist.
Aber meine Frage ist, warum es ein Problem ist, dass die Anzahl der Beobachtungen geringer ist als die Anzahl der Prädiktoren. Wie kann das passieren?
Kommt die Datenerfassung nicht aus dem heiklen Umfragedesign oder dem experimentellen Design, sofern sie zumindest über diese Sache nachdenken?
Wenn die Datenerfassung 45 Variablen für die Durchführung von Forschungsarbeiten erfassen möchte, warum sollte er dann weniger als 45 Beobachtungen erfassen? Habe ich etwas verpasst und obwohl der Modellauswahlteil auch die nicht verbesserten Variablen in der Antwort eliminiert hat und immer die gesammelte Variable eliminiert wird Recht?
Warum sollten wir uns dann in diesem Fall der nicht eindeutigen Lösung stellen?
Antworten:
Dies kann in vielen Szenarien auftreten. Einige Beispiele sind:
Die Lösung besteht darin, in der Regressionsliteratur nachzuschlagen, was für Ihre Anwendung am besten geeignet ist.
Wenn Sie über Domänenkenntnisse verfügen, nehmen Sie diese in Ihre vorherige Verteilung auf und verfolgen Sie einen Bayes'schen Ansatz mit Bayes'scher linearer Regression.
Wenn Sie eine spärliche Lösung finden möchten, ist der empirische Bayes-Ansatz der automatischen Relevanzbestimmung möglicherweise der richtige Weg.
Wenn Sie der Meinung sind, dass es bei Ihrem Problem unangemessen ist, eine Vorstellung von Wahrscheinlichkeiten zu haben (wie das Lösen eines linearen Gleichungssystems), ist es möglicherweise sinnvoll, die Moore-Penrose-Pseudoinverse zu betrachten.
Sie können es aus der Perspektive der Merkmalsauswahl betrachten und die Anzahl von p reduzieren, bis es sich um ein gut gestelltes Problem handelt.
quelle
Das ist eine sehr gute Frage. Wenn die Anzahl der Kandidaten Prädiktorenp ist mehr als die effektive Stichprobengröße n und man legt keine Einschränkungen für die Regressionskoeffizienten fest (z. B. verwendet man keine Schrumpfung, auch bekannt als bestrafte Maximum-Likelihood-Schätzung oder Regularisierung), ist die Situation hoffnungslos. Ich sage das aus mehreren Gründen, einschließlich
Im Allgemeinen ist eine Studie, die 45 Variablen zu 45 Themen analysieren soll, schlecht geplant, und die einzigen mir bekannten Möglichkeiten, sie zu retten, sind
Ein technisches Detail: Wenn Sie eine der besten Methoden zur Auswahl / Bestrafung von Kombinationsvariablen wie Lasso oder elastisches Netz verwenden , können Sie die Wahrscheinlichkeit einer Überanpassung verringern, werden jedoch letztendlich enttäuscht sein, dass die Liste der ausgewählten Funktionen sehr instabil ist und sich in anderen nicht repliziert Datensätze.
quelle