Ich arbeite derzeit daran, ein Modell mit einer multiplen linearen Regression zu erstellen. Nachdem ich mit meinem Modell herumgespielt habe, bin ich mir nicht sicher, wie ich am besten bestimmen kann, welche Variablen aufbewahrt und welche entfernt werden sollen.
Mein Modell startete mit 10 Prädiktoren für den DV. Bei Verwendung aller 10 Prädiktoren wurden vier als signifikant angesehen. Wenn ich nur einige der offensichtlich falschen Prädiktoren entferne, werden einige meiner Prädiktoren, die anfangs nicht signifikant waren, signifikant. Was mich zu meiner Frage führt: Wie kann man bestimmen, welche Prädiktoren in ihr Modell aufgenommen werden sollen? Mir schien, Sie sollten das Modell einmal mit allen Prädiktoren ausführen, die nicht signifikanten entfernen und dann erneut ausführen. Aber wenn das Entfernen nur einiger dieser Prädiktoren andere signifikant macht, frage ich mich, ob ich bei all dem den falschen Ansatz gewählt habe.
Ich glaube, dass dieser Thread meiner Frage ähnelt, bin mir aber nicht sicher , ob ich die Diskussion richtig interpretiere. Vielleicht ist dies eher ein experimentelles Designthema, aber vielleicht hat jemand etwas Erfahrung, die er teilen kann.
Antworten:
Basierend auf Ihrer Reaktion auf meinen Kommentar:
Sie suchen nach Vorhersage. Sie sollten sich also nicht wirklich auf die (In-) Signifikanz der Koeffizienten verlassen. Du wärst besser dran
Bezüglich jedes Modells von Interesse : Hier liegt ein ziemlicher Haken. Mit 10 potenziellen Prädiktoren ist das eine Wagenladung potenzieller Modelle. Wenn Sie die Zeit oder die Prozessoren dafür haben (oder wenn Ihre Daten klein genug sind, damit die Modelle fit und schnell genug ausgewertet werden): Haben Sie einen Ball. Wenn nicht, können Sie dies durch fundierte Vermutungen, Vorwärts- oder Rückwärtsmodellierung (aber unter Verwendung des Kriteriums anstelle der Signifikanz) oder noch besser: Verwenden Sie einen Algorithmus, der eine angemessene Menge von Modellen auswählt. Ein Algorithmus, der dies tut, ist die bestrafte Regression, insbesondere die Lasso-Regression. Wenn Sie R verwenden, schließen Sie einfach das Paket glmnet an und schon können Sie loslegen.
quelle
Darauf gibt es keine einfache Antwort. Wenn Sie einige der nicht signifikanten erklärenden Variablen entfernen, können andere, die mit diesen korrelieren, signifikant werden. Daran ist nichts auszusetzen, aber es wird zumindest teilweise eher eine Kunst als eine Wissenschaft ausgewählt. Aus diesem Grund zielen Experimente darauf ab, erklärende Variablen orthogonal zueinander zu halten, um dieses Problem zu vermeiden.
Herkömmlicherweise haben Analysten schrittweise Variablen nacheinander zum Modell hinzugefügt und daraus subtrahiert (ähnlich wie bei Ihnen) und sie einzeln oder in kleinen Gruppen mit t- oder F-Tests getestet. Das Problem dabei ist, dass Sie möglicherweise eine Kombination von Variablen verpassen, um sie zu subtrahieren (oder hinzuzufügen), deren kombinierter Effekt (oder Nicht-Effekt) durch die Kollinearität verborgen ist.
Mit moderner Rechenleistung ist es möglich, alle 2 ^ 10 = 1024 möglichen Kombinationen von erklärenden Variablen anzupassen und das beste Modell anhand einer Reihe von möglichen Kriterien auszuwählen, z. B. AIC, BIC oder Vorhersagekraft (z. B. Fähigkeit, die Werte vorherzusagen) einer Test-Teilmenge der Daten, die Sie von der Menge, die Sie für Ihr Modell verwenden, getrennt haben). Wenn Sie jedoch (implizit oder explizit) 1024-Modelle testen möchten, müssen Sie Ihre p-Werte vom klassischen Ansatz abweichen - gehen Sie vorsichtig vor ...
quelle
Wenn Sie nur an der prädiktiven Leistung interessiert sind, ist es wahrscheinlich besser, alle Funktionen zu verwenden und die Gratregression zu verwenden, um eine Überanpassung der Trainingsstichprobe zu vermeiden. Dies ist im Wesentlichen der Ratschlag im Anhang von Millars Monographie zur "Auswahl von Teilmengen in der Regression" , weshalb es einen vernünftigen Stammbaum gibt!
Der Grund dafür ist, dass wenn Sie eine Teilmenge auswählen, die auf einer Leistungsschätzung basiert, die auf einer festen Stichprobe von Daten (z. B. AIC, BIC, Kreuzvalidierung usw.) basiert, das Auswahlkriterium eine endliche Varianz aufweist und dies daher möglich ist Überanpassung des Auswahlkriteriums. Mit anderen Worten, wenn Sie zunächst das Auswahlkriterium minimieren, verbessert sich die Generalisierungsleistung. Je mehr Sie jedoch das Auswahlkriterium reduzieren, desto schlechter wird die Generalisierung. Wenn Sie Pech haben, können Sie leicht ein Regressionsmodell finden, das schlechter abschneidet als das, mit dem Sie begonnen haben (dh ein Modell mit allen Attributen).
Dies ist besonders wahrscheinlich, wenn der Datensatz klein ist (das Auswahlkriterium also eine hohe Varianz aufweist) und wenn es viele mögliche Modelloptionen gibt (z. B. Auswahl von Merkmalskombinationen). Regularisierung scheint weniger anfällig für Überanpassung zu sein, da es sich um einen Skalarparameter handelt, der optimiert werden muss, und dies bietet eine engere Sicht auf die Komplexität des Modells, dh weniger effektive Freiheitsgrade, mit denen das Auswahlkriterium überanpassbar ist .
quelle
Verwenden Sie die Sprungbibliothek. Wenn Sie die Variablen zeichnen, zeigt die y-Achse R ^ 2 angepasst. Sie sehen, wo die Kästchen am höchsten R ^ 2 schwarz sind. Dies zeigt die Variablen an, die Sie für Ihre multiple lineare Regression verwenden sollten.
Weinbeispiel unten:
quelle
leaps
Berechnet explizit die 'besten Teilmengen', obwohl dies keine Empfehlung für die Auswahl von Teilmengen unterschiedlicher Größe darstellt. (leaps
basiert auf „FORTRAN77 Code von Alan Miller [...] , die ausführlicher in seinem Buch‚Subset Selection in Regression‘beschrieben wird“, ein Buch , das von Dikran in eine andere Antwort auf diese Frage erwähnt wird :-)Sie können auch die Schrittfunktion im Akaike-Informationskriterium verwenden. Beispiel unten. https://en.wikipedia.org/wiki/Akaike_information_criterion
quelle
Warum nicht erst eine Korrelationsanalyse durchführen und dann nur diejenigen in die Regression einbeziehen, die mit Dv korrelieren?
quelle
Mein Berater bot eine andere Möglichkeit, dies zu tun. Führen Sie alle Variablen einmal aus und entfernen Sie dann diejenigen, die einen bestimmten Schwellenwert nicht erreichen (wir setzen unseren Schwellenwert auf p <.25). Wiederholen Sie diesen Vorgang, bis alle Variablen diesen Wert von 0,25 unterschreiten, und geben Sie dann die Werte an, die von Bedeutung sind.
quelle