Multiple Regression mit kleinen Datenmengen

8

Ich habe einen Datensatz mit Projektfallstudien für eine neue Art von Forschungsmethode für Regierungsbehörden zur Unterstützung von Entscheidungsaktivitäten. Meine Aufgabe ist es, eine Schätzmethode zu entwickeln, die auf früheren Erfahrungen für zukünftige Projekte zu Schätzzwecken basiert.

Mein Datensatz ist auf 50 Fälle begrenzt. Ich habe mehr als 30 (potenzielle) Prädiktoren aufgezeichnet und eine Antwortvariable (dh Stunden, die für die Fertigstellung des Projekts benötigt werden).

Nicht alle Prädiktoren sind signifikant. Ich gehe davon aus, dass die Anzahl der Vorhersagevariablen bei schrittweisen Auswahlverfahren wahrscheinlich im Bereich von 5 bis 10 Variablen liegt. Obwohl ich Schwierigkeiten habe, einen Prädiktorsatz mit den Standardansätzen in Tools wie PASW (SPSS) zu erhalten.

Mir ist das gesamte Material bekannt, das über Faustregeln für Stichprobengrößen und Verhältnisse von Prädiktorvariablen zu Fallfällen spricht. Mein Dilemma ist, dass es fast 10 Jahre gedauert hat, um 50 Fälle zu sammeln, also ist es ungefähr so ​​gut wie es nur geht.

Meine Frage ist, was ich tun soll, um das Beste aus diesem kleinen Beispielsatz herauszuholen.

Das sind gute Referenzen für den Umgang mit kleinen Smaple-Sets? Änderungen der p-Wert-Signifikanz? Änderungen an schrittweisen Auswahlansätzen? Verwendung von Transformationen wie Zentrierung oder Protokoll?

Jeder Rat wird geschätzt.

Shane
quelle

Antworten:

3

Da Sie einige Prädiktoren aus Ihrem Datensatz auswählen möchten, würde ich eine einfache lineare Regression mit Strafe oder die Verwendung von LASSO (bestrafte lineare Regression) vorschlagen . Ihr Fall ist für eine Regression mit LASSO- Strafe geeignet, da Ihre Stichprobengröße und die Anzahl der Prädiktoren . Durch Ändern des Abstimmungsparameters wird die Anzahl der Prädiktoren ausgewählt, die Sie auswählen möchten. L1n=50p=30

Wenn Sie Einzelheiten zur Verteilung Ihrer Variablen angeben können, kann ich genauer darauf eingehen.

Ich verwende kein SPSS, aber dies kann einfach Rmithilfe der glmnetFunktion im gleichnamigen Paket erfolgen. Wenn Sie in das Handbuch schauen, enthält es ein allgemeines Beispiel (das allererste für den Gaußschen Fall ), das Ihr Problem löst. Ich bin sicher, dass es in SPSS eine ähnliche Lösung geben muss .

Suncoolsu
quelle
Die Antwort ist sehr negativ verzerrt. Mit einer Vielzahl von Projekten um die 2500-Stunden-Marke und einem Schwanz, der sich auf einige 10000-14000-Stunden-Projekte erstreckt. Die kontinuierlichen (Skalen-) Prädiktoren sind eine Mischung aus Verteilungen, während einige Prädiktoren kategorisch (nominal) sind. Welche Arten von Distributionen sind für LASSO erforderlich (oder was müssen Sie noch von mir wissen)? - Übrigens danke für die Antwort!
Shane
@Shane, das LASSO ist ein allgemeines Konzept der Bestrafung mit(Modul oder Absolutwert) Funktion. Es ist unabhängig von jeglicher Verteilung. Wenn Sie das Paket überprüfen (siehe Funktion :), erhalten Sie Optionen, um die (lineare Regression ist ein Sonderfall) mit Strafe für eine Vielzahl von Verteilungen . Es ist ziemlich schnell und erstaunlich zugleich. ||glmnetglmnetglmL1
Suncoolsu
Wenn Sie die SPSS-Hilfe überprüfen, wird über eine Funktion namens "Categorical Regression Regularization" oder CATREG gesprochen. Es scheint sich um Lasso- und Ridge-Methoden zu handeln. Aus irgendeinem Grund ist es in meiner Version nicht aktiviert. Wenn jemand weiß, warum ich dankbar wäre.
Shane
@Shane Wenn mein Gedächtnis nicht versagt, habe ich @AndyW Post- Fancy- SPSS-Code gesehen. Es (Code) beeindruckt mich die ganze Zeit!
Suncoolsu
@Shane, es scheint, dass der CATREG-Befehl für einige Versionen von SPSS existiert, aber Sie benötigen wahrscheinlich einige erweiterte Regressionsmodule / Lizenzen, um ihn zu verwenden. In der aktuellen Ausgabe benötigen Sie die "Premium" -Stat-Suite, um diese Funktionalität zu erhalten. Ich würde nur vorschlagen, die R-Pakete zu überprüfen, die suncoolsu erwähnt (es ist kostenlos!).
Andy W