Ich habe 5 Variablen und ich versuche, meine Zielvariable vorherzusagen, die im Bereich von 0 bis 70 liegen muss.
Wie verwende ich diese Informationen, um mein Ziel besser zu modellieren?
quelle
Ich habe 5 Variablen und ich versuche, meine Zielvariable vorherzusagen, die im Bereich von 0 bis 70 liegen muss.
Wie verwende ich diese Informationen, um mein Ziel besser zu modellieren?
y
Der eingeschränkte Bereich erhöht jedoch die Möglichkeit einer nichtlinearen Beziehung zwischen der abhängigen Variablen ( ) und den unabhängigen Variablen ( ). Einige zusätzliche Indikatoren hierfür sind:x i
Größere Variation der Residuenwerte, wenn in der Mitte des Bereichs liegt, verglichen mit Variation der Residuen an beiden Enden des Bereichs.
Theoretische Gründe für bestimmte nichtlineare Beziehungen.
Nachweis einer Fehlspezifikation des Modells (wie üblich).
Bedeutung quadratischer oder höherwertiger Terme im .
Betrachten Sie eine nichtlineare Re-Expression von falls eine dieser Bedingungen zutrifft.
Es gibt viele Möglichkeiten, erneut auszudrücken , um linearere Beziehungen mit zu erstellen . Zum Beispiel kann jede auf dem Intervall definierte Erhöhungsfunktion "gefaltet" werden, um eine symmetrische Erhöhungsfunktion über zu erzeugen . Wenn beliebig groß und negativ wird als Argument nähert sich , die gefaltete Version von wird map in alle reellen Zahlen. Beispiele für solche Funktionen sind der Logarithmus und jede negative Potenz. Die Verwendung des Logarithmus entspricht dem von @ user603 empfohlenen "Logit Link". Ein anderer Weg ist, zu lassenx i f [ 0 , 70 ] y → f ( y ) - f ( 70 - y ) f 0 f [ 0 , 70 ] G f ( y ) = G ( y / 70 )Sei die inverse CDF einer Wahrscheinlichkeitsverteilung und definiere . Die Verwendung einer Normalverteilung ergibt die "probit" -Transformation.
Eine Möglichkeit, Transformationsfamilien auszunutzen, besteht darin, zu experimentieren: eine wahrscheinliche Transformation zu versuchen, eine schnelle Regression des transformierten gegen das durchzuführen und die Residuen zu testen: Sie sollten unabhängig von den vorhergesagten Werten von sein scheinen (homoskedastisch und unkorreliert). . Dies sind Anzeichen einer linearen Beziehung zu den unabhängigen Variablen. Es hilft auch, wenn die Residuen der rücktransformierten vorhergesagten Werte dazu neigen, klein zu sein. Dies zeigt an, dass die Transformation die Anpassung verbessert hat. Verwenden Sie robuste Regressionsmethoden wie die iterative Neugewichtung der kleinsten Quadrate, um den Auswirkungen von Ausreißern zu widerstehen .x i y
Es ist wichtig zu überlegen, warum Ihre Werte im Bereich von 0 bis 70 liegen. Wenn es sich beispielsweise um die Anzahl der richtigen Antworten bei einem Test mit 70 Fragen handelt, sollten Sie Modelle für die Variablen "Anzahl der Erfolge" in Betracht ziehen, z. B. überdisperse binomiale Regression. Andere Gründe könnten Sie zu anderen Lösungen führen.
quelle
Datentransformation: Skalieren Sie Ihre Daten so, dass sie in[ 0 , 1 ] und modellieren Sie sie mithilfe eines GLM-Modells mit einem Logit-Link.
Bearbeiten: Wenn Sie einen Vektor neu skalieren (dh alle Elemente durch den größten Eintrag teilen), suchen Sie in der Regel vorher nach Ausreißern.
AKTUALISIEREN
Angenommen, Sie haben Zugriff auf R, dann würde ich den Modellierungsteil mit einer robusten glm-Routine ausführen, sieheglmrob () im Paket robustbase .
quelle