Ich habe die Weindaten von hier, die aus 11 numerisch unabhängigen Variablen mit einer abhängigen Bewertung bestehen, die jedem Eintrag mit Werten zwischen 0 und 10 zugeordnet sind. Dies macht es zu einem großartigen Datensatz, ein Regressionsmodell zu verwenden, um die Beziehung zwischen den Variablen und den zugeordneten zu untersuchen Bewertung. Wäre jedoch eine lineare Regression angemessen, oder ist es besser, eine multinomiale / geordnete logistische Regression zu verwenden?
Die logistische Regression scheint in bestimmten Kategorien besser zu sein, dh es handelt sich nicht um eine kontinuierliche abhängige Variable, aber (1) es gibt 11 Kategorien (ein bisschen zu viele?) Und (2) bei der Überprüfung gibt es nur Daten für 6-7 dieser Kategorien, dh die verbleibenden 5-4 Kategorien haben kein Beispiel im Datensatz.
Andererseits sollte die lineare Regression eine Bewertung zwischen 0 und 10 linear abschätzen, was näher zu dem zu sein scheint, was ich herausfinden möchte. Die abhängige Variable ist im Datensatz jedoch nicht stetig.
Welcher Ansatz ist der bessere? Hinweis: Ich verwende R für die Analyse
Bearbeiten Sie, indem Sie einige der in den Antworten genannten Punkte ansprechen:
- Es gibt kein Geschäftsziel, da dies eigentlich für einen Universitätskurs ist. Die Aufgabe besteht darin, einen Datensatz Ihrer Wahl zu analysieren, je nachdem, wie ich es für richtig halte.
- Die Verteilung der Ratings sieht normal aus (Histogramm / QQ-Plot). Die tatsächlichen Werte im Datensatz liegen zwischen 3-8 (obwohl technisch 0-10).
quelle
Ich bin kein Spezialist für logistische Regression, aber ich würde sagen, dass Sie aufgrund Ihrer diskreten abhängigen Variablen Multinomial verwenden möchten.
Eine lineare Regression könnte Koeffizienten ausgeben, die aus den möglichen Grenzen Ihrer abhängigen Variablen extrapoliert werden können (dh eine Zunahme der unabhängigen Variablen würde zu einer abhängigen Variablen außerhalb Ihrer Grenze für den angegebenen Regressionskoeffizienten führen).
Die multinomiale Regression gibt die unterschiedlichen Wahrscheinlichkeiten für die unterschiedlichen Ergebnisse Ihrer abhängigen Variablen an (dh der Koeffizient Ihrer Regression gibt an, wie sie ihre Wahrscheinlichkeit erhöhen, eine bessere Punktzahl zu erzielen, ohne dass die Punktzahl außerhalb der Grenzen liegt).
quelle
Eine andere Möglichkeit ist die Verwendung eines zufälligen Waldes. Es gibt zwei Möglichkeiten, um die "Wichtigkeit" einer Variablen in einer Zufallsgesamtstruktur zu messen:
Zufällige Wälder sind auch für eine Art von Datenvisualisierung zugänglich, die als "partielle Abhängigkeitsdarstellung" bezeichnet wird. Weitere Informationen finden Sie in diesem ausführlichen Tutorial .
Partielle Abhängigkeit und Permutationsbedeutung sind nicht spezifisch für Random Forest-Modelle, aber ihre Beliebtheit wuchs zusammen mit der Beliebtheit von Random Forests, da sie für Random Forest-Modelle effizient berechnet werden können.
quelle