Lineare Regression oder ordinale logistische Regression zur Vorhersage der Weinbewertung (von 0 bis 10)

18

Ich habe die Weindaten von hier, die aus 11 numerisch unabhängigen Variablen mit einer abhängigen Bewertung bestehen, die jedem Eintrag mit Werten zwischen 0 und 10 zugeordnet sind. Dies macht es zu einem großartigen Datensatz, ein Regressionsmodell zu verwenden, um die Beziehung zwischen den Variablen und den zugeordneten zu untersuchen Bewertung. Wäre jedoch eine lineare Regression angemessen, oder ist es besser, eine multinomiale / geordnete logistische Regression zu verwenden?

Die logistische Regression scheint in bestimmten Kategorien besser zu sein, dh es handelt sich nicht um eine kontinuierliche abhängige Variable, aber (1) es gibt 11 Kategorien (ein bisschen zu viele?) Und (2) bei der Überprüfung gibt es nur Daten für 6-7 dieser Kategorien, dh die verbleibenden 5-4 Kategorien haben kein Beispiel im Datensatz.

Andererseits sollte die lineare Regression eine Bewertung zwischen 0 und 10 linear abschätzen, was näher zu dem zu sein scheint, was ich herausfinden möchte. Die abhängige Variable ist im Datensatz jedoch nicht stetig.

Welcher Ansatz ist der bessere? Hinweis: Ich verwende R für die Analyse

Bearbeiten Sie, indem Sie einige der in den Antworten genannten Punkte ansprechen:

  • Es gibt kein Geschäftsziel, da dies eigentlich für einen Universitätskurs ist. Die Aufgabe besteht darin, einen Datensatz Ihrer Wahl zu analysieren, je nachdem, wie ich es für richtig halte.
  • Die Verteilung der Ratings sieht normal aus (Histogramm / QQ-Plot). Die tatsächlichen Werte im Datensatz liegen zwischen 3-8 (obwohl technisch 0-10).
Dimebag
quelle

Antworten:

9

Ein geordnetes Logit-Modell ist geeigneter, da Sie eine abhängige Variable haben, die eine Rangfolge darstellt, 7 ist beispielsweise besser als 4. Es gibt also eine klare Reihenfolge.

Auf diese Weise können Sie eine Wahrscheinlichkeit für jeden Behälter ermitteln. Es gibt wenige Annahmen, die Sie berücksichtigen müssen. Sie können einen Blick hier .

Eine der Annahmen, die der ordinalen logistischen (und ordinalen Probit-) Regression zugrunde liegen, ist, dass die Beziehung zwischen jedem Paar von Ergebnisgruppen dieselbe ist. Mit anderen Worten, bei der ordinalen logistischen Regression wird davon ausgegangen, dass die Koeffizienten, die die Beziehung zwischen beispielsweise der niedrigsten und allen höheren Kategorien der Antwortvariablen beschreiben, mit denen übereinstimmen, die die Beziehung zwischen der nächstniedrigen Kategorie und allen höheren Kategorien usw. beschreiben. Dies wird als Proportional-Odds-Annahme oder Parallel-Regressions-Annahme bezeichnet.

Ein bisschen Code:

library("MASS")
## fit ordered logit model and store results 'm'
m <- polr(Y ~ X1 + X2 + X3, data = dat, Hess=TRUE)

## view a summary of the model
summary(m)

Weitere Erklärungen können Sie hier , hier , hier oder hier geben .

Denken Sie daran, dass Sie Ihre Koeffizienten in Odds Ratio und dann in Wahrscheinlichkeiten transformieren müssen, um eine klare Interpretation in Bezug auf Wahrscheinlichkeiten zu erhalten.

Auf einfache (und vereinfachende) Weise können Sie diese berechnen, indem Sie:

exp(βich)=OddsReintichO

exp(β1)exp(βich)=PrObeinbichlichty

(Ich möchte nicht zu technisch sein)

adrian1121
quelle
4

Ich möchte eine andere Sichtweise auf das Problem geben: In der Praxis ist es weniger wahrscheinlich, dass diese Frage auftaucht, da das, was zu tun ist, von den geschäftlichen Anforderungen abhängt .

Die wesentliche Frage in der realen Welt ist, was zu tun ist, nachdem die Vorhersage erhalten wurde?

  • Angenommen, das Unternehmen möchte "minderwertigen" Wein in den Müll werfen. Dann brauchen wir eine Definition von "wie schlecht ist schlecht" (sagen Sie Qualität unter ). Bei der Definition sollte eine binäre logistische Regression verwendet werden, da die Entscheidung binär ist. (Müll oder behalten, da ist nichts in der Mitte).2

  • Angenommen, das Unternehmen möchte einen guten Wein auswählen, um ihn an drei Restaurants zu senden. Dann ist eine Klassifizierung in mehrere Klassen erforderlich.

Zusammenfassend möchte ich argumentieren, dass das, was zu tun ist, wirklich von den Bedürfnissen abhängt, nachdem die Vorhersage erhalten wurde, anstatt nur das Attribut der Antwortvariablen zu betrachten.

Haitao Du
quelle
1

Obwohl ein geordnetes Logit-Modell (wie von @ adrian1121 beschrieben) in Bezug auf Modellannahmen am besten geeignet wäre, denke ich, dass die multiple lineare Regression auch einige Vorteile hat.

  1. Einfache Interpretation . Lineare Modelle sind einfacher zu interpretieren als geordnete Logit-Modelle.
  2. Komfort für alle Beteiligten . Benutzer des Modells kennen möglicherweise die lineare Regression besser, da sie mit größerer Wahrscheinlichkeit wissen, was es ist.
  3. Sparsamer (einfacher). Das einfachere Modell kann genauso gut funktionieren, siehe verwandtes Thema .

Die Tatsache, dass die meisten Antworten zwischen 3 und 8 liegen, legt für mich nahe, dass ein lineares Modell für Ihre Anforderungen geeignet sein kann. Ich sage nicht, dass es "besser" ist, aber es könnte ein praktischerer Ansatz sein.

Underminer
quelle
0

Grundsätzlich erscheint ein geordnetes Logit- Modell angemessen, aber 10 (oder sogar 7) Kategorien sind ziemlich viel.

1 / Schließlich wäre es sinnvoll , einige zu tun Re-Codierung (zB Bewertungen 1-4 würde in 1 Einzel Modalität zusammengeführt werden, sagen Sie „niedrige Bewertung“)?

2 / Wie ist die Verteilung der Bewertungen? Bei einer guten Normalverteilung würde eine lineare Regression gute Dienste leisten (siehe lineares Wahrscheinlichkeitsmodell ).

3 / Andernfalls würde ich mich für etwas völlig anderes entscheiden, das als " Beta-Regression " bezeichnet wird. Eine 11-Punkte-Bewertungsskala ist im Vergleich zur klassischen 5-Punkte-Skala ziemlich detailliert. Ich halte es für akzeptabel, die Bewertungsskala als "Intensität" zu betrachten. Skala mit 0 = Null und 1 = Voll / Perfekt - Wenn Sie dies tun, nehmen Sie grundsätzlich an, dass Ihre Skala vom Intervalltyp ist (und nicht von der Ordnungszahl), aber für mich klingt es akzeptabel.

Umka
quelle
3
Warum gibt es 10 (oder 7) Kategorien? Gibt es einen fundamentalen technischen Grund, warum sich 10 Kategorien in einem geordneten Logit-Modell nicht angemessen verhalten, oder sprechen Sie aus einer rein praktischen Perspektive? (zB ähnliche Überlegungen zu der Antwort, die hxd1011 gab.)
RM
Nein, es gibt keinen technischen Grund, solange die Daten die Schätzung eines geordneten Logits (OL) mit "so vielen" Kategorien ermöglichen. Die Angabe eines OL-Modells mit 11 Kategorien impliziert jedoch die Schätzung von 10 "konstanten" Begriffen (dh Schwellenparametern). - Das hört sich für mich sehr viel an, insbesondere wenn einige Kategorien in der Datenbank nicht gut dargestellt sind. - Meiner Meinung nach ist dies ein OL-Modell für 11 Kategorien sind etwas übertrieben, ich würde die Bewertungen entweder als kontinuierliche Variablen behandeln oder einige Modalitäten reduzieren, um ein sparsameres (und vielleicht aussagekräftigeres) OL-Modell anzugeben.
Umka
-1

Ich bin kein Spezialist für logistische Regression, aber ich würde sagen, dass Sie aufgrund Ihrer diskreten abhängigen Variablen Multinomial verwenden möchten.

Eine lineare Regression könnte Koeffizienten ausgeben, die aus den möglichen Grenzen Ihrer abhängigen Variablen extrapoliert werden können (dh eine Zunahme der unabhängigen Variablen würde zu einer abhängigen Variablen außerhalb Ihrer Grenze für den angegebenen Regressionskoeffizienten führen).

Die multinomiale Regression gibt die unterschiedlichen Wahrscheinlichkeiten für die unterschiedlichen Ergebnisse Ihrer abhängigen Variablen an (dh der Koeffizient Ihrer Regression gibt an, wie sie ihre Wahrscheinlichkeit erhöhen, eine bessere Punktzahl zu erzielen, ohne dass die Punktzahl außerhalb der Grenzen liegt).

denis
quelle
3
Multinomial eignet sich für mehrere ungeordnete Kategorien. Ordnungslogistik (was OP in der Frage vorschlägt) eignet sich für mehrere geordnete Kategorien.
Gregor
-1

Eine andere Möglichkeit ist die Verwendung eines zufälligen Waldes. Es gibt zwei Möglichkeiten, um die "Wichtigkeit" einer Variablen in einer Zufallsgesamtstruktur zu messen:

  1. XjXjXjY.X
  2. XjXj

Zufällige Wälder sind auch für eine Art von Datenvisualisierung zugänglich, die als "partielle Abhängigkeitsdarstellung" bezeichnet wird. Weitere Informationen finden Sie in diesem ausführlichen Tutorial .

Partielle Abhängigkeit und Permutationsbedeutung sind nicht spezifisch für Random Forest-Modelle, aber ihre Beliebtheit wuchs zusammen mit der Beliebtheit von Random Forests, da sie für Random Forest-Modelle effizient berechnet werden können.

Shadowtalker
quelle
1
Ich weiß, es ist eine etwas tangentiale Antwort, aber ich möchte wissen, warum dies abgelehnt wurde. Ist es falsch
Shadowtalker