Ich versuche herauszufinden, ob einfache Wahrscheinlichkeiten für mein Problem funktionieren oder ob es besser ist, komplexere Methoden wie die logistische Regression zu verwenden (und etwas darüber zu lernen).
Die Antwortvariable in diesem Problem ist eine binäre Antwort (0, 1). Ich habe eine Reihe von Prädiktorvariablen, die alle kategorisch und ungeordnet sind. Ich versuche zu bestimmen, welche Kombinationen der Prädiktorvariablen den höchsten Anteil von Einsen ergeben. Benötige ich eine logistische Regression? Wie wäre es von Vorteil, nur die Proportionen in meinem Stichprobensatz für jede Kombination der kategorialen Prädiktoren zu berechnen?
r
probability
logistic
Rachel
quelle
quelle
Antworten:
Die logistische Regression ergibt bis zur numerischen Ungenauigkeit genau die gleichen Anpassungen wie die tabellierten Prozentsätze. Wenn also die unabhängigen Variablen sind Faktor - Objekte
factor1
, etc. und die abhängigen Ergebnisse (0 und 1) sindx
, dann können Sie die Effekte mit einem Ausdruck erhalten wieVergleichen Sie dies mit
Als Beispiel generieren wir einige zufällige Daten:
Die Zusammenfassung wird mit erhalten
Seine Ausgabe umfasst
Zur späteren Bezugnahme beträgt die Schätzung für Faktoren auf den Ebenen (1,2,0) in Zeile 6 der Ausgabe 0,5.
Die logistische Regression gibt ihre Koeffizienten folgendermaßen auf:
Um sie zu nutzen, benötigen wir die logistische Funktion:
Um beispielsweise die Schätzung für Faktoren auf Ebenen (1,2,0) zu erhalten, berechnen Sie
(Beachten Sie, wie alle Wechselwirkungen in das Modell aufgenommen werden müssen und alle zugehörigen Koeffizienten angewendet werden müssen, um eine korrekte Schätzung zu erhalten.) Die Ausgabe ist
Zustimmung zu den Ergebnissen von
aggregate
. (Die Überschrift "(Intercept)" in der Ausgabe ist ein Überbleibsel der Eingabe und für diese Berechnung praktisch bedeutungslos.)Die gleichen Informationen in noch einer anderen Form erscheinen in der Ausgabe von
table
. ZB die (langwierige) Ausgabe vonenthält dieses Panel:
Die Spalte für21/(21+21)=0.5 1
factor1
= 1 entspricht den drei Faktoren auf den Ebenen (1,2,0) und zeigt, dass der Werte von gleich , was mit dem übereinstimmt, was wir aus und lesen .1x
aggregate
glm
Schließlich wird eine Kombination von Faktoren, die den höchsten Anteil im Datensatz ergeben, zweckmäßigerweise aus der Ausgabe von
aggregate
:quelle
Für einen schnellen Überblick über den Anteil der binären Antworten innerhalb jeder Kategorie und / oder abhängig von mehreren Kategorien können grafische Darstellungen hilfreich sein. Insbesondere um gleichzeitig Proportionen zu visualisieren, die von vielen kategorialen unabhängigen Variablen abhängig sind, würde ich Mosaic Plots vorschlagen .
Unten finden Sie ein Beispiel aus einem Blog-Beitrag, Grundlegendes zu bereichsbezogenen Plots: Mosaik-Plots aus den statistischen Grafiken und mehr Blogs. Dieses Beispiel zeigt den Anteil der Überlebenden auf der Titanic in Blau, abhängig von der Klasse des Passagiers. Man kann gleichzeitig den Anteil der Überlebenden beurteilen und gleichzeitig die Gesamtzahl der Passagiere in jeder der Untergruppen einschätzen (nützliche Informationen sicher, insbesondere wenn bestimmte Untergruppen nur eine geringe Anzahl haben und wir mehr zufällige Abweichungen erwarten würden).
(Quelle: theusrus.de )
Man kann dann nachfolgende Mosaikdiagramme von mehreren kategorialen unabhängigen Variablen abhängig machen. Das nächste Beispiel aus demselben Blogbeitrag in einer kurzen visuellen Zusammenfassung zeigt, dass alle Kinderpassagiere in der ersten und zweiten Klasse überlebt haben, während es in der dritten Klasse den Kindern bei weitem nicht so gut ging. Es zeigt sich auch deutlich, dass weibliche Erwachsene in jeder Klasse eine viel höhere Überlebensrate hatten als Männer, obwohl der Anteil weiblicher Überlebender zwischen den Klassen von der ersten zur zweiten bis zur dritten Klasse merklich abnahm (und dann für die Besatzung wieder relativ hoch war) Beachten Sie erneut, dass es nicht viele weibliche Besatzungsmitglieder gibt, da die Messlatte eng ist.
(Quelle: theusrus.de )
Es ist erstaunlich, wie viele Informationen angezeigt werden. Dies sind Proportionen in vier Dimensionen (Klasse, Erwachsener / Kind, Geschlecht und Anteil der Überlebenden)!
Ich stimme zu, wenn Sie an Vorhersagen oder allgemeineren kausalen Erklärungen interessiert sind, sollten Sie sich einer formaleren Modellierung zuwenden. Grafische Darstellungen können jedoch sehr schnelle visuelle Hinweise auf die Art der Daten sein und andere Erkenntnisse liefern, die bei der einfachen Schätzung von Regressionsmodellen häufig übersehen werden (insbesondere bei der Betrachtung von Interaktionen zwischen den verschiedenen kategorialen Variablen).
quelle
Nb
? Auch mit Zahlen sage ich immer besser!Abhängig von Ihren Anforderungen stellen Sie möglicherweise fest, dass die rekursive Partitionierung eine einfach zu interpretierende Methode zur Vorhersage einer Ergebnisvariablen darstellt. Für eine R Einführung in diesen Methoden finden Sie unter Schnell-R - Baum-basierte Modell Seite. Ich bevorzuge
ctree()
im Allgemeinen die Implementierung in Rs Party-Paket, da man sich keine Gedanken über das Beschneiden machen muss und standardmäßig hübsche Grafiken erzeugt.Dies würde in die Kategorie der in einer früheren Antwort vorgeschlagenen Merkmalsauswahlalgorithmen fallen und im Allgemeinen ebenso gute, wenn nicht bessere Vorhersagen liefern wie die logistische Regression.
quelle
Angesichts Ihrer fünf kategorialen Prädiktoren mit jeweils 20 Ergebnissen benötigt die Lösung mit einer anderen Vorhersage für jede Konfiguration von Prädiktoren Parameter. Jeder dieser Parameter benötigt viele Trainingsbeispiele, um gut gelernt zu werden. Haben Sie mindestens zehn Millionen Trainingsbeispiele, die auf alle Konfigurationen verteilt sind? Wenn ja, machen Sie es so.205
Wenn Sie weniger Daten haben, möchten Sie weniger Parameter lernen. Sie können die Anzahl der Parameter reduzieren, indem Sie beispielsweise davon ausgehen, dass Konfigurationen einzelner Prädiktoren konsistente Auswirkungen auf die Antwortvariable haben.
Wenn Sie glauben, dass Ihre Prädiktoren unabhängig voneinander sind, ist die logistische Regression der einzigartige Algorithmus, der das Richtige tut. (Auch wenn sie nicht unabhängig sind, kann es immer noch ziemlich gut funktionieren.)
Zusammenfassend lässt sich sagen, dass die logistische Regression eine Annahme über den unabhängigen Einfluss von Prädiktoren macht, wodurch die Anzahl der Modellparameter verringert wird und ein Modell entsteht, das leicht zu erlernen ist.
quelle
Sie sollten sich die Algorithmen zur Funktionsauswahl ansehen. Eine für Ihren Fall geeignete Methode (binäre Klassifizierung, kategoriale Variablen) ist die Methode "Minimum Redundancy Maximum Relevance" (mRMR). Sie können es schnell online unter http://penglab.janelia.org/proj/mRMR/ ausprobieren.
quelle
response,predictor1,predictor2,predictor3 <line break here> 1,5,4,3 <line break here> 0,5,3,-1 <line break here> 1,1,2,3
Ich arbeite im Bereich der Kreditbewertung, wo das, was hier als seltsamer Fall dargestellt wird, die Norm ist.
Wir verwenden die logistische Regression und konvertieren sowohl kategoriale als auch kontinuierliche Variablen in Evidenzgewichte (WOEs), die dann als Prädiktoren für die Regression verwendet werden. Es wird viel Zeit darauf verwendet, die kategorialen Variablen zu gruppieren und die kontinuierlichen Variablen zu diskretisieren (Binning / Klassifizierung).
Das Gewicht der Beweise ist eine einfache Berechnung. Es ist das Protokoll der Gewinnchancen für die Klasse, abzüglich des Protokolls der Gewinnchancen für die Bevölkerung:
WOE = ln (gut (Klasse) / schlecht (Klasse)) - ln (gut (ALL) / schlecht (ALL)) Dies ist das Standardtransformationsmethode für fast alle Kreditbewertungsmodelle, die mithilfe der logistischen Regression erstellt wurden. Sie können die gleichen Zahlen stückweise verwenden.
Das Schöne daran ist, dass Sie immer wissen, ob die jedem WOE zugewiesenen Koeffizienten sinnvoll sind. Negative Koeffizienten widersprechen den Mustern innerhalb der Daten und resultieren normalerweise aus Multikollinearität; und Koeffizienten über 1,0 zeigen eine Überkompensation an. Die meisten Koeffizienten liegen irgendwo zwischen Null und Eins.
quelle