Interpretation der y-Achse eines partiellen Abhängigkeitsdiagramms

22

Ich habe andere Themen zu partiellen Abhängigkeitsdiagrammen durchgelesen und die meisten davon beziehen sich darauf, wie Sie sie tatsächlich mit verschiedenen Paketen plotten, und nicht darauf, wie Sie sie genau interpretieren können.

Ich habe eine ganze Reihe von partiellen Abhängigkeitsplots gelesen und erstellt. Ich weiß, dass sie die marginale Auswirkung einer Variablen auf die Funktion ƒS (χS) mit der durchschnittlichen Auswirkung aller anderen Variablen (χc) aus meinem Modell messen. Höhere y-Werte bedeuten, dass sie einen größeren Einfluss auf die genaue Vorhersage meiner Klasse haben. Mit dieser qualitativen Interpretation bin ich jedoch nicht zufrieden.

Dieser Link zeigt eine meiner vielen Handlungen.  http://imgur.com/RXqlOky

Mein Modell (Random Forest) sagt zwei diskrete Klassen voraus. "Ja Bäume" und "Nein Bäume". TRI ist eine Variable, die sich als gute Variable dafür erwiesen hat.

Was ich zu denken begann, ist, dass der Y-Wert eine Wahrscheinlichkeit für eine korrekte Klassifizierung anzeigt. Beispiel: y (0,2) zeigt, dass TRI-Werte von> ~ 30 eine 20% ige Chance haben, eine True Positive-Klassifizierung korrekt zu identifizieren.

Wo umgekehrt

y (-0,2) zeigt, dass TRI-Werte von <~ 15 eine 20% ige Chance haben, eine True-Negative-Klassifikation korrekt zu identifizieren.

Allgemeine Interpretationen, die in der Literatur gemacht werden, würden so klingen: "Werte größer als TRI 30 beginnen einen positiven Einfluss auf die Klassifizierung in Ihrem Modell zu haben." Es klingt so vage und sinnlos für eine Handlung, die möglicherweise so viel über Ihre Daten aussagt.

Außerdem werden alle meine Diagramme auf der y-Achse im Bereich von -1 bis 1 begrenzt. Ich habe andere Diagramme mit -10 bis 10 usw. gesehen. Ist dies eine Funktion der Anzahl der Klassen, die Sie vorhersagen möchten?

Ich habe mich gefragt, ob jemand mit diesem Problem sprechen kann. Zeigen Sie mir vielleicht, wie ich diese Handlungen oder Literatur interpretieren sollte, die mir helfen können. Vielleicht lese ich zu weit?

Ich habe die Elemente des statistischen Lernens sehr gründlich gelesen: Data Mining, Inferenz und Vorhersage, und es war ein guter Ausgangspunkt, aber das war es auch schon.

JelenaČuklina
quelle
Die Darstellung zeigt im Durchschnitt die Ja-Baum-Wahrscheinlichkeit bis TRI 30 und steigt danach an. In diesem Link wird die Interpretation der binären PDP-Klassifizierung und der Darstellungen kontinuierlicher Variablen erläutert.
LazyNearestNeigbour

Antworten:

13

Jeder Punkt in der Darstellung der partiellen Abhängigkeit ist der durchschnittliche Prozentsatz der Stimmen zugunsten der "Ja-Bäume" -Klasse für alle Beobachtungen bei einem festgelegten TRI-Niveau.

Es ist keine Wahrscheinlichkeit einer korrekten Klassifizierung. Es hat absolut nichts mit Genauigkeit, echten Negativen und wahren Positiven zu tun.

Wenn Sie den Satz sehen

Werte über TRI 30 wirken sich positiv auf die Klassifizierung in Ihrem Modell aus

ist eine aufgeblasene Redewendung

Werte, die größer als TRI 30 sind, beginnen, "Ja-Bäume" stärker vorherzusagen als Werte, die niedriger als TRI 30 sind

Shadowtalker
quelle
2

Die Funktion der partiellen Abhängigkeit gibt im Grunde genommen den "durchschnittlichen" Trend dieser Variablen an (wobei alle anderen in das Modell integriert werden). Es ist die Form dieses Trends, die "wichtig" ist. Sie können den relativen Bereich dieser Diagramme aus verschiedenen Prädiktorvariablen interpretieren, jedoch nicht den absoluten Bereich. Hoffentlich hilft das.

Thiakx
quelle
2

Eine Möglichkeit, die Werte der y-Achse zu betrachten, besteht darin, dass sie in den anderen Darstellungen relativ zueinander sind. Wenn diese Zahl in absoluten Werten höher ist als in den anderen Darstellungen, bedeutet dies, dass dies wichtiger ist, da die Auswirkung dieser Variablen auf die Ausgabe größer ist.

Wenn Sie sich für die Mathematik interessieren, die Teilabhängigkeitsdiagrammen zugrunde liegt, und wie diese Zahl geschätzt wird, finden Sie sie hier: http://statweb.stanford.edu/~jhf/ftp/RuleFit.pdf Abschnitt 8.1

user3386377
quelle