Bedeutung der y-Achse im Random Forest Partial Dependence Plot

11

Ich verwende das RandomForestR-Paket und bin verwirrt darüber, wie die Werte der Y-Achse in ihren partiellen Abhängigkeitsdiagrammen zu interpretieren sind. In den Hilfedokumenten heißt es, dass das Diagramm eine "grafische Darstellung des Randeffekts einer Variablen auf die Klassenwahrscheinlichkeit" ist. Ich bin jedoch immer noch verwirrt darüber, was genau die y-Achse darstellt.

  • Was bedeuten insbesondere die negativen Werte?
  • Was bedeutet es, einen negativen Einfluss auf die genaue Vorhersage der Klasse zu haben?
  • Und was ist das wichtigste Merkmal dieser Zahlen, ist es der Maximalwert, die Form des Trends usw.?
  • Können Sie die Teildiagramme mit Teildiagrammen anderer Variablen vergleichen?
  • Wie können diese Diagramme mit Antwortkurven verglichen werden, die in Maxent (einer Verteilungsmodellierungssoftware) erstellt wurden?

Einige Beispiele für partielle Abhängigkeitsdiagramme

jacobsap
quelle

Antworten:

7

Beantworten Sie diese beiden zuerst:

Was bedeuten insbesondere die negativen Werte? Was bedeutet es, einen negativen Einfluss auf die genaue Vorhersage der Klasse zu haben?

Wenn Sie sich die Definition der Berechnung des Teilplots in der Random Forest-Paketdokumentation ansehen , heißt es, dass die Plots den relativen Logit-Beitrag der Variablen zur Klassenwahrscheinlichkeit aus Sicht des Modells zeigen. Mit anderen Worten bedeuten negative Werte (auf der y-Achse), dass die positive Klasse für diesen Wert der unabhängigen Variablen (x-Achse) gemäß dem Modell weniger wahrscheinlich ist. Ähnlich positive Werte bedeuten, dass die positive Klasse für diesen Wert der unabhängigen Variablen gemäß dem Modell wahrscheinlicher ist. Offensichtlich impliziert Null keinen durchschnittlichen Einfluss auf die Klassenwahrscheinlichkeit gemäß dem Modell.

Und was ist das wichtigste Merkmal dieser Zahlen, ist es der Maximalwert, die Form des Trends usw.?

Es gibt viele verschiedene Ansätze, um die Wichtigkeit von Merkmalen zu bestimmen, und der maximale Absolutwert ist nur eine einfache Maßnahme. In der Regel sehen sich die Benutzer die Form der Teildiagramme an, um zu verstehen, was das Modell über die Beziehung zwischen Variablen und Klassenbezeichnungen vorschlägt.

Können Sie die Teildiagramme mit Teildiagrammen anderer Variablen vergleichen?

Die Antwort darauf ist weniger schwarz und weiß. Sie können den Bereich der y-Achse für jedes Diagramm genau betrachten. Wenn die teilweise Abhängigkeit von einer Variablen für den gesamten Bereich der Variablen nahe Null liegt, bedeutet dies, dass das Modell keine Beziehung zwischen der Variablen und der Klassenbezeichnung hat. Zurück zu Ihrer Frage: Je größer der Bereich, desto stärker ist der Einfluss insgesamt, sodass sie in diesem Sinne verglichen werden können.

Ich habe keine Erfahrung mit Maxent.

Chris A.
quelle
Angenommen, das Modell ist für die Klassifizierung in zwei Klassen vorgesehen. Wie kann ermittelt werden, welche Klasse eine positive und welche eine negative Klasse ist?
Kumar Vaibhav
Das ist eine gute Frage, Sie müssen experimentieren und sehen. In der Dokumentation auf Seite 17 heißt es , wenn yes sich um einen Faktor handelt, wird davon ausgegangen, dass es sich um ein Klassifizierungsproblem handelt. Es wird jedoch nicht angegeben, welcher Faktor der positiven oder negativen Klasse zugeordnet wird. Ich würde hoffen, dass 1 oder true der positiven Klasse und 0, -1 oder false der negativen Klasse zugeordnet werden, aber ich würde das in R.
Chris A.
Es gibt ein which.classArgument in partialPlotund es wird standardmäßig die erste Faktorstufe verwendet y. Wenn also die erste Ebene yder negative Fall ist, partialPlotwerden die negativen Fälle vorhergesagt, was möglicherweise nicht das ist, was man erwartet.
Qoheleth