Wie interpretiere ich einen Entscheidungsbaum richtig?

7

Ich versuche herauszufinden, ob ich einen online gefundenen Entscheidungsbaum richtig interpretiere.

  • Die abhängige Variable dieses Entscheidungsbaums ist die Bonität, die zwei Klassen hat, schlecht oder gut. Die Wurzel dieses Baums enthält alle 2464 Beobachtungen in diesem Datensatz.

  • Das einflussreichste Attribut zur Bestimmung der Klassifizierung einer guten oder schlechten Bonität ist das Attribut Einkommensstufe.

  • Die Mehrheit der Personen (454 von 553) in unserer Stichprobe, die ein weniger als niedriges Einkommen hatten, hatte ebenfalls eine schlechte Bonität. Wenn ich eine Premium-Kreditkarte ohne Limit einführen möchte, sollte ich diese Personen ignorieren.

  • Wenn ich diesen Entscheidungsbaum für Vorhersagen zur Klassifizierung neuer Beobachtungen verwenden würde, wird dann die größte Anzahl von Klassen in einem Blatt als Vorhersage verwendet? ZB hat Beobachtung x ein mittleres Einkommen, 7 Kreditkarten und ist 34 Jahre alt. Würde die vorhergesagte Klassifizierung für die Bonität = "Gut"

  • Eine weitere neue Beobachtung könnte Beobachtung Y sein, die weniger als ein geringes Einkommen hat, sodass ihre Bonität = "schlecht" ist.

Ist dies die richtige Art, einen Entscheidungsbaum zu interpretieren, oder habe ich das völlig falsch verstanden?

Geben Sie hier die Bildbeschreibung ein

DataD
quelle
1
Willkommen auf der Website. Das ist eine sehr schöne Frage (+1) :)
Dawny33
1
@Data_D Können Sie uns mitteilen, wie Sie die grafische Darstellung des Entscheidungsbaums erstellt haben?

Antworten:

4

Lassen Sie mich jede Ihrer Beobachtungen einzeln bewerten, damit klarer wird:

Die abhängige Variable dieses Entscheidungsbaums ist die Bonität, die zwei Klassen hat, schlecht oder gut. Die Wurzel dieses Baums enthält alle 2464 Beobachtungen in diesem Datensatz.

Wenn Good, Bades das ist, was Sie unter Bonität verstehen, dann Ja . Und Sie haben Recht mit der Schlussfolgerung, dass alle 2464 Beobachtungen in der Wurzel des Baumes enthalten sind.

Das einflussreichste Attribut zur Bestimmung der Klassifizierung einer guten oder schlechten Bonität ist das Attribut Einkommensstufe.

Debattierbar Hängt davon ab, wie Sie etwas als einflussreich betrachten . Einige argumentieren möglicherweise, dass die Anzahl der Karten am einflussreichsten ist, andere stimmen möglicherweise mit Ihrem Standpunkt überein. Sie haben hier also Recht und Unrecht.

Die Mehrheit der Personen (454 von 553) in unserer Stichprobe, die ein weniger als niedriges Einkommen hatten, hatte ebenfalls eine schlechte Bonität. Wenn ich eine Premium-Kreditkarte ohne Limit einführen möchte, sollte ich diese Personen ignorieren.

Ja , aber es wäre auch besser, wenn Sie die Wahrscheinlichkeit berücksichtigen, dass diese Personen einen schlechten Kredit erhalten. Aber selbst das würde sich für diese Klasse als NEIN herausstellen, was Ihre Beobachtung wieder korrekt macht.

Wenn ich diesen Entscheidungsbaum für Vorhersagen zur Klassifizierung neuer Beobachtungen verwenden würde, wird dann die größte Anzahl von Klassen in einem Blatt als Vorhersage verwendet? ZB hat Beobachtung x ein mittleres Einkommen, 7 Kreditkarten und ist 34 Jahre alt. Würde die vorhergesagte Klassifizierung für die Bonität = "Gut"

Kommt auf die Wahrscheinlichkeit an . So berechnen Sie die Wahrscheinlichkeit , aus den Blättern und dann eine Entscheidung treffen, dass abhängig. Oder viel einfacher: Verwenden Sie eine Bibliothek wie den Entscheidungsbaumklassifikator von Sklearn, um dies für Sie zu tun.

Eine weitere neue Beobachtung könnte Beobachtung Y sein, die weniger als ein geringes Einkommen hat, sodass ihre Bonität = "schlecht" ist.

Wieder wie in der obigen Erklärung.

Ist dies die richtige Art, einen Entscheidungsbaum zu interpretieren, oder habe ich das völlig falsch verstanden?

Ja , dies ist eine korrekte Art der Interpretation von Entscheidungsbäumen. Sie könnten versucht sein, bei der Auswahl einflussreicher Variablen zu schwanken, aber das hängt von vielen Faktoren ab, einschließlich der Problemstellung, der Konstruktion des Baums, dem Urteil des Analytikers usw.

Dawny33
quelle
1
Um die Wahrscheinlichkeit der Beobachtung der Bonität von X und Y anhand der Formel zu berechnen, die Sie auf dem von Ihnen angegebenen Link gefunden haben: # (NodeCondition & Attr = Value) / # (NodeCondition) Beobachtung X P (gut) = 272/483 = 0,56 P (schlecht) = 211/483 = 0,44 Beobachtung Y P (gut) = 99/553 = 0,18 P (schlecht) = 454/553 = 0,82 Habe ich das richtig gemacht?
DataD
Entschuldigung, ich kann anscheinend keine Zeilenumbrüche verwenden :(
DataD
@ DataNewb Ja, du bist auf dem richtigen Weg :)
Dawny33
2

Ja, Ihre Interpretation ist korrekt. Jede Ebene in Ihrem Baum ist mit einer der Variablen verknüpft (dies ist bei Entscheidungsbäumen nicht immer der Fall, Sie können sich vorstellen, dass sie allgemeiner sind).

  • X hat ein mittleres Einkommen, also gehen Sie zu Knoten 2 und mehr als 7 Karten, also gehen Sie zu Knoten 5. Jetzt haben Sie einen Blattknoten erreicht. Sie sehen, dass Sie in Ihrem Datensatz 54 Personen wie X hatten, von denen Sie festgestellt haben, dass sie eine schlechte Bewertung haben (ein Mensch hat diese Bewertung vermutlich aufgrund anderer Faktoren vorgenommen. Und Sie hatten 336 Personen wie X, die eine gute Bewertung hatten. Also, basierend auf Nur diese Informationen können Sie sagen, dass X wahrscheinlich eine gute Bewertung hat. Der Entscheidungsbaum hat Ihnen also eine schnelle, wenn auch ungefähre Antwort gegeben.

    • Nebeneffekt: Die 54 gegen 336 hier geben Ihnen ein gewisses Maß an Vertrauen. Zum Beispiel könnten Sie es wie eine Wahrscheinlichkeit behandeln. Du könntest sagenP.(GÖÖd)=336/.(54+336)0,86und auch ein Konfidenzintervall auf verschiedene Arten berechnen.
  • Y hat ein geringes Einkommen, daher können Sie sofort auf den Baum schauen und zu Knoten 1 gehen und sagen, dass er wahrscheinlich eine schlechte Bewertung hat P.(B.eind)=454/.(454+99)0,82.

In Bezug auf den Kommentar zum Attribut "einflussreichste" hängt dies wirklich davon ab, wie der Baum erstellt wird und welche Definition von "einflussreich" Sie verwenden. Sie müssten also die Person / Software / den Algorithmus fragen, die bzw. der den Baum erstellt hat. Es ist sicherlich ein wichtiges Attribut, wie Sie aus der Tabelle selbst sehen können.

Hart
quelle