Ich versuche herauszufinden, ob ich einen online gefundenen Entscheidungsbaum richtig interpretiere.
Die abhängige Variable dieses Entscheidungsbaums ist die Bonität, die zwei Klassen hat, schlecht oder gut. Die Wurzel dieses Baums enthält alle 2464 Beobachtungen in diesem Datensatz.
Das einflussreichste Attribut zur Bestimmung der Klassifizierung einer guten oder schlechten Bonität ist das Attribut Einkommensstufe.
Die Mehrheit der Personen (454 von 553) in unserer Stichprobe, die ein weniger als niedriges Einkommen hatten, hatte ebenfalls eine schlechte Bonität. Wenn ich eine Premium-Kreditkarte ohne Limit einführen möchte, sollte ich diese Personen ignorieren.
Wenn ich diesen Entscheidungsbaum für Vorhersagen zur Klassifizierung neuer Beobachtungen verwenden würde, wird dann die größte Anzahl von Klassen in einem Blatt als Vorhersage verwendet? ZB hat Beobachtung x ein mittleres Einkommen, 7 Kreditkarten und ist 34 Jahre alt. Würde die vorhergesagte Klassifizierung für die Bonität = "Gut"
Eine weitere neue Beobachtung könnte Beobachtung Y sein, die weniger als ein geringes Einkommen hat, sodass ihre Bonität = "schlecht" ist.
Ist dies die richtige Art, einen Entscheidungsbaum zu interpretieren, oder habe ich das völlig falsch verstanden?
Antworten:
Lassen Sie mich jede Ihrer Beobachtungen einzeln bewerten, damit klarer wird:
Wenn
Good, Bad
es das ist, was Sie unter Bonität verstehen, dann Ja . Und Sie haben Recht mit der Schlussfolgerung, dass alle 2464 Beobachtungen in der Wurzel des Baumes enthalten sind.Debattierbar Hängt davon ab, wie Sie etwas als einflussreich betrachten . Einige argumentieren möglicherweise, dass die Anzahl der Karten am einflussreichsten ist, andere stimmen möglicherweise mit Ihrem Standpunkt überein. Sie haben hier also Recht und Unrecht.
Ja , aber es wäre auch besser, wenn Sie die Wahrscheinlichkeit berücksichtigen, dass diese Personen einen schlechten Kredit erhalten. Aber selbst das würde sich für diese Klasse als NEIN herausstellen, was Ihre Beobachtung wieder korrekt macht.
Kommt auf die Wahrscheinlichkeit an . So berechnen Sie die Wahrscheinlichkeit , aus den Blättern und dann eine Entscheidung treffen, dass abhängig. Oder viel einfacher: Verwenden Sie eine Bibliothek wie den Entscheidungsbaumklassifikator von Sklearn, um dies für Sie zu tun.
Wieder wie in der obigen Erklärung.
Ja , dies ist eine korrekte Art der Interpretation von Entscheidungsbäumen. Sie könnten versucht sein, bei der Auswahl einflussreicher Variablen zu schwanken, aber das hängt von vielen Faktoren ab, einschließlich der Problemstellung, der Konstruktion des Baums, dem Urteil des Analytikers usw.
quelle
Ja, Ihre Interpretation ist korrekt. Jede Ebene in Ihrem Baum ist mit einer der Variablen verknüpft (dies ist bei Entscheidungsbäumen nicht immer der Fall, Sie können sich vorstellen, dass sie allgemeiner sind).
X hat ein mittleres Einkommen, also gehen Sie zu Knoten 2 und mehr als 7 Karten, also gehen Sie zu Knoten 5. Jetzt haben Sie einen Blattknoten erreicht. Sie sehen, dass Sie in Ihrem Datensatz 54 Personen wie X hatten, von denen Sie festgestellt haben, dass sie eine schlechte Bewertung haben (ein Mensch hat diese Bewertung vermutlich aufgrund anderer Faktoren vorgenommen. Und Sie hatten 336 Personen wie X, die eine gute Bewertung hatten. Also, basierend auf Nur diese Informationen können Sie sagen, dass X wahrscheinlich eine gute Bewertung hat. Der Entscheidungsbaum hat Ihnen also eine schnelle, wenn auch ungefähre Antwort gegeben.
Y hat ein geringes Einkommen, daher können Sie sofort auf den Baum schauen und zu Knoten 1 gehen und sagen, dass er wahrscheinlich eine schlechte Bewertung hatP.( B a d) = 454 / ( 454 + 99 ) ≤ 0,82 .
In Bezug auf den Kommentar zum Attribut "einflussreichste" hängt dies wirklich davon ab, wie der Baum erstellt wird und welche Definition von "einflussreich" Sie verwenden. Sie müssten also die Person / Software / den Algorithmus fragen, die bzw. der den Baum erstellt hat. Es ist sicherlich ein wichtiges Attribut, wie Sie aus der Tabelle selbst sehen können.
quelle