Erläuterungen zum Lesen eines Nomogramms

10

Es folgt ein Nomogramm, das aus einem mtcars-Datensatz mit dem Effektivwertpaket für die Formel erstellt wurde:

mpg ~ wt + am + qsec

Geben Sie hier die Bildbeschreibung ein

Das Modell selbst scheint mit R2 von 0,85 und P <0,00001 gut zu sein

> mod

Linear Regression Model

ols(formula = mpg ~ wt + am + qsec, data = mtcars)

                Model Likelihood     Discrimination    
                   Ratio Test           Indexes        
Obs       32    LR chi2     60.64    R2       0.850    
sigma 2.4588    d.f.            3    R2 adj   0.834    
d.f.      28    Pr(> chi2) 0.0000    g        6.456    

Residuals

    Min      1Q  Median      3Q     Max 
-3.4811 -1.5555 -0.7257  1.4110  4.6610 

          Coef    S.E.   t     Pr(>|t|)
Intercept  9.6178 6.9596  1.38 0.1779  
wt        -3.9165 0.7112 -5.51 <0.0001 
am         2.9358 1.4109  2.08 0.0467  
qsec       1.2259 0.2887  4.25 0.0002  

Mir ist nicht klar, was diese "Punkte", "Gesamtpunkte" und "linearen Prädiktor" sind. Welche davon repräsentiert mpg, die Ergebnisvariable? Ich werde jede Erklärung schätzen.

Bearbeiten: In Anbetracht der hervorragenden Vorschläge von @Glen_b zum einfachen Lesen von Punkten usw. könnte Folgendes ein alternatives Nomogramm sein:

Geben Sie hier die Bildbeschreibung ein

Da Ergebnis- oder Antwortvariable verfügbar ist, kann sie anstelle des Begriffs "linearer Prädiktor" verwendet werden. Es wird auch selbsterklärend, wie das Nomogramm gelesen werden muss.

rnso
quelle
schönes Diagramm in dort bearbeiten
Glen_b -Reinstate Monica

Antworten:

11

Nun, da Ihr Modell linear ist und die erwartete mpg gleich dem linearen Prädiktor ist, können Sie mpg direkt von der linearen Prädiktorskala lesen.

Für jede Variable finden Sie ihren Wert auf der entsprechenden Skala. Stellen Sie sich zum Beispiel vor, wir wollten eine vorhergesagte mpg für ein Auto finden mit wt=4, am=1, qsec=18:

Geben Sie hier die Bildbeschreibung ein

was eine vorhergesagte mpg von ungefähr 18,94 ergibt. Das Einsetzen in die Gleichung ergibt 18,95, das ist also ziemlich nah. (In der Praxis würden Sie wahrscheinlich nur bis zum nächsten ganzen Punkt arbeiten - und so etwa 2-stellige Genauigkeit - "19 mpg" - herausholen, anstatt 3-4 Zahlen wie hier.)

Einer der Hauptvorteile eines solchen Diagramms besteht für mich darin, dass Sie sofort die relative Auswirkung von Änderungen der verschiedenen Prädiktorvariablen (IV) auf die Antwort (DV) sehen. Selbst wenn Sie das Diagramm für keine Berechnungen benötigen, kann es einen großen Wert darin haben, einfach die relativen Auswirkungen der Variablen anzuzeigen.


Folgefrage aus Kommentaren:

Funktioniert es genauso für nichtlineare oder polynomielle Regressionen?

E(Y)y^=b0+bx1+f(x2)

wo entweder:

f

f

x1

x2f

Geben Sie hier die Bildbeschreibung ein

x2

Geben Sie hier die Bildbeschreibung ein

f(x)x=2.23

Es ist möglich, dass solche Funktionen mehrere Wendepunkte haben, an denen Skalen mehrmals brechen und umdrehen würden - aber die Achsenlinie hat nur zwei Seiten.

Bei punktförmigen Nomogrammen stellt dies keine Schwierigkeit dar, da man zusätzliche Skalenabschnitte ein wenig nach oben oder unten (oder allgemeiner orthogonal zur Richtung der Achse) bewegen kann, bis keine Überlappung mehr auftritt.

(Mehr als ein Wendepunkt kann ein Problem für Nomogramme vom Ausrichtungstyp sein. Eine in Harrells Buch gezeigte Lösung besteht darin, alle Skalen geringfügig von einer Referenzlinie zu versetzen, auf der die Position des Werts tatsächlich genommen wird.)


Y

Beispiele für all diese Situationen finden Sie in Harrells Regressionsmodellierungsstrategien .



Nur ein paar Randnotizen

  1. Ich würde es sehr bevorzugen, zwei Punkteskalen oben und unten im entsprechenden Abschnitt zu sehen. Andernfalls ist es schwierig, genau auszurichten, da Sie erraten müssen, was "vertikal" ist. Etwas wie das:

    Geben Sie hier die Bildbeschreibung ein

    Wie ich in den Kommentaren anmerke, wäre es für den letzten Abschnitt des Diagramms (Gesamtpunkte und linearer Prädiktor) möglicherweise eine bessere Alternative zu einer zweiten Punkteskala, einfach ein Paar hintereinander angeordneter Skalen (Gesamtpunkte auf einer) zu haben Seite, linearer Prädiktor auf der anderen Seite), wie folgt:

    Geben Sie hier die Bildbeschreibung ein

    Daraufhin vermeiden wir die Notwendigkeit zu wissen, was "vertikal" ist.

  2. Mit nur zwei kontinuierlichen Prädiktoren und einem einzigen Binärfaktor können wir ganz einfach ein traditionelleres Alignment-Nomogramm erstellen :

    Geben Sie hier die Bildbeschreibung ein

    In diesem Fall finden Sie einfach die wtund qsec-Werte auf ihren Skalen und verbinden sie mit einer Linie. Wo sie die mpgAchse kreuzen , lesen wir den Wert ab (während die amVariable bestimmt, welche Seite der mpgAchse Sie lesen). In einem einfachen Fall wie diesem sind diese Arten von Nomogrammen schneller und einfacher zu verwenden, können jedoch weniger einfach auf viele Prädiktoren verallgemeinert werden, wo sie unhandlich werden können. Das punktförmige Nomogramm in Ihrer Frage (wie in Regressionsmodellierungsstrategien und im rmsPaket in R implementiert ) kann nahtlos weitere Variablen hinzufügen. Dies kann im Umgang mit Interaktionen von Vorteil sein.

Glen_b - Monica neu starten
quelle
Vielen Dank für eine klare, illustrierte Erklärung. Funktioniert es genauso für nichtlineare oder polynomielle Regressionen?
rnso
1
Ich habe meine Antwort bearbeitet, um auf diese zusätzliche Frage zu antworten.
Glen_b -State Monica
2
Dies ist ein erstaunlicher Beitrag Glen. Ich denke, ich werde nomogramdie plotMethode der Funktion ändern , um Pointsstandardmäßig die zusätzliche Skalierung hinzuzufügen . Toller Vorschlag !!
Frank Harrell
1
@FrankHarrell Nein, da Sie keine Beziehung zwischen Punkten und Gesamtpunkten lesen - sie müssen sich nicht einmal auf derselben Seite befinden. Das Problem besteht darin, "vertikal" zu finden, damit Sie von den Gesamtpunkten zum linearen Prädiktor genau lesen können. Wenn diese beiden Skalen sehr nahe beieinander liegen oder sich berühren, anstatt etwa zwei Zoll voneinander entfernt zu sein, ist dies kein Problem. Wenn sie nur wenige Zentimeter voneinander entfernt sind, können einige Fehlergrade beim Finden der Vertikalen einiges an Fehlern im Ergebnis bedeuten. Im ersten Abschnitt benötigen Sie jedoch noch zwei Punkteskalen, da Sie viele Prädiktoren haben können und diese nicht alle neben der Punkteskala liegen können.
Glen_b -Reinstate Monica
1
@FrankHarrell Persönlich denke ich, dass ein Raster die Anzeige überfüllt und dazu neigt, ihren Wert zu verschleiern. Ich vermeide Gitter, wenn ich kann. Sie erlauben auch nicht das gleiche Maß an Präzision beim Vertikalen, es sei denn, das Raster ist so fein wie die Skala (was ich visuell für schrecklich halte). Ohne eine Option würde ich am Ende in einer zweiten Punkteskala bearbeiten (genau wie ich es hier getan habe), um es in einen für die beiden Zwecke als brauchbar erachteten Zustand zu bringen, den ich als nutzbar erachte (i. einigermaßen genaue Schätzung der vorhergesagten Werte, ohne die Klarheit der relativen Beiträge zu verschleiern) auf die Antwort) ..
Glen_b -State Monica