Beschreibung oder Visualisierung eines multiplen linearen Regressionsmodells

21

Ich versuche, meinen Daten ein Modell mit mehreren linearen Regressionen mit einigen Eingabeparametern anzupassen, z. B. 3.

(i)F(x)=Ax1+Bx2+Cx3+dor(ii)F(x)=(A B C)T(x1 x2 x3)+d

Wie erkläre und visualisiere ich dieses Modell? Ich könnte mir folgende Möglichkeiten vorstellen:

  1. Erwähnen Sie die unter beschriebene Regressionsgleichung (Koeffizienten, Konstante) zusammen mit der Standardabweichung und anschließend eine Restfehlerdarstellung, um die Genauigkeit dieses Modells zu zeigen. (i)

  2. Paarweise Darstellungen von unabhängigen und abhängigen Variablen, wie folgt:

    Bildbeschreibung hier eingeben

  3. Sobald die Koeffizienten bekannt sind, können die Datenpunkte, die zum Erhalten der Gleichung werden, auf ihre realen Werte verdichtet werden. Das heißt, die Trainingsdaten haben neue Werte in der Form anstelle von , , , wobei jede der unabhängigen Variablen mit ihrem jeweiligen Koeffizienten multipliziert wird. Diese vereinfachte Version kann dann visuell als einfache Regression dargestellt werden:x x 1 x 2 x 3(i)xx1x2x3

    Bildbeschreibung hier eingeben

Ich bin diesbezüglich verwirrt, obwohl ich entsprechendes Material zu diesem Thema durchgesehen habe. Kann mir bitte jemand erklären, wie man ein multiples lineares Regressionsmodell "erklärt" und wie man es visuell zeigt?

kris
quelle
2
Was ist der Zweck Ihres Dokuments und wer sind die Zielgruppen? Ich beginne mit ähnlichen Artikeln und suche nach Beispielen dafür, wie sie in Ihrem eigenen Bereich gemacht werden. Ich kenne mich eher mit biomedizinischer Literatur aus und benutze meistens nur einen Tisch. Illustrationen sind häufiger zu sehen, wenn die Autoren versuchen, eine Interaktion zu erklären.
Penguin_Knight
@Penguin_Knight, dies ist im Bereich der Informatik, aber ich denke, dies ist eher ein generischer als ein auf einen bestimmten Bereich beschränkter Bereich. Bitte korrigieren Sie mich, falls ich falsch liege.
kris
Hmm ... obwohl Frage. Ich würde sagen, der einzige allgemeine Teil ist für mich, nicht mehr zu zeigen, als Sie sollten, und sicherzustellen, dass die hervorzuhebenden Komponenten wirklich hervorgehoben werden. Selbst in meinem Bereich habe ich alle drei Optionen gesehen. 1) Am häufigsten werden die Ergebnisse tabellarisch dargestellt, gefolgt von 3), hauptsächlich jedoch von der Art der Darstellung des prognostizierten Ergebnisses, und dann 2). Aber für 2) würde ich verwenden, was @gregory_britten vorschlug: Verwenden Sie angepasstes X anstelle jedes einzelnen X.
Penguin_Knight
Verteilungsdiagramm verwenden ... Sehen Sie sich die Verteilung der angepassten Werte an, die sich aus dem Modell ergeben, und vergleichen Sie sie mit der Verteilung der tatsächlichen Werte.
Owais Qureshi
Ich weiß, dass dies von vor Jahren ist, aber wenn Sie hier noch einmal vorbeischauen, können Sie die Daten posten? Dann müssten die Leute mit etwas arbeiten, um verschiedene Möglichkeiten aufzuzeigen.
gung - Wiedereinsetzung von Monica

Antworten:

21

XΔY./Δsd(X). Auf diese Weise wird der Abstand der Koeffizienten von Null zu ihrer relativen "Wichtigkeit" und ihr CI zu ihrer Genauigkeit. Ich denke, es fasst die Beziehungen ziemlich gut zusammen und bietet viel mehr Informationen als die Koeffizienten und p-Werte auf ihren natürlichen und oft unterschiedlichen numerischen Skalen. Ein Beispiel ist unten:

Bildbeschreibung hier eingeben

Y.XichY.X1+X2+X3XichY.avPlots()carlm

Bildbeschreibung hier eingeben

gregory_britten
quelle
Vielen Dank an @gregory_britten für diese Information. Das Problem, das ich zur Hand habe, hat 8 unabhängige Variablen. Denken Sie, dass die 'Plots mit hinzugefügten Variablen' für eine große Anzahl von Eingabevariablen sinnvoll wären?
kris
In Übereinstimmung mit der Idee des ersten Diagramms schlage ich bei der Arbeit in R vor, das RMS-Paket zu betrachten, das dies alles vereinfacht. Das Schöne ist, dass man nach sinnvollen Schrittänderungen in der Kovarianz fragen kann, wodurch die Notwendigkeit einer Standardisierung vermieden wird.
Thomas Speidel
@suzanne Ja auf jeden Fall. Das hinzugefügte Variablendiagramm bietet Ihnen zweidimensionale Perspektiven für eine beliebige Anzahl von Variablen. Es kann in höheren Dimensionen besonders aufschlussreich sein. Man findet oft aufschlussreiche Muster in den Residuen, die im beobachteten Y
gar
Ich verstehe die X1 | X2 & X3-Notation in diesem Zusammenhang nicht ganz. Ich weiß, wie sie in Bezug auf Wahrscheinlichkeiten verwendet wird, aber ich kann nicht ganz verstehen, was sie hier sagt
Casebash,
1
@Casebash Es ist die partielle Regression auf X1, da X2 und X3 im Modell
gregory_britten am
1

Haben Sie versucht, ein Blasen- / Kreisdiagramm zu erstellen und die verschiedenen Regressoren und den Kreisradius farblich zu kennzeichnen, um die relative Auswirkung auf die Zirrhose anzuzeigen, da dies alle mit der Erklärung der Ursachen für die Zirrhose zu tun haben?

Ich beziehe mich hier auf einen Google-Diagrammtyp, der so aussieht:Bildbeschreibung hier eingeben

Und wenn ich Ihre Handlungen nicht falsch lese, haben Sie sicher einige überflüssige Regressoren. Wein ist bereits eine Spirituose. Wenn die beiden also getrennte Regressoren sind, ist es nicht sinnvoll, beide zu behalten, wenn Ihr Ziel darin besteht, das Auftreten von Zirrhose zu erklären.

Rosinante
quelle