Wie würden Sie verallgemeinerten linearen Modellen Menschen ohne statistischen Hintergrund erklären?

16

Es fällt mir immer schwer, dem Publikum statistische Techniken ohne statistischen Hintergrund zu erklären. Wenn ich erklären wollte, was GLM für ein solches Publikum ist (ohne statistische Fachsprache auszusprechen), welcher Weg wäre der beste oder effektivste?

Ich erkläre GLM normalerweise mit drei Teilen - (1) der Zufallskomponente, die eine Antwortvariable ist, (2) der systematischen Komponente, die lineare Prädiktoren sind, und (3) der Verknüpfungsfunktion, die der "Schlüssel" zum Verbinden von (1) und ist (2). Dann würde ich ein Beispiel für eine lineare oder logistische Regression geben und erklären, wie die Verknüpfungsfunktion basierend auf der Antwortvariablen ausgewählt wird. Daher fungiert es als Schlüssel, der zwei Komponenten verbindet.

Ken
quelle
Was für einen Hintergrund hat das Publikum? GLM einem Mathematiker oder einem Biologen zu erklären, ist ganz anders.
1
Es wird nur wenige Mathematiker ohne statistischen Hintergrund geben, @Procrastinator. Ihr Punkt ist jedoch gut: Wenn Sie eine klarere Vorstellung von der Zielgruppe haben, können Sie die Antworten konsistent und fokussiert halten. Würde es Ihnen etwas ausmachen, die Frage zu bearbeiten, um sie zu erweitern, Ken?
whuber
1
Ich verstehe Ihren Standpunkt, @Procrastinator, aber ich hatte gehofft, eine leicht verständliche Antwort für alle (Mathematiker und / oder Biologen) zu erhalten, denn wenn ich keinen mathematischen oder biologischen Hintergrund habe (was der Fall ist), Ich wüsste sowieso nicht, wie ich ihnen GLM in Bezug auf ihren Hintergrund erklären könnte.
Ken
4
Ich denke, es ist wichtig zu bedenken, dass Sie einen Bachelor-, Master- oder sogar einen Doktortitel in Biologie erhalten können, ohne jemals einen Statistikkurs belegt zu haben, selbst an vielen erstklassigen Universitäten. Mein Abschluss in Biochemie erforderte zwei Semester Einführungsrechnung und ein Semester Differentialgleichungen. Die Substanz dieser Klassen wird schnell vergessen, weil viele Schüler diese Fähigkeiten nie wieder anwenden werden! Daher denke ich wirklich, dass es notwendig ist, die Erklärung für typische Nicht-Statistiker herunterzuspielen.
Alexander
Ein Kommentar, der zu den unten stehenden Antworten hinzugefügt werden soll. Wenn Sie die Anpassung einer Linie (dh der Verknüpfungsfunktion und der linearen Prädiktoren) überbrücken können, ist die Verbindung zu einer effizienten inversen Varianzgewichtung nicht so schwer zu kommunizieren. wir wollen einfach präzise Beiträge hoch- und den Rest runtergewichten. So können Sie vermeiden, etwas zu Technisches über die Zufälligkeit der Ergebnisse zu sagen. NB GLMs wurden als (nur) Modelle entwickelt, mit denen IWLS für die MLE verwendet werden kann. Die oben beschriebene Denkweise zeigt daher, warum sie tatsächlich nützlich sind.
Gast

Antworten:

25

Wenn das Publikum wirklich keinen statistischen Hintergrund hat, würde ich versuchen, die Erklärung ein Stück weiter zu vereinfachen. Zuerst würde ich eine Koordinatenebene auf die Tafel zeichnen, auf der sich eine Linie befindet:

y = mx + b

Jeder in Ihrem Vortrag kennt die Gleichung für eine einfache Linie, y = m x ,, da dies in der Grundschule gelernt wird. Also würde ich das neben der Zeichnung anzeigen. Ich würde es jedoch rückwärts schreiben: y=mx+b

 mx+b=y

Ich würde sagen, dass diese Gleichung ein Beispiel für eine einfache lineare Regression ist. Ich würde dann erklären, wie Sie (oder ein Computer) eine solche Gleichung an ein Streudiagramm von Datenpunkten anpassen können, wie das in diesem Bild gezeigte:

Streudiagramm

Ich würde sagen, dass wir hier das Alter des Organismus verwenden, den wir untersuchen, um vorherzusagen, wie groß er ist, und dass die resultierende lineare Regressionsgleichung, die wir erhalten (auf dem Bild gezeigt), verwendet werden kann, um vorherzusagen, wie groß ein Organismus ist ist, wenn wir sein Alter kennen.

 mx+b=y ys vorhersagen , also nennen wir sie Prädiktoren . Die ys werden allgemein als Antworten bezeichnet .

Dann würde ich noch einmal erklären, dass dies ein Beispiel für eine einfache lineare Regressionsgleichung war und dass es tatsächlich kompliziertere Varianten gibt. In einer als logistische Regression bezeichneten Variante dürfen die y-Werte beispielsweise nur 1-Werte oder 0-Werte sein. Möglicherweise möchten Sie diese Art von Modell verwenden, wenn Sie versuchen, eine "Ja" - oder "Nein" -Antwort vorherzusagen, z. B. ob jemand eine Krankheit hat oder nicht. Eine weitere spezielle Variante ist die sogenannte Poisson-Regression , mit der "Count" - oder "Event" -Daten analysiert werden (ich würde nicht weiter darauf eingehen, es sei denn, dies ist wirklich notwendig).

Ich würde dann erklären, dass die lineare Regression, die logistische Regression und die Poisson-Regression in Wirklichkeit allesamt spezielle Beispiele für eine allgemeinere Methode sind, die als "verallgemeinertes lineares Modell" bezeichnet wird. Das Tolle an "verallgemeinerten linearen Modellen" ist, dass sie es uns ermöglichen, "Antwort" -Daten zu verwenden, die einen beliebigen Wert annehmen können (z. B. wie groß ein Organismus in linearer Regression ist), nur Einsen oder Nullen (z. B. ob jemand eine hat oder nicht) Krankheit in der logistischen Regression) oder diskreten Zählungen (wie Anzahl der Ereignisse in der Poisson-Regression).

Ich würde dann sagen, dass in diesen Arten von Gleichungen die x (Prädiktoren) mit den y (Antworten) über etwas verbunden sind, das Statistiker eine "Verknüpfungsfunktion" nennen. Wir verwenden diese "Verknüpfungsfunktionen" in den Fällen, in denen die x nicht linear mit den y verknüpft sind.

Wie auch immer, das sind meine zwei Cent in der Sache! Vielleicht klingt meine vorgeschlagene Erklärung etwas hokey und dumm, aber wenn der Zweck dieser Übung nur darin besteht, dem Publikum das Wesentliche zu vermitteln, ist eine Erklärung wie diese vielleicht nicht so schlecht. Ich denke, es ist wichtig, dass das Konzept auf intuitive Weise erklärt wird und dass Sie vermeiden, Wörter wie "zufällige Komponente", "systematische Komponente", "Verknüpfungsfunktion", "deterministische", "Logit-Funktion" usw. herumzuwerfen. Wenn sie mit Leuten sprechen, die wirklich keinen statistischen Hintergrund haben, wie ein typischer Biologe oder Arzt, werden ihre Augen nur glasig, wenn sie diese Worte hören. Sie wissen nicht, was eine Wahrscheinlichkeitsverteilung ist, sie haben noch nie von einer Link-Funktion gehört und sie wissen nicht, was ein "Logit" ist.

Bei Ihrer Erklärung für ein nichtstatistisches Publikum würde ich mich auch darauf konzentrieren, wann welche Modellvielfalt zu verwenden ist. Ich könnte darüber sprechen, wie viele Prädiktoren Sie auf der linken Seite der Gleichung einschließen dürfen (ich habe Faustregeln gehört, wie nicht mehr als Ihre Stichprobengröße geteilt durch zehn). Es wäre auch schön, eine Beispieltabelle mit Daten einzuschließen und dem Publikum zu erklären, wie ein statistisches Softwarepaket zum Generieren eines Modells verwendet wird. Ich würde dann Schritt für Schritt die Ausgabe dieses Modells durchgehen und versuchen zu erklären, was all die verschiedenen Buchstaben und Zahlen bedeuten. Biologen haben keine Ahnung von diesem Zeug und sind mehr daran interessiert zu lernen, welchen Test sie verwenden sollen, als tatsächlich ein Verständnis für die Mathematik hinter der GUI von SPSS zu erlangen!

Ich würde mich über Kommentare oder Vorschläge zu meiner vorgeschlagenen Erklärung freuen, insbesondere, wenn jemand Fehler bemerkt oder sich eine bessere Möglichkeit überlegt, dies zu erklären!

Alexander
quelle
4
Nicht jeder kennt die Gleichung für eine Linie; Das sind nicht einmal alle Doktoranden und auch nicht alle Menschen mit einem Doktortitel.
Peter Flom - Reinstate Monica
6
Ich meine, ich bin mir sicher, dass es da draußen auf der Welt einen Doktoranden gibt, der die Gleichung für eine Linie nicht kennt, aber vermutlich hätte ein Publikum, dem Sie verallgemeinerte lineare Modelle erklären möchten, mindestens eine halbe Ahnung von Hoch Algebra auf Schulniveau! : -o
Alexander
Ich stimme dir zu, Alexander, und deine Herangehensweise erscheint mir sehr natürlich. Ich würde mich nicht zu sehr (oder zu früh) auf das "g" des Glms konzentrieren und auch nicht auf die Unterscheidung zwischen zufällig und fest eingehen. Natürlich hängt es von der Zeit ab, die Sie benötigen, um all dies zu erklären.
Dominic Comtois
Y.=αX+βα
9

Ich würde die Antwort nicht als zufällige Komponente bezeichnen. Es ist eine Kombination aus einer deterministischen und einer zufälligen Komponente.

Log(p/(1-p))[0,1]auf eine Variable, die Werte über die gesamte reelle Linie annehmen kann. In diesem Fall macht die Verknüpfungsfunktion die Antwort mit den Prädiktorvariablen kompatibel, und daher ist es möglich, sie zu einer linearen Funktion der Prädiktoren plus einer Zufallskomponente zu machen.

Michael R. Chernick
quelle
3
Ich frage mich über diese Verwendung von "Antwort". Unser Zielpublikum würde wahrscheinlich verstehen, dass dies die beobachtete Reaktion bedeutet: Ja oder Nein, 0 oder 1 usw. In der logistischen Regression modellieren wir etwas Unbeobachtetes (und niemals direkt beobachtbares); nämlich die hypothetische Chance der Antwort. Bei der "Verknüpfung" geht es lediglich darum, diese Chancen eher als logarithmische Chancen als als Wahrscheinlichkeiten auszudrücken. Bei der logistischen Regression wird davon ausgegangen, dass die logarithmischen Quoten linear mit den IVs variieren. (Meine Verwendung von "model", "assume" und "hypothetical" anstelle von "is" und "predict" weist auch auf einen anderen kognitiven und ontologischen Standpunkt hin.)
whuber
1
Guter Punkt.
Michael R. Chernick
-2

Ich würde es so erklären, dass ich manchmal Dinge voraussagen muss. Zum Beispiel gab der Preis eines Hauses einige Informationen darüber. Sagen wir, seine Größe, Lage, wie alt die Konstruktion ist, etc. Ich möchte das in ein Modell einbeziehen, das den Einfluss dieser Faktoren berücksichtigt, um den Preis vorherzusagen.

Angenommen, ich betrachte nur die Größe des Hauses. Das würde bedeuten, dass nichts anderes den Preis beeinflusst. Es könnte ein Fall sein, in dem ich Häuser vergleiche, die sich in der gleichen Gegend befinden, zur gleichen Zeit gebaut wurden usw. Oder ich möchte die Dinge nicht für mich selbst komplizieren und möchte daher, dass sich das wirkliche Leben an die Art und Weise anpasst Soweit ich denken kann. Weiter mache ich ein Modell, in dem ich eine Liste mit Größen und entsprechenden Preisen für ähnliche Immobilien habe (z. B. aus Verkäufen, die in letzter Zeit stattgefunden haben ... aber die schwerwiegende Verzerrungen von Häusern aufweisen, die nicht zum Verkauf stehen und daher den Preis beeinflussen von Häusern, die sind, aber lassen Sie uns das ignorieren).

Jetzt sehe ich, dass ein 100-Quadratfuß-Haus 1 Million US-Dollar kostet. Natürlich würde man erwarten, dass ein 200 Quadratmeter großes Haus das Doppelte kostet. Und das ist, was wir ein "lineares Muster" nennen würden. Wenn wir die Daten und die Grundstücksgröße im Vergleich zum Preis erfassen, stellen wir natürlich fest, dass sie nicht genau doppelt so hoch sind. Aber es gibt definitiv einen zunehmenden Trend.

Also versuche ich den Trend zu quantifizieren. Wie viel Zuwachs für jeden zugenommenen Quadratfuß? Das ist lineare Regression.

INSERT-Terminologie zuordnen und mit statistischen Konzepten fortfahren. Eine Möglichkeit, zufällige und systematische Komponenten zu erklären, besteht darin, dass alles, was Sie vergessen haben zu modellieren oder möglicherweise nicht beurteilen können, zufällig ist. Was immer Sie könnten, ist systematisch. (Angenommen, es ist 2008 und Sie möchten ein Haus verkaufen.)

Annahmen, die diesem Modell zugrunde liegen, sind, dass das Streudiagramm wie ein Stab aussehen sollte. Was ist, dass sowohl X als auch Y "normal" sind. und alle haben ähnliche Varianz.

Ist dies nicht der Fall, geben Sie GLM ein. und nun erkläre die Link-Funktion in all dem.

Es ist vereinfacht, sollte aber als Einführung dienen.

Sie können die Geschichte der GLMs und Fakultätsmodelle eingeben. Wo Fisher anfing, Dinge gemeinsam zu variieren, und dieses Framework für diese Art von Komplexität geeignet war.

Hoffe das hilft...

Naag
quelle
1
Wir danken Ihnen für Ihre Bemühungen, aber Sie müssen Ihr Material erst veröffentlichen, wenn Sie es tatsächlich fertig geschrieben haben. In seiner jetzigen Form wird die Art und Weise, wie es am Ende in spärliche kryptische Noten zerfällt, die Leser enttäuschen.
whuber