Es fällt mir immer schwer, dem Publikum statistische Techniken ohne statistischen Hintergrund zu erklären. Wenn ich erklären wollte, was GLM für ein solches Publikum ist (ohne statistische Fachsprache auszusprechen), welcher Weg wäre der beste oder effektivste?
Ich erkläre GLM normalerweise mit drei Teilen - (1) der Zufallskomponente, die eine Antwortvariable ist, (2) der systematischen Komponente, die lineare Prädiktoren sind, und (3) der Verknüpfungsfunktion, die der "Schlüssel" zum Verbinden von (1) und ist (2). Dann würde ich ein Beispiel für eine lineare oder logistische Regression geben und erklären, wie die Verknüpfungsfunktion basierend auf der Antwortvariablen ausgewählt wird. Daher fungiert es als Schlüssel, der zwei Komponenten verbindet.
Antworten:
Wenn das Publikum wirklich keinen statistischen Hintergrund hat, würde ich versuchen, die Erklärung ein Stück weiter zu vereinfachen. Zuerst würde ich eine Koordinatenebene auf die Tafel zeichnen, auf der sich eine Linie befindet:
Jeder in Ihrem Vortrag kennt die Gleichung für eine einfache Linie, y = m x ,, da dies in der Grundschule gelernt wird. Also würde ich das neben der Zeichnung anzeigen. Ich würde es jedoch rückwärts schreiben: y=mx+b
Ich würde sagen, dass diese Gleichung ein Beispiel für eine einfache lineare Regression ist. Ich würde dann erklären, wie Sie (oder ein Computer) eine solche Gleichung an ein Streudiagramm von Datenpunkten anpassen können, wie das in diesem Bild gezeigte:
Ich würde sagen, dass wir hier das Alter des Organismus verwenden, den wir untersuchen, um vorherzusagen, wie groß er ist, und dass die resultierende lineare Regressionsgleichung, die wir erhalten (auf dem Bild gezeigt), verwendet werden kann, um vorherzusagen, wie groß ein Organismus ist ist, wenn wir sein Alter kennen.
Dann würde ich noch einmal erklären, dass dies ein Beispiel für eine einfache lineare Regressionsgleichung war und dass es tatsächlich kompliziertere Varianten gibt. In einer als logistische Regression bezeichneten Variante dürfen die y-Werte beispielsweise nur 1-Werte oder 0-Werte sein. Möglicherweise möchten Sie diese Art von Modell verwenden, wenn Sie versuchen, eine "Ja" - oder "Nein" -Antwort vorherzusagen, z. B. ob jemand eine Krankheit hat oder nicht. Eine weitere spezielle Variante ist die sogenannte Poisson-Regression , mit der "Count" - oder "Event" -Daten analysiert werden (ich würde nicht weiter darauf eingehen, es sei denn, dies ist wirklich notwendig).
Ich würde dann erklären, dass die lineare Regression, die logistische Regression und die Poisson-Regression in Wirklichkeit allesamt spezielle Beispiele für eine allgemeinere Methode sind, die als "verallgemeinertes lineares Modell" bezeichnet wird. Das Tolle an "verallgemeinerten linearen Modellen" ist, dass sie es uns ermöglichen, "Antwort" -Daten zu verwenden, die einen beliebigen Wert annehmen können (z. B. wie groß ein Organismus in linearer Regression ist), nur Einsen oder Nullen (z. B. ob jemand eine hat oder nicht) Krankheit in der logistischen Regression) oder diskreten Zählungen (wie Anzahl der Ereignisse in der Poisson-Regression).
Ich würde dann sagen, dass in diesen Arten von Gleichungen die x (Prädiktoren) mit den y (Antworten) über etwas verbunden sind, das Statistiker eine "Verknüpfungsfunktion" nennen. Wir verwenden diese "Verknüpfungsfunktionen" in den Fällen, in denen die x nicht linear mit den y verknüpft sind.
Wie auch immer, das sind meine zwei Cent in der Sache! Vielleicht klingt meine vorgeschlagene Erklärung etwas hokey und dumm, aber wenn der Zweck dieser Übung nur darin besteht, dem Publikum das Wesentliche zu vermitteln, ist eine Erklärung wie diese vielleicht nicht so schlecht. Ich denke, es ist wichtig, dass das Konzept auf intuitive Weise erklärt wird und dass Sie vermeiden, Wörter wie "zufällige Komponente", "systematische Komponente", "Verknüpfungsfunktion", "deterministische", "Logit-Funktion" usw. herumzuwerfen. Wenn sie mit Leuten sprechen, die wirklich keinen statistischen Hintergrund haben, wie ein typischer Biologe oder Arzt, werden ihre Augen nur glasig, wenn sie diese Worte hören. Sie wissen nicht, was eine Wahrscheinlichkeitsverteilung ist, sie haben noch nie von einer Link-Funktion gehört und sie wissen nicht, was ein "Logit" ist.
Bei Ihrer Erklärung für ein nichtstatistisches Publikum würde ich mich auch darauf konzentrieren, wann welche Modellvielfalt zu verwenden ist. Ich könnte darüber sprechen, wie viele Prädiktoren Sie auf der linken Seite der Gleichung einschließen dürfen (ich habe Faustregeln gehört, wie nicht mehr als Ihre Stichprobengröße geteilt durch zehn). Es wäre auch schön, eine Beispieltabelle mit Daten einzuschließen und dem Publikum zu erklären, wie ein statistisches Softwarepaket zum Generieren eines Modells verwendet wird. Ich würde dann Schritt für Schritt die Ausgabe dieses Modells durchgehen und versuchen zu erklären, was all die verschiedenen Buchstaben und Zahlen bedeuten. Biologen haben keine Ahnung von diesem Zeug und sind mehr daran interessiert zu lernen, welchen Test sie verwenden sollen, als tatsächlich ein Verständnis für die Mathematik hinter der GUI von SPSS zu erlangen!
Ich würde mich über Kommentare oder Vorschläge zu meiner vorgeschlagenen Erklärung freuen, insbesondere, wenn jemand Fehler bemerkt oder sich eine bessere Möglichkeit überlegt, dies zu erklären!
quelle
Ich würde die Antwort nicht als zufällige Komponente bezeichnen. Es ist eine Kombination aus einer deterministischen und einer zufälligen Komponente.
quelle
Ich würde es so erklären, dass ich manchmal Dinge voraussagen muss. Zum Beispiel gab der Preis eines Hauses einige Informationen darüber. Sagen wir, seine Größe, Lage, wie alt die Konstruktion ist, etc. Ich möchte das in ein Modell einbeziehen, das den Einfluss dieser Faktoren berücksichtigt, um den Preis vorherzusagen.
Angenommen, ich betrachte nur die Größe des Hauses. Das würde bedeuten, dass nichts anderes den Preis beeinflusst. Es könnte ein Fall sein, in dem ich Häuser vergleiche, die sich in der gleichen Gegend befinden, zur gleichen Zeit gebaut wurden usw. Oder ich möchte die Dinge nicht für mich selbst komplizieren und möchte daher, dass sich das wirkliche Leben an die Art und Weise anpasst Soweit ich denken kann. Weiter mache ich ein Modell, in dem ich eine Liste mit Größen und entsprechenden Preisen für ähnliche Immobilien habe (z. B. aus Verkäufen, die in letzter Zeit stattgefunden haben ... aber die schwerwiegende Verzerrungen von Häusern aufweisen, die nicht zum Verkauf stehen und daher den Preis beeinflussen von Häusern, die sind, aber lassen Sie uns das ignorieren).
Jetzt sehe ich, dass ein 100-Quadratfuß-Haus 1 Million US-Dollar kostet. Natürlich würde man erwarten, dass ein 200 Quadratmeter großes Haus das Doppelte kostet. Und das ist, was wir ein "lineares Muster" nennen würden. Wenn wir die Daten und die Grundstücksgröße im Vergleich zum Preis erfassen, stellen wir natürlich fest, dass sie nicht genau doppelt so hoch sind. Aber es gibt definitiv einen zunehmenden Trend.
Also versuche ich den Trend zu quantifizieren. Wie viel Zuwachs für jeden zugenommenen Quadratfuß? Das ist lineare Regression.
INSERT-Terminologie zuordnen und mit statistischen Konzepten fortfahren. Eine Möglichkeit, zufällige und systematische Komponenten zu erklären, besteht darin, dass alles, was Sie vergessen haben zu modellieren oder möglicherweise nicht beurteilen können, zufällig ist. Was immer Sie könnten, ist systematisch. (Angenommen, es ist 2008 und Sie möchten ein Haus verkaufen.)
Annahmen, die diesem Modell zugrunde liegen, sind, dass das Streudiagramm wie ein Stab aussehen sollte. Was ist, dass sowohl X als auch Y "normal" sind. und alle haben ähnliche Varianz.
Ist dies nicht der Fall, geben Sie GLM ein. und nun erkläre die Link-Funktion in all dem.
Es ist vereinfacht, sollte aber als Einführung dienen.
Sie können die Geschichte der GLMs und Fakultätsmodelle eingeben. Wo Fisher anfing, Dinge gemeinsam zu variieren, und dieses Framework für diese Art von Komplexität geeignet war.
Hoffe das hilft...
quelle