Wie führe ich eine Regression für nicht normale Daten durch, die bei der Transformation nicht normal bleiben?

15

Ich habe einige Daten (158 Fälle), die aus einer Likert-Skala für 21 Fragebogenelemente abgeleitet wurden. Ich möchte / muss wirklich eine Regressionsanalyse durchführen, um zu sehen, welche Punkte auf dem Fragebogen die Antwort auf einen Gesamtpunkt vorhersagen (Zufriedenheit). Die Antworten sind nicht normalverteilt (laut KS-Tests) und ich habe sie in jeder erdenklichen Weise transformiert (invers, log, log10, sqrt, squared) und sie weigern sich hartnäckig, normalverteilt zu werden. Die Restkurve sieht überall aus, daher glaube ich, dass es nicht legitim ist, eine lineare Regression durchzuführen und so zu tun, als ob sie sich normal verhält (es ist auch keine Poisson-Verteilung). Ich denke, das liegt daran, dass die Antworten sehr eng gruppiert sind (Mittelwert 3,91, 95% CI 3,88 bis 3,95).

Ich denke also, ich brauche entweder eine neue Methode zur Transformation meiner Daten oder eine Art nicht-parametrischer Regression, aber ich kenne keine, die ich in SPSS tun kann.

rachel s
quelle
1
Betrachten Sie eine Box-Cox-Transformation ( en.wikipedia.org/wiki/… ). Das Hinzufügen des Restplots zu Ihrer Frage kann hilfreich sein.
M. Berk
3
Ja, bitte zeigen Sie uns Ihre Residuen. vielleicht auch ein qq plot.
David Marx
5
Wenn Ihre Werte diskret sind, insbesondere wenn sie an einem Ende gequetscht sind, gibt es möglicherweise keine Transformation, die das Ergebnis annähernd normal erscheinen lässt. Formale Hypothesentests der Normalität beantworten jedoch nicht die richtige Frage und führen dazu, dass Ihre anderen Verfahren davon abhängig gemacht werden, ob Sie die Normalität ablehnen, damit sie nicht mehr ihre nominalen Eigenschaften haben.
Glen_b
1
Eine proportionale Odds-Logistic-Regression wäre wahrscheinlich ein vernünftiger Ansatz für diese Frage, aber ich weiß nicht, ob sie in SPSS verfügbar ist.
Ben Bolker
3
Ich bin nicht davon überzeugt, dass die Regression der richtige Ansatz ist, und nicht aus Gründen der Normalität. Ihre Fragebogenantworten sind möglicherweise nicht einmal von grundlegender Bedeutung. Wenn Sie zum Beispiel einen Jungen fragen, ob er glücklich ist, und Antwort 3 erhalten, während es im letzten Monat 4 waren, bedeutet dies, dass er 25% weniger glücklich ist? Wahrscheinlich nicht. Bevor Sie also überhaupt anfangen, an Normalität zu denken, es ist zu zeigen , geeignete müssen Sie zuerst , ob Sie auch mit Kardinalzahlen und nicht nur Ordnungs tun sind , um herauszufinden , gibt es spezielle Möglichkeiten, mit denkt wie Umfragen zu tun, und Regression ist nicht die Standardeinstellung Sie haben...
Aksakal

Antworten:

31

Sie müssen keine Normalverteilungen annehmen, um eine Regression durchzuführen. Die Regression der kleinsten Quadrate ist der BLAUE Schätzer (Bester linearer Schätzer ohne Verzerrung), unabhängig von den Verteilungen. Siehe Gauß-Markov-Theorem (z. B. Wikipedia) Eine Normalverteilung wird nur verwendet, um zu zeigen, dass der Schätzer auch der Schätzer für die maximale Wahrscheinlichkeit ist. Es ist ein weit verbreitetes Missverständnis, dass OLS normalerweise verteilte Daten annimmt. Es tut nicht. Es ist viel allgemeiner.

Dave31415
quelle
2
Das ist so wahr. Zu viele Menschen ignorieren oft diese Tatsache.
Repmat
stimme mit @Repmat überein. Ich bin mir nicht sicher, ob ich jemals einen Normalitätstest bestanden habe ... aber meine Modelle funktionieren.
HEITZ
5

Versuchen Sie, die Normalität mit einem rationalen Urteil zu beurteilen, anstatt sich auf einen Test für die Normalität der Residuen zu verlassen. Normalitätstests sagen Ihnen nicht, dass Ihre Daten normal sind, nur, dass dies nicht der Fall ist. Da es sich bei den Daten jedoch um Stichproben handelt, können Sie sicher sein, dass sie ohne einen Test nicht normal sind. Die Anforderung ist ungefähr normal. Der Test kann Ihnen das nicht sagen. Tests werden auch bei großen N sehr empfindlich oder schwerwiegender, variieren in der Empfindlichkeit mit N. Ihr N liegt in dem Bereich, in dem die Empfindlichkeit beginnt, hoch zu werden. Wenn Sie die folgende Simulation in R mehrmals ausführen und die Diagramme betrachten, werden Sie feststellen, dass der Normalitätstest bei einer guten Anzahl von Normalverteilungen "nicht normal" lautet.

# set the plot area to show two plots side by side (make the window wide)
par(mfrow = c(1, 2)) 
n <- 158 # use the N we're concerned about

# Run this a few times to get an idea of what data from a 
# normal distribution should look like.
# especially note how variable the histograms look
y <- rnorm(n) # n numbers from normal distribution
# view the distribution
hist(y)
qqnorm(y);qqline(y)

# run this section several times to get an idea what data from a normal
# distribution that fails the normality test looks like
# the following code block generates random normal distributions until one 
# fails a normality test
p <- 1 # set p to a dummy value to start with
while(p >= 0.05) {
    y <- rnorm(n)
    p <- shapiro.test(y)$p.value }
# view the distribution that failed
hist(y)
qqnorm(y);qqline(y)

Hoffentlich können Sie nach Durchlaufen der Simulationen feststellen, dass ein Normalitätstest ziemlich normal aussehende Daten leicht ablehnen kann und dass Daten aus einer Normalverteilung weit vom Normalen abweichen können. Wenn Sie einen extremen Wert von diesem Versuch sehen möchten n <- 1000. Die Verteilungen sehen alle normal aus, bestehen den Test jedoch immer noch mit ungefähr der gleichen Rate wie niedrigere N-Werte. Und umgekehrt kann der Test mit einer niedrigen N-Verteilung, die den Test besteht, weit vom Normalen abweichen.

Das Standard-Residuendiagramm in SPSS ist für die Beurteilung der Normalität nicht besonders nützlich. Sie können Ausreißer, die Reichweite, die Passgenauigkeit und vielleicht sogar die Hebelwirkung sehen. Aber es ist schwierig, daraus Normalität abzuleiten. Probieren Sie die folgende Simulation aus, um Histogramme, Quantil-Quantil-Normal-Diagramme und Residuendiagramme zu vergleichen.

par(mfrow = c(1, 3)) # making 3 graphs in a row now

y <- rnorm(n)
hist(y)
qqnorm(y); qqline(y)
plot(y); abline(h = 0)

Es ist außerordentlich schwierig, die Normalität oder vieles davon von der letzten Handlung zu unterscheiden, und daher keine schreckliche Diagnose der Normalität.

Zusammenfassend wird allgemein empfohlen, sich nicht auf Normalitätstests zu stützen, sondern auf diagnostische Diagramme der Residuen. Ohne diese Diagramme oder die tatsächlichen Werte in Ihrer Frage ist es sehr schwierig, Ihnen fundierte Ratschläge zu geben, was Ihre Daten in Bezug auf Analyse oder Transformation benötigen. Geben Sie die Rohdaten ein, um die bestmögliche Hilfe zu erhalten.

John
quelle
Hallo. Danke an alle für die Vorschläge. Am Ende habe ich mir die vorgeschlagenen Residuen angesehen und die obige Syntax mit meinen Variablen verwendet. Meine Daten waren nicht so katastrophal, wie ich gedacht hatte. Deshalb habe ich meine parametrischen linearen Regressionen mit viel mehr Selbstvertrauen und gutem Gewissen verwendet! Danke noch einmal.
Rachel S
4

Erstens macht die OLS-Regression keine Annahmen über die Daten, sondern macht Annahmen über die Fehler, die durch Residuen geschätzt werden.

Zweitens ist die Transformation von Daten zur Anpassung an ein Modell meiner Meinung nach der falsche Ansatz. Sie möchten, dass Ihr Modell zu Ihrem Problem passt und nicht umgekehrt. Früher war die OLS-Regression wegen langsamer Computer "das einzige Spiel in der Stadt", aber das stimmt nicht mehr.

Drittens verwende ich kein SPSS, daher kann ich dort nicht helfen, aber ich wäre erstaunt, wenn es nicht einige Formen nichtlinearer Regression bieten würde. Einige Möglichkeiten sind Quantilregression, Regressionsbäume und robuste Regression.

Viertens mache ich mir ein bisschen Sorgen um Ihre Aussage:

Ich möchte / muss wirklich eine Regressionsanalyse durchführen, um zu sehen, welche Punkte auf dem Fragebogen die Antwort auf einen Gesamtpunkt vorhersagen (Zufriedenheit)

Wenn die Elemente summiert oder auf irgendeine Weise kombiniert wurden, um die Gesamtskala zu bilden, ist Regression überhaupt nicht der richtige Ansatz. Sie möchten wahrscheinlich eine Faktorenanalyse.

Peter Flom - Wiedereinsetzung von Monica
quelle
Sie haben vorgeschlagen, dass er möglicherweise eine Faktoranalyse wünscht, aber ist die Faktoranalyse nicht auch betroffen, wenn die Daten nicht normal verteilt sind?
rationalisieren
Sie können eine Faktorenanalyse für Daten durchführen, die nicht einmal kontinuierlich sind. Aber das ist eine separate Diskussion - und sie wurde hier diskutiert.
Peter Flom - Wiedereinsetzung von Monica
1
Hallo Peter, ich schätze dein Fachwissen und schätze deinen Rat sehr. Vielen Dank, dass Sie sich die Zeit genommen haben, uns zu antworten. Zur Klarstellung, ich weiß, dass man FA für nicht normalverteilte Gegenstände machen kann (ebenso wie für die Diskussion über die Normalität der Residuen). Ich war nur neugierig zu erfahren (von jemandem mit Ihrem Fachwissen), ob das OP nicht in das gleiche Dilemma gerät. Aber ich nehme an, Sie haben bereits geantwortet :)
rationalisieren Sie den
1

Grundsätzlich gibt es zwei mögliche Ansätze für Ihr Problem: Der eine ist theoretisch gut begründet, in der Praxis jedoch möglicherweise nicht umsetzbar, während der andere heuristischer ist.

Der theoretisch optimale Ansatz (den Sie wahrscheinlich leider nicht anwenden können) besteht darin, eine Regression zu berechnen, indem Sie auf die direkte Anwendung der sogenannten Methode der maximalen Wahrscheinlichkeit zurückgreifen. Der Zusammenhang zwischen der Maximum-Likelihood-Schätzung (die eigentlich das vorgelagerte und grundlegendere mathematische Konzept ist) und der gewöhnlichen Regression der kleinsten Quadrate (der übliche Ansatz, gültig für den spezifischen, aber äußerst häufigen Fall, in dem alle Beobachtungsvariablen unabhängig voneinander zufällig und normalverteilt sind ) ist in vielen Lehrbüchern zur Statistik beschrieben; Eine Diskussion, die mir besonders gefällt, ist Abschnitt 7.1 der "Statistical Data Analysis" von Glen Cowan. In Fällen, in denen Ihre Beobachtungsvariablen nicht normal verteilt sind,

Da Sie die zugrunde liegende Verteilung, die Ihre Beobachtungsvariablen bestimmt, anscheinend nicht genau kennen (dh das einzige, was mit Sicherheit bekannt ist, ist, dass es definitiv nicht Gauß ist, sondern nicht das, was es tatsächlich ist), hat sich der obige Ansatz bewährt. ' Ich arbeite nicht für dich. Wenn OLS ausfällt oder ein verrücktes Ergebnis liefert, liegt dies normalerweise an zu vielen Ausreißern. Die Ausreißerpunkte, die tatsächlich die Annahme normalverteilter Beobachtungsvariablen verletzen, tragen viel zu viel Gewicht zur Anpassung bei, da Punkte in OLS mit den Quadraten ihrer Abweichung von der Regressionskurve und für die Ausreißer mit dieser Abweichung gewichtet werden ist groß. In diesem Fall besteht der übliche heuristische Ansatz darin, einige Optimierungen oder Modifikationen an OLS vorzunehmen, die dazu führen, dass der Beitrag der Ausreißerpunkte gegenüber der OLS-Basismethode herabgesetzt oder herabgesetzt wird. Zusammen sind diese in der Regel als bekanntrobuste Regression . Eine Liste mit einigen Beispielen für bestimmte robuste Schätztechniken, die Sie möglicherweise ausprobieren möchten, finden Sie hier .

Stachyra
quelle