Ich habe einige Daten (158 Fälle), die aus einer Likert-Skala für 21 Fragebogenelemente abgeleitet wurden. Ich möchte / muss wirklich eine Regressionsanalyse durchführen, um zu sehen, welche Punkte auf dem Fragebogen die Antwort auf einen Gesamtpunkt vorhersagen (Zufriedenheit). Die Antworten sind nicht normalverteilt (laut KS-Tests) und ich habe sie in jeder erdenklichen Weise transformiert (invers, log, log10, sqrt, squared) und sie weigern sich hartnäckig, normalverteilt zu werden. Die Restkurve sieht überall aus, daher glaube ich, dass es nicht legitim ist, eine lineare Regression durchzuführen und so zu tun, als ob sie sich normal verhält (es ist auch keine Poisson-Verteilung). Ich denke, das liegt daran, dass die Antworten sehr eng gruppiert sind (Mittelwert 3,91, 95% CI 3,88 bis 3,95).
Ich denke also, ich brauche entweder eine neue Methode zur Transformation meiner Daten oder eine Art nicht-parametrischer Regression, aber ich kenne keine, die ich in SPSS tun kann.
quelle
Antworten:
Sie müssen keine Normalverteilungen annehmen, um eine Regression durchzuführen. Die Regression der kleinsten Quadrate ist der BLAUE Schätzer (Bester linearer Schätzer ohne Verzerrung), unabhängig von den Verteilungen. Siehe Gauß-Markov-Theorem (z. B. Wikipedia) Eine Normalverteilung wird nur verwendet, um zu zeigen, dass der Schätzer auch der Schätzer für die maximale Wahrscheinlichkeit ist. Es ist ein weit verbreitetes Missverständnis, dass OLS normalerweise verteilte Daten annimmt. Es tut nicht. Es ist viel allgemeiner.
quelle
Versuchen Sie, die Normalität mit einem rationalen Urteil zu beurteilen, anstatt sich auf einen Test für die Normalität der Residuen zu verlassen. Normalitätstests sagen Ihnen nicht, dass Ihre Daten normal sind, nur, dass dies nicht der Fall ist. Da es sich bei den Daten jedoch um Stichproben handelt, können Sie sicher sein, dass sie ohne einen Test nicht normal sind. Die Anforderung ist ungefähr normal. Der Test kann Ihnen das nicht sagen. Tests werden auch bei großen N sehr empfindlich oder schwerwiegender, variieren in der Empfindlichkeit mit N. Ihr N liegt in dem Bereich, in dem die Empfindlichkeit beginnt, hoch zu werden. Wenn Sie die folgende Simulation in R mehrmals ausführen und die Diagramme betrachten, werden Sie feststellen, dass der Normalitätstest bei einer guten Anzahl von Normalverteilungen "nicht normal" lautet.
Hoffentlich können Sie nach Durchlaufen der Simulationen feststellen, dass ein Normalitätstest ziemlich normal aussehende Daten leicht ablehnen kann und dass Daten aus einer Normalverteilung weit vom Normalen abweichen können. Wenn Sie einen extremen Wert von diesem Versuch sehen möchten
n <- 1000
. Die Verteilungen sehen alle normal aus, bestehen den Test jedoch immer noch mit ungefähr der gleichen Rate wie niedrigere N-Werte. Und umgekehrt kann der Test mit einer niedrigen N-Verteilung, die den Test besteht, weit vom Normalen abweichen.Das Standard-Residuendiagramm in SPSS ist für die Beurteilung der Normalität nicht besonders nützlich. Sie können Ausreißer, die Reichweite, die Passgenauigkeit und vielleicht sogar die Hebelwirkung sehen. Aber es ist schwierig, daraus Normalität abzuleiten. Probieren Sie die folgende Simulation aus, um Histogramme, Quantil-Quantil-Normal-Diagramme und Residuendiagramme zu vergleichen.
Es ist außerordentlich schwierig, die Normalität oder vieles davon von der letzten Handlung zu unterscheiden, und daher keine schreckliche Diagnose der Normalität.
Zusammenfassend wird allgemein empfohlen, sich nicht auf Normalitätstests zu stützen, sondern auf diagnostische Diagramme der Residuen. Ohne diese Diagramme oder die tatsächlichen Werte in Ihrer Frage ist es sehr schwierig, Ihnen fundierte Ratschläge zu geben, was Ihre Daten in Bezug auf Analyse oder Transformation benötigen. Geben Sie die Rohdaten ein, um die bestmögliche Hilfe zu erhalten.
quelle
Erstens macht die OLS-Regression keine Annahmen über die Daten, sondern macht Annahmen über die Fehler, die durch Residuen geschätzt werden.
Zweitens ist die Transformation von Daten zur Anpassung an ein Modell meiner Meinung nach der falsche Ansatz. Sie möchten, dass Ihr Modell zu Ihrem Problem passt und nicht umgekehrt. Früher war die OLS-Regression wegen langsamer Computer "das einzige Spiel in der Stadt", aber das stimmt nicht mehr.
Drittens verwende ich kein SPSS, daher kann ich dort nicht helfen, aber ich wäre erstaunt, wenn es nicht einige Formen nichtlinearer Regression bieten würde. Einige Möglichkeiten sind Quantilregression, Regressionsbäume und robuste Regression.
Viertens mache ich mir ein bisschen Sorgen um Ihre Aussage:
Wenn die Elemente summiert oder auf irgendeine Weise kombiniert wurden, um die Gesamtskala zu bilden, ist Regression überhaupt nicht der richtige Ansatz. Sie möchten wahrscheinlich eine Faktorenanalyse.
quelle
Grundsätzlich gibt es zwei mögliche Ansätze für Ihr Problem: Der eine ist theoretisch gut begründet, in der Praxis jedoch möglicherweise nicht umsetzbar, während der andere heuristischer ist.
Der theoretisch optimale Ansatz (den Sie wahrscheinlich leider nicht anwenden können) besteht darin, eine Regression zu berechnen, indem Sie auf die direkte Anwendung der sogenannten Methode der maximalen Wahrscheinlichkeit zurückgreifen. Der Zusammenhang zwischen der Maximum-Likelihood-Schätzung (die eigentlich das vorgelagerte und grundlegendere mathematische Konzept ist) und der gewöhnlichen Regression der kleinsten Quadrate (der übliche Ansatz, gültig für den spezifischen, aber äußerst häufigen Fall, in dem alle Beobachtungsvariablen unabhängig voneinander zufällig und normalverteilt sind ) ist in vielen Lehrbüchern zur Statistik beschrieben; Eine Diskussion, die mir besonders gefällt, ist Abschnitt 7.1 der "Statistical Data Analysis" von Glen Cowan. In Fällen, in denen Ihre Beobachtungsvariablen nicht normal verteilt sind,
Da Sie die zugrunde liegende Verteilung, die Ihre Beobachtungsvariablen bestimmt, anscheinend nicht genau kennen (dh das einzige, was mit Sicherheit bekannt ist, ist, dass es definitiv nicht Gauß ist, sondern nicht das, was es tatsächlich ist), hat sich der obige Ansatz bewährt. ' Ich arbeite nicht für dich. Wenn OLS ausfällt oder ein verrücktes Ergebnis liefert, liegt dies normalerweise an zu vielen Ausreißern. Die Ausreißerpunkte, die tatsächlich die Annahme normalverteilter Beobachtungsvariablen verletzen, tragen viel zu viel Gewicht zur Anpassung bei, da Punkte in OLS mit den Quadraten ihrer Abweichung von der Regressionskurve und für die Ausreißer mit dieser Abweichung gewichtet werden ist groß. In diesem Fall besteht der übliche heuristische Ansatz darin, einige Optimierungen oder Modifikationen an OLS vorzunehmen, die dazu führen, dass der Beitrag der Ausreißerpunkte gegenüber der OLS-Basismethode herabgesetzt oder herabgesetzt wird. Zusammen sind diese in der Regel als bekanntrobuste Regression . Eine Liste mit einigen Beispielen für bestimmte robuste Schätztechniken, die Sie möglicherweise ausprobieren möchten, finden Sie hier .
quelle