Kann mir bitte jemand den tatsächlichen Unterschied zwischen Regressionsanalyse und Kurvenanpassung (linear und nichtlinear) erklären, wenn möglich anhand eines Beispiels?
Es scheint, dass beide versuchen, eine Beziehung zwischen zwei Variablen (abhängig und unabhängig) zu finden und dann den Parameter (oder Koeffizienten) zu bestimmen, der den vorgeschlagenen Modellen zugeordnet ist. Zum Beispiel, wenn ich einen Datensatz habe wie:
Y = [1.000 1.000 1.000 0.961 0.884 0.000]
X = [1.000 0.063 0.031 0.012 0.005 0.000]
Kann jemand eine Korrelationsformel zwischen diesen beiden Variablen vorschlagen? Ich habe Schwierigkeiten, den Unterschied zwischen diesen beiden Ansätzen zu verstehen. Wenn Sie es vorziehen, Ihre Antwort mit anderen Datensätzen zu unterstützen, ist dies in Ordnung, da dieser schwer zu passen scheint (vielleicht nur für mich).
Der obige Datensatz stellt die und Achse einer Empfängerkennlinie (ROC) dar, wobei die wahre positive Rate (TPR) und die falsche positive Rate (FPR) ist.
Ich versuche, eine Kurve anzupassen oder eine Regressionsanalyse gemäß meiner ursprünglichen Frage durchzuführen, wobei ich noch nicht sicher bin, ob ich den TPR für einen bestimmten FPR schätzen soll (oder umgekehrt).
Ist es wissenschaftlich akzeptabel, eine solche Kurvenanpassungsfunktion zwischen zwei unabhängigen Variablen (TPR und FPR) zu finden?
Zweitens, ist es wissenschaftlich akzeptabel, eine solche Funktion zu finden, wenn ich weiß, dass die Verteilungen der tatsächlichen negativen und der tatsächlichen positiven Fälle nicht normal sind?
quelle
Antworten:
Ich bezweifle, dass es eine klare und konsistente Unterscheidung zwischen statistisch denkenden Wissenschaften und Gebieten zwischen Regression und Kurvenanpassung gibt .
Eine Regression ohne Qualifikation impliziert eine lineare Regression und eine Schätzung der kleinsten Quadrate. Das schließt andere oder umfassendere Sinne nicht aus: Wenn Sie Logit, Poisson, negative binomische Regression usw. zulassen, wird es schwieriger zu erkennen, was Modellierung in gewissem Sinne nicht Regression ist.
Die Kurvenanpassung schlägt im wahrsten Sinne des Wortes eine Kurve vor, die in einer Ebene oder zumindest in einem Raum mit geringen Abmessungen gezeichnet werden kann. Die Regression ist nicht so begrenzt und kann Oberflächen in einem mehrdimensionalen Raum vorhersagen.
Die Kurvenanpassung kann lineare Regression und / oder kleinste Quadrate verwenden oder nicht. Dies kann sich auf die Anpassung eines Polynoms (Potenzreihe) oder eines Satzes von Sinus- und Cosinus-Termen beziehen oder auf eine andere Art und Weise als lineare Regression im Sinne einer linearen Anpassung einer funktionalen Form in die Parameter qualifizieren. In der Tat Kurvenanpassung, wenn nichtlineare Regression auch Regression ist.
Der Begriff Kurvenanpassung kann in einem abfälligen, abfälligen, abwertenden oder abweisenden Sinne verwendet werden ("das ist nur Kurvenanpassung!") Oder (fast das Gegenteil) bezieht sich auf die Anpassung einer bestimmten Kurve, die sorgfältig mit bestimmten physikalischen (biologischen, wirtschaftlich, was auch immer) begründet oder auf bestimmte Arten von anfänglichem oder einschränkendem Verhalten zugeschnitten (z. B. immer positiv, in eine oder beide Richtungen begrenzt, monoton, mit einer Beugung, mit einem einzigen Wendepunkt, oszillierend usw.).
Eines von mehreren unscharfen Problemen ist, dass dieselbe funktionale Form unter bestimmten Umständen bestenfalls empirisch und unter anderen Umständen eine hervorragende Theorie sein kann. Newton lehrte, dass Flugbahnen von Projektilen parabolisch sein können und daher auf natürliche Weise durch Quadratics angepasst werden können, wohingegen eine quadratische Anpassung an die Altersabhängigkeit in den Sozialwissenschaften oft nur ein Unsinn ist, der mit einer Krümmung in den Daten übereinstimmt. Der exponentielle Zerfall ist eine wirklich gute Näherung für radioaktive Isotope und eine manchmal nicht allzu verrückte Vermutung, wie die Landwerte mit der Entfernung von einem Zentrum sinken.
Ihr Beispiel bekommt keine expliziten Vermutungen von mir. Hier geht es vor allem darum, dass es bei einem sehr kleinen Datensatz und genau keinen Informationen darüber, was die Variablen sind oder wie sie sich voraussichtlich verhalten, unverantwortlich oder dumm sein kann, eine Modellform vorzuschlagen. Vielleicht sollten die Daten von (0, 0) stark ansteigen und sich dann (1, 1) nähern, oder vielleicht etwas anderes. Du erzählst uns!
Hinweis. Weder die Regression noch die Kurvenanpassung sind auf einzelne Prädiktoren oder einzelne Parameter (Koeffizienten) beschränkt.
quelle
Zusätzlich zu der hervorragenden Antwort von @ NickCox (+1) wollte ich meinen subjektiven Eindruck zu diesem etwas unscharfen Terminologiethema teilen . Ich denke, dass ein eher subtiler Unterschied zwischen den beiden Begriffen im Folgenden liegt. Einerseits impliziert die Regression oft, wenn nicht immer, eine analytische Lösung (die Bezugnahme auf Regressoren impliziert die Bestimmung ihrer Parameter , daher meine Argumentation zur analytischen Lösung). Auf der anderen Seite impliziert die Kurvenanpassung nicht unbedingt die Erstellung einer analytischen Lösung, und IMHO wird möglicherweise häufig als explorativer Ansatz verwendet .
quelle