Wenn eine von mehreren Variablen ist, die sich zu summieren , ist zwischen und ein nützlicher Wert?

8

Eine Annahme für die Regressionsanalyse ist, dass und nicht miteinander verflochten sind. Wenn ich jedoch darüber nachdenke, scheint es mir, dass es Sinn macht. $X$ $Y$

Hier ist ein Beispiel. Wenn wir einen Test mit 3 Abschnitten haben (AB und C). Die Gesamtbewertung der Tests entspricht der Summe der Einzelbewertungen für die drei Abschnitte. Nun ist es sinnvoll zu sagen, dass in Abschnitt A und die Gesamttestpunktzahl sein kann. Dann kann die lineare Regression diese Frage beantworten: Wie hoch ist die Variabilität des Gesamttestergebnisses, die auf Abschnitt A zurückzuführen ist? Hier sind mehrere Szenarien möglich: $X$ $Y$

Abschnitt A ist der schwierigste der drei Abschnitte, und die Schüler erzielen immer die niedrigste Punktzahl. In einem solchen Fall wäre intuitiv niedrig. Weil der größte Teil des gesamten Testergebnisses von B und C bestimmt würde. $R^2$
Abschnitt A war für Studenten sehr einfach. Auch in diesem Fall wäre die Korrelation nicht hoch. Da die Schüler immer 100% dieses Abschnitts erzielen und dieser Abschnitt daher nichts über das gesamte Testergebnis aussagt.
Abschnitt A hat mittelschwere Schwierigkeiten. In diesem Fall wäre die Korrelation stärker (dies hängt jedoch auch von den anderen Bewertungen (B und C) ab.

Ein weiteres Beispiel ist folgendes: Wir analysieren den Gesamtgehalt eines Spurenelements im Urin. Und wir analysieren unabhängig die einzelnen Spezies (chemische Formen) dieses Spurenelements im Urin. Es kann viele chemische Formen geben. Und wenn unsere Analysen korrekt sind, sollte die Summe der chemischen Formen den Gesamtgehalt eines Elements ergeben (analysiert mit einer anderen Technik). Es ist jedoch sinnvoll zu fragen, ob eine chemische Form mit dem Gesamtelementgehalt im Urin korreliert, da dieser Gesamtgehalt ein Indikator für die Gesamtaufnahme dieses Elements aus der Nahrung ist. Wenn wir dann sagen, dass das Gesamtelement in Urin und $X$ $Y$ Ist die chemische Form A im Urin, können wir durch Untersuchung der Korrelation untersuchen, ob diese chemische Form die Hauptform ist, die zur Gesamtvariabilität beiträgt oder nicht.

es scheint mir, dass es manchmal sinnvoll ist, auch wenn und nicht unabhängig sind, und dass dies in einigen Fällen helfen kann, wissenschaftliche Fragen zu beantworten. $X$ $Y$

Würden Sie denken, dass in den obigen Beispielen nützlich oder sinnvoll sein kann? Wenn wir das obige Beispiel für die Testergebnisse betrachten, würde ich bereits sagen, dass jeder Abschnitt einen Beitrag von etwa 33% leisten würde, wenn die Schwierigkeit für die Schüler genau gleich gewesen wäre. In der Praxis ist dies jedoch nicht unbedingt der Fall. Daher dachte ich, dass die Verwendung der Regressionsanalyse uns möglicherweise dabei helfen kann, die wahre Variabilität zu ermitteln, die jedem Abschnitt einer Prüfung zugeordnet wird. Es scheint mir also, dass sinnvoll wäre, obwohl wir bereits wissen, dass die Nullhypothese nicht wahr ist. $R^2$ $R^2$

Gibt es alternative modifizierte Regressionsmethoden, um solche Situationen zu berücksichtigen und uns aussagekräftige Parameter zu liefern?

regression correlation r-squared Bassam
quelle

Ich stimme dieser Aussage nicht zu: "1 - Abschnitt A ist der schwierigste der 3 Abschnitte, und die Schüler erzielen immer die niedrigste Punktzahl. In einem solchen Fall wäre das intuitive R-Quadrat niedrig." Wenn Abschnitt A am schwierigsten ist, gibt es mehr Inkonsistenzen bei den Antworten, was zu einer erhöhten Variabilität führt, was dazu führt, dass das R-Quadrat, das den Anteil der Variabilität misst, der durch Abschnitt A erklärt wird, größer wäre.

StatsStudent

Vielen Dank für Ihren Kommentar. Meiner Meinung nach ist Abschnitt A insofern schwierig, als alle Schüler in diesem Abschnitt sehr schlecht abschneiden (und auf einer Skala von 0 bis 100 nahe Null liegen). Dann trägt die Variabilität in der Bewertung dieses Abschnitts nicht wesentlich zur Gesamtbewertung des Tests bei (zum Beispiel spielt es keine Rolle, ob sie 15 oder 20 oder 10% beträgt). Die Gesamttestbewertung (und ihre Variabilität) wird durch die anderen variableren Testergebnisse bestimmt, die den größten Teil der Gesamtbewertung ausmachen.

Bassam

Warum erwarten Sie, dass und in einer Regressionsanalyse unabhängig sind? Einer ist der Mittelwert des anderen (zumindest wenn wir andere Prädiktoren weglassen). Ich verstehe auch Ihren ersten Satz nicht. Welche Annahme ist das? Eine Regression sollte eine Art Verflechtung beinhalten.

Y

$Y$

X

$X$

Swmo

5

Möglicherweise möchten Sie einen Ansatz außerhalb des traditionellen Regressionsansatzes in Betracht ziehen. Dies ist vergleichbar mit den Arten von Problemen, die durch die Psychometrie gelöst werden sollen (nun, Ihr erstes Beispiel ist genau das, da es sich um einen Test handelt).

In der klassischen Testtheorie ist eine der häufigsten Metriken die Korrelation zwischen Artikel und Gesamtbewertung, die im Wesentlichen die Korrelation zwischen der Artikelbewertung und der Gesamtbewertung ist. Es zeigt Ihnen die Unterscheidung des Elements - es ist die Fähigkeit, zwischen Befragten mit hoher und niedriger Punktzahl zu unterscheiden. Dies ist vergleichbar mit der Erklärung der Varianz, wie Sie sie oben mit gefragt haben . Es gibt zwei Möglichkeiten, diese Punktzahl zu berechnen, indem entweder die gesamte Testpunktzahl einschließlich des interessierenden Elements verwendet oder ausgeschlossen wird. Wenn Sie viele Artikel haben, sind diese beiden Methoden fast gleich, aber wenn Sie nur wenige Artikel haben, können sie einen großen Unterschied machen. $R^2$

Ein anderer Ansatz aus der Item-Response-Theorie (IRT) besteht darin, entweder über ein 2-Parameter-Item-Response-Modell oder über eine Bestätigungsfaktoranalyse (die statistisch gleich, aber interpretationsmäßig unterschiedlich sind) zu schätzen. Ein 2-Parameter-Modell enthält einen Parameter für die Gegenstandsschwierigkeit (die relative Schwierigkeit des Gegenstands) und einen für die Gegenstandsunterscheidung, der sehr ähnlich wie die Gegenstands-Gesamtpunktzahl-Korrelation interpretiert wird. Hohe Diskriminierung = Der Punkt unterscheidet gut zwischen High- und Low-Scorern. Wenn Sie die Bestätigungsfaktoranalyse (CFA) verwenden, haben Sie Artikelladungen, die im Wesentlichen Ihre Unterscheidungsparameter sind. Sie sagen Ihnen, wie viel der Gesamtpunktzahl von einem bestimmten Gegenstand abhängt.

Bei Verwendung von IRT oder CFA wird davon ausgegangen, dass Sie einen latenten Wert haben, keinen beobachteten Wert, den Sie schätzen möchten. In den Beispielen, die Sie oben geben, geht es Ihnen um eine beobachtete Punktzahl, die nicht latent ist. Diese Modelle wären also nicht das, wonach Sie suchen, da sie probabilistisch sind und Sie eine Art tautologische Beziehung haben (Ihre Summe besteht per Definition aus den Teilen, ohne Fehler). Aber ich weise sie als Beispiele dafür auf, wie Statistiken zu ähnlichen Antworten gelangen.

Das Letzte, worauf ich hinweisen möchte, und dies ist wahrscheinlich etwas, mit dem andere argumentieren würden, aber während davon ausgegangen wird, dass Regressoren unabhängig sind, sind diese Dummy-Variablen per Definition, wenn wir eine kategoriale Variable haben und Dummies in das Modell eingeben korreliert. Dies würde also anscheinend die Annahmen der Unabhängigkeit verletzen und Multikollinearität einbringen. Wenn Sie es so sehen, wäre es sinnvoll, Ihre Regression der Elemente im Urin durchzuführen und eines auszuschließen. Die Koeffizienten wären genauso gültig, als ob es sich um eine einzelne kategoriale Variable handeln würde. In diesem Sinne erhalten Sie eine vergleichbare Zahl wie die Artikel-Gesamt-Korrelation aus der oben erwähnten klassischen Testtheorie.

robin.datadrivers
quelle

4

$Z=X+Y+W$

R^{2} = {(\frac{C o v (X, Z)}{σ_{X} σ_{Z}})}^{2} = {(\frac{V a r (X) + C o v (X, Y) + C o v (X, W)}{σ_{X} σ_{Z}})}^{2}

$R^2 =\left(\frac{Cov(X,Z)}{\sigma_X \sigma_Z}\right)^2 =\left(\frac{Var(X)+Cov(X,Y)+Cov(X,W)}{\sigma_X \sigma_Z}\right)^2$

Kurz gesagt, Sie erhalten die Varianz von plus seine Beziehung zu Ihren beiden anderen Variablen, geteilt durch einen Skalierungsfaktor. Der Skalierungsfaktor selbst könnte erweitert werden, aber der Zähler erzählt die Geschichte. Im Allgemeinen sind Dinge, die diese Zahl beeinflussen, a) die relative Skala von X im Vergleich zu Y und W, b) die relative Varianz von X, c) der "Beitrag" von X zur Varianz von Y und W. $X$

Ob das nützlich ist oder nicht, hängt davon ab, wonach Sie suchen. Es ist wahrscheinlich am besten, es als "Prozentsatz der Gesamtvariation" oder so etwas zu betrachten, obwohl das Gleiche für Y und W möglicherweise nicht alle 1 ergibt (oder vielleicht ... nicht sicher).

Mike Nute
quelle

2

$R^2$ $R^2$ $R^2$

Harvey Motulsky
quelle

Danke für deinen Kommentar. Das war genau mein Gefühl. Diese R2-Werte und ein Vergleich zwischen ihnen könnten uns nützliche Informationen liefern.

Bassam

0

$X$ $Y$

Das ist falsch. Eine Annahme für die Regressionsanalyse ist, dass die FEHLER nicht korreliert sind. Siehe den Wikipedia-Eintrag für den Gauß-Markov-Satz.

$X$ $Y$ $R^2$ $X$ $Y$

$R^2$ $X$ $Y$

jimmylovestea
quelle

Wenn eine von mehreren Variablen ist, die sich zu summieren , ist zwischen und ein nützlicher Wert?

Antworten: