Warum bezeichnen wir in der Regressionsanalyse unabhängige Variablen als „unabhängig“?

30

Ich meine, einige dieser Variablen sind stark miteinander korreliert. Wie / warum / in welchem ​​Kontext definieren wir sie als unabhängige Variablen?

Amarpreet Singh
quelle
1
Das ist historisch und stammt aus französischen wissenschaftlichen Arbeiten. Ich versuche die Referenz zu finden.
Alecos Papadopoulos
1
Ich würde eine Reihe von Variablen als "potenziell koabhängig" bezeichnen, um nicht auf die Kausalität schließen zu müssen.
Qed
1
Eine gute frage
Rafael Marazuela

Antworten:

29

Wenn wir uns von der heutigen Betonung des maschinellen Lernens zurückziehen und uns daran erinnern, wie viel statistische Analyse für kontrollierte experimentelle Studien entwickelt wurde, ist der Ausdruck "unabhängige Variablen" durchaus sinnvoll.

In kontrollierten experimentellen Studien werden die Auswahl eines Arzneimittels und seiner Konzentrationen oder die Auswahl eines Düngemittels und seiner Mengen pro Morgen vom Prüfer unabhängig getroffen . Das Interesse besteht darin, wie eine interessierende Antwortvariable (z. B. Blutdruck, Ernteertrag) von diesen experimentellen Manipulationen abhängt . Idealerweise sind die Eigenschaften der unabhängigen Variablen eng spezifiziert, ohne dass im Wesentlichen Fehler bei der Kenntnis ihrer Werte auftreten. Die standardmäßige lineare Regression modelliert beispielsweise die Unterschiede zwischen den Werten abhängiger Variablen in Bezug auf die Werte der unabhängigen Variablen zuzüglich der Restfehler.

Der gleiche mathematische Formalismus, der für die Regression im Rahmen kontrollierter experimenteller Studien verwendet wird, kann auch auf die Analyse beobachteter Datensätze ohne oder mit nur geringen experimentellen Manipulationen angewendet werden Studien. Aber, wie andere auf dieser Seite bemerken, ist dies wahrscheinlich eine unglückliche Entscheidung, da "Prädiktoren" oder "Funktionen" in solchen Zusammenhängen besser geeignet sind.

EdM
quelle
2
Aber die Wahl der Drogenspiegel hängt davon ab, was der Ermittler tut, weshalb ich mich nie erinnern kann, was was ist.
mdewey
Beim maschinellen Lernen sind "Merkmale" häufig latente, nicht beobachtete Variablen. "Beobachtete Merkmale" sind häufiger anzutreffen.
Neil G
18

In vielerlei Hinsicht ist "unabhängige Variable" eine unglückliche Wahl. Die Variablen müssen nicht unabhängig voneinander sein und müssen natürlich nicht unabhängig von der abhängigen Variablen . Im Unterricht und in meinem Buch Regressionsmodellierungsstrategien verwende ich das Wort Prädiktor . In manchen Situationen ist dieses Wort nicht stark genug, aber es funktioniert im Durchschnitt gut. Eine vollständige Beschreibung der Rolle der Variablen (auf der rechten Seite) in einem statistischen Modell ist möglicherweise zu lang, um sie jedes Mal zu verwenden: die Menge von Variablen oder Messungen, von denen die Verteilung von abhängig ist. Dies ist eine andere Art, die Menge der Variablen zu beschreiben, deren Verteilungen uns derzeit nicht interessieren, deren Werte wir aber als Konstanten behandeln.YXY

Frank Harrell
quelle
Sie sagen also nur, dass das Aufrufen von Eingabevariablen als "unabhängig" eine falsche Praxis ist? @Frank
Amarpreet Singh
11
Es wird definitiv nicht davon ausgegangen, dass sie unabhängig von ALLEN DINGEN sind. Es ist also eine falsche Praxis, die nur aus Gewohnheit angewendet wird.
Frank Harrell
1
"Die Menge von Variablen oder Messungen, auf die die Verteilung von Y konditioniert wird" ... eigentlich stelle ich sie mir als "konditionierende Variablen" oder "konditionierte Variablen" vor (und nenne sie manchmal auch "konditionierte Variablen"), was nicht zu lang ist Beschreibung und arbeitet natürlich mit der NotationE(Y|X)
Silverfish
11

Ich stimme den anderen Antworten hier zu, dass "unabhängig" und "abhängig" eine schlechte Terminologie ist. Wie EdM erklärt, entstand diese Terminologie im Kontext kontrollierter Experimente, bei denen der Forscher die Regressoren unabhängig voneinander einstellen konnte. Es gibt viele bevorzugte Begriffe, die diese belastende kausale Konnotation nicht haben, und meiner Erfahrung nach bevorzugen Statistiker eher die neutraleren Begriffe. Es gibt viele andere Begriffe, die hier verwendet werden, einschließlich der folgenden:

Yixi,1,...,xi,mResponsePredictorsRegressandRegressorsOutput variableInput variablesPredicted variableExplanatory variables

Personally, I use the terms explanatory variables, and response variable, since those terms have no connotation of statistical independence or control, etc. (One might argue that 'response' has a causal connotation, but this is a fairly weak connotation, so I have not found it problematic.)

Reinstate Monica
quelle
1
(+1) I suppose regressor/regressand are the most neutral terms, but I also prefer to explain using explanatory/response.
Frans Rodenburg
2
I agree with the tendency to prefer neutral terms, but "explanatory" sounds pretty causal to me as in: "The X variables explain why the Y variable acts in the way it does."
timwiz
1
I take it to mean explanatory in a probabilistic sense -- i.e., it explains changes in the distribution of the response variable. You might be right, but in all these cases the connotation to any causality is weak.
Reinstate Monica
2
Explanatory implies causal so is inappropriate.
Frank Harrell
1
@Frank: I don't necessarily agree with that view. Explanatory is derived from the word "explain" so I take it to imply only that the variables explain the response variable somehow. That explanation could be causal, or it could merely be statistical, and I take it to be the latter. Nevertheless, it does appear that people are interpreting the connotations of these words differently, so I will concede that some will read it as having causal connotations.
Reinstate Monica
9

To add to Frank Harrell's and Peter Flom's answers:

I agree that calling a variable "independent" or "dependent" is often misleading. But some people still do that. I once heard an answer why:

In regression analysis we have one "special" variable (usually denoted by Y) and many "not-so-special" variables (X's) and we want to see how changes in X's affect Y. In other words, we want to see how Y depends on X's.

That is why Y is called "dependent". And if one is called "dependent" how would you call another one?

Łukasz Deryło
quelle
You are saying that Y depends on X's, (so Y is called dependent variable) and by that you mean that X doesn't depend on Y. But there can be cases where X can depend on Y or correlate with Y (so it can't be called "independent" anymore). Any views on this?
Amarpreet Singh
No, I don't mean that X doesn't depend on Y. I just mean that the most basic explanation of what regression analysis does is that it describes how Y depend on X. So the most basic name for Y would be "dependent"
Łukasz Deryło
6
I'm not trying to answer the question "should we call X independent?" but rather "why do we call it independent?", just like in title of your post
Łukasz Deryło
5

"Dependent" and "independent" can be confusing terms. One sense is pseudo-causal or even causal and this is the one that is meant when saying "independent variable" and "dependent variable". We mean that the DV, in some sense, depends on the IV. So, for example, when modeling the relationship of height and weight in adult humans, we say weight is the DV and height is the IV.

This does capture something that "predictor" does not - namely, the direction of the relationship. Height predicts weight, but weight also predicts height. That is, if you were told to guess the height of people and were told their weights, that would be useful.

But we wouldn't say that height depends on weight.

Peter Flom - Reinstate Monica
quelle
Are you being specific about SEM model?
Amarpreet Singh
No. I was thinking of regression.
Peter Flom - Reinstate Monica
Ok, so it's just a matter of name. I got confused that calling input variables as "independent" means something.
Amarpreet Singh
12
DV and IV are common abbreviations (which personally I dislike), but watch out for many economists and some other social scientists for whom IV can only mean instrumental variable. It is less common to encounter people for whom DV can only mean Deo volente (God willing).
Nick Cox
0

Based on the above answers, yes , i agree that this dependent and independent variable are weak terminology. But I can explain the context in which it is being used by many of us. You say that for a general regression problem we have a Output variable, say Y, whose value depends on other input variables, say x1, x2, x3. That is why it is called a "Dependent Variable". And similarly depending upon this context only, and just to differentiate between Output and Input Variable, x1, x2, x3 are termed as independent variable. Because unlike Y it does not depend on any other variable(But yes here we are not talking about there dependency with themselves.)

Pooja Sonkar
quelle
You answered similar to that of @Ramya R.
Amarpreet Singh
-2

Independent variables are called independent because they do not depend on other variables. For example, consider the house price prediction problem. Assume we have data on house_size, location, and house_price. Here, house_price is determined based on the house_size and location but the location and house_size can vary for different houses.

Ramya R
quelle
4
Sometimes the so-called "independent" variables in regression are correlated. So they are not necessarily statistically independent. It would be better to call them predictor variables.
Michael R. Chernick
Micheal, Thanks for pointing that out. I have a follow-up question. In cases where we have two predictor variables that are collinear, don't we discard one of them to eliminate the multicollinearity problem so that our predictor variables are independent of each other?
Ramya R
1
Not necessarily. It depends on whether or not it affects the stability of estimates and how much stronger the prediction is when both variables are included. If two variables have correlation 0.1 they are not independent but the relationship between them is weak.
Michael R. Chernick