Wie vergleicht sich die Quantilregression mit der logistischen Regression mit der am Quantil aufgeteilten Variablen?

9

Ich habe ein bisschen gegoogelt, aber nichts gefunden.

Angenommen, Sie führen eine Quantilregression für das q-te Quantil der abhängigen Variablen durch.

Dann teilen Sie den DV beim q-ten Quantil auf und beschriften das Ergebnis mit 0 und 1. Anschließend führen Sie eine logistische Regression für den kategorisierten DV durch.

Ich suche nach Monte-Carlo-Studien dazu oder nach Gründen, eine der anderen vorzuziehen usw.

Peter Flom
quelle
2
Können Sie uns einen vernünftigen Weg zeigen, um die Ergebnisse der beiden Regressionen zu vergleichen? Wenn Sie nicht etwas weniger Allgemeines im Sinn haben, haben die Koeffizienten der Regressoren in diesen beiden Modellen völlig unterschiedliche Bedeutungen und Interpretationen. In welchem ​​Sinne sollen wir also verstehen, was Sie unter "bevorzugen" verstehen?
whuber
Zusätzlich zu allen anderen obigen Kommentaren verwendet die bedingungslose Quantilregression (Firpo et al. 2009) tatsächlich Regressionen, wie Sie sie beschreiben (die abhängige Variable, die durch ein bedingungsloses Quantil der Verteilung definiert ist), um ihre Methodik zu implementieren.
Falten Sie

Antworten:

7

Nehmen Sie der Einfachheit halber an, Sie haben eine stetige abhängige Variable Y und eine stetige Prädiktorvariable X.

Logistische Regression

Wenn ich Ihren Beitrag richtig verstehe, wird Ihre logistische Regression Y basierend auf dem Quantil der (bedingungslosen) Verteilung von Y in 0 und 1 kategorisieren. Insbesondere wird das q-te Quantil der Verteilung der beobachteten Y-Werte berechnet und Ycat wird definiert werden als 0, wenn Y streng kleiner als dieses Quantil ist, und 1, wenn Y größer oder gleich diesem Quantil ist.

Wenn das Obige Ihre Absicht erfasst, modelliert die logistische Regression die Wahrscheinlichkeit, dass Y das (beobachtete) q-te Quantil der (bedingungslosen) Y-Verteilung als Funktion von X überschreitet oder gleich ist.

Quantile Regression

Wenn Sie andererseits eine Quantilregression von Y auf X durchführen, konzentrieren Sie sich auf die Modellierung, wie sich das q-te Quantil der bedingten Verteilung von Y bei X als Funktion von X ändert.

Logistische Regression versus quantitative Regression

Es scheint mir, dass diese beiden Verfahren völlig unterschiedliche Ziele haben, da sich das erste Verfahren (dh die logistische Regression) auf das q-te Quantil der bedingungslosen Verteilung von Y konzentriert, während sich das zweite Verfahren (dh die Quantilregression) auf das konzentriert das q-te Quantil der bedingten Verteilung von Y.

The unconditional distribution of Y is the 
distribution of Y values (hence it ignores any 
information about the X values). 

The conditional distribution of Y given X is the 
distribution of those Y values for which the values 
of X are the same.  

Bildhaftes Beispiel

Nehmen wir zur Veranschaulichung Y = Cholesterin und X = Körpergewicht an.

Dann modelliert die logistische Regression die Wahrscheinlichkeit eines "hohen" Cholesterinwerts (dh größer oder gleich dem q-ten Quantil der beobachteten Cholesterinwerte) als Funktion des Körpergewichts, wobei die Definition von "hoch" keine hat Beziehung zum Körpergewicht. Mit anderen Worten, der Marker für einen „hohen“ Cholesterinwert ist unabhängig vom Körpergewicht. Was sich bei diesem Modell mit dem Körpergewicht ändert, ist die Wahrscheinlichkeit, dass ein Cholesterinwert diesen Marker überschreitet.

Andererseits untersucht die Quantilregression, wie sich die "Marker" -Cholesterinwerte, für die q% der Probanden mit demselben Körpergewicht in der zugrunde liegenden Population einen höheren Cholesterinwert aufweisen, in Abhängigkeit vom Körpergewicht ändern. Sie können sich diese Cholesterinwerte als Marker vorstellen, um festzustellen, welche Cholesterinwerte "hoch" sind. In diesem Fall hängt jeder Marker vom entsprechenden Körpergewicht ab. Außerdem wird angenommen, dass sich die Marker auf vorhersagbare Weise ändern, wenn sich der Wert von X ändert (z. B. neigen die Marker dazu, mit zunehmendem X zuzunehmen).

Isabella Ghement
quelle
2
Dem stimme ich zu. Es scheint jedoch eine Ähnlichkeit zu geben - das heißt, beide betrachten das q-te Quantil als Funktion derselben unabhängigen Variablen.
Peter Flom
4
Ja, aber der Unterschied besteht darin, dass eine Methode das bedingungslose Quantil (dh die logistische Regression) und die andere das bedingte Quantil (dh die Quantilregression) betrachtet. Diese beiden Quantile verfolgen verschiedene Dinge.
Isabella Ghement
3

Sie werden nicht gleich sein, und der Grund ist einfach.

Mit der Quantilregression möchten Sie die Quantilbedingung der unabhängigen Variablen modellieren. Ihr Ansatz mit logistischer Regression passt zum Randquantil.

Firebug
quelle
1

Man fragt: "Wie wirkt sich die Verteilung der abhängigen Variablen auf das n-te Quantil aus?" Der andere fragt: "Wie wirkt sich das auf die Wahrscheinlichkeit aus, dass die abhängige Variable in das n-te Quantil ihrer bedingungslosen Verteilung fällt ?"

Das heißt, die Tatsache, dass beide das Wort "Quantil" in sich haben, lässt sie ähnlicher aussehen als sie sind.

Ich denke, wenn Sie zuerst eine bedingte Quantilfunktion schätzen, diese für die Aufteilung verwenden und von dort fortfahren, werden die beiden Ansätze ähnlicher. Aber ich sehe nicht ein, was Sie von einem solchen Umweg profitieren würden. .

sheß
quelle
0

Dies ist ungefähr der Deal, wenn ich diese richtig transkribiert habe. Siehe https://en.wikipedia.org/wiki/Quantile_regression für .ρp

Logistische Regression:

p(ythresh)=argminpiJlogistic(p,yi<ythresh)

Quantile Regression

y(pthresh)=argminyiρp(yiy)

Die Frage ist (ich kann mich nicht erinnern), ob die Bewertungsfunktionen für diese Variationsprobleme die einzigen sind, die für MLE möglich sind. Wenn nicht, gibt es eine Paarung, die Äquivalenz in dem Sinne garantiert, dass dieselben Paarungen erzeugt werden?(p,y)

Mathtick
quelle