Ich habe ein bisschen gegoogelt, aber nichts gefunden.
Angenommen, Sie führen eine Quantilregression für das q-te Quantil der abhängigen Variablen durch.
Dann teilen Sie den DV beim q-ten Quantil auf und beschriften das Ergebnis mit 0 und 1. Anschließend führen Sie eine logistische Regression für den kategorisierten DV durch.
Ich suche nach Monte-Carlo-Studien dazu oder nach Gründen, eine der anderen vorzuziehen usw.
logistic
quantile-regression
Peter Flom
quelle
quelle
Antworten:
Nehmen Sie der Einfachheit halber an, Sie haben eine stetige abhängige Variable Y und eine stetige Prädiktorvariable X.
Logistische Regression
Wenn ich Ihren Beitrag richtig verstehe, wird Ihre logistische Regression Y basierend auf dem Quantil der (bedingungslosen) Verteilung von Y in 0 und 1 kategorisieren. Insbesondere wird das q-te Quantil der Verteilung der beobachteten Y-Werte berechnet und Ycat wird definiert werden als 0, wenn Y streng kleiner als dieses Quantil ist, und 1, wenn Y größer oder gleich diesem Quantil ist.
Wenn das Obige Ihre Absicht erfasst, modelliert die logistische Regression die Wahrscheinlichkeit, dass Y das (beobachtete) q-te Quantil der (bedingungslosen) Y-Verteilung als Funktion von X überschreitet oder gleich ist.
Quantile Regression
Wenn Sie andererseits eine Quantilregression von Y auf X durchführen, konzentrieren Sie sich auf die Modellierung, wie sich das q-te Quantil der bedingten Verteilung von Y bei X als Funktion von X ändert.
Logistische Regression versus quantitative Regression
Es scheint mir, dass diese beiden Verfahren völlig unterschiedliche Ziele haben, da sich das erste Verfahren (dh die logistische Regression) auf das q-te Quantil der bedingungslosen Verteilung von Y konzentriert, während sich das zweite Verfahren (dh die Quantilregression) auf das konzentriert das q-te Quantil der bedingten Verteilung von Y.
Bildhaftes Beispiel
Nehmen wir zur Veranschaulichung Y = Cholesterin und X = Körpergewicht an.
Dann modelliert die logistische Regression die Wahrscheinlichkeit eines "hohen" Cholesterinwerts (dh größer oder gleich dem q-ten Quantil der beobachteten Cholesterinwerte) als Funktion des Körpergewichts, wobei die Definition von "hoch" keine hat Beziehung zum Körpergewicht. Mit anderen Worten, der Marker für einen „hohen“ Cholesterinwert ist unabhängig vom Körpergewicht. Was sich bei diesem Modell mit dem Körpergewicht ändert, ist die Wahrscheinlichkeit, dass ein Cholesterinwert diesen Marker überschreitet.
Andererseits untersucht die Quantilregression, wie sich die "Marker" -Cholesterinwerte, für die q% der Probanden mit demselben Körpergewicht in der zugrunde liegenden Population einen höheren Cholesterinwert aufweisen, in Abhängigkeit vom Körpergewicht ändern. Sie können sich diese Cholesterinwerte als Marker vorstellen, um festzustellen, welche Cholesterinwerte "hoch" sind. In diesem Fall hängt jeder Marker vom entsprechenden Körpergewicht ab. Außerdem wird angenommen, dass sich die Marker auf vorhersagbare Weise ändern, wenn sich der Wert von X ändert (z. B. neigen die Marker dazu, mit zunehmendem X zuzunehmen).
quelle
Sie werden nicht gleich sein, und der Grund ist einfach.
Mit der Quantilregression möchten Sie die Quantilbedingung der unabhängigen Variablen modellieren. Ihr Ansatz mit logistischer Regression passt zum Randquantil.
quelle
Man fragt: "Wie wirkt sich die Verteilung der abhängigen Variablen auf das n-te Quantil aus?" Der andere fragt: "Wie wirkt sich das auf die Wahrscheinlichkeit aus, dass die abhängige Variable in das n-te Quantil ihrer bedingungslosen Verteilung fällt ?"
Das heißt, die Tatsache, dass beide das Wort "Quantil" in sich haben, lässt sie ähnlicher aussehen als sie sind.
Ich denke, wenn Sie zuerst eine bedingte Quantilfunktion schätzen, diese für die Aufteilung verwenden und von dort fortfahren, werden die beiden Ansätze ähnlicher. Aber ich sehe nicht ein, was Sie von einem solchen Umweg profitieren würden. .
quelle
Dies ist ungefähr der Deal, wenn ich diese richtig transkribiert habe. Siehe https://en.wikipedia.org/wiki/Quantile_regression für .ρp
Logistische Regression:
Quantile Regression
Die Frage ist (ich kann mich nicht erinnern), ob die Bewertungsfunktionen für diese Variationsprobleme die einzigen sind, die für MLE möglich sind. Wenn nicht, gibt es eine Paarung, die Äquivalenz in dem Sinne garantiert, dass dieselben Paarungen erzeugt werden?(p,y)
quelle