Gibt es eine parametrische gemeinsame Verteilung, so dass und auf (dh einer Kopula) und \ mathbb {E} [Y | beide gleich sind ? X = x] ist linear (womit ich affin meine) in ? Das heißt,
Natürlich könnte ich und unabhängig sein lassen, in welchem Fall . Gibt es einfache parametrische Copulas, die meine Einschränkungen erfüllen, ohne dass die beiden Variablen unabhängig sind? (Ein weiterer Randfall wäre und .)
Beachten Sie, dass und in nur einen Freiheitsgrad, da .
Einige reale Motive, um dies weniger abstrakt zu machen: Chetty et al. Forschungen zur Einkommensmobilität zwischen den Generationen finden (ungefähr) lineare Einkommenskoppeln (dh eine ungefähr lineare Beziehung zwischen dem Einkommensrang eines Elternteils und dem Einkommensrang seines Kindes). Siehe http://www.rajchetty.com/chettyfiles/mobility_trends_published.pdf (Abbildung 1. Rang des Kindereinkommens im Vergleich zum Rang des Elterneinkommens nach Geburtskohorte) und http://www.rajchetty.com/chettyfiles/mobility_geo.pdf (Abbildung II : Assoziation zwischen Perzentil-Rängen von Kindern und Eltern).
Antworten:
Wir können aus der trivialen Lösung mit Copula , dem Fall der perfekten (positiven) Korrelation und ihrem Gegenstück für die perfekte negative Korrelation reiche parametrische Familien entwickeln . Das Konzentrieren der Wahrscheinlichkeit stattdessen entlang des Liniensegments, das mit mit ergibt die KopulaF(x,y)=min(x,y) (0,α) (1,β) β>α
Eine ähnliche Kopula entsteht bei , die ich auch als .β<α F(x,y;α,β)
Stellen Sie sich diese als Gemische vor: Wenn , gibt es einheitliche Komponenten auf den horizontalen Rechtecken , , und auf dem zentralen Rechteck gibt es eine perfekte Korrelation (deren Verteilung die von für eine gleichmäßig verteilte Variable ). Diese Konzeption von erleichtert die Berechnung der Regression: Es ist eine gewichtete Summe der drei bedingten Mittelwerte,β>α [0,1]×[0,α] [0,1]×[β,1] [0,1]×[α,β] (U,α+(β−α)U) U F
Dies ist offensichtlich in linear : Der Achsenabschnitt ist gleich und die Steigung ist mal das Vorzeichen von . Darüber hinaus wurde es so konstruiert, dass es einheitliche Ränder aufweist.X (1+(β−α)2)/2 (β−α)2 β−α
Um eine parametrische Familie zu erstellen, wählen Sie eine beliebige parametrische Verteilung für mit dem Parameter . Sei die Verteilungsfunktion. Es beschreibt eine Mischung des durch Integration:(α,β) θ G(α,β;θ) F(;α,β)
ist die Verteilungsfunktion (Copula). Da jedes einheitliche Ränder hat, hat auch einheitliche . Darüber hinaus ist seine Regression linear, weilF(;α,β) F~(;θ)
Dies zeigt, wie der Achsenabschnitt und die Steigung die Erwartungen des Achsenabschnitts und der Steigung (in Bezug auf ) sind, und liefert nützliche Informationen für die Auswahl geeigneter Familien .G G(;θ)
Diese Grafiken dokumentieren eine Simulation aus einer solchen Familie. Hier wurde aus einer Beta -Verteilung und unabhängig von einer Beta -Verteilung gezogen. Die erste Spalte zeigt Histogramme der Realisierungen dieser Parameter. Die zweite Spalte zeigt Histogramme der Randverteilungen von und : Sie sind zufriedenstellend nahe an der Gleichförmigkeit. Die Spalte ganz rechts zeigt eine zufällige Teilmenge der 100.000 simulierten Werte sowie eine Schätzung ihrer Regression (rote Linie) und eine Annäherung an die theoretische Regression (schwarze gepunktete Linie): Sie stimmen eng überein. Die geschätzte Regression wurde durch Berechnung der Mittelwerte vonα (5,1) β (3,10) X Y X und in Fenstern von , dann glätten sie ihre Spur mit Löss.Y X
(Die "theoretische" Regressionslinie ist nur eine Annäherung, die durch Ersetzen von und in den Erwartungsformeln durch ihre Erwartungen erhalten wird. Genaue Formeln sind in diesem Fall einfach zu erarbeiten, aber lang und unübersichtlich zu codieren.)α β
DerG(;θ)
R
Code, der diese Figur erzeugt hat, kann leicht verwendet werden, um andere Familien .quelle