Einbeziehung detaillierterer erklärender Variablen im Laufe der Zeit

9

Ich versuche zu verstehen, wie ich eine Variable am besten modellieren kann, wenn ich im Laufe der Zeit immer detailliertere Prädiktoren erhalten habe. Betrachten Sie beispielsweise die Modellierung der Wiederherstellungsraten für ausgefallene Kredite. Angenommen, wir haben einen Datensatz mit Daten aus 20 Jahren, und in den ersten 15 dieser Jahre wissen wir nur, ob das Darlehen besichert war oder nicht, aber nichts über die Merkmale dieser Sicherheiten. In den letzten fünf Jahren können wir die Sicherheiten jedoch in eine Reihe von Kategorien unterteilen, von denen erwartet wird, dass sie einen guten Prädiktor für die Wiederherstellungsrate darstellen.

Angesichts dieses Aufbaus möchte ich ein Modell an die Daten anpassen, Kennzahlen wie die statistische Signifikanz der Prädiktoren bestimmen und dann mit dem Modell prognostizieren.

In welches fehlende Daten-Framework passt das? Gibt es spezielle Überlegungen in Bezug auf die Tatsache, dass die detaillierteren erklärenden Variablen erst nach einem bestimmten Zeitpunkt verfügbar werden, anstatt über die historische Stichprobe verteilt zu sein?

regression missing-data Abiel
quelle

1

OK, aufgrund der Erfahrung mit der Verwendung historischer Daten kann die Regressionsanpassung durch mehr Verlauf besser erscheinen. Wenn jedoch die Vorhersage der Übungspunkt ist, wird die allgemeine Antwort gewarnt. In dem Fall, in dem die Daten Zeiträume widerspiegeln, für die die „Welt“ sehr unterschiedlich war, ist die Stabilität der Korrelationen fraglich. Dies ist insbesondere in der Wirtschaft der Fall, in der sich Märkte und Vorschriften ständig weiterentwickeln.

Dies gilt auch für den Immobilienmarkt, der darüber hinaus einen langen Zyklus haben kann. Die Erfindung von hypothekenbesicherten Wertpapieren zum Beispiel veränderte den Hypothekenmarkt und öffnete die Schleusen für die Entstehung von Hypotheken und leider auch für Spekulationen (es gab tatsächlich eine ganze Klasse von No / Low-Dokumentenkrediten, die als Lier-Kredite bezeichnet wurden).

Methoden, die auf Regimewechsel testen, können besonders wertvoll sein, wenn nicht subjektiv entschieden wird, wann die Vorgeschichte ausgeschlossen werden soll.

AJKOER
quelle

1

In der Regel kann dies als Problem mit begrenzten Parameterwerten angesehen werden. Soweit ich Ihre Frage verstehe, haben Sie zu Beginn Ihrer Daten einen weniger informativen Parameter (Sicherheiten unbekannter Qualität [Cu]) und einen informativeren Parameter (Sicherheiten mit hoher [Ch], mittlerer [Cm] oder niedriger [Cl] Qualität) in Ihren Daten spätere Daten.

Wenn Sie glauben, dass sich die nicht beobachteten Parameter für das Modell im Laufe der Zeit nicht ändern, kann die Methode einfach sein, wenn Sie davon ausgehen, dass die Punktschätzungen jeweils Cl <Cm <Ch und Cl <= Cu <= Ch sind. Die Logik ist, dass Cl das schlechteste und Ch das beste ist. Wenn die Daten unbekannt sind, müssen sie zwischen diesen liegen oder diesen entsprechen. Wenn Sie bereit sind, leicht restriktiv zu sein und davon ausgehen, dass in den ersten 15 Jahren nicht alle Sicherheiten von hoher oder niedriger Qualität waren, können Sie davon ausgehen, dass Cl <Cu <Ch ist, was die Schätzung erheblich vereinfacht.

Mathematisch können diese wie geschätzt werden:

\begin{array}{lcl} C_{l} & = & \exp (β_{1}) \\ C_{m} & = & \exp (β_{1}) + \exp (β_{2}) \\ C_{u} & = & \exp (β_{1}) + \frac{\exp (β_{3})}{1 + \exp (- β_{4})} \\ C_{h} & = & \exp (β_{1}) + \exp (β_{2}) + \exp (β_{3}) \end{array}

$\begin{array}{lcl} C_l &=& \exp(\beta_1) \\ C_m &=& \exp(\beta_1) + \exp(\beta_2) \\ C_u &=& \exp(\beta_1) + \frac{\exp(\beta_3)}{1+\exp(-\beta_4)} \\ C_h &=& \exp(\beta_1) + \exp(\beta_2) + \exp(\beta_3) \end{array}$

Wenn die Logit-Funktion in Cu den Wert auf Cl und Ch beschränkt, ohne ihn relativ zu Cm einzuschränken. (Andere Funktionen zwischen 0 und 1 können ebenfalls verwendet werden.)

Ein weiterer Unterschied im Modell sollte darin bestehen, dass die Varianz so strukturiert sein sollte, dass die Restvarianz vom Zeitraum abhängt, da die Informationen innerhalb jeder Periode unterschiedlich sind.

Bill Denney
quelle

Einbeziehung detaillierterer erklärender Variablen im Laufe der Zeit

Antworten: