Ich habe eine ziemlich kleine Datei mit 100 Millionen Zeilen und 30 Spalten oder so, auf der ich mehrere Regressionen ausführen möchte. Ich habe speziellen Code zum Ausführen der Regressionen für die gesamte Datei, aber ich möchte zufällige Stichproben aus der Datei ziehen und sie in R ausführen. Die Strategie lautet: Zufällige Stichprobe von N Zeilen aus der Datei ohne Ersetzung führen Sie eine Regression aus und Speichern Sie die interessierenden Koeffizienten. Wiederholen Sie diesen Vorgang M-mal mit verschiedenen Stichproben für jeden Koeffizienten. Berechnen Sie die Mittelwerte und Standardfehler der Koeffizienten über M Läufe.
Ich möchte den über M berechneten Mittelwert als Schätzung der Werte der für den gesamten Datensatz berechneten Koeffizienten und die Standardfehler der Mittelwerte als Schätzungen der Standardfehler der für den gesamten Datensatz berechneten Koeffizienten interpretieren.
Experimente zeigen, dass dies eine vielversprechende Strategie ist, aber ich bin mir über die zugrunde liegende Theorie nicht sicher. Sind meine Schätzer konsistent effizient und unvoreingenommen? Wenn sie konsistent sind, wie schnell sollten sie konvergieren? Welche Kompromisse zwischen M und N sind am besten?
Ich würde es sehr begrüßen, wenn mich jemand auf die Papiere, Bücher usw. mit der relevanten Theorie hinweisen könnte.
Viele Grüße und vielen Dank,
Joe Rickert
quelle
Antworten:
Wenn Sie davon ausgehen können, dass Ihre Zeilen Ihrer Datenmatrix austauschbar sind , sollte Ihre Modellierungsstrategie gut funktionieren. Ihre Methode sollte unter den von Gaetan Lion zuvor angegebenen Bedingungen in Ordnung sein .
Der Grund, warum Ihre Methode funktioniert ( unter der Annahme, dass die Austauschbarkeit gilt ), besteht darin, dass sie als Sonderfall eines parametrischen Bootstraps betrachtet wird, bei dem Sie N Reihen großer Stichproben erneut abtasten, ein Modell anpassen, die Koeffizienten speichern und dieses M wiederholen Zeiten (in der traditionellen Bootstrap - Terminologie Ihr M entspricht B ) und nehmen Durchschnitt der M Koeffizientenschätzungen. Sie können es auch unter dem Gesichtspunkt des Permutationstests betrachten.
Alle diese Ergebnisse sind jedoch zutreffend, wenn die ( schwer zu überprüfende ) Annahme der Austauschbarkeit zutrifft . Wenn die Annahme der Austauschbarkeit nicht zutrifft, wird die Antwort in diesem Fall etwas kompliziert. Wahrscheinlich müssen Sie sich um die austauschbaren Untergruppen in Ihren Daten kümmern und Ihren Prozess abhängig von diesen Untergruppen ausführen. Grundsätzlich hierarchische Modellierung.
quelle
Die Antwort auf Ihre ursprüngliche Frage lautet Ja, da die klassische Theorie unter Ihrem Stichprobenschema gilt. Sie benötigen keine Annahmen zur ursprünglichen Datenmatrix. Die gesamte Zufälligkeit (implizit hinter Standardfehlern und -konsistenz) stammt aus Ihrem Schema zum Abtasten von Zeilen aus der Datenmatrix.N
Stellen Sie sich Ihren gesamten Datensatz (100 Millionen Zeilen) als Grundgesamtheit vor. Jede Schätzung (vorausgesetzt, Ihre Stichprobe der Größe ist eine einfache Zufallsstichprobe der Zeilen) ist eine konsistente Schätzung der Regressionskoeffizienten (z. B. ), die aus dem gesamten Datensatz berechnet wurden. Darüber hinaus ist es ungefähr normal mit einem Mittelwert von und einer gewissen Kovarianz. Die übliche Schätzung der Kovarianz der Schätzung ist ebenfalls konsistent. Wenn Sie diese mal wiederholen und diese Schätzungen mitteln, ist die resultierende Schätzung (z. B. ) ebenfalls ungefähr normal. Sie können diese Schätzungen so lange als nahezu unabhängig (unkorreliert) behandelnβ * β * M M ß ein v g M N MN β^∗ β^∗ M M β^avg M N und sind relativ zu 100 klein. Das ist eine wichtige Annahme. Die Idee ist, dass Stichproben ohne Ersatz ungefähr gleichbedeutend mit Stichproben mit Ersatz sind, wenn die Stichprobengröße im Vergleich zur Populationsgröße klein ist.M
Abgesehen davon denke ich, dass Ihr Problem wirklich darin besteht, die aus dem gesamten Datensatz berechnete Regressionsschätzung ( ) effizient zu approximieren . Es gibt einen Unterschied zwischen (1) Mittelung von Schätzungen basierend auf Stichproben der Größe und (2) einer Schätzung basierend auf einer Stichprobe der Größe . Die MSE von (2) ist im Allgemeinen kleiner als die MSE von (1). Sie wären nur gleich, wenn die Schätzung in den Daten linear wäre, aber das ist nicht der Fall. Ich gehe davon aus, dass Sie die kleinsten Quadrate verwenden. Die Schätzung der kleinsten Quadrate ist im Vektor (Antwortvektor) linear , nicht jedoch in der Matrix (Kovariaten). Sie wählen zufällig und .MNMNYXYXβ^∗ M N MN Y X Y X
(1) und (2) sind beide einfache Schemata, aber nicht unbedingt effizient. (Obwohl es möglicherweise keine Rolle spielt, da Sie nur 30 Variablen haben.) Es gibt bessere Möglichkeiten. Hier ist ein Beispiel: http://arxiv.org/abs/0710.1435
quelle
Je größer die Stichprobe N ist, desto kleiner ist der Standardfehler (höher t stat und kleiner die jeweiligen p-Werte), der allen Ihren Regressionskoeffizienten zugeordnet ist. Je größer M, desto mehr Datenpunkte haben Sie und desto kleiner ist Ihr Standardfehler des Mittelwerts der Koeffizienten über M Läufe. Solche Mittel sollten einen Standardfehler aufweisen, der normalerweise gemäß dem zentralen Grenzwertsatz verteilt ist. In Bezug auf die Konvergenz solcher Mittel bin ich mir nicht sicher, ob es statistische Grundsätze gibt, die dies vorschreiben. Ich vermute, wenn Ihre Zufallsstichprobe gut gemacht ist (keine strukturelle Verzerrung usw.), sollte die Konvergenz ziemlich schnell erfolgen. Das müssen Sie möglicherweise nur empirisch beobachten.
Ansonsten scheint Ihre Methode gut zu sein, ich sehe kein Problem damit.
quelle