Gaußsche Daten, die in einer einzigen Dimension verteilt sind, erfordern zwei Parameter, um sie zu charakterisieren (Mittelwert, Varianz), und es geht das Gerücht, dass etwa 30 zufällig ausgewählte Stichproben normalerweise ausreichen, um diese Parameter mit hinreichend hoher Sicherheit abzuschätzen. Aber was passiert, wenn die Anzahl der Dimensionen zunimmt?
In zwei Dimensionen (z. B. Größe, Gewicht) werden 5 Parameter benötigt, um eine "am besten passende" Ellipse anzugeben. In drei Dimensionen steigt dies auf 9 Parameter, um ein Ellipsoid zu beschreiben, und in 4-D werden 14 Parameter benötigt. Ich bin gespannt, ob die Anzahl der Stichproben, die zur Schätzung dieser Parameter erforderlich sind, auch vergleichbar, langsamer oder (bitte nicht!) Schneller ansteigt. Noch besser wäre es zu wissen, wenn es eine allgemein anerkannte Faustregel gäbe, die vorschlägt, wie viele Stichproben erforderlich sind, um eine Gauß-Verteilung in einer bestimmten Anzahl von Dimensionen zu charakterisieren.
Um genauer zu sein, nehmen wir an, wir möchten eine symmetrische "Best-Fit" -Grenze definieren, die auf den mittleren Punkt zentriert ist, innerhalb dessen wir sicher sein können, dass 95% aller Proben fallen werden. Ich möchte wissen, wie viele Abtastungen erforderlich sind, um die Parameter zu finden, um diese Grenze (Intervall in 1-D, Ellipse in 2-D usw.) mit entsprechend hoher Zuverlässigkeit (> 95%) zu approximieren, und wie sich diese Anzahl als ändert Anzahl der Dimensionen erhöht.
Antworten:
Die Datenmenge, die zum Schätzen der Parameter einer multivariaten Normalverteilung mit einer bestimmten Genauigkeit und einem bestimmten Vertrauen benötigt wird, variiert nicht mit der Dimension, alle anderen Faktoren sind gleich. Daher können Sie bei Problemen mit höheren Dimensionen eine beliebige Faustregel für zwei Dimensionen anwenden, ohne dass sich dies ändert.
Warum sollte es Es gibt nur drei Arten von Parametern: Mittelwerte, Varianzen und Kovarianzen. Der Schätzfehler in einem Mittelwert hängt nur von der Varianz und der Datenmenge ab, . Wenn also ( X 1 , X 2 , ... , X d ) eine multivariate Normalverteilung hat und die X i Varianzen σ 2 i haben , dann hängen die Schätzungen von E [ X i ] nur von den σ i und n ab . Woraus, um eine ausreichende Genauigkeit zu erreichen bei der Schätzung aller dern (X1,X2,…,Xd) Xi σ2i E[Xi] σi n σ i zunehmen wird. Wenn diese Parameter oben begrenzt sind, schließen wir, dassdie benötigte Datenmenge nicht von der Dimension abhängt.E[Xi] müssen wir nur die Datenmenge berücksichtigen, die für das mit dem größten von σ i benötigt wird . Wenn wir also eine Abfolge von Schätzproblemen für die Vergrößerung von Dimensionen d betrachten , müssen wir nur berücksichtigen, wie viel die größte istXi σi d σi
Ähnliche Überlegungen gelten für die Schätzung der Varianzen und Kovarianzen σ i jσ2i σij : Reicht eine bestimmte Datenmenge für die Schätzung einer Kovarianz (oder eines Korrelationskoeffizienten) mit einer gewünschten Genauigkeit aus, so gilt - sofern die zugrunde liegende Normalverteilung ähnliche Parameterwerte aufweist - -die gleiche Datenmenge reicht aus, um einen Kovarianz- oder Korrelationskoeffizienten abzuschätzen.
Um dieses Argument zu veranschaulichen und empirisch zu belegen, wollen wir einige Simulationen untersuchen. Im Folgenden werden Parameter für eine Multinormalverteilung mit bestimmten Dimensionen erstellt, viele unabhängige, identisch verteilte Sätze von Vektoren aus dieser Verteilung gezeichnet, die Parameter aus jeder dieser Stichproben geschätzt und die Ergebnisse dieser Parameterschätzungen in Bezug auf (1) ihre Durchschnittswerte zusammengefasst. -um zu demonstrieren, dass sie unvoreingenommen sind (und der Code korrekt funktioniert - und (2) ihre Standardabweichungen, die die Genauigkeit der Schätzungen quantifizieren. (Verwechseln Sie nicht diese Standardabweichungen, die das Ausmaß der Abweichungen zwischen den über ein Vielfaches erhaltenen Schätzungen quantifizieren Iterationen der Simulation mit den zur Definition der zugrunde liegenden Multinormalverteilung verwendeten Standardabweichungen! ändert sich, sofern alsd ändert sich, wir führen keine größeren Varianzen in die zugrunde liegende Multinormalverteilung selbst ein.d
Die Größen der Varianzen der zugrunde liegenden Verteilung werden in dieser Simulation gesteuert, indem der größte Eigenwert der Kovarianzmatrix gleich1 . Dies hält die Wahrscheinlichkeitsdichte "Wolke" mit zunehmender Dimension in Grenzen, unabhängig von der Form dieser Wolke. Simulationen anderer Verhaltensmodelle des Systems mit zunehmender Dimension können einfach durch Ändern der Erzeugung der Eigenwerte erstellt werden. Ein Beispiel (unter Verwendung einer Gamma-Verteilung) ist im folgenden
R
Code auskommentiert.Was wir suchen, ist zu überprüfen, dass sich die Standardabweichungen der Parameterschätzungen nicht merklich ändern, wenn sich das Maß ändert. Ich zeige daher die Ergebnisse für zwei Extreme, d = 2 und d = 60 , wobei in beiden Fällen die gleiche Datenmenge ( 30 ) verwendet wird. Es ist bemerkenswert, dass die Anzahl der bei d = 60 geschätzten Parameter , die 1890 entspricht , die Anzahl der Vektoren ( 30 ) bei weitem übersteigt und sogar die einzelnen Zahlen ( 30 ∗ 60 = 1800 ) im gesamten Datensatz übersteigt .d d=2 d=60 30 d=60 1890 30 30∗60=1800
Beginnen wir mit zwei Dimensionen, . Es gibt fünf Parameter: zwei Varianzen (mit Standardabweichungen von 0,097 und 0,182 in dieser Simulation), eine Kovarianz (SD = 0,126 ) und zwei Mittelwerte (SD = 0,11 und 0,15 ). Bei verschiedenen Simulationen (erhältlich durch Ändern des Startwerts des Zufallssamens) variieren diese geringfügig, sind jedoch bei einer Stichprobengröße von n = 30 durchgehend von vergleichbarer Größe . Zum Beispiel sind in der nächsten Simulation die SDs 0,014 , 0,263 , 0,043 , 0,04 und 0,18d=2 0.097 0.182 0.126 0.11 0.15 n=30 0.014 0.263 0.043 0.04 0.18 jeweils: Sie alle haben sich geändert, sind aber von vergleichbarer Größenordnung.
(Diese Aussagen können theoretisch gestützt werden, hier geht es jedoch nur um eine rein empirische Demonstration.)
Jetzt bewegen wir uns zu , wobei die Stichprobengröße bei n = 30 bleibt . Konkret bedeutet dies, dass jede Probe aus 30 Vektoren mit jeweils 60 Komponenten besteht. Anstatt alle Standardabweichungen von 1890 aufzulisten, schauen wir uns Bilder davon mit Histogrammen an, um ihre Bereiche darzustellen.d=60 n=30 30 60 1890
Die Streudiagramme in der oberen Reihe vergleichen die tatsächlichen Parameterσ μ 104 Iterationen in dieser Simulation vorgenommen wurden. Die grauen Bezugslinien markieren den Ort der vollkommenen Gleichheit: Die Schätzungen funktionieren eindeutig wie beabsichtigt und sind unvoreingenommen.
sigma
( ) und ( μ ) mit den durchschnittlichen Schätzungen, die während der 10 4 vorgenommen wurdenmu
Die Histogramme erscheinen in der unteren Reihe getrennt für alle Einträge in der Kovarianzmatrix (links) und für die Mittelwerte (rechts). Die SDs der einzelnen Varianzen liegen tendenziell zwischen und 0,12, während die SDs der Kovarianzen zwischen einzelnen Komponenten tendenziell zwischen 0,04 und 0,08 liegen : genau in dem Bereich, der bei d = 2 erreicht wird . In ähnlicher Weise tendieren die SDs der mittleren Schätzungen dazu, zwischen 0,08 und 0,13 zu liegen , was vergleichbar ist mit dem, was gesehen wurde, wenn d = 2 ist . Sicher gibt es keinen Hinweis darauf, dass die SDs zugenommen haben0.08 0.12 0.04 0.08 d=2 0.08 0.13 d=2 as stieg von 2 auf 60 .d 2 60
Der Code folgt.
quelle
Einige kurze Zahlen geben die folgenden Fehlerverteilungen für die Anpassung von 30 Stichproben an, die aus einer Standardnormalverteilung erstellt wurden, und passen dann zu einem univariaten Gaußschen.
Die Quartile sind angegeben. Es wird angenommen, dass dieses Variationsniveau im mehrdimensionalen Fall erwünscht ist.
Ich habe nicht die Zeit, MatLab zu verprügeln, um das Gesamtergebnis zu erhalten, also werde ich meine "Faustregel" teilen. Die 30 wird als Faustregel oder Heuristik angegeben, sodass davon ausgegangen wird, dass Heuristiken nicht unannehmbar sind.
Meine Heuristik besteht darin, Pascals Dreieck multipliziert mit dem univariaten Fall zu verwenden.
Wenn ich 2D-Daten verwende, gehe ich in die 2. Zeile und summiere sie, um die doppelte Anzahl von Samples oder 60 Samples zu erhalten. Für 3D-Daten gehe ich in die 3. Reihe und summiere sie, um die vierfache Anzahl von Samples oder 120 Samples zu erhalten. Für 5d-Daten gehe ich in die 5. Reihe und summiere sie, um das 16-fache der Anzahl der Abtastwerte oder 480 Abtastwerte zu erhalten.
Viel Glück.
BEARBEITEN:
Es war intuitiv, aber alles muss in Mathe verteidigt werden. Ich kann nicht einfach aus der Formulierung von Polynomformen aus Finiten Elementen mit Erfahrung einen Sprung machen, um einen Ballpark zu erhalten.
Meine Idee für diesen Ansatz ist es, den AIC einer höherdimensionalen Verteilung mit mehr Samples mit einer reduzierten dimensionalen Verteilung mit weniger Samples gleichzusetzen.
Für jede Dimension, die wir eliminieren, bedeutet dies, dass der Mittelwert eine Zeile und die Kovarianz sowohl eine Zeile als auch eine Spalte verliert. Wir können dies als angeben
von
Unter der Annahme, dass der Fehler pro Abtastpunkt konstant ist, wird die verbleibende Quadratsumme mit der Abtastzahl in Beziehung gesetzt, und der Term im Logarithmus bleibt konstant. Die Differenz in der Anzahl der Proben wird zu einer Skalierungskonstante.
also haben wir:
Das Auflösen nach der Zunahme von Proben mit Dimension ergibt:
An diesem Punkt würde ich sagen, dass die Heuristik etwas niedrig beginnt, aber ungefähr doppelt so hoch ist wie die Anzahl der erforderlichen Abtastungen. Meiner persönlichen Meinung nach liegt der Bereich des besten Nutzens bei etwa vier Dimensionen.
BEARBEITEN:
Also habe ich die Antwort von @whuber gelesen und es gefällt mir. Es ist empirisch und in diesem Fall maßgeblich. Ich habe für seine Antwort gestimmt.
Im Folgenden versuche ich zu diskutieren und hoffe, mehr als ~ 300 Zeichen verwenden zu können, und ich hoffe, Bilder einbetten zu können. Ich diskutiere daher im Rahmen der Antwort. Ich hoffe das ist okay.
Ich bin zum jetzigen Zeitpunkt nicht davon überzeugt, dass die Verwendung von AIC dafür oder die Verwendung von Stichprobengröße und Parametergrößen falsch war.
Nächste Schritte:
Kommentare und Vorschläge sind willkommen.
quelle