Angenommen, ich habe einen Datensatz mit Dimensionen (z. B. d = 20 ), so dass jede Dimension iid X i ∼ U [ 0 ; 1 ] (alternativ jede Dimension X i ∼ N [ 0 ; 1 ] ) und unabhängig voneinander.
Jetzt zeichne ich ein zufälliges Objekt aus diesem Datensatz und nehme die nächsten Nachbarn und berechne die PCA für diese Menge. Im Gegensatz zu dem, was man erwarten könnte, sind die Eigenwerte nicht alle gleich. In 20 einheitlichen Dimensionen sieht ein typisches Ergebnis folgendermaßen aus:
0.11952316626613427, 0.1151758808663646, 0.11170020254046743, 0.1019390988585198,
0.0924502502204256, 0.08716272453538032, 0.0782945015348525, 0.06965903935713605,
0.06346159593226684, 0.054527131148532824, 0.05346303562884964, 0.04348400728546128,
0.042304834600062985, 0.03229641081461124, 0.031532033468325706, 0.0266801529298156,
0.020332085835946957, 0.01825531821510237, 0.01483790669963606, 0.0068195084468626625
Für normalverteilte Daten scheinen die Ergebnisse sehr ähnlich zu sein, zumindest wenn sie auf eine Gesamtsumme von skaliert werden (die N [ 0 ; 1 ] d- Verteilung weist in erster Linie eindeutig eine höhere Varianz auf).
Ich frage mich, ob es ein Ergebnis gibt, das dieses Verhalten vorhersagt. Ich suche nach einem Test, ob die Reihe der Eigenwerte etwas regelmäßig ist und wie viele der Eigenwerte wie erwartet sind und welche sich signifikant von den erwarteten Werten unterscheiden.
Gibt es für eine gegebene (kleine) Stichprobengröße ein Ergebnis, wenn ein Korrelationskoeffizient für zwei Variablen signifikant ist? Sogar iid-Variablen haben gelegentlich ein Ergebnis ungleich 0 für niedriges k .
quelle
Antworten:
quelle