Hochdimensionale Regression: Warum ist

16

Ich versuche, mich über die Forschung im Bereich der hochdimensionalen Regression zu informieren. wenn größer als ist, ist das . Es scheint, als würde der Begriff häufig als Konvergenzrate für Regressionsschätzer verwendet.n p > > n log p / npnp>>nLogp/n

Zum Beispiel hier die Gleichung (17) sagt , dass das lasso fit, erfüllt 1β^

1nXβ^-Xβ22=ÖP(σLogpnβ1).

Normalerweise impliziert dies auch, dass Logp kleiner als n .

  1. Gibt es eine Ahnung, warum dieses Verhältnis von Logp/n so bedeutend ist?
  2. Aus der Literatur geht auch hervor, dass das hochdimensionale Regressionsproblem kompliziert wird, wenn Logpn . Wieso ist es so?
  3. Gibt es eine gute Referenz, die die Probleme bespricht, wie schnell p und n im Vergleich zueinander wachsen sollten?
Greenparker
quelle
2
1. Der Term Logp stammt aus der (Gaußschen) Maßkonzentration. Insbesondere wenn Sie p IID Gaußsche Zufallsvariablen haben, liegt ihr Maximum mit hoher Wahrscheinlichkeit in der Größenordnung von σLogp . Der Faktor n-1 ergibt sich aus der Tatsache, dass Sie den durchschnittlichen Vorhersagefehler betrachten - dh, er stimmt mit dem Faktor n-1 auf der anderen Seite überein -, wenn Sie den Gesamtfehler betrachten, wäre er nicht vorhanden.
Mittwoch,
1
2. Im Wesentlichen müssen Sie zwei Kräfte steuern: i) die guten Eigenschaften, mehr Daten zu haben (also wollen wir, dass n groß ist); ii) die Schwierigkeiten haben mehr (irrelevante) Merkmale (also wollen wir, dass p klein ist). In der klassischen Statistik fixieren wir p und lassen n ins Unendliche: Dieses Regime ist für die hochdimensionale Theorie nicht besonders nützlich, da es konstruktionsbedingt im niedrigdimensionalen Regime liegt. Alternativ könnten wir p auf unendlich gehen lassen und n fest bleiben, aber dann explodiert unser Fehler und geht auf unendlich.
Mweylandt
1
Daher müssen wir berücksichtigen, dass beide gegen unendlich gehen, damit unsere Theorie beide relevant ist (hochdimensional bleibt), ohne apokalyptisch zu sein (unendliche Merkmale, endliche Daten). Zwei "Knöpfe" zu haben ist im Allgemeinen schwieriger als ein einziger Knopf, also setzen wir für einige und lassen auf unendlich (und damit indirekt). Die Wahl von bestimmt das Verhalten des Problems. Aus Gründen in meiner Antwort auf Q1 stellt sich heraus, dass die "Bösartigkeit" der zusätzlichen Funktionen nur als wächst, während die "Güte" der zusätzlichen Daten als wächst . p = f ( n ) f n p f log p nn,pp=f(n)fnpfLogpn
mweylandt
1
Wenn also konstant bleibt (äquivalent ist für einige ), betreten wir Wasser. Wenn ( ) ist, erreichen wir asymptotisch den Fehler Null. Und wenn ( ), geht der Fehler schließlich ins Unendliche. Dieses letzte Regime wird in der Literatur manchmal als "ultrahochdimensional" bezeichnet. Es ist nicht hoffnungslos (obwohl es nahe ist), aber es erfordert viel ausgefeiltere Techniken als nur ein einfaches Maximum an Gaußschen, um den Fehler zu kontrollieren. Die Notwendigkeit, diese komplexen Techniken anzuwenden, ist die ultimative Quelle für die Komplexität, die Sie feststellen. p = f ( n ) = Θ ( C n ) C log p / n 0 p = o ( C n ) log p / n p = ω ( C n )Logp/np=f(n)=Θ(Cn)CLogp/n0p=Ö(Cn)Logp/np=ω(Cn)
Mweylandt
@mweylandt Danke, diese Kommentare sind wirklich nützlich. Könnten Sie sie in eine offizielle Antwort umwandeln, damit ich sie kohärenter lesen und Sie unterstützen kann?
Greenparker

Antworten:

17

(Von Kommentaren zu einer Antwort verschoben, wie von @Greenparker angefordert)

Teil 1)

Der Term stammt aus der (Gaußschen) Maßkonzentration. Insbesondere wenn Sie IID Gaußsche Zufallsvariablen [F1] haben, liegt ihr Maximum mit hoher Wahrscheinlichkeit in der Größenordnung von . pσLogppσLogp

Der Faktor ergibt sich aus der Tatsache, dass Sie den durchschnittlichen Vorhersagefehler betrachten - dh, er stimmt mit dem Faktor auf der anderen Seite überein -, wenn Sie den Gesamtfehler betrachten, wäre er nicht vorhanden. n - 1n-1n-1

Teil 2)

Im Wesentlichen müssen Sie zwei Kräfte steuern:

  • i) die guten Eigenschaften, mehr Daten zu haben (also wollen wir, dass groß ist);n
  • ii) die Schwierigkeiten haben mehr (irrelevante) Merkmale (also wollen wir, dass klein ist).p

In der klassischen Statistik fixieren wir und lassen ins Unendliche: Dieses Regime ist für die hochdimensionale Theorie nicht besonders nützlich, da es (asymptotisch) konstruktionsbedingt im niedrigdimensionalen Regime liegt .npn

Alternativ könnten wir ins Unendliche gehen lassen und fest bleiben, aber dann explodiert unser Fehler, da das Problem im Wesentlichen unmöglich wird. Abhängig vom Problem kann der Fehler ins Unendliche gehen oder an einer natürlichen Obergrenze enden ( z. B. 100% Fehlklassifizierungsfehler).npn

Da diese beiden Fälle etwas nutzlos sind, betrachten wir stattdessen beide als unendlich, so dass unsere Theorie beide relevant ist (hochdimensional bleibt), ohne apokalyptisch zu sein (unendliche Merkmale, endliche Daten).n,p

Zwei "Knöpfe" zu haben, ist im Allgemeinen schwieriger als ein einziger Knopf, also setzen wir für ein festes und lassen gegen unendlich gehen (und daher geht indirekt gegen unendlich). [F2] Die Wahl von bestimmt das Verhalten des Problems. Aus Gründen in meiner Antwort auf Teil 1 stellt sich heraus, dass die "Bösartigkeit" der zusätzlichen Funktionen nur als wächst, während die "Güte" der zusätzlichen Daten als wächst .f n p f log p np=f(n)fnpfLogpn

  • Wenn konstant bleibt (äquivalent ist für einige ), treten wir auf Wasser und das Problem ist eine Wäsche (Fehler bleibt asymptotisch behoben); p=f(n)=Θ(Cn)CLogpnp=f(n)=Θ(Cn)C
  • wenn ( ), erreichen wir asymptotisch Nullfehler;p=o(Cn)Logpn0p=Ö(Cn)
  • und wenn ( ) ist, geht der Fehler irgendwann ins Unendliche.p=ω(Cn)Logpnp=ω(Cn)

Dieses letzte Regime wird in der Literatur manchmal als "ultrahochdimensional" bezeichnet. Der Begriff "ultrahochdimensional" hat meines Wissens keine strenge Definition, aber es ist informell nur "das Regime, das das Lasso und ähnliche Schätzer durchbricht".

Wir können dies mit einer kleinen Simulationsstudie unter ziemlich idealisierten Bedingungen demonstrieren. Hier nehmen wir eine theoretische Anleitung zur optimalen Auswahl von aus [BRT09] und wählen .λ = 3 λλ=3Log(p)/n

Betrachten Sie zunächst einen Fall mit . Dies ist in dem oben beschriebenen 'traktierbaren' hochdimensionalen Regime und wie die Theorie vorhersagt, sehen wir, dass der Vorhersagefehler gegen Null konvergiert:p=f(n)=3n

Hochdimensionale Asymptotika

Zu reproduzierender Code:

library(glmnet)
library(ggplot2)

# Standard High-Dimensional Asymptotics: log(p) / n -> 0

N <- c(50, 100, 200, 400, 600, 800, 1000, 1100, 1200, 1300)
P <- 3 * N

ERROR_HD <- data.frame()

for(ix in seq_along(N)){
  n <- N[ix]
  p <- P[ix]

  PMSE <- replicate(20, {
    X <- matrix(rnorm(n * p), ncol=p)
    beta <- rep(0, p)
    beta[1:10] <- runif(10, 2, 3)
    y <- X %*% beta + rnorm(n)

    g <- glmnet(X, y)

    ## Cf. Theorem 7.2 of Bickel et al. AOS 37(4), p.1705-1732, 2009. 
    ## lambda ~ 2*\sqrt{2} * \sqrt{\log(p)/n} 
    ## is good scaling for controlling prediction error of the lasso
    err <- X %*% beta - predict(g, newx=X, s=3 * sqrt(log(p)/n))
    mean(err^2)
  })

  ERROR_HD <- rbind(ERROR_HD, data.frame(PMSE=PMSE, n=n, p=p))
}

ggplot(ERROR_HD, aes(x=n, y=PMSE)) + geom_point() + theme_bw() + 
xlab("Number of Samples (n)") + 
ylab("Mean Prediction Error (at observed design points)") + 
ggtitle("Prediction Error Converging to 0 under High-Dim Asymptotics") + 
scale_x_continuous(sec.axis = sec_axis(~ 3 * ., name="Number of Features (p)")) + 
scale_y_log10()

Wir können dies mit dem Fall vergleichen, in dem ungefähr konstant bleibt: Ich nenne dies das ultrahochdimensionale "Grenzregime", aber das ist kein Standardbegriff:Logpn

P <- 10 + ceiling(exp(N/120))

Hier sehen wir, dass der Vorhersagefehler (unter Verwendung des gleichen Designs wie oben) abfällt, anstatt auf Null zu bleiben.

Grenzlinien-Ultrahochdimensionale Asyptotics

Setzt man , schneller zu wachsen als , ( zB , ), die Vorhersagefehler zunimmt , ohne Schranke. Diese ist lächerlich schnell und führt zu enormen Problemen / numerischen Problemen, daher hier ein etwas langsameres, aber immer noch UHD-Beispiel:Penen2en2

P <- 10 + ceiling(exp(N^(1.03)/120))

Ultrahochdimensionale Asymptotika

(Ich habe ein spärliches zufälliges für die Geschwindigkeit verwendet, also versuche nicht, die Zahlen direkt mit den anderen Darstellungen zu vergleichen.) In diesem Diagramm ist kaum ein Anstieg zu erkennen, vielleicht, weil wir das UHD-Wachstum nicht zu "ultra" in der Grafik dargestellt haben Name der Rechenzeit. Die Verwendung eines größeren Exponenten (wie ) würde das asymptotische Wachstum etwas deutlicher machen.Xen1.5

Ungeachtet dessen, was ich oben gesagt habe und wie es aussehen mag, ist das ultrahochdimensionale Regime nicht wirklich völlig hoffnungslos (obwohl es eng ist), aber es erfordert viel ausgefeiltere Techniken als nur ein einfaches Maximum von Gaußschen Zufallsvariablen, um den Fehler zu kontrollieren. Die Notwendigkeit, diese komplexen Techniken anzuwenden, ist die ultimative Quelle für die Komplexität, die Sie feststellen.

Es gibt keinen besonderen Grund zu der Annahme, dass in irgendeiner Weise "zusammenwachsen" sollte ( dh es gibt keinen offensichtlichen "realen" Grund, zu beheben ), aber Mathematik fehlen im Allgemeinen Sprache und Werkzeuge zur Diskussion Grenzen mit zwei "Freiheitsgraden", also ist es das Beste, was wir tun können (fürs Erste!).p,np=f(n)

Teil 3)

Ich kenne leider keine Bücher in der statistischen Literatur, die sich wirklich explizit mit dem Wachstum von vs befassen. (Möglicherweise ist etwas in der Literatur zu Drucksensoren enthalten.)Logpn

Meine derzeitige Lieblingsreferenz für diese Art von Theorie sind die Kapitel 10 und 11 des Statistischen Lernens mit Sparsity [F3], aber es wird im Allgemeinen der Ansatz verfolgt, festzuhalten und (nicht asymptotische) Eigenschaften mit endlicher Stichprobe zu erhalten, um ein "Gut" zu erhalten "Ergebnis. Dies ist tatsächlich ein leistungsfähigerer Ansatz - sobald Sie das Ergebnis für ein beliebiges , ist es einfach, die Asymptotik zu betrachten -, aber diese Ergebnisse sind im Allgemeinen schwieriger abzuleiten, sodass wir sie derzeit nur für Schätzer vom Lasso-Typ haben, soweit ich weiß kennt.n,pn,p

Wenn Sie sich wohlfühlen und bereit sind, sich mit Forschungsliteratur zu befassen, schaue ich mir Werke von Jianqing Fan und Jinchi Lv an, die den größten Teil der grundlegenden Arbeit an ultrahochdimensionalen Problemen geleistet haben. ("Screening" ist ein guter Suchbegriff)

[F1] Eigentlich jede subgaußsche Zufallsvariable, aber das fügt dieser Diskussion nicht viel hinzu.

[F2] Wir könnten auch die "wahre" Sparsity einstellen , dass sie von abhängt ( ), aber das ändert die Dinge nicht allzu sehr.sns=G(n)

[F3] T. Hastie, R. Tibshirani und M. Wainwright. Statistisches Lernen mit Sparsamkeit. Monographien zu Statistik und angewandter Wahrscheinlichkeit 143. CRC Press, 2015. Abrufbar unter https://web.stanford.edu/~hastie/StatLearnSparsity_files/SLS.pdf

[BRT] Peter J. Bickel, Ya'acov Ritov und Alexandre B. Tsybakov. "Simultane Analyse von Lasso und Dantzig Selector." Annals of Statistics 37 (4), p. 1705-1732, 2009. http://dx.doi.org/10.1214/08-AOS620

mweylandt
quelle
1
(+1) Vielen Dank, das ist sehr hilfreich und der Prämie würdig. Eine Frage: Können Sie mehr zu " bleibt konstant, wir treten auf dem Wasser" sagen? Ist es wichtig, ob diese Konstante größer als 1 oder kleiner als 1 ist? Logp/n
Greenparker
n