Sei , sei eine Verteilung über und nehme an, dass seine Unterstützung in der Einheit -ball enthalten ist. Was ist die minimale Anzahl von iid-Stichproben , , die benötigt werden, um einen Schätzer des Mittelwerts mit der folgenden Garantie zu berechnen ?
Mich interessiert besonders, wie von , und \ epsilon abhängt .
Ich vermute, dass dies in der Vergangenheit untersucht wurde, aber ich konnte keine Referenz finden. Andere Garantien (z. B. in Erwartung) könnten ebenfalls nützlich sein.
Schließlich kann diese Frage unter Berücksichtigung einer beliebigen Norm anstelle von \ | \ cdot \ | _p allgemeiner gestellt werden . Alle Ergebnisse in dieser Richtung wären sehr nützlich.
estimation
mean
Cristóbal Guzmán
quelle
quelle
Antworten:
Ein eng verwandtes Thema ist das der Konzentrationsungleichheiten , die Ihnen eine Grenze (der Art, nach der Sie suchen) geben, die auch von der Anzahl der Proben (unter anderem) abhängt. Konkret ist das Konzept der Rademacher-Komplexität ein Standardwerkzeug, um diese Art von Problemen anzugehen. Die Rademacher-Komplexität kann als Permutationstest verstanden werden, bei dem Sie Ihre Beschriftungen zufällig ändern. Wenn Sie sich mit dem Problem der Schätzung des Mittelwerts befassen, gibt die Grenze an, wie wahrscheinlich es ist, dass Sie sich zufällig dem tatsächlichen Mittelwert nähern (wie konzentriert sind die Stichproben um den Mittelwert und wie stabil sind Ihre Schätzungen basierend auf verschiedenen Stichproben). .
Genauer gesagt, für eine Stichprobe der Größe , die aus einer Wahrscheinlichkeitsverteilung , und für eine reelle Funktionsklasse mit Domäne die empirische Rademacher-Komplexität ist die Zufallsvariable, definiert als wobei unabhängige Uniform sind bewertete Zufallsvariablen. Die Rademacher-Komplexität ist,X=(xi) l D F X
Das sup bedeutet, dass es nach der höchstmöglichen Korrelation mit zufälligem Rauschen sucht. Dieses Konzept ist nun aufgrund des folgenden Satzes relevant:
Unter den obigen Bedingungen wird angenommen, dass die Klasse der Abbildungen von bis zum Intervall , und sei eine Stichprobe der Größe . Wenn Sie fixieren , dann erfüllt mit der Wahrscheinlichkeit über zufällige Ziehungen der Größe jedes ,F X [0,1] (zi) l δ∈(0,1) 1−δ l f∈F
Beachten Sie, dass der Hut verwendet wird, um die empirische Erwartung anzuzeigen, die an einer bestimmten Probe gemessen wurde.
Die Idee ist, eine solche Familie von f zu finden und den Satz zu verwenden. Da eine kompakte Unterstützung hat, wissen Sie, dass in , wobei der Radius der Kugel ist.D (W−E[W])2/R [0,1] R
Mit den Eigenschaften der Rademacher Komplexität und einen zweiten Satz mit dem Sie die Rademacher Komplexität für lineare Vorhersage gibt (Details finden sich hier und im Detail hier ), erhalten Sie die folgende für Ihre Wahrscheinlichkeit gebunden
PS Ich habe gerade festgestellt, dass Sie sich auf die p-Norm bezogen haben. Trotzdem können Sie die Khintchine-Ungleichung verwenden, um diese Menge an die 2-Norm zu binden.
quelle
Lassen Sie mich diese Frage und Antwort weiterverfolgen. In der Tat kann die Verbindung der linearen Funktionen des Doppelkörpers zur Rademacher-Komplexität verwendet werden, um Obergrenzen für das Problem bereitzustellen. Aber das ist nicht ganz das, worüber Cristobal und ich fragen. (Ganz zu schweigen davon, dass die Frage, die wir stellen, noch grundlegender ist).
Die Rademacher-Komplexität charakterisiert die Konvergenzrate des empirischen Mittelwerts zum wahren Mittelwert. So kann es eine Obergrenze geben. Diese Obergrenze ist in vielen Fällen eng, aber wir sind an Grenzen interessiert, die für jeden Mittelwertschätzer gelten.
Wir sind auch an Ergebnissen interessiert, die über das einfache (oder sogar für Fälle, die in der Antwort behandelt werden, aber allgemeine Normen, die durch einen konvexen, auf den Ursprung zentrierten Körper definiert sind.L2 Lp p>2
quelle
Vielen Dank an alle für die Antworten. Die Komplexität von Rademacher ist in der Tat ein nützliches Werkzeug, um Obergrenzen abzuleiten. Die Komplexität der Probe kann jedoch auch von der Geometrie des konvexen Körpers abhängen, an dem wir interessiert sind. In dieser Hinsicht kann man Ideen der gleichmäßigen Glätte und gleichmäßigen Konvexität aus der Banach-Raumtheorie verwenden, um die richtigen Raten zu erhalten. Dies ist in einigen Bereichen bekannt, aber ich habe keine präzise Referenz gefunden, daher haben wir die Analyse in unser Papier aufgenommen (siehe Anhang B unter http://arxiv.org/pdf/1512.09170v1.pdf ).
Zwei Fragen, die mir noch offen bleiben, sind zum einen: Wie lassen sich Untergrenzen für die Stichprobenkomplexität des empirischen Mittelwerts basierend auf der Rademacher-Komplexität ableiten? Dies ist vermutlich Standard, aber ich habe keine Referenz gefunden. Die zweite Frage lautet: Gibt es Beispiele, bei denen der empirische Mittelwert nicht die beste Stichprobenkomplexität für die Mittelwertschätzung bietet?
quelle