Beispiele für eine Statistik, die nicht unabhängig von der Verteilung der Stichprobe ist?

Dies ist die Definition für Statistik auf Wikipedia

Genauer gesagt definiert die statistische Theorie eine Statistik als Funktion einer Stichprobe, wobei die Funktion selbst unabhängig von der Verteilung der Stichprobe ist. Das heißt, die Funktion kann vor der Realisierung der Daten angegeben werden. Der Begriff Statistik wird sowohl für die Funktion als auch für den Wert der Funktion für eine bestimmte Stichprobe verwendet.

Ich glaube, ich verstehe den größten Teil dieser Definition, aber den Teil, in dem die Funktion unabhängig von der Verteilung des Samples ist, konnte ich nicht aussortieren.

Mein bisheriges Verständnis von Statistik

Eine Stichprobe ist eine Reihe von Realisierungen einiger unabhängiger, identisch verteilter (iid) Zufallsvariablen mit der Verteilung F (10 Realisierungen eines Würfels mit 20 fairen Würfeln, 100 Realisierungen von 5 Würfeln mit 6 fairen Würfeln, zufällig 100 Personen aus einer Bevölkerung ziehen).

Eine Funktion, deren Domäne diese Menge ist und deren Bereich die reellen Zahlen sind (oder die möglicherweise andere Dinge erzeugen kann, wie z. B. einen Vektor oder ein anderes mathematisches Objekt ...), wird als Statistik betrachtet .

Wenn ich an Beispiele denke, sind Mittelwert, Median und Varianz in diesem Zusammenhang sinnvoll. Sie sind eine Funktion auf der Grundlage von Erkenntnissen (Blutdruckmessungen aus einer Zufallsstichprobe). Ich kann auch sehen, wie ein lineares Regressionsmodell als Statistik betrachtet werden kann. - ist dies nicht nur eine Funktion auf einer Reihe von Realisierungen? $y_{i} = \alpha + \beta \cdot x_{i}$

Wo ich verwirrt bin

Unter der Annahme, dass mein Verständnis von oben richtig ist, konnte ich nicht verstehen, wo eine Funktion möglicherweise nicht unabhängig von der Verteilung des Samples ist. Ich habe versucht, ein Beispiel zu finden, um es zu verstehen, aber kein Glück. Jede Einsicht wäre sehr dankbar!

mathematical-statistics definition Jake Kirsch
quelle

Antworten:

Diese Definition ist etwas umständlich. Eine "Statistik" ist jede Funktion der beobachtbaren Werte. All diese Definition bedeutet, dass eine Statistik nur eine Funktion der beobachtbaren Werte ist, nicht eine Funktion der Verteilung oder eines ihrer Parameter. Wenn beispielsweise ist, wäre eine Statistik eine beliebige Funktion während eine Funktion wäre keine Statistik, da sie von abhängt . Hier einige weitere Beispiele: $X_1, X_2, ..., X_n \sim \text{N}(\mu, 1)$ $T(X_1,...,X_n)$ $H(X_1,....,X_n, \mu)$ $\mu$

\begin{aligned} Statistic & {\bar{X}}_{n} = \frac{1}{n} \sum_{i = 1}^{n} X_{i}, \\ Statistic & S_{n}^{2} = \frac{1}{n} \sum_{i = 1}^{n} (X_{i} - {\bar{X}}_{n})^{2}, \\ Not a statistic & D_{n} = {\bar{X}}_{n} - μ, \\ Not a statistic & p_{i} = N (x_{i} | μ, 1), \\ Not a statistic & Q = 10 μ . \end{aligned}

$\begin{equation} \begin{aligned} \text{Statistic} & & & & & \bar{X}_n = \frac{1}{n} \sum_{i=1}^n X_i, \\[12pt] \text{Statistic} & & & & & S_n^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X}_n)^2, \\[12pt] \text{Not a statistic} & & & & & D_n = \bar{X}_n - \mu, \\[12pt] \text{Not a statistic} & & & & & p_i = \text{N}(x_i | \mu, 1), \\[12pt] \text{Not a statistic} & & & & & Q = 10 \mu. \\[12pt] \end{aligned} \end{equation}$

Jede Statistik ist nur eine Funktion der beobachtbaren Werte und nicht ihrer Verteilung oder ihrer Parameter. Es gibt also keine Beispiele für eine Statistik, die eine Funktion der Verteilung oder ihrer Parameter ist (eine solche Funktion wäre keine Statistik). Es ist jedoch wichtig zu beachten, dass die Verteilung einer Statistik (im Gegensatz zur Statistik selbst) im Allgemeinen von der zugrunde liegenden Verteilung der Werte abhängt. (Dies gilt für alle Statistiken mit Ausnahme von Zusatzstatistiken .)

Was ist mit einer Funktion, bei der die Parameter bekannt sind? In den Kommentaren unten stellt Alecos eine ausgezeichnete Folgefrage. Was ist mit einer Funktion, die einen festen hypothetischen Wert des Parameters verwendet? Zum Beispiel, was über die Statistik , wo genommen wird gleich einen bekannten Wert hypothetisch sein . Hier ist die Funktion in der Tat eine Statistik, solange sie auf der entsprechend eingeschränkten Domäne definiert ist. Die Funktion mit wäre also eine Statistik , aber die Funktion $\sqrt{n} (\bar{x} - \mu)$ $\mu = \mu_0$ $\mu_0 \in \mathbb{R}$ $H_0: \mathbb{R}^n \rightarrow \mathbb{R}$ $H_0(x_1,...,x_n) = \sqrt{n} (\bar{x} - \mu_0)$ $H: \mathbb{R}^{n+1} \rightarrow \mathbb{R}$ mit wäre keine Statistik. $H(x_1,...,x_n, \mu) = \sqrt{n} (\bar{x} - \mu)$

Setzen Sie Monica wieder ein
quelle

Eine sehr hilfreiche Antwort, bei der der zugrunde liegende statistische Parameter als Teil der Nichtstatistik betrachtet wurde, war besonders hilfreich.

Jake Kirsch

@ CarlWitthoft Ich verstehe deinen Standpunkt nicht. Wenn es eine Funktion der beobachtbaren Werte ist, dann ist es eine Statistik. Dies kann eine Funktion einer kleineren Teilmenge der Werte sein. Das kann immer noch eine nützliche Sache sein. Wenn Sie den Mittelwert schätzen möchten und Beobachtungen haben, sehen Sie sich möglicherweise immer noch wenn die Kosten für die Datenverarbeitung hoch und die Kosten für Fehler hoch sind klein. Oder Sie möchten aus irgendeinem Grund zwei unabhängige Schätzungen des Mittelwerts berücksichtigen und könnten und berücksichtigen . Dies sind noch Statistiken.

10^{10}

$10^{10}$

(X_{1} + X_{2} + \dots + X_{1000}) / 1000

$(X_1+X_2+\dots+X_{1000})/1000$

(X_{1} + \dots + X_{n / 2}) / (n / 2)

$(X_1+\dots+X_{n/2})/(n/2)$

(X_{n / 2 + 1} + \dots + X_{n}) / (n / 2)

$(X_{n/2+1}+\dots+X_n)/(n/2)$

James Martin

Diese Beispiele scheinen mir völlig gültig zu sein. Wollen Sie damit sagen, dass die Idee, Daten in einen Trainingssatz und einen Validierungssatz zu unterteilen, nicht gültig ist?

James Martin

Das verwirrt mich auch ein bisschen. Lassen Sie mich versuchen, @CarlWitthoft Punkt zu beschreiben. Es wäre immer noch eine Statistik im Sinne der mathematischen Definition, aber ich könnte einen Fall sehen, in dem ein Berater eine 'Statistik' von Beobachtungen erstellt, aber willkürlich beschließt, einige Ergebnisse zu entfernen (Berater tun dies die ganze Zeit richtig?). Dies wäre in dem Sinne 'gültig', dass es immer noch eine Funktion von Beobachtungen ist, jedoch wäre die Art und Weise, in der Statistiken dargestellt und interpretiert werden, wahrscheinlich nicht gültig.

Jake Kirsch

@Carl Withhoft: In Bezug auf den Punkt, den Sie ansprechen, ist es wichtig, zwischen einer Statistik (die nicht alle Daten enthalten muss und möglicherweise nicht alle Informationen in der Stichprobe enthält) und einer ausreichenden Statistik (die alle Daten enthält) zu unterscheiden die Informationen bezüglich einiger Parameter). Die statistische Theorie hat bereits gut entwickelte Konzepte wie Suffizienz, die die Idee erfassen, dass eine Statistik alle relevanten Informationen in die Stichprobe einbezieht. Es ist nicht notwendig oder wünschenswert, diese Anforderung in die Definition einer "Statistik" zu integrieren.

Setzen Sie Monica am

Ich interpretiere das so, dass Sie entscheiden sollten, bevor Sie die Daten sehen, welche Statistik Sie berechnen werden. Wenn Sie beispielsweise Ausreißer ausschließen möchten, sollten Sie entscheiden, bevor Sie die Daten sehen, was einen "Ausreißer" ausmacht. Wenn Sie sich entscheiden, nachdem Sie die Daten angezeigt haben, ist Ihre Funktion von den Daten abhängig.

Akkumulation
quelle

das ist auch hilfreich! Treffen Sie also eine Entscheidung darüber, welche Beobachtungen in die Funktion aufgenommen werden sollen, nachdem Sie wissen, welche Beobachtungen verfügbar sind. Dies ist mehr oder weniger das, was ich in meinem Kommentar zur vorherigen Antwort beschrieben habe.

Jake Kirsch

(+1) Dies ist möglicherweise wichtig, da es (relativ) einfach ist, eine Verteilung für statistische Daten (dh abgeschnittene Mittelwerte usw.) .). Es ist wirklich schwierig, eine Verteilung für eine Kennzahl abzuleiten, bei der Datenpunkte aus Gründen gelöscht werden, die zuvor nicht klar definiert wurden.

Cliff AB