Ist eine quantitative Eigenschaft der Bevölkerung ein „Parameter“?

13

Ich bin relativ vertraut mit der Unterscheidung zwischen den Begriffen Statistik und Parameter. Ich sehe eine Statistik als den Wert, der durch Anwenden einer Funktion auf die Beispieldaten erhalten wird. Die meisten Beispiele für Parameter beziehen sich jedoch auf die Definition einer parametrischen Verteilung. Ein übliches Beispiel ist der Mittelwert und die Standardabweichung zur Parametrisierung der Normalverteilung oder die Koeffizienten und die Fehlervarianz zur Parametrisierung einer linearen Regression.

Es gibt jedoch viele andere Werte der Populationsverteilung, die weniger prototypisch sind (z. B. Minimum, Maximum, r-Quadrat bei multipler Regression, .25-Quantil, Median, Anzahl der Prädiktoren mit Koeffizienten ungleich Null, Schiefe, Anzahl von Korrelationen in einer Korrelationsmatrix größer als 0,3 usw.).

So meine Fragen sind:

Sollte eine quantitative Eigenschaft einer Population als "Parameter" bezeichnet werden?
Wenn ja, warum dann?
Wenn nein, welche Merkmale sollten nicht als Parameter bezeichnet werden? Was sollen sie beschriftet werden? Und warum?

Ausarbeitung auf Verwirrung

Der Wikipedia-Artikel über Schätzer lautet:

Ein "Schätzer" oder eine "Punktschätzung" ist eine Statistik (dh eine Funktion der Daten), die verwendet wird, um auf den Wert eines unbekannten Parameters in einem statistischen Modell zu schließen.

Aber ich kann den unbekannten Wert als .25-Quantil definieren und einen Schätzer für diesen unbekannten Wert entwickeln. Das heißt, nicht alle quantitativen Eigenschaften einer Population sind Parameter in der gleichen Weise, wie der Mittelwert und der sd Parameter einer Normalverteilung sind, es ist jedoch legitim, zu versuchen, quantitative Eigenschaften einer Population abzuschätzen.

estimation terminology sample population Jeromy Anglim
quelle

15

Diese Frage beschäftigt sich mit der Frage, was Statistik ist und wie eine gute statistische Analyse durchgeführt werden kann. Es wirft viele Fragen auf, einige der Terminologie und andere der Theorie. Um sie zu verdeutlichen, betrachten wir zunächst den impliziten Kontext der Frage und definieren von dort aus die Schlüsselbegriffe "Parameter", "Eigenschaft" und "Schätzer". Die verschiedenen Teile der Frage werden beantwortet, sobald sie in der Diskussion auftauchen. Der letzte abschließende Abschnitt fasst die wichtigsten Ideen zusammen.

Zustandsräume

Eine gebräuchliche statistische Verwendung von "der Verteilung", wie in "der Normalverteilung mit PDF proportional zu "ist eigentlich ein (schwerwiegender) Missbrauch des Englischen, da es sich offensichtlich nicht um eine einzige Verteilung handelt: Es handelt sich um eine ganze Familie von Verteilungen, diedurch die Symboleundparametrisiert sind. Eine Standardnotation für Dies ist der "Zustandsraum", eineMenge $\exp(-\frac{1}{2}(x-\mu)/\sigma)^2)dx$ $\mu$ $\sigma$ $\Omega$ von Distributionen. (Ich vereinfache hier ein wenig, um dies zu erläutern, und werde es im weiteren Verlauf weiter vereinfachen, wobei ich so streng wie möglich bleibe.) Seine Aufgabe besteht darin, die möglichen Ziele unserer statistischen Verfahren abzugrenzen: Wenn wir etwas schätzen, sind wir es Auswählen eines (oder mehrerer) Elemente von . $\Omega$

Manchmal werden Zustandsräume explizit parametrisiert, wie in . In dieser Beschreibung gibt es eine Eins-zu-Eins-Entsprechung zwischen der Menge der Tupel in der oberen Halbebene und der Menge der Verteilungen, die wir zur Modellierung unserer Daten verwenden werden. Ein Wert einer solchen Parametrisierung ist, dass wir uns nun konkret auf Verteilungen in mit Hilfe eines geordneten Paars reeller Zahlen beziehen können. $\Omega = \{\mathcal{N}(\mu, \sigma^2)|\mu \in \mathbb{R}, \sigma \gt 0\}$ $\{(\mu,\sigma)\}$ $\Omega$

In anderen Fällen werden Zustandsräume nicht explizit parametrisiert. Ein Beispiel wäre die Menge aller unimodalen stetigen Verteilungen. Im Folgenden werden wir uns mit der Frage befassen, ob in solchen Fällen ohnehin eine ausreichende Parametrisierung zu finden ist.

Parametrisierungen

Im Allgemeinen wird eine Parametrisierung von ist eine Entsprechung (mathematische Funktion ) von einer Untergruppe von (mit finite) zu . Das heißt, es werden geordnete Sätze von Tupeln verwendet, um die Verteilungen zu kennzeichnen. Aber es ist nicht irgendeine Korrespondenz, es muss "gut benommen" sein. Um dies zu verstehen, betrachten Sie die Menge aller fortlaufenden Distributionen, deren PDFs endliche Erwartungen haben. Dies würde allgemein als "nicht parametrisch" in dem Sinne angesehen, dass jeder "natürliche" Versuch, diese Menge zu parametrisieren, eine abzählbare Folge von reellen Zahlen beinhalten würde (unter Verwendung einer Erweiterung auf einer beliebigen orthogonalen Basis). Trotzdem, weil diese Menge die Kardinalität $\Omega$ $\mathbb{R}^d$ $d$ $\Omega$ $d$ , welches die Kardinalität der Realzahlen ist, muss eine Eins-zu-Eins-Entsprechung zwischen diesen Verteilungen und . Paradoxerweise scheint dies einparametrisierterZustandsraum mit einemeinzigenreellen Parameter zu sein! $\aleph_1$ $\mathbb{R}$

Das Paradoxon wird durch die Feststellung gelöst, dass eine einzelne reelle Zahl keine "nette" Beziehung zu den Verteilungen haben kann: Wenn wir den Wert dieser Zahl ändern, muss sich die Verteilung, der sie entspricht, in einigen Fällen radikal ändern. Wir schließen solche "pathologischen" Parametrisierungen aus, indem wir verlangen, dass Verteilungen, die engen Werten ihrer Parameter entsprechen, selbst nahe beieinander liegen müssen. Die Diskussion geeigneter Definitionen von "nah" würde uns zu weit führen, aber ich hoffe, dass diese Beschreibung ausreicht, um zu demonstrieren, dass ein Parameter viel mehr beinhaltet, als nur eine bestimmte Distribution zu benennen.

Eigenschaften von Distributionen

Durch wiederholte Anwendung gewöhnen wir uns daran, eine "Eigenschaft" einer Distribution als eine verständliche Größe zu betrachten, die in unserer Arbeit häufig vorkommt, wie z. B. ihre Erwartung, Varianz und so weiter. Das Problem dabei als mögliche Definition von "Eigentum" ist, dass es zu vage und nicht allgemein genug ist. (Hier befand sich Mitte des 18. Jahrhunderts die Mathematik, in der "Funktionen" als endliche Prozesse auf Objekte angewendet wurden.) Stattdessen besteht die einzig sinnvolle Definition von "Eigenschaft" darin, eine Eigenschaft als zu betrachten eine Zahl, die jeder Verteilung in eindeutig zugeordnet ist $\Omega$ . Dies beinhaltet den Mittelwert, die Varianz, jeden Moment, jede algebraische Kombination von Momenten, jedes Quantil und vieles mehr, einschließlich der Dinge, die nicht einmal berechnet werden können. Es enthält jedoch keine Dinge, die für einige der Elemente von keinen Sinn ergeben würden . Wenn zum Beispiel aus allen Student-t-Verteilungen besteht, ist der Mittelwert keine gültige Eigenschaft für (weil keinen Mittelwert hat). Dies beeindruckt uns erneut, wie sehr unsere Ideen davon abhängen, woraus wirklich besteht. $\Omega$ $\Omega$ $\Omega$ $t_1$ $\Omega$

Eigenschaften sind nicht immer Parameter

Eine Eigenschaft kann eine so komplizierte Funktion sein, dass sie nicht als Parameter dient. Betrachten Sie den Fall der "Normalverteilung". Wir möchten vielleicht wissen, ob der Mittelwert der wahren Verteilung, wenn er auf die nächste ganze Zahl gerundet wird, gerade ist. Das ist eine Eigenschaft. Es wird aber nicht als Parameter dienen.

Parameter sind nicht unbedingt Eigenschaften

Wenn Parameter und Verteilungen eins zu eins übereinstimmen, ist offensichtlich jeder Parameter und jede Funktion der Parameter eine Eigenschaft gemäß unserer Definition. Es muss jedoch keine Eins-zu-Eins-Entsprechung zwischen Parametern und Verteilungen geben: Manchmal müssen einige Verteilungen durch zwei oder mehr deutlich unterschiedliche Werte der Parameter beschrieben werden. Beispielsweise würde ein Positionsparameter für Punkte auf der Kugel natürlich Breiten- und Längengrade verwenden. Das ist in Ordnung - außer an den beiden Polen, die einem bestimmten Breitengrad und einem gültigen Längengrad entsprechen. Die lage(Punkt auf der Kugel) ist zwar eine Eigenschaft, aber ihre Länge ist nicht unbedingt eine Eigenschaft. Obwohl es verschiedene Ausweichmanöver gibt (deklarieren Sie beispielsweise die Länge eines Pols als Null), wird in diesem Thema der wichtige konzeptionelle Unterschied zwischen einer Eigenschaft (die eindeutig mit einer Verteilung verknüpft ist) und einem Parameter (der eine Art der Beschriftung darstellt) hervorgehoben die Verteilung und möglicherweise nicht eindeutig).

Statistische Verfahren

Das Ziel einer Schätzung wird Schätzand genannt . Es ist nur eine Eigenschaft. Die Statistikerin kann den Schätzwert nicht frei wählen: das ist die Provinz ihres Klienten. Wenn jemand mit einer Stichprobe einer Bevölkerung zu Ihnen kommt und Sie auffordert, das 99. Perzentil der Bevölkerung zu schätzen, ist es wahrscheinlich ein Versäumnis, stattdessen einen Schätzer für den Mittelwert anzugeben! Ihre Aufgabe als Statistiker ist es, ein gutes Verfahren für die Schätzung des Schätzwerts zu finden, den Sie erhalten haben. (Manchmal ist es Ihre Aufgabe, Ihren Kunden davon zu überzeugen, dass er die falsche Schätzung für seine wissenschaftlichen Ziele gewählt hat, aber das ist ein anderes Thema ...)

Per Definition ist eine Prozedur eine Möglichkeit, eine Zahl aus den Daten zu erhalten. Prozeduren werden normalerweise als Formeln angegeben, die auf die Daten angewendet werden sollen, wie "Addiere sie alle und dividiere durch ihre Anzahl". Wörtlich kann jede Prozedur als "Schätzer" eines gegebenen Schätzers bezeichnet werden. Zum Beispiel könnte ich erklären, dass der Stichprobenmittelwert (eine Formel, die auf die Daten angewendet wird) die Populationsvarianz schätzt (eine Eigenschaft der Population, vorausgesetzt, unser Kunde hat die Menge der möglichen Populationen auf diejenigen beschränkt, die tatsächlich Varianzen aufweisen). $\Omega$

Schätzer

Ein Schätzer muss keine offensichtliche Verbindung zum Schätzer haben. Sehen Sie zum Beispiel einen Zusammenhang zwischen dem Stichprobenmittelwert und einer Populationsvarianz? Ich auch nicht. Trotzdem ist der Stichprobenmittelwert tatsächlich ein anständiger Schätzer der Populationsvarianz für bestimmte $\Omega$ (wie die Menge aller Poisson-Verteilungen). Hierin liegt ein Schlüssel zum Verständnis von Schätzern: Ihre Eigenschaften hängen von der Menge der möglichen Zustände . Aber das ist nur ein Teil davon. $\Omega$

Ein kompetenter Statistiker möchte wissen, wie gut das von ihm empfohlene Verfahren tatsächlich funktioniert. Nennen wir die Prozedur " " und lassen Sie den Schätzwert . Da sie nicht weiß, welche Verteilung tatsächlich die wahre ist, wird sie die Leistung der Prozedur für jede mögliche Verteilung . Wenn ein solches ist und ein mögliches Ergebnis (d. H. Ein Satz von Daten), vergleicht sie (was ihre Prozedur schätzt) mit (den Wert des Schätzers für ). $t$ $\theta$ $F \in \Omega$ $F$ $s$ $t(s)$ $\theta(F)$ $F$ Es liegt in der Verantwortung ihrer Klientin, ihr zu sagen, wie nah oder fern diese beiden sind. (Dies geschieht häufig mit einer "Verlust" -Funktion.) Sie kann dann die Erwartung des Abstands zwischen und . Dies ist das Risiko ihres Verfahrens. Da es von abhängt , ist das Risiko eine auf definierte Funktion . $t(s)$ $\theta(F)$ $F$ $\Omega$

(Gute) Statistiker empfehlen Verfahren, die auf einem Risikovergleich beruhen. Nehmen wir zum Beispiel an, dass für jedes das Risiko der Prozedur kleiner oder gleich dem Risiko von . Dann gibt es keinen Grund, jemals zu verwenden : es ist "unzulässig". Ansonsten ist es "zulässig". $F \in \Omega$ $t_1$ $t$ $t$

(Ein "Bayesian" -Statistiker vergleicht Risiken immer durch Mittelung über eine "vorherige" Verteilung möglicher Zustände (in der Regel vom Kunden bereitgestellt). Ein "Frequentist" -Statistiker könnte dies tun, wenn dies gerechtfertigt ist, ist aber auch dazu bereit Risiken auf andere Weise vergleichen (Bayesianer meiden)

Schlussfolgerungen

Wir haben das Recht zu sagen, dass jedes , das für zulässig ist, ein Schätzer von . $t$ $\theta$ $\theta$ Aus praktischen Gründen (weil zulässige Verfahren schwer zu finden sind) müssen wir dies so ändern, dass wir sagen, dass jedes , das ein annehmbar geringes Risiko aufweist (wenn es mit verglichen wird ), unter den praktikablen Verfahren ein Schätzer von . $t$ $\theta$ $\theta$ "Akzeptabel" und "praktikabel" werden natürlich vom Kunden festgelegt: "akzeptabel" bezieht sich auf sein Risiko und "praktikabel" spiegelt die (letztendlich von ihnen bezahlten) Kosten für die Durchführung des Verfahrens wider.

Dieser prägnanten Definition liegen alle eben diskutierten Ideen zugrunde: Um sie zu verstehen, müssen wir ein bestimmtes (das ein Modell des Problems, des Prozesses oder der untersuchten Population ist), einen bestimmten Schätzwert (vom Kunden geliefert), a spezifische Verlustfunktion (die quantitativ verbindet zum estimand und auch durch die Kunden gegeben wird), ist die Idee des Risikos (berechnet durch die Statistiker), einige Verfahren für den Vergleich von Risikofunktionen (die Verantwortung der Statistiker in Absprache mit dem Kunden), und ein Gefühl dafür, welche Verfahren tatsächlich ausgeführt werden können (das Problem der "Praktikabilität"), obwohl keines davon ausdrücklich in der Definition erwähnt wird. $\Omega$ $t$

whuber
quelle

2

@ Nick Cox bringt in seiner Antwort einige hervorragende Punkte vor, die (meiner Interpretation nach) wie folgt lauten: "Was machen wir, wenn wir wissen, dass ein Modell

und eine Verlustfunktion, die wir spezifizieren, etwas ungenau oder unangemessen sein werden?" Die Antwort darauf würde uns in eine andere Richtung führen; Alles, was ich hier sagen möchte, ist, dass der Rahmen, auf den Tukey reagiert hat, eine gute Grundlage für das Nachdenken über solche umfassenderen Fragen der Datenanalyse bietet. Zumindest werden die impliziten Annahmen geklärt, die in Standardbegriffe wie "Schätzer" eingehen.

Ω

$\Omega$

Whuber

11

Wie bei vielen Fragen zu Definitionen müssen Antworten sowohl die zugrunde liegenden Prinzipien als auch die Art und Weise, wie Begriffe in der Praxis verwendet werden, im Auge behalten, was selbst von gut informierten Personen und mehr oftmals ein wenig locker oder inkonsistent sein kann Wichtig, variabel von Gemeinde zu Gemeinde.

Ein allgemeines Prinzip ist, dass eine Statistik eine Eigenschaft einer Stichprobe und eine bekannte Konstante ist und ein Parameter die entsprechende Eigenschaft der Grundgesamtheit und somit eine unbekannte Konstante ist. Das Wort "korrespondierend" ist hier durchaus elastisch zu verstehen. Im Übrigen ist genau diese Unterscheidung und genau diese Terminologie weniger als ein Jahrhundert alt, da sie von RA Fisher eingeführt wurde.

Aber

Eine Zusammenstellung von Stichprobe und Grundgesamtheit kennzeichnet nicht alle unsere eigenen Probleme. Zeitreihen sind eine Hauptklasse von Beispielen, bei denen die Idee eher ein zugrunde liegender Erzeugungsprozess ist, und so etwas ist wohl die tiefere und allgemeinere Idee.
Es gibt Setups, in denen sich Parameter ändern. Auch hier liefert die Zeitreihenanalyse Beispiele.
Hauptsächlich werden in der Praxis nicht alle Eigenschaften einer Population oder eines Prozesses als Parameter betrachtet. Wenn eine Prozedur ein Modell einer Normalverteilung voraussetzt, sind das Minimum und das Maximum keine Parameter. (In der Tat sind nach dem Modell das Minimum und das Maximum in irgendeiner Weise willkürlich große negative und positive Zahlen, nicht dass uns das Sorgen machen sollte.)

Ich würde sagen, dass Wikipedia hier ausnahmsweise in die richtige Richtung weist, und Praxis und Prinzip werden beide respektiert, wenn wir sagen, dass ein Parameter das ist, was wir schätzen .

Dies hilft auch bei anderen Fragen, die Verwirrung gestiftet haben. Wenn wir zum Beispiel einen um 25% gekürzten Mittelwert berechnen, was schätzen wir? Eine vernünftige Antwort ist die entsprechende Eigenschaft der Bevölkerung, die tatsächlich durch die Schätzmethode definiert wird. Eine Terminologie ist, dass ein Schätzer einen Schätzer hat, was auch immer er schätzt. Beginnen Sie mit einer platonischen Vorstellung von einer Eigenschaft "da draußen" (sagen Sie die Art der Verteilung) und überlegen Sie, wie Sie diese einschätzen können. Überlegen Sie sich gute Rezepte für die Analyse von Daten und überlegen Sie, was sie bedeuten, wenn Sie sie als Inferenz betrachten.

Wie so oft in der angewandten Mathematik oder Naturwissenschaft hat ein Parameter einen doppelten Aspekt. Wir denken oft an etwas Reales da draußen, das wir entdecken, aber es ist auch wahr, dass es etwas ist, das durch unser Modell des Prozesses definiert ist, so dass es außerhalb des Kontextes des Modells keine Bedeutung hat.

Zwei ganz verschiedene Punkte:

Viele Wissenschaftler verwenden das Wort "Parameter" so, wie Statistiker Variablen verwenden. Ich habe sowohl eine Wissenschaftlerpersönlichkeit als auch eine statistische, und ich würde sagen, das ist bedauerlich. Variablen und Eigenschaften sind bessere Worte.
Es ist bemerkenswert, dass im allgemeinen englischen Sprachgebrauch angenommen wird, dass Parameter Grenzen oder Grenzen bedeuten, die aus einer ursprünglichen Verwechslung zwischen "Parameter" und "Umfang" herrühren können.

Ein Hinweis zur Einschätzung und Sichtweise

Die klassische Position ist, dass wir einen Parameter im Voraus identifizieren und dann entscheiden, wie er geschätzt werden soll, und dies bleibt die gängige Praxis, aber die Umkehrung des Prozesses ist nicht absurd und kann bei einigen Problemen hilfreich sein. Ich nenne dies den Schätz- und Gesichtspunkt. Es ist seit mindestens 50 Jahren in der Literatur. Tukey (1962, S. 60) drängte darauf

"Wir müssen noch mehr darauf achten, mit einem Schätzer zu beginnen und herauszufinden, was ein vernünftiger Schätzer ist, und herauszufinden, was es vernünftig ist, den Schätzer als Schätzer zu betrachten."

Ein ähnlicher Gesichtspunkt wurde von Bickel und Lehmann (1975) formal sehr detailliert und eingehend und von Mosteller und Tukey (1977, S. 32-34) informell mit großer Klarheit ausgearbeitet.

Es gibt auch eine elementare Version. Die Verwendung des Stichprobenmedians oder des geometrischen Mittels zur Schätzung des entsprechenden Populationsparameters ist sinnvoll, unabhängig davon, ob die zugrunde liegende Verteilung symmetrisch ist, und derselbe Goodwill kann auf (z. B.) Stichprobenmittel ausgedehnt werden, die als Schätzer ihrer Populationsgegenstücke angesehen werden .

Bickel, PJ und EL Lehmann. 1975. Beschreibende Statistik für nichtparametrische Modelle. II. Lage . Annals of Statistics 3: 1045-1069.

Mosteller, F. und JW Tukey. 1977. Datenanalyse und Regression. Reading, MA: Addison-Wesley.

Tukey, JW 1962. Die Zukunft der Datenanalyse . Annals of Mathematical Statistics 33: 1-67.

Nick Cox
quelle

Ein Großteil davon steht im Widerspruch zur statistischen Standardliteratur, insbesondere zu Ihrer Definition von Parametern. Es scheint die Prozesse beim Auffinden einer Prozedur zum Berechnen einer Schätzung zu verwirren und Identifizieren dessen, was zu schätzen ist, zu . Letztere - Auswahl des Schätzwerts - ist Sache des Wissenschaftlers oder Ermittlers. Ersteres wird dann vom Statistiker ausgewählt, um wünschenswerte Eigenschaften unter allen möglichen Prozeduren zum Schätzen des Schätzenden zu haben. Es gibt auch technische Probleme; Es genügt zu sagen, dass ein Parameter stärker eingeschränkt ist als ein beliebiger Schätzer.

Whuber

Ich werde meine Antwort erweitern, um dies anzusprechen.

Nick Cox

1

Ich stimme Tukey zu, obwohl Sie aufgrund meiner Antwort auf diesen Thread vielleicht denken, dass ich einer der "verknöcherten" Statistiker bin, die er in Frage stellt. Das Problem ist, dass Sie sein Zitat aus dem Zusammenhang gerissen haben. Tukey befasst sich speziell mit der Frage, wie die Eigenschaften von Verfahren zu bewerten sind, "wenn die Hypothesen, auf denen sie üblicherweise beruhen, nicht zutreffen". Die Definitionen von Parametern, Schätzern und Schätzwerten werden dadurch in keiner Weise geändert. Insbesondere ist ein Parameter immer noch nicht "das, was wir schätzen".

Whuber

3

Hier gibt es viel zu denken. Als schnelle Antwort: Meine Antwort sollte nicht bedeuten, dass wir uns in Liberty Hall befinden, wo alles möglich ist. Den Zusammenhang für das Tukey-Zitat begrüße ich, da ich der Ansicht bin, dass es üblich ist, dass die üblichen Hypothesen nicht zutreffen, da es sich bei allen Modellen um Annäherungen handelt, die nicht genau mit den Daten übereinstimmen. Diese Klausel ist weit davon entfernt, zu beißen, und unterstreicht den Wert der unterschiedlichen Sichtweisen. Im Allgemeinen versuche ich nicht, abstraktere und mathematisch verfeinerte formale Definitionen zu erstellen.

Nick Cox

6

Ich neige dazu, daran zu denken

pdf = \frac{1}{\sqrt{2 π σ^{2}}} e^{- \frac{1}{2} \frac{(x_{i} - μ)^{2}}{σ^{2}}}

$\text{pdf}=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{1}{2}\frac{(x_i-\mu)^2}{\sigma^2}}$

1

$1$

2

$2$

π

$\pi$

\approx 3.1415926

$\approx 3.1415926$

e

$e$

\approx 2.718281828

$\approx 2.718281828$

X

$X$

x_{i}

$x_i$ $\boldsymbol\mu$ $\boldsymbol\sigma^2$

X

$X$

25^{th} %

$25^{\text{th}}\%$

μ

$\mu$

σ^{2}

$\sigma^2$

μ

$\mu$

σ^{2}

$\sigma^2$

Y = β_{0} + β_{1} X_{1} + β_{2} X_{2} + ε where ε \sim N (0, σ^{2})

$Y=\beta_0 + \beta_1X_1 + \beta_2X_2 + \varepsilon \\ \text{where } \varepsilon\sim\mathcal N(0, \sigma^2)$ $\boldsymbol\beta_0$ $\boldsymbol\beta_1$ $\boldsymbol\beta_2$ $\boldsymbol\sigma^2$

25^{th} %

$25^{\text{th}}\%$

Y

$Y$

X = x_{i}

$X=x_i$

β_{0}

$\beta_0$

β_{1}

$\beta_1$

β_{2}

$\beta_2$

σ^{2}

$\sigma^2$

β_{0}

$\beta_0$

β_{1}

$\beta_1$

β_{2}

$\beta_2$

σ^{2}

$\sigma^2$

(All dies setzt natürlich voraus, dass mein Modell der Bevölkerungsverteilung oder des Datenerzeugungsprozesses korrekt ist. Es ist wie immer zu berücksichtigen, dass "alle Modelle falsch sind, aber einige nützlich" - George Box .)

Um Ihre Fragen genauer zu beantworten, würde ich sagen:

Nein, alte Mengen sollten nicht als "Parameter" bezeichnet werden.
n / a
Die Merkmale, die als "Parameter" bezeichnet werden sollten, hängen von der Modellspezifikation ab. Ich habe keinen speziellen Namen für andere quantitative Merkmale, aber ich denke, es wäre in Ordnung, sie Eigenschaften oder Merkmale oder Konsequenzen zu nennen usw. .

gung - Wiedereinsetzung von Monica
quelle

Vielen Dank. Aber mit welcher Terminologie beschreiben Sie all diese Populationswerte, die aus einem parametrischen Modell abgeleitet werden können, aber nicht in den praktischen Parametern für die Darstellung dieses Modells enthalten sind? Alternativ kann es vorkommen, dass Sie das Populationsmodell nicht kennen und sich nicht besonders darum kümmern, sich aber für einen bestimmten nicht standardmäßigen Aspekt des Populationsmodells interessieren.

Jeromy Anglim

Ich habe keinen allgemein gültigen speziellen Namen, aber es gibt Namen für bestimmte Werte. Zum Beispiel, wenn Sie nicht wirklich glauben , dass Ihre Bevölkerung zu einer gut untersuchten Verteilung nahe genug ist, können Sie es durch seine Median zu charakterisieren versuchen, Quartile, Anlenkpunkte usw.

Gung - wieder einzusetzen Monica

3

β_{0}, β_{1}, β_{2},

$\beta_0, \beta_1, \beta_2,$

σ

$\sigma$

θ

$\theta$

β_{0}

$\beta_0$

θ

$\theta$

θ

$\theta$

θ

$\theta$

Whuber

3

Es gab einige gute Antworten auf diese Frage. Ich dachte nur, ich würde eine interessante Referenz zusammenfassen, die eine ziemlich strenge Diskussion der Schätzer liefert.

Die virtuelle Laborseite über Schätzer definiert

eine Statistik als "beobachtbare Funktion der Ergebnisvariablen".
$\theta$

Das Konzept einer Verteilungsfunktion ist eine sehr allgemeine Idee. Somit könnte jedes oben angegebene Beispiel als eine Funktion einer bestimmten Verteilung angesehen werden.

Jedes Quantil, einschließlich des Min-, Median- und 25. Quantils, kann eine Funktion einer Verteilung sein.
Schiefe ist eine Funktion einer Verteilung. Wenn diese Bevölkerungsverteilung normal ist, sind diese Null, aber dies stoppt nicht die Berechnung dieser Werte.
Das Zählen der Anzahl von Korrelationen, die größer als ein bestimmter Wert sind, ist eine Funktion der Kovarianzmatrix, die wiederum eine Funktion einer multivariaten Verteilung ist.
R-Quadrat ist eine Funktion der Verteilung.

Jeromy Anglim
quelle

1

Ein Grund, warum ich eine ausführlichere Antwort angeboten habe, ist, dass diese Definition von "Parameter" nicht gut genug ist. Ein Gegenbeispiel ist mein Kommentar zu @ gungs Antwort . Intuitiv bildet eine Menge parametrisierter Verteilungen eine endliche topologische Mannigfaltigkeit mit Grenze; Ein Parameter muss eine stetige Funktion sein, die auf dem Verteiler definiert ist. Dies ist mehr als nur eine technische Anforderung, da es sich um Stichprobenverteilungen von Schätzungen handelt.

Whuber

Ist eine quantitative Eigenschaft der Bevölkerung ein „Parameter“?

Ausarbeitung auf Verwirrung

Antworten:

Zustandsräume

Parametrisierungen

Eigenschaften von Distributionen

Eigenschaften sind nicht immer Parameter

Parameter sind nicht unbedingt Eigenschaften

Statistische Verfahren

Schätzer

Schlussfolgerungen