Was ist der Unterschied zwischen einem Schätzer und einer Statistik?

30

Ich habe erfahren, dass eine Statistik ein Attribut ist, das Sie aus Stichproben erhalten können. Wenn Sie viele Stichproben gleicher Größe nehmen, dieses Attribut für alle berechnen und das PDF-Dokument zeichnen, erhalten Sie die Verteilung des entsprechenden Attributs oder die Verteilung der entsprechenden Statistiken.

Ich habe auch gehört, dass Statistiken als Schätzer dienen. Worin unterscheiden sich diese beiden Konzepte?

gutto
quelle
2
Vielen Dank für alle Antworten ... Das Konzept ist mir jetzt viel klarer.
Gutto

Antworten:

17

Definition

Aus Wikipedia:

Eine Statistik [...] ist ein einzelnes Maß für ein Attribut einer Stichprobe (z. B. ihren arithmetischen Mittelwert).

Und

Der [A] n- Schätzer ist eine Regel zur Berechnung einer Schätzung einer bestimmten Menge [der zugrunde liegenden Verteilung] auf der Grundlage beobachteter Daten.

Der wichtige Unterschied ist:

  • Eine Statistik ist eine Funktion einer Stichprobe.
  • Ein Schätzer ist eine Funktion einer Stichprobe, die sich auf eine bestimmte Menge der Verteilung bezieht .

(Was "Menge" bedeutet, siehe Abschnitt unten.)

Eine Statistik ist kein Schätzer

Ein Schätzer ist eine Statistik, der etwas hinzugefügt wurde. Um aus einer Statistik einen Schätzer zu machen, geben Sie einfach an, welche Zielmenge Sie schätzen möchten. Dies ist verwirrend, da Sie der Statistik nichts "Reales" hinzufügen, sondern nur eine Absicht.

Um zu sehen, dass der Unterschied wichtig ist, müssen Sie erkennen, dass Sie die Eigenschaften eines Schätzers (z. B. Bias , Varianz usw.) für eine bloße Statistik nicht berechnen können . Zur Berechnung Bias haben Sie die Differenz zwischen dem Wert Ihrer Statistik , Sie zu finden und den wahren Wert verleiht. Nur ein Schätzer kommt mit einem "wahren Wert", der die Berechnung eines Bias ermöglicht. Eine Statistik ist lediglich eine Funktion der Daten und weder richtig noch falsch.

Unterschiedliche Schätzer basierend auf derselben Statistik

Sie können unterschiedliche Zielmengen für dieselbe Statistik buchstabieren, was zu unterschiedlichen Schätzern führt. Jeder solche Schätzer hat seine eigene Tendenz, obwohl sie alle (basierend auf) dem gleichen Wert und der gleichen Statistik sind.

  • Sie können den Stichprobenmittelwert als Schätzer für den Verteilungsmittelwert verwenden . Dieser Schätzer hat eine Vorspannung von Null .
  • Sie können den Stichprobenmittelwert auch als Schätzer für die Verteilungsvarianz verwenden . Dieser Schätzer ist für die meisten Verteilungen voreingenommen .

Die Aussage "Stichprobenmittelwert ist unvoreingenommen" ist also nicht sinnvoll. Der Stichprobenmittelwert ist unbefangen, wenn Sie ihn zur Schätzung des Verteilungsmittelwerts verwenden. Gleichzeitig ist es jedoch voreingenommen, wenn es zum Schätzen der Verteilungsvarianz verwendet wird.

Verteilungsmengen und Probenmengen

Hier bezieht sich die Menge auf eine Eigenschaft der Verteilung, die normalerweise unbekannt ist und daher geschätzt werden muss. Dies steht im Gegensatz zu einer Statistik , die eine Eigenschaft einer Stichprobe ist, z. B. ist das Verteilungsmittel eine Größe Ihrer Verteilung, während das Stichprobenmittel eine Statistik ist (eine Größe Ihrer Stichprobe).

Zickzack
quelle
1
An diesen Zitaten ist nichts falsch, aber sie lassen mich rätseln, was genau unter "Quantität" zu verstehen ist. Beispielsweise scheinen die Zitate nicht auszuschließen, dass eine "Menge" eine andere Statistik ist, die auf denselben Daten basiert, oder möglicherweise eine andere Statistik, die auf einem separaten Satz ähnlicher Daten basiert. (Im letzteren Fall könnte die erste Statistik als Prädiktor verwendet werden. Im ersten Fall gibt es
meines Erachtens
@whuber Siehe bearbeiten. Zunächst wollte ich eine kurze Antwort geben ... :(
Zickzack
Vermutlich werden Stichprobenmittelwert und Stichprobenmedian nur dann den gleichen zugrunde liegenden Wert schätzen, wenn die Verteilung eine ist, bei der der Median = Mittelwert ...
Stumpy Joe Pete
Meine Kritik macht angesichts deiner Bearbeitung weniger Sinn. Ich habe lediglich gesagt, dass bei vielen Verteilungen der Median! = Mittelwert ist, sodass der Stichprobenmedian und der Stichprobenmittelwert in solchen Fällen nicht auf den gleichen Wert konvergieren (dh nicht dasselbe schätzen).
Stumpy Joe Pete
1
@Stumpy Ich denke du hast hier ein leichtes Missverständnis. Es spielt keine Rolle, ob der Median und der Mittelwert zur selben Sache (oder zu irgendetwas überhaupt) "konvergieren". Lassen Sie mich zur Verdeutlichung etwas lächerlich sein: Wenn ich möchte, kann ich den Mittelwert anhand der Stichprobenvarianz schätzen. Es gibt absolut keine theoretische Einschränkung - und es kann auch keine geben - die besagt, dass ich dies nicht tun kann. Mein Verfahren erfüllt alle Teile der Definition: Die Stichprobenvarianz ist wirklich eine Statistik und der Mittelwert ist wirklich eine Eigenschaft der zugrunde liegenden Verteilung. Für die Definitionen ist es unerheblich, dass dies (oft) ein schrecklicher Vorgang ist.
whuber
15

Dieser Thread ist ein bisschen alt, aber es scheint, dass Wikipedia seine Definition geändert hat, und wenn er korrekt ist, erklärt er es mir deutlicher:

Ein "Schätzer" oder eine "Punktschätzung" ist eine Statistik (dh eine Funktion der Daten), die verwendet wird, um auf den Wert eines unbekannten Parameters in einem statistischen Modell zu schließen.

Eine Statistik bezieht sich also auf die Daten selbst und eine Berechnung mit diesen Daten. Während ein Schätzer auf einen Parameter in einem Modell verweist.

Wenn ich es richtig verstehe, ist der Mittelwert eine Statistik und kann auch ein Schätzer sein. Der Mittelwert einer Stichprobe ist eine Statistik (Summe der Stichprobe geteilt durch die Stichprobengröße). Der Mittelwert einer Stichprobe ist auch ein Schätzer für den Mittelwert der Grundgesamtheit, vorausgesetzt, er ist normal verteilt.

Ich würde @whuber und andere, die dieses Zeug wirklich kennen, fragen, ob das (neue?) Wikipedia-Zitat korrekt ist.

Wayne
quelle
6
+1 Ich denke du hast es im Grunde richtig. Es könnte Sie interessieren zu wissen, dass das Ziel eines Schätzers nicht unbedingt ein bestimmter "Parameter" eines Modells sein muss: Es kann sich um eine beliebige Eigenschaft des Modells handeln, beispielsweise um eine Funktion seiner Parameter. Zum Beispiel ist kein Parameter für ein Normalmodell ( μ , σ 2 ) , aber es kann geschätzt werden. μ2(μ,σ2)
Whuber
5

Da andere Antworten, die besagen, dass sie gleich sind, keinen maßgeblichen Hinweis geben, möchte ich Ihnen zwei Zitate aus dem Handbuch für statistische Folgerungen von Casella und Berger geben:

Definition 5.2.1 Sei eine Zufallsstichprobe der Größe n aus einer Grundgesamtheit und sei T ( x 1 , , x n ) eine reelle oder vektorielle Funktion, deren Domäne den Stichprobenraum enthält von ( X 1 ,X1,,XnnT(x1,,xn) . Dann wird die Zufallsvariable oder der Zufallsvektor Y = T ( X 1 , , X n ) aufgerufen(X1,,Xn)Y=T(X1,,Xn)Statistik . Die Wahrscheinlichkeitsverteilung der Statistik wird Stichprobenverteilung von Y genannt .YY

und

Definition 7.1.1 Ein Punktschätzer ist eine beliebige Funktion einer Stichprobe; Das heißt, jede Statistik ist ein Punktschätzer.W(X1,,Xn)

Ich sage hier nicht , dass dies die endgültige Antwort auf die Frage ist, da ich mit den beiden am häufigsten gestellten Antworten, die darauf hindeuten, dass es einen Unterschied gibt, einverstanden zu sein scheint klarer Fall.

Tim
quelle
4

"6" ist ein Beispiel eines Schätzers. Angenommen, Ihre Frage lautete: "Was ist die Steigung der besten linearen Funktionszuordnung von x zu y?" Ihre Antwort könnte "6" sein. Oder es könnte . Beide sind Schätzer. Welches besser ist, bleibt Ihnen überlassen. (XX)1XY

Ein wirklich guter TA hat mir einmal das Konzept eines Schätzers so erklärt.

Grundsätzlich ist ein Schätzer eine Sache, die Sie auf Daten anwenden, um eine Größe zu erhalten, deren Wert Sie nicht kennen. Sie kennen den Wert einer Statistik - sie ist eine Funktion der Daten, über die es kein "Bestes" oder "Optimum" gibt. Es gibt keinen "besten" Mittelwert. Es gibt nur einen Mittelwert.

Angenommen, Sie haben einen Datensatz über die Anzahl der Ziegen pro Person und das Glück jeder Person. Sie interessieren sich dafür, wie sich das Glück der Menschen mit der Anzahl der Ziegen ändert, die sie besitzen. Ein Schätzer kann Ihnen helfen, diese Beziehung anhand Ihrer Daten abzuschätzen. Statistiken sind nur Funktionen der Daten, die Sie haben. Zum Beispiel kann die Varianz des Ziegenbesitzes gleich 7 sein. Die Formel zur Berechnung der Varianz wäre zwischen Ziegen und Toastern identisch, oder ob Sie an Glück oder Krebserkrankungen interessiert sind. In diesem Sinne sind alle vernünftigen Schätzer Statistiken.

generic_user
quelle
3

Interessante Frage. Schätzer und Statistiken müssen jedoch nicht unterschiedlich sein. Sie sind unterschiedliche Konzepte.

Eine Statistik ist eine Funktion (im Allgemeinen), in der die Eingabe (statistische) Daten enthält. Der Effekt ist, dass Sie aus dieser Statistik ein Ergebnis erhalten, normalerweise eine Zahl. In einem abstrakteren Begriff kann eine Statistik mehr als eine Zahl ergeben. Die Statistik hängt von den Daten ab, das Verfahren ist jedoch deterministisch. Die Statistik könnte also lauten: "Alle Zahlen summieren und durch die Zählung dividieren" oder im weiteren Sinne "die BIP-Daten nehmen und einen Bericht darüber erstellen".
Im statistischen Sinne handelt es sich natürlich um eine mathematische Funktion als Statistik.

Dies hat die Bedeutung, dass Sie, wenn Sie die Eigenschaften der von Ihnen eingegebenen Daten kennen (z. B. eine Zufallsvariable), die Eigenschaften Ihrer Statistik berechnen können, ohne tatsächlich empirische Daten einzugeben.

Schätzer sind Schätzer, weil Sie beabsichtigen, eine Immobilie zu schätzen. Wie sich herausstellt, sind einige Statistiken gute Schätzer.
Wenn Sie beispielsweise Datenpunkte aus einem Pool von iid-Variablen ziehen, ist das arithmetische Mittel - eine Statistik, die auf den von Ihnen gezogenen Daten basiert - wahrscheinlich ein guter Schätzer für den erwarteten Wert dieser Verteilung. Aber alles, was eine Schätzung hervorbringt, ist ein Schätzer.

In der Praxis sind die von Ihnen verwendeten Schätzer Statistiken, aber es gibt Statistiken, die keine Schätzer sind. Zum Beispiel Teststatistik - obwohl man sich über die Semantik dieser Aussage streiten und die Sache noch verschlimmern kann, kann eine Teststatistik nicht nur Schätzer sein, sondern auch solche enthalten. Obwohl dies konzeptionell nicht der Fall sein muss.

Und natürlich kann man Schätzer haben, die keine Statistiken sind, obwohl sie wahrscheinlich nicht sehr gut schätzen können.

IMA
quelle
1
2nnn+1
Ja, ich würde argumentieren, dass "Auswählen eines Wertes" die deterministische Statistik ist und alles im Voraus mit der Änderung der Stichprobe zusammenhängt, aus der Sie ausgewählt haben. Andererseits, da die "Prozedur", wenn Sie so wollen, deterministisch ist, erlaube ich möglicherweise nur stochastische Elemente wie diese in meiner Definition der Statistik. Zum Beispiel die Zahl "6" in der Antwort unten. Bitte beachten Sie, dass ich nicht gesagt habe, dass nicht statistische Schätzer unbedingt schlecht sind.
IMA
1
Ich denke, Sie machen vielleicht zu viele feine Unterscheidungen, die unnötig sind und am Ende Ihre Darstellung erschweren. Zum Beispiel ist "1/2" ein guter Schätzer für den Parameter einer Bernoulli-Variablen (Minimax für quadratischen Verlust), daher wäre es eine Schande, dies auszuschließen, nur weil es unabhängig von den Daten ist. (Das wäre analog zum Ausschließen von Quadraten als Beispiele für Rechtecke in der euklidischen Geometrie: Sie könnten das tun, aber das würde dann die Länge der meisten Aussagen zu Eigenschaften von Rechtecken verdoppeln.) Ebenso hilft es, randomisierte Statistiken nicht auszuschließen.
Whuber
Ich glaube nicht, dass wir wirklich über dasselbe reden. Wo schließe ich etwas aus? Wenn die Hälfte ein guter Schätzer ist, dann ist es ein Fall, in dem dies der Fall ist. Ich denke einfach nicht, dass die Mehrheit der möglichen Schätzer, die keine Statistiken sind, ziemlich großartig ist. Für eine Bernoulli-Variable ist "1/2" gut. Aber ein paar andere Schätzer aus der Klasse "Eine reelle Zahl" sind nicht sehr gut, würden Sie zustimmen? In Bezug auf randomisierte Statistiken, die immer noch auf Daten basieren, habe ich dies nicht ausgeschlossen, da ich immer noch sagen würde, dass Sie ein deterministisches Verfahren benötigen. Aber ich gebe zu, dass ich das oben hinzufügen sollte.
IMA
2

Ich denke, ein besseres Verständnis darüber, was eine Probe ist, hilft.

[Aktualisiert: Sample ist ein sehr umfassendes Konzept, ich sprach von "der Zufallsstichprobe". Ich weiß nicht, ob ein Schätzer Sinn macht oder nicht, wenn die Stichprobe nicht zufällig ist .]

aus Wikipedia :

Eine Zufallsstichprobe ist definiert als eine Stichprobe, bei der jedes einzelne Mitglied der Population eine bekannte Chance ungleich Null hat, als Teil der Stichprobe ausgewählt zu werden.

nnnnn

Wir ersetzen die Stichprobe im Schätzer durch den Wert der Stichprobe. Wir erhalten einen Schätzerwert, dies ist ein spezifisches Maß. Und diese spezifische Kennzahl ist eine Statistik.

(Überprüfen Sie diesen Link für die Definition eines Schätzers, der letzte Satz zeigt, warum wir immer verwirrt sind.)

Alexyangfox
quelle
1

Das Ziel dieser Schrift:

Ich möchte Ihnen hier die Ähnlichkeiten und Unterschiede zwischen den beiden eng verwandten Konzepten "Statistik" und "Schätzer" erläutern. Ich möchte jedoch nicht auf die Unterschiede zwischen einem Parameter und einer Statistik eingehen, von denen ich annehme, dass sie für jeden klar genug sind, der mit den Unterschieden zwischen einer Statistik und einem Schätzer zu kämpfen hat. Wenn dies bei Ihnen nicht der Fall ist, müssen Sie zuerst frühere Beiträge studieren und dann mit dem Studium dieses Beitrags beginnen.

Beziehung:

Grundsätzlich wird jede reelle Funktion beobachtbarer Zufallsvariablen in einer Stichprobe als Statistik bezeichnet. Es gibt Statistiken, die bei gutem Design und guten Eigenschaften (z. B. Konsistenz, ...) die Parameter der zugrunde liegenden Verteilung der Population schätzen lassen. Daher sind Statistiken eine große Menge, und Schätzer sind eine Teilmenge der Statistik. Daher ist jeder Schätzer eine Statistik, aber nicht jede Statistik ist ein Schätzer.

Ähnlichkeiten:

Apropos Ähnlichkeiten, wie bereits erwähnt, sind beide Funktionen von Zufallsvariablen. Außerdem haben beide Verteilungen die Bezeichnung "Stichprobenverteilungen".

Unterschiede:

Apropos Unterschiede, sie unterscheiden sich in ihren Zielen und Aufgaben. Die Ziele und Aufgaben einer Statistik könnten darin bestehen, die Informationen in einer Stichprobe zusammenzufassen (unter Verwendung ausreichender Statistiken) und manchmal einen Hypothesentest usw. durchzuführen. Im Gegensatz dazu besteht das Hauptziel und die Hauptaufgabe eines Schätzers darin, wie der Name schon sagt, zu schätzen die Parameter der untersuchten Bevölkerung. Es ist wichtig zu erwähnen, dass es eine Vielzahl von Schätzern gibt, von denen jeder seine eigene Rechenlogik hat, wie z. B. MOMEs, MLEs, OLS-Schätzer und so weiter. Ein weiterer Unterschied zwischen diesen beiden Konzepten liegt in den gewünschten Eigenschaften. Während eine der am meisten gewünschten Eigenschaften einer Statistik "Suffizienz" ist, sind die gewünschten Eigenschaften eines Schätzers Dinge wie "Konsistenz", "Unparteilichkeit", "Präzision" usw.

Vorsicht:

Daher müssen Sie beim Umgang mit Statistiken und Schätzern auf die korrekte Verwendung der Terminologie achten. Zum Beispiel ist es wenig sinnvoll, über die Voreingenommenheit einer bloßen Statistik zu sprechen, die keineswegs ein Schätzer ist, da in einem solchen Kontext kein Parameter beteiligt ist, um die Voreingenommenheit berechnen zu können, und Rede darüber. Daher müssen Sie mit der Terminologie vorsichtig sein!

Das Fazit:

Zusammenfassend ist jede Funktion beobachtbarer Zufallsvariablen in einer Stichprobe eine Statistik. Wenn eine Statistik in der Lage ist, einen Parameter einer Population zu schätzen, nennen wir ihn einen Schätzer (des interessierenden Parameters). Es gibt jedoch einige Statistiken, die nicht zur Schätzung von Parametern dienen. Diese Statistiken sind also keine Schätzer, und hier nennen wir sie "bloße Statistiken".

Was ich oben angeboten habe, ist die Art und Weise, wie ich diese beiden Konzepte betrachte und denke, und ich habe mein Bestes gegeben, um es in einfachen Worten auszudrücken. Ich hoffe, es hilft!

Ali Zeytoon Nejad
quelle
0

Neue Antwort auf ein altes Q:

Definition 1. Eine Statistik ist eine Funktion, die jede Stichprobe einer reellen Zahl zuordnet.

Jeder Schätzer ist eine Statistik.

Wir neigen jedoch dazu, nur die Statistiken, die zur Erstellung von Schätzungen ("Vermutungen") verwendet werden, als Schätzer zu bezeichnen.

So sind beispielsweise die t-Statistik und der Stichprobenmittelwert BEIDE Statistiken. Der Stichprobenmittelwert ist auch ein Schätzer (da wir ihn häufig verwenden, um den wahren Populationsmittelwert zu schätzen).

Im Gegensatz dazu bezeichnen wir die t-Statistik selten / nie als Schätzer, da wir sie selten / nie zum Schätzen von Parametern verwenden.

PQ

Example_

θ

θ

Hier ist eine mögliche Methode. Wir würfeln dreimal.

s=(x1,x2,x3)x1x2x3 das des dritten.

s1=(5,4,1)s2=(4,1,6)s3=(6,3,2)

PQPQs=(x1,x2,x3)

P(s)=x1ln(x2+x3),
Q(s)=x1+x2+x33.

P

Q.θ

Pθ

Kenny LJ
quelle
1
Diese Antwort geht in eine gute Richtung. "Definition 2" scheint jedoch aufgrund seiner Zirkularität keine gültige Definition zu sein (es definiert "Schätzer" im Sinne von "Schätzen", ohne letzteres zu erläutern). Um effektiv zu sein, müssen Sie erklären, was eine "Schätzung eines Parameters" ausreichend detailliert und klar ist, damit die Menschen quantitative Messungen darüber vornehmen können, wie gut ein Schätzer funktioniert.
Whuber
@whuber: Ich versuche es einfach zu halten. Ein Parameter ist eine beliebige reelle Zahl (z. B. das Durchschnittsergebnis)θeines Würfelwurfs). Informell ist eine Schätzung für einen Parameter einfach eine "Vermutung", was ein Parameter ist. Eine Schätzung ist also einfach auch eine reelle Zahl. (ZB eine Schätzung vonθ ist 5.) // Die Frage, "wie quantitative Messungen der Funktionsweise eines Schätzers zu formulieren sind", unterscheidet sich gänzlich von der einfacheren und grundlegenderen Frage der Unterscheidung zwischen einer Statistik und einem Schätzer. Welches ist die Frage hier.
Kenny LJ
2
Leider scheint etwas Wesentliches in der Vereinfachung verloren gegangen zu sein, da Ihre zweite Definition einen Schätzer überhaupt nicht von einer anderen Statistik unterscheidet.
Whuber
@whuber: Das stimmt. Ein Schätzer ist formal einfach eine Statistik. Wir tendieren jedoch dazu, das Wort "Schätzer" zu verwenden, um auf eine Statistik zu verweisen, wenn diese Statistik zum Schätzen einiger interessierender Parameter verwendet wird. Ich habe meine Antwort bearbeitet, um diesen Punkt zu klären.
Kenny LJ
-3

Beim Testen von Hypothesen :

Bei einer Teststatistik geht es um das Testen von Hypothesen. Eine Teststatistik ist eine Zufallsvariable unter der Nullhypothese. Einige nennen nun eine Statistik den Wert / das Maß der Teststatistik bei gegebener Stichprobe.

Mit diesen beiden können Sie den p-Wert erhalten, der ein Maß ist, das dabei hilft, die Nullhypothese abzulehnen oder nicht abzulehnen. Alles in allem ist eine Statistik eine Schätzung, wie weit / nah Ihre Hypothese ist.

Dieser Link kann nützlich sein.

dfhgfh
quelle
2
Sie scheinen sich mit einer anderen Frage zu befassen, die eher mit Hypothesentests als mit Schätzungen zu tun hat. Ihre Definition von "Statistik" ist in ihrem Umfang wesentlich eingeschränkter als die Standarddefinitionen: Statistiken gelten für alle Formen der Entscheidungsfindung, nicht nur für die sehr begrenzten Fälle von Hypothesentests und Nullhypothesen. Darüber hinaus sind Hypothesentests nicht dasselbe wie Schätzer, und die meisten Statistiken werden nicht als Schätzer für die Nähe zu bestimmten Hypothesen verwendet.
whuber
Ich würde nicht sagen, dass es eine andere Frage ist. Es gibt zumindest ein Bild darüber, was es im Kontext des Hypothesentests ist!
15.
2
Da sich diese Antwort auf eine begrenzte und spezielle Version der Frage konzentriert und die Schlüsselbegriffe "Schätzer" und "Statistik" auf unkonventionelle Weise verwendet, ohne den Leser auf diese Tatsache aufmerksam zu machen, befürchte ich, dass sie Menschen irreführen oder verwirren könnte.
whuber
Ich dachte, dass das Testen von Hypothesen bei weitem ein begrenztes und spezialisiertes Gebiet der Statistik ist.
15.