Gibt es statistische Tests, die parametrisch und nicht parametrisch sind?

20

Gibt es statistische Tests, die parametrisch und nicht parametrisch sind? Diese Frage wurde von einem Interviewpanel gestellt. Ist es eine gültige Frage?

Biostat
quelle
1
Das Studieren des Wikipedia-Eintrags für nichtparametrische Statistiken kann ausreichen, um Sie auf einen Interviewer vorzubereiten. Sie könnten die Frage mit einer Frage beantworten, wie in "Was meinen Sie mit nicht parametrisch? Verteilungsfreie Modelle oder Rangordnungsstatistiken?"
jrhorn424
3
Als Ausgangspunkt kann es Ihnen und Ihren Befragten helfen, eine Behörde ( nicht das Internet!) Bezüglich der Definitionen zu konsultieren . "Die parametrischen Fälle ... sind alle Fälle , in denen die Klasse aller [Naturzustände] in Form eines Vektors , der auf natürliche Weise aus einer endlichen Anzahl reeller Komponenten besteht. (... die Verteilung und Verlustfunktion ist relativ glatt von θ abhängig .) Alle anderen Probleme werden als nichtparametrisch bezeichnet . - JC Kiefer, Introduction to Statistical Inference, S. 23.θθ
whuber
Einer der Professoren sagte mir, dass der Chi-Quadrat-Test beide Verhaltensweisen hat (dh auch parametrisch und nichtparametrisch). Ich habe überhaupt nicht verstanden, warum "Chi-Quadrat-Test" beide Verhaltensweisen hat.
Biostat
3
Nicht der Test ist parametrisch, sondern das Modell . Chi-Quadrat-Verteilungen entstehen in beiden Situationen (auf natürliche Weise im allgemeinen linearen Modell mit Normalverteilungsannahmen und als Näherung für eine Differenz der logarithmischen Wahrscheinlichkeiten - beides parametrische Anwendungen - und auch als Näherung für das Multinom Verteilungen, die in vielen nichtparametrischen Anwendungen auftreten), so gibt es viele verschiedene Tests, die den Namen "Chi-Quadrat" gemeinsam haben. Dies ist wahrscheinlich der Grund für den Kommentar Ihres Professors.
whuber
@whuber: Bedeutet Ihr letzter Kommentar, dass der Chi-Quadrat-Test für die Anpassungsgüte nicht parametrisch ist?
Tim

Antworten:

6

Es ist grundsätzlich schwierig, genau zu sagen, was unter einem "parametrischen Test" und einem "nicht parametrischen Test" zu verstehen ist, obwohl es viele konkrete Beispiele gibt, bei denen sich die meisten darüber einig sind, ob ein Test parametrisch oder nicht parametrisch ist (aber niemals beides). . Eine schnelle Suche ergab diese Tabelle , die meines Erachtens in einigen Bereichen eine allgemeine praktische Unterscheidung zwischen parametrischen und nicht parametrischen Tests darstellt.

Direkt über der Tabelle, auf die verwiesen wird, befindet sich eine Bemerkung:

"... parametrische Daten haben eine zugrunde liegende Normalverteilung .... Alles andere ist nicht parametrisch."

In einigen Bereichen kann es ein akzeptiertes Kriterium sein, dass wir entweder Normalität annehmen und ANOVA verwenden, und dies ist parametrisch, oder wir gehen nicht von Normalität aus und verwenden nicht-parametrische Alternativen.

Es ist vielleicht keine sehr gute Definition und meiner Meinung nach nicht richtig, aber es kann eine praktische Faustregel sein. Meistens, weil das Endziel in den Sozialwissenschaften darin besteht, Daten zu analysieren, und was nützt es, ein parametrisches Modell auf der Grundlage einer nicht normalen Verteilung zu formulieren und dann die Daten nicht analysieren zu können?

Eine alternative Definition besteht darin, "nicht parametrische Tests" als Tests zu definieren, die nicht auf Verteilungsannahmen und parametrischen Tests beruhen.

Die vorgestellte erstere sowie die letztere Definition definieren eine Testklasse und dann die andere Klasse als Komplement (alles andere). Per Definition schließt dies aus, dass ein Test sowohl parametrisch als auch nicht parametrisch sein kann.

Die Wahrheit ist, dass auch die letztere Definition problematisch ist. Was ist, wenn bestimmte natürliche "nicht parametrische" Annahmen wie Symmetrie auferlegt werden können? Verwandelt sich eine Teststatistik, die ansonsten nicht auf Verteilungsannahmen beruht, in einen parametrischen Test? Die meisten würden nein sagen!

Daher gibt es Tests in der Klasse der nichtparametrischen Tests, die einige Verteilungsannahmen treffen dürfen solange sie nicht "zu parametrisch" sind. Die Grenze zwischen den "parametrischen" und den "nicht parametrischen" Tests ist verschwommen, aber ich glaube, dass die meisten der Ansicht sind, dass ein Test entweder parametrisch oder nicht parametrisch ist macht wenig Sinn.

Unter einem anderen Gesichtspunkt sind viele parametrische Tests (äquivalent zu) Likelihood-Ratio-Tests. Dies ermöglicht eine allgemeine Theorie, und wir haben ein einheitliches Verständnis der Verteilungseigenschaften von Likelihood-Ratio-Tests unter geeigneten Regularitätsbedingungen. Nichtparametrische Tests sind im Gegensatz dazu nicht gleichbedeutend mit Likelihood-Ratio-Tests an sich es gibt keine Wahrscheinlichkeit - und ohne die einheitliche Methodik, die auf der Wahrscheinlichkeit basiert, müssen wir Verteilungsergebnisse von Fall zu Fall ableiten. Die Theorie der empirischen WahrscheinlichkeitDer hauptsächlich von Art Owen in Stanford entwickelte Kompromiss ist jedoch sehr interessant. Es bietet einen wahrscheinlichkeitsbasierten Ansatz für die Statistik (ein wichtiger Punkt für mich, da ich die Wahrscheinlichkeit als wichtigeres Objekt betrachte als etwa einen Wert ), ohne dass typische parametrische Verteilungsannahmen erforderlich sind. Die Grundidee ist eine geschickte Verwendung der Multinomialverteilung auf den empirischen Daten. Die Methoden sind sehr "parametrisch", aber gültig, ohne die parametrischen Annahmen einzuschränken.p

Tests, die auf der empirischen Wahrscheinlichkeit basieren, haben meiner Meinung nach die Vorzüge parametrischer Tests und die Allgemeingültigkeit nichtparametrischer Tests. Von den Tests, die mir in den Sinn kommen, kommen sie meiner Meinung nach am ehesten in Frage, sowohl parametrisch als auch nichtparametrisch zu sein Verwenden Sie diese Terminologie nicht.

NRH
quelle
+1 Sehr interessante Kommentare. Soweit die Grenze "verschwimmt", nehme ich das als korrekte Aussage über die Wahrnehmung, aber es gibt keine Unschärfe in den Definitionen selbst: Die Unterscheidung zwischen parametrisch und nicht parametrisch ist so klar und scharf wie die zwischen beispielsweise endlich und unendlich.
whuber
@whuber, in Bezug auf das, was "verschwommen" ist, habe ich ausdrücklich darauf hingewiesen, dass es auch für nicht-parametrische Tests Verteilungsannahmen geben kann, daher funktioniert auch meine zweite Definition nicht. Wenn ich eine scharfe Definition versuchen sollte, basiert ein parametrischer Test auf einem Modell, das durch eine Teilmenge eines endlichen dimensionalen euklidischen Raums parametrisiert werden kann. Was ich am "verschwommensten" finde, ist, dass mir unklar ist, wie weit Sie von "keinen Verteilungsannahmen" entfernt sein können, bevor nichtparametrische Annahmen ebenso zum Problem werden wie parametrische Annahmen.
NRH
@whuber, ich habe jetzt deinen Kommentar zu der Frage mit Bezug auf Kiefer gelesen, und ja, es ist definitiv eine gute Idee, eine Behörde für eine formale Definition zu konsultieren! Eigentlich habe ich mich mehr darum gekümmert, was die Leute im Allgemeinen meinen, wenn sie "nicht parametrisch" sagen, und ich denke, dass nur wenige eine Kiefer-Definition im Kopf haben.
NRH
Siehe mein Zitat von Kiefer in einem Kommentar zur ursprünglichen Frage. Insbesondere bedeutet "nicht parametrisch" nicht "keine Verteilungsannahmen". Im Gegenteil, bei den bekanntesten nichtparametrischen Tests werden alle Verteilungsannahmen getroffen. Ich glaube, ich verstehe Ihr Gefühl von "Unschärfe": Ich habe die endliche / unendliche Analogie aus Respekt gewählt, weil in der Praxis eine sehr große (aber endliche) Anzahl von Parametern genauso gut als unendlich angesehen werden kann.
whuber
2

Parametrisch wird in (mindestens) zwei Bedeutungen verwendet: A - Um zu erklären, dass Sie die Familie der Rauschverteilung bis zu ihren Parametern annehmen. B - Zur Erklärung nehmen Sie die spezifische funktionale Beziehung zwischen den erklärenden Variablen und dem Ergebnis an.

Einige Beispiele:

  • Eine Quantilregression mit einer linearen Verknüpfung würde sich als B-parametrisch und A-nicht-parametrisch qualifizieren.
  • Die Spline-Glättung einer Zeitreihe mit Gaußschem Rauschen kann A-nicht-parametrisch und B-parametrisch sein.

Der Begriff "semiparametrisch" bezieht sich normalerweise auf Fall B und bedeutet, dass Sie nicht die gesamte Funktionsbeziehung annehmen, sondern mildere Annahmen wie "Additiv bei einer gewissen reibungslosen Transformation der Prädiktoren".

Sie können auch mildere Annahmen über die Verteilung des Rauschens treffen, z. B. "Alle Momente sind endlich", ohne die Form der Verteilung speziell festzulegen. Für diese Art von Annahme gibt es meines Wissens keinen Begriff.

Beachten Sie, dass sich die Antwort auf die zugrunde liegenden Annahmen bezieht, die dem Datenerzeugungsprozess zugrunde liegen. Wenn man "a-parametrischer Test" sagt, bezieht man sich normalerweise auf "nicht-parametrisch" im Sinne A. In diesem Sinne würde ich mit "nein" antworten. Es wäre unmöglich, gleichzeitig parametrisch und nicht parametrisch im gleichen Sinne zu sein.

JohnRos
quelle
Die beiden Bedeutungen im ersten Absatz haben in der Literatur häufig eine einheitliche Behandlung, dh es scheint keinen grundlegenden oder wichtigen Unterschied zwischen ihnen zu geben. Übrigens ist der Fall "Alle Momente sind endlich" definitiv ein nicht parametrisches Problem.
whuber
@whuber: Die Definition in Keifer scheint beide Fälle abzudecken (ich gebe zu - ich habe sie nie gelesen und suche immer noch nach Ausnahmen). Andererseits ändern Begriffe ihre Bedeutung. "Empirical-Bayes" bedeutet nicht mehr, wofür Robbins es 1955 verwendet hat. Sie können die Tatsache nicht ignorieren, dass mehr als eine Interpretation im Umlauf ist.
JohnRos
OK, aber wir sollten ein wenig wählerisch sein: Es ist offensichtlich, dass viele Interpretationen und versuchte Definitionen von "parametrisch" und "nicht parametrisch" Ausdruck von Ignoranz und nicht von Verständnis sind. Können Sie eine alternative Definition zitieren, die gleichzeitig klar, streng und maßgebend ist (genauer gesagt, maßgebend in dem Sinne, dass sie von einer glaubwürdigen, von Experten überprüften Zeitschrift ohne Frage akzeptiert würde)?
whuber
1
@whuber: Ich nehme die Herausforderung an! :-) Obwohl zu beachten ist, dass alle Forscher ihre Suche in Wikipedia beginnen, ist es eine Frage der Zeit, bis glaubwürdige, von Experten überprüfte Zeitschriften mit der Wiki-Definition übereinstimmen. ("Wenn du sie nicht schlagen kannst ...")
JohnRos
1
Der Wikipedia-Artikel zitiert Wolfowitz aus den 1940er Jahren, der nicht nur als erster "nicht parametrisch" verwendet, sondern auch einer von Kiefers direkten intellektuellen Vorfahren ist. Ich glaube nicht, dass wir dort einen wirklichen Unterschied finden werden. (Kiefer fügt nur eine technische Anforderung zur Verlustfunktion hinzu.) Ich vermute jedoch, dass nur sehr wenige (wenn überhaupt) echte Forscher Wikipedia als Ausgangspunkt nehmen, insbesondere nicht auf Gebieten mit mathematischen Grundlagen!
whuber
1

Ich nehme an, das hängt davon ab, was sie mit "parametrisch und nicht parametrisch" meinen. Zur gleichen Zeit genau beides, oder eine Mischung aus beidem?

Viele halten das proportionale Cox-Gefährdungsmodell für semi-parametrisch, da es die Grundgefahr nicht parametrisch abschätzt.

Oder Sie können viele nicht parametrische Statistiken als massiv parametrisch anzeigen.

Fomite
quelle
7
Dies scheint ein Ausweichen zu sein. Die Frage ist, ob man die Unterscheidung zwischen "parametrisch" und "nicht parametrisch" zu schätzen weiß, ob es eindeutig ist oder nicht. Eine gute Antwort wird diese Unterscheidung beleuchten, nicht verwechseln.
whuber
1
@whuber Welche "Frage"? Das Panel oder das OP? Weil das OP meiner Meinung nach nicht nach Unterschieden sucht. Was dann bedeutet, dass es davon abhängt, wo die Leute die Grenze ziehen. Ich denke nicht, dass es ein Ausweichmanöver ist, sowohl ein allgemeines als auch ein philosophisches Beispiel für "Nun, es kommt darauf an" zu liefern. Ich denke es ist eine Antwort. Zum Beispiel, ob man "parametrisch" als vollständig parametrisch betrachten oder nur Parameter haben möchte.
Fomite
Der Punkt über "welche Frage" ist gut. Ich denke, dass ich anfänglich Probleme mit Ihrer Antwort habe, weil sie Unterscheidungen macht, die nach meinen Ressourcen keinen Sinn ergeben (eine "Vermischung" ist unsinnig, ebenso wie die Idee, dass eine "Statistik" parametrisch sein kann), was darauf hindeutet Sie verwenden eine andere Definition von "parametrisch" und "nicht parametrisch" als ich. Obwohl Sie den hervorragenden Standpunkt vertreten, dass eine Antwort davon abhängen muss, was diese Begriffe bedeuten, bieten Sie tatsächlich keine Definition an, um Ihre nachfolgenden Kommentare klar oder verständlich zu machen.
Whuber
@whuber Fair genug. Ich fand die ursprüngliche Frage etwas unsinnig, also tat ich, was ich konnte. Die Frage hat jetzt bessere Antworten, die einige Annahmen darüber machen, was das OP bedeutet.
Fomite
0

Bradley verdeutlicht in seinen klassischen verteilungsfreien statistischen Tests (1968, S. 15–16 - siehe diese Frage für ein Zitat) den Unterschied zwischen verteilungsfreien und nichtparametrischen Tests, von denen er sagt, dass sie oft miteinander in Konflikt stehen, und gibt eine Beispiel eines Tests ohne Parameterverteilung als Vorzeichentest für den Median. Dieser Test geht nicht von der zugrunde liegenden Verteilung der Grundgesamtheit variabler Werte aus und ist daher verteilungsfrei . Wenn der ausgewählte Median jedoch korrekt ist, sollten Werte darüber und darunter mit gleicher Wahrscheinlichkeit ausgewählt werden, wobei Stichproben aus getestet werdenp=0.5

Aktualisieren

(A¬A)

Avraham
quelle
1
Ich mag den Anfang dieser Antwort, weil sie eine interessante Unterscheidung macht und sie mit einer guten Referenz unterstützt. Mir scheint jedoch, dass der Rest der Antwort Annahmen über die Daten mit den Eigenschaften der Teststatistik verwechselt. Die Annahmen des Vorzeichentests sind in der Tat "verteilungsfrei". Die Tatsache, dass die Stichprobenverteilung der Teststatistik binomisch ist, ist jedoch eine völlig separate Angelegenheit und macht die Prozedur nicht parametrisch!
whuber
Nun, Bradley selbst nennt den Sign-Test verteilungsfrei und dennoch parametrisch auf Seite 15. Das Kommentarfeld ist zu klein, um die beiden Schlüsselsätze in ihrer Gesamtheit darzustellen. Bitte lesen Sie die andere Antwort, insbesondere die Sätze, die mit "Grob gesprochen ..." und "Um ganz klar zu sein ..." beginnen. Vielen Dank.
Avraham
Wenn das bei Bradley der Fall ist, haben sich die Bedeutungen dieser Begriffe seitdem geändert, oder (ich hasse es zu sagen) Sie interpretieren falsch, was er geschrieben hat. (Ich habe keinen Zugang zu einer Kopie, die ich überprüfen kann.) Es ist definitiv nicht der Fall, dass "parametrisch" die Verteilung einer Teststatistik bezeichnet. Siehe das Wolfowitz-Zitat im Wikipedia-Artikel .
Whuber
2
FΩθ
2
Für das, was es wert ist, habe ich mir zwei andere statistische Texte angesehen, DeGroots Probability and Statistics (2. Aufl., S. 520-521) und Larsons Introduction to Probability Theory and Statistical Inference (3. Auflage, S. 508-509), und beide verwenden die Als parametrisch bezeichne ich, was Bradly als verteilungsfrei bezeichnet , was meiner Meinung nach Kiefer ähnelt. Zur Beantwortung des OP kommt es also darauf an, wie Sie "parametrisch" definieren.
Avraham