Was sind Beispiele aus der Praxis für „nicht parametrische statistische Modelle“?

11

Ich lese hier den Wikipedia-Artikel über statistische Modelle und bin etwas ratlos über die Bedeutung von "nichtparametrischen statistischen Modellen", insbesondere:

Ein statistisches Modell ist nichtparametrisch, wenn der Parametersatz unendlich dimensional ist. Ein statistisches Modell ist semiparametrisch, wenn es sowohl endlichdimensionale als auch unendlichdimensionale Parameter aufweist. Wenn d die Dimension von Θ und n die Anzahl der Stichproben ist, haben sowohl semiparametrische als auch nichtparametrische Modelle formal d als n . Wenn d / n 0 als n ∞ ist , ist das Modell semiparametrisch; Andernfalls ist das Modell nichtparametrisch.ΘdΘndnd/n0n

Ich verstehe, dass, wenn die Dimension (ich verstehe das wörtlich, die Anzahl der Parameter) eines Modells endlich ist, dies ein parametrisches Modell ist.

Was für mich keinen Sinn macht, ist, wie wir ein statistisches Modell haben können, das eine unendliche Anzahl von Parametern hat, so dass wir es "nicht parametrisch" nennen können. Auch wenn dies der Fall war, warum das "Nicht-", wenn es tatsächlich eine unendliche Anzahl von Dimensionen gibt? Gibt es einen Unterschied zwischen diesem "nicht parametrischen statistischen Modell" und "nicht parametrischen maschinellen Lernmodellen", da ich aus einem maschinellen Lernhintergrund komme? Was könnten schließlich einige konkrete Beispiele für solche "nichtparametrischen unendlich dimensionalen Modelle" sein?

Creatron
quelle
3
Verwenden einer anderen Wiki-Seite ( en.wikipedia.org/wiki/… ): 'Nichtparametrische Modelle unterscheiden sich von parametrischen Modellen darin, dass die Modellstruktur nicht a priori angegeben wird, sondern stattdessen aus Daten bestimmt wird. Der Begriff nicht parametrisch soll nicht bedeuten, dass solchen Modellen Parameter vollständig fehlen, sondern dass Anzahl und Art der Parameter flexibel sind und nicht im Voraus festgelegt werden. “ Nichtparametrisch hat also keine unendliche Anzahl von Parametern, sondern eine unbekannte Anzahl von Parametern.
Riff
Ich habe einen Zweifel. In nichtparametrischen Modellen definieren wir die Struktur des Modells a priori. Zum Beispiel definieren wir in Entscheidungsbäumen (bei denen es sich um ein nicht parametrisches Modell handelt) max_depth. Wie können Sie dann sagen, dass dieser Parameter tatsächlich aus den Daten selbst gelernt / bestimmt und nicht von uns vorbestimmt wird?
Amarpreet Singh

Antworten:

4

Wie Johnnyboycurtis geantwortet hat, sind nichtparametrische Methoden solche, bei denen keine Annahme über die Bevölkerungsverteilung oder die Stichprobengröße getroffen wird, um ein Modell zu erstellen.

Ein k-NN-Modell ist ein Beispiel für ein nicht parametrisches Modell, da es keine Annahmen zur Entwicklung eines Modells berücksichtigt. Ein Naive Bayes oder K-Mittel ist ein Beispiel für parametrisch, da es eine Verteilung zum Erstellen eines Modells voraussetzt.

Zum Beispiel nimmt K-means Folgendes an, um ein Modell zu entwickeln. Alle Cluster sind sphärisch (iid Gauß). Alle Achsen haben die gleiche Verteilung und damit Varianz. Alle Cluster sind gleichmäßig groß.

Für k-NN wird der gesamte Trainingssatz zur Vorhersage verwendet. Es berechnet die nächsten Nachbarn aus dem Testpunkt für die Vorhersage. Es wird keine Verteilung zum Erstellen eines Modells angenommen.

Für mehr Information:

  1. http://pages.cs.wisc.edu/~jerryzhu/cs731/stat.pdf
  2. /stats//a/133841/86202
  3. /stats//a/133694/86202
Prashanth
quelle
Können Sie das bitte näher erläutern? Warum ist KNN ein Beispiel für ein nicht parametrisches Mittel und warum könnte K-means sein? Es sind diese Details, nach denen ich suche, insbesondere Beispiele für nichtparametrische Methoden und warum / wie sie keine Annahme über die Bevölkerungsverteilung haben. Vielen Dank!
Creatron
@Creatron Ich habe die Antwort für weitere Erklärungen geändert.
Prashanth
3

Ich denke, Sie vermissen ein paar Punkte. Erstens und vor allem

Eine statistische Methode wird als nicht parametrisch bezeichnet, wenn keine Annahme über die Bevölkerungsverteilung oder die Stichprobengröße getroffen wird.

Hier ist ein einfaches (angewandtes) Tutorial zu einigen nicht-parametrischen Modellen: http://www.r-tutor.com/elementary-statistics/non-parametric-methods

Ein Forscher kann sich dafür entscheiden, ein nichtparemtrisches Modell gegenüber einem parametrischen Modell zu verwenden, beispielsweise nichtparametrische Regression gegenüber linearer Regression, weil die Daten gegen die Annahmen des parametrischen Modells verstoßen. Da Sie einen ML-Hintergrund haben, gehe ich einfach davon aus, dass Sie die typischen Annahmen des linearen Regressionsmodells nie gelernt haben. Hier ist eine Referenz: https://statistics.laerd.com/spss-tutorials/linear-regression-using-spss-statistics.php

Verstöße gegen Annahmen können Ihre Parameterschätzungen verzerren und letztendlich das Risiko ungültiger Schlussfolgerungen erhöhen. Ein nichtparametrisches Modell ist robuster gegenüber Ausreißern und nichtlinearen Beziehungen und hängt nicht von vielen Annahmen zur Bevölkerungsverteilung ab. Daher kann es vertrauenswürdigere Ergebnisse liefern, wenn versucht wird, Schlussfolgerungen zu ziehen oder Vorhersagen zu treffen.

Für ein kurzes Tutorial zur nichtparametrischen Regression empfehle ich diese Folien: http://socserv.socsci.mcmaster.ca/jfox/Courses/Oxford-2005/slides-handout.pdf

Jon
quelle
Danke für die Links, ich werde sie durchgehen. Eine Sache ist jedoch, wie sollen wir dies mit der "unendlichen Anzahl von Parametern" verbinden, die ein "nicht parametrisches" Modell ausmachen? Vielen Dank
Creatron
Es gibt kein Zitat für diese "unendliche Anzahl von Parametern", daher kann ich keinen Kommentar abgeben. Ich habe noch nie einen solchen Verweis auf das Thema des nichtparametrischen statistischen Modells gesehen, daher müsste ich einen Verweis sehen, bevor ich eine Antwort / Interpretation geben kann. Im Moment würde ich mir Gedanken über die Annahmen zu bestimmten Modellen im Vergleich zu einem ganzen Feld machen.
Jon
Der in meiner Frage zitierte Wikipedia-Artikel bezieht sich auf die unendliche Dimensionalität. Wörtlich: "Ein statistisches Modell ist nicht parametrisch, wenn der Parametersatz unendlich dimensional ist." Was bedeutet das? Darauf beziehe ich mich.
Creatron
Ich kenne. Wikipedia liefert jedoch kein Zitat für diese Aussage. Ich kann etwas ohne Referenz nicht vertrauen.
Jon
3

Ich nehme derzeit an einem Kurs über maschinelles Lernen teil, in dem wir die folgende Definition von nichtparametrischen Modellen verwenden: "Nichtparametrische Modelle werden mit der Größe der Daten immer komplexer".

Parametrisches Modell

Um zu sehen, was es bedeutet, werfen wir einen Blick auf die lineare Regression, ein parametrisches Modell: Dort versuchen wir, eine in parametrisierte Funktion vorherzusagen wd::

f(x)=wT.x
Die Dimensionalität von w ist unabhängig von der Anzahl der Beobachtungen oder der Größe Ihrer Daten.

Nichtparametrische Modelle

Stattdessen versucht die Kernel-Regression, die folgende Funktion vorherzusagen:

f(x)=ich=1nαichk(xich,x)
wo wir haben n Datenpunkte, αich sind die Gewichte und k(xich,x)ist die Kernelfunktion. Hier die Anzahl der Parameterαichist abhängig von der Anzahl der Datenpunkten.

Gleiches gilt für das kernelisierte Perzeptron:

f(x)=sichGn(ich=1nαichyichk(xich,x)))

Kommen wir zu Ihrer Definition zurück und sagen, d sei die Nummer von αich. Wenn wir lassenn dann d. Genau das verlangt die Wikipedia-Definition.

Ich habe die Kernel-Regressionsfunktion aus meinen Vorlesungsfolien und die kernelisierte Perzeptron-Funktion aus Wikipedia übernommen: https://en.wikipedia.org/wiki/Kernel_method

sop_se
quelle