In einer Normalverteilung haben wir also zwei Parameter: mean und varance . Im Buch Mustererkennung und maschinelles Lernen taucht plötzlich ein Hyperparameter in den Regularisierungsbegriffen der Fehlerfunktion auf.
Was sind Hyperparameter? Warum heißen sie so? Und wie unterscheiden sie sich intuitiv von Parametern im Allgemeinen?
Antworten:
Der Begriff Hyperparameter ist ziemlich vage. Ich werde es verwenden, um auf einen Parameter zu verweisen, der sich auf einer höheren Hierarchieebene als die anderen Parameter befindet. Betrachten Sie als Beispiel ein Regressionsmodell mit einer bekannten Varianz (1 in diesem Fall).
und dann ein vor auf die parameter, zb
Dabei bestimmt die Verteilung von und die Verteilung für . Wenn ich nur auf verweisen möchte, kann ich es den Parameter nennen, und wenn ich nur auf verweisen möchte , kann ich es den Hyperparameter nennen.& bgr; & bgr; y & bgr; & lgr;λ β β y β λ
Die Benennung wird komplizierter, wenn Parameter auf mehreren Ebenen angezeigt werden oder wenn es mehr hierarchische Ebenen gibt (und Sie den Begriff Hyperhyperparameter nicht verwenden möchten). Es ist am besten, wenn der Autor genau angibt, was gemeint ist, wenn er den Begriff "Hyperparameter" oder "Parameter" verwendet.
quelle
Ein Hyperparameter ist einfach ein Parameter, der andere Parameter ganz oder teilweise beeinflusst. Sie lösen nicht direkt das Optimierungsproblem, mit dem Sie konfrontiert sind, sondern optimieren Parameter, die das Problem lösen können (daher der Hyperlink , da sie nicht Teil des Optimierungsproblems sind, sondern "Addons"). Für das, was ich gesehen habe, aber ich keinen Bezug haben, ist diese Beziehung unidirektionale (a Hyper nicht durch die Parameter beeinflusst werden kann es daher auch den Einfluss auf, hat hyper ). Sie werden normalerweise in Regularisierungs- oder Metaoptimierungsschemata eingeführt.
Ich fand das Hyperparameterkonzept sehr nützlich für die Kreuzvalidierung, da es Sie an die Hierarchie der Parameter erinnert und Sie daran erinnert, dass Sie, wenn Sie immer noch (Hyper-) Parameter ändern, immer noch Kreuzvalidierungen durchführen und nicht verallgemeinern müssen Seien Sie vorsichtig mit Ihren Schlussfolgerungen (um zirkuläres Denken zu vermeiden).
quelle
Die anderen Erklärungen sind etwas vage; Hier ist eine konkretere Erklärung, die dies verdeutlichen sollte.
Hyperparameter sind Parameter des Modells nur , nicht von dem physikalischen Prozess, der modelliert wird. Sie führen sie "künstlich" ein, damit Ihr Modell in Gegenwart endlicher Daten und / oder endlicher Rechenzeit "funktioniert" . Wenn Sie die unendliche Macht hätten, irgendetwas zu messen oder zu berechnen, würden Hyperparameter in Ihrem Modell nicht mehr existieren, da sie keinen physikalischen Aspekt des tatsächlichen Systems beschreiben würden.
Reguläre Parameter sind hingegen diejenigen, die das physikalische System beschreiben und nicht nur Artefakte modellieren.
quelle
Es ist kein genau definierter Begriff, daher werde ich Ihnen eine weitere Definition geben, die mit der üblichen Verwendung vereinbar zu sein scheint.
Lassen Sie mich das mit einem Beispiel abwickeln, der Gratregression. In der Gratregression lösen wir das folgende Optimierungsproblem:
quelle
Wie @jaradniemi genau betont, stammt eine Verwendung des Begriffs Hyperparameter aus der hierarchischen oder mehrstufigen Modellierung, bei der Sie eine Kaskade statistischer Modelle verwenden, von denen eines über / unter dem anderen aufgebaut ist und die normalerweise bedingte Wahrscheinlichkeitsaussagen verwendet.
Dieselbe Terminologie kommt aber auch in anderen Kontexten mit unterschiedlichen Bedeutungen vor. Ich habe zum Beispiel gesehen, dass der Begriff Hyperparameter verwendet wurde, um sich auf die Parameter der Simulation (Lauflänge, Anzahl unabhängiger Replikationen, Anzahl interagierender Partikel in jeder Replikation usw.) eines stochastischen Modells zu beziehen, die nicht aus einer Mehrfachebene resultierten Modellieren.
quelle