Was bedeutet der Begriff Varianz im Modell des maschinellen Lernens?

8

Ich kenne Begriffe mit hoher Voreingenommenheit und hoher Varianz und deren Auswirkungen auf das Modell.

Grundsätzlich weist Ihr Modell eine hohe Varianz auf, wenn es zu komplex und empfindlich ist, selbst wenn es zu Ausreißern kommt.

Aber kürzlich wurde ich in einem der Interviews nach der Bedeutung des Begriffs Varianz im Modell des maschinellen Lernens gefragt.

Ich würde gerne wissen, was Varianz genau im ML-Modell bedeutet und wie sie in Ihrem Modell eingeführt wird. Ich würde mich sehr freuen, wenn jemand dies anhand eines Beispiels erklären könnte.

Soziopath
quelle
Die Varianz in der Statistik entspricht der Varianz in ML. Das liegt daran, dass ML ein Rebranding von Statistiken ist.
Jon

Antworten:

10

Es ist so ziemlich das, was du gesagt hast. Formal kann man sagen:

Varianz ist im Kontext des maschinellen Lernens eine Art von Fehler, der aufgrund der Empfindlichkeit eines Modells gegenüber kleinen Schwankungen im Trainingssatz auftritt.

Eine hohe Varianz würde dazu führen, dass ein Algorithmus das Rauschen im Trainingssatz modelliert. Dies wird am häufigsten als Überanpassung bezeichnet .

Wenn wir über Varianz beim maschinellen Lernen sprechen, beziehen wir uns auch auf Voreingenommenheit .

Bias ist im Kontext des maschinellen Lernens eine Art Fehler, der aufgrund fehlerhafter Annahmen im Lernalgorithmus auftritt.

Hohe Vorspannung bewirken würde , einen Algorithmus verpassen relevanten Beziehungen zwischen den Eingabeeigenschaften und die Zielausgänge. Dies wird manchmal als Unteranpassung bezeichnet .

Beziehung zwischen Voreingenommenheit und Varianz:

In den meisten Fällen würde der Versuch, einen dieser beiden Fehler zu minimieren, zu einer Erhöhung des anderen führen. Daher werden die beiden normalerweise als Kompromiss angesehen .

Ursache für hohe Verzerrung / Varianz in ML:

Der häufigste Faktor, der die Verzerrung / Varianz eines Modells bestimmt, ist seine Kapazität (stellen Sie sich dies als die Komplexität des Modells vor).

  • Modelle mit geringer Kapazität (z. B. lineare Regression) können relevante Beziehungen zwischen den Merkmalen und Zielen übersehen, was zu einer hohen Verzerrung führt. Dies ist in der linken Abbildung oben ersichtlich.

  • Auf der anderen Seite könnten Modelle mit hoher Kapazität (z. B. hochgradige Polynomregression, neuronale Netze mit vielen Parametern) einen Teil des Rauschens zusammen mit relevanten Beziehungen im Trainingssatz modellieren, was zu einer hohen Varianz führt, wie in der rechte Abbildung oben.

Wie kann man die Varianz in einem Modell reduzieren?

Der einfachste und gebräuchlichste Weg, die Varianz in einem ML-Modell zu reduzieren, ist die Anwendung von Techniken, die seine effektive Kapazität einschränken, dh die Regularisierung .

Die häufigsten Formen der Regularisierung sind Strafen für Parameternormen , die die Parameteraktualisierungen während der Trainingsphase einschränken. frühes Anhalten , wodurch das Training abgebrochen wird; Beschneiden für baumbasierte Algorithmen; Ausfall für neuronale Netze usw.

Kann ein Modell sowohl eine geringe Vorspannung als auch eine geringe Varianz aufweisen?

Ja . Ebenso kann ein Modell sowohl eine hohe Vorspannung als auch eine hohe Varianz aufweisen, wie in der folgenden Abbildung dargestellt.

Wie können wir sowohl eine geringe Verzerrung als auch eine geringe Varianz erreichen?

In der Praxis ist die meiste Methodik:

  1. Wählen Sie einen Algorithmus mit einer Kapazität, die hoch genug ist, um das Problem ausreichend zu modellieren. In dieser Phase möchten wir die Verzerrung minimieren , sodass wir uns noch keine Gedanken über die Varianz machen.
  2. Regularisieren Sie das obige Modell, um seine Varianz zu minimieren .
Djib2011
quelle
4

Die Varianz ist die Änderung der Vorhersagegenauigkeit des ML-Modells zwischen Trainingsdaten und Testdaten.

Es bedeutet einfach, dass wenn ein ML-Modell mit einer Genauigkeit von "x" für Trainingsdaten vorhersagt und seine Vorhersagegenauigkeit für Testdaten "y" ist

Varianz = x - y

Ajay Sant
quelle
1

Varianz ist die Variabilität der Modellvorhersage für einen bestimmten Datenpunkt oder einen Wert, der die Streuung unserer Daten angibt. Ein Modell mit hoher Varianz legt großen Wert auf Trainingsdaten und verallgemeinert nicht die Daten, die es zuvor noch nicht gesehen hat. Infolgedessen arbeiten solche Modelle sehr gut mit Trainingsdaten, weisen jedoch hohe Fehlerraten bei Testdaten auf.

Fehler aufgrund von Abweichung

Ein Fehler aufgrund von Varianz ist der Betrag, um den die Vorhersage über einen Trainingssatz von dem erwarteten Wert über alle Trainingssätze abweicht. Beim maschinellen Lernen führen unterschiedliche Trainingsdatensätze zu einer unterschiedlichen Schätzung. Idealerweise sollte es jedoch nicht zu stark zwischen den Trainingssätzen variieren. Wenn eine Methode jedoch eine hohe Varianz aufweist, können kleine Änderungen der Trainingsdaten zu großen Änderungen der Ergebnisse führen.

https://www.coursera.org/lecture/machine-learning/diagnosing-bias-vs-variance-yCAup

https://towardsdatascience.com/understanding-the-bias-variance-tradeoff-165e6942b229

Prhld
quelle