Warum ist Überanpassung schlecht?

27

Ich habe diese Lose studiert und sie sagen, eine Überanpassung der Aktionen beim maschinellen Lernen sei schlecht, doch unsere Neuronen werden sehr stark und finden die besten Aktionen / Sinne, an denen wir vorbeigehen oder die wir vermeiden, und können von schlecht aufgehoben / erhöht werden / gut durch schlechte oder gute Trigger, was bedeutet, dass die Aktionen gleich werden und am Ende die besten (richtigen), superstarken, selbstbewussten Aktionen erzielt werden. Wie scheitert das? Es verwendet positive und negative Sinnesauslöser, um die Aktionen von 44pos zu dekrementieren / neu zu inkrementieren. bis 22neg.

Freundliche Person 44
quelle
4
Diese Frage ist viel weiter gefasst als nur für maschinelles Lernen, neuronale Netze usw. Sie gilt für Beispiele, die so einfach sind wie die Anpassung eines Polynoms.
Gerrit
7
@ FriendlyPerson44 Nach dem erneuten Lesen Ihrer Frage besteht meiner Meinung nach ein erheblicher Unterschied zwischen Ihrem Titel und Ihrer eigentlichen Frage. Sie scheinen nach den Fehlern in Ihrer KI zu fragen ( was nur vage erklärt wird ) - während die Leute antworten: " Warum ist die Überanpassung schlecht? "
DoubleDouble
3
@ DoubleDouble Ich stimme zu. Darüber hinaus ist der Zusammenhang zwischen maschinellem Lernen und Neuronen zweifelhaft. Maschinelles Lernen hat nichts damit zu tun, sich wie ein Gehirn zu verhalten, Neuronen zu simulieren oder Intelligenz zu simulieren. Es scheint, dass es viele verschiedene Antworten gibt, die an dieser Stelle bei der OP helfen könnten.
Shaz
2
Sie sollten Ihre Frage und den Titel schärfen. Vielleicht zu: "Warum müssen wir ein virtuelles Gehirn gegen Überanpassung schützen, während das menschliche Gehirn ohne Gegenmaßnahmen gegen Überanpassung großartig arbeitet?"
Falco

Antworten:

44

Die beste Erklärung, die ich gehört habe, ist folgende:

Wenn Sie maschinelles Lernen durchführen, gehen Sie davon aus, dass Sie aus Daten lernen möchten, die einer Wahrscheinlichkeitsverteilung folgen.

Dies bedeutet, dass in jedem Datensatz aufgrund der Zufälligkeit Rauschen auftritt : Die Daten variieren zufällig.

Wenn Sie übermäßig trainieren, lernen Sie am Ende von Ihrem Geräusch und nehmen es in Ihr Modell auf.

Wenn es dann an der Zeit ist, Vorhersagen aus anderen Daten zu treffen, sinkt Ihre Genauigkeit: Das Rauschen hat sich in Ihr Modell eingeschlichen, war jedoch spezifisch für Ihre Trainingsdaten, sodass es die Genauigkeit Ihres Modells beeinträchtigt. Ihr Modell lässt sich nicht verallgemeinern: Es ist zu spezifisch für den Datensatz, für den Sie sich gerade für das Training entschieden haben.

jmite
quelle
1
"Vom Lärm lernen" klingt für mich vage. Was genau passiert Kannst du ein Beispiel geben?
Raphael
Selbst wenn Ihre Daten sehr sauber sind und keine Ausreißer (sowohl natürliche als auch nicht natürliche Ausreißer) mehr vorhanden sind, ist eine "Überanpassung" eine schlechte Praxis und sollte aus Ihrem Modell entfernt werden. Wenn Ihr Modell "überfüllt" ist, bedeutet dies, dass Ihr Modell das in den Daten verborgene Wissen nicht verallgemeinert hat und keine anderen Datenpunkte vorhersagen kann. Wenn Sie Ihr Modell einfach überbauen, passen Sie es nur auf Ihren Zug- / Testdatensatz.
Aboelnour
2
@Raphael Das System beginnt, die Geräusche im Trainingssatz als Merkmale anzuzeigen. Wenn Sie dann das Netz mit realen Daten betreiben, bei denen dieses spezifische Rauschen fehlt, ist die Wahrscheinlichkeit geringer, da Features (= das enthaltene Rauschen) fehlen.
drake7707
2
@Raphael Was ist zum Beispiel mit: Ich habe eine Sammlung von Bildern von einer Verkehrskamera. Lassen Sie uns ein Netz trainieren, das erkennt, ob Autos vorhanden sind oder nicht. Nach einigem Training habe ich es geschafft ein Set mit Autos und ohne Autos zu geben, super! Wenden wir das Netz auf ein neues Set an, um festzustellen, ob eine Straße ohne Menschen leer ist, und warum erkennt es meine leere Straße nicht mit hoher Wahrscheinlichkeit? Wenn ich auf das Musterset zurückblicke, bemerke ich, dass sich auf jedem Bild Menschen im Hintergrund von Bildern befanden, als es keine Autos gab. Aufgrund der Überanpassung des Netzes wurde der Schwerpunkt auf die Anwesenheit der Leute gelegt
drake7707
1
Stellen Sie sich ein System vor, bei dem durch einen Münzwurf Rauschen erzeugt wird. Bei Heads addieren Sie 1 zum Wert und bei Tails 0. Um die Ergebnisse deutlich zu machen, wählen wir einen absurd kleinen Datensatz mit zwei Punkten: (2, 5) und (2.1, 8). Mit dem Münzwurf werden die Köpfe für den ersten Punkt und die Schwänze für den zweiten Punkt gesetzt, wodurch ein Rauschen erzeugt wird und der Datensatz (3, 5), (2.1, 8) erstellt wird. Jetzt lernt das neuronale Netz aus einem Datensatz, der aussieht, als gäbe es eine signifikante Korrelation zwischen den x- und y-Werten, obwohl fast alles Rauschen war. Wenn Sie dieses 'Netz' dann an echte Daten senden, werden viele falsche Ergebnisse generiert
Cort Ammon - Reinstate Monica
39

ELI5 Version

Dies ist im Grunde, wie ich es meinem 6-Jährigen erklärt habe.

Es war einmal ein Mädchen namens Mel ( "Verstehst du? ML?" "Dad, du bist lahm." ). Und jeden Tag spielte Mel mit einer anderen Freundin, und jeden Tag spielte sie, es war ein sonniger, wundervoller Tag.

Mel spielte mit Jordan am Montag, Lily am Dienstag, Mimi am Mittwoch, Olive am Donnerstag und dann am Freitag. Mel spielte mit Brianna und es regnete. Es war ein schreckliches Gewitter!

Mehr Tage, mehr Freunde! Mel spielte am Samstag mit Kwan, Grayson am Sonntag, Asa am Montag ... und dann am Dienstag spielte Mel mit Brooke und es regnete wieder, noch schlimmer als zuvor!

Jetzt hat Mels Mutter alle Spieltermine gemacht, und an diesem Abend beginnt sie, Mel alles über die neuen Spieltermine zu erzählen, die sie geplant hat. "Luis am Mittwoch, Ryan am Donnerstag, Jemini am Freitag, Bianca am Samstag -"

Mel runzelte die Stirn.

Mels Mutter fragte: "Was ist los, Mel, magst du Bianca nicht?"

Mel antwortete: "Oh, klar, sie ist großartig, aber jedes Mal, wenn ich mit einem Freund spiele, dessen Name mit B beginnt, regnet es!"


Was ist los mit Mels Antwort?

Nun, es könnte am Samstag nicht regnen.

Nun, ich weiß nicht, ich meine, Brianna kam und es regnete, Brooke kam und es regnete ...

Ja, ich weiß, aber Regen hängt nicht von deinen Freunden ab.

Kyle Hale
quelle
10
Und zu dieser anderen Frage, das ist, was "aus dem Lärm lernen" bedeutet.
Kyle Hale
Zum Regenkommentar - Aber das machen wir, dann arbeiten wir weiter und lernen später mehr.
Freundliche Person 44
13
@ FriendlyPerson44 Du hast recht, die Leute machen Fehler und machen schlechte Dinge wie Überkleidung. Ihre Frage war, warum Überanpassung schlecht ist und nicht, ob die Leute es tun oder nicht.
Kyle Hale
1
Dieses Problem betrifft nicht nur schlecht lernende Roboter, sondern auch schlecht lernende Menschen.
Tomáš Zato - Reinstate Monica
Ich folge nicht ganz: Regen sollte in erster Linie keine Prädiktorvariable sein, was hat das mit Überanpassung zu tun?
Mucaho
14

Überanpassung impliziert, dass Ihr Lernender nicht gut verallgemeinert. Stellen Sie sich beispielsweise ein überwachtes Standardlernszenario vor, in dem Sie versuchen, Punkte in zwei Klassen aufzuteilen. Angenommen, Sie erhalten Trainingspunkte. Sie können ein Polynom vom Grad N anpassen, das 1 für Trainingspunkte der ersten Klasse und -1 für Trainingspunkte der zweiten Klasse ausgibt. Aber dieses Polynom wäre wahrscheinlich nutzlos, um neue Punkte zu klassifizieren. Dies ist ein Beispiel für Überanpassung und warum es schlecht ist.NN

Yuval Filmus
quelle
Aber seine überaus angepassten Aktionen sind an bestimmte Sinne gebunden, und nur wenn er dieselben Sinne wieder sieht, stimmt er mit dem Gedächtnis überein und verknüpft sich mit diesen Aktionen. Er wird sie nicht ausführen, wenn er andere Dinge sieht. Verallgemeinern ist zwei Dinge - all diese Baumbilder sind Bäume und nutzen das Wissen aus der Vergangenheit, um diese neue Sache herauszufinden. Damit meine KI das lösen kann, sieht sie einen Baum und hört "Baum", und das stimmt mit dem Gedächtnis überein und bringt es in den Vordergrund. Dann sieht sie neue Bäume und ihre Namen und sie alle verbinden sich mit den Sinnen im neuesten Gedächtnis - das erste Baumbild & klingen. Herauszufinden neue kleine verwandte Sache von knwldge ist neu actio
freundliche Person 44
2
@ FriendlyPerson44 Beim überwachten maschinellen Lernen sollte sich das Ergebnis des Trainings nicht weiter ändern müssen. Hier kommt die "Überanpassung" ins Spiel. Es wäre, als hätte die Maschine gelernt, einen Baum zu erkennen - zuerst an den Farben, dann an der allgemeinen Form, dann an einer bestimmten Form ( wo sie aufhören sollte ), aber dann beginnt sie, Bäume anhand zusätzlicher zufälliger Muster zu unterscheiden, die sie nur in Ihrem Baum gefunden hat Trainingsset. Wenn Sie es neue zufällige Bilder von Bäumen sehen lassen, entscheidet es, dass dies keine Bäume sind. Zu diesem Zeitpunkt ist der schlimmste Fall, dass es in Gebrauch ist und niemand es überwacht!
DoubleDouble
Aber meins erkennt einen Baum, indem es das Baumbild und den Ton "Baum" speichert und die beiden Sinne miteinander verbindet. Wenn ein Baum gesagt wird, stimmt er mit dem überein, was sich im Speicher befindet, und bringt das Streichholz und das damit verknüpfte vor den Speicher und dann, wenn es anders dargestellt wird Bäume und nannte neue Namen diese Bilder und Klänge wie die ersten, die gelernt haben. Bäume sind nicht die Auslöser, sondern das Essen. Sie werden keine Aktionen speichern, wenn eine Farbe oder ein Muster zu sehen ist. Meins lernt wirklich die Handlungen.
Freundliche Person 44
1
@ FriendlyPerson44 Was hat das damit zu tun, warum Überanpassung schlecht ist?
DoubleDouble
9

Grob gesagt tritt eine Überanpassung typischerweise bei dem Verhältnis auf

Bildbeschreibung hier eingeben

ist zu hoch.

Stellen Sie sich eine Überanpassung als eine Situation vor, in der Ihr Modell die Trainingsdaten auswendig lernt, anstatt die großen Bilder zu lernen, die verhindern, dass sie auf die Testdaten verallgemeinert werden können. Dies geschieht, wenn das Modell in Bezug auf die Größe von zu komplex ist die Trainingsdaten, dh wenn die Größe der Trainingsdaten im Vergleich zur Modellkomplexität zu klein ist.

Beispiele:

  • Wenn Ihre Daten zweidimensional sind, befinden sich 10000 Punkte im Trainingssatz und das Modell ist wahrscheinlich eine Linie unter -fit.
  • Wenn Ihre Daten in zwei Dimensionen vorliegen, das Trainingsset 10 Punkte enthält und das Modell ein 100-Grad-Polynom ist, besteht die Gefahr, dass Sie überanpassen.

Bildbeschreibung hier eingeben

Aus theoretischer Sicht ist die Menge an Daten, die Sie benötigen, um Ihr Modell richtig zu trainieren, eine entscheidende, aber noch zu beantwortende Frage beim maschinellen Lernen. Ein solcher Ansatz zur Beantwortung dieser Frage ist der VC-Dimension . Ein weiterer Grund ist der Bias-Varianz-Kompromiss .

Aus empirischer Sicht zeichnen die Menschen in der Regel den Trainingsfehler und den Testfehler im selben Diagramm auf und stellen sicher, dass sie den Trainingsfehler nicht auf Kosten des Testfehlers reduzieren:

Bildbeschreibung hier eingeben

Ich würde empfehlen, den Kurs "Maschinelles Lernen" von Coursera im Abschnitt "10: Hinweise zur Anwendung des maschinellen Lernens" zu lesen.

Franck Dernoncourt
quelle
1
Ich mag die Linie "Lernen auswendig", weil Menschen dies in gewissem Maße können (und tun). Stellen Sie sich ein extrem schwieriges Quiz vor, bei dem sich die Fragen und Antworten nie ändern, Ihnen jedoch die Antworten mitgeteilt werden, wenn Sie sie falsch erhalten. Stellen Sie sich vor, die Gleichung (2 + 2) sei schwierig, Sie erkennen die Gleichung und sagen '4' - aber dann kommt (2 + 3), aber Sie haben nicht gelernt hinzuzufügen, Sie haben gerade gelernt, '4' zu sagen wenn Sie '2 + 2' haben
DoubleDouble
nette Erklärung
Nikos M.
4

Ich denke, wir sollten zwei Situationen betrachten:

Endliches Training

Es gibt eine begrenzte Menge von Daten, die wir zum Trainieren unseres Modells verwenden. Danach wollen wir das Modell verwenden.

In diesem Fall erstellen Sie bei Überanpassung kein Modell des Phänomens, aus dem die Daten stammen, sondern ein Modell Ihres Datensatzes. Wenn Ihr Datensatz nicht perfekt ist - ich habe Probleme, mir einen perfekten Datensatz vorzustellen -, funktioniert Ihr Modell in vielen oder einigen Situationen nicht richtig, abhängig von der Qualität der Daten, mit denen Sie trainiert haben. Eine Überanpassung führt also zu einer Spezialisierung Ihres Datensatzes, wenn Sie durch Generalisierung das zugrunde liegende Phänomen modellieren möchten.

Fortlaufendes Lernen

Unser Modell erhält ständig neue Daten und lernt weiter. Möglicherweise gibt es eine anfängliche Phase erhöhter Elastizität, um einen akzeptablen Ausgangspunkt zu erhalten.

Dieser zweite Fall ähnelt eher der Art und Weise, wie das menschliche Gehirn trainiert wird. Wenn ein Mensch sehr jung ist, haben neue Beispiele für das, was Sie lernen möchten, einen stärkeren Einfluss als wenn Sie älter sind.

In diesem Fall stellt die Überanpassung ein etwas anderes, aber ähnliches Problem dar: Systeme, die unter diesen Fall fallen, sind häufig Systeme, von denen erwartet wird, dass sie beim Lernen eine Funktion ausführen. Überlegen Sie, wie ein Mensch nicht einfach irgendwo sitzt, während ihm neue Daten präsentiert werden, um daraus zu lernen. Ein Mensch interagiert und überlebt die ganze Zeit in der Welt.

Sie könnten argumentieren, dass das Endergebnis gut funktioniert, da die Daten immer wieder kommen, aber in dieser Zeitspanne muss das Gelernte genutzt werden! Eine Überanpassung führt zu denselben kurzfristigen Effekten wie in Fall 1, wodurch die Leistung Ihres Modells beeinträchtigt wird. Aber Sie sind auf die Leistung Ihres Modells angewiesen, um zu funktionieren!

Sehen Sie sich das so an, wenn Sie sich überanstrengen, werden Sie vielleicht nach vielen weiteren Beispielen den Raubtier erkennen, der versucht, Sie irgendwann in der Zukunft zu verzehren, aber wenn der Raubtier Sie frisst, ist das umstritten.

Niels
quelle
Gute Antwort auf die Frage, die die Operation impliziert: "Warum müssen wir Überanpassung in virtuellen Gehirnen verhindern, wenn unser Gehirn ohne Überanpassungskompensation in Ordnung zu sein scheint" - weil eine Maschine trainiert wird, während der Mensch für sich selbst lernt.
Falco
3

Angenommen, Sie möchten dem Computer beibringen, zwischen guten und schlechten Produkten zu unterscheiden, und ihm den folgenden Datensatz zum Lernen geben: Diagramm mit Datensatz.  0 bis 50 sind 0. 52 und 74 sind 0. Die restlichen Werte von 51 bis 100 sind 1

0 bedeutet, dass das Produkt fehlerhaft ist, 1 bedeutet, dass es in Ordnung ist. Wie Sie sehen, besteht eine starke Korrelation zwischen der X- und der Y-Achse. Wenn der gemessene Wert unter oder gleich 50 liegt, ist es sehr wahrscheinlich (~ 98%), dass das Produkt fehlerhaft ist, und oberhalb ist es sehr ähnlich (~ 98%), dass es in Ordnung ist. 52 und 74 sind Ausreißer (entweder falsch gemessene oder nicht gemessene Faktoren, die eine Rolle spielen; auch als Rauschen bekannt). Der gemessene Wert könnte Dicke, Temperatur, Härte oder etwas anderes sein, und seine Einheit ist in diesem Beispiel nicht wichtig. Der generische Algorithmus wäre es also

if(I<=50)
    return faulty;
else
    return OK;

Bei Fehlklassifizierungen bestünde eine Wahrscheinlichkeit von 2%.

Ein Überpassungsalgorithmus wäre:

if(I<50)
    return faulty;
else if(I==52)
    return faulty;
else if(I==74)
    return faulty;
else
    return OK;

Der Überpassungsalgorithmus würde also alle Produkte mit den Maßen 52 oder 74 als fehlerhaft einstufen, obwohl die Wahrscheinlichkeit groß ist, dass sie in Ordnung sind, wenn neue Datensätze in der Produktion verwendet werden. Bei Fehlklassifizierungen bestünde eine Wahrscheinlichkeit von 3,92%. Für einen externen Beobachter wäre diese Fehlklassifizierung zwar seltsam, aber erklärbar, wenn er den überausgestatteten Originaldatensatz kennt.

Für den ursprünglichen Datensatz ist der überarbeitete Algorithmus am besten, für neue Datensätze ist der generische (nicht überarbeitete) Algorithmus am wahrscheinlichsten am besten. Der letzte Satz beschreibt grundlegend die Bedeutung von Überanpassung.

H. Idden
quelle
2

In meinem College-AI-Kurs gab unser Ausbilder ein Beispiel, das Kyle Hales ähnelt:

Ein Mädchen und ihre Mutter gehen zusammen im Dschungel spazieren, als plötzlich ein Tiger aus dem Gebüsch springt und ihre Mutter verschlingt. Am nächsten Tag geht sie mit ihrem Vater durch den Dschungel und wieder springt der Tiger aus dem Gebüsch. Ihr Vater schreit sie zur Flucht an, aber sie antwortet: "Oh, es ist in Ordnung, Papa, Tiger essen nur Mütter."

Andererseits:

Ein Mädchen und ihre Mutter gehen zusammen im Dschungel spazieren, als plötzlich ein Tiger aus dem Gebüsch springt und ihre Mutter verschlingt. Am nächsten Tag findet ihr Vater sie in ihrem Zimmer zusammengekauert und fragt sie, warum sie nicht mit ihren Freunden spielt. Sie antwortet: "Nein! Wenn ich nach draußen gehe, wird ein Tiger mich mit Sicherheit essen!"

Sowohl Überanpassung als auch Unteranpassung können schlecht sein, aber ich würde sagen, dass es vom Kontext des Problems abhängt, das Sie zu lösen versuchen, welches Sie mehr beunruhigt.

Black Hawk
quelle
2

Eines, dem ich tatsächlich begegnet bin, ist so etwas. Zuerst messe ich etwas, bei dem ich ein ungefähr lineares Verhältnis von Input zu Output erwarte. Hier sind meine Rohdaten:

Input   Expected Result
1.045   0.268333453
2.095   0.435332226
3.14    0.671001483
4.19    0.870664399
5.235   1.073669373
6.285   1.305996464
7.33    1.476337174
8.38    1.741328368
9.425   1.879004941
10.47   2.040661489

Und hier ist das eine Grafik:

Bildbeschreibung hier eingeben

Scheint definitiv meiner Erwartung an lineare Daten zu entsprechen. Sollte es ziemlich einfach sein, die Gleichung abzuleiten, oder? Sie lassen Ihr Programm diese Daten ein wenig analysieren und schließlich wird gemeldet, dass es die Gleichung gefunden hat, die alle diese Datenpunkte mit einer Genauigkeit von 99,99% trifft! Genial! Und diese Gleichung lautet ... 9sin (x) + x / 5. Welches sieht so aus: Bildbeschreibung hier eingeben

Nun, die Gleichung sagt die Eingabedaten definitiv mit nahezu perfekter Genauigkeit voraus, aber da sie so stark an die Eingabedaten angepasst sind, ist sie für alles andere so gut wie unbrauchbar.

Mooing Duck
quelle
Ich denke, Überanpassung ist eher eine Frage dessen, was Sie falsch machen, wenn Sie die Eingabedaten haben. Hier gibt es nichts, was du tun kannst; Die Eingaben sind unzureichend, da Unterabtastung vorliegt.
Emre
1
@Emre: Ich beabsichtige kein Unterabtasten, ich wollte, dass die Eingabe / Ausgabe linear ist, aber die Überanpassung ergab eine Gleichung, die eindeutig nicht linear war. Ich werde bearbeiten, um zu klären.
Mooing Duck
1

Schauen Sie sich diesen Artikel an, er erklärt die Über- und Unteranpassung recht gut.

http://scikit-learn.org/stable/auto_examples/model_selection/plot_underfitting_overfitting.html

Der Artikel untersucht ein Beispiel für Signaldaten einer Kosinusfunktion. Das Überanpassungsmodell sagt eine etwas kompliziertere Funktion des Signals voraus (die ebenfalls auf einer Kosinusfunktion basiert). Das überausgerüstete Modell kommt jedoch zu dem Schluss, dass dies nicht auf einer Verallgemeinerung beruht, sondern auf der Speicherung von Rauschen in den Signaldaten.

Arnab Datta
quelle
4
Wenn dieser Link kaputt geht, ist Ihre Antwort so gut wie wertlos. Bitte geben Sie mindestens eine Zusammenfassung (natürlich mit Namensnennung), damit die Antwort unabhängig von diesem Link einen Wert hat.
Raphael
1

Da @ jmite noch keine Erfahrung mit maschinellem Lernen und Beurteilen hat, ist hier eine Visualisierung dessen, was er meiner Meinung nach bedeutet:

Zufälliges Diagramm der ungefähren richtigen Form zur Demonstration

Angenommen, die einzelnen Balken in der obigen Grafik sind Ihre Daten, für die Sie versuchen, die allgemeinen Trends für größere Datensätze zu ermitteln. Ihr Ziel ist es, die gekrümmte Linie zu finden. Wenn Sie eine Überanpassung vornehmen, verbinden Sie anstelle der gezeigten gekrümmten Linie den oberen Rand jedes einzelnen Balkens und wenden diesen dann auf Ihren Datensatz an. Dadurch erhalten Sie eine seltsame, ungenaue, stachelige Reaktion, da das Rauschen (Abweichungen vom erwarteten) übertrieben wird in Ihre realen Übungsdatensätze.

Hoffe ich habe etwas geholfen ...

Azrantha
quelle
0

Überanpassung im wirklichen Leben:

Weiße Person sieht Nachricht von schwarzer Person, die Verbrechen begeht. Die weiße Person sieht eine weitere Nachricht von einer schwarzen Person, die ein Verbrechen begangen hat. Die weiße Person sieht eine dritte Nachricht über eine schwarze Person, die ein Verbrechen begangen hat. Weiße Menschen sehen Nachrichten über Weiße, die ein rotes Hemd tragen, wohlhabende Eltern und eine Vorgeschichte von psychischen Erkrankungen, die ein Verbrechen begehen. Die weiße Person kommt zu dem Schluss, dass alle Schwarzen Verbrechen begehen, und nur weiße Menschen, die rote Hemden, wohlhabende Eltern und eine Vorgeschichte von psychischen Erkrankungen tragen, begehen Verbrechen.

Wenn Sie verstehen möchten, warum diese Art der Überanpassung "schlecht" ist, ersetzen Sie "schwarz" oben durch ein Attribut, das Sie mehr oder weniger eindeutig definiert.

Rasenmäher Mann
quelle
Stereotypisierung ist das, was Laien als Überanpassung bezeichnen.
Emre
3
Das ist nicht übertrieben. Überanpassung wäre das System, das entscheidet, dass die einzigen Personen, die Kriminelle sind, diejenigen sind, die die gleiche Hautfarbe, Hemdfarbe, das gleiche Einkommen der Eltern und die gleiche psychische Erkrankungsgeschichte haben wie einer der Kriminellen in den Nachrichtenberichten.
David Richerby
8
@Emre Nein, Stereotypisierung ist das genaue Gegenteil von Überanpassung. Stereotypisierung kommt zu Schlussfolgerungen, die die meisten Eigenschaften der Trainingsdaten ignorieren. Überanpassung kommt zu dem Schluss, dass nur Daten, die an jedem Punkt der Trainingsdaten perfekt sind, einen Teil der Sache beschreiben, die Sie zu erkennen versuchen.
David Richerby
Moderator-Hinweis: Off-Topic- / Out-Of-Context-Kommentare gelöscht. Für eine allgemeine Diskussion besuchen Sie bitte den Computer Science Chat . Wenn Sie eine Frage zu einem bestimmten Programm haben, für das möglicherweise eine Überanpassung sinnvoll ist, stellen Sie bitte eine neue Frage.
Gilles 'SO- hör auf böse zu sein'
2
@ArnabDatta Überanpassung passt ein übermäßig kompliziertes Modell zu genau an die Trainingsdaten an. Stereotypisierung ist die Verwendung eines übermäßig vereinfachten Modells.
David Richerby
0

Alle Daten, die Sie testen, haben Eigenschaften, die Sie erlernen möchten, und einige Eigenschaften, die für Sie nicht relevant sind.

John ist 11 Jahre alt
Jack ist 19 Jahre alt
Kate ist 31 Jahre alt
Lana ist 39 Jahre alt

Richtige Anpassung: Das Alter ist ungefähr linear und geht bis zum 20. Lebensjahr.
Überanpassung: Zwei Menschen dürfen nicht 10 Jahre auseinander liegen (Eigenschaft des Rauschens in den Daten).
Unteranpassung: 1/4 aller Menschen sind 19 (Stereotypisierung).

Nick
quelle
Herzlich willkommen! Wir haben bereits viele informelle Beispiele, daher bin ich mir nicht sicher, ob dies viel beiträgt. Und es scheint schwierig, dieses Beispiel formeller zu gestalten. Was ist zum Beispiel die von Ihnen erwähnte lineare Funktion? Die Eingabe für die Funktion scheint der Name der Person zu sein, der keine Zahl ist. In der Zwischenzeit sind "zwei Menschen können nicht zehn Jahre voneinander entfernt sein" und "1/4 der Menschen sind 19" keine Beispiele für Funktionen, die aus den Daten gelernt werden.
David Richerby