Was ist Grundwahrheit?

29

Im Kontext des maschinellen Lernens habe ich gesehen, dass der Begriff " Grundwahrheit" häufig verwendet wird. Ich habe viel gesucht und folgende Definition in Wikipedia gefunden :

Beim maschinellen Lernen bezieht sich der Begriff "Grundwahrheit" auf die Genauigkeit der Klassifizierung des Trainingssatzes für überwachte Lerntechniken. Dies wird in statistischen Modellen verwendet, um Forschungshypothesen zu beweisen oder zu widerlegen. Der Begriff "Bodenuntersuchung" bezieht sich auf den Prozess des Erfassens der richtigen objektiven (nachweisbaren) Daten für diesen Test. Vergleichen Sie mit Goldstandard.

Die Bayes'sche Spam-Filterung ist ein weit verbreitetes Beispiel für überwachtes Lernen. In diesem System werden dem Algorithmus die Unterschiede zwischen Spam und Nicht-Spam manuell beigebracht. Dies hängt von der Grundwahrheit der zum Trainieren des Algorithmus verwendeten Nachrichten ab - Ungenauigkeiten in der Grundwahrheit korrelieren mit Ungenauigkeiten in den resultierenden Spam- / Nicht-Spam-Urteilen.

Der Punkt ist, dass ich wirklich nicht verstehen kann, was es bedeutet. Ist das die Bezeichnung für jedes Datenobjekt oder die Zielfunktion, die jedem Datenobjekt eine Bezeichnung gibt , oder vielleicht etwas anderes?

Medien
quelle

Antworten:

25

Die Grundwahrheit ist, was Sie für Ihre Zielvariable für die Trainings- und Testbeispiele gemessen haben.

Sie können dies fast immer genauso behandeln wie das Etikett.

In einigen Fällen ist es nicht genau das gleiche wie das Etikett. Wenn Sie beispielsweise Ihren Datensatz erweitern, besteht ein subtiler Unterschied zwischen der Grundwahrheit (Ihren tatsächlichen Messungen) und dem Verhältnis der erweiterten Beispiele zu den von Ihnen zugewiesenen Bezeichnungen. Diese Unterscheidung ist jedoch normalerweise kein Problem.

Grundwahrheit kann falsch sein. Es ist eine Messung und es kann Fehler darin geben. In einigen ML-Szenarien kann es sich auch um eine subjektive Messung handeln, bei der es schwierig ist, eine zugrunde liegende objektive Wahrheit zu definieren - z. B. Expertenmeinung oder Analyse, die Sie automatisieren möchten. Jedes ML-Modell, das Sie trainieren, wird durch die Qualität der zum Trainieren und Testen verwendeten Grundwahrheit eingeschränkt. Dies ist Teil der Erklärung im Wikipedia-Zitat. Aus diesem Grund sollten veröffentlichte Artikel über ML eine vollständige Beschreibung der Art und Weise enthalten, in der die Daten gesammelt wurden.

Neil Slater
quelle
Kann gt (z. B. bei Segmentierungsproblemen) während des Trainings geändert oder erstellt werden, wenn die Informationen (z. B. aus Score-Maps) aus den Features stammen?
Alex
@Alex: Normalerweise nicht. Es kann vorkommen, dass eine überarbeitete Ausgabe oder ein halbautomatisierter Prozess die Grundwahrheit für den nächsten Algorithmus in einer Pipeline liefert. Wenn Sie sich jedoch auf einen Algorithmus beziehen, der seine eigenen Ziele über eine Regel revidiert, wird dies normalerweise nicht als neue Grundwahrheit angesehen. Stattdessen handelt es sich bei der Grundwahrheit um die ursprünglichen Segmentierungen, die für das Training bereitgestellt werden. Jede clevere automatisierte Verfeinerung wäre stattdessen Teil des Modells.
Neil Slater
Eine Verfeinerung der menschlichen Interaktion oder die Verwendung von Originaldaten, die keine Bilder sind (z. B. werden einige Quellbilder mithilfe eines 3D-Modells generiert, um eine viel bessere "echte" Segmentierung zu erzielen), könnte eine neue Grundlage sein. Obwohl Sie vielleicht die Idee der Grundwahrheit der 1. Generation, die zum Erstellen des ersten Modells verwendet wurde, von der Grundwahrheit der 2. Generation trennen möchten, die durch eine Iteration erstellt wurde, und die zum Erstellen eines zweiten Modells verwendet wurde, selbst wenn das zweite Modell nur dieselbe Architektur aufweist auf Feedback geschult.
Neil Slater
'auf Feedback geschult' - nah, aber nicht genau. Wenn Sie das FCN-Modell gesehen haben, ist der letzte Layer die Score-Karte, die zusammen mit der GT-Karte in die Log-Softmax-Verlustfunktion eingesteckt ist. Ich nehme die Score-Map, extrahiere einige Daten daraus (z. B. die Anzahl der Argmax-Binärblobs) und ändere (irgendwie) die GT-Maske, bevor ich sie in die Loss-Funktion stecke. Wie legitim ist das?
Alex
@Alex: Das ist ein Teil Ihres Modells und keine Neuland-Wahrheit. Es sei denn, Sie entscheiden willkürlich, dass das Ziel eines neuen Modells darin besteht, Ihre kombinierte Funktion zu erlernen. In diesem Fall ist es die Grundwahrheit für das neue Modell - Sie sollten jedoch auf jeden Fall die komplexe Quelle dieser Daten beachten, da sie von der ursprünglichen Messung auf automatisierte Weise geändert wurden.
Neil Slater
2

Grundwahrheit: Dies ist die Realität, die Ihr Modell vorhersagen soll.

Es kann etwas Rauschen geben, aber Sie möchten, dass Ihr Modell das zugrunde liegende Muster in Daten lernt, die diese Grundwahrheit verursachen. In der Praxis wird Ihr Modell niemals in der Lage sein, die Grundwahrheit vorherzusagen, da die Grundwahrheit auch ein gewisses Rauschen aufweist und kein Modell hundertprozentige Genauigkeit bietet, Sie jedoch möchten, dass Ihr Modell so nah wie möglich ist.

Vivek Khetan
quelle