Obwohl alle Bilder im MNIST-Datensatz in einem ähnlichen Maßstab zentriert und ohne Rotation sichtbar sind, weisen sie eine signifikante Variation der Handschrift auf, die mich verblüfft, wie ein lineares Modell eine so hohe Klassifizierungsgenauigkeit erzielt.
Soweit ich in der Lage bin, angesichts der signifikanten Variation der Handschrift zu visualisieren, sollten die Ziffern in einem 784-dimensionalen Raum linear untrennbar sein, dh es sollte eine kleine komplexe (wenn auch nicht sehr komplexe) nichtlineare Grenze geben, die die verschiedenen Ziffern voneinander trennt ähnlich das gut zitierte Beispiel , in dem positiven und negativen Klassen können nicht durch eine lineare Klassifizierer getrennt werden. Es scheint mir verwirrend, wie die logistische Regression mehrerer Klassen eine so hohe Genauigkeit mit vollständig linearen Merkmalen (keine Polynommerkmale) erzeugt.
Beispielsweise können bei einem beliebigen Pixel im Bild verschiedene handschriftliche Variationen der Ziffern und bewirken, dass dieses Pixel beleuchtet wird oder nicht. Daher kann mit einem Satz von erlernten Gewichten jedes Pixel eine Ziffer sowohl als als auch als aussehen lassen . Nur mit einer Kombination von Pixelwerten sollte es möglich sein zu sagen, ob eine Ziffer eine oder eine . Dies gilt für die meisten Ziffernpaare. Wie kann also die logistische Regression, die ihre Entscheidung blind auf alle Pixelwerte stützt (ohne Berücksichtigung von Abhängigkeiten zwischen Pixeln), so hohe Genauigkeiten erzielen?
Ich weiß, dass ich irgendwo falsch liege oder die Abweichungen in den Bildern einfach zu hoch einschätze. Es wäre jedoch großartig, wenn mir jemand mit einer Intuition helfen könnte, wie die Ziffern "fast" linear trennbar sind.
quelle
Antworten:
tl; dr Auch wenn dies ist eine Bild Klassifizierung Dataset, bleibt es eine sehr einfache Aufgabe, für die man leicht einen finden kann direkte Zuordnung von Eingängen zu Prognosen.
Antworten:
Dies ist eine sehr interessante Frage, und dank der Einfachheit der logistischen Regression können Sie die Antwort tatsächlich herausfinden.
Beachten Sie erneut, dass dies die Gewichte sind .
Schauen Sie sich nun das obige Bild an und konzentrieren Sie sich auf die ersten beiden Ziffern (dh Null und Eins). Blaue Gewichte bedeuten, dass die Intensität dieses Pixels einen großen Beitrag für diese Klasse leistet, und rote Werte bedeuten, dass sie einen negativen Beitrag leistet.
Hierdurch können Sie sehen, dass die logistische Regression eine sehr gute Chance hat, viele Bilder richtig zu machen, und das ist der Grund, warum sie so gut abschneidet.
Der Code zum Reproduzieren der obigen Abbildung ist etwas veraltet, aber hier ist es:
quelle