Als «classification» getaggte Fragen

27
Was sind die Auswirkungen der Auswahl verschiedener Verlustfunktionen bei der Klassifizierung auf einen ungefähren Verlust von 0 bis 1?

Wir wissen, dass einige objektive Funktionen einfacher zu optimieren sind und andere schwierig. Und es gibt viele Verlustfunktionen, die wir verwenden möchten, die aber schwer zu verwenden sind, zum Beispiel 0-1-Verlust. Wir finden also einige Proxy- Verlust-Funktionen, um die Arbeit zu erledigen....

27
Können Freiheitsgrade eine nicht ganzzahlige Zahl sein?

Wenn ich GAM verwende, erhalte ich einen DF-Rest von (letzte Zeile im Code). Was bedeutet das? Über das GAM-Beispiel hinausgehend: Kann die Anzahl der Freiheitsgrade im Allgemeinen eine nicht ganzzahlige Zahl sein?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call:...

27
Warum sollte man sich in Naive Bayes mit Laplace-Glättung beschäftigen, wenn das Testset unbekannte Wörter enthält?

Ich habe heute über die Naive Bayes-Klassifikation gelesen. Ich las unter der Überschrift Parameterschätzung mit add 1 Glättung : Verweisen Sie mit ccc auf eine Klasse (z. B. Positiv oder Negativ) und mit www auf ein Token oder Wort. Der Maximum - Likelihood - Schätzer für P(w|c)P(w|c)P(w|c) ist...

26
One-vs-All und One-vs-One in SVM?

Was ist der Unterschied zwischen einem Eins-gegen-Alles- und einem Eins-gegen-Eins-SVM-Klassifikator? Bedeutet "Eins gegen Alles", dass ein Klassifizierer alle Typen / Kategorien des neuen Bildes klassifiziert, und "Eins gegen Eins", dass jeder Typ / jede Kategorie eines neuen Bildes mit einem...

25
Wie können Hauptkomponenten die Vorhersagekraft einer abhängigen Variablen beibehalten (oder sogar zu besseren Vorhersagen führen)?

Angenommen, ich führe eine Regression . Warum behält das Modell durch Auswahl der Top- Hauptkomponenten von seine Vorhersagekraft für ?Y.∼ XY.∼XY \sim XkkkXXXY.Y.Y Ich verstehe, dass aus Sicht der Dimensionsreduktion / Merkmalsauswahl, wenn die Eigenvektoren der Kovarianzmatrix von mit den...

24
Wie groß ist ein Trainingsset?

Gibt es eine gängige Methode, um zu bestimmen, wie viele Trainingsmuster erforderlich sind, um einen Klassifikator (in diesem Fall einen LDA) zu trainieren, um eine Mindestgenauigkeit für die Verallgemeinerung des Schwellenwerts zu erhalten? Ich frage, weil ich die Kalibrierungszeit minimieren...