Ich weiß, dass dies wahrscheinlich woanders diskutiert wurde, aber ich konnte keine explizite Antwort finden. Ich versuche, die Formel zu verwenden, um eines linearen Regressionsmodells außerhalb der Stichprobe zu berechnen , wobei die Summe der quadratischen Residuen und die Gesamtsumme der Quadrate ist. Für das Trainingsset ist das klar
Was ist mit dem Testset? Sollte ich weiterhin für außerhalb von Beispiel oder stattdessen verwenden?
Ich habe festgestellt, dass wenn ich , das resultierende manchmal negativ sein kann. Dies steht im Einklang mit der Beschreibung der Funktion von sklearn , bei der (die auch von der Funktion ihres linear_models zum Testen von Beispielen verwendet wird). Sie geben an, dass "ein konstantes Modell, das immer den erwarteten Wert von y vorhersagt, ohne Berücksichtigung der Eingabemerkmale, einen R ^ 2-Wert von 0,0 erhalten würde."r2_score()
score()
An anderen Orten haben die Leute jedoch wie hier und hier verwendet (die zweite Antwort von dmi3kno). Also habe ich mich gefragt, was mehr Sinn macht? Jeder Kommentar wird sehr geschätzt!
quelle