Ich habe ein Klassifizierungsproblem gemacht und den Code und die Tutorials vieler Leute gelesen. Eine Sache, die mir aufgefallen ist, ist, dass viele Leute nehmen np.log
oder log
von stetigen Variablen wie loan_amount
oder applicant_income
usw.
Ich möchte nur den Grund dahinter verstehen. Hilft es, die Genauigkeit unserer Modellvorhersage zu verbessern? Ist es obligatorisch? oder steckt dahinter eine logik?
Bitte erläutern Sie dies nach Möglichkeit. Vielen Dank.
quelle
Hauptsächlich wegen der ungleichmäßigen Verteilung. Logarithmus reduziert natürlich den Dynamikbereich einer Variablen, so dass die Unterschiede erhalten bleiben, während die Skalierung nicht so dramatisch verzerrt ist. Stellen Sie sich vor, einige Leute haben ein Darlehen von 100.000.000 und einige von 10000 und einige von 0. Jede Skalierung von Merkmalen wird wahrscheinlich 0 und 10000 so nahe beieinander bringen, dass die größte Zahl ohnehin die Grenze überschreitet. Der Logarithmus löst das Problem.
quelle
quelle
Ein weiterer Grund, warum logarithmische Transformationen nützlich sind, kommt für Verhältnisdaten ins Spiel, weil
log(A/B) = -log(B/A)
. Wenn Sie eine Verteilung der Verhältnisse auf der Rohskala zeichnen, fallen Ihre Punkte in den Bereich(0, Inf)
. Alle Verhältnisse von weniger als 1 werden in einen kleinen Bereich des Diagramms eingequetscht. Außerdem sieht das Diagramm völlig anders aus, wenn Sie das Verhältnis auf(B/A)
statt auf drehen(A/B)
. Wenn Sie dies auf einer logarithmischen Skala tun, beträgt der Bereich jetzt(-Inf, +Inf)
, was bedeutet, dass Verhältnisse von weniger als 1 und mehr als 1 gleichmäßiger verteilt sind. Wenn Sie das Verhältnis spiegeln möchten, spiegeln Sie einfach den Plot um 0, ansonsten sieht es genauso aus. Auf einer logarithmischen Skala spielt es keine Rolle, ob Sie ein Verhältnis als anzeigen1/10 or 10/1
, was nützlich ist, wenn es keine offensichtliche Wahl gibt, welches es sein soll.quelle
Sie sollten sich die logarithmische Normalverteilung ansehen .
Benutzer verwenden möglicherweise Protokolle, weil sie glauben, dass sie den Maßstab oder etwas komprimieren. Die grundsätzliche Verwendung von Protokollen besteht jedoch darin, dass Sie mit Daten arbeiten, die eine logarithmische Normalverteilung aufweisen. Dies sind in der Regel Gehälter, Immobilienpreise usw., bei denen alle Werte positiv und die meisten relativ bescheiden sind, einige jedoch sehr hoch.
Wenn Sie die Daten protokollieren können und sie sich normalisieren, können Sie viele Merkmale einer Normalverteilung nutzen, z. B. einen genau definierten Mittelwert, eine Standardabweichung (und damit Z-Scores), Symmetrie usw.
Ebenso entspricht das Hinzufügen von Protokollen der Multiplikation der nicht protokollierten Werte. Das bedeutet, dass Sie eine Verteilung, bei der Fehler additiv sind, in eine Verteilung umgewandelt haben, bei der sie multiplikativ sind (dh prozentbasiert). Da Techniken wie die OLS-Regression eine normale Fehlerverteilung erfordern, erweitert die Arbeit mit Protokollen ihre Anwendbarkeit von additiven zu multiplikativen Prozessen.
quelle
Ich würde sagen, der Hauptgrund liegt nicht in der Verteilung, sondern in der nichtlinearen Beziehung. Protokolle erfassen häufig gesättigte Beziehungen ...
quelle