Was sind die Nachteile einer linksgerichteten Verteilung?

7

Ich arbeite derzeit an einem Klassifizierungsproblem und habe eine numerische Spalte, die schief bleibt. Ich habe viele Beiträge gelesen, in denen Leute empfehlen, eine Protokolltransformation oder eine Boxcox-Transformation durchzuführen, um die linke Schiefe zu beheben.

Also habe ich mich gefragt, was passieren würde, wenn ich die Schiefe so belassen würde, wie sie ist, und mit meinem Modellbau fortfahren würde? Gibt es irgendwelche Vorteile bei der Behebung der Schiefe für Klassifizierungsprobleme (knn, logistische Regression)?

user_6396
quelle

Antworten:

4

Es gibt Probleme, die von bestimmten Merkmalen Ihrer Daten und Ihrem analytischen Ansatz abhängen, aber im Allgemeinen beeinträchtigen verzerrte Daten (in beide Richtungen) die Fähigkeit Ihres Modells, "typischere" Fälle zu beschreiben, um mit viel selteneren Fällen umzugehen, die auftreten extreme Werte nehmen.

Da "typische" Fälle in einem verzerrten Datensatz häufiger vorkommen als extreme, verlieren Sie bei den Fällen, die Sie am häufigsten sehen, an Genauigkeit, um Fälle zu berücksichtigen, die Sie nur selten sehen. Die Bestimmung eines Koeffizienten für tausend Beobachtungen, die alle zwischen [0,10] liegen, ist wahrscheinlich genauer als für 990 Beobachtungen zwischen [0,10] und 10 Beobachtungen zwischen [1.000, 1.000.000]. Dies kann dazu führen, dass Ihr Modell insgesamt weniger nützlich ist.

Das "Beheben" von Schiefen kann eine Vielzahl von Vorteilen bieten, einschließlich der Durchführung von Analysen, die davon abhängen, ob die Daten ungefähr normalverteilt möglich / informativer sind. Es kann auch Ergebnisse liefern, die in einem vernünftigen Maßstab gemeldet werden (dies ist sehr situationsabhängig), und verhindern, dass Extremwerte (im Vergleich zu anderen Prädiktoren) den Einfluss des verzerrten Prädiktors auf die vorhergesagte Klassifizierung überschätzen oder unterschätzen.

Sie können dies etwas testen (allerdings nicht definitiv), indem Sie Modelle mit unterschiedlichen Teilmengen Ihrer Daten trainieren: alles, was Sie haben, so wie es ist, Ihre Daten ohne diese verzerrte Variable, Ihre Daten mit dieser Variablen Wenn Sie jedoch Werte außerhalb des "typischen" Bereichs ausschließen (obwohl Sie dies sorgfältig definieren müssen), werden Ihre Daten mit der verzerrten Variablenverteilung transformiert oder neu skaliert usw.

Um dies zu beheben, sind Transformationen und Neuskalierungen oft sinnvoll. Aber ich kann nicht genug betonen:

Das Fummeln mit Variablen und ihren Verteilungen sollte sich aus den Eigenschaften dieser Variablen ergeben, nicht aus Ihrer Bequemlichkeit bei der Modellierung.

Die logarithmische Transformation von verzerrten Variablen ist ein Paradebeispiel dafür:

  • Wenn Sie wirklich der Meinung sind, dass eine Variable auf einer geometrischen Skala arbeitet und Ihr Modell auf einer arithmetischen Skala arbeiten soll, kann die Protokolltransformation sehr sinnvoll sein.
  • Wenn Sie der Meinung sind, dass diese Variable auf einer arithmetischen Skala arbeitet, Ihre Verteilung jedoch unpraktisch ist und eine Protokolltransformation eine bequemere Verteilung ergeben würde, ist eine Transformation möglicherweise sinnvoll. Es wird die Art und Weise ändern, wie das Modell verwendet und interpretiert wird, was es normalerweise dichter und schwieriger macht, klar zu interpretieren, aber das kann sich lohnen oder auch nicht. Wenn Sie beispielsweise das Protokoll eines numerischen Ergebnisses und das Protokoll eines numerischen Prädiktors verwenden, muss das Ergebnis als Elastizität zwischen ihnen interpretiert werden, was schwierig zu handhaben sein kann und häufig nicht erwünscht ist.
  • Wenn Sie der Meinung sind, dass eine Protokolltransformation für eine Variable wünschenswert wäre, aber viele Beobachtungen mit dem Wert 0 enthält, ist die Protokolltransformation für Sie keine Option, unabhängig davon, ob sie zweckmäßig ist oder nicht. (Das Hinzufügen eines "kleinen Werts" zu den 0 Beobachtungen verursacht viele Probleme - nehmen Sie die Protokolle von 1-10 und dann 0,0 bis 1,0).
Upper_Case
quelle
Angenommen, ich habe eine numerische Spalte wie den Preis und sie ist stark verzerrt. Ich denke darüber nach, einige grundlegende Klassifizierungsalgorithmen zu verwenden. Was soll mein Ansatz sein? Soll ich mich für eine Protokolltransformation oder eine Boxcox-Transformation entscheiden?
user_6396
@ user214 Links verzerrte Preisinformationen? Das hört sich interessant an! (Meine Forschungsdaten sind im Allgemeinen stark nach rechts verschoben). Es gibt immer Unterschiede zwischen den Studienkontexten, aber ich halte Geld im Allgemeinen für "geometrisch genug ", dass eine Protokolltransformation angemessen (oder zumindest stark vertretbar) ist. Ob dies die ideale Transformation ist oder nicht, ist eine sehr schwer zu beantwortende Frage, aber die Protokolltransformation ist hier wahrscheinlich kein Problem für Sie. Sie müssen sich nur daran erinnern, dass alles über diesen Prädiktor auf einer Protokollskala gemeldet und entsprechend interpretiert wird.
Upper_Case
4

Ich stimme den wichtigsten Punkten von @Upper_Case zu. Ich möchte eine Perspektive darlegen, die die Seite "maschinelles Lernen" der Frage hervorhebt.

Bei einer Klassifizierungsaufgabe mit kNN, logistischer Regression, Kernel-SVM oder nichtlinearen neuronalen Netzen besteht der Hauptnachteil, über den wir uns Sorgen machen, in der Verringerung der Modellleistung , z. B. der Verringerung des AUC-Werts für einen Validierungssatz.

Andere Nachteile der Schiefe werden häufig untersucht, wenn der Schaden der Schiefe an der Qualität des Ergebnisses schwer einzuschätzen ist . Bei einem Klassifizierungsproblem können wir das Modell jedoch einmal mit dem Original (schief) und einmal mit dem transformierten Merkmal trainieren und validieren , und dann

  1. Wenn die Leistung abnimmt, transformieren wir nicht,
  2. Wenn sich die Leistung verbessert, transformieren wir.

Mit anderen Worten, der Schaden der Schiefe kann leicht und objektiv beurteilt werden. Daher haben diese Rechtfertigungen keinen Einfluss auf unsere Entscheidung , sondern nur auf die Leistung.

Wenn wir uns die Rechtfertigungen für die Verwendung der Protokolltransformation genauer ansehen, gelten sie, wenn einige Annahmen über die endgültigen Funktionen getroffen werden, mit denen ein Modell oder ein Test direkt arbeitet. Ein letztes Merkmal ist eine Funktion des Rohmerkmals; Diese Funktion kann Identität sein. Zum Beispiel kann ein Modell (oder Test) annehmen, dass ein endgültiges Merkmal normal oder zumindest symmetrisch um den Mittelwert sein sollte oder linear additiv sein sollte usw. Dann haben wir mit dem Wissen (oder einer Spekulation), dass ein Rohwert Das Feature ist nach links geneigt und führt möglicherweise eine Protokolltransformation durch, um das endgültige Feature an der auferlegten Annahme auszurichten.

Eine wichtige Schwierigkeit dabei ist, dass wir die Verteilung eines Rohmerkmals nicht ändern und nicht ändern können. Wir erstellen lediglich ein endgültiges Merkmal (als Funktion des Rohmerkmals), dessen andere Verteilung besser auf die auferlegten Annahmen abgestimmt ist.

Für eine Klassifizierungsaufgabe unter Verwendung von kNN, logistischer Regression, Kernel-SVM oder nichtlinearen neuronalen Netzen gibt es keine Normalität oder symmetrische Annahme für die Verteilung der endgültigen Merkmale, daher gibt es in dieser Hinsicht keine Kraft aus diesen Modellen. Obwohl wir im logistischen Regressionsmodell einen Schatten der Annahme einer "linearen Addition" verfolgen können, dh und in neuronalen Netzen für die gewichtete Summe von Merkmalen in der ersten Schicht, dh

P(y=1|x)=11+e(w1x1+..+wdxd)
yi=f(Wi,.x+b)=f(Wi,1x1+Wi,2x2+...+b)
Ich sage "ein Schatten", weil die Zielvariable nicht direkt die lineare Addition der endgültigen Merkmale ist, sondern eine oder mehrere nichtlineare Transformationen durchläuft, die diese Modelle gegenüber der Verletzung dieser Annahme robuster machen könnten. Andererseits existiert die Annahme der linearen Addition in kNN oder kernelSVM nicht, da sie eher mit Stichproben-Stichproben-Abständen als mit Merkmalswechselwirkungen arbeiten.

Aber auch diese Rechtfertigungen stehen im Vergleich zum Ergebnis der Modellbewertung an zweiter Stelle, wenn die Leistung leidet, transformieren wir nicht.

Esmailian
quelle