Perzentile als Prädiktoren verwenden - gute Idee?

9

Ich denke über ein Problem nach, das darin besteht, das Protokoll (die Ausgaben) eines Kunden mithilfe der linearen Regression vorherzusagen.

Ich überlege, welche Funktionen als Eingabe verwendet werden sollen, und frage mich, ob es in Ordnung wäre, das Perzentil einer Variablen als Eingabe zu verwenden.

Zum Beispiel könnte ich die Einnahmen des Unternehmens als Input verwenden. Ich frage mich, ob ich stattdessen das Umsatzperzentil des Unternehmens verwenden könnte.

Ein anderes Beispiel wäre ein kategorialer Branchenklassifikator (NAICS). Wenn ich den Median der Ausgaben pro NAICS-Code betrachten und dann jeden NAICS-Code einem 'NAICS-Perzentil' zuweisen würde, wäre dies eine gültige erklärende Variable, die ich verwenden könnte?

Sie fragen sich nur, ob bei der Verwendung von Perzentilen Probleme zu beachten sind? Entspricht es in gewisser Weise einer Art von Feature-Skalierung?

andrewm4894
quelle
2
Wenn Sie die Originaldaten haben, warum möchten Sie Perzentile verwenden? Vielleicht ist es keine gute Idee, weil Perzentile nur ordinale, keine metrischen Maße sind. Aber ich bin mir nicht sicher über Voreingenommenheit / Effizienz.
Hplieninger
9
Das Perzentilieren von s stimmt nicht mit der Art und Weise überein, wie die s ihre Wirkung entfalten. Ein häufiger Fehler ist das Perzentilgewicht oder der BMI bei der Vorhersage eines Gesundheitsergebnisses. Die Physik des Gewichts schreibt vor, dass es die physischen Dimensionen einer Person sind, die sich auf ihre Körperfunktionen beziehen, nicht die Anzahl der Personen in der Stichprobe, die unter dem Gewicht oder dem BMI eines Probanden liegen. X.X.
Frank Harrell
1
Wenn Sie Ihre Branchenvariable vernünftigerweise in Gruppen gruppieren können, z. B. 4, verwenden Sie die Dummy-Codierung (oder ein anderes geeignetes Codierungsschema), und Sie sind fertig. So würde ich es machen.
Hplieninger
3
Ich kann mir keinen Grund vorstellen, warum das Perzentil linear mit der abhängigen Variablen zusammenhängt. Wenn Sie sich eines vorstellen können, ist es möglicherweise in Ordnung (und aktualisieren Sie Ihre Frage bitte mit Ihrem Grund)
Peter Flom - Reinstate Monica
1
Wenn Sie NAICS-Code als Proxy für die Ausgaben eines Unternehmens verwenden möchten, können Sie dies anhand der durchschnittlichen Ausgaben im NAICS-Code tun - ohne Perzentile verwenden zu müssen.
Scortchi - Monica wieder einsetzen

Antworten:

1

Wenn Ihr Modell einen Wettbewerb um feste Einnahmen mit sich bringt, können Sie Perzentile verwenden. Das logarithmische Perzentil scheint aussagekräftiger zu sein, Quantile werden keinen linearen Wert haben, wie ich mir vorstellen kann.

In dieser Geschichte schließen Sie ln (%) der Unternehmen mit Einnahmen unter der Beobachtungsfirma ein. Die Geschichte ist, dass bei hohen Einnahmen der Ruf besser ist als bei Unternehmen mit niedrigen Einnahmen, und dieses Verhältnis von "mehr als die Konkurrenz haben" ist relevant, nicht das Umsatzniveau selbst. Ich könnte dies als einen wichtigen Teil der Unternehmenserkennung und des Brandings ansehen.

RegressForward
quelle