Ich denke über ein Problem nach, das darin besteht, das Protokoll (die Ausgaben) eines Kunden mithilfe der linearen Regression vorherzusagen.
Ich überlege, welche Funktionen als Eingabe verwendet werden sollen, und frage mich, ob es in Ordnung wäre, das Perzentil einer Variablen als Eingabe zu verwenden.
Zum Beispiel könnte ich die Einnahmen des Unternehmens als Input verwenden. Ich frage mich, ob ich stattdessen das Umsatzperzentil des Unternehmens verwenden könnte.
Ein anderes Beispiel wäre ein kategorialer Branchenklassifikator (NAICS). Wenn ich den Median der Ausgaben pro NAICS-Code betrachten und dann jeden NAICS-Code einem 'NAICS-Perzentil' zuweisen würde, wäre dies eine gültige erklärende Variable, die ich verwenden könnte?
Sie fragen sich nur, ob bei der Verwendung von Perzentilen Probleme zu beachten sind? Entspricht es in gewisser Weise einer Art von Feature-Skalierung?
quelle
Antworten:
Wenn Ihr Modell einen Wettbewerb um feste Einnahmen mit sich bringt, können Sie Perzentile verwenden. Das logarithmische Perzentil scheint aussagekräftiger zu sein, Quantile werden keinen linearen Wert haben, wie ich mir vorstellen kann.
In dieser Geschichte schließen Sie ln (%) der Unternehmen mit Einnahmen unter der Beobachtungsfirma ein. Die Geschichte ist, dass bei hohen Einnahmen der Ruf besser ist als bei Unternehmen mit niedrigen Einnahmen, und dieses Verhältnis von "mehr als die Konkurrenz haben" ist relevant, nicht das Umsatzniveau selbst. Ich könnte dies als einen wichtigen Teil der Unternehmenserkennung und des Brandings ansehen.
quelle