Interviewfrage eines Datenwissenschaftlers: Lineare Regression niedrig und was würden Sie tun?

Ich stand vor einer Interviewfrage für einen Job, bei dem der Interviewer mich fragte, ob Ihr für ein Preiselastizitätsmodell sehr niedrig ist (zwischen 5 und 10%). Wie würden Sie diese Frage lösen? $R^2$

Ich konnte mir nichts anderes vorstellen als die Tatsache, dass ich eine Regressionsdiagnose durchführen werde, um zu sehen, was schief gelaufen ist oder ob eine nichtlineare Methode angewendet werden sollte. Irgendwie denke ich, dass der Interviewer mit meiner Antwort nicht zufrieden war. Gibt es noch etwas, das in einem solchen Szenario getan wird, um ein Modell anzupassen und es für die Vorhersage des Produktionsniveaus zu verwenden, obwohl es ein niedriges ? $R^2$

Bearbeiten : Zu einem späteren Zeitpunkt gaben sie mir die Daten, um das Problem während des Interviews zu modellieren, und ich versuchte, verzögerte Variablen, Auswirkungen des Konkurrenzpreises und Saisonalitätsattrappen hinzuzufügen, um festzustellen, ob es einen Unterschied machte. stieg auf 17,6 Prozent und seine Leistung bei der Holdout-Stichprobe war schlecht. Persönlich halte ich es für unethisch, ein solches Modell für die Vorhersage in einer Live-Umgebung zu verwenden, da es zu fehlerhaften Ergebnissen und Kundenverlusten führt (stellen Sie sich vor, Sie verwenden die Preisempfehlung eines solchen Modells für Ihren Unternehmensumsatz!). Gibt es noch etwas, das in solchen Szenarien getan wird, was zu offensichtlich ist, als dass jeder es wissen muss? Etwas, das mir nicht bewusst ist und das ich versucht bin, "eine Silberkugel" zu sagen? $R^2$

Stellen wir uns außerdem vor, dass sich die exogene Variable nach dem Hinzufügen um weitere 2% verbessert. Was kann dann in diesem Szenario getan werden? Sollten wir das Modellierungsprojekt verwerfen oder gibt es noch Hoffnung, ein Modell für die Qualität auf Produktionsebene zu entwickeln, das durch die Leistung der Holdout-Stichprobe angezeigt wird? $R^2$

Edit2 : Ich habe diese Frage im Forum Economics.stackexchange.com veröffentlicht , um dieses Problem aus wirtschaftlicher Sicht zu verstehen

regression self-study theory Enthusiast
quelle

"Angenommen, Ihr ist für ein Preiselastizitätsmodell sehr niedrig (zwischen 5 und 10%)" ist keine Frage . Meine Antwort auf "Angenommen, Ihr ist für ein Preiselastizitätsmodell sehr niedrig (zwischen 5 und 10%)" wäre "okay, fertig". Ich kann davon ausgehen, dass dies kein Problem ist, daher gibt es nichts weiter zu tun. Wenn sie wirklich nicht bereit wären, müsste ich fragen, welchen Aspekt davon sie als zu lösendes Problem betrachteten. Was sehen Sie in ihrer Abwesenheit hier als Problem ?

R^{2}

$R^2$

R^{2}

$R^2$

Glen_b -State Monica

Ich habe es für das Selbststudium markiert. @Glen_b Lass es mich wissen, wenn ich weitere Details hinzufügen muss. Vielen Dank!

Enthusiast

Danke, das ist gut so. Zu den weiteren Details gehört jedoch die eigentliche Frage, die Sie lösen müssen. "Angenommen, X" zeigt eine Situation, in der Sie nicht aufgefordert werden, etwas zu lösen.

Glen_b -Reinstate Monica

Cross-posted unter Economics.stackexchange.com/q/16617 . Bitte versuchen Sie, die beste Site für eine Frage zu finden: Wenn Sie der Meinung sind, dass es sich lohnt, Varianten auf verschiedene Sites zuzuschneiden, verknüpfen Sie sie trotzdem.

Scortchi - Monica wieder einsetzen

@ Scortchi, ich habe den Link als zusätzliche Bearbeitung in beiden Foren hinzugefügt. Vielen Dank!

Enthusiast

Antworten:

Was ist, wenn wir das Problem aus dieser Perspektive betrachten? Preiselastizität ist das Verhältnis zwischen Nachfrage und Preis eines Produkts.

Wenn das R-Quadrat in dieser Situation niedrig ist, könnten wir möglicherweise implizieren, dass das Verhältnis zwischen Preis und Nachfrage für dieses bestimmte Produkt nicht stark ist.

Unter dem Gesichtspunkt der Preisgestaltung könnte dies bedeuten, dass Sie ein Produkt gefunden haben, für das Sie willkürlich Preise festlegen können, ohne dass dies einen großen Einfluss auf die Nachfrage hat, ODER dass die Nachfrage trotz unterschiedlicher Preise recht unregelmäßig ist.

Wenn Sie sich Veblen-Waren ansehen , sind dies Beispiele, bei denen die Elastizität umgekehrt ist. Mit steigendem Preis steigt die Nachfrage.

Wenn andererseits das r-Quadrat niedrig ist, könnte dies einfach eine Produktkategorie bedeuten, für die der Preis für die Nachfrage relativ unwichtig ist. Ein Krebsmedikament könnte etwas sein, das an dieser Eigenschaft haften könnte. Wo die Bedeutung des Arzneimittels den Preis überwiegt, den es verlangt, und keine Änderung der Nachfrage zeigen konnte.

Abschließend gehe ich davon aus, dass der Interviewer möglicherweise beurteilen wollte, ob Sie wussten, was die Implikation eines niedrigen R-Quadrats bedeutet, anstatt herauszufinden, wie man ein besseres Modell mit einem höheren R-Quadrat baut.

Arun Jose
quelle

+1 für den Abschluss. Ich denke auch, dass der Zweck dieser Frage darin besteht, herauszufinden, ob ein Kandidat blind eine Metrik verfolgt, ohne sie vollständig zu verstehen.

Haitao Du

Ich bin mir nicht sicher, wonach der Interviewer gesucht hat, aber wenn ich mich einem schlecht vorformenden Modell gegenübersetze, sind dies die Dinge, die ich in Betracht ziehe und eine Antwort, die ich als Interviewer gerne hören würde (seit ein paar Jahren im Interview).

Weitere Daten abrufen : Dies hilft möglicherweise nicht immer, aber es gibt einige Dinge, die Ihnen bei der Bewertung dieser Lösungseffekte helfen können:
- Führen Sie das Modell mit unterschiedlichen Stichprobengrößen aus. Wenn sich die Ergebnisse mit mehr Daten verbessern, ist es vernünftig anzunehmen, dass durch das Abrufen weiterer Daten die Modellleistung weiter verbessert wird.
- Verhältnis von Features zu Sample - Nachdem Sie Features ausgewählt haben, versuchen Sie zu verstehen, ob Sie für jeden Feature-Wert genügend Samples haben. Siehe eine beantwortete Frage zu diesem Thema .
- Fehlende Zielwerte - Die Elastizität verhält sich zwischen verschiedenen Preisklassen möglicherweise nicht ähnlich. In einer Situation, in der Ihre Stichprobendaten auf einen bestimmten Bereich ausgerichtet sind, besteht eine gute Chance, dass Sie nicht verallgemeinern können (z. B. beziehen sich 90% der Stichproben auf Preise zwischen 0 und 10 und die anderen 10% auf Preise zwischen 1000-10000). Es gibt andere Möglichkeiten, um dieses Problem anzugehen, als mehr Daten abzurufen (Modellbildung aufteilen, keine Regression verwenden).
Besseres Feature-Engineering : Wenn Sie über genügend Daten verfügen und sich mit Deep-Learning auskennen, ist dieses möglicherweise irrelevant. Falls Sie die genannten Kriterien nicht erfüllen, konzentrieren Sie sich auf dieses. In Benutzerverhaltensmodellen gibt es viele Zusammenhänge, die unsere menschliche Intuition besser versteht als ein maschinell trainiertes Modell.
Wie in Ihrem Fall, in dem Sie ein paar weitere Funktionen entwickelt und die Modellleistung so stark verbessert haben. Dieser Schritt ist fehleranfällig, da er normalerweise logikbasierten Code enthält (If Elses / Mathematical Formulas).
Bessere Modellauswahl : Wie Sie vorgeschlagen haben, funktioniert ein nichtlineares Modell möglicherweise besser. Sind Ihre Daten homogen? Haben Sie Gründe zu der Annahme, dass Kreuzmerkmale die Preiselastizität besser erklären? (Saisonalität * Mitbewerberpreis).
Optimierung der Hyperparameter : Die Hyperparameter des Rastersuchmodells (+ Kreuzvalidierungsergebnisse) sind eine gute Vorgehensweise, aber meiner Erfahrung nach verbessert sie die Leistung selten erheblich (sicherlich nicht von 5% auf 90%).

Es gibt noch mehr Dinge, die getan werden können, aber diese Punkte sind allgemein genug.

yoav_aaa
quelle

Zusätzlich zu den Vorschlägen von @DaFanat und @Arun möchte ich hinzufügen, dass eine visuelle Überprüfung hilfreich sein könnte.

Beispielsweise kann es vorkommen, dass sich einige Ausreißer auf Ihr auswirken . Nachdem ich an Revenue-Management-Problemen gearbeitet hatte, musste ich ständig einflussreiche Punkte untersuchen . Sehr oft wurden Ausreißer mit bestimmten einmaligen Ereignissen wie Werbekampagnen, Rabatten usw. in Verbindung gebracht. $R^2$

IcannotFixThis
quelle

Vielen Dank für die Freigabe domänenspezifischer Eingaben, da dies in der Tat ein Problem beim Revenue Management darstellt

Enthusiast