Ich habe diese Frage auf der Matemathics Stack Exchange-Website gestellt und es wurde empfohlen, sie hier zu stellen.
Ich arbeite an einem Hobbyprojekt und benötige Hilfe bei folgendem Problem.
Ein bisschen Kontext
Angenommen, es gibt eine Sammlung von Artikeln mit einer Beschreibung der Funktionen und einem Preis. Stellen Sie sich eine Liste mit Autos und Preisen vor. Alle Autos verfügen über eine Liste von Merkmalen, z. B. Motorgröße, Farbe, Pferdestärke, Modell, Baujahr usw. Für jede Marke gilt Folgendes:
Ford:
V8, green, manual, 200hp, 2007, $200
V6, red, automatic, 140hp, 2010, $300
V6, blue, manual, 140hp, 2005, $100
...
Darüber hinaus wird die Liste der Autos mit Preisen mit einem gewissen Zeitintervall veröffentlicht, was bedeutet, dass wir auf historische Preisdaten zugreifen können. Enthält möglicherweise nicht immer genau dieselben Autos.
Problem
Ich würde gerne verstehen, wie man die Preise für jedes Auto basierend auf diesen Basisinformationen modelliert, vor allem Autos, die nicht in der anfänglichen Liste enthalten sind.
Ford, v6, red, automatic, 130hp, 2009
Für das obige Auto ist es fast das gleiche wie in der Liste, nur etwas anders in Pferdestärke und Jahr. Was wird zum Preis benötigt?
Was ich suche, ist etwas Praktisches und Einfaches, aber ich würde auch gerne etwas über komplexere Ansätze erfahren, wie man so etwas modelliert.
Was ich versucht habe
Hier ist, womit ich bisher experimentiert habe:
1) Verwenden von historischen Daten zum Nachschlagen von Auto X. Wenn nicht gefunden, kein Preis. Dies ist natürlich sehr begrenzt und man kann dies nur in Kombination mit etwas Zeitverfall verwenden, um die Preise für bekannte Autos im Laufe der Zeit zu ändern.
2) Verwenden eines Auto-Feature-Gewichtungsschemas zusammen mit einem Musterauto zum Preis. Grundsätzlich gilt, dass es einen Grundpreis gibt und die Funktionen dies mit einigem Faktor ändern. Daraus wird der Preis eines Autos abgeleitet.
Das erste hat nicht gereicht und das zweite hat sich nicht immer als richtig erwiesen, und ich hatte möglicherweise nicht den besten Ansatz für die Verwendung der Gewichte. Dies scheint auch ein bisschen schwer zu sein, Gewichte zu pflegen, deshalb dachte ich, dass es vielleicht eine Möglichkeit gibt, die historischen Daten als Statistik zu verwenden, um Gewichte zu erhalten oder um etwas anderes zu erhalten. Ich weiß nur nicht, wo ich anfangen soll.
Andere wichtige Aspekte
- in irgendein Softwareprojekt integrieren, das ich habe. Entweder durch die Verwendung vorhandener Bibliotheken oder durch das Schreiben eines eigenen Algorithmus.
- Schnelle Neuberechnung, wenn neue historische Daten eingehen.
Irgendwelche Vorschläge, wie ein Problem wie dieses angegangen werden könnte? Alle Ideen sind mehr als willkommen.
Vielen Dank im Voraus und freuen uns auf Ihre Anregungen!
quelle
Ich stimme @whuber zu, dass eine lineare Regression ein Weg ist, aber bei der Interpretation der Ergebnisse ist Vorsicht geboten. Das Problem ist, dass in der Wirtschaft der Preis immer mit der Nachfrage zusammenhängt. Wenn die Nachfrage steigt, steigen die Preise, wenn die Nachfrage sinkt, sinken die Preise. Der Preis wird also durch die Nachfrage bestimmt und im Gegenzug wird die Nachfrage durch den Preis bestimmt. Wenn wir also den Preis als eine Regression aus einigen Attributen ohne Nachfrage modellieren, besteht die reale Gefahr, dass die Regressionsschätzungen aufgrund einer Verzerrung durch weggelassene Variablen falsch sind .
quelle
Nach einer Art Diskussion ist hier meine vollständige Sicht der Dinge
Das Problem
Ziel: zu verstehen, wie man die Autos besser bewertet
Kontext: In ihrem Entscheidungsprozess lösen die Leute verschiedene Fragen: Brauche ich ein Auto, wenn ja, welche Attribute ich am meisten bevorzuge (einschließlich des Preises, weil ich rational gesehen ein Auto mit dem besten Preis-Leistungs-Verhältnis haben möchte) Vergleichen Sie die Anzahl der Attribute zwischen verschiedenen Autos und wählen Sie deren gemeinsame Bewertung .
Von der Verkäuferposition aus möchte ich den Preis so hoch wie möglich einstellen und das Auto so schnell wie möglich verkaufen. Wenn ich also den Preis zu hoch stelle und monatelang warte, kann dies als auf dem Markt nicht nachgefragt angesehen und mit 0 im Vergleich zu sehr nachgefragten Attributsätzen markiert werden.
Beobachtungen: Real Deals, die die Attribute eines bestimmten Autos mit dem im Rahmen des Verhandlungsprozesses festgelegten Preis in Beziehung setzen (in Bezug auf die vorherige Bemerkung ist es wichtig zu wissen, wie lange es dauert, den Deal festzulegen).
Vorteile: Sie beobachten die Dinge, die tatsächlich auf dem Markt gekauft wurden, so dass Sie nicht erraten, ob es eine Person mit einem ausreichend hohen Reservierungspreis gibt, die ein bestimmtes Auto kaufen möchte
Nachteile:
Lösungsmethoden
Das erste ist, wie von Whuber vorgeschlagen, das klassische Regressionsmodell der kleinsten Quadrate
Vorteile:
Nachteile:
Im Falle der klassischen Regression, da Sie nicht in den Freiheitsgraden eingeschränkt sind, probieren Sie auch andere Interaktionsbegriffe aus.
Eine kompliziertere Lösung wäre daher entweder das tobit- oder das Heckman-Modell. Weitere Informationen zu Kernmethoden finden Sie in den Microeconometrics: Methoden und Anwendungen von AC Cameron und PK Trivedi .
Vorteile:
Nachteile:
Und wenn Sie sich nur dafür interessieren, wie der Preis die Kaufwahrscheinlichkeit beeinflusst, können Sie mit einer Art logit- Modell arbeiten.
Wir waren uns einig, dass die Conjoint-Analyse hier nicht geeignet ist, da Sie unterschiedliche Kontexte und Beobachtungen haben.
Viel Glück.
quelle
Es sieht aus wie ein lineares Regressionsproblem, aber was ist mit K nächsten Nachbarn KNN . Sie können eine Entfernungsformel für jedes Auto erstellen und den Preis als Durchschnitt zwischen dem nächstgelegenen K (sagen wir 3) berechnen. Eine Abstandsformel kann euklidisch sein, wie der Unterschied zwischen Zylindern plus dem Unterschied zwischen Türen plus dem Unterschied zwischen Pferdestärken und so weiter.
Wenn Sie mit linearer Regression gehen, würde ich ein paar Dinge vorschlagen:
Eine andere Idee ist es, einen Hybrid zwischen Modellen herzustellen. Verwenden Sie sowohl Regresion als auch KNN als Datenpunkte und erstellen Sie den endgültigen Preis als gewichteten Durchschnitt oder so.
quelle
Abgesehen von dem, was gesagt wurde und was sich nicht wirklich von den bereits gemachten Vorschlägen unterscheidet, möchten Sie vielleicht einen Blick in die umfangreiche Literatur zu hedonischen Preismodellen werfen . Es handelt sich um ein Regressionsmodell, das versucht, den Preis eines zusammengesetzten Gutes als Funktion seiner Attribute zu erklären.
Auf diese Weise können Sie ein Auto mit Kenntnis seiner Attribute (Pferdestärke, Größe, Marke usw.) bewerten, auch wenn in Ihrer Stichprobe keine genau ähnliche Mischung von Attributen vorhanden ist. Es ist ein sehr beliebter Ansatz für die Bewertung von im Wesentlichen nicht replizierbaren Vermögenswerten - wie Immobilien. Wenn Sie nach "hedonischen Modellen" googeln, finden Sie viele Referenzen und Beispiele.
quelle