Wie modelliere ich Preise?

15

Ich habe diese Frage auf der Matemathics Stack Exchange-Website gestellt und es wurde empfohlen, sie hier zu stellen.

Ich arbeite an einem Hobbyprojekt und benötige Hilfe bei folgendem Problem.

Ein bisschen Kontext

Angenommen, es gibt eine Sammlung von Artikeln mit einer Beschreibung der Funktionen und einem Preis. Stellen Sie sich eine Liste mit Autos und Preisen vor. Alle Autos verfügen über eine Liste von Merkmalen, z. B. Motorgröße, Farbe, Pferdestärke, Modell, Baujahr usw. Für jede Marke gilt Folgendes:

Ford:
V8, green, manual, 200hp, 2007, $200
V6, red, automatic, 140hp, 2010, $300
V6, blue, manual, 140hp, 2005, $100
...

Darüber hinaus wird die Liste der Autos mit Preisen mit einem gewissen Zeitintervall veröffentlicht, was bedeutet, dass wir auf historische Preisdaten zugreifen können. Enthält möglicherweise nicht immer genau dieselben Autos.

Problem

Ich würde gerne verstehen, wie man die Preise für jedes Auto basierend auf diesen Basisinformationen modelliert, vor allem Autos, die nicht in der anfänglichen Liste enthalten sind.

Ford, v6, red, automatic, 130hp, 2009

Für das obige Auto ist es fast das gleiche wie in der Liste, nur etwas anders in Pferdestärke und Jahr. Was wird zum Preis benötigt?

Was ich suche, ist etwas Praktisches und Einfaches, aber ich würde auch gerne etwas über komplexere Ansätze erfahren, wie man so etwas modelliert.

Was ich versucht habe

Hier ist, womit ich bisher experimentiert habe:

1) Verwenden von historischen Daten zum Nachschlagen von Auto X. Wenn nicht gefunden, kein Preis. Dies ist natürlich sehr begrenzt und man kann dies nur in Kombination mit etwas Zeitverfall verwenden, um die Preise für bekannte Autos im Laufe der Zeit zu ändern.

2) Verwenden eines Auto-Feature-Gewichtungsschemas zusammen mit einem Musterauto zum Preis. Grundsätzlich gilt, dass es einen Grundpreis gibt und die Funktionen dies mit einigem Faktor ändern. Daraus wird der Preis eines Autos abgeleitet.

Das erste hat nicht gereicht und das zweite hat sich nicht immer als richtig erwiesen, und ich hatte möglicherweise nicht den besten Ansatz für die Verwendung der Gewichte. Dies scheint auch ein bisschen schwer zu sein, Gewichte zu pflegen, deshalb dachte ich, dass es vielleicht eine Möglichkeit gibt, die historischen Daten als Statistik zu verwenden, um Gewichte zu erhalten oder um etwas anderes zu erhalten. Ich weiß nur nicht, wo ich anfangen soll.

Andere wichtige Aspekte

  • in irgendein Softwareprojekt integrieren, das ich habe. Entweder durch die Verwendung vorhandener Bibliotheken oder durch das Schreiben eines eigenen Algorithmus.
  • Schnelle Neuberechnung, wenn neue historische Daten eingehen.

Irgendwelche Vorschläge, wie ein Problem wie dieses angegangen werden könnte? Alle Ideen sind mehr als willkommen.

Vielen Dank im Voraus und freuen uns auf Ihre Anregungen!

Murrekatt
quelle

Antworten:

11

"Praktisch" und "einfach" deuten auf eine Regression der kleinsten Quadrate hin . Es ist einfach einzurichten, einfach mit einer Vielzahl von Software (R, Excel, Mathematica, beliebige Statistikpakete) zu erstellen, einfach zu interpretieren und kann in vielerlei Hinsicht erweitert werden, je nachdem, wie genau Sie sein möchten und wie hart Sie sind arbeitswillig.

Dieser Ansatz ist im Wesentlichen Ihr "Gewichtungsschema" (2), aber er findet die Gewichte leicht, garantiert so viel Genauigkeit wie möglich und ist einfach und schnell zu aktualisieren. Es gibt viele Bibliotheken, um Berechnungen der kleinsten Quadrate durchzuführen.

Es ist hilfreich, nicht nur die von Ihnen aufgelisteten Variablen (Motortyp, Leistung usw.), sondern auch das Alter des Autos zu berücksichtigen . Stellen Sie außerdem sicher, dass Sie die Inflationspreise anpassen.

whuber
quelle
Verkauft! Das hört sich genau so an, wie ich es suche! Da mir dies alles neu ist, habe ich Probleme beim Vergleichen von Vorschlägen. Daher frage ich mich, wie die Regression der kleinsten Quadrate mit der Mehrfachregression und der "hedonischen Preisgestaltung" verglichen werden kann. Dies sind Vorschläge, die ich auf der Mathematik-Website erhalten habe, auf der ich ursprünglich gepostet habe. Was behebe ich, wenn ich zum Beispiel die Regression der kleinsten Quadrate verwende? Gibt es etwas, das ich beachten muss, wenn ich diesen Ansatz verwende?
Murrekatt
auch danke für diesen vorschlag. Es scheint sehr gut zu sein. Ich muss mehr nachlesen, um eine Vorstellung davon zu bekommen, wie ich anfangen kann, um zu sehen, wie man es benutzt.
Murrekatt
3
Ich möchte meine Zustimmung zu den von @mpiktas und @dimitrij celov veröffentlichten Vorbehalten anerkennen und zum Ausdruck bringen. Analysen der Preise können - und in vielen Fällen sollte sein - so komplex wie die wirtschaftlichen Systeme , von denen sie ein Teil sind. Aufgrund der beabsichtigten Anwendung (ein Hobby) und der deutlich erkennbaren Einschränkungen der Möglichkeiten des OP zur statistischen Modellierung sollten wir jedoch großen Wert auf Einfachheit, Benutzerfreundlichkeit und Interpretierbarkeit legen. Offensichtlich wird jemand, der noch nicht mit den kleinsten Quadraten vertraut ist, nicht sofort einspringen und damit beginnen, vollständige ökonometrische Modelle zu erstellen.
whuber
5

Ich stimme @whuber zu, dass eine lineare Regression ein Weg ist, aber bei der Interpretation der Ergebnisse ist Vorsicht geboten. Das Problem ist, dass in der Wirtschaft der Preis immer mit der Nachfrage zusammenhängt. Wenn die Nachfrage steigt, steigen die Preise, wenn die Nachfrage sinkt, sinken die Preise. Der Preis wird also durch die Nachfrage bestimmt und im Gegenzug wird die Nachfrage durch den Preis bestimmt. Wenn wir also den Preis als eine Regression aus einigen Attributen ohne Nachfrage modellieren, besteht die reale Gefahr, dass die Regressionsschätzungen aufgrund einer Verzerrung durch weggelassene Variablen falsch sind .

mpiktas
quelle
@mpiktas: danke. Ich verstehe was du meinst. Ich dachte darüber nach, wusste aber nicht genau, wie ich die Frage stellen oder ergänzen sollte. Wie geht man mit dem um, was du erklärst? Handelt es sich um ein separates Problem, das Sie beim Interpretieren der Ergebnisse beim Schreiben berücksichtigen müssen, oder ist dies in einige andere Ansätze integriert und nicht Teil der Regression der kleinsten Quadrate? Ich bin mir nicht sicher, wie ich mich formulieren soll, aber ich meine, gibt es Ansätze, die dies berücksichtigen, und andere, die dies nicht tun? Was bedeutet, dass wir für das "Nicht" die Ergebnisse interpretieren müssen?
Murrekatt
3
@murekatt, wenn Sie keine zusätzlichen Daten auf Anfrage haben, aber das Modell für den Preis benötigen, müssen Sie besonders vorsichtig sein. Dies bedeutet weniger Aufmerksamkeit für die statistische Signifikanz von Koeffizienten, sondern mehr Aufmerksamkeit für die Prognoseleistung. Im Wesentlichen bedeutet dies, die Regression als Black Box zu behandeln und die Modellprognoseleistung als Maß für die Modellvalidität zu verwenden. Dies bedeutet die Verwendung von Kreuzvalidierung, Datenteilung zum Trainieren und Testen von Proben usw.
mpiktas
@mpiktas: was meinst du mit "zusatzdaten"? Könnten Sie bitte ein Beispiel dafür im Autokontext geben?
Murrekatt
1
@murrekatt, sieh dir das Ende der aktualisierten Antwort von Dmitrij an. Die Nachfragedaten sind wichtig. Wenn Sie also wissen, wie viele Autos zu einem bestimmten Preis verkauft wurden, ist dies eine enorme Hilfe. Wenn Sie darüber hinaus Daten darüber haben, wie sich der Preis für das angegebene Auto mit festen Attributen ändert, sollte dies auch in Ihrem Modell
widergespiegelt werden
1
@murekatt, grundsätzlich ja. Ich denke, Sie müssen klein anfangen und später zusätzliche Funktionen hinzufügen. Die ersten Ergebnisse zeigen Ihnen, in welche Richtung Sie weiter gehen müssen.
mpiktas
4

Was ich suche, ist etwas Praktisches und Einfaches, aber ich würde auch gerne etwas über komplexere Ansätze erfahren, wie man so etwas modelliert.

Nach einer Art Diskussion ist hier meine vollständige Sicht der Dinge

Das Problem

Ziel: zu verstehen, wie man die Autos besser bewertet

Kontext: In ihrem Entscheidungsprozess lösen die Leute verschiedene Fragen: Brauche ich ein Auto, wenn ja, welche Attribute ich am meisten bevorzuge (einschließlich des Preises, weil ich rational gesehen ein Auto mit dem besten Preis-Leistungs-Verhältnis haben möchte) Vergleichen Sie die Anzahl der Attribute zwischen verschiedenen Autos und wählen Sie deren gemeinsame Bewertung .

Von der Verkäuferposition aus möchte ich den Preis so hoch wie möglich einstellen und das Auto so schnell wie möglich verkaufen. Wenn ich also den Preis zu hoch stelle und monatelang warte, kann dies als auf dem Markt nicht nachgefragt angesehen und mit 0 im Vergleich zu sehr nachgefragten Attributsätzen markiert werden.

Beobachtungen: Real Deals, die die Attribute eines bestimmten Autos mit dem im Rahmen des Verhandlungsprozesses festgelegten Preis in Beziehung setzen (in Bezug auf die vorherige Bemerkung ist es wichtig zu wissen, wie lange es dauert, den Deal festzulegen).

Vorteile: Sie beobachten die Dinge, die tatsächlich auf dem Markt gekauft wurden, so dass Sie nicht erraten, ob es eine Person mit einem ausreichend hohen Reservierungspreis gibt, die ein bestimmtes Auto kaufen möchte

Nachteile:

  1. Ihre Annahme ist, dass der Markt effizient ist, was bedeutet, dass die beobachteten Preise nahe am Gleichgewicht sind
  2. Sie ignorieren die Varianten von Autoattributen, die nicht gekauft wurden oder die zu lange gedauert haben , um das Geschäft abzuschließen, was bedeutet, dass Ihre Erkenntnisse voreingenommen sind , sodass Sie tatsächlich mit latenten variablen Modellen arbeiten
  3. Wenn Sie die Daten über einen längeren Zeitraum beobachten, müssen Sie die Luft ablassen, obwohl die Berücksichtigung des Fahrzeugalters dies teilweise ausgleicht.

Lösungsmethoden

Das erste ist, wie von Whuber vorgeschlagen, das klassische Regressionsmodell der kleinsten Quadrate

Vorteile:

  1. in der Tat die einfachste Lösung, da es das Arbeitspferd der Ökonometrie ist

Nachteile:

  1. ignoriert, dass Sie die Dinge unvollständig beobachten ( latente Variablen )
  2. Da die Regressoren unabhängig voneinander sind, ignoriert das Basismodell die Tatsache, dass Sie den blauen Ford vielleicht anders mögen als den blauen Mercedes , aber es ist nicht die Summe der geringfügigen Einflüsse, die von Blau und Ford ausgehen

Im Falle der klassischen Regression, da Sie nicht in den Freiheitsgraden eingeschränkt sind, probieren Sie auch andere Interaktionsbegriffe aus.

Eine kompliziertere Lösung wäre daher entweder das tobit- oder das Heckman-Modell. Weitere Informationen zu Kernmethoden finden Sie in den Microeconometrics: Methoden und Anwendungen von AC Cameron und PK Trivedi .

Vorteile:

  1. Sie unterscheiden die Tatsache, dass Personen einige Attributgruppen möglicherweise überhaupt nicht mögen oder dass bei einigen Attributgruppen die Wahrscheinlichkeit gering ist, dass sie von der tatsächlichen Preiseinstellung gekauft werden
  2. Ihre Ergebnisse sind nicht voreingenommen (oder zumindest weniger als im ersten Fall)
  3. Im Falle von Heckman trennen Sie die Gründe, die zum Kauf eines bestimmten Autos führen, von der Preisentscheidung darüber, wie viel ich für dieses Auto bezahlen möchte: Der erste wird durch individuelle Vorlieben beeinflusst, der zweite durch Budgetbeschränkungen

Nachteile:

  1. Beide Modelle sind datengieriger , dh wir müssen entweder die Zeitspanne zwischen dem Ask und dem Bid für den Equalizer (wenn es ziemlich kurz ist, setzen Sie 1, sonst 0) oder die Mengen beobachten, die vom Markt ignoriert wurden

Und wenn Sie sich nur dafür interessieren, wie der Preis die Kaufwahrscheinlichkeit beeinflusst, können Sie mit einer Art logit- Modell arbeiten.

Wir waren uns einig, dass die Conjoint-Analyse hier nicht geeignet ist, da Sie unterschiedliche Kontexte und Beobachtungen haben.

Viel Glück.

Dmitrij Celov
quelle
Wie würden Sie ein multinomiales Logit-Modell, dessen abhängige Variable kategorial ist, auf Preise anwenden, die nicht kategorial sind?
whuber
@Dmitrij Celov: Danke für deinen Vorschlag. Ich werde versuchen, Ihre Fragen zu beantworten. 1) Es ist kein Preis verfügbar, dies ist das Unbekannte, das ich gerne mit ähnlichen Autos beantworten möchte. 2) Ich weiß nicht, welche Variable am meisten wiegt - das hatte ich mir erhofft. 3) Ich möchte auf der Grundlage einer Liste von Autos mit Merkmalen und Preisen in der Lage sein, jedes Auto mit irgendwelchen Merkmalen zu bewerten.
Murrekatt
Kj-1j10P(yich=1|yj=0)=11+e-β(Xich-Xj)yichyj
@murrekatt: 1) Suchst du nur nach den "wertvollsten" Attributen? 2) Logit-Schätzparameter werden wie Quoten und Quotenverhältnisse interpretiert, aber multinomiales Logit hat eine schwache Eigenschaft, die als Unabhängigkeit von irrelevanten Alternativen bekannt ist. 3) Können Sie sicher sein, dass die aufgeführten Preise relevant sind, dh dass die Autos tatsächlich gekauft wurden? @whuber: einfache rückführung funktioniert hier prima, wenn der preis abhängig ist, aber nochmal welcher preis? wo veröffentlicht? oder ist es die eigentliche Transaktion?
Dmitrij Celov
2
@Dimitrij Preis ist keine unabhängige Variable: Es ist die abhängige Variable: "Ich möchte verstehen, wie man Preise für jedes Auto basierend auf diesen Basisinformationen modelliert." Ich befürchte, dass Sie mit diesem Missverständnis @murrekatt sehr weit bringen.
whuber
4

Es sieht aus wie ein lineares Regressionsproblem, aber was ist mit K nächsten Nachbarn KNN . Sie können eine Entfernungsformel für jedes Auto erstellen und den Preis als Durchschnitt zwischen dem nächstgelegenen K (sagen wir 3) berechnen. Eine Abstandsformel kann euklidisch sein, wie der Unterschied zwischen Zylindern plus dem Unterschied zwischen Türen plus dem Unterschied zwischen Pferdestärken und so weiter.

Wenn Sie mit linearer Regression gehen, würde ich ein paar Dinge vorschlagen:

  • Skalieren Sie den Dollarwert bis zum heutigen Tag, um die Inflation zu berücksichtigen.
  • Teilen Sie Ihre Daten in Epochen ein. Ich wette, Sie werden feststellen, dass Sie ein Modell für Pre-WW2 und Post-WW2 benötigen, zum Beispiel. Dies ist jedoch nur eine Vermutung.
  • Kreuzvalidieren Sie Ihr Modell, um eine Überanpassung zu vermeiden. Teilen Sie Ihre Daten in 5 Teile. Trainieren Sie mit 4 und drehen Sie das Modell mit dem 5. Teil. Fasse die Fehler zusammen, spüle und wiederhole sie für die anderen Stücke.

Eine andere Idee ist es, einen Hybrid zwischen Modellen herzustellen. Verwenden Sie sowohl Regresion als auch KNN als Datenpunkte und erstellen Sie den endgültigen Preis als gewichteten Durchschnitt oder so.

Dwatson
quelle
3

Abgesehen von dem, was gesagt wurde und was sich nicht wirklich von den bereits gemachten Vorschlägen unterscheidet, möchten Sie vielleicht einen Blick in die umfangreiche Literatur zu hedonischen Preismodellen werfen . Es handelt sich um ein Regressionsmodell, das versucht, den Preis eines zusammengesetzten Gutes als Funktion seiner Attribute zu erklären.

Auf diese Weise können Sie ein Auto mit Kenntnis seiner Attribute (Pferdestärke, Größe, Marke usw.) bewerten, auch wenn in Ihrer Stichprobe keine genau ähnliche Mischung von Attributen vorhanden ist. Es ist ein sehr beliebter Ansatz für die Bewertung von im Wesentlichen nicht replizierbaren Vermögenswerten - wie Immobilien. Wenn Sie nach "hedonischen Modellen" googeln, finden Sie viele Referenzen und Beispiele.

F. Tusell
quelle
@F. Tusell: Das war eine gute Beschreibung. Ich habe dies bereits von anderen Posts aus verwirrt, aber dies fasst die Dinge für einen Anfänger wie mich gut zusammen.
Murrekatt