Ich habe einige Daten, mit denen ich herumspiele. Nehmen wir zur Vereinfachung an, die Daten enthalten Informationen zur Anzahl der von einem Blogger verfassten Beiträge im Vergleich zur Anzahl der Personen, die den Blog dieser Person abonniert haben (dies ist nur ein erfundenes Beispiel).
Ich möchte ein grobes Modell der Beziehung zwischen # Posts und # Abonnenten erhalten, und wenn ich mir ein Log-Log-Diagramm ansehe, sehe ich Folgendes:
Dies sieht aus wie eine grobe lineare Beziehung (auf der Log-Log-Skala), und die schnelle Überprüfung der Residuen scheint zu stimmen (kein offensichtliches Muster, keine merkliche Abweichung von einer Normalverteilung):
Meine Frage ist also: Ist es in Ordnung, dieses lineare Modell zu verwenden? Ich weiß vage, dass es Probleme gibt, lineare Regressionen in Log-Log-Plots zu verwenden, um Potenzgesetzverteilungen zu schätzen, aber meine Daten sind keine Potenzgesetz- Wahrscheinlichkeitsverteilung (es ist einfach etwas, das einem grob zu folgen scheint Modell, insbesondere muss nichts zu 1) summiert werden, daher bin ich mir nicht sicher, ob die gleichen Kritiken zutreffen. (Vielleicht korrigiere ich bei der Erwähnung von "log-log" und "linearer Regression" im selben Satz zu viel ...) Außerdem versuche ich wirklich nur:
- Überprüfen Sie, ob die Blogs mit positiven Residuen oder die Blogs mit negativen Residuen Muster aufweisen
- Schlagen Sie ein grobes Modell vor, wie Abonnenten mit der Anzahl der Beiträge in Beziehung stehen.
quelle
Antworten:
An einer Log-Log-Regression ist an sich nichts auszusetzen, und Ökonomen verwenden sie seit Ewigkeiten, um die Elastizität abzuschätzen. Wenn Sie jedoch den Effekt des Potenzgesetzes berücksichtigen möchten, sich aber nicht zu sehr darum kümmern möchten, können Sie diese einfache Korrektur anwenden: http://papers.ssrn.com/sol3/papers.cfm?abstract_id=881759
quelle