Regression für das Machtrecht

7

Dies ist ein Crosspost von Math SE .

Ich habe einige Daten (Laufzeit eines Algorithmus) und ich denke, dass sie einem Potenzgesetz folgen

yreg=kxa

Ich möchte und bestimmen . Was ich bisher getan habe, ist eine lineare Regression (kleinste Quadrate) durch und und aus ihren Koeffizienten zu bestimmen .a log ( x ) , log ( y ) k akalog(x),log(y)ka

Mein Problem ist, dass, da der "absolute" Fehler für die "Protokoll-Protokoll-Daten" minimiert ist, der Quotient minimiert wird, wenn Sie die Originaldaten betrachten

yyreg

Dies führt zu einem großen absoluten Fehler für große Werte von . Gibt es eine Möglichkeit, eine "Potenzgesetz-Regression" durchzuführen, die den tatsächlichen "absoluten" Fehler minimiert? Oder macht es zumindest einen besseren Job, es zu minimieren?y


Beispiel:

Geben Sie hier die Bildbeschreibung ein

Die rote Kurve wird durch den gesamten Datensatz angepasst. Die grüne Kurve wird nur durch die letzten 21 Punkte angepasst.

Hier sind die Daten für das Diagramm. Die linke Spalte sind die Werte von ( Achse), die rechte Spalte sind die Werte von ( Achse)x t ynxty

1.000000000000000000e+02,1.944999820000248248e-03
1.120000000000000000e+02,1.278203080000253058e-03
1.250000000000000000e+02,2.479853309999952970e-03
1.410000000000000000e+02,2.767649050000500332e-03
1.580000000000000000e+02,3.161272610000196315e-03
1.770000000000000000e+02,3.536506440000266715e-03
1.990000000000000000e+02,3.165302929999711402e-03
2.230000000000000000e+02,3.115432719999944224e-03
2.510000000000000000e+02,4.102446610000356694e-03
2.810000000000000000e+02,6.248937529999807478e-03
3.160000000000000000e+02,4.109296799998674206e-03
3.540000000000000000e+02,8.410178100001530418e-03
3.980000000000000000e+02,9.524117600000181830e-03
4.460000000000000000e+02,8.694799099998817837e-03
5.010000000000000000e+02,1.267794469999898935e-02
5.620000000000000000e+02,1.376997950000031709e-02
6.300000000000000000e+02,1.553864030000227069e-02
7.070000000000000000e+02,1.608576049999897034e-02
7.940000000000000000e+02,2.055535920000011244e-02
8.910000000000000000e+02,2.381920090000448978e-02
1.000000000000000000e+03,2.922614199999884477e-02
1.122000000000000000e+03,1.785056299999610019e-02
1.258000000000000000e+03,3.823622889999569313e-02
1.412000000000000000e+03,3.297452850000013452e-02
1.584000000000000000e+03,4.841355780000071440e-02
1.778000000000000000e+03,4.927822640000271981e-02
1.995000000000000000e+03,6.248602919999939054e-02
2.238000000000000000e+03,7.927740400003813193e-02
2.511000000000000000e+03,9.425949999996419137e-02
2.818000000000000000e+03,1.212073290000148518e-01
3.162000000000000000e+03,1.363937510000141629e-01
3.548000000000000000e+03,1.598689289999697394e-01
3.981000000000000000e+03,2.055201890000262210e-01
4.466000000000000000e+03,2.308686839999722906e-01
5.011000000000000000e+03,2.683506760000113900e-01
5.623000000000000000e+03,3.307920660000149837e-01
6.309000000000000000e+03,3.641307770000139499e-01
7.079000000000000000e+03,5.151283440000042901e-01
7.943000000000000000e+03,5.910637860000065302e-01
8.912000000000000000e+03,5.568920769999863296e-01
1.000000000000000000e+04,6.339683309999486482e-01
1.258900000000000000e+04,1.250584726999989016e+00
1.584800000000000000e+04,1.820368430999963039e+00
1.995200000000000000e+04,2.750779816999994409e+00
2.511800000000000000e+04,4.136365994000016144e+00
3.162200000000000000e+04,5.498797844000023360e+00
3.981000000000000000e+04,7.895301083999981984e+00
5.011800000000000000e+04,9.843239714999981516e+00
6.309500000000000000e+04,1.641506008199996813e+01
7.943200000000000000e+04,2.786652209900000798e+01
1.000000000000000000e+05,3.607965075100003105e+01
1.258920000000000000e+05,5.501840400599996883e+01
1.584890000000000000e+05,8.544515980200003469e+01
1.995260000000000000e+05,1.273598972439999670e+02
2.511880000000000000e+05,1.870695913819999987e+02
3.162270000000000000e+05,3.076423412130000088e+02
3.981070000000000000e+05,4.243025571930002116e+02
5.011870000000000000e+05,6.972544795499998145e+02
6.309570000000000000e+05,1.137165088436000133e+03
7.943280000000000000e+05,1.615926472178005497e+03
1.000000000000000000e+06,2.734825116088002687e+03
1.584893000000000000e+06,6.900561992643000849e+03

(Entschuldigung für die unordentliche wissenschaftliche Notation)

0x539
quelle
2
Beachten Sie, dass in der Hilfe angegeben wird : " Bitte beachten Sie jedoch, dass Cross-Posting auf SE-Websites nicht empfohlen wird. Wählen Sie einen besten Speicherort für Ihre Frage. Wenn sich diese später auf einer anderen Website als besser geeignet erweist, kann sie migriert werden. "
Glen_b -Reinstate Monica
2
Aus Ihrer Handlung geht eindeutig hervor, dass ein einziges Potenzgesetz nicht zu diesen Daten passt. Möglicherweise finden Sie in den anderen Fragen zum Stromrecht vor Ort einen gewissen Wert. Es kann sich auch lohnen, das Papier von Aaron Clauset, Cosma Rohilla Shalizi, MEJ Newman (2009), "Potenzgesetzverteilungen in empirischen Daten", SIAM Review 51, 661-703, zu lesen (siehe die arXiv-Version hier arXiv: 0706.1062v2 ); und dieser Beitrag von Shalizi.
Glen_b - Monica
2
Einige relevante Informationen hier
Glen_b -Rate State Monica

Antworten:

3

Wenn Sie bei jeder Beobachtung in der nicht transformierten Skala die gleiche Fehlervarianz wünschen, können Sie nichtlineare kleinste Quadrate verwenden.

(Dies ist oft nicht geeignet. Fehler über viele Größenordnungen sind selten konstant groß.)

Wenn wir es trotzdem verwenden, kommen wir den späteren Werten viel näher:

Diagramm der nichtlinearen Anpassung der kleinsten Quadrate

Und wenn wir Residuen untersuchen, können wir sehen, dass meine Warnung oben völlig begründet ist:

Restplot gegen Holz (angepasst) für das obige Modell

Dies zeigt, dass die Variabilität auf der ursprünglichen Skala nicht konstant ist (und dass die Anpassung dieser einzelnen Leistungskurve auch am oberen Ende nicht allzu gut passt, da im dritten Viertel des Bereichs der logarithmischen Werte eine deutliche Krümmung vorliegt die x-Skala - zwischen etwa 0 und 5 auf der x-Achse oben). Die Variabilität ist in der logarithmischen Skala näher an der Konstanten (obwohl sie bei niedrigen Werten relativ gesehen etwas variabler ist als bei hohen).

Was hier am besten zu tun ist, hängt davon ab, was Sie erreichen möchten.

Glen_b -Reinstate Monica
quelle
In diesem Fall könnte eine Anpassung angemessen sein, die für die größten Werte besser ist, da wir die Laufzeit nicht so wichtig spielen, wenn sie niedrig ist ...y
kjetil b halvorsen
1
@kjetilbhalvorsen Es gibt bessere Möglichkeiten, dies zu erreichen, aber die Tatsache, dass das Modell nicht passt, ist eine klare Warnung, dass die Vorhersagen zu niedrig sein werden, wenn das Interesse auch nur geringfügig außerhalb des Datenbereichs liegt, vielleicht dramatisch. Die Anpassung nur an die letzten 21 Punkte passt immer noch nicht zur Krümmung in diesem Teil der Daten.
Glen_b -State Monica
2

Ein Artikel von Lin und Tegmark fasst die Gründe gut zusammen, warum lognormale und / oder Markov-Prozessverteilungen nicht zu Daten passen, die kritisches Verhalten nach dem Potenzgesetz anzeigen ... https://ai2-s2-pdfs.s3.amazonaws.com/5ba0/3a03d844f10d7b4861d3b116818afe2b75f2 .pdf . Wie sie bemerken, "scheitern Markov-Prozesse ... episch, indem sie exponentiell abfallende gegenseitige Informationen vorhersagen ...". Ihre Lösung und Empfehlung besteht darin, tief lernende neuronale Netze wie LSTM-Modelle (Long-Short-Term Memory) zu verwenden.

Da ich altmodisch bin und weder mit NNs noch mit LSTMs vertraut bin, werde ich dem nichtlinearen Ansatz von @ glen_b einen Tipp geben. Ich bevorzuge jedoch besser handhabbare und leicht zugängliche Problemumgehungen wie die wertbasierte Quantilregression. Nachdem ich diesen Ansatz bei Versicherungsansprüchen mit starkem Schwanz angewendet habe, weiß ich, dass er viel besser zu den Schwänzen passt als herkömmliche Methoden, einschließlich multiplikativer Log-Log-Modelle. Die bescheidene Herausforderung bei der Verwendung von QR besteht darin, das geeignete Quantil zu finden, auf dem die eigenen Modelle basieren. In der Regel ist dies viel größer als der Median. Trotzdem möchte ich diese Methode nicht überbieten, da bei den extremsten Werten des Schwanzes weiterhin ein erheblicher Mangel an Passform bestand.

Hyndman et al. ( Http://robjhyndman.com/papers/sig-alternate.pdf ) schlagen einen alternativen QR vor, den sie als Verstärkung der additiven Quantilregression bezeichnen . Ihr Ansatz erstellt Modelle über einen vollständigen Bereich oder ein Raster von Quantilen und liefert probabilistische Schätzungen oder Prognosen, die mit einer der Extremwertverteilungen, z. B. Cauchy, Levy-Stable, bewertet werden können. Ich habe ihre Methode noch nicht angewendet, aber sie scheint vielversprechend.

Ein anderer Ansatz zur Extremwertmodellierung ist als POT- oder Peak-over-Threshold-Modell bekannt. Dies beinhaltet das Festlegen eines Schwellenwerts oder Grenzwerts für eine empirische Werteverteilung und das Modellieren nur der größten Werte, die über dem Grenzwert liegen, basierend auf einem GEV oder einer verallgemeinerten Extremwertverteilung. Der Vorteil dieses Ansatzes besteht darin, dass jeder mögliche zukünftige Extremwert basierend auf den Parametern aus dem Modell kalibriert oder lokalisiert werden kann. Die Methode hat jedoch den offensichtlichen Nachteil, dass man nicht das vollständige PDF verwendet.

Schließlich schlägt JP Bouchaud in einem Papier aus dem Jahr 2013 das RFIM (Random Field Ising Model) zur Modellierung komplexer Informationen vor, die Kritikalität und schweres Verhalten wie Hüten, Trends, Lawinen usw. anzeigen. Bouchaud fällt in eine Klasse von Polymathen, zu denen Mandelbrot, Shannon, Tukey, Turing usw. gehören sollten. Ich kann behaupten, von seiner Diskussion sehr fasziniert zu sein und gleichzeitig von den Strapazen bei der Umsetzung seiner Vorschläge eingeschüchtert zu sein . https://www.researchgate.net/profile/Jean-Philippe_Bouchaud/publication/230788728_Crises_and_Collective_Socio-Economic_Phenomena_Simple_Models_and_Challenges/links/5682d40008ae051f9aee7p=p

Mike Hunter
quelle