Dies ist ein Crosspost von Math SE .
Ich habe einige Daten (Laufzeit eines Algorithmus) und ich denke, dass sie einem Potenzgesetz folgen
Ich möchte und bestimmen . Was ich bisher getan habe, ist eine lineare Regression (kleinste Quadrate) durch und und aus ihren Koeffizienten zu bestimmen .a log ( x ) , log ( y ) k a
Mein Problem ist, dass, da der "absolute" Fehler für die "Protokoll-Protokoll-Daten" minimiert ist, der Quotient minimiert wird, wenn Sie die Originaldaten betrachten
Dies führt zu einem großen absoluten Fehler für große Werte von . Gibt es eine Möglichkeit, eine "Potenzgesetz-Regression" durchzuführen, die den tatsächlichen "absoluten" Fehler minimiert? Oder macht es zumindest einen besseren Job, es zu minimieren?
Beispiel:
Die rote Kurve wird durch den gesamten Datensatz angepasst. Die grüne Kurve wird nur durch die letzten 21 Punkte angepasst.
Hier sind die Daten für das Diagramm. Die linke Spalte sind die Werte von ( Achse), die rechte Spalte sind die Werte von ( Achse)x t y
1.000000000000000000e+02,1.944999820000248248e-03
1.120000000000000000e+02,1.278203080000253058e-03
1.250000000000000000e+02,2.479853309999952970e-03
1.410000000000000000e+02,2.767649050000500332e-03
1.580000000000000000e+02,3.161272610000196315e-03
1.770000000000000000e+02,3.536506440000266715e-03
1.990000000000000000e+02,3.165302929999711402e-03
2.230000000000000000e+02,3.115432719999944224e-03
2.510000000000000000e+02,4.102446610000356694e-03
2.810000000000000000e+02,6.248937529999807478e-03
3.160000000000000000e+02,4.109296799998674206e-03
3.540000000000000000e+02,8.410178100001530418e-03
3.980000000000000000e+02,9.524117600000181830e-03
4.460000000000000000e+02,8.694799099998817837e-03
5.010000000000000000e+02,1.267794469999898935e-02
5.620000000000000000e+02,1.376997950000031709e-02
6.300000000000000000e+02,1.553864030000227069e-02
7.070000000000000000e+02,1.608576049999897034e-02
7.940000000000000000e+02,2.055535920000011244e-02
8.910000000000000000e+02,2.381920090000448978e-02
1.000000000000000000e+03,2.922614199999884477e-02
1.122000000000000000e+03,1.785056299999610019e-02
1.258000000000000000e+03,3.823622889999569313e-02
1.412000000000000000e+03,3.297452850000013452e-02
1.584000000000000000e+03,4.841355780000071440e-02
1.778000000000000000e+03,4.927822640000271981e-02
1.995000000000000000e+03,6.248602919999939054e-02
2.238000000000000000e+03,7.927740400003813193e-02
2.511000000000000000e+03,9.425949999996419137e-02
2.818000000000000000e+03,1.212073290000148518e-01
3.162000000000000000e+03,1.363937510000141629e-01
3.548000000000000000e+03,1.598689289999697394e-01
3.981000000000000000e+03,2.055201890000262210e-01
4.466000000000000000e+03,2.308686839999722906e-01
5.011000000000000000e+03,2.683506760000113900e-01
5.623000000000000000e+03,3.307920660000149837e-01
6.309000000000000000e+03,3.641307770000139499e-01
7.079000000000000000e+03,5.151283440000042901e-01
7.943000000000000000e+03,5.910637860000065302e-01
8.912000000000000000e+03,5.568920769999863296e-01
1.000000000000000000e+04,6.339683309999486482e-01
1.258900000000000000e+04,1.250584726999989016e+00
1.584800000000000000e+04,1.820368430999963039e+00
1.995200000000000000e+04,2.750779816999994409e+00
2.511800000000000000e+04,4.136365994000016144e+00
3.162200000000000000e+04,5.498797844000023360e+00
3.981000000000000000e+04,7.895301083999981984e+00
5.011800000000000000e+04,9.843239714999981516e+00
6.309500000000000000e+04,1.641506008199996813e+01
7.943200000000000000e+04,2.786652209900000798e+01
1.000000000000000000e+05,3.607965075100003105e+01
1.258920000000000000e+05,5.501840400599996883e+01
1.584890000000000000e+05,8.544515980200003469e+01
1.995260000000000000e+05,1.273598972439999670e+02
2.511880000000000000e+05,1.870695913819999987e+02
3.162270000000000000e+05,3.076423412130000088e+02
3.981070000000000000e+05,4.243025571930002116e+02
5.011870000000000000e+05,6.972544795499998145e+02
6.309570000000000000e+05,1.137165088436000133e+03
7.943280000000000000e+05,1.615926472178005497e+03
1.000000000000000000e+06,2.734825116088002687e+03
1.584893000000000000e+06,6.900561992643000849e+03
(Entschuldigung für die unordentliche wissenschaftliche Notation)
Antworten:
Wenn Sie bei jeder Beobachtung in der nicht transformierten Skala die gleiche Fehlervarianz wünschen, können Sie nichtlineare kleinste Quadrate verwenden.
(Dies ist oft nicht geeignet. Fehler über viele Größenordnungen sind selten konstant groß.)
Wenn wir es trotzdem verwenden, kommen wir den späteren Werten viel näher:
Und wenn wir Residuen untersuchen, können wir sehen, dass meine Warnung oben völlig begründet ist:
Dies zeigt, dass die Variabilität auf der ursprünglichen Skala nicht konstant ist (und dass die Anpassung dieser einzelnen Leistungskurve auch am oberen Ende nicht allzu gut passt, da im dritten Viertel des Bereichs der logarithmischen Werte eine deutliche Krümmung vorliegt die x-Skala - zwischen etwa 0 und 5 auf der x-Achse oben). Die Variabilität ist in der logarithmischen Skala näher an der Konstanten (obwohl sie bei niedrigen Werten relativ gesehen etwas variabler ist als bei hohen).
Was hier am besten zu tun ist, hängt davon ab, was Sie erreichen möchten.
quelle
Ein Artikel von Lin und Tegmark fasst die Gründe gut zusammen, warum lognormale und / oder Markov-Prozessverteilungen nicht zu Daten passen, die kritisches Verhalten nach dem Potenzgesetz anzeigen ... https://ai2-s2-pdfs.s3.amazonaws.com/5ba0/3a03d844f10d7b4861d3b116818afe2b75f2 .pdf . Wie sie bemerken, "scheitern Markov-Prozesse ... episch, indem sie exponentiell abfallende gegenseitige Informationen vorhersagen ...". Ihre Lösung und Empfehlung besteht darin, tief lernende neuronale Netze wie LSTM-Modelle (Long-Short-Term Memory) zu verwenden.
Da ich altmodisch bin und weder mit NNs noch mit LSTMs vertraut bin, werde ich dem nichtlinearen Ansatz von @ glen_b einen Tipp geben. Ich bevorzuge jedoch besser handhabbare und leicht zugängliche Problemumgehungen wie die wertbasierte Quantilregression. Nachdem ich diesen Ansatz bei Versicherungsansprüchen mit starkem Schwanz angewendet habe, weiß ich, dass er viel besser zu den Schwänzen passt als herkömmliche Methoden, einschließlich multiplikativer Log-Log-Modelle. Die bescheidene Herausforderung bei der Verwendung von QR besteht darin, das geeignete Quantil zu finden, auf dem die eigenen Modelle basieren. In der Regel ist dies viel größer als der Median. Trotzdem möchte ich diese Methode nicht überbieten, da bei den extremsten Werten des Schwanzes weiterhin ein erheblicher Mangel an Passform bestand.
Hyndman et al. ( Http://robjhyndman.com/papers/sig-alternate.pdf ) schlagen einen alternativen QR vor, den sie als Verstärkung der additiven Quantilregression bezeichnen . Ihr Ansatz erstellt Modelle über einen vollständigen Bereich oder ein Raster von Quantilen und liefert probabilistische Schätzungen oder Prognosen, die mit einer der Extremwertverteilungen, z. B. Cauchy, Levy-Stable, bewertet werden können. Ich habe ihre Methode noch nicht angewendet, aber sie scheint vielversprechend.
Ein anderer Ansatz zur Extremwertmodellierung ist als POT- oder Peak-over-Threshold-Modell bekannt. Dies beinhaltet das Festlegen eines Schwellenwerts oder Grenzwerts für eine empirische Werteverteilung und das Modellieren nur der größten Werte, die über dem Grenzwert liegen, basierend auf einem GEV oder einer verallgemeinerten Extremwertverteilung. Der Vorteil dieses Ansatzes besteht darin, dass jeder mögliche zukünftige Extremwert basierend auf den Parametern aus dem Modell kalibriert oder lokalisiert werden kann. Die Methode hat jedoch den offensichtlichen Nachteil, dass man nicht das vollständige PDF verwendet.
Schließlich schlägt JP Bouchaud in einem Papier aus dem Jahr 2013 das RFIM (Random Field Ising Model) zur Modellierung komplexer Informationen vor, die Kritikalität und schweres Verhalten wie Hüten, Trends, Lawinen usw. anzeigen. Bouchaud fällt in eine Klasse von Polymathen, zu denen Mandelbrot, Shannon, Tukey, Turing usw. gehören sollten. Ich kann behaupten, von seiner Diskussion sehr fasziniert zu sein und gleichzeitig von den Strapazen bei der Umsetzung seiner Vorschläge eingeschüchtert zu sein . https://www.researchgate.net/profile/Jean-Philippe_Bouchaud/publication/230788728_Crises_and_Collective_Socio-Economic_Phenomena_Simple_Models_and_Challenges/links/5682d40008ae051f9aee7p=p
quelle