Verwenden eines Regressionsmodells zur Vorhersage: Wann aufhören?

9

Ich habe aus meinen experimentellen Messungen ein einfaches lineares Regressionsmodell berechnet, um Vorhersagen zu treffen. Ich habe gelesen, dass Sie keine Vorhersagen für Punkte berechnen sollten, die zu weit von den verfügbaren Daten abweichen. Ich konnte jedoch keine Anleitung finden, die mir hilft, zu wissen, wie weit ich extrapolieren kann. Wenn ich zum Beispiel die Lesegeschwindigkeit für eine Festplattengröße von 50 GB berechne, wird das Ergebnis wahrscheinlich der Realität nahe kommen. Was ist mit einer Festplattengröße von 100 GB, 500 GB? Woher weiß ich, ob meine Vorhersagen der Realität nahe kommen?

Die Details meines Experiments sind:

Ich messe die Lesegeschwindigkeit einer Software anhand einer anderen Festplattengröße. Bisher habe ich es mit 5 GB bis 30 GB gemessen, indem ich die Festplattengröße zwischen den Experimenten um 5 GB erhöht habe (insgesamt 6 Messungen).

Meine Ergebnisse sind linear und die Standardfehler sind meiner Meinung nach gering.

Flanfl
quelle
2
Ich denke, um nützliche Antworten zu erhalten, müssen Sie Ihren zweiten Satz erheblich erweitern und klarstellen.
Rolando2
rolando2 ist richtig. Was meinst du mit "zu viele Vorhersagen"?
David Robinson
Ich kann die genauen Begriffe, die in dem von mir gelesenen Dokument verwendet wurden, nicht finden. Die Idee ist "zu weit von meinen ursprünglichen Maßnahmen entfernt". Also habe ich die Lesegeschwindigkeit mit 30 GB Festplatte gemessen. Wenn ich die Lesegeschwindigkeit für eine 100-GB-Festplatte vorhersage, ist dies "zu weit"?
Flanfl
Die Antwort von Gung reicht aus, um die damit verbundenen Probleme zu skizzieren. Eine zusätzliche Sache, die in Ihrem speziellen Fall hilfreich sein kann, ist die Berücksichtigung des physischen Prozesses beim Lesen von Software. Welche Operationen müssen durchgeführt werden? Muss die Software die Festplatte im Rahmen des Lesevorgangs organisieren oder sortieren? Diese Fragen werden dazu beitragen, einige Grundlagen für die Annahme der Linearität zu liefern
Wahrscheinlichkeitslogik

Antworten:

19

Der Begriff, nach dem Sie suchen, ist "Extrapolation". Das Problem ist, dass unabhängig davon, wie viele Daten Sie haben und wie viele Zwischenebenen Sie zwischen Ihren Endpunkten auf der Festplattengröße haben (dh zwischen 5 und 30), es immer möglich ist, dass die tatsächlich zugrunde liegende Funktion einen gewissen Grad an Krümmung aufweist , dass Sie einfach nicht die Kraft haben, zu erkennen. Wenn Sie weit vom Endpunkt entfernt extrapolieren, wird daher ein geringer Krümmungsgrad vergrößert, da sich die wahre Funktion immer weiter von Ihrer Anpassungslinie entfernt. Eine andere Möglichkeit besteht darin, dass die wahre Funktion innerhalb des untersuchten Bereichs tatsächlich vollkommen gerade ist, dass sich jedoch möglicherweise ein Änderungspunkt in einiger Entfernung vom Endpunkt in Ihrer Studie befindet. Solche Dinge sind unmöglich auszuschließen; die Frage ist, Wie wahrscheinlich sind sie und wie ungenau wäre Ihre Vorhersage, wenn sie sich als real herausstellen würden? Ich weiß nicht, wie ich diese Fragen analytisch beantworten soll. Meine Vermutung ist, dass 500 furchtbar weit entfernt ist, als der untersuchte Bereich [5, 30] betrug, aber es gibt keinen wirklichen Grund zu der Annahme, dass meine Vermutungen lohnender sind als Ihre. Standardformeln zum Berechnen von Vorhersageintervallen zeigen Ihnen ein erweitertes Intervall, wenn Sie sich von entfernen kann hilfreich sein, zu sehen, wie dieses Intervall aussieht. Sie müssen jedoch berücksichtigen, dass Sie theoretisch davon ausgehen, dass die Linie wirklich perfekt gerade ist und bis zumx-Wert, den Sie für die Vorhersage verwenden, so bleibt. Die Legitimität dieser Vorhersage hängt sowohl von den Daten und der Anpassung als auch von dieser Annahme ab. x¯x

gung - Monica wieder einsetzen
quelle
2
Stimme voll und ganz zu (+1). Die Antwort auf diese Frage kann nicht streng statistisch sein. Ein Gespräch mit einem Software- und Computeringenieur wäre hier relevant!
Dominic Comtois
Danke für die Antwort, es ist wirklich hilfreich. Ich bin Autodidakt, daher fehlen mir ziemlich viele Grundkenntnisse (wie das Kennen des Wortschatzes).
Flanfl
Könnte die Umkehrung der Breite des Konfidenzintervalls nicht als eine Art Indikator für die "Stärke" der Vorhersage angesehen werden? Offensichtlich
müssten
2
@ naught101, wenn Sie bereit sind anzunehmen, dass die Regressionslinie perfekt gerade ist, kann die Breite des Vorhersageintervalls als Maß für die Stärke der Vorhersage angesehen werden (mit breiteren Intervallen, die schwächere Vorhersagen anzeigen), aber es ist immer noch so abhängig von dieser Annahme.
Gung - Reinstate Monica
7

Lassen Sie mich ein paar Punkte zu @ gungs hervorragender Antwort hinzufügen:

  • Abhängig von Ihrem Fachgebiet kann es relevante Normen geben (wie in DIN / EN oder ISO). Dies ist wahrscheinlich kein Problem bei der Vorhersage der Lesegeschwindigkeit von Festplatten, aber z. B. in der analytischen Chemie ist die Regel keine Extrapolation . Zeitraum. Wenn Sie bis zu 500 GB erreichen möchten, führen Sie einige Messungen bis zu 500 GB durch.

  • Die übliche Art, ein lineares Modell zu erstellen, hat zwei wichtige Annahmen

    • Offensichtlich ist die Funktion linear. In der Praxis ist es normalerweise keine sehr gute Annahme, dass sich die Linearität bis ins Unendliche erstreckt. Können Sie beispielsweise erwarten, dass Sie immer noch Linearität finden, wenn Sie größere Mengen als das Festplattenvolumen lesen?

    • x

  • Selbst wenn diese Annahmen erfüllt sind, sollten Sie berücksichtigen, wie groß das Vorhersageintervall für diese Art der Extrapolation tatsächlich ist:

    lm Kalibrierbereich Ich bin Extrapolation


    xt

cbeleites unzufrieden mit SX
quelle
1
+1, insbesondere die Annahme der Homoskedastizität ist eine schöne Ergänzung zur Diskussion hier. ( „Punkt“ Kleine Anmerkung, durch, meinen Sie Period. Als eine Möglichkeit , die Endgültigkeit der Regel im vorhergehenden Satz zu betonen?)
Gung - wieder einzusetzen Monica
@gung: Wenn Punkt das Wort ist, dann meine ich das :-) danke.
cbeleites unglücklich mit SX
2
Das Aufrufen eines Punktes "Punkt" wird nur in der Computerterminologie und insbesondere für URLs verwendet (z. B. "stats dot stackexchange dot com"). Es ist eine ziemlich neue Verwendung in Englisch, wahrscheinlich ungefähr 20 Jahre alt.
Gung - Reinstate Monica
1
Vielen Dank für Ihre zusätzlichen Punkte. Ich habe meine Arbeit vor einiger Zeit beendet, aber ich hoffe, dass beide Antworten auf diese Frage anderen Studenten helfen werden!
Flanfl