Ich habe aus meinen experimentellen Messungen ein einfaches lineares Regressionsmodell berechnet, um Vorhersagen zu treffen. Ich habe gelesen, dass Sie keine Vorhersagen für Punkte berechnen sollten, die zu weit von den verfügbaren Daten abweichen. Ich konnte jedoch keine Anleitung finden, die mir hilft, zu wissen, wie weit ich extrapolieren kann. Wenn ich zum Beispiel die Lesegeschwindigkeit für eine Festplattengröße von 50 GB berechne, wird das Ergebnis wahrscheinlich der Realität nahe kommen. Was ist mit einer Festplattengröße von 100 GB, 500 GB? Woher weiß ich, ob meine Vorhersagen der Realität nahe kommen?
Die Details meines Experiments sind:
Ich messe die Lesegeschwindigkeit einer Software anhand einer anderen Festplattengröße. Bisher habe ich es mit 5 GB bis 30 GB gemessen, indem ich die Festplattengröße zwischen den Experimenten um 5 GB erhöht habe (insgesamt 6 Messungen).
Meine Ergebnisse sind linear und die Standardfehler sind meiner Meinung nach gering.
quelle
Antworten:
Der Begriff, nach dem Sie suchen, ist "Extrapolation". Das Problem ist, dass unabhängig davon, wie viele Daten Sie haben und wie viele Zwischenebenen Sie zwischen Ihren Endpunkten auf der Festplattengröße haben (dh zwischen 5 und 30), es immer möglich ist, dass die tatsächlich zugrunde liegende Funktion einen gewissen Grad an Krümmung aufweist , dass Sie einfach nicht die Kraft haben, zu erkennen. Wenn Sie weit vom Endpunkt entfernt extrapolieren, wird daher ein geringer Krümmungsgrad vergrößert, da sich die wahre Funktion immer weiter von Ihrer Anpassungslinie entfernt. Eine andere Möglichkeit besteht darin, dass die wahre Funktion innerhalb des untersuchten Bereichs tatsächlich vollkommen gerade ist, dass sich jedoch möglicherweise ein Änderungspunkt in einiger Entfernung vom Endpunkt in Ihrer Studie befindet. Solche Dinge sind unmöglich auszuschließen; die Frage ist, Wie wahrscheinlich sind sie und wie ungenau wäre Ihre Vorhersage, wenn sie sich als real herausstellen würden? Ich weiß nicht, wie ich diese Fragen analytisch beantworten soll. Meine Vermutung ist, dass 500 furchtbar weit entfernt ist, als der untersuchte Bereich [5, 30] betrug, aber es gibt keinen wirklichen Grund zu der Annahme, dass meine Vermutungen lohnender sind als Ihre. Standardformeln zum Berechnen von Vorhersageintervallen zeigen Ihnen ein erweitertes Intervall, wenn Sie sich von entfernen kann hilfreich sein, zu sehen, wie dieses Intervall aussieht. Sie müssen jedoch berücksichtigen, dass Sie theoretisch davon ausgehen, dass die Linie wirklich perfekt gerade ist und bis zumx-Wert, den Sie für die Vorhersage verwenden, so bleibt. Die Legitimität dieser Vorhersage hängt sowohl von den Daten und der Anpassung als auch von dieser Annahme ab.x¯ x
quelle
Lassen Sie mich ein paar Punkte zu @ gungs hervorragender Antwort hinzufügen:
Abhängig von Ihrem Fachgebiet kann es relevante Normen geben (wie in DIN / EN oder ISO). Dies ist wahrscheinlich kein Problem bei der Vorhersage der Lesegeschwindigkeit von Festplatten, aber z. B. in der analytischen Chemie ist die Regel keine Extrapolation . Zeitraum. Wenn Sie bis zu 500 GB erreichen möchten, führen Sie einige Messungen bis zu 500 GB durch.
Die übliche Art, ein lineares Modell zu erstellen, hat zwei wichtige Annahmen
Offensichtlich ist die Funktion linear. In der Praxis ist es normalerweise keine sehr gute Annahme, dass sich die Linearität bis ins Unendliche erstreckt. Können Sie beispielsweise erwarten, dass Sie immer noch Linearität finden, wenn Sie größere Mengen als das Festplattenvolumen lesen?
Selbst wenn diese Annahmen erfüllt sind, sollten Sie berücksichtigen, wie groß das Vorhersageintervall für diese Art der Extrapolation tatsächlich ist:
quelle