Hier ist ein Zusammenhang. Ich möchte herausfinden, wie sich zwei Umgebungsvariablen (Temperatur, Nährstoffgehalt) über einen Zeitraum von 11 Jahren auf den Mittelwert einer Antwortvariablen auswirken. Innerhalb eines Jahres gibt es Daten von über 100.000 Standorten.
Ziel ist es zu bestimmen, ob der Mittelwert der Antwortvariablen über den Zeitraum von 11 Jahren auf Änderungen der Umgebungsvariablen reagiert hat (z. B. wärmere Temperatur + mehr Nährstoffe würden eine größere Antwort bedeuten).
Da es sich bei der Antwort leider um den Mittelwert handelt (ohne den Mittelwert zu betrachten, wird das Signal nur durch regelmäßige Schwankungen zwischen den Jahren übersteuert), beträgt die Regression 11 Datenpunkte (1 Mittelwert pro Jahr) mit 2 erklärenden Variablen. Für mich ist selbst eine lineare positive Regression schwerlich als sinnvoll zu betrachten, da der Datensatz so klein ist (erfüllt nicht einmal die nominalen 40 Punkte / Variable, es sei denn, die Beziehung ist super stark).
Habe ich Recht, diese Annahme zu machen? Kann jemand andere Gedanken / Perspektiven anbieten, die mir fehlen könnten?
PS: Einige Vorbehalte: Es gibt keine Möglichkeit, mehr Daten zu erhalten, ohne weitere Jahre zu warten. Die verfügbaren Daten sind also das, womit wir wirklich arbeiten müssen.
quelle
Antworten:
Die geringe Anzahl von Datenpunkten begrenzt, welche Arten von Modellen auf Ihre Daten passen. Dies bedeutet jedoch nicht unbedingt, dass es keinen Sinn macht, mit der Modellierung zu beginnen. Mit wenigen Daten können Sie Assoziationen nur erkennen, wenn die Effekte stark und die Streuung schwach sind.
Es ist eine andere Frage, welches Modell zu Ihren Daten passt. Sie haben das Wort "Regression" im Titel verwendet. Das Modell sollte bis zu einem gewissen Grad das widerspiegeln, was Sie über das Phänomen wissen. Dies scheint eine ökologische Umgebung zu sein, so dass auch das vergangene Jahr Einfluss haben kann.
quelle
Ich habe ökologische Datensätze mit weniger als 11 Punkten gesehen. Wenn Sie also sehr vorsichtig sind, können Sie mit Ihren begrenzten Daten begrenzte Schlussfolgerungen ziehen.
Sie können auch eine Leistungsanalyse durchführen, um zu bestimmen, wie gering der Effekt ist, den Sie anhand der Parameter Ihres experimentellen Designs feststellen können.
Möglicherweise müssen Sie die zusätzliche Variation pro Jahr auch nicht ausschließen, wenn Sie eine sorgfältige Analyse durchführen
quelle
Die grundlegende Modellierung der Daten (insbesondere für Zeitreihen) setzt voraus, dass Sie Daten mit einer ausreichenden Häufigkeit gesammelt haben, um die interessierenden Phänomene zu erfassen. Das einfachste Beispiel ist für eine Sinuswelle: Wenn Sie Daten mit einer Frequenz von n * pi erfassen, wobei n eine Ganzzahl ist, werden Sie nur Nullen sehen und das Sinusmuster insgesamt verfehlen. Es gibt Artikel zur Stichprobentheorie, in denen diskutiert wird, wie oft Daten erhoben werden sollen.
quelle
Ich bin mir nicht sicher, ob ich dieses Bit verstehe: "Leider ist die Antwort der Mittelwert (ohne den Mittelwert zu betrachten, wird nur eine regelmäßige Veränderung zwischen den Jahren das Signal überfluten)."
Bei sorgfältiger Modellierung scheint es mir, dass Sie durch die Modellierung als Paneldaten viel gewinnen könnten. Abhängig vom räumlichen Umfang Ihrer Daten können sich die Temperaturen, denen Ihre Datenpunkte innerhalb eines bestimmten Jahres ausgesetzt waren, erheblich unterscheiden. Die Mittelung all dieser Variationen scheint kostspielig.
quelle
Ich würde sagen, dass die Gültigkeit des Tests weniger mit der Anzahl der Datenpunkte als vielmehr mit der Gültigkeit der Annahme zu tun hat, dass Sie das richtige Modell haben.
Beispielsweise kann die Regressionsanalyse, die zur Erstellung einer Standardkurve verwendet wird, auf nur drei Standards (niedrig, mittel und hoch) basieren, das Ergebnis ist jedoch von hoher Gültigkeit, da es starke Hinweise dafür gibt, dass die Reaktion zwischen den Punkten linear ist.
Andererseits wird sogar eine Regression mit 1000 Datenpunkten fehlerhaft, wenn das falsche Modell auf die Daten angewendet wird.
Im ersten Fall ist jede Abweichung zwischen den Modellvorhersagen und den tatsächlichen Daten auf einen zufälligen Fehler zurückzuführen. Im zweiten Fall ist ein Teil der Abweichungen zwischen den Modellvorhersagen und den tatsächlichen Daten darauf zurückzuführen, dass die Auswahl des falschen Modells verzerrt ist.
quelle
Die erforderliche Anzahl von Beobachtungen zur Identifizierung eines Modells hängt vom Verhältnis von Signal zu Rauschen in den Daten und der Form des Modells ab. Wenn ich die Zahlen 1, 2, 3, 4, 5 erhalte, werde ich 6, 7, 8 vorhersagen. numerische Intelligenz ", die wir Kindern geben. Wenn das Signal stark ist, brauchen wir weniger Beobachtungen und umgekehrt. Wenn die beobachtete Häufigkeit auf eine mögliche "saisonale Struktur" hindeutet, müssen Wiederholungen dieses Phänomens, z. B. mindestens 3 Jahreszeiten (vorzugsweise mehr) als Faustregel, extrahiert werden (identifizieren Sie dies anhand der grundlegenden deskriptiven Statistik (acf / pacf).
quelle
Vielleicht können Sie versuchen, Ihre Zeitreihen als lineares Gleichungssystem zu behandeln und durch Gauß-Eliminierung zu lösen. In diesem Fall beschränken Sie sich natürlich auf die verfügbaren Daten, aber dies ist der einzige Preis, den Sie zahlen müssen.
quelle