Ich versuche, ein Modell unter Verwendung von Winddaten (0, 359) und Tageszeit (0, 23) anzupassen, befürchte jedoch, dass sie schlecht in eine lineare Regression passen, da sie selbst keine linearen Parameter sind. Ich möchte sie mit Python transformieren. Ich habe einige Erwähnungen gesehen, wie man einen Vektormittelwert berechnet, indem man die Sünde und den Lattich der Grade nimmt, zumindest im Windfall, aber nicht viel.
Gibt es eine Python-Bibliothek oder eine relevante Methode, die hilfreich sein könnte?
regression
python
circular-statistics
compguy24
quelle
quelle
Antworten:
Die Windrichtung (hier in Grad gemessen, vermutlich als Kompassrichtung im Uhrzeigersinn von Norden) ist eine kreisförmige Variable. Der Test ist, dass der konventionelle Anfang der Skala derselbe ist wie das Ende, dh . Wenn es als Prädiktor behandelt wird, ist es wahrscheinlich am besten auf Sinus und Cosinus abgebildet. Unabhängig von Ihrer Software ist es wahrscheinlich, dass Winkel im Bogenmaß gemessen werden, sodass die Konvertierung in etwa gleichwertig ist0∘= 360∘
oder
je nachdem wie genau die zeit erfasst wurde oder interpretiert werden soll.
Manchmal ist die Natur oder die Gesellschaft zuvorkommend und die Abhängigkeit von der kreisförmigen Variablen nimmt die Form einer Richtung an, die für die Reaktion optimal ist, und die entgegengesetzte Richtung (der halbe Kreis ist entfernt) ist pessimal. In diesem Fall kann ein einzelner Sinus- und Cosinus-Ausdruck ausreichen. Für kompliziertere Muster benötigen Sie möglicherweise andere Begriffe. Für viel mehr ins Detail ein Tutorial auf dieser Technik von Kreis-, Fourier, periodisch, trigonometrischer Regression fand sich hier , mit wiederum weiteren Referenzen. Die gute Nachricht ist, dass einmal erstellte Sinus- und Cosinus-Terme nur zusätzliche Prädiktoren für Ihre Regression sind.
Es gibt eine große Literatur zur Zirkelstatistik, die selbst als Teil der Richtungsstatistik angesehen wird. Seltsamerweise wird diese Technik häufig nicht erwähnt, da der Schwerpunkt in dieser Literatur üblicherweise auf zirkulären Antwortvariablen liegt. Das Zusammenfassen von zirkulären Variablen mit ihren Vektormitteln ist eine beschreibende Standardmethode, für die Regression jedoch nicht erforderlich oder direkt hilfreich.
Einige Details zur Terminologie Windrichtung und Tageszeit sind statistisch gesehen Variablen, keine Parameter, unabhängig von der Verwendung in Ihrem Fachgebiet.
Zufälliger Kommentar Für eine Antwortvariable wie die Partikelkonzentration würde ich erwarten, ein verallgemeinertes lineares Modell mit logarithmischer Verknüpfung zu verwenden, um positive Vorhersagen zu gewährleisten.
quelle