Ich muss ein kompliziertes Regressionsproblem über die Einheitsplatte lösen. Die ursprüngliche Frage zog einige interessante Kommentare an, aber leider keine Antworten. In der Zwischenzeit habe ich etwas mehr über dieses Problem gelernt, daher werde ich versuchen, das ursprüngliche Problem in Teilprobleme aufzuteilen und zu sehen, ob ich diesmal besseres Glück habe.
Ich habe 40 Temperatursensoren, die regelmäßig in einem schmalen Ring innerhalb der Gerätescheibe angeordnet sind:
Diese Sensoren erfassen die Temperatur rechtzeitig. Da die zeitliche Variation jedoch viel kleiner als die räumliche Variation ist, vereinfachen wir das Problem, indem wir die zeitliche Variabilität ignorieren und davon ausgehen, dass jeder Sensor nur einen zeitlichen Durchschnitt angibt. Dies bedeutet, dass ich 40 Proben habe (eine für jeden Sensor) und keine wiederholten Proben habe.
Ich möchte aus den Sensordaten eine Regressionsfläche erstellen. Die Regression hat zwei Ziele:
- Ich muss ein mittleres radiales Temperaturprofil schätzen . Bei der linearen Regression schätze ich bereits eine Oberfläche, die die mittlere Temperaturoberfläche ist. Daher muss ich meine Oberfläche nur in Bezug auf , oder? Wenn ich Polynome für die Regression verwende, sollte dieser Schritt ein Kinderspiel sein.
- Ich muss ein radiales Temperaturprofil schätzen , so dass an jeder radialen Position .
Welche Technik sollte ich angesichts dieser beiden Ziele für die Regression auf der Einheitsplatte verwenden? Natürlich werden Gaußsche Prozesse häufig für die räumliche Regression verwendet. Die Definition eines guten Kernels für die Einheitsfestplatte ist jedoch nicht trivial. Daher möchte ich die Dinge einfach halten und Polynome verwenden, es sei denn, Sie glauben, dass dies eine verlierende Strategie ist. Ich habe über Zernike-Polynome gelesen . Die Zernike-Polynome scheinen für die Regression über die Einheitsscheibe geeignet zu sein, da sie in periodisch sind .
Sobald das Modell ausgewählt ist, muss ich ein Schätzverfahren auswählen. Da dies ein räumliches Regressionsproblem ist, sollten Fehler an verschiedenen Orten korreliert werden. Gewöhnliche kleinste Quadrate setzen unkorrelierte Fehler voraus, daher denke ich, dass verallgemeinerte kleinste Quadrate besser geeignet wären. GLS scheint eine relativ verbreitete statistische Technik zu sein, da gls
die Standard-R-Verteilung eine Funktion enthält. Ich habe jedoch noch nie GLS verwendet und habe Zweifel. Wie schätze ich beispielsweise die Kovarianzmatrix? Ein ausgearbeitetes Beispiel, auch mit nur wenigen Sensoren, wäre großartig.
PS Ich habe mich für Zernike-Polynome und GLS entschieden, weil es mir logisch erscheint, dies hier zu tun. Ich bin jedoch kein Experte, und wenn Sie das Gefühl haben, dass ich in die falsche Richtung gehe, können Sie einen völlig anderen Ansatz wählen.
quelle
Antworten:
Ich denke, Sie sind auf dem richtigen Weg, wenn Sie über so etwas wie Zernike-Polynome nachdenken . Wie in der Antwort von jwimberly erwähnt, sind dies ein Beispiel für ein System orthogonaler Basisfunktionen auf einer Platte. Ich bin mit Zernike-Polynomen nicht vertraut, aber viele andere Familien orthogonaler Funktionen (einschließlich Bessel-Funktionen) entstehen in der klassischen mathematischen Physik natürlich als Eigenfunktionen für bestimmte partielle Differentialgleichungen (zum Zeitpunkt dieses Schreibens sogar die Animation oben auf diesem Link zeigt ein Beispiel eines vibrierenden Trommelkopfes).
In Bezug auf diese zweite Frage könnte die Datenvariabilität tatsächlich bei Aliasing-Problemen helfen, sodass im Wesentlichen eine Fehlausrichtung über die verschiedenen Messungen gemittelt werden kann. (Vorausgesetzt, keine systematische Verzerrung ... aber das wäre ein Problem für jede Methode, ohne z. B. ein physikalisches Modell, um mehr Informationen zu geben).
Eine Möglichkeit wäre also, Ihre räumlichen orthogonalen Funktionen nur an den Sensorpositionen zu definieren. Diese "empirischen orthogonalen Funktionen" können über PCA in Ihrer raumzeitlichen Datenmatrix berechnet werden. (Möglicherweise können Sie eine Gewichtung verwenden, um die variablen Sensorstützbereiche zu berücksichtigen. Angesichts des einheitlichen Polarrasters und des Ziels der radialen Mittelwerte ist dies jedoch möglicherweise nicht erforderlich.)
Beachten Sie, dass , wenn es ist keine physikalische Modellierungsdaten für „erwartete“ Schwankungen in der Temperatur, auf einem dichten Raum - Zeit - Rechengitter, dann das gleiche PCA Verfahren angewendet werden könnte , dass Daten abzuleiten orthogonalen Funktionen. (Dies wird in der Technik normalerweise als " richtige orthogonale Zerlegung " bezeichnet, wo es zur Modellreduktion verwendet wird, z. B. kann ein teures Modell für die rechnergestützte Fluiddynamik zur Verwendung in weiteren Entwurfsaktivitäten destilliert werden.)
Ein letzter Kommentar: Wenn Sie die Sensordaten nach Unterstützungsbereich (dh Größe der polaren Zellen) gewichten würden, wäre dies eine Art diagonale Kovarianz im Rahmen von GLS . (Das würde mehr auf Ihr Vorhersageproblem zutreffen, obwohl gewichtete PCA eng miteinander verbunden wären.)
Ich hoffe das hilft!
Update: Ihr neues Diagramm der Sensorverteilung verändert aus meiner Sicht die Dinge erheblich. Wenn Sie die Temperaturen über das Innere der Festplatte schätzen möchten, benötigen Sie einen viel informativeren Vorgänger als nur "Satz orthogonaler Funktionen auf der Einheitsscheibe". Die Sensordaten enthalten einfach zu wenig Informationen.
Wenn Sie tatsächlich die räumliche Temperaturschwankung über der Festplatte abschätzen möchten, besteht der einzig vernünftige Weg, das Problem als eine der Datenassimilation zu behandeln . Hier müssten Sie zumindest die parametrische Form der räumlichen Verteilung basierend auf einigen physikbasierten Überlegungen einschränken (diese könnten aus Simulationen oder aus verwandten Daten in Systemen mit ähnlicher Dynamik stammen).
Ich weiß nicht , Ihre Anwendung, aber wenn es so etwas wie ist dies , dann würde ich mich vorstellen , gibt es eine umfangreiche technische Literatur , dass Sie auf ziehen könnten angemessen vor Einschränkungen zu wählen. (Für diese Art von detailliertem Domain-Wissen ist dies wahrscheinlich nicht die beste StackExchange-Site, auf der Sie nachfragen können.)
quelle
quelle