Modellierung von Zeitreihensensordaten mit maschinellen Lerntechniken?

7

Ich arbeite an Luftqualitätssensoren, von denen einige elektrochemische Gassensoren sind. Als Hintergrund werden diese Sensoren durch eine Potentiostatschaltung stimuliert, die eine Vorspannung anlegt und dann den Strom misst, der durch den Sensor fließt (typischerweise in der Größenordnung von Nano-Ampere). Die Strommenge, die durch den Sensor fließt, hängt von der Konzentration eines Zielgases ab, dem der Sensor ausgesetzt ist. Der Strom hängt auch mit dem Druck, der relativen Luftfeuchtigkeit, der Temperatur und der Exposition gegenüber kreuzempfindlichen Gasen zusammen, in denen sich der Fluch meiner Existenz befindet.

Wir haben traditionell einen Datenmodellierungsansatz verwendet, um den vom Sensor gemessenen Strom als Konzentration des Zielgases zu interpretieren, basierend auf den Empfehlungen des Sensorherstellers. Dazu messen wir die Reaktion auf saubere Luft und über einen Temperaturbereich und verwenden diese Charakterisierung dann, um die Ablenkung von der charakterisierten Grundlinienreaktion als auf die Zielgasexposition zurückzuführen zu interpretieren.

Wir haben nicht die Mittel, um die Qualität dieses Modells wirklich zu bewerten, da wir weder ein Referenzinstrument noch die Mittel haben, um den Sensor kontrollierten Gaskonzentrationen auszusetzen, aber wir sind in der Lage, die Sensoren der Reihe nach dem Zielgas auszusetzen um zu bestätigen, dass sie merklich auf das Zielgas reagieren.

Die Herausforderung, die ich erlebe, besteht darin, dass das Datenmodell, das durch die oben genannte Charakterisierung über längere Zeiträume (dh eine Woche) parametrisiert und sauberer Luft unter natürlich auftretenden Schwankungen von Temperatur, relativer Luftfeuchtigkeit und Druck ausgesetzt wird, eine Spanne von ergibt Variation der interpretierten Konzentration, die unangemessen groß ist. Es ist nicht laut, sondern treibt. Das lässt mich glauben, dass das Datenmodell schmerzlich fehlt.

Das hat mich zu der Annahme geführt, dass ein algorithmischer Ansatz (maschinelles Lernen) bessere Ergebnisse liefern könnte. Angesichts der Tatsache, dass ich einminütige Auflösungsdaten für Temperatur, relative Luftfeuchtigkeit, Druck und Sensorstrom (alle realwertig) unter sauberen Luftbedingungen habe, welche Werkzeuge eignen sich am besten zur Modellierung des Sensorstroms als Funktion von Temperatur, relativer Luftfeuchtigkeit, und Druck? Das, worüber ich am meisten besorgt bin, ist, dass wir praktisch keine Bedingungen schaffen können, die einen vernünftigen Querschnitt des Eingaberaums darstellen.

Ich würde dann das traditionelle Datenmodell verwenden, um die Ablenkung von der vorhergesagten Basislinie zu interpretieren und die Gaskonzentration abzuschätzen.

Eine Randnotiz ist, dass Temperatur und relative Luftfeuchtigkeit physikalisch korreliert sind, obwohl ich die absolute Luftfeuchtigkeit mathematisch aus Temperatur, relativer Luftfeuchtigkeit und Druck herausrechnen könnte, was meiner Meinung nach die Korrelation aufheben würde.

Update / Klarstellung

Falls dies aus dem oben Gesagten nicht klar hervorgeht, besteht das Ziel darin, die von einem Sensor in einer sauberen Luftumgebung unter verschiedenen Druck-, Feuchtigkeits- und Temperaturbedingungen erzeugte Grundlinienspannung abschätzen zu können - als Mittel, um die Ablenkung davon zu nutzen vorhergesagte Basislinie als das Signal von Interesse bei der Berechnung der Konzentration des Gases der Zielspezies. Im Grunde untersuche ich alternative Ansätze zur sogenannten Nullkalibrierung im Instrumentierungsbereich.

Wenn ich Wahrheitsdaten über die Zielspezies hätte, könnte ich das Geschäft über die Ablenkung von einer vorhergesagten Basislinie überspringen und die Konzentration direkt aus den Vektoren Spannung, Temperatur, Feuchtigkeit und Druckzeit abschätzen.

vicatcu
quelle
1
PS Ich bin neu hier, Upvotes wären willkommen :-)
Vicatcu
Vielleicht habe ich es verpasst, aber was ist das Modellierungsziel hier? Unterschiedliche Ziele können unterschiedliche Ansätze vorschlagen.
Richard Hardy
@RichardHardy Ich nehme an, es gibt zwei Modellierungsziele. Die erste besteht darin, die Grundspannung zu modellieren, wenn der Sensor über einen bestimmten Zeitraum sauberer Luft ausgesetzt ist, wenn Temperatur, Luftfeuchtigkeit und Druck gegeben sind. Die zweite besteht darin, die vorhergesagte Konzentration der Zielmarkierungsspezies bei gegebener Temperatur, Feuchtigkeit, Druck und Spannung zu modellieren. Ich habe keine klare Vorstellung davon, wie ich mich dem letztgenannten Ziel nähern könnte, da ich weder eine Quelle für Wahrheitsdaten noch die Mittel habe, um die Konzentration des Gases der Zielspezies zu kontrollieren / zu regulieren. Das vorherige Ziel scheint greifbar, da ich die Belichtung durch Filter verhindern kann.
Vicatcu
Ich denke, eine genaue Modellierung erfordert mit ziemlicher Sicherheit auch, dass die Eingabe in das Modell alle Eingabevariablen mit einer gewissen Verzögerung enthält.
Vicatcu
"Modellieren" ist an sich kein Ziel. Meine Frage betrifft, wofür das Modell verwendet wird: Beschreibung, Vorhersage, Hypothesentest, ...?
Richard Hardy

Antworten:

2

Edit- und TL; DR-Version: Dies könnte als Mediations- / Moderatoranalyseproblem behandelt werden, dies würde jedoch immer noch eine unabhängige Messung erfordern, um das Gerät zu kalibrieren.

Dies klingt nach einem Mediations- / Moderationsanalyseproblem, nicht nach maschinellem Lernen.

Sei M1 ein Modell der Spannung unter sauberen Luftbedingungen als Funktion von p, v und Feuchtigkeit. Die Abweichung von M1 an sich würde Ihnen keine Konzentrationsschätzung geben. Es würde Ihnen eine Wahrscheinlichkeit geben, dass das Gas vorhanden ist und den Sensor stört. Eine bestimmte Abweichung (Restwert) zeigt nicht für jeden p-, v- und Feuchtigkeitswert die gleiche Konzentration des Zielgases an, da die Art und Weise, wie das Gas die Spannung beeinflusst, mit den anderen Parametern variiert. In ähnlicher Weise bedeutet ein Wechsel von beispielsweise 2 mV auf 4 mV Abweichung nicht unbedingt, dass sich die Konzentration verdoppelt hat - die Skala ist möglicherweise nicht linear und die Skala selbst kann von Ihren anderen Variablen beeinflusst werden. Mit anderen Worten, es ist eine gute Idee, die Differenz zwischen dem gemessenen Wert und dem von M1 vorhergesagten Wert zu betrachten.

Eine andere Sichtweise, die der tatsächlichen Situation ähnlicher ist, besteht darin, die Konzentration als unabhängige Variable, die Sensorspannung als abhängige Variable und p, t und Brummen als Moderatorvariablen zu betrachten. Sie müssten unterschiedliche Gaskonzentrationen induzieren und Messungen bei verschiedenen t-, p- und Brummwerten durchführen, damit dies funktioniert.

Hier sind einige Ressourcen:

Dies ist übrigens ein lustiges, fast philosophisches Problem, das Sie sich während der Weihnachtsferien ansehen müssen. Wenn Sie also einen realen oder simulierten Datensatz haben, den Sie Ihrer Frage hinzufügen möchten, werde ich ihn mir ansehen.

Epilog

Ich habe diesen Beitrag und die Daten einem Messspezialisten und einem Ingenieur gezeigt, der auch Spezialist für Messtheorie ist, und beide sagten: "Holen Sie den Koffer mit der Kalibrierungsausrüstung". Daran führt kein Weg vorbei.

GuillaumeL
quelle
Können Sie einige Hinweise auf gute Ressourcen geben, in denen ich mehr über Meditationsanalysen und deren Anwendung erfahren kann?
Vicatcu
Ich habe meine Antwort bearbeitet, einige Punkte korrigiert (ich habe Mediation mit Moderation verwechselt) und ein paar Links hinzugefügt.
GuillaumeL
Ich könnte einen Datensatz hinzufügen ... gibt es einen typischen Weg, dies auf dieser Site zu tun?
Vicatcu
Laut dieser Frage scheint es keinen offiziellen Weg zu geben, einen umfangreichen Datensatz zu veröffentlichen: meta.stackexchange.com/questions/15821/…
GuillaumeL
1
Vielen Dank für die Daten. Ich habe meine Antwort aktualisiert (siehe Epilog).
GuillaumeL