Interpolieren von gruppierten Daten, sodass der Bin-Durchschnitt erhalten bleibt

8

Angenommen, ich habe diese gruppierten Daten als Eingabe. Der Durchschnittswert wird für jedes aufeinanderfolgende Intervall angegeben. Nehmen wir zur Vereinfachung an, dass die Abtastdichte in jedem Bin einheitlich ist.y¯iΔxi

Jetzt möchte ich die zugrunde liegende Funktion ( ) schätzen, dh ich möchte in der Lage sein, vernünftige Schätzungen von für beliebige, pünktliche Werte von (z. B. = 2,3 oder 2,5 oder was auch immer). Die Anforderungen sind:yxyxx

  1. Die Funktion muss den Durchschnitt über jeden Bin beibehalten, , um keine Verzerrung einzuführeny(x)¯i=y¯i
  2. Die Funktion muss stetig sein (dh keine Diskontinuitäten)
  3. Die Funktion darf nicht negativ sein. (Negative Werte sind unphysisch.)

Das einfache Nachschlagen des Bin-Werts für ein gegebenes würde # 1 erfüllen, aber # 2 verletzen (es gibt Diskontinuitäten an allen Bin-Kanten).x

Auf der anderen Seite erfüllt das Zuweisen des gesamten Behältergewichts zu jedem Behälterzentrum und das anschließende Interpolieren zwischen diesen Punkten die Nummer 2, verletzt jedoch die Nummer 1 (unabhängig davon, ob es sich um eine lineare oder eine Spline-Interpolation höherer Ordnung handelt). In der folgenden Abbildung wird der 2 < <3-Bin-Durchschnitt nicht beibehalten. es wird reduziert, da beide Ecken nach unten geschnitten werden.x

Wie kann dies so erfolgen, dass beide Anforderungen erfüllt werden?

Wie heißt diese Operation? Ist das Interpolation? (Ich bin mir nicht sicher, wie ich diese Frage markieren soll.)

Geben Sie hier die Bildbeschreibung ein

Jean-François Corbett
quelle

Antworten:

2

In diesem Artikel wird eine iterative Methode beschrieben, die genau das tut, was Sie verlangen:

Mittlerer Erhaltungsalgorithmus zum reibungslosen Interpolieren von gemittelten Daten

MD Rymes, DR Myers, Mittelwerterhaltungsalgorithmus für die reibungslose Interpolation gemittelter Daten, Solar Energy, Band 71, Ausgabe 4, 2001, Seiten 225-231, ISSN 0038-092X, https://doi.org/10.1016/S0038-092X ( 01) 00052-4 . ( http://www.sciencedirect.com/science/article/pii/S0038092X01000524 )

Zusammenfassung: Stundenmittelwerte oder Monatsmittelwerte der gemessenen Sonnenstrahlung sind typische Vehikel für zusammengefasste Sonnenstrahlung und meteorologische Daten. Oft bevorzugen Designer, Forscher und Ingenieure von Solaranlagen für erneuerbare Energien die Arbeit mit zeitaufgelösten Daten wie detaillierten Tagesprofilen oder mittleren Tageswerten. Das Ziel dieser Arbeit ist es, eine einfache Methode zur reibungslosen Interpolation von gemittelten (grob aufgelösten) Daten in Daten mit einer feineren Auflösung vorzustellen, wobei das deterministische Mittel der Daten erhalten bleibt. Die Technik bewahrt die richtige Komponentenbeziehung zwischen direkter, diffuser und globaler Sonnenstrahlung (wenn Werte für mindestens zwei der Komponenten verfügbar sind) sowie das deterministische Mittel der grob aufgelösten Daten.

adr
quelle
Das klingt nach einer Lösung. Schade, dass es hinter einer Paywall steht.
Jean-François Corbett
1
Sie finden eine herunterladbare Kopie mit Ihrer bevorzugten Suchmaschine. Ich habe es gestern bekommen.
adr
Gibt es eine Implementierung des Algorithmus für R?
RogerioJB
0

Die beste Lösung, die ich bisher habe, besteht darin, eine lineare Interpolation zwischen Punkten an Bin-Zentren durchzuführen, wie in der Grafik in der Frage gezeigt, nachdem eine numerische Optimierung aller , bis die Bedingung Nr. 1 erfüllt ist (und mit) eine harte Strafe für die Verletzung von # 3). Leider ist die numerische Optimierung etwas schwieriger als ich gehofft hatte.yi

Anstatt eine numerische Optimierung durchzuführen, habe ich versucht, nur einen Satz linearer Gleichungen aufzustellen und zu lösen. Das ist wirklich einfach und schnell, aber es ist nicht robust gegen Anforderung Nr. 3: Einige der können negativ , was unsinnig ist. Leider ist # 3 eine nichtlineare Sache und kann, soweit ich das beurteilen kann, nicht in den Satz linearer Gleichungen aufgenommen werden.yi

Jean-François Corbett
quelle
-2

Binning wird aufgrund von Ineffizienz, Diskontinuität und Willkür dringend empfohlen. Sie haben jedoch implizit angenommen, dass sich die Behälter nicht überlappen sollten. Wenn sich die Bins überlappen und viel mehr davon vorhanden sind, werden einige der Probleme behoben, obwohl Regressionssplines besser sind.

Verwenden Sie keine Bin-Zentren, um die Verteilung von innerhalb des Bin darzustellen . Verwenden Sie das mittlere in jedem Bin.xx

Frank Harrell
quelle
3
Ich befürworte weder die Verwendung von Behältern noch deren Überlappung. Ich sage, das sind die Daten, mit denen ich arbeiten muss. Es ist meine Eingabe. Ich habe leider keine höherwertige Informationsquelle. Unter der angegebenen vereinfachenden Annahme, dass die Proben gleichmäßig in den Behältern verteilt sind, entspricht der Mittelwert x dem Behälterzentrum.
Jean-François Corbett