Angenommen, ich habe diese gruppierten Daten als Eingabe. Der Durchschnittswert wird für jedes aufeinanderfolgende Intervall angegeben. Nehmen wir zur Vereinfachung an, dass die Abtastdichte in jedem Bin einheitlich ist.
Jetzt möchte ich die zugrunde liegende Funktion ( ) schätzen, dh ich möchte in der Lage sein, vernünftige Schätzungen von für beliebige, pünktliche Werte von (z. B. = 2,3 oder 2,5 oder was auch immer). Die Anforderungen sind:
- Die Funktion muss den Durchschnitt über jeden Bin beibehalten, , um keine Verzerrung einzuführen
- Die Funktion muss stetig sein (dh keine Diskontinuitäten)
- Die Funktion darf nicht negativ sein. (Negative Werte sind unphysisch.)
Das einfache Nachschlagen des Bin-Werts für ein gegebenes würde # 1 erfüllen, aber # 2 verletzen (es gibt Diskontinuitäten an allen Bin-Kanten).
Auf der anderen Seite erfüllt das Zuweisen des gesamten Behältergewichts zu jedem Behälterzentrum und das anschließende Interpolieren zwischen diesen Punkten die Nummer 2, verletzt jedoch die Nummer 1 (unabhängig davon, ob es sich um eine lineare oder eine Spline-Interpolation höherer Ordnung handelt). In der folgenden Abbildung wird der 2 < <3-Bin-Durchschnitt nicht beibehalten. es wird reduziert, da beide Ecken nach unten geschnitten werden.
Wie kann dies so erfolgen, dass beide Anforderungen erfüllt werden?
Wie heißt diese Operation? Ist das Interpolation? (Ich bin mir nicht sicher, wie ich diese Frage markieren soll.)
quelle
Die beste Lösung, die ich bisher habe, besteht darin, eine lineare Interpolation zwischen Punkten an Bin-Zentren durchzuführen, wie in der Grafik in der Frage gezeigt, nachdem eine numerische Optimierung aller , bis die Bedingung Nr. 1 erfüllt ist (und mit) eine harte Strafe für die Verletzung von # 3). Leider ist die numerische Optimierung etwas schwieriger als ich gehofft hatte.yi
Anstatt eine numerische Optimierung durchzuführen, habe ich versucht, nur einen Satz linearer Gleichungen aufzustellen und zu lösen. Das ist wirklich einfach und schnell, aber es ist nicht robust gegen Anforderung Nr. 3: Einige der können negativ , was unsinnig ist. Leider ist # 3 eine nichtlineare Sache und kann, soweit ich das beurteilen kann, nicht in den Satz linearer Gleichungen aufgenommen werden.yi
quelle
Binning wird aufgrund von Ineffizienz, Diskontinuität und Willkür dringend empfohlen. Sie haben jedoch implizit angenommen, dass sich die Behälter nicht überlappen sollten. Wenn sich die Bins überlappen und viel mehr davon vorhanden sind, werden einige der Probleme behoben, obwohl Regressionssplines besser sind.
Verwenden Sie keine Bin-Zentren, um die Verteilung von innerhalb des Bin darzustellen . Verwenden Sie das mittlere in jedem Bin.x x
quelle