Vergleich der Regressionskoeffizienten desselben Modells über verschiedene Datensätze hinweg

Ich bewerte zwei (2) Kältemittel (Gase), die im selben Kühlsystem verwendet wurden. Ich habe gesättigte Saugtemperatur ( ), Kondensationstemperatur ( ) und Stromstärke ( ) für die Auswertung. Es gibt zwei (2) Datensätze; 1. Kältemittel ( ) & 2. Kältemittel ( ). Ich verwende ein lineares, multivariates ( & ) Polynommodell 3. Ordnung für die Regressionsanalysen. Ich möchte bestimmen, wie viel weniger / mehr Stromstärke (oder eine ähnliche Metrik als Leistungsvergleich) im Durchschnitt als Prozentsatz vom zweiten Kältemittel verbraucht wird. $S$ $D$ $Y$ $R_1$ $R_2$ $S$ $D$

Mein erster Gedanke war:

Bestimmen Sie das zu verwendende Modell: $Y = b_0 + b_1S + b_2D + b_3SD + b_4S^2 + b_5D^2 + b_6S^2D + b_7D^2S + b_8D^3 + b_9S^3$
Leiten Sie die Koeffizienten ( ) aus den Basisdaten ( ) ab. $b_i$ $R_1$
Unter Verwendung dieser Koeffizienten für jedes & in der Datensatz berechnen jeden erwarteten amp Draw ( ) , und dann Durchschnitt. $S$ $D$ $R_2$ $\hat{Y}$
Vergleichen des Durchschnitt des tatsächlichen durchschnittlichen amp draw ( ) der Daten. $\hat{Y}$ $Y_2$ $R_2$
$\text{percent (%) change} = (Y_2 - \hat{Y}) / \hat{Y}$

Da das 2. Kältemittel jedoch leicht unterschiedliche thermische Eigenschaften aufweist und kleine Änderungen am Kühlsystem vorgenommen wurden (TXV- und Überhitzungseinstellungen), glaube ich nicht, dass diese „Basislinienvergleichsmethode“ korrekt ist.

Mein nächster Gedanke war, zwei (2) separate Regressionsanalysen durchzuführen:

\begin{aligned} Y_{1} & = a_{0} + a_{1} S_{1} + a_{2} D_{1} + a_{3} S_{1} D_{1} + a_{4} S_{1}^{2} + a_{5} D_{1}^{2} + a_{6} S_{1}^{2} D_{1} + a_{7} D_{1}^{2} S_{1} + a_{8} D_{1}^{3} + a_{9} S_{1}^{3} \\ Y_{2} & = b_{0} + b_{1} S_{2} + b_{2} D_{2} + b_{3} S_{2} D_{2} + b_{4} S_{2}^{2} + b_{5} D_{2}^{2} + b_{6} S_{2}^{2} D_{2} + b_{7} D_{2}^{2} S_{2} + b_{8} D_{2}^{3} + b_{9} S_{2}^{3} \end{aligned}

$\begin{align} Y_1 &= a_{0} + a_{1}S_1 + a_{2}D_1 + a_{3}S_1D_1 + a_{4}S_1^2 + a_{5}D_1^2 + a_{6}S_1^2D_1 + a_{7}D_1^2S_1 + a_{8}D_1^3 + a_{9}S_1^3 \\ Y_2 &= b_{0} + b_{1}S_2 + b_{2}D_2 + b_{3}S_2D_2 + b_{4}S_2^2 + b_{5}D_2^2 + b_{6}S_2^2D_2 + b_{7}D_2^2S_2 + b_{8}D_2^3 + b_{9}S_2^3 \end{align}$

und dann für die gesättigte Saugtemperatur ( ) die Koeffizienten ( gegen ) wie folgt vergleichen : $S$ $a_{1}$ $b_{1}$

% change = \frac{b_{1} - a_{1}}{a_{1}}

$\text{% change} = \frac{b_{1} - a_{1}}{a_{1}}$

Diese Koeffizienten sollten jedoch wiederum unterschiedlich gewichtet werden. Daher würden die Ergebnisse verzerrt sein.

Ich glaube, ich könnte einen Z-Test verwenden, um festzustellen, wie unterschiedlich gewichtet die Koeffizienten sind, aber ich bin nicht sicher, ob ich die Bedeutung der Ausgabe vollständig verstehe: $z = (a_{1} - b_{1}) / \sqrt{SE_{a_{1}}^2 + SE_{b_{1}}^2 )}$

regression regression-coefficients gth826a
quelle

1. Ein Polynommodell ist ein lineares Modell, da es im Koeffizienten linear ist. 2. Ich versuche Ihre Frage zu verstehen. Wenn das Kühlsystem zwischen dem Zeitpunkt der Verwendung von R1 und R2 geändert wurde, handelt es sich tatsächlich nicht um dasselbe „Kühlsystem“ (Zeile 1), oder? 3. Warum haben Sie in Ihrem zweiten Ansatz begonnen, die Koeffizienten von S zu vergleichen? 4. Haben Sie darüber nachgedacht, ein kovariates "Kältemittel" mit den Stufen R1 und R2 in die Polynomanpassung einzuführen (möglicherweise mit Wechselwirkung)? Sein Koeffizient könnte die Frage beantworten.

Qoheleth

@qoheleth 1. Ich bin mir nicht sicher, ob ich Ihrer Denkrichtung folge ... Der Koeffizient ist immer linear - es ist eine Zahl. Wann wäre der Koeffizient dann nicht linear? 2. Richtig, das Kühlsystem wurde geringfügig geändert, jedoch nur, um für beide Kältemittel die gleiche Ausgangstemperatur zu gewährleisten - "Äpfel zu Äpfeln". 3. 'S' ist die einzige interessierende Variable für diesen spezifischen Vergleich. 4. Ich habe über die Methode der kovariaten / interagierenden Variablen gelesen, verstehe aber die Bedeutung der Koeffizienten mit einer solchen Methode nicht. Können Sie die Interpretation der Ausgabe näher erläutern? Vielen Dank.

gth826a

1. Aus statistischer Sicht zählt die Linearität der von Ihnen geschätzten Dinge, sodass ein Polynommodell linear ist. Ein Beispiel für ein nichtlineares Modell wäre die Mitscherlich-Funktion y = alpha (1-exp (Beta-Lambda * X)), wobei Alpha / Beta / Lambda das sind, was wir schätzen. 3. Was versuchst du eigentlich zu testen? ist es der Koeffizient von S? oder Y? Wenn es S ist, warum ist Ihr erster Versuch ein Vergleich in \ hat {Y}?

Qoheleth

Y-hat wäre: das tatsächliche S & D aus dem 2. Datensatz, das mit den aus dem 1. Datensatz abgeleiteten Koeffizienten verwendet wird. Diese Methode wird häufig für Energieanalysen mit Leistungskontrakten verwendet, wenn der Energieverbrauch früherer Geräte mit dem Energieverbrauch nach einer Nachrüstung / Umgestaltung / Renovierung usw. verglichen wird. Die Gleichung wäre: Energieverbrauch = y-hat = Grundlast + Energie / Grad-Tag * Grad-Tage ... wobei Energie / Grad-Tag der Koeffizient ist, der aus der Basis-Regressionsanalyse abgeleitet wurde, und Grad-Tage aus der Nachrenovierung . Das "Was hätten Sie konsumiert", wenn Sie dieses Projektszenario nicht durchgeführt hätten ...

gth826a

Es scheint also, dass Sie letztendlich Y vergleichen möchten. Ich würde sagen, vergessen Sie die Berechnung der prozentualen Änderung der Koeffizienten, wenn die Terme höherer Ordnung (S ^ 2, S ^ 3 usw.) vorhanden sind, sind die Koeffizienten nicht das, was Sie denken Sie sind. Konzentrieren Sie sich auf Y. Die Frage, die mir unklar bleibt, lautet: Sagen Sie, dass S & D in R2 andere Bedeutungen hat als S & D in R1? Wenn nicht, können Sie einfach ein Modell mit einer zusätzlichen Kovariate (X-Variable) namens Kältemittel (r1 oder r2) an den kombinierten Datensatz anpassen und dessen Koeffizienten überprüfen, um die Schlussfolgerung zu ziehen, vorausgesetzt, Ihr Modell ist angemessen.

Qoheleth

Aus dem idealen Gasgesetz hier , $PV=nRT$ und schlägt ein proportionales Modell vor. Stellen Sie sicher, dass Ihre Geräte die absolute Temperatur haben. Das Anfordern eines proportionalen Ergebnisses würde ein proportionales Fehlermodell implizieren. Überlegen Sie vielleicht $Y=a D^b S^c$ , dann kann man für multiple lineare Regression verwenden $\ln (Y)=\ln (a)+b \ln (D)+c \ln (S)$ indem Sie die Logarithmen der Y-, D- und S-Werte nehmen, so dass dies dann aussieht $Y_l=a_l+b D_l+c S_l$ , where the $l$ subscripts mean "logarithm of." Now, this may work better than the linear model you are using, and, the answers are then relative error type.

To verify what type of model to use try one and check if the residuals are homoscedastic. If they are not then you have a biased model, then do something else like model the logarithms, as above, one or more reciprocals of x or y data, square roots, squaring, exponentiation and so forth until the residuals are homoscedastic. If the model cannot yield homoscedastic residuals then use multiple linear Theil regression, with censoring if needed.

How normally the data is distributed on the y axis is not required, but, outliers can and often do distort the regression parameter results markedly. If homoscedasticity cannot be found then ordinary least squares should not be used and some other type of regression needs to be performed, e.g. weighted regression, Theil regression, least squares in x, Deming regression and so forth. Also, the errors should not be serially correlated.

The meaning of the output: $z = (a_{1} - b_{1}) / \sqrt{SE_{a_{1}}^2 + SE_{b_{1}}^2 )}$ , may or may not be relevant. This assumes that the total variance is the sum of two independent variances. To put this another way, independence is orthogonality (perpendicularity) on an $x,y$ plot. That is, the total variability (variance) then follows Pythagorean theorem, $H=+\sqrt{A^2+O^2}$ , which may or may not be the case for your data. If that is the case, then the $z$ -statistic is a relative distance, i.e., a difference of means (a distance), divided by Pythagorean, A.K.A. vector, addition of standard error (SE), which are standard deviations (SDs) divided by $\sqrt{N}$ , where SEs are themselves distances. Dividing one distance by the other then normalizes them, i.e., the difference in means divided by the total (standard) error, which is then in a form so that one can apply ND(0,1) to find a probability.

Now, what happens if the measures are not independent, and how can one test for it? You may remember from geometry that triangles that are not right angled add their sides as $C^2=A^2+B^2-2 A B \cos (\theta ),\theta =\angle(A,B)$ , if not refresh your memory here. That is, when there is something other than a 90-degree angle between the axes, we have to include what that angle is in the calculation of total distance. First recall what correlation is, standardized covariance. This for total distance $\sigma _T$ and correlation $\rho_{A,B}$ becomes $\sigma _T^2=\sigma _A^2+\sigma _B^2-2 \sigma _A \sigma _B \rho_{A,B}$ . In other words, if your standard deviations are correlated (e.g., pairwise), they are not independent.

Carl
quelle

"To verify what type of model to use try one and check if the residuals are homoscedastic", yeah sure... except you do not to make this assumption at all, and even if it is valid - it does in no way ensure that you have a "good" model.

Repmat

If one uses OLS and the residuals are heteroscedastic, then for sure one has a biased model. Homoscedasticity is an OLS requirement, shown here. To have a good model requires other conditions, like avoiding omitted variable bias, but having serial uncorrelated errors, and linearity of the model versus dependent variable.

Carl

You can have an unbiased and/or consistent model (estimates) where the residuals are heteroskedlastic. That would only imply that the usual inference procedures does not work

Repmat

Heteroscedasticity flattens the slope, even if an outlier corrected this, the penalty would be large confidence intervals and a lousy model. Would not use such a model, but, yes, one can make lousy models. The medical literature is full of them.

Carl

The first part of your comment is just plain wrong. I am not even sure what it means.

Repmat

Vergleich der Regressionskoeffizienten desselben Modells über verschiedene Datensätze hinweg

Antworten: