Wie kann der kWh-Verbrauch pro Jahr gegen die Durchschnittstemperatur dargestellt werden?

9

Nur zum Spaß möchte ich meinen monatlichen Stromverbrauch im Haushalt Jahr für Jahr aufzeichnen. Ich möchte jedoch einen Verweis auf die monatliche Temperatur aufnehmen, damit ich feststellen kann, ob sich mein Zuhause oder mein Verhalten in Bezug auf den kWh-Verbrauch verbessert, verschlechtert oder stabil bleibt.

Die Daten, mit denen ich arbeite:

+----------+--------+-----------+----------------+----------+-----------+------------+
|  Month   | # Days | kWh Usage | Daily kWh Avg. | Avg. Low | Avg. High | Avg. Temp. |
+----------+--------+-----------+----------------+----------+-----------+------------+
| Mar 2015 |     32 |      1048 |             33 |       40 |        60 |         50 |
| Feb 2015 |     29 |      1156 |             40 |       32 |        54 |         43 |
| Jan 2015 |     33 |      1143 |             35 |       38 |        57 |         47 |
| Dec 2014 |     30 |       887 |             30 |       39 |        61 |         50 |
| Nov 2014 |     29 |       645 |             22 |       45 |        67 |         56 |
| Oct 2014 |     29 |       598 |             21 |       60 |        78 |         69 |
| Sep 2014 |     32 |       893 |             28 |       70 |        85 |         77 |
| Aug 2014 |     30 |       965 |             32 |       72 |        87 |         79 |
| Jul 2014 |     29 |       784 |             27 |       72 |        87 |         79 |
| Jun 2014 |     32 |      1018 |             32 |       69 |        87 |         78 |
| May 2014 |     30 |       702 |             23 |       63 |        82 |         72 |
| Apr 2014 |     33 |       722 |             22 |       50 |        71 |         60 |
| Mar 2014 |     29 |       830 |             29 |       41 |        62 |         52 |
| Feb 2014 |     28 |      1197 |             43 |       32 |        52 |         42 |
| Jan 2014 |     33 |      1100 |             33 |       38 |        59 |         49 |
| Dec 2013 |     30 |       856 |             29 |       40 |        63 |         51 |
| Nov 2013 |     33 |       686 |             21 |       48 |        70 |         59 |
| Oct 2013 |     30 |       527 |             18 |       61 |        77 |         69 |
| Sep 2013 |     30 |       817 |             27 |       69 |        86 |         77 |
| Aug 2013 |     28 |       991 |             35 |       72 |        86 |         79 |
| Jul 2013 |     31 |       993 |             32 |       73 |        86 |         79 |
| Jun 2013 |     30 |       847 |             28 |       66 |        83 |         74 |
| May 2013 |     29 |       605 |             21 |       59 |        76 |         67 |
| Apr 2013 |     34 |       791 |             23 |       47 |        66 |         57 |
+----------+--------+-----------+----------------+----------+-----------+------------+

Ich begann mit einem Säulendiagramm, in dem die monatlichen Werte leicht verglichen werden konnten:

Säulendiagramm für die monatliche Verwendung

Ich stellte mir einen schönen Hintergrundbereich oder ein Liniendiagramm vor, das auf eine sekundäre (rechte) vertikale Achse abgebildet ist und die hohen / niedrigen Bereiche zeigt, erkannte jedoch, dass dies bei den mehrjährigen Gruppierungen problematisch wäre.

Mit einem einzigen Jahr wäre es einfach:

2014 kWh Verbrauch mit Temperaturen

Ich bin gespannt, ob jemand eine Möglichkeit empfehlen kann, alle jährlichen Daten in einem einzigen Diagramm mit Temperaturvergleichen zu kombinieren.

Gibt es ein Verhältnis, das ich verwenden könnte, um den kWh-Verbrauch effektiv mit der Durchschnittstemperatur in Beziehung zu setzen ... oder eine andere Anzeigetechnik, die ich übersehen habe ... oder bin ich bei einem Diagramm pro Jahr festgefahren?

Shawn
quelle

Antworten:

18

Ich möchte vorschlagen, dass es wichtig ist, ein physikalisch realistisches, praktisch nützliches Modell der Energiekosten zu entwickeln. Dadurch lassen sich Kostenänderungen besser erkennen, als dies mit einer Visualisierung der Rohdaten möglich ist. Wenn wir dies mit der auf SO angebotenen Lösung vergleichen , haben wir eine sehr schöne Fallstudie zum Unterschied zwischen der Anpassung einer Kurve an Daten und der Durchführung einer aussagekräftigen statistischen Analyse.

(Dieser Vorschlag basiert darauf, dass ein solches Modell vor einem Jahrzehnt an meinen eigenen Haushaltsgebrauch angepasst und zur Verfolgung von Änderungen in diesem Zeitraum angewendet wurde. Beachten Sie, dass das Modell nach seiner Anpassung zum Zwecke der Nachverfolgung leicht in einer Tabelle berechnet werden kann Änderungen, daher sollten wir uns nicht durch die (In-) Funktionen der Tabellenkalkulationssoftware eingeschränkt fühlen.)

Für diese Daten liefert ein solches physikalisch plausibles Modell ein wesentlich anderes Bild der Energiekosten und Nutzungsmuster als ein einfaches alternatives Modell (eine quadratische Anpassung der kleinsten Quadrate des täglichen Gebrauchs an die monatliche Durchschnittstemperatur). Folglich kann das einfachere Modell nicht als zuverlässiges Werkzeug zum Verstehen, Vorhersagen oder Vergleichen von Energieverbrauchsmustern angesehen werden.


Analyse

Das Newtonsche Gesetz der Kühlung besagt, dass die Heizkosten (während einer Zeiteinheit) in guter Näherung direkt proportional zur Differenz zwischen der Außentemperatur und der Innentemperatur . Diese Proportionalitätskonstante sei . Die Kosten für die Kühlung sollten ebenfalls proportional zu dieser Temperaturdifferenz sein, mit einer ähnlichen - aber nicht unbedingt identischen - Proportionalitätskonstante . (Jedes davon wird durch die Isolierfähigkeit des Hauses sowie die Effizienz der Heiz- und Kühlsysteme bestimmt.)t 0 - α βtt0αβ

Die Schätzung von und (ausgedrückt als Kilowatt (oder Dollar) pro Grad pro Zeiteinheit) gehört zu den wichtigsten Dingen, die erreicht werden können,βαβ da sie es uns ermöglichen , zukünftige Kosten vorherzusagen und die Effizienz der zu messen Haus und seine Energiesysteme.

Da es sich bei diesen Daten um den gesamten Stromverbrauch handelt, umfassen sie nicht heizbare Kosten wie Beleuchtung, Kochen, Computer und Unterhaltung. Interessant ist auch eine Schätzung dieses durchschnittlichen Basisenergieverbrauchs (pro Zeiteinheit), die ich als : Sie gibt Aufschluss darüber, wie viel Energie eingespart werden kann, und ermöglicht Vorhersagen über zukünftige Kosten, wenn Effizienzverbesserungen bekannter Größenordnung vorgenommen werden . (Zum Beispiel habe ich nach vier Jahren einen Ofen durch einen ersetzt, der 30% effizienter sein soll - und genau das war es auch.)γ

Schließlich gehe ich als (Brutto-) Annäherung davon aus, dass das Haus das ganze Jahr über auf einer nahezu konstanten Temperatur wird. (In meinem persönlichen Modell ich von zwei Temperaturen aus, , für Winter und Sommer - aber in diesem Beispiel sind noch nicht genügend Daten vorhanden, um beide zuverlässig abzuschätzen, und sie wären sowieso ziemlich nahe beieinander.) Der Wert hilft dabei, die Konsequenzen einer leicht unterschiedlichen Temperatur des Hauses zu bewerten. Dies ist eine wichtige Energiesparoption.t 0t 1t0t0t1

Die Daten stellen eine außerordentlich wichtige und interessante Komplikation : Sie reflektieren Gesamtkosten während der Zeiten , in denen Außentemperaturen schwanken - und sie schwanken viel, in der Regel etwa ein Viertel ihres Jahresbereich pro Monat. Wie wir sehen werden, erzeugt dies einen wesentlichen Unterschied zwischen dem gerade beschriebenen korrekten zugrunde liegenden Momentanmodell und den Werten der monatlichen Summen. Der Effekt ist besonders ausgeprägt in den Zwischenmonaten, in denen sowohl (als auch keine) Erwärmung und Abkühlung stattfinden. Jedes Modell, das diese Variation nicht berücksichtigt, würde fälschlicherweise "denken", dass die Energiekosten während eines Monats mit einer Durchschnittstemperatur von bei der Basisrate liegen sollten , aber die Realität sieht anders aus.t 0γt0

Wir haben (ohne weiteres) keine detaillierten Informationen über die monatlichen Temperaturschwankungen, abgesehen von ihren Bereichen. Ich schlage vor, dies mit einem Ansatz zu behandeln, der praktisch, aber ein wenig inkonsistent ist. Mit Ausnahme der extremen Temperaturen tritt in jedem Monat normalerweise ein allmählicher Temperaturanstieg oder -abfall auf. Dies bedeutet, dass wir die Verteilung als ungefähr gleichmäßig betrachten können. Wenn der Bereich einer einheitlichen Variablen die Länge , hat diese Variable eine Standardabweichung von . Ich benutze diese Beziehung, um die Bereiche (von bis ) in Standardabweichungen umzuwandeln . Aber im Wesentlichen, um ein gut benommenes Modell zu erhalten, werde ich die Variation an den Enden dieser Bereiche mit Normal herabgewichtens = L / Ls=L/6Avg. LowAvg. HighVerteilungen (mit diesen geschätzten SDs und Mitteln von Avg. Temp).

Schließlich müssen wir die Daten auf eine gemeinsame Zeiteinheit standardisieren. Obwohl dies in der Daily kWh Avg.Variablen bereits vorhanden ist, fehlt es an Genauigkeit. Teilen wir stattdessen die Summe durch die Anzahl der Tage, um die verlorene Genauigkeit zurückzugewinnen.

So kostet das Modell des Zeiteinheitskühl bei einer Außentemperatur von ist ,tYt

y(t)=γ+α(tt0)I(t<t0)+β(tt0)I(t>t0)+ε(t)

Dabei ist die Indikatorfunktion und repräsentiert alles, was in diesem Modell nicht explizit erfasst wird. Es müssen vier Parameter geschätzt werden: und . (Wenn Sie sich bei wirklich sicher sind, können Sie den Wert festlegen, anstatt ihn zu schätzen.)εIεα,β,γt0t0

Die gemeldeten Gesamtkosten während eines Zeitraums bis in dem die Temperatur mit der Zeit variiert, sind daherx0x1t(x)x

Cost(x0,x1)=x0x1y(t)dt=x0x1(γ+α(t(x)t0)I(t(x)<t0)+β(t(x)t0)I(t(x)>t0)+ε(t(x)))t(x)dx.

Wenn das Modell überhaupt gut ist, sollten die Schwankungen in auf einen Wert nahe Null gemittelt werden und scheinen sich von Monat zu Monat zufällig zu ändern. Annäherung der Schwankungen in mit einer Normalverteilung von Mittelwert (dem monatlichen Durchschnitt) und Standardabweichung (wie zuvor aus dem monatlichen Bereich angegeben) und Durchführung der Integralausbeutenε(t)ε¯t(x)t¯s(t¯)

y¯(t¯)=γ+(βα)s(t¯)2ϕs(t¯t0)+(t¯t0)(β+(αβ)Φs(t0t¯))+ε¯(t¯).

In dieser Formel ist die kumulative Verteilung einer Normalvariablen aus Mittelwert Null und Standardabweichung ; ist seine Dichte.Φss(t¯)ϕ


Modellbefestigung

Obwohl dieses Modell eine nichtlineare Beziehung zwischen Kosten und Temperatur ausdrückt, ist es in den Variablen und dennoch linear . Da es jedoch in nichtlinear ist und nicht bekannt ist, benötigen wir ein nichtlineares Anpassungsverfahren. Zur Veranschaulichung habe ich es einfach in einen Wahrscheinlichkeitsmaximierer ( für die Berechnung) abgelegt, vorausgesetzt, die sind unabhängig und identisch verteilt, mit Normalverteilungen von Mittelwert Null und gemeinsamer Standardabweichung .α,β,γt0t0Rε¯σ

Für diese Daten sind die Schätzungen

(α^,β^,γ^,t0^,σ^)=(1.489,1.371,10.2,63.4,1.80).

Das heisst:

  • Die Heizkosten betragen ca. kWh / Tag / Grad F.1.49

  • Die Kosten für die Kühlung ca. kWh / Tag / Grad F. Die Kühlung ist etwas effizienter.1.37

  • Der Basisenergieverbrauch (ohne Heizen / Kühlen) beträgt kWh / Tag. (Diese Zahl ist ziemlich ungewiss. Zusätzliche Daten helfen dabei, sie besser zu bestimmen.)10.2

  • Das Haus wird auf einer Temperatur nahe Grad F gehalten.63.4

  • Die anderen im Modell nicht explizit berücksichtigten Abweichungen weisen eine Standardabweichung von kWh / Tag auf.1.80

Konfidenzintervalle und andere quantitative Ausdrücke der Unsicherheit in diesen Schätzungen können auf standardmäßige Weise mit der Maximum-Likelihood-Maschinerie erhalten werden.


Visualisierung

Zur Veranschaulichung dieses Modells sind in der folgenden Abbildung die Daten, das zugrunde liegende Modell, die Anpassung an die monatlichen Durchschnittswerte und eine einfache quadratische Anpassung der kleinsten Quadrate dargestellt.

Zahl

Die monatlichen Daten werden als dunkle Kreuze angezeigt. Die horizontalen grauen Linien, auf denen sie liegen, zeigen die monatlichen Temperaturbereiche. Unser zugrunde liegendes Modell, das das Newtonsche Gesetz widerspiegelt, wird durch die roten und blauen Liniensegmente gezeigt, die sich bei einer Temperatur von treffen . Unsere Anpassung an die Daten ist keine Kurve , da sie von den Temperaturbereichen abhängt. Es wird daher als einzelne durchgezogene blaue und rote Punkte angezeigt. (Da die monatlichen Bereiche jedoch nicht sehr unterschiedlich sind, scheinen diese Punkte eine Kurve zu zeichnen - fast die gleiche wie die gestrichelte quadratische Kurve.) Schließlich ist die gestrichelte Kurve die quadratische Anpassung der kleinsten Quadrate (an die dunklen Kreuze) ).t0

Beachten Sie, wie stark die Anpassungen vom zugrunde liegenden (Momentan-) Modell abweichen, insbesondere bei mittleren Temperaturen! Dies ist der Effekt der monatlichen Mittelwertbildung. (Denken Sie daran, dass die Höhen der roten und blauen Linien über jedes horizontale graue Segment "verschmiert" werden. Bei extremen Temperaturen wird alles auf die Linien zentriert, aber bei mittleren Temperaturen werden die beiden Seiten des "V" gemittelt, was die Notwendigkeit widerspiegelt zum Erhitzen zu bestimmten Zeiten und zum Abkühlen zu anderen Zeiten während des Monats.)


Modellvergleich

Die beiden Anpassungen - die hier sorgfältig entwickelte und die einfache, einfache, quadratische Anpassung - stimmen sowohl untereinander als auch mit den Datenpunkten eng überein. Die quadratische Anpassung ist nicht ganz so gut, aber dennoch anständig: Der angepasste mittlere Rest (für drei Parameter) beträgt kWh / Tag, während der angepasste mittlere Rest des Newtonschen Gesetzesmodells (für vier Parameter) kWh / Tag beträgt . etwa 5% niedriger. Wenn Sie lediglich eine Kurve durch die Datenpunkte zeichnen möchten, wird dies aufgrund der Einfachheit und relativen Genauigkeit der quadratischen Anpassung empfohlen.2.071.97

Die quadratische Anpassung ist jedoch völlig nutzlos, um zu lernen, was los ist! Seine Formel,

y¯(t¯)=219.956.241t¯+0.04879(t¯)2,

offenbart nichts von Nutzen direkt. Um ehrlich zu sein, könnten wir es ein wenig analysieren:

  1. Dies ist eine Parabel mit einem Scheitelpunkt bei Grad F. Wir könnten dies als Schätzung der konstanten nehmen. Es unterscheidet sich nicht wesentlich von unserer ersten Schätzung von Grad. Die prognostizierten Kosten bei dieser Temperatur jedoch kWh / Tag. Dies ist doppelt so viel wie der Grundverbrauch an Energie , der mit dem Newtonschen Gesetz übereinstimmt.63,4t^0=6.241/(2×0.04879)=64.063.4219.956.241(63.4)+0.04879(63.4)2=20.4

  2. Die Grenzkosten für Heizen oder Kühlen ergeben sich aus dem Absolutwert der Ableitung . Mit dieser Formel würden wir beispielsweise die Heizkosten eines Hauses bei einer Außentemperatur von Grad auf kWh / Tag / Grad F schätzen. Dies ist das Doppelte des mit Newton geschätzten Werts Gesetz . 90-6.241+2(0,04879)(90)=2,54y¯(t¯)=6.241+2(0.04879)t¯906.241+2(0.04879)(90)=2.54

    In ähnlicher Weise würden die Kosten für die Beheizung des Hauses bei einer Außentemperatur von Grad auf geschätzt kWh / Tag / Grad F. Dies ist mehr als das Doppelte des nach dem Newtonschen Gesetz geschätzten Wertes.| - 6,241 + 2 ( 0,04879 ) ( 32 ) | = 3,1232|6.241+2(0.04879)(32)|=3.12

    Bei den mittleren Temperaturen irrt die quadratische Anpassung in die andere Richtung. Tatsächlich prognostiziert es an seinem Scheitelpunkt im Bereich von bis Grad nahezu null marginale Heiz- oder Kühlkosten, obwohl diese mittlere Temperatur Tage umfasst, die so kühl wie Grad und so warm wie Grad sind. (Nur wenige Leute, die diesen Beitrag lesen, haben ihre Hitze noch bei Grad (= Grad C)!)68 50 78 50 10606850785010

Kurz gesagt, obwohl es in der Visualisierung fast genauso gut aussieht , ist die quadratische Anpassung bei der Schätzung grundlegender interessierender Größen im Zusammenhang mit dem Energieverbrauch grob fehlerhaft. Die Verwendung zur Bewertung von Nutzungsänderungen ist daher problematisch und sollte nicht empfohlen werden.


Berechnung

Dieser RCode führte die gesamte Berechnung und das Plotten durch. Es kann leicht an ähnliche Datensätze angepasst werden.

#
# Read and process the raw data.
#
x <- read.csv("F:/temp/energy.csv")
x$Daily <- x$Usage / x$Length
x <- x[order(x$Temp), ]
#pairs(x)
#
# Fit a quadratic curve.
#
fit.quadratic <- lm(Daily ~ Temp+I(Temp^2), data=x)
# par(mfrow=c(2,2))
# plot(fit.quadratic)
# par(mfrow=c(1,1))
#
# Fit a simple but realistic heating-cooling model with maximum likelihood.
#
response <- function(theta, x, s) {
  alpha <- theta[1]; beta <- theta[2]; gamma <- theta[3]; t.0 <- theta[4]
  x <- x - t.0
  gamma + (beta-alpha)*s^2*dnorm(x, 0, s) +  x*(beta + (alpha-beta)*pnorm(-x, 0, s))
}
log.L <- function(theta, y, x, s) {
  #   theta = (alpha, beta, gamma, t.0, sigma)
  #   x = time
  #   s = estimated SD
  #   y = response
  y.hat <- response(theta, x, s)
  sigma <- theta[5]
  sum((((y - y.hat) / sigma) ^2 + log(2 * pi * sigma^2))/2)
}
theta <- c(alpha=-1, beta=5/4, gamma=20, t.0=65, sigma=2) # Initial guess
x$Spread <- (x$Temp.high - x$Temp.low)/sqrt(6)            # Uniform estimate
fit <- nlm(log.L, theta, y=x$Daily, x=x$Temp, x$Spread)
names(fit$estimate) <- names(theta)
#$
# Set up for plotting.
#
i.pad <- 10
plot(range(x$Temp)+c(-i.pad,i.pad), c(0, max(x$Daily)+20), type="n", 
     xlab="Temp", ylab="Cost, kWh/day",
     main="Data, Model, and Fits")
#
# Plot the data.
#
l <- matrix(mapply(function(l,r,h) {c(l,h,r,h,NA,NA)}, 
                   x$Temp.low, x$Temp.high, x$Daily), 2)
lines(l[1,], l[2,], col="Gray")
points(x$Temp, x$Daily, type="p", pch=3)
#
# Draw the models.
#
x0 <- seq(min(x$Temp)-i.pad, max(x$Temp)+i.pad, length.out=401)
lines(x0, cbind(1, x0, x0^2) %*% coef(fit.quadratic), lwd=3, lty=3)
#curve(response(fit$estimate, x, 0), add=TRUE, lwd=2, lty=1)
t.0 <- fit$estimate["t.0"]
alpha <- fit$estimate["alpha"]
beta <- fit$estimate["beta"]
gamma <- fit$estimate["gamma"]
cool <- "#1020c0"; heat <- "#c02010"
lines(c(t.0, 0), gamma + c(0, -alpha*t.0), lwd=2, lty=1, col=cool)
lines(c(t.0, 100), gamma + c(0, beta*(100-t.0)), lwd=2, lty=1, col=heat)
#
# Display the fit.
#
pred <- response(fit$estimate, x$Temp, x$Spread)
points(x$Temp, pred, pch=16, cex=1, col=ifelse(x$Temp < t.0, cool, heat))
#lines(lowess(x$Temp, pred, f=1/4))
#
# Estimate the residual standard deviations.
#
residuals <- x$Daily - pred
sqrt(sum(residuals^2) / (length(residuals) - 4))
sqrt(sum(resid(fit.quadratic)^2) / (length(residuals) - 3))
whuber
quelle
4
Dies ist möglicherweise die beste Antwort auf jede Frage zum Stapelüberlauf, die ich gelesen habe. Ich schätze die Zeit sehr, die benötigt wird, um die Logik und die Argumentation hinter der Lösung zu erklären.
Shawn
1
Die Physik ist haariger. Die Schalter zwischen Kondensator und Verdampfer spielen beim Heizen und Kühlen eine Rolle. Dies bedeutet, dass sie sich wie zwei verschiedene Systeme verhalten, nicht wie ein kontinuierliches. Heizgradtage, Kühlgradtage und Entfeuchtungsgradtage sind drei getrennte Kostentreiber und können je nach geografischem Standort (denken Sie an ak, wi, ca, az, mo und fl) und Jahr diskontinuierlich wirken (Ende der Heizsaison ist nicht) Nicht dasselbe wie Beginn der Abkühlung. Anständige Statistiken zu den Daten besagen, dass es 5 Jahreszeiten gibt, nicht 4. Der Mai ist seine eigene Jahreszeit, zumindest innerhalb der letzten 5 Jahre.
EngrStudent
@EngrStudent Alle guten Punkte und sehr geschätzt. Ich würde behaupten, dass der hier vorgestellte Ansatz, obwohl vereinfacht, zeigt, was erforderlich ist, um eine Grundlage zu schaffen, um diese subtileren Effekte herauszufiltern. Wenn Sie die großen Begriffe im Modell einmal behandelt haben - und ich denke, niemand wird leugnen, dass die Temperatur einen dominanten Beitrag zu den Kosten leisten muss - , können Sie möglicherweise andere Begriffe identifizieren , wenn Sie dies auf physikalisch sinnvolle Weise getan haben und vielleicht sogar ihre Auswirkungen genau abschätzen. Wenn Sie mit den großen Begriffen nicht richtig umgehen, haben Sie keine Hoffnung, die anderen zu charakterisieren.
whuber
Ich liebe diese gute Grundlage / Analyse, bitte höre dies als Applaus, nicht als Kritik. Der Erwärmungsprozess unterscheidet sich vom Abkühlen, daher kann das nicht stückweise quadratische auf beiden Seiten im Widerspruch dazu stehen. Die Verdampferwendel befindet sich beim Abkühlen im Innenbereich und beim Erhitzen im Freien. In der Wärmepumpe gibt es auch Abtauzyklen und "Reservewärme". Außerdem muss der Kompressor härter arbeiten, um einer extremeren Außentemperatur entgegenzuwirken. Sie bewegen also nicht nur mehr Wärme, sondern auch einen höheren Hügel hinauf. Es ist nicht linear. Die Luftfeuchtigkeit ist groß und kann 2/3 des Energiebudgets betragen. Luftinfiltration.
EngrStudent
@EngrStudent Nochmals vielen Dank - das sind alles interessante Punkte. Ich hatte keine Ahnung, dass die Luftfeuchtigkeit einen so großen Teil des Budgets ausmachen könnte. Diese Art von Beobachtung veranschaulicht den potenziellen Wert der Kopplung einer guten Theorie (oder eines "konzeptuellen Modells" in einigen Kreisen) mit der statistischen Analyse.
whuber
0

Ich habe eine Antwort bei StackOverflow erhalten . Wenn jemand zusätzliche Gedanken hat, bin ich immer noch sehr an alternativen Lösungen interessiert.

/programming/29777890/data-visualization-how-to-represent-kwh-usage-by-year-against-average-temperatu

Shawn
quelle
1
Die Lösung auf SO ist unplausibel. Das Newtonsche Gesetz der Kühlung , das eine vernünftige Näherung erster Ordnung ist, die als Ausgangspunkt nützlich ist, legt nahe, dass die Darstellung des Energieverbrauchs gegenüber der Temperatur die Vereinigung zweier Linien (möglicherweise unterschiedlicher Steigungen) sein sollte. Der Durchschnitt verbirgt tägliche (und sogar stündliche) Temperaturschwankungen, die die Region am Schnittpunkt dieser Linien verwischen (wo weder Heizen noch Kühlen erforderlich sind). Eine quadratische Anpassung mag dort sinnvoll sein, aber asymptotisch muss die Anpassung linear sein .
whuber
Ich weiß, dass die durchschnittliche Unschärfe genau ist, aber es sind die Daten, die ich habe. Aufgrund des schlechten Verständnisses der Statistik verstehe ich die Sätze "sollte die Vereinigung zweier Linien sein ..." und "asymptotisch muss die Anpassung linear sein" nicht . Von einem unerfahrenen POV scheint der SO-Beitrag intuitiv zu sein, da er meiner Erwartung entspricht, dass der Energieverbrauch an entgegengesetzten Enden der Temperaturskala steigt und im mittleren Bereich am niedrigsten ist, wo weder Heizen noch Kühlen erforderlich waren. Wäre eine quadratische Anpassung nicht symmetrisch? Ich glaube nicht, dass der Stromverbrauch symmetrisch ist, da wir mehr Strom zum Heizen als zum Kühlen verwenden. Ich freue mich über Korrekturen oder Ratschläge.
Shawn
Eine quadratische Anpassung ist zwar symmetrisch, aber im Extremfall nicht physikalisch, da sie besagt, dass Sie für das Heizen bei den niedrigsten Temperaturen viel mehr bezahlen und für das Kühlen bei den höchsten Temperaturen viel mehr als physikalisch plausibel. Darüber hinaus wäre eine Symmetrie in der Parzelle nur dann zu erwarten, wenn die Kosten für die Kühlung des Hauses pro Grad den Kosten für die Heizung pro Grad entsprechen, was voraussetzt, dass die Heiz- und Kühlsysteme gleich effizient sind. Das könnte der Fall sein oder auch nicht - aber Sie sollten Ihrem Modell diese Symmetrie nicht auferlegen.
whuber
Ich bin damit einverstanden, dass es anders ist, da das Kühlen mehr kostet als die Wärme pro Grad. Ich verstehe jedoch den ersten Kommentar. Schlagen Sie vor, dass die quadratische Anpassung aus dem SO-Beitrag - obwohl vernünftig - nicht wirklich genau ist und dass eine lineare Anpassung aufgrund des Newtonschen Kühlgesetzes die technisch korrekte Antwort ist? Es ist die Unplausibilität der SO-Lösung , die ich nicht verstehe.
Shawn
1
Ich konnte meine Antwort auf diese letzte Frage nicht ganz in das Feld für einen Kommentar einfügen, also habe ich sie stattdessen als Antwort gepostet. Ich verstehe nicht, wie Sie daraus schließen, dass die Kühlkosten pro Grad höher sind als die Heizkosten pro Grad. Ihre Daten scheinen darauf hinzudeuten, dass das Gegenteil der Fall ist (obwohl die Kosten, wie zu erwarten, ziemlich nahe beieinander liegen). Und bitte beachten Sie, dass ein lineares Modell keine lineare Anpassung impliziert ! Hier ist viel los, was dazu führt, dass die Daten systematisch von diesem zugrunde liegenden Modell abweichen.
whuber