Gehen Statistiker davon aus, dass man eine Pflanze nicht übergießen kann, oder verwende ich nur die falschen Suchbegriffe für die krummlinige Regression?

18

Fast alles, was ich über lineare Regression und GLM lese , läuft darauf hinaus: y=f(x,β) wobei f(x,β) eine nicht zunehmende oder nicht abnehmende Funktion von x und β der Parameter ist, den Sie schätzen und testen Hypothesen über. Es gibt Dutzende von Verknüpfungsfunktionen und Transformationen von y und x , um y einer linearen Funktion von f(x,β) .

Wenn Sie nun die nicht zunehmende / nicht abnehmende Anforderung für entfernen f(x,β), sind mir nur zwei Möglichkeiten für die Anpassung eines parametrisch linearisierten Modells bekannt: Triggerfunktionen und Polynome. Beide erzeugen eine künstliche Abhängigkeit zwischen jedem vorhergesagten y und der gesamten Menge von X , was sie zu einer sehr nicht robusten Anpassung macht, es sei denn, es gibt frühere Gründe zu der Annahme, dass Ihre Daten tatsächlich durch einen zyklischen oder polynomiellen Prozess generiert werden.

Dies ist keine Art esoterischer Randfall. Es ist die tatsächliche, vernünftige Beziehung zwischen Wasser und Ernteerträgen (sobald die Parzellen unter Wasser tief genug sind, werden die Ernteerträge abnehmen) oder zwischen dem Kalorienverbrauch beim Frühstück und der Leistung bei einem Mathematik-Quiz oder der Anzahl der Arbeiter in einer Fabrik und die Anzahl der Widgets, die sie erzeugen ... kurz gesagt, fast jeder reale Fall, für den lineare Modelle verwendet werden, wobei die Daten jedoch einen ausreichend großen Bereich abdecken, sodass Sie die abnehmenden Renditen in negative Renditen umwandeln.

Ich habe versucht, nach den Begriffen "konkav", "konvex", "krummlinig", "nicht monoton", "Badewanne" zu suchen, und ich habe vergessen, wie viele andere. Nur wenige relevante Fragen und noch weniger brauchbare Antworten. Wenn Sie also die folgenden Daten hätten (R-Code, y ist eine Funktion der stetigen Variablen x und der diskreten Variablengruppe):

updown<-data.frame(y=c(46.98,38.39,44.21,46.28,41.67,41.8,44.8,45.22,43.89,45.71,46.09,45.46,40.54,44.94,42.3,43.01,45.17,44.94,36.27,43.07,41.85,40.5,41.14,43.45,33.52,30.39,27.92,19.67,43.64,43.39,42.07,41.66,43.25,42.79,44.11,40.27,40.35,44.34,40.31,49.88,46.49,43.93,50.87,45.2,43.04,42.18,44.97,44.69,44.58,33.72,44.76,41.55,34.46,32.89,20.24,22,17.34,20.14,20.36,24.39,22.05,24.21,26.11,28.48,29.09,31.98,32.97,31.32,40.44,33.82,34.46,42.7,43.03,41.07,41.02,42.85,44.5,44.15,52.58,47.72,44.1,21.49,19.39,26.59,29.38,25.64,28.06,29.23,31.15,34.81,34.25,36,42.91,38.58,42.65,45.33,47.34,50.48,49.2,55.67,54.65,58.04,59.54,65.81,61.43,67.48,69.5,69.72,67.95,67.25,66.56,70.69,70.15,71.08,67.6,71.07,72.73,72.73,81.24,73.37,72.67,74.96,76.34,73.65,76.44,72.09,67.62,70.24,69.85,63.68,64.14,52.91,57.11,48.54,56.29,47.54,19.53,20.92,22.76,29.34,21.34,26.77,29.72,34.36,34.8,33.63,37.56,42.01,40.77,44.74,40.72,46.43,46.26,46.42,51.55,49.78,52.12,60.3,58.17,57,65.81,72.92,72.94,71.56,66.63,68.3,72.44,75.09,73.97,68.34,73.07,74.25,74.12,75.6,73.66,72.63,73.86,76.26,74.59,74.42,74.2,65,64.72,66.98,64.27,59.77,56.36,57.24,48.72,53.09,46.53),
                   x=c(216.37,226.13,237.03,255.17,270.86,287.45,300.52,314.44,325.61,341.12,354.88,365.68,379.77,393.5,410.02,420.88,436.31,450.84,466.95,477,491.89,509.27,521.86,531.53,548.11,563.43,575.43,590.34,213.33,228.99,240.07,250.4,269.75,283.33,294.67,310.44,325.36,340.48,355.66,370.43,377.58,394.32,413.22,428.23,436.41,455.58,465.63,475.51,493.44,505.4,521.42,536.82,550.57,563.17,575.2,592.27,86.15,91.09,97.83,103.39,107.37,114.78,119.9,124.39,131.63,134.49,142.83,147.26,152.2,160.9,163.75,172.29,173.62,179.3,184.82,191.46,197.53,201.89,204.71,214.12,215.06,88.34,109.18,122.12,133.19,148.02,158.72,172.93,189.23,204.04,219.36,229.58,247.49,258.23,273.3,292.69,300.47,314.36,325.65,345.21,356.19,367.29,389.87,397.74,411.46,423.04,444.23,452.41,465.43,484.51,497.33,507.98,522.96,537.37,553.79,566.08,581.91,595.84,610.7,624.04,637.53,649.98,663.43,681.67,698.1,709.79,718.33,734.81,751.93,761.37,775.12,790.15,803.39,818.64,833.71,847.81,88.09,105.72,123.35,132.19,151.87,161.5,177.34,186.92,201.35,216.09,230.12,245.47,255.85,273.45,285.91,303.99,315.98,325.48,343.01,360.05,373.17,381.7,398.41,412.66,423.66,443.67,450.39,468.86,483.93,499.91,511.59,529.34,541.35,550.28,568.31,584.7,592.33,615.74,622.45,639.1,651.41,668.08,679.75,692.94,708.83,720.98,734.42,747.83,762.27,778.74,790.97,806.99,820.03,831.55,844.23),
                   group=factor(rep(c('A','B'),c(81,110))));

plot(y~x,updown,subset=x<500,col=group);

Streudiagramm

Versuchen Sie zunächst eine Box-Cox-Transformation und prüfen Sie, ob sie mechanistisch sinnvoll ist. Andernfalls passen Sie möglicherweise ein nichtlineares Modell der kleinsten Quadrate mit einer logistischen oder asymptotischen Verknüpfungsfunktion an.

Also, warum sollten Sie parametrische Modelle komplett aufgeben und auf eine Black-Box-Methode wie Splines zurückgreifen, wenn Sie herausfinden, dass der vollständige Datensatz so aussieht?

plot(y~x,updown,col=group);

Meine Fragen sind:

  • Nach welchen Begriffen muss ich suchen, um Verknüpfungsfunktionen zu finden, die diese Klasse funktionaler Beziehungen darstellen?

oder

  • Was sollte ich lesen und / oder suchen, um mir selbst beizubringen, wie man Verknüpfungsfunktionen zu dieser Klasse funktionaler Beziehungen entwirft oder vorhandene erweitert, die derzeit nur für monotone Antworten gedacht sind?

oder

  • Was für ein StackExchange-Tag ist für diese Art von Frage am besten geeignet?
f1r3br4nd
quelle
4
Ich habe keine Ahnung, was Sie fragen. Sie wollen eine nicht-monotone Funktion von ... was genau ist Ihr Problem mit der Polynom-Regression oder der Sinus-Regression wieder? Außerdem ... "Link-Funktion" ... verwenden Sie dieses Wort weiterhin ... Ich glaube nicht, dass es das bedeutet, was Sie denken, dass es bedeutet. x
Jake Westfall
5
(1) Ihr RCode weist Syntaxfehler auf: groupsollte nicht in Anführungszeichen gesetzt werden. (2) Die Darstellung ist schön: Die roten Punkte weisen eine lineare Beziehung auf, während die schwarzen Punkte auf verschiedene Arten angepasst werden können, einschließlich einer stückweisen linearen Regression (erhalten mit einem Änderungspunktmodell) und möglicherweise sogar als Exponential. Ich bin nicht zu empfehlen diese jedoch aufgrund der Modellierung Entscheidungen sollten von einem Verständnis informiert werden , was die Daten produziert und von Theorien in relevanten Disziplinen motivierte. Sie könnten ein besserer Start für Ihre Forschung sein.
Whuber
1
@whuber danke! Der Code wurde korrigiert. Zur theoretischen Motivation: Woher kommen diese überhaupt? Die Mitarbeiter meiner Bankwissenschaftler werden gerne die Prädiktorvariablen dichotomisieren und T-Tests mit ihnen durchführen. Es liegt also an mir, einen Weg zu finden, um die Datenverschwendung zu stoppen, indem eine mathematische Beziehung gefunden wird, die den Übergang von "y korreliert positiv mit x" zu "y hat wenig Reaktion auf x" zu "y korreliert negativ mit x". Gelingt dies nicht, muss ich zusammenfassen, was z. B. Michaelis und Menten getan haben, als sie eine Beziehung zwischen Enzym, Substrat und Produkt gefunden haben.
1.
1
Sind die Punkte, an denen diese Dinge "knicken", im Voraus bekannt?
Glen_b -Reinstate Monica
3
+1 für den provokanten Titel und ein Follow-up, das tatsächlich Sinn macht
Stumpy Joe Pete

Antworten:

45

Die Bemerkungen in der Frage nach Verknüpfungsfunktionen und Monotonie sind ein roter Hering. Ihnen zugrundeliegenden scheint eine implizite Annahme zu sein , dass ein verallgemeinertes lineares Modell (GLM), durch die Erwartung einer Antwort exprimierenden als eine monotone Funktion f einer linearen Kombination X β der erklärenden Variablen X , ist nicht flexibel genug , um für nicht Rechnung monotone Reaktionen. Das ist einfach nicht so.YfXβX


Vielleicht wird ein bearbeitetes Beispiel diesen Punkt beleuchten. In einer Studie von 1948 (veröffentlicht 1977 posthum und nie von Fachleuten begutachtet) berichtete J. Tolkien über die Ergebnisse eines Pflanzenbewässerungsexperiments, bei dem 13 Gruppen von 24 Sonnenblumen ( Helianthus Gondorensis ) kontrollierte Mengen Wasser verabreicht wurden, beginnend mit der Keimung über einen Zeitraum von drei Monaten des Wachstums. Die angewendeten Gesamtmengen variierten von 1 Zoll bis 25 Zoll in Schritten von 2 Zoll.

Abbildung 1

Es gibt eine deutlich positive Reaktion auf die Bewässerung und eine stark negative Reaktion auf Überbewässerung. Frühere Arbeiten, die auf hypothetischen kinetischen Modellen des Ionentransports basierten, hatten die Hypothese aufgestellt, dass zwei konkurrierende Mechanismen für dieses Verhalten verantwortlich sein könnten: Einer führte zu einer linearen Reaktion auf kleine Wassermengen (gemessen in den logarithmischen Überlebenschancen), während der andere - -ein hemmender Faktor - wirkt exponentiell (was ein stark nichtlinearer Effekt ist). Bei großen Wassermengen würde der Hemmfaktor die positiven Wirkungen des Wassers überwältigen und die Mortalität merklich erhöhen.

κYnx

Binomial(n,f(β0+β1xβ2exp(κx)))
fxκβ0β1β2f1(E[Y])x1β0xβ1exp(κx)β2

κκR

water <- seq(1, 25, length.out=13)
n.survived <- c(0, 3, 4, 12, 18, 21, 23, 24, 22, 23, 18, 3, 2)
pop <- 24
counts <- cbind(n.survived, n.died=pop-n.survived)
f <- function(k) {
  fit <- glm(counts ~ water + I(-exp(water * k)), family=binomial)
  list(AIC=AIC(fit), fit=fit)
}
k.est <- optim(0.1, function(k) f(k)$AIC, method="Brent", lower=0, upper=1)$par
fit <- f(k.est)$fit

Es gibt keine technischen Schwierigkeiten; Die Berechnung dauert nur 1/30 Sekunde.

Figur 2

E[Y]

E[Y]xR

x.0 <- seq(min(water), max(water), length.out=100)
p.0 <- cbind(rep(1, length(x.0)), x.0, -exp(k.est * x.0))
logistic <- function(x) 1 - 1/(1 + exp(x))
predicted <- pop * logistic(p.0 %*% coef(fit))

plot(water, n.survived / pop, main="Data and Fit",
     xlab="Total water (inches)", 
     ylab="Proportion surviving at 3 months")
lines(x.0, predicted / pop, col="#a0a0ff", lwd=2)

Die Antworten auf die Fragen sind:

Nach welchen Begriffen muss ich suchen, um Verknüpfungsfunktionen zu finden, die diese Klasse funktionaler Beziehungen darstellen?

Keine : Dies ist nicht der Zweck der Verknüpfungsfunktion.

Nach was soll ich suchen, um bestehende [Link-Funktionen] zu erweitern, die derzeit nur für monotone Antworten gedacht sind?

Nichts : Dies beruht auf einem Missverständnis darüber, wie Antworten modelliert werden.

Offensichtlich sollte man sich zuerst darauf konzentrieren, welche erklärenden Variablen beim Erstellen eines Regressionsmodells zu verwenden oder zu konstruieren sind . Achten Sie, wie in diesem Beispiel vorgeschlagen, auf Hinweise aus der Vergangenheit und der Theorie.

whuber
quelle
tolle Antwort! Handelt es sich um tatsächliche Daten aus dem Roman?
Cam.Davidson.Pilon
1
@Cam Die Daten haben es nicht in den finalen Schnitt geschafft :-). (Ich fürchte, der Kontext ist ziemlich ironisch.)
leider ziemlich frech
1
κ
TrynnaDoStat
5
κκχ2(1)
1
@zipzapboing Das Beispiel, das ich hier gebe, ist besonders, weil es durch eine zugrunde liegende Theorie informiert wurde. Wenn solche Informationen verfügbar sind, kann dies eine hilfreiche Anleitung zur Auswahl eines Modells sein. In vielen Fällen gibt es jedoch keine derartigen Informationen, oder man hofft nur, dass die erwartete Reaktion mit den Regressoren monoton variieren kann. Der vielleicht grundlegendste Grund, auf den man hinweisen könnte, ist die Hoffnung, dass die Reaktion je nach Regressor unterschiedlich ausfällt und dass für den Bereich der Regressoren in den Daten die Änderung der Ableitung gering ist: Eine lineare Reaktion würde sich dem gut annähern.
whuber
9

Sieht die sterbende Pflanze auf seinem Schreibtisch schuldbewusst an ... anscheinend nicht

In den Kommentaren sagt @whuber, dass "Modellierungsentscheidungen durch ein Verständnis dessen, was die Daten hervorgebracht und durch Theorien in relevanten Disziplinen motiviert hat, fundiert sein sollten", zu dem Sie gefragt haben, wie man das macht.

Die Michaelis- und Menten-Kinetik ist tatsächlich ein ziemlich nützliches Beispiel. Diese Gleichungen können abgeleitet werden, indem mit einigen Annahmen (z. B. das Substrat befindet sich im Gleichgewicht mit seinem Komplex, das Enzym wird nicht verbraucht) und einigen bekannten Prinzipien (dem Massenwirkungsgesetz) begonnen wird. Murrays mathematische Biologie: Eine Einführung führt durch die Herleitung in Kapitel 6 (ich wette, viele andere Bücher auch!).

Generell hilft es, ein "Repertoire" von Modellen und Annahmen aufzubauen. Ich bin mir sicher, dass Ihr Fachgebiet einige allgemein anerkannte, erprobte Modelle hat. Wenn sich zum Beispiel etwas auflädt oder entlädt, würde ich nach einem Exponential greifen, um dessen Spannung als Funktion der Zeit zu modellieren. Wenn ich umgekehrt eine exponentielle Form in einem Spannungs-Zeit-Diagramm sehe, würde meine erste Vermutung sein, dass sich etwas in der Schaltung kapazitiv entlädt, und wenn ich nicht wüsste, was es ist, würde ich versuchen, es zu finden. Im Idealfall kann Ihnen die Theorie beim Aufbau des Modells helfen und neue Experimente vorschlagen.

y=k(x+h)2CO2 Capture from Less Transpiration?) und Flood (Bakterien fressen die Wurzeln?) legen möglicherweise eine bestimmte Form für jedes Stück nahe.

Matt Krause
quelle
8

Ich habe eine eher informelle Antwort aus der Sicht von jemandem, der die Hälfte seines wissenschaftlichen Lebens auf der Bank und die andere Hälfte am Computer verbracht hat und mit Statistiken gespielt hat. Ich habe versucht, einen Kommentar einzutragen, aber er war zu lang.

Sie sehen, wenn ich ein Wissenschaftler wäre, der die Art der Ergebnisse beobachtet, die Sie erhalten, wäre ich begeistert. Die verschiedenen monotonen Beziehungen sind langweilig und kaum zu unterscheiden. Die Art der Beziehung, die Sie uns zeigen, weist jedoch auf einen ganz bestimmten Effekt hin. Es gibt uns einen wunderbaren Spielraum für den Theoretiker, um Hypothesen darüber aufzustellen, wie die Beziehung ist und wie sie sich an den Extremen ändert. Es bietet dem Bankwissenschaftler einen großartigen Spielplatz, um herauszufinden, was gerade passiert, und die Bedingungen ausführlich zu erproben.

In gewisser Hinsicht wäre es mir lieber, wenn Sie den Fall zeigen und nicht wissen, wie man ein einfaches Modell anpasst (aber in der Lage ist, eine neue Hypothese auszuarbeiten), als eine einfache Beziehung zu haben, die einfach zu modellieren, aber mechanistisch schwieriger zu untersuchen ist. In meiner Praxis bin ich jedoch noch keinem solchen Fall begegnet.

Schließlich gibt es noch eine Überlegung. Wenn Sie nach einem Test suchen, der zeigt, dass Schwarz von Rot verschieden ist (in Ihren Daten) - als ehemaliger Bankwissenschaftler sage ich, warum überhaupt die Mühe machen? Es ist deutlich genug aus der Figur.

Januar
quelle
5

Für solche Daten würde ich wahrscheinlich zumindest lineare Splines in Betracht ziehen.

Sie können diese in lm oder glm leicht genug tun.

Wenn Sie einen solchen Ansatz wählen, besteht Ihr Problem darin, die Anzahl der Knoten und die Knotenpositionen zu wählen. Eine Lösung könnte darin bestehen, eine angemessene Anzahl möglicher Orte zu berücksichtigen und so etwas wie das Lasso oder andere Methoden der Regularisierung und Auswahl zu verwenden, um eine kleine Menge zu identifizieren. Sie müssen jedoch den Effekt einer solchen Auswahl in der Folgerung berücksichtigen.

Glen_b - Setzen Sie Monica wieder ein
quelle
Aber sagt die Spline-Regression nicht im Grunde genommen "es gibt eine unbekannte Funktion, die die Form der Antwort beschreibt, und wir werden nur Hypothesen testen, wie die anderen Variablen diese Kurve nach oben / unten verschieben oder kippen"? Was ist, wenn eine Behandlung die Form selbst verändert - wie interpretiert man einen solchen Interaktionsterm, wenn er signifikant ist?
F1R3BR4ND
2
Wie allgemein ist die Alternative? Selbst für den allgemeinen Fall gibt es eine Vielzahl von Ansätzen, bei denen Sie die Anpassung unter der Annahme identischer nichtparametrischer Funktionen mit getrennten Funktionen vergleichen können. Additive Modelle und verallgemeinerte additive Modelle können mit solchen Vergleichen umgehen.
Glen_b
Als Beispiel für einen allgemeineren Fall , als Sie diskutieren (mit Referenzen eine Vielzahl von anderen Ansätzen diskutiert), wenn Sie halten , es zu bekommen, werfen Sie einen Blick auf dieses Papier J.Roca-Pardiñas et al (2006) „Bootstrap-basierte Methoden zum Testen von Faktor-durch-Kurve-Wechselwirkungen in verallgemeinerten additiven Modellen: Bewertung der neuralen Aktivität der präfrontalen Rinde im Zusammenhang mit der Entscheidungsfindung ", Statistics in Medicine , 30. Juli; 25 (14): 2483-501. In diesem Artikel verwenden sie Bootstrapping (und Binning, um den Rechenaufwand zu verringern), aber es werden dort auch andere Ansätze erwähnt.
Glen_b -Reinstate Monica
Eine grundlegendere und ältere Referenz wäre so etwas wie Hastie und Tibshirani (1990), Generalized Additive Models (siehe z. B. S. 265). Schauen Sie sich auch hier speziell die letzte Gleichung auf Folie 34 an. Dort wird auch erklärt, wie ein solches Modell mit gamdem R-Paket angepasst wird mgcv.
Glen_b
2

Ich hatte keine Zeit, Ihren gesamten Beitrag zu lesen, aber es scheint, dass Ihre Hauptsorge darin besteht, dass sich die funktionellen Reaktionsformen mit den Behandlungen ändern könnten. Es gibt Techniken, um damit umzugehen, aber sie sind datenintensiv.
Zu Ihrem konkreten Beispiel:

G ist Wachstum W ist Wasser T ist Behandlung

library(mgcv)
mod = gam(G~T+s(W,by=T))
plot(mod,pages=1,all=TRUE)
?gam

In den letzten zehn Jahren wurde eine Menge Forschung zur semiparametrischen Regression betrieben, und diese Rinder über funktionale Formen werden immer handlicher. Aber am Ende des Tages spielen Statistiken mit Zahlen und sind nur insofern nützlich, als sie eine Intuition über die beobachteten Phänomene aufbauen. Dies setzt wiederum voraus, dass Sie wissen, wie die Zahlen gespielt werden. Der Ton Ihres Beitrags zeigt die Bereitschaft an, das Baby mit dem Badewasser hinauszuwerfen.

generic_user
quelle