Fast alles, was ich über lineare Regression und GLM lese , läuft darauf hinaus: wobei eine nicht zunehmende oder nicht abnehmende Funktion von und der Parameter ist, den Sie schätzen und testen Hypothesen über. Es gibt Dutzende von Verknüpfungsfunktionen und Transformationen von und , um einer linearen Funktion von .
Wenn Sie nun die nicht zunehmende / nicht abnehmende Anforderung für entfernen , sind mir nur zwei Möglichkeiten für die Anpassung eines parametrisch linearisierten Modells bekannt: Triggerfunktionen und Polynome. Beide erzeugen eine künstliche Abhängigkeit zwischen jedem vorhergesagten und der gesamten Menge von , was sie zu einer sehr nicht robusten Anpassung macht, es sei denn, es gibt frühere Gründe zu der Annahme, dass Ihre Daten tatsächlich durch einen zyklischen oder polynomiellen Prozess generiert werden.
Dies ist keine Art esoterischer Randfall. Es ist die tatsächliche, vernünftige Beziehung zwischen Wasser und Ernteerträgen (sobald die Parzellen unter Wasser tief genug sind, werden die Ernteerträge abnehmen) oder zwischen dem Kalorienverbrauch beim Frühstück und der Leistung bei einem Mathematik-Quiz oder der Anzahl der Arbeiter in einer Fabrik und die Anzahl der Widgets, die sie erzeugen ... kurz gesagt, fast jeder reale Fall, für den lineare Modelle verwendet werden, wobei die Daten jedoch einen ausreichend großen Bereich abdecken, sodass Sie die abnehmenden Renditen in negative Renditen umwandeln.
Ich habe versucht, nach den Begriffen "konkav", "konvex", "krummlinig", "nicht monoton", "Badewanne" zu suchen, und ich habe vergessen, wie viele andere. Nur wenige relevante Fragen und noch weniger brauchbare Antworten. Wenn Sie also die folgenden Daten hätten (R-Code, y ist eine Funktion der stetigen Variablen x und der diskreten Variablengruppe):
updown<-data.frame(y=c(46.98,38.39,44.21,46.28,41.67,41.8,44.8,45.22,43.89,45.71,46.09,45.46,40.54,44.94,42.3,43.01,45.17,44.94,36.27,43.07,41.85,40.5,41.14,43.45,33.52,30.39,27.92,19.67,43.64,43.39,42.07,41.66,43.25,42.79,44.11,40.27,40.35,44.34,40.31,49.88,46.49,43.93,50.87,45.2,43.04,42.18,44.97,44.69,44.58,33.72,44.76,41.55,34.46,32.89,20.24,22,17.34,20.14,20.36,24.39,22.05,24.21,26.11,28.48,29.09,31.98,32.97,31.32,40.44,33.82,34.46,42.7,43.03,41.07,41.02,42.85,44.5,44.15,52.58,47.72,44.1,21.49,19.39,26.59,29.38,25.64,28.06,29.23,31.15,34.81,34.25,36,42.91,38.58,42.65,45.33,47.34,50.48,49.2,55.67,54.65,58.04,59.54,65.81,61.43,67.48,69.5,69.72,67.95,67.25,66.56,70.69,70.15,71.08,67.6,71.07,72.73,72.73,81.24,73.37,72.67,74.96,76.34,73.65,76.44,72.09,67.62,70.24,69.85,63.68,64.14,52.91,57.11,48.54,56.29,47.54,19.53,20.92,22.76,29.34,21.34,26.77,29.72,34.36,34.8,33.63,37.56,42.01,40.77,44.74,40.72,46.43,46.26,46.42,51.55,49.78,52.12,60.3,58.17,57,65.81,72.92,72.94,71.56,66.63,68.3,72.44,75.09,73.97,68.34,73.07,74.25,74.12,75.6,73.66,72.63,73.86,76.26,74.59,74.42,74.2,65,64.72,66.98,64.27,59.77,56.36,57.24,48.72,53.09,46.53),
x=c(216.37,226.13,237.03,255.17,270.86,287.45,300.52,314.44,325.61,341.12,354.88,365.68,379.77,393.5,410.02,420.88,436.31,450.84,466.95,477,491.89,509.27,521.86,531.53,548.11,563.43,575.43,590.34,213.33,228.99,240.07,250.4,269.75,283.33,294.67,310.44,325.36,340.48,355.66,370.43,377.58,394.32,413.22,428.23,436.41,455.58,465.63,475.51,493.44,505.4,521.42,536.82,550.57,563.17,575.2,592.27,86.15,91.09,97.83,103.39,107.37,114.78,119.9,124.39,131.63,134.49,142.83,147.26,152.2,160.9,163.75,172.29,173.62,179.3,184.82,191.46,197.53,201.89,204.71,214.12,215.06,88.34,109.18,122.12,133.19,148.02,158.72,172.93,189.23,204.04,219.36,229.58,247.49,258.23,273.3,292.69,300.47,314.36,325.65,345.21,356.19,367.29,389.87,397.74,411.46,423.04,444.23,452.41,465.43,484.51,497.33,507.98,522.96,537.37,553.79,566.08,581.91,595.84,610.7,624.04,637.53,649.98,663.43,681.67,698.1,709.79,718.33,734.81,751.93,761.37,775.12,790.15,803.39,818.64,833.71,847.81,88.09,105.72,123.35,132.19,151.87,161.5,177.34,186.92,201.35,216.09,230.12,245.47,255.85,273.45,285.91,303.99,315.98,325.48,343.01,360.05,373.17,381.7,398.41,412.66,423.66,443.67,450.39,468.86,483.93,499.91,511.59,529.34,541.35,550.28,568.31,584.7,592.33,615.74,622.45,639.1,651.41,668.08,679.75,692.94,708.83,720.98,734.42,747.83,762.27,778.74,790.97,806.99,820.03,831.55,844.23),
group=factor(rep(c('A','B'),c(81,110))));
plot(y~x,updown,subset=x<500,col=group);
Versuchen Sie zunächst eine Box-Cox-Transformation und prüfen Sie, ob sie mechanistisch sinnvoll ist. Andernfalls passen Sie möglicherweise ein nichtlineares Modell der kleinsten Quadrate mit einer logistischen oder asymptotischen Verknüpfungsfunktion an.
Also, warum sollten Sie parametrische Modelle komplett aufgeben und auf eine Black-Box-Methode wie Splines zurückgreifen, wenn Sie herausfinden, dass der vollständige Datensatz so aussieht?
plot(y~x,updown,col=group);
Meine Fragen sind:
- Nach welchen Begriffen muss ich suchen, um Verknüpfungsfunktionen zu finden, die diese Klasse funktionaler Beziehungen darstellen?
oder
- Was sollte ich lesen und / oder suchen, um mir selbst beizubringen, wie man Verknüpfungsfunktionen zu dieser Klasse funktionaler Beziehungen entwirft oder vorhandene erweitert, die derzeit nur für monotone Antworten gedacht sind?
oder
- Was für ein StackExchange-Tag ist für diese Art von Frage am besten geeignet?
R
Code weist Syntaxfehler auf:group
sollte nicht in Anführungszeichen gesetzt werden. (2) Die Darstellung ist schön: Die roten Punkte weisen eine lineare Beziehung auf, während die schwarzen Punkte auf verschiedene Arten angepasst werden können, einschließlich einer stückweisen linearen Regression (erhalten mit einem Änderungspunktmodell) und möglicherweise sogar als Exponential. Ich bin nicht zu empfehlen diese jedoch aufgrund der Modellierung Entscheidungen sollten von einem Verständnis informiert werden , was die Daten produziert und von Theorien in relevanten Disziplinen motivierte. Sie könnten ein besserer Start für Ihre Forschung sein.Antworten:
Die Bemerkungen in der Frage nach Verknüpfungsfunktionen und Monotonie sind ein roter Hering. Ihnen zugrundeliegenden scheint eine implizite Annahme zu sein , dass ein verallgemeinertes lineares Modell (GLM), durch die Erwartung einer Antwort exprimierenden als eine monotone Funktion f einer linearen Kombination X β der erklärenden Variablen X , ist nicht flexibel genug , um für nicht Rechnung monotone Reaktionen. Das ist einfach nicht so.Y f Xβ X
Vielleicht wird ein bearbeitetes Beispiel diesen Punkt beleuchten. In einer Studie von 1948 (veröffentlicht 1977 posthum und nie von Fachleuten begutachtet) berichtete J. Tolkien über die Ergebnisse eines Pflanzenbewässerungsexperiments, bei dem 13 Gruppen von 24 Sonnenblumen ( Helianthus Gondorensis ) kontrollierte Mengen Wasser verabreicht wurden, beginnend mit der Keimung über einen Zeitraum von drei Monaten des Wachstums. Die angewendeten Gesamtmengen variierten von 1 Zoll bis 25 Zoll in Schritten von 2 Zoll.
Es gibt eine deutlich positive Reaktion auf die Bewässerung und eine stark negative Reaktion auf Überbewässerung. Frühere Arbeiten, die auf hypothetischen kinetischen Modellen des Ionentransports basierten, hatten die Hypothese aufgestellt, dass zwei konkurrierende Mechanismen für dieses Verhalten verantwortlich sein könnten: Einer führte zu einer linearen Reaktion auf kleine Wassermengen (gemessen in den logarithmischen Überlebenschancen), während der andere - -ein hemmender Faktor - wirkt exponentiell (was ein stark nichtlinearer Effekt ist). Bei großen Wassermengen würde der Hemmfaktor die positiven Wirkungen des Wassers überwältigen und die Mortalität merklich erhöhen.
R
Es gibt keine technischen Schwierigkeiten; Die Berechnung dauert nur 1/30 Sekunde.
R
Die Antworten auf die Fragen sind:
Keine : Dies ist nicht der Zweck der Verknüpfungsfunktion.
Nichts : Dies beruht auf einem Missverständnis darüber, wie Antworten modelliert werden.
Offensichtlich sollte man sich zuerst darauf konzentrieren, welche erklärenden Variablen beim Erstellen eines Regressionsmodells zu verwenden oder zu konstruieren sind . Achten Sie, wie in diesem Beispiel vorgeschlagen, auf Hinweise aus der Vergangenheit und der Theorie.
quelle
Sieht die sterbende Pflanze auf seinem Schreibtisch schuldbewusst an ... anscheinend nicht
In den Kommentaren sagt @whuber, dass "Modellierungsentscheidungen durch ein Verständnis dessen, was die Daten hervorgebracht und durch Theorien in relevanten Disziplinen motiviert hat, fundiert sein sollten", zu dem Sie gefragt haben, wie man das macht.
Die Michaelis- und Menten-Kinetik ist tatsächlich ein ziemlich nützliches Beispiel. Diese Gleichungen können abgeleitet werden, indem mit einigen Annahmen (z. B. das Substrat befindet sich im Gleichgewicht mit seinem Komplex, das Enzym wird nicht verbraucht) und einigen bekannten Prinzipien (dem Massenwirkungsgesetz) begonnen wird. Murrays mathematische Biologie: Eine Einführung führt durch die Herleitung in Kapitel 6 (ich wette, viele andere Bücher auch!).
Generell hilft es, ein "Repertoire" von Modellen und Annahmen aufzubauen. Ich bin mir sicher, dass Ihr Fachgebiet einige allgemein anerkannte, erprobte Modelle hat. Wenn sich zum Beispiel etwas auflädt oder entlädt, würde ich nach einem Exponential greifen, um dessen Spannung als Funktion der Zeit zu modellieren. Wenn ich umgekehrt eine exponentielle Form in einem Spannungs-Zeit-Diagramm sehe, würde meine erste Vermutung sein, dass sich etwas in der Schaltung kapazitiv entlädt, und wenn ich nicht wüsste, was es ist, würde ich versuchen, es zu finden. Im Idealfall kann Ihnen die Theorie beim Aufbau des Modells helfen und neue Experimente vorschlagen.
quelle
Ich habe eine eher informelle Antwort aus der Sicht von jemandem, der die Hälfte seines wissenschaftlichen Lebens auf der Bank und die andere Hälfte am Computer verbracht hat und mit Statistiken gespielt hat. Ich habe versucht, einen Kommentar einzutragen, aber er war zu lang.
Sie sehen, wenn ich ein Wissenschaftler wäre, der die Art der Ergebnisse beobachtet, die Sie erhalten, wäre ich begeistert. Die verschiedenen monotonen Beziehungen sind langweilig und kaum zu unterscheiden. Die Art der Beziehung, die Sie uns zeigen, weist jedoch auf einen ganz bestimmten Effekt hin. Es gibt uns einen wunderbaren Spielraum für den Theoretiker, um Hypothesen darüber aufzustellen, wie die Beziehung ist und wie sie sich an den Extremen ändert. Es bietet dem Bankwissenschaftler einen großartigen Spielplatz, um herauszufinden, was gerade passiert, und die Bedingungen ausführlich zu erproben.
In gewisser Hinsicht wäre es mir lieber, wenn Sie den Fall zeigen und nicht wissen, wie man ein einfaches Modell anpasst (aber in der Lage ist, eine neue Hypothese auszuarbeiten), als eine einfache Beziehung zu haben, die einfach zu modellieren, aber mechanistisch schwieriger zu untersuchen ist. In meiner Praxis bin ich jedoch noch keinem solchen Fall begegnet.
Schließlich gibt es noch eine Überlegung. Wenn Sie nach einem Test suchen, der zeigt, dass Schwarz von Rot verschieden ist (in Ihren Daten) - als ehemaliger Bankwissenschaftler sage ich, warum überhaupt die Mühe machen? Es ist deutlich genug aus der Figur.
quelle
Für solche Daten würde ich wahrscheinlich zumindest lineare Splines in Betracht ziehen.
Sie können diese in lm oder glm leicht genug tun.
Wenn Sie einen solchen Ansatz wählen, besteht Ihr Problem darin, die Anzahl der Knoten und die Knotenpositionen zu wählen. Eine Lösung könnte darin bestehen, eine angemessene Anzahl möglicher Orte zu berücksichtigen und so etwas wie das Lasso oder andere Methoden der Regularisierung und Auswahl zu verwenden, um eine kleine Menge zu identifizieren. Sie müssen jedoch den Effekt einer solchen Auswahl in der Folgerung berücksichtigen.
quelle
gam
dem R-Paket angepasst wirdmgcv
.Ich hatte keine Zeit, Ihren gesamten Beitrag zu lesen, aber es scheint, dass Ihre Hauptsorge darin besteht, dass sich die funktionellen Reaktionsformen mit den Behandlungen ändern könnten. Es gibt Techniken, um damit umzugehen, aber sie sind datenintensiv.
Zu Ihrem konkreten Beispiel:
G ist Wachstum W ist Wasser T ist Behandlung
In den letzten zehn Jahren wurde eine Menge Forschung zur semiparametrischen Regression betrieben, und diese Rinder über funktionale Formen werden immer handlicher. Aber am Ende des Tages spielen Statistiken mit Zahlen und sind nur insofern nützlich, als sie eine Intuition über die beobachteten Phänomene aufbauen. Dies setzt wiederum voraus, dass Sie wissen, wie die Zahlen gespielt werden. Der Ton Ihres Beitrags zeigt die Bereitschaft an, das Baby mit dem Badewasser hinauszuwerfen.
quelle