Regression für ein Ergebnis (Verhältnis oder Bruch) zwischen 0 und 1

41

Ich denke an ein Modell, das ein Verhältnis vorhersagt , wobei a b und a > 0 und b > 0 . Das Verhältnis würde also zwischen 0 und 1 liegen .a/baba>0b>001

Ich könnte lineare Regression verwenden, obwohl sie natürlich nicht auf 0..1 beschränkt ist. Ich habe keinen Grund zu der Annahme, dass die Beziehung linear ist, aber natürlich wird sie sowieso oft als einfaches erstes Modell verwendet.

Ich könnte eine logistische Regression verwenden, obwohl sie normalerweise verwendet wird, um die Wahrscheinlichkeit eines Zweizustands-Ergebnisses vorherzusagen, und nicht, um einen kontinuierlichen Wert aus dem Bereich 0..1 vorherzusagen.

Wenn Sie nichts mehr wissen, würden Sie die lineare Regression, die logistische Regression oder die versteckte Option c verwenden ?

dfrankow
quelle
4
Haben Sie eine Beta-Regression in Betracht gezogen?
Peter Flom - Reinstate Monica
Vielen Dank an alle, die geantwortet haben. Ich werde lernen und wählen müssen. Klingt so, als wäre eine Beta ein guter Anfang, vor allem wenn ich eine gute Passform beobachten kann (vielleicht mit dem Auge).
Dfrankow
Ich habe dies mit GLM (Poisson-Link-Funktion) gesehen. Der Zähler a wäre die Zähldaten (das Ergebnis) und der Nenner b wäre die Versatzvariable. Sie würden dann separate a- und b- Werte für jedes Thema / jede Beobachtung benötigen . Ich bin mir nur nicht sicher, ob dies die gültigste Option ist. Ich finde die Beta-Distribution eine interessante Option - eine, von der ich noch nicht gehört hatte. Es fällt mir jedoch schwer zu begreifen, dass ich kein Statistiker bin.
MegPophealth
Ich danke Ihnen allen für Ihre gründliche und nützliche Analyse. Ich stehe derzeit fast derselben Herausforderung gegenüber, aber anstatt einen kontinuierlichen Verhältnisbereich zwischen 0 und 1 vorherzusagen, möchte ich lieber ein Regressionsmodell aufbauen, um den Nutzbereich des Patienten zwischen -1 vorherzusagen und 1. Das ist ziemlich knifflig, ich konnte keine geeignete Verknüpfungsfunktion finden, um ein Regressionsmodell mit einem stetigen abhängigen Bereich zwischen -1 und 1 zu erstellen. Also wollen die Jungs nur wissen, was getan werden kann. Vielen Dank,
1
y(y+1)/2[0,1]

Antworten:

34

Sie sollten "versteckte Option c" wählen, wobei c die Beta-Regression ist. Dies ist ein Regressionsmodelltyp, der geeignet ist, wenn die Antwortvariable als Beta verteilt wird . Sie können es sich analog zu einem verallgemeinerten linearen Modell vorstellen . Es ist genau das, wonach Sie suchen. Es gibt ein Paket mit dem RNamen betareg, das sich damit befasst. Ich weiß nicht, ob Sie es verwenden R, aber selbst wenn Sie die "Vignetten" nicht lesen können, erhalten Sie allgemeine Informationen zu diesem Thema und erfahren , wie Sie es implementieren R(was Sie nicht benötigen) dieser Fall).


aba/b

Eine andere Möglichkeit ist die Verwendung der linearen Regression, wenn die Verhältnisse so transformiert werden können, dass sie den Annahmen eines linearen Standardmodells entsprechen, obwohl ich hinsichtlich der tatsächlichen Funktionsweise nicht optimistisch wäre.

gung - Wiedereinsetzung von Monica
quelle
1
Würde es Ihnen etwas ausmachen, herauszufinden, warum Beta-Regressionen in diesem Fall vorzuziehen sind? Das ist eine Empfehlung, die ich hier ziemlich oft sehe, aber ich sehe nicht wirklich jemanden, der die Gründe ausarbeitet - das wäre schön zu haben!
Matt Parker
4
p
3
Ich würde vorsichtig sagen, dass eine Beta "die" geeignete Distribution ist. Es ist ziemlich flexibel und es mag angebracht sein, aber es deckt nicht alle Fälle ab. Also, obwohl es ein guter Vorschlag ist und sehr gut sein kann, was sie wollen, kann man nicht wirklich sagen, dass es die angemessene Verteilung ist, allein aufgrund der Tatsache, dass es eine kontinuierliche Antwort zwischen 0 und 1 ist.
Dason
1
Eine Dreiecksverteilung auf [0,1] repräsentiert eine kontinuierliche Verteilung in Anteilen, die kein Beta sind. Es könnte viele andere geben. Die Beta ist eine nette, flexible Familie, aber sie hat nichts Magisches. Sie machen einen guten Punkt in Bezug auf die logistische Regression, da diese normalerweise auf Binärdaten angewendet wird.
Michael Chernick
2
Vielleicht sollte ich versuchen, weniger dogmatisch zu wirken. Was ich damit gemeint habe, ist, dass Sie Ihre DV untersuchen und die folgende Verteilung verwenden. Zwar gibt es andere Verteilungen von stetigen Anteilen. Technisch gesehen ist Beta das Verhältnis eines Gammas zu seiner Summe + eines anderen Gammas. In einer bestimmten Situation eine andere Verteilung könnte überlegen; zB Beta kann nicht nur die Werte 0 oder 1 annehmen (0, 1). Trotzdem ist Beta gut verstanden und mit nur 2 Parametern sehr flexibel. Ich behaupte, dass es bei einem DV, der ein kontinuierlicher Anteil ist, in der Regel der beste Ausgangspunkt ist.
gung - Reinstate Monica
2

Handelt es sich um gepaarte Proben oder um zwei unabhängige Populationen?

XiXiMiXiMi ein Wert von B ist.

Ihr Abfang dieser Regression ist log (B) und Ihre Steigung ist log (Verhältnis).

Sehen Sie mehr hier:

Beyene J, Moineddin R. Methoden zur Konfidenzintervallschätzung eines Verhältnisparameters mit Anwendung auf Ortsquotienten. BMC medizinische Forschungsmethodik. 2005; 5 (1): 32.

EDIT: Ich habe ein SPSS-Addon geschrieben, um genau dies zu tun. Ich kann es teilen, wenn Sie interessiert sind.

DocBuckets
quelle
1
Welche Methode haben Sie aus Neugier angewendet (Delta, Fieller oder GLM)? Es macht mich ein bisschen fertig, dass der BMC-Artikel einige Simulationen der Abdeckung der verschiedenen Schätzer nicht durchgeführt hat (obwohl es ärgerlich wäre, sich eine realistische Simulation auszudenken). Ich wurde daran erinnert, dass ich kürzlich auf eine Veröffentlichung gestoßen bin , die die Delta-Methode ausführt (ohne wirkliche Rechtfertigung), obwohl sie den BMC-Artikel zitiert.
Andy W
1
Als ich diesen Kommentar schrieb, habe ich ihn REGRESSIONnach der Protokolltransformation der Daten verwendet. Seitdem habe ich eine anspruchsvollere Version geschrieben, die verwendet GLM. Ich beschäftige mich mit Lichtemissionsmessungen und meine Tests schlugen vor, dass die Gamma-Regression mit einer logarithmischen Verknüpfung die geringste Gefahr darstellte, die Parameter zu beeinflussen. Für die meisten meiner realen Daten waren die Antworten aus der Verwendung von Normal, Negativ-Binomial und Gamma mit Log-Link alle sehr ähnlich (zumindest mit der Präzision, die ich brauchte)
DocBuckets
0

Xii=1,2,..,kkp1pp=exp(x)[1+exp(x)]x

Michael Chernick
quelle
p
2
-1. Ich bin mit @amoeba einverstanden. Ich bin verwirrt, warum dies jemals gewertet wurde. Es hat nichts mit der Frage zu tun, die überhaupt keine binären Daten 0 oder 1 annimmt, sondern sich auf gemessene Anteile zwischen 0 und 1 konzentriert.
Nick Cox