Möchten Sie den Link zum Tutorial teilen? Klingt interessant.
Cheesus
1
@cheeesus ... Ich habe das E-Book-Data-Mining in R mit Fallstudien durchlaufen ... dort finden Sie viele weitere interessante Beispiele.
Ankita
Antworten:
193
Das Ding rechts von <-ist ein formulaObjekt. Es wird oft verwendet, um ein statistisches Modell zu bezeichnen, bei dem das Ding links von ~der Antwort und das Ding rechts von ~die erklärenden Variablen sind. Auf Englisch würde man also so etwas wie "Arten hängen von der Länge der Kelchblätter, der Breite der Kelchblätter, der Länge der Blütenblätter und der Breite der Blütenblätter ab" sagen .
Der myFormula <-Teil dieser Zeile speichert die Formel in einem aufgerufenen Objekt, myFormuladamit Sie sie in anderen Teilen Ihres R-Codes verwenden können.
Andere häufige Verwendungen von Formelobjekten in R.
Schließlich gibt es einige hilfreiche Tricks mit Formeln (siehe help("formula")mehr):
myFormula <- Species ~ .
Die obige Version ist beispielsweise dieselbe wie die Originalversion, da der Punkt "alle Variablen, die noch nicht verwendet wurden" bedeutet. Dabei wird der data.frame betrachtet, den Sie in Ihrem eventuellen Modellaufruf verwenden, welche Variablen im data.frame vorhanden sind, aber in Ihrer Formel nicht explizit erwähnt werden, und der Punkt wird durch diese fehlenden Variablen ersetzt.
Vielen Dank für die Antwort @Ari B. Friedman, aber die letzte Zeile ist etwas mehrdeutig, wenn Sie sagen, dass "Punkt" alle noch nicht verwendeten Variablen bedeutet ". Wenn Sie es weiter veranschaulichen könnten.
Ankita
9
@Ankita, "noch nicht verwendet" bedeutet in diesem Zusammenhang nicht bezeichnet. In Species~.ist Spezies die einzige Variable, die verwendet wurde. Daher hängt es von jeder anderen Variablen im data.frame ab.
x4nd3r
Das verstehe ich nicht myFormula <- Species ~ . . Wann wird der Punkt noch durch Variablen aus data.frame ersetzt? Könnten Sie ein Beispiel geben
Antworten:
Das Ding rechts von
<-
ist einformula
Objekt. Es wird oft verwendet, um ein statistisches Modell zu bezeichnen, bei dem das Ding links von~
der Antwort und das Ding rechts von~
die erklärenden Variablen sind. Auf Englisch würde man also so etwas wie "Arten hängen von der Länge der Kelchblätter, der Breite der Kelchblätter, der Länge der Blütenblätter und der Breite der Blütenblätter ab" sagen .Der
myFormula <-
Teil dieser Zeile speichert die Formel in einem aufgerufenen Objekt,myFormula
damit Sie sie in anderen Teilen Ihres R-Codes verwenden können.Andere häufige Verwendungen von Formelobjekten in R.
Das
lattice
Paket verwendet sie, um die zu plottenden Variablen anzugeben .Das
ggplot2
Paket verwendet sie, um Panels zum Plotten anzugeben .Das
dplyr
Paket verwendet sie für nicht standardmäßige Auswertungen .quelle
lazyeval
Vignette gibt eine gute Einführung in eine FormelR definiert einen
~
(Tilde-) Operator zur Verwendung in Formeln. Formeln haben alle möglichen Verwendungszwecke, aber die häufigste ist die Regression:help("~")
oderhelp("formula")
wird dir mehr beibringen.@Spacedman hat die Grundlagen abgedeckt. Lassen Sie uns diskutieren, wie es funktioniert.
Beachten Sie als Operator zunächst, dass es sich im Wesentlichen um eine Verknüpfung zu einer Funktion handelt (mit zwei Argumenten):
Dies kann hilfreich sein, um z
apply
. B. Familienbefehle zu verwenden.Zweitens können Sie die Formel als Text bearbeiten :
Drittens können Sie es als Liste bearbeiten :
Schließlich gibt es einige hilfreiche Tricks mit Formeln (siehe
help("formula")
mehr):Die obige Version ist beispielsweise dieselbe wie die Originalversion, da der Punkt "alle Variablen, die noch nicht verwendet wurden" bedeutet. Dabei wird der data.frame betrachtet, den Sie in Ihrem eventuellen Modellaufruf verwenden, welche Variablen im data.frame vorhanden sind, aber in Ihrer Formel nicht explizit erwähnt werden, und der Punkt wird durch diese fehlenden Variablen ersetzt.
quelle
Species~.
ist Spezies die einzige Variable, die verwendet wurde. Daher hängt es von jeder anderen Variablen im data.frame ab.myFormula <- Species ~ .
. Wann wird der Punkt noch durch Variablen aus data.frame ersetzt? Könnten Sie ein Beispiel geben