Ich habe drei Variablen:
- Abstand (kontinuierlicher, variabler Bereich negativer Unendlichkeit bis positiver Unendlichkeit)
- isLand (diskret kategorial / Boolesch, variabler Bereich 1 oder 0)
- Insassen (diskret kategorisch, variabler Bereich 0-7)
Ich möchte folgende statistische Fragen beantworten:
- Wie vergleiche ich Verteilungen, die sowohl kategoriale als auch kontinuierliche Variablen haben? Zum Beispiel möchte ich feststellen, ob die Datenverteilung von Entfernung zu Insassen abhängig vom Wert von isLand variiert.
- Kann ich bei zwei der drei Variablen die dritte anhand einer Gleichung vorhersagen?
- Wie kann ich die Unabhängigkeit mit mehr als zwei Variablen bestimmen?
categorical-data
continuous-data
Elpezmuerto
quelle
quelle
occupants
was du hast eine Ordnungs variabel ist, so würde ich nicht daran denken , wie kategorisch. Besonders mit 8 Werten ist es fast kontinuierlich.Antworten:
Ich würde empfehlen, insbesondere über logistische oder logarithmisch lineare Modelle und Methoden zur kategorialen Datenanalyse im Allgemeinen zu lesen. Die Anmerkungen zum folgenden Kurs sind für den Anfang ziemlich gut: Analyse diskreter Daten . Das Lehrbuch von Agresti ist ziemlich gut. Sie könnten auch Kleinbaum für einen schnellen Start in Betracht ziehen .
quelle
dist ~ occ | isLand
Verwendung von Lattice, oder diecoplot()
Funktion imvcd
Paket sehen - dies dient zu Erkundungszwecken; Frage 2 fordert ein Vorhersagemodell; Abhängig von der Variablen, die Sie als Ergebnis betrachten, kann es sich um eine logistische Regression (z. B. wenn Y = isLand), eine lineare Regression (z. B. wenn Y = Abstand) oder direkt um ein logarithmisch lineares Modell handeln, mit dem Sie Ihre kontinuierliche Messung kategorisieren können. Frage 3 ist eindeutig ein logarithmisch lineares Modell, wie von @ars vorgeschlagen.Um die Beziehung zwischen einem kontinuierlichen und einem kategorialen Faktor zu untersuchen, sollten Sie nebeneinander Box-Plots verwenden, die links kontinuierlich und unten kategorisch sind. Sind die Mittel unterschiedlich? Verwenden Sie ANOVA zur Überprüfung.
Um die Beziehung zwischen kategorialen Faktoren zu untersuchen, ist es ein guter Anfang, ein Mosaikdiagramm sowie eine Kontingenztabelle zu verwenden. Sie können zuerst gruppieren und dann separate Diagramme erstellen.
Um die Insassen vorherzusagen, ist die ordinale logistische Regression wahrscheinlich der beste Weg.
Um isLand vorherzusagen, sollte eine (binomiale) logistische Regression ausreichen.
Um die Entfernung vorherzusagen, funktioniert die OLS-Regression.
quelle