Um die richtigen statistischen Tools auszuwählen, muss ich zunächst feststellen, ob mein Datensatz diskret oder kontinuierlich ist.
Könnte es Ihnen etwas ausmachen, mir beizubringen, wie ich testen kann, ob die Daten diskret oder kontinuierlich mit R sind?
r
continuous-data
discrete-data
evdstat
quelle
quelle
Antworten:
Der einzige Grund, warum ich sofort daran denken kann, diese Entscheidung zu verlangen, ist die Entscheidung über die Aufnahme einer Variablen als kontinuierlich oder kategorisch in eine Regression.
Zunächst einmal haben Sie manchmal keine Wahl: Zeichenvariablen oder Faktoren (bei denen jemand, der den data.frame bereitstellt, die Entscheidung für Sie getroffen hat) sind offensichtlich kategorisch.
x1
x
Ich würde eher sagen, dass eine Variable mit nur 5% eindeutigen Werten sicher als diskret bezeichnet werden kann (aber wie erwähnt: dies ist subjektiv). Dies macht es jedoch nicht zu einem guten Kandidaten für die Aufnahme als kategoriale Variable in Ihr Modell: Wenn Sie 1000000 Beobachtungen und 5% eindeutige Werte haben, bleiben immer noch 50000 'Kategorien' übrig: Wenn Sie dies als kategorial einschließen, werden Sie ' Ich werde verdammt viele Freiheitsgrade verbringen.
Ich denke, dieser Aufruf ist noch subjektiver und hängt stark von der Stichprobengröße und der Methode der Wahl ab. Ohne mehr Kontext ist es schwierig, hier Richtlinien zu geben.
x
0
1
2
quelle