Wie teste ich, ob meine Daten diskret oder kontinuierlich sind?

11

Um die richtigen statistischen Tools auszuwählen, muss ich zunächst feststellen, ob mein Datensatz diskret oder kontinuierlich ist.

Könnte es Ihnen etwas ausmachen, mir beizubringen, wie ich testen kann, ob die Daten diskret oder kontinuierlich mit R sind?

evdstat
quelle
Meinen Sie, ob bestimmte Variablen als kontinuierliche oder als kategoriale (diskrete) Prädiktoren in einem Regressionsmodell hinzugefügt werden müssen?
Nick Sabbe
Wie Daten gesammelt und wie Variablen aufgezeichnet wurden, gibt Ihnen wahrscheinlich einige Hinweise darauf. Darüber hinaus hängt es wahrscheinlich davon ab, ob Sie Ihre Daten als kontinuierliche oder diskrete Daten modellieren möchten (siehe z. B. Fragen zu Likert-Elementen und zur Analyse diskreter Skalen). Unabhängiger Punkt: Es wäre gut, wenn Sie Ihr Konto ein für alle Mal registrieren und möglicherweise in Betracht ziehen könnten, Antworten zu akzeptieren oder Ihre früheren Fragen zu überarbeiten.
Chl
Führen Sie eine QQNorm durch, und wenn die Punkte alle entlang der Diagonale liegen, sind die Daten kontinuierlich (wenn sie sich in horizontalen Linien befinden, sind sie diskret)
user222362

Antworten:

14

Der einzige Grund, warum ich sofort daran denken kann, diese Entscheidung zu verlangen, ist die Entscheidung über die Aufnahme einer Variablen als kontinuierlich oder kategorisch in eine Regression.

Zunächst einmal haben Sie manchmal keine Wahl: Zeichenvariablen oder Faktoren (bei denen jemand, der den data.frame bereitstellt, die Entscheidung für Sie getroffen hat) sind offensichtlich kategorisch.

x11.52.5x

x1<-sample(c(-1.5, 2.5), 1000)
length(unique(x1)) #absolute number of different variables
length(unique(x1))/length(x1) #relative
x2<-runif(1000)
length(unique(x2)) #absolute number of different variables
length(unique(x2))/length(x2) #relative

Ich würde eher sagen, dass eine Variable mit nur 5% eindeutigen Werten sicher als diskret bezeichnet werden kann (aber wie erwähnt: dies ist subjektiv). Dies macht es jedoch nicht zu einem guten Kandidaten für die Aufnahme als kategoriale Variable in Ihr Modell: Wenn Sie 1000000 Beobachtungen und 5% eindeutige Werte haben, bleiben immer noch 50000 'Kategorien' übrig: Wenn Sie dies als kategorial einschließen, werden Sie ' Ich werde verdammt viele Freiheitsgrade verbringen.

Ich denke, dieser Aufruf ist noch subjektiver und hängt stark von der Stichprobengröße und der Methode der Wahl ab. Ohne mehr Kontext ist es schwierig, hier Richtlinien zu geben.

x012

E[y]=β0+β11x1+β12x2
xix==i
E[y]=β0+β1x
E[y]=β0+β1x1+2β1x2

χ2

Nick Sabbe
quelle
3
+1 Nettes Beispiel, wie man ungerade Fragen mit guter Antwort verbessert.
1
Tatsächlich kann jedes Kontinuum diskretisiert werden, sodass Histogramme nur zeigen, wie es in der Praxis gemacht wird. Wahrscheinlich habe ich Zähldaten (ganzzahlige Wertdaten) mit kategorialen Daten verwechselt ... obwohl meine erste Vermutung diskrete und kontinuierliche Verteilungen betraf, nicht nur Datenpunkte (und verrückte Forscher, die Kategorien echte Werte zuweisen), also ... meine trotzdem gelöscht , da ich nicht denke, dass es das Problem löst (+1)
Dmitrij Celov
1
Es scheint, dass @Dmitrij seine Antwort entfernt hat. Könnten Sie bitte Ihre Antwort erneut bearbeiten, um dies widerzuspiegeln? Es ist eine großartige Antwort (+1), sodass der Verweis auf nicht vorhandene Inhalte etwas hervorsticht.
mpiktas