Was ist der Unterschied zwischen diskreten und kontinuierlichen Daten?

62

Was ist der Unterschied zwischen diskreten und kontinuierlichen Daten?

Albort
quelle
2
Haben Sie zuerst Google ausprobiert? Für mich gibt es das .
Robin Girard
Hier ist ein schönes Video, das deine Frage beantwortet. youtube.com/watch?v=MIX3ZpzEOdM
2
Denken Sie nur an digital oder analog. Gleiche Sache - verschiedene Namen.
Pithikos
Ich weiß wirklich nicht, was der Unterschied zwischen "diskreten" und "kontinuierlichen" Daten ist. Aus bestimmten Gründen scheint es Intro-Stat-Klassen wirklich Spaß zu machen, dass die Schüler Regeln auswendig lernen, um diese beiden Dinge zu unterscheiden. Soweit ich verstehen konnte, liegen die Unterschiede nicht in den Daten, sondern in der Art und Weise, wie wir die Daten modellieren.
user795305
1
Dies war das Top-Ergebnis in Google, @robingirard.
denson

Antworten:

58

Diskrete Daten können nur bestimmte Werte annehmen. Möglicherweise gibt es eine unendliche Anzahl dieser Werte, aber jeder ist anders und dazwischen befindet sich kein grauer Bereich. Diskrete Daten können numerisch sein - wie die Anzahl der Äpfel - aber sie können auch kategorisch sein - wie rot oder blau oder männlich oder weiblich oder gut oder schlecht.

Fortlaufende Daten sind nicht auf definierte separate Werte beschränkt, sondern können jeden Wert über einen fortlaufenden Bereich einnehmen. Zwischen zwei kontinuierlichen Datenwerten kann eine unbegrenzte Anzahl von anderen Werten liegen. Fortlaufende Daten sind immer im Wesentlichen numerisch.

Manchmal ist es sinnvoll, numerische Daten eines Typs als solche des anderen Typs zu behandeln. Zum Beispiel ist so etwas wie Höhe durchgehend, aber oft interessieren uns winzige Unterschiede nicht sonderlich und gruppieren Höhen stattdessen in eine Reihe von getrennten Behältern . Umgekehrt, wenn wir große Mengen einer diskreten Entität zählen - Reiskörner, Termiten oder Pennys in der Wirtschaft -, können wir uns entscheiden, 2.000.006 und 2.000.008 nicht als entscheidend unterschiedliche Werte zu betrachten, sondern als nahegelegene Punkte auf einem ungefähres Kontinuum.

Manchmal kann es auch nützlich sein, numerische Daten als kategorial zu behandeln, z. B .: untergewichtig, normal, fettleibig. Dies ist normalerweise nur eine andere Art des Binning.

Es ist selten sinnvoll, kategoriale Daten als fortlaufend zu betrachten.

Funkgerät
quelle
@walktalky as @jeromy spielt zumindest in der Psychologie darauf an, dass kategoriale Variablen wie die Beantwortung von Fragen häufig als Repräsentation eines zugrunde liegenden Merkmals angesehen werden. In diesem Sinne werden kategoriale Daten manchmal als kontinuierlich angesehen.
Richiemorrisroe
@richiemorrisroe Man könnte den Unterschied zwischen den Daten und dem vermeintlichen Merkmal nicht herausgreifen, aber Sie haben natürlich Recht. Als Antwort auf diese Folgefrage wurden einige sehr interessante weitere Punkte angesprochen .
Walkytalky
danke für den link, diese antworten sind ja sehr interessant.
Richiemorrisroe
> " Möglicherweise gibt es unendlich viele dieser Werte, aber jeder ist anders und es gibt keine Grauzone dazwischen " - es ist tatsächlich perfekt möglich, eine diskrete Verteilung mit unterschiedlichen Werten zu haben, und dies gleichzeitig für zwei beliebige Verschiedene Werte, die Sie auswählen, haben immer mehr Werte dazwischen (gewissermaßen "Grauzone"). Sie tauchen in der Praxis nicht so oft auf, aber es ist durchaus möglich, dass sie tatsächlich auftauchen. in der Tat kann ich mir zwei verschiedene (wenn verwandte) Beispiele vorstellen, die leicht entstehen können.
Glen_b
Selbst wenn Sie 10 Milliarden Ohlc-Datenzeilen für eine Aktie hätten, wäre dies dennoch als diskret zu betrachten. Aber dann kann der Preis eines Vermögenswerts nicht zwischen 1 und unendlich liegen. Wie kann man in einer solchen Situation denken?
PirateApp
19

Daten sind immer diskret. Bei einer Stichprobe von nWerten für eine Variable ist die maximale Anzahl unterschiedlicher Werte, die die Variable annehmen kann, gleich n. Siehe dieses Zitat

Alle tatsächlichen Probenräume sind diskret und alle beobachtbaren Zufallsvariablen haben diskrete Verteilungen. Die stetige Verteilung ist eine mathematische Konstruktion, die für die mathematische Behandlung geeignet, aber praktisch nicht beobachtbar ist. EJG Pitman (1979, S. 1).

Es wird normalerweise angenommen, dass Daten zu einer Variablen aus einer Zufallsvariablen stammen. Die Zufallsvariable ist über einen Bereich hinweg stetig, wenn es unendlich viele mögliche Werte gibt, die die Variable zwischen zwei beliebigen Punkten im Bereich annehmen kann. Beispielsweise wird angenommen, dass Größe, Gewicht und Zeit kontinuierlich sind. Natürlich ist jede Messung dieser Variablen endlich genau und in gewissem Sinne diskret.

Es ist nützlich, zwischen geordneten (dh ordinalen), ungeordneten (dh nominalen)
und binären diskreten Variablen zu unterscheiden.

Einige einführende Lehrbücher verwechseln eine stetige Variable mit einer numerischen Variablen. Beispielsweise ist eine Punktzahl in einem Computerspiel diskret, obwohl sie numerisch ist.

Einige einführende Lehrbücher verwechseln eine Verhältnisvariable mit kontinuierlichen Variablen. Eine Zählvariable ist eine Verhältnisvariable, aber nicht kontinuierlich.

In der Praxis wird eine Variable oft als stetig behandelt, wenn sie eine ausreichend große Anzahl unterschiedlicher Werte annehmen kann.

Verweise

  • Pitman, EJG 1979. Grundlegende Theorie für statistische Inferenz. London: Chapman und Hall. Anmerkung: Ich fand das Zitat in der Einleitung von Kapitel 2 von Murray Aitkins Buch Statistical Inference: Ein integrierter Bayesian / Likelihood-Ansatz
Jeromy Anglim
quelle
12
Auch eine Wahrscheinlichkeit ist eine "mathematische Konstruktion" und nicht "direkt beobachtbar". Bedeutet das, dass es keine Wahrscheinlichkeit gibt? Insgesamt scheint diese interessante Antwort auf eine unhaltbare Voraussetzung aus , dass die Daten durch die Werte charakterisiert werden sie sie lieber als durch die Werte ein mathematisches Modell sie haben können. Letzteres ist das entscheidende Merkmal, nicht das erstere. Dies alles deutet darauf hin, dass es bei der kontinuierlichen / diskreten Unterscheidung darauf ankommt, wie wir über die Daten denken (dh wie wir sie modellieren).
Whuber
3
Es gibt eine clevere kleine Fabel, die @ whubers Argument illustriert: Lord (1953), "Über die statistische Behandlung von Fußballzahlen", American Psychologist , 8 , S. 750-51.
Scortchi - Wiedereinsetzung von Monica
Vielen Dank, @ Scortchi. Webversionen sind über eine Google Scholar-Suche verfügbar . Lord spricht ein vor 60 Jahren heiß diskutiertes Missverständnis darüber an, inwieweit die "Messtheorie" die statistische Analyse beeinflussen (oder sogar einschränken sollte). Mein Punkt war ein anderer bezüglich der Unterscheidung zwischen Modellkonstrukten und Beobachtungen.
Whuber
12

Die Temperaturen sind kontinuierlich. Sie kann 23 Grad, 23,1 Grad, 23,100004 Grad betragen.

Sex ist diskret. Sie können nur männlich oder weiblich sein (im klassischen Denken sowieso). Etwas, das Sie mit einer ganzen Zahl wie 1, 2 usw. Darstellen könnten

Der Unterschied ist wichtig, da viele statistische und Data-Mining-Algorithmen einen Typ verarbeiten können, den anderen jedoch nicht. Beispielsweise muss bei einer regulären Regression das Y stetig sein. In der logistischen Regression ist das Y diskret.

Neil McGuigan
quelle
5
Y
8

Diskrete Daten können nur bestimmte Werte annehmen.

Beispiel: Die Anzahl der Schüler in einer Klasse (Sie können nicht die Hälfte eines Schülers haben).

Fortlaufende Daten sind Daten, die einen beliebigen Wert (innerhalb eines Bereichs) annehmen können.

Beispiele:

  • Die Körpergröße einer Person: kann ein beliebiger Wert sein (im Bereich der menschlichen Körpergröße), nicht nur bestimmte feste Körpergrößen.
  • Zeit in einem Rennen: Sie könnten es sogar in Bruchteilen einer Sekunde messen,
  • Das Gewicht eines Hundes,
  • Die Länge eines Blattes,
  • Das Gewicht einer Person,
Subrato Mukherjee
quelle
2
Sie können uns auch mitteilen, wo Sie die Antwort eingefügt haben: mathsisfun.com/data/data-discrete-continuous.html
philmcole
Schön beschrieben.
Arsman Ahmad,
0

Im Falle einer Datenbank würden wir die Daten immer diskret speichern, auch wenn die Art der Daten kontinuierlich ist. Warum sollte ich die Art der Daten hervorheben? Wir sollten die Verteilung von Daten übernehmen, die uns bei der Analyse der Daten helfen könnten. Wenn die Art der Daten kontinuierlich ist, empfehle ich Ihnen, sie durch kontinuierliche Analyse zu verwenden.

Nehmen Sie ein Beispiel für kontinuierliche und diskrete: MP3. Sogar die Art des "Tons" ist analog, wenn es im digitalen Format gespeichert wird. Wir sollten es immer analog analysieren.

Tony
quelle
0

Einerseits stimme ich aus praktischer Sicht der Antwort von Jeromy Anglim zu. Letztendlich beschäftigen wir uns die meiste Zeit mit diskreten Variablen - auch wenn sie theoretisch gesehen kontinuierlich sind - und das hat echte Auswirkungen, zum Beispiel für die Klassifizierung. Erinnern Sie sich an Strobls Artikel, in dem es heißt, dass Random Forests auf Variablen mit mehreren Schnittpunkten ausgerichtet ist (höhere Genauigkeit, aber möglicherweise ähnliche Eigenschaften). Nach meiner persönlichen Erfahrung können probabilistische neuronale Netze auch eine Verzerrung darstellen, wenn Variablen eine unterschiedliche Genauigkeit aufweisen, es sei denn, sie sind vom gleichen Typ (dh kontinuierlich). Andererseits ist aus theoretischer Sicht die klassische Klassifikation (z. B. kontinuierlich, diskret, nominal usw.) IMHO richtig. Entsprechend denke ich, dass der Quellenname von Quinlans Artikel, der den M5-Algorithmus beschreibt, Was ein "Regressor" ist, ist eine gute Wahl. Die Definition und die Implikationen von kontinuierlichem vs. diskretem Verhalten sind also abhängig von der 'Umgebung'.

Refs:

Quinlan JR (1992). Lernen mit kontinuierlichen Klassen. In: Die 5. Australische Gemeinsame Konferenz über KI. Sydney (Australien), 343–348.

Strobl C., Boulesteix A.-L., Zeileis A. & Hothorn T. (2007). Verzerrung in zufälligen Waldgrößen mit unterschiedlicher Wichtigkeit: Abbildungen, Quellen und eine Lösung. BMC Bioinformatics, 8, 25. doi: 10.1186 / 1471-2105-8-25

Rafa_Mas
quelle
-1

Diskrete Daten nehmen bestimmte Werte an, während kontinuierliche Daten nicht auf separate Werte beschränkt sind.

Diskrete Daten sind unterschiedlich und es gibt keine Grauzone dazwischen, während fortlaufende Daten einen Wert über einem fortlaufenden Datenwert belegen.

Ahmad Ibraheem
quelle
-2

Diskrete Daten Sie können bestimmte Werte annehmen. Sie sind numerisch.

manuella
quelle
Willkommen zum Lebenslauf! Vielen Dank für Ihre Antwort, aber nehmen Sie sich bitte die Zeit, um frühere Antworten zu lesen und zu prüfen, ob Sie etwas Nützliches hinzufügen.
Scortchi
-3

Diskrete Daten können nur ganzzahlige Werte annehmen, während kontinuierliche Daten beliebige Werte annehmen können. Zum Beispiel ist die Anzahl der Krebspatienten, die jedes Jahr von einem Krankenhaus behandelt werden, unterschiedlich, aber Ihr Gewicht ist konstant. Einige Daten sind fortlaufend, werden jedoch diskret gemessen, z. B. Ihr Alter. Es ist üblich, dass Sie Ihr Alter mit 31 Jahren angeben.

Graham Cookson
quelle
11
Daten können diskret sein, ohne auf ganze Zahlen beschränkt zu sein. Oder Zahlen. Es ist immer möglich, diskrete Daten mit ganzen Zahlen darzustellen , aber das bedeutet nicht, dass die Daten nur solche Werte annehmen können.
Walkytalky
-4

Diskrete Daten sprechen insbesondere von endlichen Werten und kontinuierliche Daten sprechen von unendlichen Werten .....

Md.Shahid
quelle
2
Möchten Sie näher darauf eingehen?
Chl