Was ist der Unterschied zwischen diskreten und kontinuierlichen Daten?
continuous-data
discrete-data
Albort
quelle
quelle
Antworten:
Diskrete Daten können nur bestimmte Werte annehmen. Möglicherweise gibt es eine unendliche Anzahl dieser Werte, aber jeder ist anders und dazwischen befindet sich kein grauer Bereich. Diskrete Daten können numerisch sein - wie die Anzahl der Äpfel - aber sie können auch kategorisch sein - wie rot oder blau oder männlich oder weiblich oder gut oder schlecht.
Fortlaufende Daten sind nicht auf definierte separate Werte beschränkt, sondern können jeden Wert über einen fortlaufenden Bereich einnehmen. Zwischen zwei kontinuierlichen Datenwerten kann eine unbegrenzte Anzahl von anderen Werten liegen. Fortlaufende Daten sind immer im Wesentlichen numerisch.
Manchmal ist es sinnvoll, numerische Daten eines Typs als solche des anderen Typs zu behandeln. Zum Beispiel ist so etwas wie Höhe durchgehend, aber oft interessieren uns winzige Unterschiede nicht sonderlich und gruppieren Höhen stattdessen in eine Reihe von getrennten Behältern . Umgekehrt, wenn wir große Mengen einer diskreten Entität zählen - Reiskörner, Termiten oder Pennys in der Wirtschaft -, können wir uns entscheiden, 2.000.006 und 2.000.008 nicht als entscheidend unterschiedliche Werte zu betrachten, sondern als nahegelegene Punkte auf einem ungefähres Kontinuum.
Manchmal kann es auch nützlich sein, numerische Daten als kategorial zu behandeln, z. B .: untergewichtig, normal, fettleibig. Dies ist normalerweise nur eine andere Art des Binning.
Es ist selten sinnvoll, kategoriale Daten als fortlaufend zu betrachten.
quelle
Daten sind immer diskret. Bei einer Stichprobe von
n
Werten für eine Variable ist die maximale Anzahl unterschiedlicher Werte, die die Variable annehmen kann, gleichn
. Siehe dieses ZitatEs wird normalerweise angenommen, dass Daten zu einer Variablen aus einer Zufallsvariablen stammen. Die Zufallsvariable ist über einen Bereich hinweg stetig, wenn es unendlich viele mögliche Werte gibt, die die Variable zwischen zwei beliebigen Punkten im Bereich annehmen kann. Beispielsweise wird angenommen, dass Größe, Gewicht und Zeit kontinuierlich sind. Natürlich ist jede Messung dieser Variablen endlich genau und in gewissem Sinne diskret.
Es ist nützlich, zwischen geordneten (dh ordinalen), ungeordneten (dh nominalen)
und binären diskreten Variablen zu unterscheiden.
Einige einführende Lehrbücher verwechseln eine stetige Variable mit einer numerischen Variablen. Beispielsweise ist eine Punktzahl in einem Computerspiel diskret, obwohl sie numerisch ist.
Einige einführende Lehrbücher verwechseln eine Verhältnisvariable mit kontinuierlichen Variablen. Eine Zählvariable ist eine Verhältnisvariable, aber nicht kontinuierlich.
In der Praxis wird eine Variable oft als stetig behandelt, wenn sie eine ausreichend große Anzahl unterschiedlicher Werte annehmen kann.
Verweise
quelle
Die Temperaturen sind kontinuierlich. Sie kann 23 Grad, 23,1 Grad, 23,100004 Grad betragen.
Sex ist diskret. Sie können nur männlich oder weiblich sein (im klassischen Denken sowieso). Etwas, das Sie mit einer ganzen Zahl wie 1, 2 usw. Darstellen könnten
Der Unterschied ist wichtig, da viele statistische und Data-Mining-Algorithmen einen Typ verarbeiten können, den anderen jedoch nicht. Beispielsweise muss bei einer regulären Regression das Y stetig sein. In der logistischen Regression ist das Y diskret.
quelle
Diskrete Daten können nur bestimmte Werte annehmen.
Beispiel: Die Anzahl der Schüler in einer Klasse (Sie können nicht die Hälfte eines Schülers haben).
Fortlaufende Daten sind Daten, die einen beliebigen Wert (innerhalb eines Bereichs) annehmen können.
Beispiele:
quelle
Im Falle einer Datenbank würden wir die Daten immer diskret speichern, auch wenn die Art der Daten kontinuierlich ist. Warum sollte ich die Art der Daten hervorheben? Wir sollten die Verteilung von Daten übernehmen, die uns bei der Analyse der Daten helfen könnten. Wenn die Art der Daten kontinuierlich ist, empfehle ich Ihnen, sie durch kontinuierliche Analyse zu verwenden.
Nehmen Sie ein Beispiel für kontinuierliche und diskrete: MP3. Sogar die Art des "Tons" ist analog, wenn es im digitalen Format gespeichert wird. Wir sollten es immer analog analysieren.
quelle
Einerseits stimme ich aus praktischer Sicht der Antwort von Jeromy Anglim zu. Letztendlich beschäftigen wir uns die meiste Zeit mit diskreten Variablen - auch wenn sie theoretisch gesehen kontinuierlich sind - und das hat echte Auswirkungen, zum Beispiel für die Klassifizierung. Erinnern Sie sich an Strobls Artikel, in dem es heißt, dass Random Forests auf Variablen mit mehreren Schnittpunkten ausgerichtet ist (höhere Genauigkeit, aber möglicherweise ähnliche Eigenschaften). Nach meiner persönlichen Erfahrung können probabilistische neuronale Netze auch eine Verzerrung darstellen, wenn Variablen eine unterschiedliche Genauigkeit aufweisen, es sei denn, sie sind vom gleichen Typ (dh kontinuierlich). Andererseits ist aus theoretischer Sicht die klassische Klassifikation (z. B. kontinuierlich, diskret, nominal usw.) IMHO richtig. Entsprechend denke ich, dass der Quellenname von Quinlans Artikel, der den M5-Algorithmus beschreibt, Was ein "Regressor" ist, ist eine gute Wahl. Die Definition und die Implikationen von kontinuierlichem vs. diskretem Verhalten sind also abhängig von der 'Umgebung'.
Refs:
Quinlan JR (1992). Lernen mit kontinuierlichen Klassen. In: Die 5. Australische Gemeinsame Konferenz über KI. Sydney (Australien), 343–348.
Strobl C., Boulesteix A.-L., Zeileis A. & Hothorn T. (2007). Verzerrung in zufälligen Waldgrößen mit unterschiedlicher Wichtigkeit: Abbildungen, Quellen und eine Lösung. BMC Bioinformatics, 8, 25. doi: 10.1186 / 1471-2105-8-25
quelle
Diskrete Daten nehmen bestimmte Werte an, während kontinuierliche Daten nicht auf separate Werte beschränkt sind.
Diskrete Daten sind unterschiedlich und es gibt keine Grauzone dazwischen, während fortlaufende Daten einen Wert über einem fortlaufenden Datenwert belegen.
quelle
Diskrete Daten Sie können bestimmte Werte annehmen. Sie sind numerisch.
quelle
Diskrete Daten können nur ganzzahlige Werte annehmen, während kontinuierliche Daten beliebige Werte annehmen können. Zum Beispiel ist die Anzahl der Krebspatienten, die jedes Jahr von einem Krankenhaus behandelt werden, unterschiedlich, aber Ihr Gewicht ist konstant. Einige Daten sind fortlaufend, werden jedoch diskret gemessen, z. B. Ihr Alter. Es ist üblich, dass Sie Ihr Alter mit 31 Jahren angeben.
quelle
Diskrete Daten sprechen insbesondere von endlichen Werten und kontinuierliche Daten sprechen von unendlichen Werten .....
quelle