Was ist die mathematisch strenge Definition von klobigen Daten?

7

Bestimmte Messgeräte unterliegen am Arbeitsplatz einer unterschiedlichen numerischen Genauigkeit. In einigen Fällen kann die Genauigkeit ziemlich schwach sein (dh nur auf einen oder zwei signifikante Werte). Anstelle von Datensätzen wie diesen: wobei jeder der Werte eindeutig ist, erhalten wir einen Datensatz, der wie aussieht: Auf einem einzelnen Bewegungsbereichsdiagramm grafisch dargestellt, erscheint der letztere Satz "klobiger", und das zugrunde liegende Problem besteht darin, dass die Schätzung der tatsächlichen Variation innerhalb der Daten schwieriger wird, wenn die Messinkremente zu groß sind.

{0,012, 0,033, 0,042, 0,982, 1,028, 1,037, 1,950}},

$\{0.012, 0.033, 0.042, 0.982, 1.028, 1.037, 1.950\},$

{0.0, 0.0, 0.0, 1.0, 1.0, 1.0, 2.0}} .

$\{ 0.0, 0.0, 0.0, 1.0, 1.0, 1.0, 2.0\}.$

Meine Frage lautet wie folgt: Wenn ein Computer klobige Daten erkennen soll, muss ich eine logische Definition für das Phänomen bereitstellen. Ich habe Definitionen gesehen, die "3 oder weniger unterschiedliche Werte" oder "4 oder weniger unterschiedliche Werte" sagen, aber ich habe keine Ahnung, wie diese Definitionen erhalten wurden und was die Grundlage / Rechtfertigung für solche Standards ist.

Wäre jemand in der Lage, mich zu einer strengen Definition und Rechtfertigung zu führen?

dataset terminology quality-control binning interval-censoring daOnlyBG
quelle

1

Was werden Sie zunächst anders machen, je nachdem, ob die Daten "klobig" sind oder nicht?

Scortchi - Monica wieder einsetzen

Ich würde diese Daten als spärlich und nicht als klobig bezeichnen.

Vladislavs Dovgalecs

3

@xeon: sparse bedeutet normalerweise "viele Nullen". Während 3/7 der Werte 0 sind, denke ich nicht, dass dies der Aspekt ist, auf den sie sich beziehen.

Cliff AB

@CliffAB Das Ausmaß der Sparsity kann normalerweise gesteuert werden, z. B. logistische Regression mit l1-Norm. Im Beispiel sieht es so aus, als ob die Werte nahe 0 auf genau 0 geklemmt werden.

Vladislavs Dovgalecs

3

@xeon: Mit der logistischen Regression können Sie die Sparsamkeit der geschätzten Effekte mit Lasso erhöhen , wie Sie bereits erwähnt haben. Das OP fragt jedoch nach der Rundung der Daten , was bedeuten kann, dass die Werte spärlich sind, wenn viele von ihnen beispielsweise in das Intervall [-0,5, 0,5) fallen, aber sicherlich nicht unbedingt. Auch hier glaube ich nicht, dass sie fragen: "Was mache ich, wenn viele meiner Daten gleich 0 sind?", Sondern "Was ist, wenn ich Daten zusammengefasst habe"?

Cliff AB

8

Daten wie diese werden oft als quantisiert bezeichnet , insbesondere wenn die Genauigkeit der Zahlen durch das Messgerät begrenzt wird. Beispielsweise kann eine Skala nur eine ganzzahlige Anzahl von Gramm oder Pfund anzeigen. Dies ist besonders häufig der Fall, wenn ein analoges Signal (von einem Mikrofon, einem Dehnungsmessstreifen usw.) digitalisiert wird. Der resultierende Fehler (z. B. die Differenz zwischen 0,012 und 0 für Ihren ersten Datenpunkt) wird als Quantisierungsfehler bezeichnet. Sie können es auch als Rundung oder Diskretisierung bezeichnen , obwohl dies nur schwach impliziert, dass es während der Nachbearbeitung durchgeführt wurde.

Das Abschneiden funktioniert auch hier, aber man muss zwischen dem Abschneiden des Bereichs der Beobachtungen (z. B. Konvertieren von Werten über 10 in 10 oder unter 0 in 0) und dem Abschneiden der Werte einzelner Beobachtungen unterscheiden.

Mir ist keine Möglichkeit bekannt, die Quantisierung in jeder Situation zuverlässig zu erkennen. Tatsächlich werden so gut wie alle Daten bis zu einem gewissen Grad quantisiert, und das Ausmaß der Quanitisierung ist häufig im Voraus aus den Spezifikationen des Messgeräts bekannt. Es gibt jedoch einige einfache Heuristiken, die Sie ausprobieren können:

Wie viele eindeutige Werte haben Sie? Digital-Analog-Wandler verwenden eine feste Anzahl von Bits (normalerweise 8, 12, 16 oder 24), wodurch Sie oder eindeutige Werte erhalten und diese Werte sind oft gleichmäßig zwischen dem Maximal- und Minimalwert verteilt. $2^8, 2^{12}, 2^{16}$ $2^{24}$
Gibt es eine konsistente Schrittgröße zwischen den Werten? Mit anderen Worten, sortieren Sie sie, werfen Sie Duplikate aus und prüfen Sie, ob die benachbarten Werte normalerweise um denselben Betrag zunehmen.

Ich denke jedoch, Sie sollten sich besser erkundigen, wie die Daten zunächst generiert wurden.

Wenn die Daten "mild" quantisiert sind, ist dies normalerweise kein Problem. Zum Beispiel würde ich mir keine Sorgen machen, wenn die Gewichte meiner menschlichen Probanden in (ganzzahligen) Pfund oder Kilogramm aufgezeichnet würden. Wenn die Daten stark quantisiert sind, können Sie sie als intervallzensierte Daten behandeln. Dies ist besonders häufig bei Überlebensanalysen der Fall, bei denen Sie möglicherweise nur in einem festgelegten Intervall prüfen, ob jemand lebt oder etwas funktioniert (z. B. wöchentliche Inspektionen einer Fabrik). Suchen Sie nach Intervallregression, wenn dies Ihrer Situation entspricht.

Sie sollten sicher sein, die Nullhypothese zu verstehen, die allen Tests zugrunde liegt, die Sie mit gruppierten Daten ausführen. Beispielsweise unterscheiden sich Daten, die gleichmäßig über 10 Bins verteilt sind, erheblich von Daten, die gleichmäßig über den gesamten Bereich verteilt sind.

Matt Krause
quelle

6

Im Allgemeinen wird auf "gruppierte Daten" Bezug genommen.

Wenn Sie an ein Histogramm denken, bezieht sich jeder Balken auf einen Behälter. Wenn sich ein Wert zwischen dem oberen und unteren Ende eines bestimmten Fachs befindet, wird dieser Wert in dieses Fach eingefügt. Wenn Sie beispielsweise Daten aufgrund einer einfachen Rundung zusammengefasst haben (dh ein wahrer Wert von 1,01 wird im Datensatz als 1,0 dargestellt), können Sie sich den beobachteten Wert 1,0 vorstellen, was bedeutet, dass der wahre Wert tatsächlich im Intervall lag [0,5, 1,5]. .

In der Regel wird dieser Aspekt der Daten häufig ignoriert. Es gibt oft wenig Probleme, das ganzzahlige Alter eines Probanden (28 Jahre) anstelle des genauen Alters (28,153 ...) zu verwenden. In den Fällen, in denen der Binning-Effekt erheblich sein kann (dh Jahre im Unternehmen; 1/12 unterscheidet sich stark von 5/12, aber gerundet sind beide 0), können die Daten als Intervall zensiert behandelt werden , um diese Unsicherheit bei der genauen Reaktion zu berücksichtigen Wert.

Cliff AB
quelle

2

In Ihrem Fall spricht man von Quantisierung , einem häufigen Problem bei der Signalverarbeitung. Normalerweise sehen Sie gleichmäßig verteilte Daten (auch wenn Sie keine Multiplizitäten erhalten).

Im Allgemeinen (gibt es viele Punkte nahe beieinander, die nicht mit demselben Wert oder Abstand erforderlich sind) sollten Sie sich die Clusterbildung ansehen . Für eindimensionale Werte sortieren Sie sie und erstellen Sie ein Histogramm der Unterschiede zwischen den nächstgelegenen Werten.

Piotr Migdal
quelle

0

Um die anderen guten Antworten zu ergänzen und die Quellen der Klumpigkeit zu kommentieren, kann die Quantisierung auch aus sozialen Gründen erfolgen. Wenn Sie sich beispielsweise ein Histogramm des Diamantdatensatzes im Detail ansehen, sehen Sie bei "nice" ausgeprägte Spitzen. Werte, 0,3, 0,4, 0,5, 0,7, 1,0, 1,2, 1,5, 2,0 usw. Es gibt nur sehr wenige Diamanten mit einem Gewicht von 0,98, aber viele mit einem Gewicht von etwas mehr als 1,0, was erklärt wurde als - niemand möchte eine 0,98 erhalten Karat Diamant ... sie wollen einen 1,0 Karat Diamanten !!

library(ggplot2)
data(diamonds)
ggplot(diamonds, aes(x=carat)) + geom_histogram(bins=200) + xlim(0,2.1)

Sean
quelle

Was ist die mathematisch strenge Definition von klobigen Daten?

Antworten: