Was ist der frei verfügbare Datensatz zur Klassifizierung mit mehr als 1000 Merkmalen (oder Stichprobenpunkten, wenn er Kurven enthält)?
Es gibt bereits ein Community-Wiki zu freien Datensätzen: Auffinden frei verfügbarer Datenproben
Aber hier wäre es schön, eine fokussiertere Liste zu haben, die bequemer verwendet werden kann. Außerdem schlage ich die folgenden Regeln vor:
- Ein Beitrag pro Datensatz
- Kein Link zum Datensatz
Jeder Datensatz muss zugeordnet werden
einen Namen (um herauszufinden, worum es geht) und einen Link zum Datensatz (R-Datensätze können mit dem Paketnamen benannt werden)
die Anzahl der Features (sagen wir es ist p ) die Größe des Datensatzes (sagen wir es ist n ) und die Anzahl der Labels / Klassen (sagen wir es ist k )
eine typische Fehlerrate aus Ihrer Erfahrung (geben Sie den verwendeten Algorithmus in Worten an) oder aus der Literatur (in diesem letzten Fall verknüpfen Sie das Papier)
quelle
Antworten:
Dorothea
n = 1950
p = 100000 (0,1 M, die Hälfte ist künstlich hinzugefügtes Rauschen)
k = 2 (~ 10x unsymmetrisch)
Ab NIPS2003 .
quelle
Gisette
n = 13500
p = 5000 (die Hälfte ist künstlich hinzugefügtes Rauschen)
k = 2 (ausgeglichen)
Ab NIPS2003 .
quelle
Dexter
n = 2600
p = 20000 (10k + 53 ist künstliches Rauschen)
k = 2 (ausgeglichen)
Ab NIPS2003 .
quelle
Arcene
n = 900
p = 10000 (3k ist künstlich hinzugefügtes Rauschen)
k = 2 (~ ausgeglichen)
Ab NIPS2003 .
quelle
Prostata (Genexpressionsarray)
Verfügbar über (unter anderem) R-Paket spls Name des Datensatzes: Prostata
Fehlerrate = 3/102 (siehe hier ) Ich denke auch, dass es Papier gibt, das eine Fehlerrate von 1/102 aufweist. Ich würde sagen, das ist ein einfacher Testfall.
quelle