Freier Datensatz für sehr hohe dimensionale Klassifizierung [geschlossen]

35

Was ist der frei verfügbare Datensatz zur Klassifizierung mit mehr als 1000 Merkmalen (oder Stichprobenpunkten, wenn er Kurven enthält)?

Es gibt bereits ein Community-Wiki zu freien Datensätzen: Auffinden frei verfügbarer Datenproben

Aber hier wäre es schön, eine fokussiertere Liste zu haben, die bequemer verwendet werden kann. Außerdem schlage ich die folgenden Regeln vor:

Ein Beitrag pro Datensatz
Kein Link zum Datensatz
Jeder Datensatz muss zugeordnet werden
- einen Namen (um herauszufinden, worum es geht) und einen Link zum Datensatz (R-Datensätze können mit dem Paketnamen benannt werden)
- die Anzahl der Features (sagen wir es ist p ) die Größe des Datensatzes (sagen wir es ist n ) und die Anzahl der Labels / Klassen (sagen wir es ist k )
- eine typische Fehlerrate aus Ihrer Erfahrung (geben Sie den verwendeten Algorithmus in Worten an) oder aus der Literatur (in diesem letzten Fall verknüpfen Sie das Papier)

machine-learning classification dataset large-data Robin Girard
quelle

+1, aber die von NIPS2003 haben nur train.labels - das NIPS2003-Papier sagt deutlich "Validierungs- und Testset-Etiketten werden zurückgehalten".

Denis

Vielen Dank. Der Kommentar zu NIPS bezieht sich auf die Antwort von @mbq.

Robin Girard

Hat hier jemand einen hochdimensionalen Datensatz mit mehr als zwei Klassenbeschriftungen?

hlin117

3

Dorothea
n = 1950
p = 100000 (0,1 M, die Hälfte ist künstlich hinzugefügtes Rauschen)
k = 2 (~ 10x unsymmetrisch)
Ab NIPS2003 .

user88
quelle

Können Sie erklären, wie das 100000 Funktionen ist? Ich schaue mir die Trainingsdaten an und jede Zeile hat vielleicht 2500 Ganzzahlen pro Zeile.

JeremyKun

Es ist ein spärliches Array. Ganzzahl N bedeutet, dass Attribut N den Wert 1 hat.

3

Gisette
n = 13500
p = 5000 (die Hälfte ist künstlich hinzugefügtes Rauschen)
k = 2 (ausgeglichen)
Ab NIPS2003 .

user88
quelle

3

Dexter
n = 2600
p = 20000 (10k + 53 ist künstliches Rauschen)
k = 2 (ausgeglichen)
Ab NIPS2003 .

user88
quelle

Ich verstehe nicht ... ein Satz pro Person?

@robin & @mbq Ich würde vorschlagen, einen Datensatz pro Post zu behalten. Dies, damit die Menschen mit Stimmen angeben können, welche der dort vorgeschlagenen auch vorschlagen / unterstützen

Peter Smit

@ Peter, OK, ich folge deiner Idee, ich habe die Frage entsprechend geändert.

Robin Girard

3

Arcene
n = 900
p = 10000 (3k ist künstlich hinzugefügtes Rauschen)
k = 2 (~ ausgeglichen)
Ab NIPS2003 .

user88
quelle

2

Prostata (Genexpressionsarray)

k = 2
n = 48 + 52
p = 6033

Verfügbar über (unter anderem) R-Paket spls Name des Datensatzes: Prostata

Fehlerrate = 3/102 (siehe hier ) Ich denke auch, dass es Papier gibt, das eine Fehlerrate von 1/102 aufweist. Ich würde sagen, das ist ein einfacher Testfall.

Robin Girard
quelle

Freier Datensatz für sehr hohe dimensionale Klassifizierung [geschlossen]

Antworten: