Angenommen, Sie können "Übereinstimmungen" zwischen Käufern und Verkäufern auf einem Markt beobachten. Sie können auch Merkmale sowohl von Käufern als auch von Verkäufern beobachten, anhand derer Sie zukünftige Spiele vorhersagen und Empfehlungen für beide Seiten des Marktes aussprechen möchten.
Nehmen Sie der Einfachheit halber an, dass es N Käufer und N Verkäufer gibt und jeder eine Übereinstimmung findet. Es gibt N Übereinstimmungen und (N-1) (N-1) Nicht-Übereinstimmungen. Der All-Inclusive-Trainingsdatensatz enthält N + (N-1) * (N-1) Beobachtungen, die unerschwinglich groß sein können. Es scheint, dass das zufällige Abtasten von (N-1) (N-1) Nichtübereinstimmungen und das Trainieren eines Algorithmus für diese reduzierten Daten effizienter sein könnte. Meine Fragen sind:
(1) Ist eine Stichprobe aus den Nicht-Spielen, um einen Trainingsdatensatz zu erstellen, ein angemessener Weg, um mit diesem Problem umzugehen?
(2) Wenn (1) wahr ist, gibt es eine strenge Möglichkeit zu entscheiden, wie groß ein Teil von (N-1) (N-1) sein soll?
quelle
Betrifft (1). Sie müssen positive und negative Beobachtungen aufbewahren, wenn Sie aussagekräftige Ergebnisse erzielen möchten.
(2) Es gibt keine klügere Methode der Unterabtastung als die gleichmäßige Verteilung, wenn Ihre Daten nicht von vornherein vorliegen.
quelle