Welcher Vorhersagealgorithmus kann verwendet werden, um eine Zahl bei anderen Zahlen vorherzusagen?

7

Ich bin derzeit auf der Suche nach einem überwachten Lernalgorithmus, mit dem die Ausgabe bei einem ausreichend großen Trainingssatz vorhergesagt werden kann.

Hier ist ein einfaches Beispiel. Angenommen, der Trainingsdatensatz ist {[A=1, B=330, C=1358.238902], result=234.244378}und der Testdatensatz{[A=893, B=34, C=293], result=?}

Meine Absicht ist es, ?anhand der im Trainingsdatensatz angegebenen Eingabewerte und Ergebnisse vorherzusagen .

Welcher Algorithmus wäre angesichts des großen Bereichs meiner Eingabe- / Ausgabewerte für dieses Problem effektiv? Würde dies eine Art Regressionsalgorithmus erfordern?

Kryptonaut
quelle
1
1. Sie benötigen mehr Trainingsdaten, idealerweise 10000+. 2 Aus meiner Erfahrung zeigt xgboost gute Ergebnisse für solche Daten
Stepan Novikov
1
@StepanNovikov danke für die Empfehlung - ich habe bereits ein ziemlich großes Trainingsset (ungefähr 4000+). Ich werde auch xgboost auschecken. Danke
Cryptonaut
@DukeZhou Ich denke, Textklassifizierungsalgorithmus ... kann in diesem Szenario funktionieren.
Quintumnia

Antworten:

2

Es ist unmöglich zu lösen, bis Sie eine Fehlermessung definieren (am Beispiel | R-R '| oder (R-R') ^ 2) und wie sich dieser Fehler ändert, wenn sich A, B und C ändern.

Extremes Beispiel: R ist zufällig (unabhängig von A-, B-, C-Werten), aber statisch. Bei einigen Werten für A, B, C können Sie den Wert von R (A, B, C) nur beantworten, wenn A, B, C im Trainingssatz enthalten waren. R (A, B, C) ist undefiniert, wenn A, B, C nicht im Trainingssatz enthalten waren.

Darüber hinaus können Verbesserungen vorgenommen werden, wenn R einige Eigenschaften aufweist, beispielsweise wenn angegeben werden kann, dass R (A, B, C) = R (B, A, C) oder R (A1, B2, C2) = R. (A2, B2, C2) wenn A1 + B1 + C1 = A2 + B2 + C2.

pasaba por aqui
quelle
-1

Ohne mehr Daten zu sehen, ist es schwer sicher zu sagen. Oberflächlich betrachtet scheint dies ein Problem vom Typ Regression zu sein. Wie Sie bereits erwähnt haben, sind die Eingabewerte sehr unterschiedlich, aber das bedeutet nicht unbedingt , dass so etwas wie eine lineare Regression nicht funktionieren würde. Probieren Sie es aus und sehen Sie, welchen Korrelationskoeffizienten Sie erhalten. Wenn es wirklich niedrig ist, benötigen Sie wahrscheinlich einen anderen Ansatz, ODER die Daten haben in diesem Szenario möglicherweise keine (oder nicht viel) Vorhersagekraft.

Über die lineare Regression hinaus besteht möglicherweise eine kompliziertere mathematische Beziehung zwischen den Ein- und Ausgängen, die mithilfe der symbolischen Regression ermittelt werden kann . Eine andere Möglichkeit, wenn eine komplexe nichtlineare Beziehung im Spiel ist, besteht darin, dass ein künstlicher neuronaler Netzwerkansatz gut funktionieren könnte.

Geisteskriminalität
quelle