Ich habe zwei Datensätze zur Herzfrequenz von Probanden, die an zwei verschiedenen Orten aufgezeichnet wurden (zwei verschiedene Kontinente, um genau zu sein). Die beiden Forschungsexperimente zielten darauf ab, die Emotionen der Probanden anhand der Veränderung ihrer Herzfrequenz im Laufe der Zeit zu ermitteln. Ich benutze maschinelles Lernen, um die Emotionen der Probanden vorherzusagen, und ich erhalte ein akzeptables Ergebnis, wenn ich es für jeden Datensatz separat teste. Ich erhalte jedoch ein noch besseres Ergebnis, wenn ich die beiden Datensätze zusammenführe.
Ich bin mir jedoch nicht sicher, ob die Kombination der beiden Datensätze akzeptabel ist. Wenn ich zwei irgendwie unterschiedliche Datensätze kombiniere, wird dies zu statistischen Verzerrungen führen? Wie soll ich meine Ergebnisse in einer Zeitschrift melden?
quelle
Antworten:
Wenn Sie als Kontinent für das Modell "Kontinent" oder "Standort" hinzufügen, können Sie die potenzielle Verzerrung kontrollieren und gleichzeitig die Ergebnisse der zusätzlichen Daten abrufen.
quelle
Wenn Sie zusätzlich zu dem, was @Super_John gesagt hat, Kontinente als Feature hinzufügen, können Sie wahrscheinlich auch mindestens
2
mehr Features haben.Fügen Sie außerdem eine weitere temporäre Spalte hinzu, um die1 zu 1st df, 2 zu 2nd df etc), damit wir dem Farben hinzufügen können
Source
(wie) anzugebenk-means
Jetzt können wir einen
k-means
Cluster haben, um zu sehen, ob sich Werte überlappen oder nicht ... (Wir versuchen, ihn unbeaufsichtigt zu sehen)(Die Analogie entspricht der Tatsache, dass Sie die Zeit (24 Stunden am Tag) zyklisch wie beim Plotten gruppieren könnensin(x) , cos(X) und dann versuchen, sie zu gruppieren)
Schauen Sie sich diese Antwort an: Funktionsauswahl, Extraktion
quelle
Obwohl im Allgemeinen beim Trainieren eines maschinellen Lernmodells, je mehr Daten Sie haben, desto besser für das Trainieren verallgemeinerter Modelle, ist dies hier möglicherweise nicht der Fall.
Da die beiden Datensätze in völlig unterschiedlichen Umgebungen erfasst wurden, können sie völlig unterschiedliche Verteilungen aufweisen. In diesem Fall kann das Trainieren eines Modells für den kombinierten Datensatz sogar die Leistung des Modells verringern.
Mein Rat wäre, eine statistische Analyse für jeden Datensatz unabhängig durchzuführen - den Mittelwert und die Varianzen jeder der Variablen für jeden Datensatz zu ermitteln und sie beispielsweise zu vergleichen. Wenn die Analyse zeigt, dass die beiden Datensätze ziemlich ähnliche Verteilungen aufweisen (die Definition von ziemlich ähnlich überlasse ich Ihnen), sollte es in Ordnung sein, die beiden Datensätze zu kombinieren, um ein Modell zu trainieren.
quelle
Ja, normalerweise mit ML, mehr Daten, bessere Ergebnisse! Natürlich ist das Mischen von Daten aus verschiedenen Bevölkerungsgruppen riskant, aber wenn es funktioniert, sind Sie auf dem richtigen Weg.
Die Verwendung weiterer Daten hilft bei der Verallgemeinerung während des Trainings Ihres Modells. Wenn Sie also in der Lage sind, Ihr Modell anhand einer Stichprobe aus beiden Populationen zu testen und ein gutes Ergebnis erzielen, können Sie dies tun.
quelle
Um diese Diskussion zu ergänzen, sagt Ihnen eine angemessene Bewertung einiges und kann verwendet werden, um die Arbeit zu präsentieren:
Wenn das kombinierte Modell deutlich besser ist als die einzelnen Modelle, haben Sie etwas, und ich denke, Sie können dies in einer möglichen Veröffentlichung als solches melden. Natürlich müssen Sie immer noch motivieren, welches Modell für maschinelles Lernen Sie verwenden, welche Leistungsmetrik von Interesse ist, wie Sie eine Kreuzvalidierung durchführen, ...
quelle
Bevor ich versuchen kann, Ihre Fragen zu beantworten, werde ich das vermitteln, was ich verstanden habe.
Szenario: Es stehen zwei Datensätze mit der Herzfrequenz von Probanden auf zwei verschiedenen Kontinenten zur Verfügung.
Ziel: Finden Sie die Emotionen der Probanden basierend darauf, wie stark sich ihre Herzfrequenz im Laufe der Zeit ändert
Ziel: Klassifizieren Sie die Emotionen der Probanden
Bemerkung:
Ergebnisse sind akzeptabel, wenn sie separat trainiert und getestet werden.
Angenommen, die Ergebnisse würden sich verbessern, wenn zwei Datensätze kombiniert werden
Fragen:
Wenn die Subjekte der beiden Kontinente gleich sind, sollte es kein Problem geben, die Datensätze zu kombinieren. Die Emotionen sind in allen Fächern ziemlich gleich
Solange die Subjekte zweier Datensätze identisch sind, verbessert das Kombinieren Ihre Ergebnisse aufgrund von mehr Daten.
Sie können einen Hypothesentest (ANOVA) für zwei Proben durchführen
quelle