Ist es ratsam, zwei Datensätze zu kombinieren?

7

Ich habe zwei Datensätze zur Herzfrequenz von Probanden, die an zwei verschiedenen Orten aufgezeichnet wurden (zwei verschiedene Kontinente, um genau zu sein). Die beiden Forschungsexperimente zielten darauf ab, die Emotionen der Probanden anhand der Veränderung ihrer Herzfrequenz im Laufe der Zeit zu ermitteln. Ich benutze maschinelles Lernen, um die Emotionen der Probanden vorherzusagen, und ich erhalte ein akzeptables Ergebnis, wenn ich es für jeden Datensatz separat teste. Ich erhalte jedoch ein noch besseres Ergebnis, wenn ich die beiden Datensätze zusammenführe.

Ich bin mir jedoch nicht sicher, ob die Kombination der beiden Datensätze akzeptabel ist. Wenn ich zwei irgendwie unterschiedliche Datensätze kombiniere, wird dies zu statistischen Verzerrungen führen? Wie soll ich meine Ergebnisse in einer Zeitschrift melden?

Lapatrie
quelle
1
Willkommen bei DS SE. Das Beste, was man sagen kann, ist, zu gehen und zu versuchen, die Ergebnisse in einem festen Validierungsdatensatz, der aus beiden Datensätzen stammt, zu kombinieren und dann separat zu vergleichen, damit wir unsere neuen Ergebnisse vergleichen können
Aditya
@Aditya, wie ich in meiner Frage sagte, habe ich die beiden Datensätze bereits kombiniert und ich erhalte bessere Ergebnisse. Bei meiner Frage geht es nicht darum, ob ich die Datensätze kombinieren kann. Meine Frage ist, ob dies keine statistische Verzerrung erzeugt, da ich zwei irgendwie unterschiedliche Datensätze kombiniere
Lapatrie

Antworten:

2

Wenn Sie als Kontinent für das Modell "Kontinent" oder "Standort" hinzufügen, können Sie die potenzielle Verzerrung kontrollieren und gleichzeitig die Ergebnisse der zusätzlichen Daten abrufen.

Super_John
quelle
Vielen Dank für Ihren hilfreichen Vorschlag. Ich werde dies tun und sehen, wie es geht
Lapatrie
3

Wenn Sie zusätzlich zu dem, was @Super_John gesagt hat, Kontinente als Feature hinzufügen, können Sie wahrscheinlich auch mindestens 2mehr Features haben.

  • Der Breitengrad
  • Der Längengrad

Fügen Sie außerdem eine weitere temporäre Spalte hinzu, um die Source(wie) anzugeben1 zu 1st df, 2 zu 2nd df etc), damit wir dem Farben hinzufügen können k-means

Jetzt können wir einen k-meansCluster haben, um zu sehen, ob sich Werte überlappen oder nicht ... (Wir versuchen, ihn unbeaufsichtigt zu sehen)

(Die Analogie entspricht der Tatsache, dass Sie die Zeit (24 Stunden am Tag) zyklisch wie beim Plotten gruppieren können sin(x), cos(X) und dann versuchen, sie zu gruppieren)

Schauen Sie sich diese Antwort an: Funktionsauswahl, Extraktion

Aditya
quelle
Vielen Dank für Ihre Antwort. Ich werde auf jeden Fall alle vorgeschlagenen Methoden untersuchen und Ihnen mitteilen, was am besten funktioniert hat.
Lapatrie
1
Dies ist ein großartiger Vorschlag. Fonde - Wenn Sie dies tun, können Sie jede Verzerrung zwischen den Datensätzen verstehen. Wenn nur eine geringe oder keine Verzerrung gefunden wird (dh Cluster überlappen sich eng), können Sie die Analyse kombinieren und als empirische Unterstützung für die Robustheit der kombinierten Datensätze in Ihrer Modellierungsaufgabe verwenden .
Super_John
@ Aditya Ich hoffe, Sie helfen wieder anderen :)
Medien
1
Ich habe keine andere Wahl! Aber du kannst sie zurücknehmen! Es ist in Ordnung :)) Ich mag diese Community! @Media
Aditya
3

Obwohl im Allgemeinen beim Trainieren eines maschinellen Lernmodells, je mehr Daten Sie haben, desto besser für das Trainieren verallgemeinerter Modelle, ist dies hier möglicherweise nicht der Fall.

Da die beiden Datensätze in völlig unterschiedlichen Umgebungen erfasst wurden, können sie völlig unterschiedliche Verteilungen aufweisen. In diesem Fall kann das Trainieren eines Modells für den kombinierten Datensatz sogar die Leistung des Modells verringern.

Mein Rat wäre, eine statistische Analyse für jeden Datensatz unabhängig durchzuführen - den Mittelwert und die Varianzen jeder der Variablen für jeden Datensatz zu ermitteln und sie beispielsweise zu vergleichen. Wenn die Analyse zeigt, dass die beiden Datensätze ziemlich ähnliche Verteilungen aufweisen (die Definition von ziemlich ähnlich überlasse ich Ihnen), sollte es in Ordnung sein, die beiden Datensätze zu kombinieren, um ein Modell zu trainieren.

PyRsquared
quelle
2

Ja, normalerweise mit ML, mehr Daten, bessere Ergebnisse! Natürlich ist das Mischen von Daten aus verschiedenen Bevölkerungsgruppen riskant, aber wenn es funktioniert, sind Sie auf dem richtigen Weg.

Die Verwendung weiterer Daten hilft bei der Verallgemeinerung während des Trainings Ihres Modells. Wenn Sie also in der Lage sind, Ihr Modell anhand einer Stichprobe aus beiden Populationen zu testen und ein gutes Ergebnis erzielen, können Sie dies tun.

Francesco Pegoraro
quelle
Vielen Dank. Ich werde versuchen, meinen Beitrag zu aktualisieren, nachdem ich das Ergebnis erhalten habe
Lapatrie
1

Um diese Diskussion zu ergänzen, sagt Ihnen eine angemessene Bewertung einiges und kann verwendet werden, um die Arbeit zu präsentieren:

  • Erstellen Sie einen Testsatz für Datensatz 1.
  • Erstellen Sie einen Testsatz für Datensatz 2.
  • Trainieren Sie ein Modell nur mit Datensatz 1, nur mit Datensatz 2 und verwenden Sie eine Kombination aus Datensatz 1 und 2, um die Leistung beider Testsätze zu bewerten.

Wenn das kombinierte Modell deutlich besser ist als die einzelnen Modelle, haben Sie etwas, und ich denke, Sie können dies in einer möglichen Veröffentlichung als solches melden. Natürlich müssen Sie immer noch motivieren, welches Modell für maschinelles Lernen Sie verwenden, welche Leistungsmetrik von Interesse ist, wie Sie eine Kreuzvalidierung durchführen, ...

Archie
quelle
2
Sie konzentrieren sich eng auf die Optimierung der Modellleistung. Die Sorge ist, dass die Daten und die Experimente irgendwie unterschiedlich sind und dass die Veröffentlichung jede Verzerrung zwischen den beiden ähnlichen, aber unterschiedlichen Experimenten anerkennen sollte. Während die Datensätze kombiniert werden können, muss eine Interpretationsebene vorhanden sein, die die Erklärung und Messung der Verzerrung zwischen den Experimenten ermöglicht, was Ihre Lösungen nicht zulassen.
Super_John
1
Durch Untersuchung des Testfehlers kann eine Schätzung der Vorspannung und Varianz vorgenommen werden. Darüber hinaus denke ich, dass die Testergebnisse des Modells, das auf Datensatz 1 trainiert und auf Testsatz 2 ausgewertet wurde (und umgekehrt), viel aussagen werden?
Archie
1

Bevor ich versuchen kann, Ihre Fragen zu beantworten, werde ich das vermitteln, was ich verstanden habe.

Szenario: Es stehen zwei Datensätze mit der Herzfrequenz von Probanden auf zwei verschiedenen Kontinenten zur Verfügung.

Ziel: Finden Sie die Emotionen der Probanden basierend darauf, wie stark sich ihre Herzfrequenz im Laufe der Zeit ändert

Ziel: Klassifizieren Sie die Emotionen der Probanden

Bemerkung:

  1. Ergebnisse sind akzeptabel, wenn sie separat trainiert und getestet werden.

  2. Angenommen, die Ergebnisse würden sich verbessern, wenn zwei Datensätze kombiniert werden

Fragen:

  1. Ist die Kombination der beiden Datensätze akzeptabel?

Wenn die Subjekte der beiden Kontinente gleich sind, sollte es kein Problem geben, die Datensätze zu kombinieren. Die Emotionen sind in allen Fächern ziemlich gleich

  1. Wenn Sie zwei irgendwie unterschiedliche Datensätze kombinieren, wird dies zu statistischen Verzerrungen führen?

Solange die Subjekte zweier Datensätze identisch sind, verbessert das Kombinieren Ihre Ergebnisse aufgrund von mehr Daten.

  1. Wie sollten Sie Ihre Ergebnisse in einer Zeitschrift veröffentlichen?

Sie können einen Hypothesentest (ANOVA) für zwei Proben durchführen

NRP
quelle
Vielen Dank für Ihre sehr ausführliche Antwort und es tut mir sehr leid für die Unklarheit in meinem ursprünglichen Beitrag. Die Themen auf zwei verschiedenen Kontinenten sind nicht gleich. Die Aufnahmebedingungen sind jedoch irgendwie ähnlich (aber nicht genau gleich).
Lapatrie
1
Er erwähnt "Die beiden Forschungsexperimente zielen darauf ab ...", so dass sie nicht dasselbe Forschungsexperiment sind, obwohl sie vielleicht ähnlich sind. Ich denke, hier geht es um die Verzerrung des unbekannten Unterschieds in den Experimenten. Obwohl sie definiert werden können, können sie nur kontrolliert werden, wenn der "Kontinent" oder die "Experiment-ID" im Modell enthalten sind oder auf andere Weise auf Unabhängigkeit getestet werden.
Super_John
@FondeLapatrie Hoffe du bist gut. Die Begründung ist wichtig, wenn bestimmte Schritte unternommen werden. Da können Sie zu diesem Anwendungsfall keine weiteren Details angeben. Sie müssen eine Entscheidung treffen. Ist es richtig, zwei Datensätze zu kombinieren, bei denen die Probanden unterschiedlich sind und die Versuchsbedingungen ähnlich sind? Wenn Probanden (z. B. fleischfressende Säugetiere) Tiger und Eisbären verschiedener Regionen sind, wäre es dann richtig, sie zu kombinieren? Dies ist nur ein Beispiel. Ich hoffe, Sie können verstehen, was ich zu vermitteln versuche.
NRP
@NRP Vielen Dank. Ich verstehe die Fallstricke und Risiken, die mit dem Zusammenführen von zwei Datensätzen verbunden sind. Nach dem Lesen der Konversation in diesem Thread glaube ich, dass es in meinem Fall gültig ist, die beiden Datensätze zu kombinieren.
Lapatrie
1
@FondeLapatrie Das ist gut. Wünsche dir Erfolg!
NRP