Angenommen, ich habe ein Streudiagramm wie dieses:
Da ich viele Streudiagramme wie dieses habe, möchte ich eine Feature-Transformation durchführen, dh einen Squash (x,y)in einem einzelnen Term, der in ein NN eingegeben wird. Welche Transformation wie x/yoder (x/y)^2eine andere Transformation für diese Art von Diagrammen am besten geeignet ist, dh die Trennung stärker erhöhen, während sie auf einen einzelnen Term reduziert wird.
Wie @David Masip erwähnte, wäre die Hauptkomponentenanalyse hier eine gute Methode. Im Wesentlichen ist PCA eine Methode, mit der eine Abbildung zwischen einem hochdimensionalen Raum und einem niederdimensionalen Raum gefunden wird, während die Daten so stark wie möglich variiert werden - perfekt für die Dimensionsreduzierung hochdimensionaler Daten.
Sie erwähnen jedoch, dass Sie diese reduzierten Daten zum Trainieren eines neuronalen Netzwerkmodells verwenden möchten. Es kann am besten sein, zuerst das neuronale Netzmodell zu trainieren und zu sehen, wie gut es funktioniert, da neuronale Netze normalerweise sehr gut darin sind, Interaktionen zwischen Merkmalen sowie anderen verborgenen Strukturen in den Daten zu identifizieren. Wenn die Leistung nicht gut ist, besteht ein Ansatz zur Verbesserung der Leistung möglicherweise in der Verwendung von PCA - obwohl dies stark von Ihrem Anwendungsfall, Inhalt / Typ / Datenmenge, neuronaler Netzwerkarchitektur usw. abhängt.
ps PCA eignet sich auch gut zur Visualisierung hochdimensionaler Daten (reduzieren Sie die Dimensionalität auf 2 oder 3 Dimensionen und zeichnen Sie sie dann auf. Dies ist besser, als wie oben beschrieben nur 2 Features gleichzeitig zu zeichnen).
Nun, ich möchte pca nicht verwenden. Es sind nur zweidimensionale Daten. Also dachte ich an eine manuelle Merkmalsextraktion
DuttaA
3
Ich denke, was Sie suchen, ist PCA (Principal Component Analysis). In Ihrem Fall müssen Sie die erste Hauptkomponente nehmen. Mit PCA kann der Prozess der Entscheidung automatisiert werden, welche linearen Kombinationen der Variablen die meisten Daten erklären. In dem Bild, das Sie gezeigt haben, ist die erste Komponente ungefähr die vertikale Achse Ihres Diagramms. Wenn Sie nicht wissen, was PCA ist, lesen Sie diese großartige Antwort auf Kreuzvalidierung.
Antworten, die nur Links enthalten, werden nicht empfohlen ...
Aditya
2
Nehmen Sie Ihren Kommentar:
Nun, ich möchte pca nicht verwenden. Es sind nur zweidimensionale Daten. Also dachte ich an eine manuelle Merkmalsextraktion
Etwas wirklich Einfaches, das Sie tun können, ist nur zu verwendenydirekt. Es sieht aus wiey⪆ 23 macht einen ziemlich guten Job beim Trennen der roten und grünen Gruppe im Streudiagramm.
Man könnte diesen Ansatz auf andere Variablenpaare verallgemeinern ( i , j )durch Anpassen von Entscheidungsbäumen mit einer Tiefe von 1, wobei die beste Einzelvariablenaufteilung erhalten wird, um die beiden Gruppen für jedes Paar zu trennen. Diese Regeln können verwendet werden, um eine einzelne zu verwendende Variable auszuwählen.ich oder joder eine binäre Variable / ein Binärflag, wie z y⪆ 23 Vorschlag oben.
Ich denke, was Sie suchen, ist PCA (Principal Component Analysis). In Ihrem Fall müssen Sie die erste Hauptkomponente nehmen. Mit PCA kann der Prozess der Entscheidung automatisiert werden, welche linearen Kombinationen der Variablen die meisten Daten erklären. In dem Bild, das Sie gezeigt haben, ist die erste Komponente ungefähr die vertikale Achse Ihres Diagramms. Wenn Sie nicht wissen, was PCA ist, lesen Sie diese großartige Antwort auf Kreuzvalidierung.
quelle
Schauen Sie sich die lineare Diskriminanzanalyse an . Dieser Leitfaden soll Ihnen eine Vorstellung davon geben, warum er für Ihre Aufgabe besser geeignet ist als PCA.
quelle
Nehmen Sie Ihren Kommentar:
Etwas wirklich Einfaches, das Sie tun können, ist nur zu verwendeny direkt. Es sieht aus wiey⪆ 23 macht einen ziemlich guten Job beim Trennen der roten und grünen Gruppe im Streudiagramm.
Man könnte diesen Ansatz auf andere Variablenpaare verallgemeinern( i , j ) durch Anpassen von Entscheidungsbäumen mit einer Tiefe von 1, wobei die beste Einzelvariablenaufteilung erhalten wird, um die beiden Gruppen für jedes Paar zu trennen. Diese Regeln können verwendet werden, um eine einzelne zu verwendende Variable auszuwählen.ich oder j oder eine binäre Variable / ein Binärflag, wie z y⪆ 23 Vorschlag oben.
quelle