Ich habe vier numerische Variablen. Alle von ihnen sind ein Maß für die Bodenqualität. Je höher die Variable, desto höher die Qualität. Der Bereich für alle von ihnen ist unterschiedlich:
Var1 von 1 bis 10
Var2 von 1000 bis 2000
Var3 von 150 bis 300
Var4 von 0 bis 5
Ich muss vier Variablen zu einem einzigen Bodenqualitäts-Score kombinieren, der die Reihenfolge erfolgreich einordnet.
Meine Idee ist sehr einfach. Standardisiere alle vier Variablen, fasse sie zusammen und was immer du bekommst, ist die Punktzahl, die nach Rang geordnet werden sollte. Haben Sie Probleme bei der Anwendung dieses Ansatzes? Gibt es einen anderen (besseren) Ansatz, den Sie empfehlen würden?
Vielen Dank
Bearbeiten:
Danke Leute. Es wurde viel über "Fachwissen" diskutiert ... Landwirtschaftliches Zeug ... Während ich mehr Statistiken erwartete. In Bezug auf die Technik, die ich verwenden werde ... Es wird wahrscheinlich einfache Z-Score-Summierung + logistische Regression als Experiment sein. Da die überwiegende Mehrheit der Proben eine schlechte Qualität von 90% aufweist, werde ich 3 Qualitätskategorien zu einer kombinieren und im Grunde genommen ein binäres Problem haben (eine gewisse Qualität im Vergleich zu einer Nichtqualität). Ich töte zwei Fliegen mit einer Klappe. Ich erhöhe meine Stichprobe in Bezug auf die Ereignisrate und setze Experten ein, um sie zu veranlassen, meine Stichproben zu klassifizieren. Von Experten klassifizierte Samples werden dann verwendet, um das Log-Reg-Modell so anzupassen, dass die Übereinstimmung / Diskordanz mit den Experten maximiert wird. Wie klingt das für Sie?
Jemand hat sich Russell G. Congaltons "Review of Assessment the Accuracy of Classifications of Remotely Sensed Data" von 1990 angesehen? Es beschreibt eine als Fehlermatrix bekannte Methode zum Variieren von Matrizen, die er auch als "Normalisieren von Daten" bezeichnet. Dabei werden alle verschiedenen Vektoren abgerufen und "normalisiert" oder auf 0 bis 1 gesetzt. Grundsätzlich ändern Sie alle Vektoren auf gleich reicht von 0 bis 1.
quelle
Eine andere Sache, die Sie nicht besprochen haben, ist die Skala der Messungen. V1 und V5 scheinen von Rang zu Rang zu sein und die anderen scheinen es nicht zu sein. Standardisierung kann also die Punktzahl verzerren. Sie können also alle Variablen besser in Ränge umwandeln und für jede Variable eine Gewichtung festlegen, da es sehr unwahrscheinlich ist, dass sie dasselbe Gewicht haben. Gleiche Gewichtung ist eher ein "Nein, nichts" -Standard. Möglicherweise möchten Sie eine Korrelations- oder Regressionsanalyse durchführen, um einige A-priori-Gewichte zu erhalten.
quelle
Wenn Sie die Antwort von Ralph Winters weiterverfolgen, können Sie PCA (Principal Component Analysis) für die Matrix der entsprechend standardisierten Scores verwenden. Auf diese Weise erhalten Sie einen "natürlichen" Gewichtsvektor, mit dem Sie zukünftige Ergebnisse kombinieren können.
Tun Sie dies auch, nachdem alle Punkte in Ränge umgewandelt wurden. Wenn die Ergebnisse sehr ähnlich sind, haben Sie gute Gründe, mit beiden Methoden fortzufahren. Bei Unstimmigkeiten ergeben sich interessante Fragen und ein besseres Verständnis.
quelle