Erstellen eines Qualitätsindex aus mehreren Variablen, um die Rangfolge zu ermöglichen

22

Ich habe vier numerische Variablen. Alle von ihnen sind ein Maß für die Bodenqualität. Je höher die Variable, desto höher die Qualität. Der Bereich für alle von ihnen ist unterschiedlich:

Var1 von 1 bis 10

Var2 von 1000 bis 2000

Var3 von 150 bis 300

Var4 von 0 bis 5

Ich muss vier Variablen zu einem einzigen Bodenqualitäts-Score kombinieren, der die Reihenfolge erfolgreich einordnet.

Meine Idee ist sehr einfach. Standardisiere alle vier Variablen, fasse sie zusammen und was immer du bekommst, ist die Punktzahl, die nach Rang geordnet werden sollte. Haben Sie Probleme bei der Anwendung dieses Ansatzes? Gibt es einen anderen (besseren) Ansatz, den Sie empfehlen würden?

Vielen Dank

Bearbeiten:

Danke Leute. Es wurde viel über "Fachwissen" diskutiert ... Landwirtschaftliches Zeug ... Während ich mehr Statistiken erwartete. In Bezug auf die Technik, die ich verwenden werde ... Es wird wahrscheinlich einfache Z-Score-Summierung + logistische Regression als Experiment sein. Da die überwiegende Mehrheit der Proben eine schlechte Qualität von 90% aufweist, werde ich 3 Qualitätskategorien zu einer kombinieren und im Grunde genommen ein binäres Problem haben (eine gewisse Qualität im Vergleich zu einer Nichtqualität). Ich töte zwei Fliegen mit einer Klappe. Ich erhöhe meine Stichprobe in Bezug auf die Ereignisrate und setze Experten ein, um sie zu veranlassen, meine Stichproben zu klassifizieren. Von Experten klassifizierte Samples werden dann verwendet, um das Log-Reg-Modell so anzupassen, dass die Übereinstimmung / Diskordanz mit den Experten maximiert wird. Wie klingt das für Sie?

user333
quelle

Antworten:

19

Der vorgeschlagene Ansatz kann zu einem vernünftigen Ergebnis führen, jedoch nur aus Versehen. In dieser Entfernung, dh unter Berücksichtigung der Frage zum Nennwert und der Bedeutung der getarnten Variablen, treten einige Probleme auf:

  1. Es ist nicht einmal offensichtlich, dass jede Variable einen positiven Bezug zu "Qualität" hat. Was ist zum Beispiel, wenn eine 10 für 'Var1' bedeutet, dass die "Qualität" schlechter ist als die Qualität, wenn Var1 1 ist? Dann ist es ungefähr so ​​falsch, wie man es tun kann; es muss abgezogen werden.

  2. Standardisierung impliziert, dass "Qualität" vom Datensatz selbst abhängt. Daher ändert sich die Definition mit unterschiedlichen Datensätzen oder mit Hinzufügungen und Löschungen zu diesen Daten. Dies kann die "Qualität" zu einem willkürlichen, vorübergehenden, nicht objektiven Konstrukt machen und Vergleiche zwischen Datensätzen ausschließen.

  3. Es gibt keine Definition von "Qualität". Was soll das heißen? Fähigkeit, die Migration von kontaminiertem Wasser zu blockieren? Fähigkeit, organische Prozesse zu unterstützen? Fähigkeit, bestimmte chemische Reaktionen zu fördern? Böden, die für einen dieser Zwecke gut sind, können für andere besonders schlecht sein.

  4. Das Problem hat keinen Sinn: Warum muss "Qualität" eingestuft werden? Wofür wird das Ranking verwendet - für mehr Analysen, die Auswahl des "besten" Bodens, die Festlegung einer wissenschaftlichen Hypothese, die Entwicklung einer Theorie und die Förderung eines Produkts?

  5. Die Konsequenzen des Rankings sind nicht ersichtlich. Wenn das Ranking falsch oder minderwertig ist, was passiert dann? Wird die Welt hungriger, die Umwelt kontaminierter, die Wissenschaftler irreführender, die Gärtner enttäuschter sein?

  6. Warum sollte eine lineare Kombination von Variablen angemessen sein? Warum sollten sie nicht multipliziert oder potenziert oder als Posynom oder noch esoterischeres kombiniert werden ?

  7. Rohbodenqualitätsmaße werden üblicherweise umformuliert. Beispielsweise ist die logarithmische Permeabilität gewöhnlich nützlicher als die Permeabilität selbst und die logarithmische Wasserstoffionenaktivität (pH) ist viel nützlicher als die Aktivität. Was sind die geeigneten Umformulierungen der Variablen zur Bestimmung von "Qualität"?

Man würde hoffen, dass die Bodenkunde die meisten dieser Fragen beantworten und die geeignete Kombination der Variablen für ein objektives Gefühl von "Qualität" angeben würde. Wenn nicht, dann haben Sie ein Bewertungsproblem mit mehreren Attributen . Der Wikipedia-Artikel listet Dutzende von Methoden auf, um dies zu beheben. Meiner Meinung nach sind die meisten von ihnen für die Beantwortung einer wissenschaftlichen Frage ungeeignet. Eine der wenigen mit einer soliden Theorie und einer möglichen Anwendbarkeit auf empirische Fragen ist die Multiple-Attribut-Bewertungstheorie von Keeney & Raiffa(MAVT). Sie müssen in der Lage sein, für zwei bestimmte Kombinationen der Variablen zu bestimmen, welche der beiden höher eingestuft werden soll. Eine strukturierte Abfolge solcher Vergleiche zeigt (a) geeignete Möglichkeiten, die Werte wiederzugeben; (b) ob eine lineare Kombination der umgedrückten Werte die richtige Rangfolge ergibt oder nicht; und (c) wenn eine lineare Kombination möglich ist, können Sie die Koeffizienten berechnen. Kurz gesagt, MAVT bietet Algorithmen zur Lösung Ihres Problems, sofern Sie bereits wissen, wie Sie bestimmte Fälle vergleichen können.

whuber
quelle
RE: 1. Ich weiß mit Sicherheit, dass für alle vier Variablen "höhere Zahl, höhere Qualität" gilt. RE: 2. Guter Punkt. Was kann ich tun, um zwei Datensätze vergleichbar zu machen
user333
2
@user Meine Empfehlungen stehen im letzten Absatz: Finden Sie vorzugsweise einen quantitativen Ausdruck von "Qualität" in der wissenschaftlichen Literatur. Ansonsten MAVT anwenden. Beide erzeugen unabhängig vom Datensatz eine feste Formel. Das sichert die Vergleichbarkeit.
whuber
1
@whuber, Könnte man dies nicht als ein Problem betrachten, basierend auf den verfügbaren Informationen eine formative Maßnahme zu treffen. In diesem Fall ist die Summierung der Z-Scores nicht so schlecht, wie Sie es für richtig halten?
Andy W
3
@Andy Könnten Sie erklären, was Sie unter "formativen Maßnahmen" und "verfügbaren Informationen" verstehen? // Ich möchte darauf hinweisen, dass viele Messungen der Bodeneignung für die Landwirtschaft nicht einmal monoton, sondern viel weniger linear sind: Beispielsweise kann eine Pflanze in einem pH-Bereich gedeihen, aber mit pH-Werten jenseits dieses Bereichs in beide Richtungen leiden . Es wäre in der Tat ein besonderer Umstand - vielleicht ein Umstand mit einem engen Wertebereich -, wenn eine einfache lineare Kombination der Bodeneigenschaften in irgendeiner objektiven Beziehung zu den landwirtschaftlichen Qualitäten stünde.
whuber
2
(y1,,yk)(x1,,xk)
whuber
3

Jemand hat sich Russell G. Congaltons "Review of Assessment the Accuracy of Classifications of Remotely Sensed Data" von 1990 angesehen? Es beschreibt eine als Fehlermatrix bekannte Methode zum Variieren von Matrizen, die er auch als "Normalisieren von Daten" bezeichnet. Dabei werden alle verschiedenen Vektoren abgerufen und "normalisiert" oder auf 0 bis 1 gesetzt. Grundsätzlich ändern Sie alle Vektoren auf gleich reicht von 0 bis 1.

Ragus Paganini
quelle
0

Eine andere Sache, die Sie nicht besprochen haben, ist die Skala der Messungen. V1 und V5 scheinen von Rang zu Rang zu sein und die anderen scheinen es nicht zu sein. Standardisierung kann also die Punktzahl verzerren. Sie können also alle Variablen besser in Ränge umwandeln und für jede Variable eine Gewichtung festlegen, da es sehr unwahrscheinlich ist, dass sie dasselbe Gewicht haben. Gleiche Gewichtung ist eher ein "Nein, nichts" -Standard. Möglicherweise möchten Sie eine Korrelations- oder Regressionsanalyse durchführen, um einige A-priori-Gewichte zu erhalten.

Ralph Winters
quelle
Wie kann ich die Korrelationsanalyse verwenden, um das Gewicht zu bestimmen?
User333
Wenn Sie bereits ein allgemeines Qualitätsmaß haben, z. B. Expertenmeinungen, (oder bereit sind, andere Variablen als Proxy dafür zu akzeptieren), können Sie die am höchsten korrelierten Variablen auswählen und sie mit der höchsten Gewichtung versehen.
Ralph Winters
-3

Wenn Sie die Antwort von Ralph Winters weiterverfolgen, können Sie PCA (Principal Component Analysis) für die Matrix der entsprechend standardisierten Scores verwenden. Auf diese Weise erhalten Sie einen "natürlichen" Gewichtsvektor, mit dem Sie zukünftige Ergebnisse kombinieren können.

Tun Sie dies auch, nachdem alle Punkte in Ränge umgewandelt wurden. Wenn die Ergebnisse sehr ähnlich sind, haben Sie gute Gründe, mit beiden Methoden fortzufahren. Bei Unstimmigkeiten ergeben sich interessante Fragen und ein besseres Verständnis.

Hans Engler
quelle
4
Ich stimme dir nicht zu. Während man wahrscheinlich an den Korrelationen zwischen den Elementen für Neugier interessiert sein würde, könnten alle Variablen orthogonal sein und dennoch zur Qualität beitragen. Zum Beispiel mag der Boden in der Antarktis einen optimalen Stickstoffgehalt haben, aber ich bezweifle, dass dies als geeignetes Klima ausreichen würde.
Andy W
@Andy W: In diesem Fall sollten alle Variablen gleich gewichtet sein, und PCA wird Ihnen das mitteilen. Es wird auch darauf hingewiesen, dass die führende Komponente nur einen relativ kleinen Teil der Gesamtvariabilität in der Punktematrix ausmacht.
Hans Engler
3
Ich bin immer noch anderer Meinung. Es sagt Ihnen nicht, ob die Ergebnisse gleich gewichtet werden sollten. Zwei Elemente könnten eine positive Korrelation aufweisen, doch jedes hat entgegengesetzte Beziehungen zu "Qualität". Die Korrelationen zwischen den Elementen sagen nicht notwendigerweise etwas über das im gegebenen Kontext nicht beobachtete Maß aus. Wenn Qualität eine latente Variable wäre und die Variablen das latente Konstrukt "widerspiegeln", könnte dies zutreffen, was in diesem Beispiel jedoch nicht der Fall ist.
Andy W
EINm×nσ1uvTEINnvjvj
Hans Engler
3
Ich bin immer noch anderer Meinung. Selbst wenn erwartet wird, dass die Assoziation in dieselbe Richtung weist, bedeutet dies nicht, dass den Indikatoren aufgrund ihrer Korrelation zwischen den Elementen inhärent ein Gewicht beigemessen werden sollte. Die geteilte Varianz kann nur etwas über die Beziehung zwischen den Indikatoren aussagen. Stellen Sie sich ein Regressionsmodell vor, in dem wir aus diesen Indikatoren ein bekanntes Qualitätsmaß vorhersagen. Die Korrelationen zwischen den Elementen zwischen den Indikatoren geben keinen Aufschluss über die erwarteten Steigungen.
Andy W