Ich habe einen Datensatz mit diskreten (ordinalen, meristischen und nominalen) Variablen, die morphologische Flügelcharakteristika für mehrere eng verwandte Insektenarten beschreiben. Ich möchte eine Art Analyse durchführen, die mir eine visuelle Darstellung der Ähnlichkeit der verschiedenen Arten anhand der morphologischen Eigenschaften gibt. Das erste, was mir in den Sinn kam, war PCA (dies ist die Art von Visualisierung, die ich erstellen möchte), aber nachdem ich sie untersucht habe (insbesondere andere Fragen wie: Kann die Hauptkomponentenanalyse auf Datensätze angewendet werden, die eine Mischung aus kontinuierlichen Elementen enthalten? und kategoriale Variablen?) scheint PCA für diskrete Daten ungeeignet zu sein (PCA wird in der Literatur für diese Art von Studien verwendet, jedoch immer mit kontinuierlichen Daten). Wenn man den statistischen Hintergrund ignoriert, warum diese Daten unangemessen sind, liefert PCA relativ perfekte Ergebnisse in Bezug auf meine biologische Frage (hybride Interessengruppen fallen genau in die Mitte ihrer väterlichen Gruppen).
Ich habe auch mehrere Korrespondenzanalysen versucht, um die Statistiken zu beschwichtigen (zumindest soweit mein Verständnis reicht), aber ich kann anscheinend keine grafische Darstellung erhalten, die derjenigen entspricht, die ich mit PCA erhalten würde, wo meine Beobachtungen (die biologischen Individuen) sind etwa farblich getrennt, um die verschiedenen Gruppierungen (verschiedene Arten, biologisch gesehen) anzuzeigen. Es scheint, dass diese Analyse darauf abzielt zu beschreiben, wie die Variablen (hier meine morphologischen Eigenschaften) miteinander in Beziehung stehen, nicht die einzelnen Beobachtungen. Und wenn ich nach Gruppen gefärbte Beobachtungen zeichne, erhalte ich nur einen einzigen Wert (vielleicht einen Durchschnitt), der die gesamte Gruppe von Individuen beschreibt. Ich habe die Analyse in R durchgeführt, also bin ich vielleicht auch nicht R-versiert genug, um meine Vorstellung von der Handlung zum Laufen zu bringen.
Bin ich richtig darin, diese Art der Analyse mit meinen Daten zu versuchen, oder bin ich weit vom Kurs entfernt? Wenn Sie nicht sagen können, ist meine statistische Expertise begrenzt, so dass die Gleichungen, die unter diesen Analysen auftreten, weit über meinem Kopf liegen. Ich versuche, diese Analyse vollständig deskriptiv durchzuführen (ich muss keine nachgelagerten Zahlen mehr eingeben), und ich habe gelesen, dass PCA in diesem Fall ausreicht, aber ich möchte sicherstellen, dass dies nicht der Fall ist Verletzung zu vieler statistischer Annahmen.
Antworten:
Es hängt ein wenig von Ihrem Zweck ab, aber wenn Sie nach einem Visualisierungstool suchen, gibt es einen Trick beim Anwenden einer mehrdimensionalen Skalierung auf die Ausgabe zufälliger Waldnähe, die hübsche Bilder erzeugen kann und für eine Mischung aus kategorialen und kontinuierlichen Daten funktioniert. Hier würden Sie die Arten nach Ihren Prädiktoren klassifizieren. Aber - und es ist eine große Einschränkung - ich weiß nicht, ob jemand wirklich weiß, was die Ausgabe dieser Visualisierungen bedeutet.
Eine andere Alternative könnte darin bestehen, eine mehrdimensionale Skalierung auf etwas wie die Gower-Ähnlichkeit anzuwenden.
Es gibt eine hängende Frage - was ist Ihr ultimativer Zweck? Welche Frage möchten Sie beantworten? Ich mag diese Techniken als Erkundungsinstrumente, um Sie vielleicht dazu zu bringen, mehr und bessere Fragen zu stellen, aber ich bin mir nicht sicher, was sie Ihnen selbst erklären oder sagen.
Vielleicht lese ich zu viel in Ihrer Frage, aber wenn Sie untersuchen möchten, welche Prädiktorvariablen die Werte für die Hybriden zwischen den beiden reinen Arten haben, sollten Sie besser ein Modell erstellen, um die Werte für die Prädiktorvariablen zu schätzen, die führen direkt an die Art und die Hybriden. Wenn Sie messen möchten, wie die Variablen zueinander in Beziehung stehen, erstellen Sie möglicherweise eine Korrelationsmatrix - und dafür gibt es viele übersichtliche Visualisierungen.
quelle