Ich brauche ein bisschen Hilfe, um die Daten aus einem Fragebogen zu retten.
Einer meiner Kollegen wandte einen Fragebogen an, aber anstatt die ursprüngliche 5-Punkte-Likert-Skala zu verwenden (stimme überhaupt nicht zu), fügte er versehentlich eine 6. Antwort in die Skala ein. Und um die Sache noch schlimmer zu machen, lautet die sechste Antwortoption… „Ich weiß nicht“.
Das Problem ist der große Anteil der Befragten, die sich irgendwann für „Ich weiß nicht“ entschieden haben. Wenn es sich um einen relativ kleinen Prozentsatz handelte, hätte ich sie gerade aus der Datenbank ausgeschlossen. Der Kern der Forschung beruht jedoch auf einem konzeptionellen Modell, und das Ausschließen so vieler Datensätze würde ein Problem für das Modell darstellen.
Könnte mich hier jemand in die richtige Richtung weisen? Gibt es bewährte Methoden oder kann ich irgendetwas tun, um diese „Ich weiß nicht“ -Antworten zu verwenden (umzuwandeln, umzuwandeln usw.)?
Wenn ich die fraglichen Daten manipuliere (dh wenn ich die "Ich weiß nicht" -Antworten durch Ersetzen, Anrechnen usw. umwandle), welche Art von "Haftungsausschluss", "Warnung", "Anmerkung", Sollte ich es benutzen?
Ich weiß, dass es ein langer Weg ist, aber ich gestehe, dass ich nicht nur die Antworten retten kann, sondern auch neugierig bin, wie die vereinbarte Praxis (falls es eine gibt) in solchen Fällen ist.
PS: Ich weiß, dass es kindisch klingt, aber nein, der 'Kollege' bin nicht ich :)
quelle
Antworten:
Warum versuchen Sie, eine Kalibrierung auf etwas zu erzwingen, das nicht wahr ist? Wie Maarten sagte, ist dies kein Datenverlust, sondern ein Informationsgewinn. Wenn die von Ihnen gesuchte magische Pille existiert, würde dies bedeuten, dass einige Annahmen über Ihre Bevölkerung getroffen werden, zum Beispiel eine Voreingenommenheit zugunsten eines bestimmten Labels, obwohl Benutzer sagen "Ich weiß nicht".
Ich verstehe Ihre Frustration vollkommen, aber der richtige Weg, um das Problem anzugehen, besteht darin, das Modell basierend auf den tatsächlich vorhandenen Daten an Ihre Bedürfnisse anzupassen und nicht umgekehrt (Ändern der Daten).
quelle
Wenn dies ein standardisierter Fragebogen war, der unabhängig validiert wurde, können Sie nicht behaupten, dass der neue Fragebogen äquivalent ist und die Daten nicht mehr vergleichbar sind. Sie könnten versuchen, den Fragebogen in separaten Experimenten zu validieren und zu untersuchen (sehr zeit- und arbeitsaufwendig, insbesondere, wenn Sie auch die Vergleichbarkeit mit der alten Version zeigen möchten) oder einfach akzeptieren, dass Sie mit einer geringeren Evidenzqualität zu tun haben (da Ihre Daten vorliegen) aus einem nicht validierten Fragebogen).
Wenn Sie Ihre Daten verwenden, müssen Sie die Änderung berücksichtigen. Wenn Sie mit einer Einstellungsfrage konfrontiert werden, geben Ihnen die Leute keine irgendwie "objektiv wahre" Antwort, sie geben Ihnen die Antwort, die sie für wahr halten - und dies wird sicherlich sowohl von den verfügbaren Antwortoptionen beeinflusst (sie "normieren" ihre Antworten) der Skala) und dem Wissen über das Thema (es gibt bekannte Vorurteile, die unterschiedlich wirken, manchmal in verschiedene Richtungen (!), je nachdem, ob der Teilnehmer viel oder wenig Wissen über das Thema hat).
Wenn es sich also um einen etablierten Fragebogen handelt, haben Sie die Möglichkeit, Ihre Version des Fragebogens mit der Originalversion zu vergleichen. Wenn das Original davon ausgegangen ist, dass die Leute wissen, was sie auswählen, und es sich herausstellt, dass sie dies nicht tun, können Sie diskutieren, wie das alte Modell auf falschen Annahmen basiert und welche Konsequenzen dies hat. Beachten Sie, dass dies eine "Nebenentdeckung" ist, die eine schöne neue Forschungsfrage darstellt, Sie jedoch von der ursprünglichen Frage abbringt, und in der Tat zeigt, dass die Beantwortung der ursprünglichen viel schwieriger ist als gedacht, sodass sich Ihre Arbeit auf jeden Fall vervielfacht.
Wenn Sie sich nicht mit einem etablierten Fragebogen befassen, können Sie sich mit dem Ablauf befassen und so tun, als wäre Ihr Ad-hoc-Fragebogen auf diese Weise geplant, und die Ergebnisse entsprechend auswerten. Wiederum könnte es bedeuten, dass die von Ihnen erhofften Ergebnisse mit dieser Methode nicht erreichbar sind, aber dies ist auch eine wichtige Sache, die Sie wissen sollten.
Um zu verstehen, wie Formulierungen und Optionen die Beantwortung von Fragebögen beeinflussen, empfehle ich die Lektüre von Tourangeau et al. In "Psychology of the survey response". Es ist eine großartige Lektüre für alle, die jemals einen Fragebogen erstellt haben.
quelle
Wenn Sie fragen, wie viele Kinder der Befragte zur Welt gebracht hat, würden die Antworten "Null" und "Nicht zutreffend" nicht genau dasselbe bedeuten, da Männer nicht gebären können.
Für einige Kontexte könnte es ebenfalls ein begrifflicher Fehler sein, "Ich weiß nicht" mit der neutralen Antwort gleichzusetzen.
Tatsächlich haben Sie zwei Fragen: eine dichotome "Haben Sie eine Meinung?" und eine Ordnungszahl "Was ist das?", so wie oben implizit "Sind Sie weiblich?" jenseits Ihrer ausdrücklichen Frage.
Natürlich können Sie einige Annahmen (manchmal richtig, manchmal nur der Einfachheit halber, manchmal erzwungen) einführen, um eine Modellierung zu ermöglichen, aber ich kann keine universell anwendbare Strategie erkennen, ohne in den Bereich der Besonderheiten Ihres Phänomens einzusteigen.
Als letzter zu bedenkender Punkt wäre es nicht sinnvoll zu versuchen, irgendetwas aus weiblichen Fruchtbarkeitsantworten auf die männliche Bevölkerung zu schließen.
quelle
Das Dilemma, ob man die Option Keine Antwort kennen in einen Fragebogen einbeziehen soll oder nicht, der aus Bewertungsskalen vom Typ Likert besteht, ist ewig. Wenn Fragen zur Meinung gestellt werden, wird häufig die DK einbezogen, da das Fehlen einer Meinung für sich genommen einen wichtigen Status darstellt und die Befragten die Option als solche erwarten. In Inventaren persönlicher Merkmale, in denen Personen einer DK-Zieloption Qualitäten zuschreiben, wird die Option in der Regel gestrichen, da von einem Befragten normalerweise erwartet wird, dass er das Ausmaß der Affinität eines Merkmals beurteilen kann (dh der Befragte wird immer als qualifiziert eingestuft). und wenn er gelegentlich Schwierigkeiten hat, darf er (auf Anweisung) diesen Gegenstand überspringen. In persönlichen Merkmalsinventaren, in denen Personen ein Ziel beschreiben (Verhaltensmerkmale) DK (oder don '
@Hatim in seiner Antwort, @Maarten und einige andere Kommentatoren der OP-Frage haben vernünftigerweise dargelegt, dass eine große Anzahl von DK-Antworten, die in der aktuellen Studie beobachtet wurden, auf Probleme (Gültigkeit des Inhalts oder Gültigkeit des Gesichts) in den Gegenständen hindeuten oder dass die Probanden dies nicht tun. ' nicht in den ihnen zugestellten Fragebogen passen.
Aber Sie können die Geschichte niemals erzählen, letztendlich liegt die Interpretation des Hindernisses bei Ihnen (es sei denn, Sie sprechen es in einer separaten Untersuchung an). Man könnte beispielsweise behaupten, dass die Einbeziehung der DK-Option in die Likerts in diesem Fragebogen (z. B. handelt es sich um ein Merkmal-Zuordnungs-Inventar) nicht gut, sondern schlecht ist. Es gab Ihnen keine Informationen (von denen die Kommentatoren sagen, dass
it proves that the [rating] model is inadequate
), sondern eher abgelenkt / verführt einen Befragten. Wäre dies nicht der Fall, hätte die vom impliziten kognitiven Merkmalsschema geleitete Bewertungsentscheidung ausgelöst werden können. Aber wenn man die Kühloption sieht, schließt das das Schema aus und man muss sich schnell zurückziehen.Wenn Sie weiter zugeben - auf Ihr Risiko, aber warum nicht? - dass ein leicht abgelenktes oder faules Thema dasjenige ist, dessen potentielle, zurückgehaltene Sichtweise gültig ist, aber dazu tendiert, schwach differenziert zu sein - das heißt, er würde sich leicht auf konventionelles Das Man anstelle von persönlichem Erlebnisschema berufen -, dann können Sie vorläufig spekulieren dass seine fehlende Antwort im Bereich des Durchschnitts der Stichprobe oder der Grundgesamtheit für diesen Artikel liegt. Wenn ja, warum nicht meine (+ Rauschen) Substitution der fehlenden Antworten? Oder Sie führen EM- oder Regressionszuschreibungen (+ Rauschzuschreibungen) durch, um Korrelationen zu berücksichtigen.
Um es zu wiederholen: Die Imputationsentscheidung ist möglich, aber riskant und es ist unwahrscheinlich, dass die fehlenden Daten "wirklich" wiederhergestellt werden. Wie @rumtscho sagte, ist der neue Fragebogen mit DK sicherlich nicht mit dem ursprünglichen ohne DK vergleichbar, und die Daten sind nicht mehr vergleichbar.
Das waren Spekulationen. Zunächst sollten Sie jedoch versuchen, die beobachteten Muster der Fehlbarkeit zu untersuchen. Wer hat DK ausgewählt? Bündeln sie sich zu Subtypen? Inwiefern unterscheiden sie sich bei den übrigen Elementen von der Teilstichprobe "OK"? Einige Software-Produkte verfügen über ein Missing Value Analysis-Paket. Dann könnten Sie entscheiden, ob Sie die Personen ganz oder teilweise fallen lassen oder unterstellen oder sie als separate Teilstichprobe analysieren möchten.
PS Beachten Sie auch, dass die Befragten "dumm" sind. Sie vermischen sich oft nur mit den Skalenwerten. Wenn der DK-Punkt beispielsweise in der Nähe eines Pols der Skala platziert wurde, wird er häufig durch Unaufmerksamkeit mit diesem Pol verwechselt. Ich mache keine Witze.
quelle
Sie haben jetzt selbst ausgewählte Befragte, die eine Meinung zu dieser Angelegenheit haben. Was immer Sie daraus schließen, es geht ausschließlich um diese Menschen. Dies könnte in Ordnung sein, da das Abfragen von "Weiß nicht" per Definition weniger nützlich ist.
quelle