Eine sechste Antwortoption („Ich weiß nicht“) wurde zu einer 5-Punkte-Likert-Skala hinzugefügt. Gehen die Daten verloren?

16

Ich brauche ein bisschen Hilfe, um die Daten aus einem Fragebogen zu retten.

Einer meiner Kollegen wandte einen Fragebogen an, aber anstatt die ursprüngliche 5-Punkte-Likert-Skala zu verwenden (stimme überhaupt nicht zu), fügte er versehentlich eine 6. Antwort in die Skala ein. Und um die Sache noch schlimmer zu machen, lautet die sechste Antwortoption… „Ich weiß nicht“.

Das Problem ist der große Anteil der Befragten, die sich irgendwann für „Ich weiß nicht“ entschieden haben. Wenn es sich um einen relativ kleinen Prozentsatz handelte, hätte ich sie gerade aus der Datenbank ausgeschlossen. Der Kern der Forschung beruht jedoch auf einem konzeptionellen Modell, und das Ausschließen so vieler Datensätze würde ein Problem für das Modell darstellen.

Könnte mich hier jemand in die richtige Richtung weisen? Gibt es bewährte Methoden oder kann ich irgendetwas tun, um diese „Ich weiß nicht“ -Antworten zu verwenden (umzuwandeln, umzuwandeln usw.)?

Wenn ich die fraglichen Daten manipuliere (dh wenn ich die "Ich weiß nicht" -Antworten durch Ersetzen, Anrechnen usw. umwandle), welche Art von "Haftungsausschluss", "Warnung", "Anmerkung", Sollte ich es benutzen?

Ich weiß, dass es ein langer Weg ist, aber ich gestehe, dass ich nicht nur die Antworten retten kann, sondern auch neugierig bin, wie die vereinbarte Praxis (falls es eine gibt) in solchen Fällen ist.

PS: Ich weiß, dass es kindisch klingt, aber nein, der 'Kollege' bin nicht ich :)

rationalisieren
quelle
22
Stellen Sie sich vor, Ihr Kollege hätte die Kategorie Ich weiß nicht nicht aufgenommen. Was hätten diese Personen geantwortet? Vielleicht hätten sie eine zufällige Kategorie angekreuzt, vielleicht hätten sie sie leer gelassen. Jetzt wissen Sie, dass Ihre Variablen problematisch sind und treffen eine fundierte Entscheidung. Aus dieser Perspektive hat Ihnen der Kollege einen Gefallen getan.
Maarten Buis
Nun, was das Kratzen meines Kopfes angeht, hat er mir in der Tat einen Gefallen getan ... Sie haben Recht mit der Zufälligkeit der Antworten, und dies könnte ein Ansatz für die Anrechnung sein, aber ich habe mich gefragt, ob es irgendetwas Gutes gibt Praktiken, oder zumindest einige ähnliche Erfahrungen
rationalisieren
4
Ich finde Fragebögen, bei denen die Option " Ich weiß nicht " nicht besonders frustrierend ist (insbesondere, wenn Sie nicht einreichen können, ohne etwas auszuwählen). Angenommen, Sie werfen eine Frage wie " Die neuen Funktionen dieser Weltraumrakete sind eine Verbesserung " auf, und dann sind Sie gezwungen, bestenfalls neutral zu sein. Einige Leute können diese Art von Umfragen dann interpretieren und abschließen. "Wir haben 1000 gefragt Menschen, und 100% nichts dagegen ... ", während in der Praxis diese Funktion ein völliger Fehler für diejenigen sein könnte, die es verwenden. In diesen Fällen fühlt es sich fast so an, als würde man etwas stillschweigend unterstützen, was ich nicht benutzt habe.
Bruno
3
Um es klarer auszudrücken: Wenn das Modell davon ausgeht, dass die 5-Punkte-Skala die Meinung der Befragten widerspiegeln kann, beweisen Ihre Daten, dass das Modell unzureichend ist . Wenn es richtig wäre, hätten Sie eine vernachlässigbare Zahl von "Ich weiß nicht", weil die Leute in der Lage gewesen wären, 1-5 zu beantworten. Diese Daten würden also "ein Problem für das Modell darstellen", wie die Umlaufbahn von Merkur ein Problem für die Newtonsche Physik darstellt. Ich hätte gedacht, Ihr einziger Ausweg ist, wenn der Mittelpunkt "weder zustimmen noch nicht zustimmen" ist und Sie den Fall vertreten können, dass "ich weiß nicht" redundant ist und dieselbe Bedeutung hat wie dieser.
Steve Jessop
Hallo, @SteveJessop, theoretisch / prinzipiell haben Sie recht, was die Anzahl der DK-Antworten anbelangt, die auf ein Problem mit dem Fragebogen hinweisen (nicht das Modell, wohlgemerkt, das Modell ist kein CFA für die Skala, sondern eine Regression Für eine Reihe von Variablen (einschließlich der Skala) ist es immer noch ein wenig schwierig, sie als unzureichend zu bezeichnen. Ich werde die Skalenanalysen durchführen und sehen, und es ist wahr, dass sich die Scherzahl der DK-Antworten als problematisch erweisen kann. Sie können jedoch auch bedeuten, dass der Befragte keine Lust hatte zu antworten (übrigens kommt die überwiegende Mehrheit der DK-Antworten von einer Gruppe von Studenten nach einer Prüfung ...)
rationalisieren Sie den

Antworten:

28

Warum versuchen Sie, eine Kalibrierung auf etwas zu erzwingen, das nicht wahr ist? Wie Maarten sagte, ist dies kein Datenverlust, sondern ein Informationsgewinn. Wenn die von Ihnen gesuchte magische Pille existiert, würde dies bedeuten, dass einige Annahmen über Ihre Bevölkerung getroffen werden, zum Beispiel eine Voreingenommenheit zugunsten eines bestimmten Labels, obwohl Benutzer sagen "Ich weiß nicht".

Ich verstehe Ihre Frustration vollkommen, aber der richtige Weg, um das Problem anzugehen, besteht darin, das Modell basierend auf den tatsächlich vorhandenen Daten an Ihre Bedürfnisse anzupassen und nicht umgekehrt (Ändern der Daten).

Hatim Khouzaimi
quelle
Hallo Hatim, ich glaube nicht, dass es möglich ist, das Modell zu modifizieren. Die Skala ist ordinal und setzt eine begründete und explizite Wahl voraus, während die sechste Antwort "Ich weiß nicht" auf verschiedene Arten interpretiert werden kann. Es kann bedeuten, dass "ich nie auf diese Situation gestoßen bin / mich nicht erinnere", es kann für eine Art "Zwischenwahl" stehen. Jede solche Interpretation / Annahme in meinem Namen wäre anmaßend und unbegründet. Maartens Antwort bezog sich auf einen 'Informationsgewinn', von dem ich annehme, dass eine bestimmte 'randomisierte' Imputation verwendet werden kann, aber das ist nicht das, was Sie sagen - "das Modell modifizieren".
Streamline
Fortsetzung ... Obwohl ich versucht war und bin, mich weiter mit einer solchen "randomisierten" Zurechnung zu befassen, befürchte ich, dass die wahren (authentischen) Beziehungen zwischen Variablen bestehen werden verändert.
Streamline
8
+1. Ich weiß, dass es unangenehm ist, aber Sie [das OP] haben die Wahl, einen anderen Datensatz zu finden, wenn Sie dieses Modell testen oder die geplante Analyse ändern möchten. Sie haben die Frage in der Hoffnung auf unterschiedliche Antworten gestellt, aber meines Erachtens gibt es keine, die verteidigt werden können. Wenn ich auf einen solchen Fragebogen antworten würde, wäre ich beleidigt über die Verzerrung und das mangelnde Vertrauen, wenn ich versuche, mein Weiß nicht wie etwas anderes zu behandeln. Tatsächlich bin ich als gelegentlicher Konsument von Sozialforschung auch verunsichert.
Nick Cox
1
Sie haben natürlich Recht, dass dies schon oft vorgekommen ist. Das ist der Grund, warum diejenigen, die Erfahrung mit Projekten haben, die durch unvorhergesehene Probleme abgelenkt oder kompliziert wurden, sagen können, dass die Analyse anders sein wird und das Papier nicht so aussehen wird, wie man es sich vorgestellt hat. Oder sogar, manchmal funktionieren Projekte einfach nicht, also los geht's. (Wenn Sie in irgendeiner Weise unter Anleitung stehen oder gezwungen sind, dies zu befolgen, ist dies besonders bedauerlich, aber es hat keinen Einfluss auf meinen Rat, wie ich darüber nachdenken soll.)
Nick Cox,
8
@ user2836366 Ich verstehe Ihre Behauptungen nicht, dass das Modell nicht geändert werden kann. Sicherlich ist "Weiß nicht" nicht Teil der ordentlichen Sammlung von Antworten, aber das ist ganz auf den Punkt. "Weiß nicht" impliziert, dass die Person aus irgendeinem Grund (einschließlich des tatsächlichen Wissens) keine der ordinalen Antworten gewählt hat. Eine solche Modifikation ist, dass Sie ein Modell für diesen Prozess haben könnten (wählen Sie "Weiß nicht" vs. "Wählen Sie eine der anderen Optionen") und dann das übliche Modell für die Fälle in der zweiten Kategorie. Solche Modelle können Hürdenmodellen oder Modellen ohne Luftdruck ähneln.
Glen_b -Reinstate Monica
10

Wenn dies ein standardisierter Fragebogen war, der unabhängig validiert wurde, können Sie nicht behaupten, dass der neue Fragebogen äquivalent ist und die Daten nicht mehr vergleichbar sind. Sie könnten versuchen, den Fragebogen in separaten Experimenten zu validieren und zu untersuchen (sehr zeit- und arbeitsaufwendig, insbesondere, wenn Sie auch die Vergleichbarkeit mit der alten Version zeigen möchten) oder einfach akzeptieren, dass Sie mit einer geringeren Evidenzqualität zu tun haben (da Ihre Daten vorliegen) aus einem nicht validierten Fragebogen).

Wenn Sie Ihre Daten verwenden, müssen Sie die Änderung berücksichtigen. Wenn Sie mit einer Einstellungsfrage konfrontiert werden, geben Ihnen die Leute keine irgendwie "objektiv wahre" Antwort, sie geben Ihnen die Antwort, die sie für wahr halten - und dies wird sicherlich sowohl von den verfügbaren Antwortoptionen beeinflusst (sie "normieren" ihre Antworten) der Skala) und dem Wissen über das Thema (es gibt bekannte Vorurteile, die unterschiedlich wirken, manchmal in verschiedene Richtungen (!), je nachdem, ob der Teilnehmer viel oder wenig Wissen über das Thema hat).

Wenn es sich also um einen etablierten Fragebogen handelt, haben Sie die Möglichkeit, Ihre Version des Fragebogens mit der Originalversion zu vergleichen. Wenn das Original davon ausgegangen ist, dass die Leute wissen, was sie auswählen, und es sich herausstellt, dass sie dies nicht tun, können Sie diskutieren, wie das alte Modell auf falschen Annahmen basiert und welche Konsequenzen dies hat. Beachten Sie, dass dies eine "Nebenentdeckung" ist, die eine schöne neue Forschungsfrage darstellt, Sie jedoch von der ursprünglichen Frage abbringt, und in der Tat zeigt, dass die Beantwortung der ursprünglichen viel schwieriger ist als gedacht, sodass sich Ihre Arbeit auf jeden Fall vervielfacht.

Wenn Sie sich nicht mit einem etablierten Fragebogen befassen, können Sie sich mit dem Ablauf befassen und so tun, als wäre Ihr Ad-hoc-Fragebogen auf diese Weise geplant, und die Ergebnisse entsprechend auswerten. Wiederum könnte es bedeuten, dass die von Ihnen erhofften Ergebnisse mit dieser Methode nicht erreichbar sind, aber dies ist auch eine wichtige Sache, die Sie wissen sollten.

Um zu verstehen, wie Formulierungen und Optionen die Beantwortung von Fragebögen beeinflussen, empfehle ich die Lektüre von Tourangeau et al. In "Psychology of the survey response". Es ist eine großartige Lektüre für alle, die jemals einen Fragebogen erstellt haben.

rumtscho
quelle
2

Wenn Sie fragen, wie viele Kinder der Befragte zur Welt gebracht hat, würden die Antworten "Null" und "Nicht zutreffend" nicht genau dasselbe bedeuten, da Männer nicht gebären können.

Für einige Kontexte könnte es ebenfalls ein begrifflicher Fehler sein, "Ich weiß nicht" mit der neutralen Antwort gleichzusetzen.

Tatsächlich haben Sie zwei Fragen: eine dichotome "Haben Sie eine Meinung?" und eine Ordnungszahl "Was ist das?", so wie oben implizit "Sind Sie weiblich?" jenseits Ihrer ausdrücklichen Frage.

Natürlich können Sie einige Annahmen (manchmal richtig, manchmal nur der Einfachheit halber, manchmal erzwungen) einführen, um eine Modellierung zu ermöglichen, aber ich kann keine universell anwendbare Strategie erkennen, ohne in den Bereich der Besonderheiten Ihres Phänomens einzusteigen.

Als letzter zu bedenkender Punkt wäre es nicht sinnvoll zu versuchen, irgendetwas aus weiblichen Fruchtbarkeitsantworten auf die männliche Bevölkerung zu schließen.

Marcelo Ventura
quelle
2

Das Dilemma, ob man die Option Keine Antwort kennen in einen Fragebogen einbeziehen soll oder nicht, der aus Bewertungsskalen vom Typ Likert besteht, ist ewig. Wenn Fragen zur Meinung gestellt werden, wird häufig die DK einbezogen, da das Fehlen einer Meinung für sich genommen einen wichtigen Status darstellt und die Befragten die Option als solche erwarten. In Inventaren persönlicher Merkmale, in denen Personen einer DK-Zieloption Qualitäten zuschreiben, wird die Option in der Regel gestrichen, da von einem Befragten normalerweise erwartet wird, dass er das Ausmaß der Affinität eines Merkmals beurteilen kann (dh der Befragte wird immer als qualifiziert eingestuft). und wenn er gelegentlich Schwierigkeiten hat, darf er (auf Anweisung) diesen Gegenstand überspringen. In persönlichen Merkmalsinventaren, in denen Personen ein Ziel beschreiben (Verhaltensmerkmale) DK (oder don '

@Hatim in seiner Antwort, @Maarten und einige andere Kommentatoren der OP-Frage haben vernünftigerweise dargelegt, dass eine große Anzahl von DK-Antworten, die in der aktuellen Studie beobachtet wurden, auf Probleme (Gültigkeit des Inhalts oder Gültigkeit des Gesichts) in den Gegenständen hindeuten oder dass die Probanden dies nicht tun. ' nicht in den ihnen zugestellten Fragebogen passen.

Aber Sie können die Geschichte niemals erzählen, letztendlich liegt die Interpretation des Hindernisses bei Ihnen (es sei denn, Sie sprechen es in einer separaten Untersuchung an). Man könnte beispielsweise behaupten, dass die Einbeziehung der DK-Option in die Likerts in diesem Fragebogen (z. B. handelt es sich um ein Merkmal-Zuordnungs-Inventar) nicht gut, sondern schlecht ist. Es gab Ihnen keine Informationen (von denen die Kommentatoren sagen, dass it proves that the [rating] model is inadequate), sondern eher abgelenkt / verführt einen Befragten. Wäre dies nicht der Fall, hätte die vom impliziten kognitiven Merkmalsschema geleitete Bewertungsentscheidung ausgelöst werden können. Aber wenn man die Kühloption sieht, schließt das das Schema aus und man muss sich schnell zurückziehen.

Wenn Sie weiter zugeben - auf Ihr Risiko, aber warum nicht? - dass ein leicht abgelenktes oder faules Thema dasjenige ist, dessen potentielle, zurückgehaltene Sichtweise gültig ist, aber dazu tendiert, schwach differenziert zu sein - das heißt, er würde sich leicht auf konventionelles Das Man anstelle von persönlichem Erlebnisschema berufen -, dann können Sie vorläufig spekulieren dass seine fehlende Antwort im Bereich des Durchschnitts der Stichprobe oder der Grundgesamtheit für diesen Artikel liegt. Wenn ja, warum nicht meine (+ Rauschen) Substitution der fehlenden Antworten? Oder Sie führen EM- oder Regressionszuschreibungen (+ Rauschzuschreibungen) durch, um Korrelationen zu berücksichtigen.

Um es zu wiederholen: Die Imputationsentscheidung ist möglich, aber riskant und es ist unwahrscheinlich, dass die fehlenden Daten "wirklich" wiederhergestellt werden. Wie @rumtscho sagte, ist der neue Fragebogen mit DK sicherlich nicht mit dem ursprünglichen ohne DK vergleichbar, und die Daten sind nicht mehr vergleichbar.

Das waren Spekulationen. Zunächst sollten Sie jedoch versuchen, die beobachteten Muster der Fehlbarkeit zu untersuchen. Wer hat DK ausgewählt? Bündeln sie sich zu Subtypen? Inwiefern unterscheiden sie sich bei den übrigen Elementen von der Teilstichprobe "OK"? Einige Software-Produkte verfügen über ein Missing Value Analysis-Paket. Dann könnten Sie entscheiden, ob Sie die Personen ganz oder teilweise fallen lassen oder unterstellen oder sie als separate Teilstichprobe analysieren möchten.

PS Beachten Sie auch, dass die Befragten "dumm" sind. Sie vermischen sich oft nur mit den Skalenwerten. Wenn der DK-Punkt beispielsweise in der Nähe eines Pols der Skala platziert wurde, wird er häufig durch Unaufmerksamkeit mit diesem Pol verwechselt. Ich mache keine Witze.

ttnphns
quelle
Hallo, @ttnphns, Ihre Antwort ist zu lang, um sie Punkt für Punkt zu beantworten (zu einigen der Punkte, die Sie hier angesprochen haben, habe ich bereits einen Kommentar zu den anderen Antworten abgegeben). Um ehrlich zu sein, muss ich es noch ein paar Mal lesen. Es spricht jedoch alles an, was ich wollte.
Streamline
0

Sie haben jetzt selbst ausgewählte Befragte, die eine Meinung zu dieser Angelegenheit haben. Was immer Sie daraus schließen, es geht ausschließlich um diese Menschen. Dies könnte in Ordnung sein, da das Abfragen von "Weiß nicht" per Definition weniger nützlich ist.

Aaron Brick
quelle
2
Drollig, aber zu pessimistisch. Diese Leute haben argumentiert, was man tun kann, nicht kann, sollte, sollte, und es sind die Argumente, die abgewogen werden sollten. Die gleiche Antwort könnte auf jeden Thread hier gegeben werden, aber diejenigen, die nicht sprechen, haben kein Mitspracherecht.
Nick Cox