In letzter Zeit haben zwei verschiedene Mitarbeiter eine Art Argument über Unterschiede zwischen Bedingungen verwendet, die mir unkorrekt erscheinen. Beide Mitarbeiter verwenden Statistiken, sind jedoch keine Statistiker. Ich bin ein Neuling in der Statistik.
In beiden Fällen habe ich argumentiert, dass es falsch ist, eine allgemeine Aussage über diese Gruppen in Bezug auf die Manipulation zu machen, da es keinen signifikanten Unterschied zwischen zwei Bedingungen in einem Experiment gibt. Beachten Sie, dass "eine allgemeine Behauptung aufstellen" so etwas wie das Schreiben bedeutet: "Gruppe A hat X häufiger verwendet als Gruppe B".
Meine Mitarbeiter erwiderten: "Auch wenn es keinen signifikanten Unterschied gibt, ist der Trend immer noch da" und "Auch wenn es keinen signifikanten Unterschied gibt, gibt es immer noch einen Unterschied". Für mich klingen beide wie eine Zweideutigkeit, dh, sie haben die Bedeutung von "Differenz" von "eine Differenz, die wahrscheinlich das Ergebnis von etwas anderem als Zufall ist" (dh statistische Signifikanz) in "irgendeine Nicht-Bedeutung" geändert -null Unterschied in der Messung zwischen Gruppen ".
War die Antwort meiner Mitarbeiter richtig? Ich habe es nicht mit ihnen aufgenommen, weil sie mir überlegen waren.
Antworten:
Das ist eine großartige Frage. Die Antwort hängt stark vom Kontext ab.
Im Allgemeinen würde ich sagen, dass Sie Recht haben : Eine uneingeschränkte allgemeine Behauptung wie "Gruppe A verwendet X häufiger als Gruppe B" ist irreführend. Es wäre besser, so etwas zu sagen
oder
oder
Auf der anderen Seite: Ihre Mitarbeiter haben Recht, dass in diesem speziellen Experiment Gruppe A X häufiger verwendet hat als Gruppe B. Die Teilnehmer an einem bestimmten Experiment interessieren sich jedoch selten. Sie möchten wissen, wie sich Ihre Ergebnisse auf eine größere Population auswirken. In diesem Fall können Sie nicht mit Sicherheit sagen, ob eine zufällig ausgewählte Gruppe A X häufiger oder seltener als eine zufällig ausgewählte Gruppe B verwendet.
Wenn Sie heute eine Entscheidung treffen müssen, ob Sie Behandlung A oder Behandlung B verwenden möchten, um die Verwendung von X zu erhöhen, wenn keine anderen Informationen, Kostenunterschiede usw. vorliegen, ist die Auswahl von A die beste Wahl. Wenn Sie sich jedoch sicher sein möchten, dass Sie wahrscheinlich die richtige Wahl getroffen haben, benötigen Sie weitere Informationen.
Beachten Sie, dass Sie nicht sagen sollten "es gibt keinen Unterschied zwischen Gruppe A und Gruppe B in der Verwendung von X" oder "Gruppe A und Gruppe B verwenden X die gleiche Menge". Dies gilt weder für die Teilnehmer an Ihrem Experiment (bei dem A 13% mehr verwendet hat) noch für die allgemeine Bevölkerung. in den meisten realen Kontexten, wissen Sie , dass es wirklich sein muss , eine gewisse Wirkung (egal wie gering) von A gegen B; Sie wissen einfach nicht, in welche Richtung es geht.
quelle
Das ist eine schwierige Frage!
Ich hoffe, diese zu wortreiche Erklärung hilft Ihnen, Ihre Ideen zu sortieren. Die Zusammenfassung ist, dass Sie absolut Recht haben! Wir sollten unsere Berichte nicht mit wilden Behauptungen füllen, die von wenigen Beweisen gestützt werden, egal ob für Forschungszwecke, Unternehmen oder was auch immer. Wenn Sie wirklich glauben, dass es einen Trend gibt, Sie aber keine statistische Signifikanz erreicht haben, wiederholen Sie das Experiment mit mehr Daten!
quelle
Signifikanter Effekt bedeutet nur, dass Sie eine unwahrscheinliche Anomalie gemessen haben (unwahrscheinlich, wenn die Nullhypothese, Abwesenheit eines Effekts, wahr wäre). Infolgedessen muss mit hoher Wahrscheinlichkeit daran gezweifelt werden (obwohl diese Wahrscheinlichkeit nicht gleich dem p-Wert ist und auch von früheren Überzeugungen abhängt).
Je nach Qualität des Experiments konnte man den gleichen Effekt messen Größe , aber es könnte eine Anomalie nicht sein (nicht ein unwahrscheinliches Ergebnis , wenn die Nullhypothese wahr wäre).
Wenn Sie einen Effekt beobachten, der jedoch nicht signifikant ist, kann dieser (der Effekt) zwar immer noch vorhanden sein, er ist jedoch nur nicht signifikant (die Messungen weisen nicht darauf hin, dass die Nullhypothese mit hoher Wahrscheinlichkeit angezweifelt / verworfen werden sollte). Es bedeutet, dass Sie Ihr Experiment verbessern und mehr Daten sammeln sollten, um sicherer zu sein.
Anstelle des Dichotomieeffekts und des No-Effekts sollten Sie sich für die folgenden vier Kategorien entscheiden:
Bild von https://en.wikipedia.org/wiki/Equivalence_test zur Erläuterung des zweiseitigen T-Test-Verfahrens (TOST)
Sie scheinen in der Kategorie D zu sein, der Test ist nicht schlüssig. Ihre Kollegen könnten sich irren, wenn sie sagen, dass es einen Effekt gibt. Es ist jedoch ebenso falsch zu sagen, dass es keine Wirkung gibt!
quelle
Es hört sich so an, als würden sie p-value gegen die Definition von "Trend" argumentieren.
Wenn Sie die Daten in einem Laufdiagramm darstellen, sehen Sie möglicherweise einen Trend ... eine Reihe von Plotpunkten, die einen Trend anzeigen, der über die Zeit steigt oder fällt.
Aber wenn Sie die Statistiken darüber machen, deutet der p-Wert darauf hin, dass es nicht signifikant ist.
Damit der p-Wert nur eine geringe Bedeutung hat, sie aber einen Trend / Lauf in der Datenreihe sehen, müsste dies ein sehr geringer Trend sein.
Wenn das der Fall wäre, würde ich auf den p-Wert zurückgreifen. IE: OK, ja, die Daten weisen einen Trend / Lauf auf. Aber es ist so gering und unbedeutend, dass die Statistiken darauf hindeuten, dass es sich nicht lohnt, weiter zu verfolgen Analyse von.
Ein unbedeutender Trend kann auf eine gewisse Tendenz in der Forschung zurückgeführt werden. Möglicherweise handelt es sich dabei um etwas sehr Nebensächliches. Möglicherweise handelt es sich nur um ein einmaliges Ereignis in dem Experiment, bei dem ein leichter Trend aufgetreten ist.
Wenn ich der Manager der Gruppe wäre, würde ich ihnen sagen, dass sie keine Zeit und kein Geld mehr damit verschwenden sollen, sich mit unbedeutenden Trends zu befassen und nach wichtigeren Trends Ausschau zu halten.
quelle
Es hört sich so an, als hätten sie in diesem Fall wenig Rechtfertigung für ihre Behauptung und missbrauchen lediglich Statistiken, um zu dem Schluss zu gelangen, dass sie bereits hatten. Aber es gibt Zeiten, in denen es in Ordnung ist, nicht so streng mit p-Val-Cutoffs umzugehen. Dies (wie man statistische Signifikanz und pval-Cutoffs verwendet) ist eine Debatte, die seit Fisher, Neyman und Pearson die Grundlagen für statistische Tests gelegt hat.
Angenommen, Sie erstellen ein Modell und entscheiden, welche Variablen einbezogen werden sollen. Sie sammeln einige Daten, um mögliche Variablen vorab zu untersuchen. Nun gibt es eine Variable, die das Business-Team wirklich interessiert, aber Ihre vorläufige Untersuchung zeigt, dass die Variable statistisch nicht signifikant ist. Die 'Richtung' der Variablen entspricht jedoch den Erwartungen des Geschäftsteams, und obwohl sie den Schwellenwert für die Signifikanz nicht erreicht hat, war sie eng. Möglicherweise wurde eine positive Korrelation mit dem Ergebnis vermutet, und Sie erhielten einen Beta-Koeffizienten, der positiv war, aber der pval lag nur ein wenig über dem Grenzwert von 0,05.
In diesem Fall könnten Sie fortfahren und es einschließen. Es ist eine Art informelle Bayes'sche Statistik - es gab eine starke vorherige Überzeugung, dass es sich um eine nützliche Variable handelt, und die erste Untersuchung ergab einige Beweise in diese Richtung (aber keine statistisch signifikanten Beweise!), So dass Sie den Vorteil des Zweifels angeben und behalte es im Modell. Vielleicht wird mit mehr Daten klarer, welche Beziehung es zum Ergebnis des Interesses hat.
Ein anderes Beispiel könnte sein, dass Sie ein neues Modell erstellen und sich die Variablen ansehen, die im vorherigen Modell verwendet wurden. Sie können auch weiterhin eine Randvariable (eine Variable, die sich an der Schwelle der Signifikanz befindet) einfügen, um eine gewisse Kontinuität zum Modell zu gewährleisten zu modellieren.
Grundsätzlich gibt es, abhängig davon, was Sie tun, Gründe, diese Art von Dingen mehr und weniger streng zu betrachten.
Andererseits ist auch zu beachten, dass statistische Signifikanz keine praktische Signifikanz implizieren muss! Denken Sie daran, dass die Stichprobengröße das Herzstück all dessen ist. Sammeln Sie genügend Daten, und der Standardfehler der Schätzung wird auf 0 sinken. Dies macht jeden Unterschied, egal wie gering er ist, „statistisch signifikant“, auch wenn dieser Unterschied in der realen Welt nichts ausmacht. Angenommen, die Wahrscheinlichkeit, dass eine bestimmte Münze auf dem Kopf landet, beträgt 500000000000001. Dies bedeutet, dass Sie theoretisch ein Experiment entwerfen könnten, bei dem festgestellt wird, dass die Münze nicht fair ist, die Münze jedoch in jeder Hinsicht als faire Münze behandelt werden könnte.
quelle