Ich bin nicht sicher, wo diese Frage hingehört: Cross Validated oder The Workplace. Aber meine Frage hängt vage mit der Statistik zusammen.
Diese Frage (oder ich nehme an, Fragen) stellte sich während meiner Arbeit als "Praktikant im Bereich Data Science". Ich habe dieses lineare Regressionsmodell erstellt und die Restkurve untersucht. Ich sah deutliche Anzeichen von Heteroskedastizität. Ich erinnere mich, dass die Heteroskedastizität viele Teststatistiken wie das Konfidenzintervall und den T-Test verzerrt. Also habe ich nach dem, was ich am College gelernt habe, das gewichtete kleinste Quadrat verwendet. Mein Vorgesetzter hat das gesehen und mir geraten, das nicht zu tun, weil "ich die Dinge kompliziert gemacht habe", was für mich überhaupt kein sehr überzeugender Grund war.
Ein anderes Beispiel wäre "Entfernen einer erklärenden Variablen, da ihr p-Wert unerheblich ist". Dieser Rat ist aus logischer Sicht einfach nicht sinnvoll. Nach dem, was ich gelernt habe, kann ein unbedeutender p-Wert verschiedene Gründe haben: Zufall, Verwendung des falschen Modells, Verletzung der Annahmen usw.
Ein weiteres Beispiel ist, dass ich mein Modell mithilfe der k-fachen Kreuzvalidierung evaluiert habe. Entsprechend dem Ergebnis ist gerade viel besser als C V m o d e l 2 . Aber wir haben ein niedrigeres R 2 für Modell 1, und der Grund hat etwas mit dem Achsenabschnitt zu tun . Mein Vorgesetzter scheint jedoch Modell 2 zu bevorzugen, da es ein höheres R 2 aufweist . Seine Gründe (wie R 2 ist robust, oder Kreuzvalidierung ist ein Ansatz des maschinellen Lernens, kein statistischer Ansatz.) Scheine einfach nicht überzeugend genug zu sein, um meine Meinung zu ändern.
Als jemand, der gerade sein Studium abgeschlossen hat, bin ich sehr verwirrt. Ich bin sehr leidenschaftlich darin, korrekte Statistiken anzuwenden, um Probleme der realen Welt zu lösen, aber ich weiß nicht, welche der folgenden Aussagen zutreffen:
- Die Statistiken, die ich selbst gelernt habe, sind einfach falsch, also mache ich nur Fehler.
- Es gibt einen großen Unterschied zwischen theoretischer Statistik und Gebäudemodellen in Unternehmen. Und obwohl die Statistiktheorie richtig ist, folgen die Leute ihr einfach nicht.
- Der Manager verwendet die Statistiken nicht richtig.
Update am 17.04.2017: Ich habe mich für eine Promotion entschieden. in der Statistik. Vielen Dank für Ihre Antwort.
Antworten:
Ich denke, das Einzige, was zu tun ist, wenn man mit einer solchen Situation konfrontiert wird, ist sorgfältig zu erklären, was an der falschen Praxis falsch ist, mit ein oder zwei Beispielen.
quelle
Der Kodiologe hat Recht - Sie haben Recht, er hat Unrecht. Leider ist dies ein noch häufiger auftretendes Problem als das, auf das Sie stoßen. Sie befinden sich in einer Branche, in der es relativ gut läuft .
Abgesehen von der Tatsache, dass dieses Konfidenzintervall ihnen nicht sagt, was sie tatsächlich benötigen (dafür benötigen sie ein Toleranzintervall), geschieht dies blind für Parameter, die in der Nähe eines Maximal- oder Minimalwerts liegen (aber wo das Intervall gewonnen wurde). t tatsächlich diese Werte überschreiten). Da Excel berechnet, was sie benötigen (ja, ich habe Excel gesagt), richten sie ihre Spezifikationen entsprechend ein, obwohl der Parameter nicht annähernd normalverteilt sein wird. Diesen Leuten wurden grundlegende Statistiken beigebracht, aber keine QQ-Diagramme oder ähnliches. Eines der größten Probleme ist, dass Ihnen Statistiken auch bei unsachgemäßer Verwendung eine Nummer geben - die meisten Leute wissen also nicht, wann sie das getan haben.
Mit anderen Worten, die Spezifikationen für die überwiegende Mehrheit der Produkte, in der überwiegenden Mehrheit der Branchen, sind Unsinn.
Eines der schlimmsten Beispiele, die ich für Leute habe, die Statistiken blind verfolgen, ohne es zu verstehen, ist die Verwendung von Cpk in der Automobilindustrie. Ein Unternehmen hat ungefähr ein Jahr damit verbracht, mit seinem Lieferanten über ein Produkt zu streiten, da er der Meinung war, dass der Lieferant sein Produkt auf ein Niveau kontrollieren könnte, das einfach nicht möglich war. Sie legten nur eine maximale Spezifikation (kein Minimum) für einen Parameter fest und verwendeten Cpk, um ihre Behauptung zu rechtfertigen - bis darauf hingewiesen wurde, dass ihre Berechnungen (wenn sie zur Festlegung eines theoretischen Mindestniveaus verwendet wurden) dies nicht wollten, weshalb sie dies nicht überprüft hatten ) implizierte einen massiven negativen Wert. Bei einem Parameter, der niemals kleiner als 0 werden kann, geht Cpk von normal aus, der Prozess ergab jedoch keine annähernd normalen Daten. Es dauerte lange, bis sich das durchsetzte. All das verschwendete Zeit und Geld, weil die Leute es nicht taten. Ich verstehe nicht, was sie berechnet haben - und es hätte viel schlimmer kommen können, wenn es nicht bemerkt worden wäre. Dies könnte dazu beitragen, dass es in der Automobilindustrie regelmäßig zu Rückrufen kommt!
Ich selbst habe einen naturwissenschaftlichen Hintergrund, und ehrlich gesagt ist der Statistikunterricht in Naturwissenschaften und Ingenieurwissenschaften schockierend unzureichend. Ich hatte noch nie von dem gehört, was ich jetzt verwenden muss - alles wurde mir selbst beigebracht und es gibt (verglichen mit einem richtigen Statistiker) auch jetzt noch massive Wissenslücken. Aus diesem Grund missbillige ich keine Menschen, die Statistiken missbrauchen (wahrscheinlich mache ich das immer noch regelmäßig), es ist eine schlechte Ausbildung.
Zurück zu Ihrer ursprünglichen Frage: Es ist wirklich nicht einfach. Ich stimme der Empfehlung von Kodiologist zu, diese Dinge vorsichtig zu erklären, damit die richtigen Statistiken verwendet werden. Aber ich würde dem noch einen zusätzlichen Vorbehalt hinzufügen und Ihnen raten, Ihre Schlachten mit Bedacht zu wählen, um Ihrer Karriere willen.
Es ist bedauerlich, aber es ist eine Tatsache, dass Sie nicht jeden dazu bringen können, jedes Mal die besten Statistiken zu erstellen. Wählen Sie, ob Sie sie korrigieren möchten, wenn es wirklich auf das endgültige Gesamtergebnis ankommt (was manchmal bedeutet, Dinge auf zwei verschiedene Arten zu überprüfen). Es gibt Zeiten (z. B. Ihr Modell 1,2), in denen die Verwendung des "falschen" Weges zu denselben Schlussfolgerungen führen kann. Vermeiden Sie es, zu viele Personen zu häufig zu korrigieren.
Ich weiß, dass das intellektuell frustrierend ist und die Welt anders funktionieren sollte - leider nicht. Bis zu einem gewissen Grad müssen Sie lernen, Ihre Schlachten anhand der individuellen Persönlichkeit Ihrer Kollegen zu beurteilen. Ihr (Karriere-) Ziel ist es, der Experte zu sein, zu dem sie gehen, wenn sie wirklich Hilfe brauchen, und nicht die wählerische Person, die immer versucht, sie zu korrigieren. Und in der Tat, wenn Sie diese Person werden, haben Sie wahrscheinlich den größten Erfolg, wenn Sie Menschen dazu bringen, zuzuhören und die Dinge richtig zu machen. Viel Glück.
quelle
Was beschrieben wird, scheint eine etwas schlechte Erfahrung zu sein. Dennoch sollte es nicht dazu führen, dass man den eigenen Bildungshintergrund oder das statistische Urteil seines Vorgesetzten / Managers sofort in Frage stellt.
Mein Rat ist, sich an Ihre (statistischen) Waffen zu halten, aber offen zu sein für das, was Menschen tun, geduldig mit Menschen, die sich möglicherweise von neuen statistischen Praktiken lösen, und Ratschläge / Meinungen zu geben, wenn Sie gefragt werden , eine dickere Haut zu bekommen und aus Ihrer Umgebung zu lernen. Wenn Sie das Richtige tun, wird sich langsam herausstellen, dass die Leute Ihre Meinung einholen wollen, weil sie erkennen, dass Sie Lösungen anbieten können, bei denen der aktuelle Workflow dies nicht tut. Schließlich ja sicher, wenn Sie nach einer angemessenen Zeitspanne (mindestens ein paar Monate) das Gefühl haben, dass Sie abgewertet und nicht respektiert werden, fahren Sie einfach fort.
Es versteht sich von selbst, dass Sie sich jetzt in der Branche nicht zurücklehnen können und glauben, dass Sie Ihre Statistikausbildung nicht verbessern müssen. Predictive Modeling, Regressionsstrategien und Clustering-Algorithmen entwickeln sich ständig weiter. Zum Beispiel war die Verwendung der Gaußschen Prozessregression in einem industriellen Umfeld vor 10 Jahren der Science-Fiction nahe. Jetzt sieht es fast so aus, als würde man es von der Stange probieren.
quelle