Richtige Statistiken in einer Arbeitsumgebung erstellen?

20

Ich bin nicht sicher, wo diese Frage hingehört: Cross Validated oder The Workplace. Aber meine Frage hängt vage mit der Statistik zusammen.

Diese Frage (oder ich nehme an, Fragen) stellte sich während meiner Arbeit als "Praktikant im Bereich Data Science". Ich habe dieses lineare Regressionsmodell erstellt und die Restkurve untersucht. Ich sah deutliche Anzeichen von Heteroskedastizität. Ich erinnere mich, dass die Heteroskedastizität viele Teststatistiken wie das Konfidenzintervall und den T-Test verzerrt. Also habe ich nach dem, was ich am College gelernt habe, das gewichtete kleinste Quadrat verwendet. Mein Vorgesetzter hat das gesehen und mir geraten, das nicht zu tun, weil "ich die Dinge kompliziert gemacht habe", was für mich überhaupt kein sehr überzeugender Grund war.

Ein anderes Beispiel wäre "Entfernen einer erklärenden Variablen, da ihr p-Wert unerheblich ist". Dieser Rat ist aus logischer Sicht einfach nicht sinnvoll. Nach dem, was ich gelernt habe, kann ein unbedeutender p-Wert verschiedene Gründe haben: Zufall, Verwendung des falschen Modells, Verletzung der Annahmen usw.

Ein weiteres Beispiel ist, dass ich mein Modell mithilfe der k-fachen Kreuzvalidierung evaluiert habe. Entsprechend dem Ergebnis ist gerade viel besser als C V m o d e l 2 . Aber wir haben ein niedrigeres R 2 für Modell 1, und der Grund hat etwas mit dem Achsenabschnitt zu tun . Mein Vorgesetzter scheint jedoch Modell 2 zu bevorzugen, da es ein höheres R 2 aufweist . Seine Gründe (wie R 2CVmOdel1CVmOdel2R2R2R2 ist robust, oder Kreuzvalidierung ist ein Ansatz des maschinellen Lernens, kein statistischer Ansatz.) Scheine einfach nicht überzeugend genug zu sein, um meine Meinung zu ändern.

Als jemand, der gerade sein Studium abgeschlossen hat, bin ich sehr verwirrt. Ich bin sehr leidenschaftlich darin, korrekte Statistiken anzuwenden, um Probleme der realen Welt zu lösen, aber ich weiß nicht, welche der folgenden Aussagen zutreffen:

  1. Die Statistiken, die ich selbst gelernt habe, sind einfach falsch, also mache ich nur Fehler.
  2. Es gibt einen großen Unterschied zwischen theoretischer Statistik und Gebäudemodellen in Unternehmen. Und obwohl die Statistiktheorie richtig ist, folgen die Leute ihr einfach nicht.
  3. Der Manager verwendet die Statistiken nicht richtig.

Update am 17.04.2017: Ich habe mich für eine Promotion entschieden. in der Statistik. Vielen Dank für Ihre Antwort.

3x89g2
quelle
1
Im Zusammenhang mit Ihrer Frage stehen die Kommentare (insbesondere die am Ende) unter dieser Antwort: stats.stackexchange.com/questions/229193/…
Diese Diskussion kann auch relevant sein . In der Praxis können Sie manchmal Modelle verwenden, bei denen Ihre Daten einige erforderliche Annahmen verletzen (z. B. Naive Bayes für abhängige Variablen) und dennoch interessante Ergebnisse liefern. Aber Sie müssen dann sehr vorsichtig mit den Schlussfolgerungen sein, die Sie ziehen, und hier liegt das Hauptproblem: Die meisten Leute kümmern sich einfach nicht um die Bedeutung Ihrer Ergebnisse, solange Sie Ergebnisse erzielen. Veröffentlichen oder untergehen ...
mühsam
1
Die Antworten "Sie haben Recht und er liegt falsch" sind wahrscheinlich richtig und beziehen sich auf Ihren Fall. Beachten Sie jedoch, dass die Antwort manchmal lauten kann: "Er liegt falsch, aber sein falscher Weg funktioniert für seine Zwecke. Vielleicht funktioniert es sogar besser als der richtige Weg für seine nicht statistischen Geschäftszwecke." Ich denke, das passiert oft mit allen Arten von wissenschaftlichen Erkenntnissen, nicht nur mit Statistiken. Vielleicht können sie Ihnen in SE Workplace nicht statistische Beispiele geben.
Pere
3
@Aksakal: Von dem, was das OP statistisch beschreibt , ist er wahrscheinlicher richtig. Ihre persönliche Anekdote ist nur eine Anekdote. Ich kann dem entgegenwirken, indem ich sage, dass ich in einen Job gewechselt bin, in dem A / B-Tests mit nur 30 Proben durchgeführt würden. Das Zeigen grundlegender Leistungsberechnungen veränderte die gesamte Denkweise der Teams in Bezug auf Stichprobengrößen und Entscheidungsfindung. Zurück zur Frage des OP. Ich stimme zu, dass das Beschriebene nicht bedeutet, dass der Vorgesetzte des OP einen falschen Anruf getätigt hat. Business-Workflows haben eine besondere Trägheit, und der "neue Typ" muss sich als Prediger beweisen, bevor er Prophet wird ...
usεr11852 sagt Reinstate Monic
1
@ usεr11852, mein Kommentar war ein Schimpfwort :) aber es hat einen Sinn, denkt ich: Für jemanden, der neu auf dem Gebiet ist, ist es sicherer anzunehmen, dass ein Chef es besser weiß. Mit der Erfahrung kann er diese Annahme lockern, vielleicht mehr Gewicht auf seine eigene Meinung legen und weniger auf den Chef. für einen Praktikanten sollte das Gewicht nach eigener Meinung nahe bei NULL liegen.
Aksakal

Antworten:

12

p

Ich denke, das Einzige, was zu tun ist, wenn man mit einer solchen Situation konfrontiert wird, ist sorgfältig zu erklären, was an der falschen Praxis falsch ist, mit ein oder zwei Beispielen.

Kodiologist
quelle
3
Danke für die Antwort. Ich schätze, die Frage des nächsten Schritts lautet: Gibt es einen Job, der tatsächlich korrekte Statistiken erstellt? Ich verstehe, dass Data Science heutzutage sehr beliebt ist, aber irgendwie habe ich den Eindruck, dass es vielen "Data Scientists" nicht wirklich
wichtig ist
1
@ Misakov Ich denke, es hängt wirklich von der Person oder Organisation ab. Schlagworte wie "Data Science", "Analytics" und "Business Intelligence" sind jedoch rote Fahnen. Und vergessen Sie nicht, dass Sie sie in einem Vorstellungsgespräch auch interviewen. Es bringt Sie nicht nur dazu, gut auszusehen, wenn Sie detaillierte Fragen dazu stellen, wie Dinge getan werden. Sie können sehen, wie ernst sie mit der Datenanalyse sind.
Kodiologist
@Misakov Sie müssten wahrscheinlich in die Wissenschaft gehen, wenn Sie wirklich korrekte Statistiken erstellen möchten. Die überwiegende Mehrheit (siehe meine Antwort oben) der gewerblichen Nutzung wird falsch sein.
Mooks
R2
1
@ usεr11852 Ein guter (dh nicht spitzer) Vorgesetzter wird den Mitarbeitern aufschieben, wenn sie es besser wissen als er. "Angesichts der Tatsache, dass das Unternehmen immer noch besteht, sind die Entscheidungen des Managers nicht so falsch. "
Kodiologist
11

Der Kodiologe hat Recht - Sie haben Recht, er hat Unrecht. Leider ist dies ein noch häufiger auftretendes Problem als das, auf das Sie stoßen. Sie befinden sich in einer Branche, in der es relativ gut läuft .

meeinn+3σ

Abgesehen von der Tatsache, dass dieses Konfidenzintervall ihnen nicht sagt, was sie tatsächlich benötigen (dafür benötigen sie ein Toleranzintervall), geschieht dies blind für Parameter, die in der Nähe eines Maximal- oder Minimalwerts liegen (aber wo das Intervall gewonnen wurde). t tatsächlich diese Werte überschreiten). Da Excel berechnet, was sie benötigen (ja, ich habe Excel gesagt), richten sie ihre Spezifikationen entsprechend ein, obwohl der Parameter nicht annähernd normalverteilt sein wird. Diesen Leuten wurden grundlegende Statistiken beigebracht, aber keine QQ-Diagramme oder ähnliches. Eines der größten Probleme ist, dass Ihnen Statistiken auch bei unsachgemäßer Verwendung eine Nummer geben - die meisten Leute wissen also nicht, wann sie das getan haben.

Mit anderen Worten, die Spezifikationen für die überwiegende Mehrheit der Produkte, in der überwiegenden Mehrheit der Branchen, sind Unsinn.

Eines der schlimmsten Beispiele, die ich für Leute habe, die Statistiken blind verfolgen, ohne es zu verstehen, ist die Verwendung von Cpk in der Automobilindustrie. Ein Unternehmen hat ungefähr ein Jahr damit verbracht, mit seinem Lieferanten über ein Produkt zu streiten, da er der Meinung war, dass der Lieferant sein Produkt auf ein Niveau kontrollieren könnte, das einfach nicht möglich war. Sie legten nur eine maximale Spezifikation (kein Minimum) für einen Parameter fest und verwendeten Cpk, um ihre Behauptung zu rechtfertigen - bis darauf hingewiesen wurde, dass ihre Berechnungen (wenn sie zur Festlegung eines theoretischen Mindestniveaus verwendet wurden) dies nicht wollten, weshalb sie dies nicht überprüft hatten ) implizierte einen massiven negativen Wert. Bei einem Parameter, der niemals kleiner als 0 werden kann, geht Cpk von normal aus, der Prozess ergab jedoch keine annähernd normalen Daten. Es dauerte lange, bis sich das durchsetzte. All das verschwendete Zeit und Geld, weil die Leute es nicht taten. Ich verstehe nicht, was sie berechnet haben - und es hätte viel schlimmer kommen können, wenn es nicht bemerkt worden wäre. Dies könnte dazu beitragen, dass es in der Automobilindustrie regelmäßig zu Rückrufen kommt!

Ich selbst habe einen naturwissenschaftlichen Hintergrund, und ehrlich gesagt ist der Statistikunterricht in Naturwissenschaften und Ingenieurwissenschaften schockierend unzureichend. Ich hatte noch nie von dem gehört, was ich jetzt verwenden muss - alles wurde mir selbst beigebracht und es gibt (verglichen mit einem richtigen Statistiker) auch jetzt noch massive Wissenslücken. Aus diesem Grund missbillige ich keine Menschen, die Statistiken missbrauchen (wahrscheinlich mache ich das immer noch regelmäßig), es ist eine schlechte Ausbildung.

Zurück zu Ihrer ursprünglichen Frage: Es ist wirklich nicht einfach. Ich stimme der Empfehlung von Kodiologist zu, diese Dinge vorsichtig zu erklären, damit die richtigen Statistiken verwendet werden. Aber ich würde dem noch einen zusätzlichen Vorbehalt hinzufügen und Ihnen raten, Ihre Schlachten mit Bedacht zu wählen, um Ihrer Karriere willen.

Es ist bedauerlich, aber es ist eine Tatsache, dass Sie nicht jeden dazu bringen können, jedes Mal die besten Statistiken zu erstellen. Wählen Sie, ob Sie sie korrigieren möchten, wenn es wirklich auf das endgültige Gesamtergebnis ankommt (was manchmal bedeutet, Dinge auf zwei verschiedene Arten zu überprüfen). Es gibt Zeiten (z. B. Ihr Modell 1,2), in denen die Verwendung des "falschen" Weges zu denselben Schlussfolgerungen führen kann. Vermeiden Sie es, zu viele Personen zu häufig zu korrigieren.

Ich weiß, dass das intellektuell frustrierend ist und die Welt anders funktionieren sollte - leider nicht. Bis zu einem gewissen Grad müssen Sie lernen, Ihre Schlachten anhand der individuellen Persönlichkeit Ihrer Kollegen zu beurteilen. Ihr (Karriere-) Ziel ist es, der Experte zu sein, zu dem sie gehen, wenn sie wirklich Hilfe brauchen, und nicht die wählerische Person, die immer versucht, sie zu korrigieren. Und in der Tat, wenn Sie diese Person werden, haben Sie wahrscheinlich den größten Erfolg, wenn Sie Menschen dazu bringen, zuzuhören und die Dinge richtig zu machen. Viel Glück.

Mooks
quelle
Excel ist wahrscheinlich die am weitesten verbreitete Datenanalyse-Software. Keine Notwendigkeit für die Bemerkung " Ja, ich habe es gesagt! ". Wenn jemand die akademische Welt (und vielleicht die große Pharmaindustrie) nicht verlassen hat, würde er mit Ihrer ursprünglichen Aussage kein Auge auf sie werfen. (Nette Antwort, +1)
usεr11852 sagt Reinstate Monic
1
Es ist das am weitesten verbreitete und ich denke, das unterstreicht meinen ursprünglichen Standpunkt. Excel weist große Mängel bei der Datenanalyse auf. Wenn das, was Sie tun, in Excel ausgeführt wird, können Sie es nicht als Datenanalyse bezeichnen - es sei denn, Sie geben alle Berechnungen manuell selbst ein. Nichts gegen Excel als Tabellenkalkulation, aber bestenfalls ein rudimentäres Datenanalyse-Tool. Aber die Leute wissen es nicht besser, weil sie nicht besser unterrichtet werden. Ich komme nicht aus der Statistik, aber ich hatte das Glück, dass mir jemand R genannt hat, um bessere Grafiken zu erstellen - und das hat mich zufällig zu besseren Statistiken geführt.
Mooks
"Ich stimme der Empfehlung von Kodiologist zu, diese Dinge vorsichtig zu erklären, damit die richtigen Statistiken verwendet werden." - Ich möchte Zeuge sein. Ein Praktikant erklärt seinem Arbeitgeber, wie man Geschäfte macht.
Aksakal
1
Dies wird helfen, überprüfen Sie # 9. Es ist ein allgemeiner Rat, der ständig in solchen Listen vorkommt. Die ersten 100 Arbeitstage: Schlagen Sie nicht vor, Dinge zu ändern, sondern finden Sie zuerst heraus, warum Menschen Dinge so tun, wie sie es tun. Oft gibt es einen gültigen Grund. Sie werden sich zum Narren halten, und ich habe dies immer wieder bei neuen Leuten gesehen.
Halten Sie
@Aksakal Was du gesagt hast, macht definitiv Sinn. Ich benehme mich in meiner Situation ein bisschen "mutig", hauptsächlich, weil ich Praktikant bin und weiß, dass ich sowieso ziemlich bald gehe.
3 x 89 g2,
3

Was beschrieben wird, scheint eine etwas schlechte Erfahrung zu sein. Dennoch sollte es nicht dazu führen, dass man den eigenen Bildungshintergrund oder das statistische Urteil seines Vorgesetzten / Managers sofort in Frage stellt.

R2Arbeit statt asymptotisches Verhalten irgendwo in der Zukunft bedeutet nicht viel. Die Leute werden zögern, das zu akzeptieren. Warum Energie für Veränderungen aufwenden, wenn alles (etwas) funktioniert? Ihr Vorgesetzter ist aus geschäftlicher Sicht nicht unbedingt falsch. Er ist für die statistischen und geschäftlichen Entscheidungen Ihrer Abteilung verantwortlich. Diese Entscheidung muss nicht immer mit den kurzfristigen Ergebnissen übereinstimmen, und es ist sehr wahrscheinlich, dass sie nicht mit den kurzfristigen Ergebnissen übereinstimmt.

Mein Rat ist, sich an Ihre (statistischen) Waffen zu halten, aber offen zu sein für das, was Menschen tun, geduldig mit Menschen, die sich möglicherweise von neuen statistischen Praktiken lösen, und Ratschläge / Meinungen zu geben, wenn Sie gefragt werden , eine dickere Haut zu bekommen und aus Ihrer Umgebung zu lernen. Wenn Sie das Richtige tun, wird sich langsam herausstellen, dass die Leute Ihre Meinung einholen wollen, weil sie erkennen, dass Sie Lösungen anbieten können, bei denen der aktuelle Workflow dies nicht tut. Schließlich ja sicher, wenn Sie nach einer angemessenen Zeitspanne (mindestens ein paar Monate) das Gefühl haben, dass Sie abgewertet und nicht respektiert werden, fahren Sie einfach fort.

Es versteht sich von selbst, dass Sie sich jetzt in der Branche nicht zurücklehnen können und glauben, dass Sie Ihre Statistikausbildung nicht verbessern müssen. Predictive Modeling, Regressionsstrategien und Clustering-Algorithmen entwickeln sich ständig weiter. Zum Beispiel war die Verwendung der Gaußschen Prozessregression in einem industriellen Umfeld vor 10 Jahren der Science-Fiction nahe. Jetzt sieht es fast so aus, als würde man es von der Stange probieren.

usεr11852 sagt Reinstate Monic
quelle