Ich habe in meinem kurzen akademischen Leben festgestellt, dass viele veröffentlichte Artikel in unserer Region manchmal nicht sehr streng in Bezug auf Statistiken sind. Dies ist nicht nur eine Annahme; Ich habe Professoren dasselbe sagen hören.
In CS-Disziplinen werden beispielsweise Artikel veröffentlicht, in denen behauptet wird, dass die Methodik X als wirksam angesehen wurde, und dies wird von ANOVA und ANCOVA bewiesen. Ich sehe jedoch keine Referenzen für andere Forscher, die bewerten, dass die erforderlichen Einschränkungen eingehalten wurden. Es fühlt sich etwas so an, als ob, sobald eine 'komplexe Funktion und ein komplexer Name' auftauchen, dies zeigt, dass der Forscher eine höchst glaubwürdige Methode und einen glaubwürdigen Ansatz anwendet: "Er muss wissen, was er tut, und es ist in Ordnung, wenn er die Einschränkungen nicht beschreibt." Zum Beispiel für diese gegebene Verteilung oder Herangehensweise, damit die Community sie bewerten kann.
Manchmal gibt es Ausreden, um die Hypothese mit einer so kleinen Stichprobengröße zu rechtfertigen.
Meine Frage hier wird daher als Student von CS-Disziplinen als Aspirant gestellt, um mehr über Statistik zu erfahren: Wie gehen Informatiker mit Statistik um?
Diese Frage scheint zu sein, als würde ich fragen, was ich bereits erklärt habe, aber das ist meine Meinung . Ich könnte mich irren oder mich auf eine Gruppe von Praktikern konzentrieren, während andere Gruppen von CS-Forschern möglicherweise etwas anderes tun, das besseren Praktiken in Bezug auf statistische Strenge folgt.
Ich möchte also konkret sagen: "Unser Bereich befasst sich aufgrund der gegebenen Fakten mit Statistiken (Artikelbeispiele, Bücher oder ein anderer Diskussionsartikel darüber sind in Ordnung)." @ Patrick Antwort ist näher daran.
quelle
Antworten:
Als Doktorand in Informatik, der in anderen Bereichen als der Informatik forscht und dessen Forschungsgruppe in einem Bereich der Informatik arbeitet, in dem Statistiken fruchtbar angewendet werden können, kann ich meine Erfahrungen anbieten. Ihr Kilometerstand kann variieren.
Im Allgemeinen kann es sein, dass selbst die wohlmeinendste wissenschaftliche Forschung die statistische Analyse nicht konsequent auf die Ergebnisse anwendet, und ich habe die Erfahrung gemacht, dass dies nicht immer ausschließt, dass Artikel, die solche schlecht analysierten Ergebnisse enthalten, zur Veröffentlichung angenommen werden. Der Bereich, in dem meine Gruppe tätig ist, umfasst hauptsächlich verteiltes Rechnen und Hochleistungscomputerarchitektur. Bei der Forschung handelt es sich häufig um experimentelle Entwürfe, deren Leistung nicht ohne weiteres im erforderlichen Detail analytisch verstanden werden kann. Daher werden empirische Ergebnisse häufig als Beweis für Behauptungen verwendet.
Es ist klar, dass Experimente so gestaltet und die Ergebnisse analysiert werden sollten, dass ein gewisses Vertrauen besteht, dass die Ergebnisse statistisch signifikant sind. Meistens wird dies nicht getan, selbst an einigen der wichtigsten Veranstaltungsorte. Wenn statistische Analysen angewendet werden, sind sie in keinem sinnvollen Sinne streng. Das Meiste, was man normalerweise sieht (und man ist froh, es zu sehen!), ist, dass ein Experiment n- mal für einige willkürlich ausgewählte n wiederholt wurde , wobei typischerweise . Die Auswahl der Fehlerbalken (falls vorhanden) scheint hauptsächlich eine Frage der persönlichen Präferenz oder des Geschmacks zu sein.1 < n < 5
Zusammenfassend gesagt, nein, es sind nicht nur Sie; und es ist nicht nur Software-Engineering. Im Allgemeinen scheinen nach meiner Erfahrung einige Bereiche der Computerforschung auf der Seite zu liegen, nicht genug zu tun. In der Tat könnte es sogar nachteilig für die Lebensfähigkeit eines eingereichten Papiers sein, sich mit statistischen Überlegungen zu befassen. Das heißt nicht, dass ich die Situation zufriedenstellend finde; weit davon entfernt. Aber das sind meine Eindrücke. Sie können sich beispielsweise Abschnitt 5 dieses Dokuments ansehen, die auf der Supercomputing 2011 vorgestellt wurde, einer der bekanntesten Konferenzen im Bereich High Performance Computing. Schauen Sie sich insbesondere einige der Erörterungen der Ergebnisse in Abschnitt 5 an und prüfen Sie, ob Sie zu denselben Schlussfolgerungen gelangen, die ich hinsichtlich der Genauigkeit der statistischen Analyse experimenteller Ergebnisse gezogen habe.
Allgemeiner kann dieses Manko symptomatisch für eine Bedingung in einigen Bereichen des Rechnens sein, mehr als weniger Artikel zu veröffentlichen, eher Konferenzen als Zeitschriften anzusprechen und inkrementelle Fortschritte zu betonen, anstatt signifikante und grundlegende Verbesserungen des Verständnisses. Sie können diesen Artikel konsultieren , der wertvolle Einblicke in diese Richtung bietet.
quelle
Das Software-Engineering umfasst viele Funktionen. Zwei davon sind menschlicher Faktor und Qualitätsmaß.
Angenommen, ich möchte eine Produktivitätsanalyse durchführen. Die Datenerfassung wäre im Vergleich zur Algorithmusanalyse schwierig, da es sich bei den Daten um die menschliche Produktivität handelt. Auch das objektive Qualitätsmaß ist nicht leicht zu erreichen.
10 Codezeilen pro Tag für ein Avioniksystem im Vergleich zu 150 Codezeilen pro Tag für eine App auf Smartphones, welche hat eine höhere Produktivität und welche eine bessere Qualität? Und wenn beide behaupten, dass sie dieselbe Methodik anwenden? Wenn man sie vergleicht, vergleicht man Äpfel und Orangen.
Manchmal ist es schwierig, ein genaues Maß für die Codeeffizienz zu erreichen. Zum Beispiel habe ich eine Reihe nicht nützlicher Variablen und viele Codezeilen für diese Variablen eingefügt, beispielsweise zum Debuggen. Dies steigert meine Produktivität in der Entwicklungsphase. Am Ende nehme ich alle heraus und sage, ich verbessere meinen Code, um Effizienz zu erreichen.
Später kommt ein Forscher herein und führt eine Effizienzanalyse durch. Er könnte das Obige als Geräusche behandeln und sich nur auf die Endergebnisse konzentrieren. Einige Forscher achten auf die Geräusche. Dann sehen Sie Artikel mit unterschiedlichen Schlussfolgerungen.
Die Statistik soll den Forschern helfen, Ursachen für Probleme zu finden. Viele Forscher verwenden es, um Schlussfolgerungen zu ziehen. Das haben Sie beobachtet.
Einige der obigen Bemerkungen könnten das OP zu der Annahme veranlassen, dass ich gegen die Verwendung von Statistiken in der Softwareentwicklung bin. Wenn ja, möchte ich mich klarstellen.
Ich bin nicht gegen Statistiken. Die Statistikanalyse kann Ihnen sagen, dass X möglicherweise wahr ist. Dies sollte jedoch nicht das Ende der Forschung sein. Die nächste Aufgabe sollte sein, herauszufinden, ob X tatsächlich wahr ist und warum. Ich glaube, darum geht es in der Wissenschaft - darum, die Wahrheit zu finden.
Ob Software Engineering zur Informatik gehört oder nicht, ist ein weiteres Problem.
quelle
Statistiken sind schwierig und oft nicht intuitiv. Außerdem ist der Drang, "noch ein Experiment durchzuführen", um festzustellen, ob es einen Effekt gibt (und zu stoppen, wenn er auftritt), stark, insbesondere wenn die Experimente kostspielig sind (Zeit, Arbeit, nicht nur Geld). Denken Sie auch daran, dass die Veröffentlichung eines Papiers darüber, wie das sorgfältig eingerichtete, lange und kostspielige Experiment Nein zeigt statistisch signifikante Beziehung in der Regel unmöglich ist.
Insbesondere in der Softwareentwicklung gibt es viele unkontrollierbare Variablen. Um sie zu berücksichtigen, benötigen Sie viele Wiederholungen des Experiments, und Sie erhalten Ressourcen, um eine oder bestenfalls zwei durchzuführen.
quelle
Es gibt mehrere Fragen oben und einige sind nicht mit der Titelfrage identisch. In gewisser Weise hat diese Frage eine fehlerhafte Prämisse / ein falsches Missverständnis hinsichtlich eines Mangels an Verbindung zwischen Statistik und CS. Die allgemeine Frage betrifft die Schnittstelle zwischen Informatik und Statistik.
In einigen Bereichen gibt es eine enorme Überschneidung, und es ist ein zunehmender Trend mit dem neuen, stark aufstrebenden Bereich der Big Data . An einigen Schulen (z. B. sogar an Elite-Schulen der "Ivy League") ist der CS-Abschluss eng mit den Abteilungen für Mathematik und Statistik verbunden, und einige haben ein gemeinsames Hauptfach . Im Bereich CS / Statistik des maschinellen Lernens besteht eine sehr starke Verbindung . Auch das relativ neue Gebiet der Bioinformatik hat eine sehr starke statistische Grundlage für CS +.
Es gibt ein ganzes Feld Computerstatistik, die sich auf die Schnittstelle konzentriert!
Ja, stimmte zu, wie in der Frage ausgeführt, gibt es viele CS-Papiere, die keine Statistiken verwenden, einschließlich Situationen (wie die Auswertung empirischer Experimente), in denen sie möglicherweise sogar hoch anwendbar und relevant sind, aber genau dasselbe kann von vielen anderen gesagt werden wissenschaftliche Bereiche, z. B. Mathematik, und noch mehr angewandte Bereiche wie Physik.
Es gibt viele Möglichkeiten, Statistiken zu verwenden / anzuwenden, einige weniger streng als andere, und nicht alle Kontexte erfordern die vollständige Anwendung der sehr fortgeschrittenen Aspekte der Statistik. Das einfache Ausführen mehrerer Experimente und das Zeichnen von Fehlerbalken für statistische Abweichungen (oder sogar nur Durchschnittswerte! ) ist eine grundlegende Verwendung von Statistiken. Strengere Verwendungen umfassen das Testen von Hypothesen, aber es gibt eine allgemeine Beobachtung auf dem Gebiet, dass viele wissenschaftliche Arbeiten keine strengen Hypothesentests durchführen, selbst wenn dies anwendbar sein könnte.
Außerdem ist diese Frage mit Software-Engineering gekennzeichnet . Dies war mein Hauptfach, und ein Statistikkurs war erforderlich , um diesen Abschluss an meiner Schule zu machen und einen Ingenieur-zertifizierten Hauptfach (z. B. ABET ) zu erhalten. Dies ist wahrscheinlich an vielen anderen Universitäten der Fall. Wenn man angewandte und strengere CS-Prinzipien wie die Anwendung von Statistiken wünscht, kann man in der Bildung den Weg des "Software-Engineerings" gehen.
Durch die Kombination von Informatik und Statistik entstehen lernfähige Maschinen. Prof. John Lafferty lehrt Computer, Wissen aus Daten zu extrahieren
kombinierte Statistik und Informatik Major, U von Illinois
Abteilung Mathematik, CS, Statistik, Purdue
Welche Statistiken sollte ein Informatiker über den Stapelüberlauf wissen ?
quelle