Es scheint, dass viele Leute (einschließlich mir) gerne explorative Datenanalysen in Excel durchführen. Einige Einschränkungen, wie z. B. die Anzahl der Zeilen, die in einer Tabelle zulässig sind, sind problematisch, machen es jedoch in den meisten Fällen nicht unmöglich, Excel zum Herumspielen von Daten zu verwenden.
Ein Artikel von McCullough und Heiser schreit jedoch praktisch, dass Sie Ihre Ergebnisse falsch sehen - und wahrscheinlich auch in der Hölle brennen -, wenn Sie versuchen, Excel zu verwenden.
Ist dieses Papier korrekt oder voreingenommen? Die Autoren scheinen Microsoft zu hassen.
software
computational-statistics
excel
Carlos Accioly
quelle
quelle
R
SAS).Antworten:
Verwenden Sie das richtige Werkzeug für den richtigen Job und nutzen Sie die Stärken der Ihnen vertrauten Werkzeuge.
In Excel gibt es einige wichtige Probleme:
Verwenden Sie keine Tabelle zum Verwalten von Daten, auch wenn Ihre Daten in eine passen. Du fragst nur nach Ärger, schrecklichen Ärger. Es gibt praktisch keinen Schutz vor Druckfehlern, Verwechslungen von Daten, Abschneiden von Datenwerten usw. usw.
Viele der statistischen Funktionen sind in der Tat defekt. Die t-Verteilung ist eine davon.
Die Standardgrafiken sind schrecklich.
Es fehlen einige grundlegende statistische Grafiken, insbesondere Boxplots und Histogramme.
Der Zufallszahlengenerator ist ein Scherz (aber dennoch für Bildungszwecke wirksam).
Vermeiden Sie die Funktionen auf hoher Ebene und die meisten Add-Ins. sie sind c ** p. Dies ist jedoch nur ein allgemeines Prinzip des sicheren Rechnens: Wenn Sie nicht sicher sind, was eine Funktion tut, verwenden Sie sie nicht. Halten Sie sich an die Low-Level-Funktionen (einschließlich Arithmetikfunktionen, Ranking-, Exp-, In-, Trigger-Funktionen und - in Grenzen - der Normalverteilungsfunktionen). Verwenden Sie niemals ein Add-In, das eine Grafik erzeugt: Es wird schrecklich. (NB: Es ist kinderleicht, eigene Wahrscheinlichkeitsdiagramme von Grund auf zu erstellen. Sie sind korrekt und in hohem Maße anpassbar.)
Dafür sprechen jedoch:
Die numerischen Grundberechnungen sind so genau, wie es Schwimmer mit doppelter Genauigkeit können. Dazu gehören einige nützliche, wie z. B. Log-Gamma.
Es ist ganz einfach, ein Steuerelement um Eingabefelder in einer Kalkulationstabelle zu wickeln, wodurch es einfach ist, dynamische Simulationen zu erstellen.
Wenn Sie eine Berechnung mit nicht statistischen Personen teilen müssen, werden die meisten mit einer Kalkulationstabelle ein wenig zufrieden sein und mit statistischer Software überhaupt keine, egal wie billig sie auch sein mag.
Es ist einfach, effektive numerische Makros zu schreiben, einschließlich der Portierung von altem Fortran-Code, der VBA sehr nahe kommt. Darüber hinaus ist die Ausführung von VBA relativ schnell. (Zum Beispiel habe ich Code, der nicht-zentrale t-Verteilungen von Grund auf genau berechnet und drei verschiedene Implementierungen von Fast Fourier Transforms.)
Es unterstützt einige effektive Simulationen und Monte-Carlo-Add-Ons wie Crystal Ball und @Risk. (Sie benutzen übrigens ihre eigenen RNGs - ich habe nachgesehen.)
Die Unmittelbarkeit der direkten Interaktion mit (wenigen) Daten ist beispiellos: Sie ist besser als jedes Statistikpaket, Mathematica usw. Als riesiger Taschenrechner mit viel Speicherplatz kommt eine Kalkulationstabelle voll zur Geltung.
Gute EDA mit robusten und widerstandsfähigen Methoden ist nicht einfach, aber nachdem Sie es einmal gemacht haben, können Sie es schnell wieder einrichten. Mit Excel können Sie alle Berechnungen (obwohl nur einige der Darstellungen) in Tukeys EDA-Buch effektiv reproduzieren , einschließlich des Median-Polierens von n-Wege-Tabellen (obwohl dies etwas umständlich ist).
Als direkte Antwort auf die ursprüngliche Frage gibt es in diesem Artikel eine Tendenz: Es konzentriert sich auf das Material, an dem Excel am schwächsten ist und das ein kompetenter Statistiker mit der geringsten Wahrscheinlichkeit verwendet. Dies ist jedoch keine Kritik an der Zeitung, da solche Warnungen gesendet werden müssen.
quelle
=TINV(2*p,df)
p-Werte zu berechnen, die von 0,01 bis fast 0 reichen, und vergleichen Sie sie mit den richtigen Werten. (Ich überprüfte mit df im Bereich von 2 bis 32.) Die Fehler beginnen in der sechsten signifikanten Zahl und explodieren dann, sobald p um 1.E-5 oder niedriger ist. Obwohl diese Werte von p klein sind, sind sie zu testende realistische Werte, da sie für Mehrfachvergleichstests und für die Berechnung von Werten im Zusammenhang mit der t-Verteilung wie dem nicht-zentralen t von entscheidender Bedeutung sind.Ein interessantes Papier über die Verwendung von Excel in einer Bioinformatik-Einstellung ist:
In diesem kurzen Artikel wird das Problem der automatischen Typkonvertierungen in Excel (insbesondere Datums- und Gleitkommakonvertierungen) beschrieben. Beispielsweise wird der Genname Sept2 in 2-Sept konvertiert. Sie können diesen Fehler tatsächlich in Online-Datenbanken finden .
Das Verwalten mittlerer bis großer Datenmengen mit Excel ist gefährlich. Fehler können sich leicht einschleichen, ohne dass der Benutzer es merkt.
quelle
Nun, die Frage, ob das Papier korrekt oder voreingenommen ist, sollte einfach sein: Sie könnten einfach einige ihrer Analysen wiederholen und sehen, ob Sie die gleichen Antworten erhalten.
McCullough hat seit einigen Jahren verschiedene Versionen von MS Excel auseinander genommen, und anscheinend war MS nicht in der Lage, Fehler zu beheben, auf die er vor Jahren in früheren Versionen hingewiesen hatte.
Ich sehe kein Problem beim Herumspielen mit Daten in Excel. Aber um ehrlich zu sein, würde ich meine "ernsthaften" Analysen nicht in Excel durchführen. Mein Hauptproblem wären nicht die Ungenauigkeiten (die meines Erachtens nur sehr selten ein Problem sind), sondern die Unmöglichkeit, meine Analysen ein Jahr später nachzuverfolgen und zu replizieren, wenn ein Prüfer oder mein Chef fragt, warum ich kein X gemacht habe - Sie können Ihre Daten speichern Arbeit und Ihre Sackgassen in kommentiertem R-Code, aber nicht in sinnvoller Weise in Excel.
quelle
Übrigens hat eine Frage zur Verwendung von Google-Tabellen unterschiedliche (daher interessante) Meinungen dazu aufgeworfen. Verwenden einige von Ihnen die Google Text & Tabellen-Tabelle, um Ihre statistischen Arbeiten durchzuführen und mit anderen zu teilen?
Ich denke an eine ältere Veröffentlichung, die nicht so pessimistisch wirkte, aber in der von Ihnen erwähnten Veröffentlichung nur am Rande zitiert wird: Keeling und Pavur, Eine vergleichende Studie zur Zuverlässigkeit von neun statistischen Softwarepaketen (CSDA 2007 51: 3811). Aber jetzt habe ich deine auf meiner Festplatte gefunden. Es gab auch eine Sonderausgabe im Jahr 2008, siehe Sonderteil zu Microsoft Excel 2007 und in jüngerer Zeit im Journal of Statistical Software: Zur numerischen Genauigkeit von Tabellenkalkulationen .
Ich denke, es ist eine langjährige Debatte, und Sie werden unterschiedliche Artikel / Meinungen über die Zuverlässigkeit von Excel für statistische Berechnungen finden. Ich denke, es gibt verschiedene Diskussionsebenen (welche Art von Analyse planen Sie, verlassen Sie sich auf den internen Löser, gibt es nichtlineare Begriffe, die in ein bestimmtes Modell einfließen usw.), und es können Ursachen für numerische Ungenauigkeiten auftreten als Ergebnis von korrekten Rechenfehlern oder Entwurfsentscheidungen ; Das ist gut zusammengefasst in
Für die explorative Datenanalyse stehen verschiedene Alternativen zur Verfügung, die erweiterte Visualisierungsfunktionen, multivariate und dynamische Grafiken, z. B. GGobi , bieten. In diesem Wiki finden Sie jedoch verwandte Themen.
Aber der erste Punkt, den Sie angesprochen haben, ist eindeutig ein anderes Problem (IMO), nämlich die Verwendung einer Tabelle für den Umgang mit großen Datenmengen: Es ist einfach nicht möglich, eine große CSV-Datei in Excel zu importieren (ich denke an genomische Daten, Dies gilt jedoch auch für andere hochdimensionale Daten. Es wurde nicht für diesen Zweck gebaut.
quelle
Die Referate und andere Teilnehmer weisen auf technische Schwächen hin. Whuber macht es gut, zumindest einige seiner Stärken herauszustellen. Ich persönlich mache umfangreiche statistische Arbeiten in Excel (Hypothesentests, lineare und multiple Regressionen) und liebe es. Ich verwende Excel 2003 mit einer Kapazität von 256 Spalten und 65.000 Zeilen, die nur etwa 100% der von mir verwendeten Datensätze verarbeiten können. Ich verstehe, dass Excel 2007 diese Kapazität um einen riesigen Betrag erweitert hat (Zeilen in Millionen).
Wie Whuber erwähnt, dient Excel auch als Startplattform für eine Vielzahl herausragender Add-In-Software, die alle sehr leistungsfähig und benutzerfreundlich sind. Ich denke an Crystal Ball und @Risk für Monte Carlo Simulation; XLStat für leistungsstarke Statistiken und Datenanalysen; Was ist am besten für die Optimierung. Und die Liste geht weiter. Es ist, als ob Excel das Äquivalent eines IPods oder eines IPads mit einer Unmenge ziemlich unglaublicher Apps ist. Zugegeben, die Excel Apps sind nicht billig. Aber für das, wozu sie in der Lage sind, sind sie normalerweise ziemlich gute Schnäppchen.
In Bezug auf die Modelldokumentation ist es so einfach, ein Textfeld einzufügen, in das Sie buchstäblich ein Buch über Ihre Methodik, Ihre Quellen usw. schreiben können. Sie können auch Kommentare in eine beliebige Zelle einfügen. Also, wenn etwas Excel ist wirklich gut für die Erleichterung der eingebetteten Dokumentation.
quelle
Excel ist nicht gut für Statistiken, aber es kann wunderbar für die explorative Datenanalyse sein. Schauen Sie sich dieses Video für einige besonders interessante Techniken an. Die Fähigkeit von Excel, Ihre Daten bedingt einzufärben und Balkendiagramme in Zellen hinzuzufügen, kann einen guten Einblick in die Struktur Ihrer Rohdaten geben.
quelle
Eine weitere gute Referenzquelle, warum Sie Excel möglicherweise nicht verwenden möchten, ist:
Tabellensucht
Wenn Sie sich in einer Situation befinden, in der Sie Excel wirklich brauchen (einige akademische Abteilungen bestehen darauf), dann würde ich die Verwendung des Rexcel-Plugins vorschlagen . Auf diese Weise können Sie eine Excel-Schnittstelle verwenden, das R-Programm wird jedoch als Berechnungsmodul verwendet. Sie müssen R nicht kennen, um es zu verwenden. Sie können Dropdown-Menüs und Dialogfelder verwenden, aber Sie können viel mehr tun, wenn Sie dies tun. Da R die Berechnungen durchführt, sind sie viel zuverlässiger als Excel und Sie haben viel bessere Diagramme und Boxplots und andere Diagramme, die in Excel fehlen. Es funktioniert sogar mit der automatischen Zellenaktualisierung in Excel (obwohl dies die Dinge sehr langsam machen kann, wenn Sie jedes Mal viele komplexe Analysen neu berechnen müssen). Es behebt nicht alle Probleme auf der Seite mit der Sucht nach Tabellenkalkulation, ist jedoch eine enorme Verbesserung gegenüber der Verwendung von Straight Excel.
quelle
Excel kann sowohl für die explorative Datenanalyse als auch für die lineare Regressionsanalyse mit den richtigen Plug-ins hervorragend geeignet sein. Es gibt eine Reihe von kommerziellen Produkten, die meisten lassen jedoch in Bezug auf die Qualität der von ihnen erzeugten Ausgabe zu wünschen übrig (sie nutzen die Diagrammoptionen von Excel oder die Möglichkeit der Verknüpfung mit anderen Office-Anwendungen nicht in vollem Umfang) Im Allgemeinen eignen sie sich nicht so gut für die Visualisierung und Präsentation von Daten. Sie unterstützen auch in der Regel keinen disziplinierten Modellierungsansatz, bei dem Sie (unter anderem) einen gut dokumentierten Prüfpfad für Ihre Arbeit führen. Hier ist ein KOSTENLOSES Plugin, "RegressIt", das viele dieser Probleme behebt: http://regressit.com. Es bietet eine sehr gute Unterstützung für explorative Analysen (einschließlich der Möglichkeit, parallele Zeitreihendiagramme und Streudiagrammmatrizen mit bis zu 50 Variablen zu erstellen) und erleichtert das Anwenden von Datentransformationen wie Verzögerung, Protokollierung und Differenzierung (die häufig nicht angewendet werden) Von naiven Regressionsbenutzern entsprechend) wird eine sehr detaillierte Tabellen- und Diagrammausgabe bereitgestellt, die die Best Practices der Datenanalyse unterstützt, und es wird ein Audit-Trail-Arbeitsblatt geführt, das nebeneinander liegende Modellvergleiche erleichtert und Aufzeichnungen darüber führt, welche Modelle verwendet werden wurden in welcher Reihenfolge eingebaut. Es ist eine gute Ergänzung zu allem, was Sie verwenden, wenn Sie mit multivariaten Daten arbeiten und zumindest ein Teil Ihrer Arbeit in einer Excel-Umgebung ausgeführt wird.
quelle