Excel als Statistik-Workbench

52

Es scheint, dass viele Leute (einschließlich mir) gerne explorative Datenanalysen in Excel durchführen. Einige Einschränkungen, wie z. B. die Anzahl der Zeilen, die in einer Tabelle zulässig sind, sind problematisch, machen es jedoch in den meisten Fällen nicht unmöglich, Excel zum Herumspielen von Daten zu verwenden.

Ein Artikel von McCullough und Heiser schreit jedoch praktisch, dass Sie Ihre Ergebnisse falsch sehen - und wahrscheinlich auch in der Hölle brennen -, wenn Sie versuchen, Excel zu verwenden.

Ist dieses Papier korrekt oder voreingenommen? Die Autoren scheinen Microsoft zu hassen.

Carlos Accioly
quelle
5
Eine aktuelle Analyse der Genauigkeit von Tabellenkalkulationssoftware für statistische Berechnungen findet sich in [Kellie B. Keeling und Robert J. Pavur (2011): Statistische Genauigkeit von Tabellenkalkulationssoftware, The American Statistician, 65: 4, 265-273] (derzeit als kostenloser Download erhältlich) bei amstat.tandfonline.com/doi/pdf/10.1198/tas.2011.09076 ). Die Ergebnisse sind gemischt und vielleicht ein wenig überraschend. Bemerkenswert ist die enorme Verbesserung der Verteilungsberechnungen zwischen Excel 2007 und Excel 2010 (die genauer zu sein scheint als RSAS).
whuber

Antworten:

45

Verwenden Sie das richtige Werkzeug für den richtigen Job und nutzen Sie die Stärken der Ihnen vertrauten Werkzeuge.

In Excel gibt es einige wichtige Probleme:

  • Verwenden Sie keine Tabelle zum Verwalten von Daten, auch wenn Ihre Daten in eine passen. Du fragst nur nach Ärger, schrecklichen Ärger. Es gibt praktisch keinen Schutz vor Druckfehlern, Verwechslungen von Daten, Abschneiden von Datenwerten usw. usw.

  • Viele der statistischen Funktionen sind in der Tat defekt. Die t-Verteilung ist eine davon.

  • Die Standardgrafiken sind schrecklich.

  • Es fehlen einige grundlegende statistische Grafiken, insbesondere Boxplots und Histogramme.

  • Der Zufallszahlengenerator ist ein Scherz (aber dennoch für Bildungszwecke wirksam).

  • Vermeiden Sie die Funktionen auf hoher Ebene und die meisten Add-Ins. sie sind c ** p. Dies ist jedoch nur ein allgemeines Prinzip des sicheren Rechnens: Wenn Sie nicht sicher sind, was eine Funktion tut, verwenden Sie sie nicht. Halten Sie sich an die Low-Level-Funktionen (einschließlich Arithmetikfunktionen, Ranking-, Exp-, In-, Trigger-Funktionen und - in Grenzen - der Normalverteilungsfunktionen). Verwenden Sie niemals ein Add-In, das eine Grafik erzeugt: Es wird schrecklich. (NB: Es ist kinderleicht, eigene Wahrscheinlichkeitsdiagramme von Grund auf zu erstellen. Sie sind korrekt und in hohem Maße anpassbar.)

Dafür sprechen jedoch:

  • Die numerischen Grundberechnungen sind so genau, wie es Schwimmer mit doppelter Genauigkeit können. Dazu gehören einige nützliche, wie z. B. Log-Gamma.

  • Es ist ganz einfach, ein Steuerelement um Eingabefelder in einer Kalkulationstabelle zu wickeln, wodurch es einfach ist, dynamische Simulationen zu erstellen.

  • Wenn Sie eine Berechnung mit nicht statistischen Personen teilen müssen, werden die meisten mit einer Kalkulationstabelle ein wenig zufrieden sein und mit statistischer Software überhaupt keine, egal wie billig sie auch sein mag.

  • Es ist einfach, effektive numerische Makros zu schreiben, einschließlich der Portierung von altem Fortran-Code, der VBA sehr nahe kommt. Darüber hinaus ist die Ausführung von VBA relativ schnell. (Zum Beispiel habe ich Code, der nicht-zentrale t-Verteilungen von Grund auf genau berechnet und drei verschiedene Implementierungen von Fast Fourier Transforms.)

  • Es unterstützt einige effektive Simulationen und Monte-Carlo-Add-Ons wie Crystal Ball und @Risk. (Sie benutzen übrigens ihre eigenen RNGs - ich habe nachgesehen.)

  • Die Unmittelbarkeit der direkten Interaktion mit (wenigen) Daten ist beispiellos: Sie ist besser als jedes Statistikpaket, Mathematica usw. Als riesiger Taschenrechner mit viel Speicherplatz kommt eine Kalkulationstabelle voll zur Geltung.

  • Gute EDA mit robusten und widerstandsfähigen Methoden ist nicht einfach, aber nachdem Sie es einmal gemacht haben, können Sie es schnell wieder einrichten. Mit Excel können Sie alle Berechnungen (obwohl nur einige der Darstellungen) in Tukeys EDA-Buch effektiv reproduzieren , einschließlich des Median-Polierens von n-Wege-Tabellen (obwohl dies etwas umständlich ist).

Als direkte Antwort auf die ursprüngliche Frage gibt es in diesem Artikel eine Tendenz: Es konzentriert sich auf das Material, an dem Excel am schwächsten ist und das ein kompetenter Statistiker mit der geringsten Wahrscheinlichkeit verwendet. Dies ist jedoch keine Kritik an der Zeitung, da solche Warnungen gesendet werden müssen.

whuber
quelle
7
@whuber Ein schöner und praktischer Überblick über Vor- und Nachteile!
Chl
4
+1 schön und ausgewogen. Mir gefällt vor allem der Punkt "Unmittelbarkeit der direkten Interaktion", der meiner Meinung nach das größte Verkaufsargument von Excel (oder wirklich der Tabellenkalkulation) ist. Deklaratives Programmieren für die breite Masse - das erklärt, warum einige Leute denken, dass 80% der weltweiten Geschäftslogik in Excel geschrieben sind (was Programmierer und Statistiker betrifft, die sich über R v SAS oder Java v C ++ usw. streiten).
ars
2
Ich habe gehört, dass Microsoft vor einigen Jahren einige numerische Analysten eingestellt hat, um die fehlerhaften Funktionen in Excel zu beheben. Wissen Sie, ob die Probleme mit Excel in den Versionen 2007 oder 2010 noch vorhanden sind?
John D. Cook
2
@Zach Verwenden Sie beispielsweise Excel 2002, um =TINV(2*p,df)p-Werte zu berechnen, die von 0,01 bis fast 0 reichen, und vergleichen Sie sie mit den richtigen Werten. (Ich überprüfte mit df im Bereich von 2 bis 32.) Die Fehler beginnen in der sechsten signifikanten Zahl und explodieren dann, sobald p um 1.E-5 oder niedriger ist. Obwohl diese Werte von p klein sind, sind sie zu testende realistische Werte, da sie für Mehrfachvergleichstests und für die Berechnung von Werten im Zusammenhang mit der t-Verteilung wie dem nicht-zentralen t von entscheidender Bedeutung sind.
whuber
2
Ich denke, Ihr erster Aufzählungspunkt muss mit Sternen und Pfeilen gekennzeichnet sein. Tabellenkalkulationen enthalten keinen Prüfpfad. Dies ist wichtig, wenn Sie Arbeiten ausführen möchten, auf die sich jemand tatsächlich verlässt. Im Gegensatz dazu bietet R keinen direkten Prüfpfad, aber da es Befehle akzeptiert und Sie die Befehle zum Importieren, Vorverarbeiten, Verarbeiten, Zeichnen usw. in einer separaten Datei speichern können, können Sie einen Überblick darüber haben, was Sie getan haben Holen Sie sich Graph # 1, und Sie können ihn von Grund auf neu erstellen, für den Fall, dass Sie plötzlich Grund haben, ihn in Frage zu stellen.
Wayne
18

Ein interessantes Papier über die Verwendung von Excel in einer Bioinformatik-Einstellung ist:

Fehlerkennungen: Bei der Verwendung von Excel in der Bioinformatik, BMC Bioinformatics, 2004, können versehentlich Gennamensfehler auftreten ( Link ).

In diesem kurzen Artikel wird das Problem der automatischen Typkonvertierungen in Excel (insbesondere Datums- und Gleitkommakonvertierungen) beschrieben. Beispielsweise wird der Genname Sept2 in 2-Sept konvertiert. Sie können diesen Fehler tatsächlich in Online-Datenbanken finden .

Das Verwalten mittlerer bis großer Datenmengen mit Excel ist gefährlich. Fehler können sich leicht einschleichen, ohne dass der Benutzer es merkt.

csgillespie
quelle
6
Dies ist bei weitem der Aspekt von Excel, der mich am meisten verärgert. Datenspeicherung erfordert explizite Datentypen, keine Formatierung.
Matt Parker
3
Tatsächlich ist dies etwas, was mich an MS-Software im Allgemeinen ärgert: Es ändert Ihre Eingabe in das, was Sie für tatsächlich gemeint halten, und Sie sehen es normalerweise nicht einmal.
Carlos Accioly
@csgillespie (+1) Gut, von Excel aus dieser Perspektive zu hören!
Chl
6
Mein Lieblingsfehler trat auf, als Excel beim Export in andere Formate Felder stillschweigend abschnitt. In einer Datei mit Pestizidkonzentrationen im Boden wurde ein Wert von 1.000.050 (außerordentlich giftig) in 50 (fast unwichtig) umgerechnet, indem die erste Ziffer abgeschnitten wurde!
whuber
@Matt ist nur ärgerlich, wenn Sie Daten in Excel "speichern". Es ist eine großartige Funktion, wenn Excel nur als Front-End für die Berichterstellung und Diagrammerstellung verwendet wird.
Anonym Typ
11

Nun, die Frage, ob das Papier korrekt oder voreingenommen ist, sollte einfach sein: Sie könnten einfach einige ihrer Analysen wiederholen und sehen, ob Sie die gleichen Antworten erhalten.

McCullough hat seit einigen Jahren verschiedene Versionen von MS Excel auseinander genommen, und anscheinend war MS nicht in der Lage, Fehler zu beheben, auf die er vor Jahren in früheren Versionen hingewiesen hatte.

Ich sehe kein Problem beim Herumspielen mit Daten in Excel. Aber um ehrlich zu sein, würde ich meine "ernsthaften" Analysen nicht in Excel durchführen. Mein Hauptproblem wären nicht die Ungenauigkeiten (die meines Erachtens nur sehr selten ein Problem sind), sondern die Unmöglichkeit, meine Analysen ein Jahr später nachzuverfolgen und zu replizieren, wenn ein Prüfer oder mein Chef fragt, warum ich kein X gemacht habe - Sie können Ihre Daten speichern Arbeit und Ihre Sackgassen in kommentiertem R-Code, aber nicht in sinnvoller Weise in Excel.

S. Kolassa - Setzen Sie Monica wieder ein
quelle
2
(+1) Sie stimmen der Diskussion über die Notwendigkeit einer Aufzeichnung der Datenbearbeitung und -analyse ( j.mp/dAyGGY ) auf Medstats positiv zu ! Vielen Dank.
Chl
Das Speichern Ihrer "Arbeit und Sackgassen" ist mit Excel nicht schwieriger als mit R. Es geht nur darum, es tatsächlich zu tun. Das Hauptproblem bei Excel hängt mit seiner Stärke zusammen: Es ist allzu einfach, versehentlich etwas zu ändern. Aber für EDA - den Schwerpunkt des OP - speichern wir selten oder nie alles, was wir tun. EDA soll schließlich interaktiv sein.
whuber
1
Es ist möglich, Ihre Methoden reproduzierbar aufzuzeichnen, wenn Sie dies in VB tun, aber der GUI-Fokus von Excel fördert dieses Verhalten nicht.
James
7

Übrigens hat eine Frage zur Verwendung von Google-Tabellen unterschiedliche (daher interessante) Meinungen dazu aufgeworfen. Verwenden einige von Ihnen die Google Text & Tabellen-Tabelle, um Ihre statistischen Arbeiten durchzuführen und mit anderen zu teilen?

Ich denke an eine ältere Veröffentlichung, die nicht so pessimistisch wirkte, aber in der von Ihnen erwähnten Veröffentlichung nur am Rande zitiert wird: Keeling und Pavur, Eine vergleichende Studie zur Zuverlässigkeit von neun statistischen Softwarepaketen (CSDA 2007 51: 3811). Aber jetzt habe ich deine auf meiner Festplatte gefunden. Es gab auch eine Sonderausgabe im Jahr 2008, siehe Sonderteil zu Microsoft Excel 2007 und in jüngerer Zeit im Journal of Statistical Software: Zur numerischen Genauigkeit von Tabellenkalkulationen .

Ich denke, es ist eine langjährige Debatte, und Sie werden unterschiedliche Artikel / Meinungen über die Zuverlässigkeit von Excel für statistische Berechnungen finden. Ich denke, es gibt verschiedene Diskussionsebenen (welche Art von Analyse planen Sie, verlassen Sie sich auf den internen Löser, gibt es nichtlineare Begriffe, die in ein bestimmtes Modell einfließen usw.), und es können Ursachen für numerische Ungenauigkeiten auftreten als Ergebnis von korrekten Rechenfehlern oder Entwurfsentscheidungen ; Das ist gut zusammengefasst in

M. Altman, J. Gill und MP McDonald, Numerical Issues in Statistical Computing für den Sozialwissenschaftler , Wiley, 2004.

Für die explorative Datenanalyse stehen verschiedene Alternativen zur Verfügung, die erweiterte Visualisierungsfunktionen, multivariate und dynamische Grafiken, z. B. GGobi , bieten. In diesem Wiki finden Sie jedoch verwandte Themen.

Aber der erste Punkt, den Sie angesprochen haben, ist eindeutig ein anderes Problem (IMO), nämlich die Verwendung einer Tabelle für den Umgang mit großen Datenmengen: Es ist einfach nicht möglich, eine große CSV-Datei in Excel zu importieren (ich denke an genomische Daten, Dies gilt jedoch auch für andere hochdimensionale Daten. Es wurde nicht für diesen Zweck gebaut.

chl
quelle
Ich mag die Nuance über "verschiedene Ebenen der Diskussion".
whuber
7

Die Referate und andere Teilnehmer weisen auf technische Schwächen hin. Whuber macht es gut, zumindest einige seiner Stärken herauszustellen. Ich persönlich mache umfangreiche statistische Arbeiten in Excel (Hypothesentests, lineare und multiple Regressionen) und liebe es. Ich verwende Excel 2003 mit einer Kapazität von 256 Spalten und 65.000 Zeilen, die nur etwa 100% der von mir verwendeten Datensätze verarbeiten können. Ich verstehe, dass Excel 2007 diese Kapazität um einen riesigen Betrag erweitert hat (Zeilen in Millionen).

Wie Whuber erwähnt, dient Excel auch als Startplattform für eine Vielzahl herausragender Add-In-Software, die alle sehr leistungsfähig und benutzerfreundlich sind. Ich denke an Crystal Ball und @Risk für Monte Carlo Simulation; XLStat für leistungsstarke Statistiken und Datenanalysen; Was ist am besten für die Optimierung. Und die Liste geht weiter. Es ist, als ob Excel das Äquivalent eines IPods oder eines IPads mit einer Unmenge ziemlich unglaublicher Apps ist. Zugegeben, die Excel Apps sind nicht billig. Aber für das, wozu sie in der Lage sind, sind sie normalerweise ziemlich gute Schnäppchen.

In Bezug auf die Modelldokumentation ist es so einfach, ein Textfeld einzufügen, in das Sie buchstäblich ein Buch über Ihre Methodik, Ihre Quellen usw. schreiben können. Sie können auch Kommentare in eine beliebige Zelle einfügen. Also, wenn etwas Excel ist wirklich gut für die Erleichterung der eingebetteten Dokumentation.

Sympa
quelle
1
Vielen Dank für die zusätzlichen Punkte und für das Teilen Ihrer Perspektive.
Whuber
Tolle Punkte, gut zu hören, wie jemand es richtig einsetzt und davon profitiert.
Anonym Typ
6

Excel ist nicht gut für Statistiken, aber es kann wunderbar für die explorative Datenanalyse sein. Schauen Sie sich dieses Video für einige besonders interessante Techniken an. Die Fähigkeit von Excel, Ihre Daten bedingt einzufärben und Balkendiagramme in Zellen hinzuzufügen, kann einen guten Einblick in die Struktur Ihrer Rohdaten geben.

Zach
quelle
6

Eine weitere gute Referenzquelle, warum Sie Excel möglicherweise nicht verwenden möchten, ist:

Tabellensucht

Wenn Sie sich in einer Situation befinden, in der Sie Excel wirklich brauchen (einige akademische Abteilungen bestehen darauf), dann würde ich die Verwendung des Rexcel-Plugins vorschlagen . Auf diese Weise können Sie eine Excel-Schnittstelle verwenden, das R-Programm wird jedoch als Berechnungsmodul verwendet. Sie müssen R nicht kennen, um es zu verwenden. Sie können Dropdown-Menüs und Dialogfelder verwenden, aber Sie können viel mehr tun, wenn Sie dies tun. Da R die Berechnungen durchführt, sind sie viel zuverlässiger als Excel und Sie haben viel bessere Diagramme und Boxplots und andere Diagramme, die in Excel fehlen. Es funktioniert sogar mit der automatischen Zellenaktualisierung in Excel (obwohl dies die Dinge sehr langsam machen kann, wenn Sie jedes Mal viele komplexe Analysen neu berechnen müssen). Es behebt nicht alle Probleme auf der Seite mit der Sucht nach Tabellenkalkulation, ist jedoch eine enorme Verbesserung gegenüber der Verwendung von Straight Excel.

Greg Snow
quelle
1

Excel kann sowohl für die explorative Datenanalyse als auch für die lineare Regressionsanalyse mit den richtigen Plug-ins hervorragend geeignet sein. Es gibt eine Reihe von kommerziellen Produkten, die meisten lassen jedoch in Bezug auf die Qualität der von ihnen erzeugten Ausgabe zu wünschen übrig (sie nutzen die Diagrammoptionen von Excel oder die Möglichkeit der Verknüpfung mit anderen Office-Anwendungen nicht in vollem Umfang) Im Allgemeinen eignen sie sich nicht so gut für die Visualisierung und Präsentation von Daten. Sie unterstützen auch in der Regel keinen disziplinierten Modellierungsansatz, bei dem Sie (unter anderem) einen gut dokumentierten Prüfpfad für Ihre Arbeit führen. Hier ist ein KOSTENLOSES Plugin, "RegressIt", das viele dieser Probleme behebt: http://regressit.com. Es bietet eine sehr gute Unterstützung für explorative Analysen (einschließlich der Möglichkeit, parallele Zeitreihendiagramme und Streudiagrammmatrizen mit bis zu 50 Variablen zu erstellen) und erleichtert das Anwenden von Datentransformationen wie Verzögerung, Protokollierung und Differenzierung (die häufig nicht angewendet werden) Von naiven Regressionsbenutzern entsprechend) wird eine sehr detaillierte Tabellen- und Diagrammausgabe bereitgestellt, die die Best Practices der Datenanalyse unterstützt, und es wird ein Audit-Trail-Arbeitsblatt geführt, das nebeneinander liegende Modellvergleiche erleichtert und Aufzeichnungen darüber führt, welche Modelle verwendet werden wurden in welcher Reihenfolge eingebaut. Es ist eine gute Ergänzung zu allem, was Sie verwenden, wenn Sie mit multivariaten Daten arbeiten und zumindest ein Teil Ihrer Arbeit in einer Excel-Umgebung ausgeführt wird.

Bob Nau
quelle