Was sind die Zweige der Statistik?

30

In der Mathematik gibt es Zweige wie Algebra, Analyse, Topologie usw. Im maschinellen Lernen gibt es überwachtes, unbeaufsichtigtes und bestärkendes Lernen. Innerhalb jedes dieser Zweige gibt es feinere Zweige, die die Methoden weiter unterteilen.

Ich habe Probleme, eine Parallele zur Statistik zu ziehen. Was wären die Hauptzweige der Statistik (und Unterzweige)? Eine perfekte Partition ist wahrscheinlich nicht möglich, aber alles ist besser als eine große leere Karte.

Visuelle Beispiele: Bildbeschreibung hier eingeben Bildbeschreibung hier eingeben

silly.deer
quelle
6
Ein weiterer Grund, warum diese Frage unbeantwortet bleibt (und warum die Prämisse vielleicht falsch ist): Es ist wenig bekannt, dass das Ziel der harten theoretischen Wissenschaft (wie der Mathematik) eher die Verallgemeinerung als die Spezialisierung ist . Wenn wir also den Verlauf einer erfolgreichen Felduntersuchung visualisieren würden, würden wir dies nicht als Verzweigung in kleinere, raffiniertere Zweige sehen, sondern als eine Linse, die sich immer weiter zu abstrakteren Konzepten und Gedanken ausdehnt.
AdamO
@Rob Hyndmans Antwort scheint mir immer noch klasse zu sein. Ich bin sehr skeptisch gegenüber einer Einstufung hier. Darüber hinaus ist dies ein ebenso guter Ort, um zu kennzeichnen, dass eine Liste von Themen, die jemandem einfällt, weit hinter einer baumbasierten Klassifizierung zurückbleibt. Und obwohl Dendrogramme oder Hairball-Darstellungen leicht faszinierend sind, welchen tatsächlichen Nutzen oder Interesse haben sie, außer die Vielfältigkeit des Feldes zu demonstrieren?
Nick Cox

Antworten:

52

Ich finde diese Klassifikationssysteme äußerst wenig hilfreich und widersprüchlich. Beispielsweise:

  • Neuronale Netze sind eine Form des überwachten Lernens
  • Der Kalkül wird in der Differentialgeometrie verwendet
  • Die Wahrscheinlichkeitstheorie kann als Teil der Mengenlehre formalisiert werden

und so weiter. Es gibt keine eindeutigen "Zweige" der Mathematik und es sollte auch keine Statistik geben.

Rob Hyndman
quelle
11
"Neuronale Netze sind eine Form des überwachten Lernens". Das ist auch nicht ganz richtig, oder? Ich meine, man könnte (und benutzt) NNs beim überwachten Lernen, unbeaufsichtigten Lernen und sogar beim verstärkten Lernen! Nun, zumindest das Konzept der neuronalen Netze (es ist nur eine riesige nichtlineare Funktion, die durch verschiedene Optimierungsmethoden optimiert werden kann, darunter SL, UL und RL). Aber vielleicht wird die Terminologie einfach so verwendet, wie Sie sie verwenden. In diesem Fall kann jeder Recht haben.
BlueRine S
7
Klar, es gibt keine Wahrheit, aber das ist nicht wirklich nützlich. Gibt es ein Modell, das die Anforderungen des OP erfüllt?
Jay Schyler Raadt
3
Rob hat recht. Entscheidungsbäume werden in der Regression verwendet und AdaBoost ist eine Klassifizierungsmethode, die auf der Karte jedoch nicht angezeigt wird.
Zen
4
Ich gebe zu, dass ich diese Perspektive nicht wirklich verstehe. In einem Statistiklehrbuch muss auch die Reihenfolge der Kapitel in irgendeiner Weise organisiert sein, und die Inhaltsseite spiegelt diese Organisation wider. Die Struktur der Inhaltsseite vermittelt zumindest einige Informationen darüber, wie die Konzepte des Feldes organisiert sind, und dies auf eine viel eingeschränkte Weise, als dies eine Visualisierung erlauben würde. Wenn niemand ein Problem mit der Existenz von Lehrbuch-Inhaltsseiten hat, obwohl sie die Komplexität des Feldes nicht erfassen, verstehe ich nicht, warum man gegen eine Visualisierung protestieren würde, wie sie das OP erhofft.
mkt - Setzen Sie Monica
4
Lehrbücher sind nicht hierarchisch, sondern linear aufgebaut. Später in diesem Buch werden häufig Verknüpfungen zwischen frühen Kapiteln hergestellt, die zeigen, dass die zuvor separat vorgestellten Themen tatsächlich verknüpft sind. Ein Beispiel: Mein eigenes Lehrbuch über Prognosen, in dem wir in einem späteren Kapitel dynamische Regressionsmodelle vorstellen und die zuvor eingeführten Regressions- und ARIMA-Modelle miteinander verknüpfen.
Rob Hyndman
29

Dies ist ein kleiner Kontrapunkt zu Rob Hyndmans Antwort. Es begann als Kommentar und wurde dann zu komplex für einen. Wenn dies zu weit von der Beantwortung der Hauptfrage entfernt ist, entschuldige ich mich und werde sie löschen.


Die Biologie beschreibt hierarchische Beziehungen seit langem vor Darwins erstem Gekritzel (siehe den Kommentar von Nick Cox für einen Link). Die meisten evolutionären Beziehungen werden immer noch mit dieser Art von schönem, sauberem, verzweigtem "phylogenetischen Baum" gezeigt:

Bildbeschreibung hier eingeben Wir haben jedoch irgendwann festgestellt, dass die Biologie unordentlicher ist. Gelegentlich gibt es einen genetischen Austausch (durch Kreuzung und andere Prozesse) zwischen verschiedenen Arten und Genen, die in einem Teil des Baumes vorhanden sind, und einen Sprung zu einem anderen Teil des Baumes. Der horizontale Gentransfer bewegt Gene auf eine Weise, die die oben dargestellte einfache Baumdarstellung ungenau macht. Wir haben jedoch keine Bäume aufgegeben, sondern lediglich Änderungen an dieser Art der Visualisierung vorgenommen:

Wie vorige Abbildung, jedoch mit Gentransfer über die Zweige

Dies ist schwieriger zu verfolgen, vermittelt jedoch ein genaueres Bild der Realität.

Ein anderes Beispiel:

Bildbeschreibung hier eingeben

Wir führen diese komplexeren Zahlen jedoch nie anfangs ein, da sie schwer zu erfassen sind, ohne die Grundkonzepte zu verstehen. Stattdessen unterrichten wir die Grundidee mit der einfachen Figur und präsentieren ihnen dann die komplexere Figur und die neueren Komplikationen der Geschichte.

Jede "Karte" von Statistiken wäre gleichermaßen ungenau und ein wertvolles Lehrmittel. Visualisierungen des Formulars, das OP vorschlägt, sind für Studenten sehr nützlich und sollten nicht ignoriert werden, nur weil sie die Realität nicht vollständig erfassen. Wir können dem Bild mehr Komplexität hinzufügen, wenn sie über einen grundlegenden Rahmen verfügen.

mkt - Setzen Sie Monica wieder ein
quelle
4
FWIW, Baumdarstellungen der Beziehungen zwischen Organismen seit Darwin. Ich werde später eine Referenz hinzufügen.
Nick Cox
2
jhupbooks.press.jhu.edu/title/trees-life ist wissenschaftlich und doch ansprechend.
Nick Cox
3
Nicht so sehr ein Kontrapunkt als ein stützendes Argument: Die Gültigkeit von Bäumen in Frage stellen. Zumindest bei der Phylogenie verwenden wir Daten , um eine solche Struktur zu erzeugen, sei es Fossilienbestand, Genexpression, irgendetwas. Ohne Daten fragen wir ernsthaft, wer die Berechtigung hat, die Blöcke und Pfeile auszuwählen, die Fehlinformationen verbreiten.
AdamO
2
@AdamO Ich erwarte nicht, dass eine einzige universelle Statistikkarte existiert. Es ist durchaus vernünftig, dass zwei Personen unterschiedliche Strukturen und Verknüpfungen verwenden, obwohl man erwarten würde, dass die breite Struktur einigermaßen robust ist (geringe Unterschiede treten auch zwischen phylogenetischen Bäumen auf, die aus demselben Datensatz erstellt wurden, obwohl wir uns an diesem Punkt befinden) die Metapher zu weit strecken). Ich würde sagen, dass das Fachwissen (das für den Moment keine Autoritätsbegriffe enthält) bei den vielen Menschen vorhanden ist, die allgemeine Statistiklehrbücher geschrieben oder sogar allgemeine Statistik gelehrt haben.
mkt - Setzen Sie Monica
2
Ich mochte die Diagramme hier genug, um dies zu bewerten, aber es beantwortet die Frage nicht wirklich.
Nick Cox
24

Sie können sich die Keywords / Tags der Cross Validated-Website ansehen .


Filialen als Netzwerk

Eine Möglichkeit, dies zu tun, besteht darin, es als Netzwerk darzustellen, das auf den Beziehungen zwischen den Keywords basiert (wie oft sie im selben Beitrag übereinstimmen).

Wenn Sie dieses SQL-Skript verwenden, um die Daten der Site abzurufen (data.stackexchange.com/stats/query/edit/1122036)

select Tags from Posts where PostTypeId = 1 and Score >2

Anschließend erhalten Sie eine Liste mit Stichwörtern für alle Fragen mit einer Punktzahl von 2 oder höher.

Sie können diese Liste untersuchen, indem Sie Folgendes zeichnen:

Beziehungen zwischen Tags

Update: das gleiche mit Farbe (basierend auf Eigenvektoren der Relationsmatrix) und ohne das Selbststudien-Tag

Beziehungen zwischen Tags

Sie könnten diesen Graphen etwas weiter aufräumen (z. B. die Tags entfernen, die sich nicht auf statistische Konzepte beziehen, wie z. B. Software-Tags, im obigen Graphen ist dies bereits für den Tag 'r' der Fall) und die visuelle Darstellung verbessern, aber ich vermute dass dieses bild oben schon einen schönen ausgangspunkt zeigt.

R-Code:

#the sql-script saved like an sql file
network <- read.csv("~/../Desktop/network.csv", stringsAsFactors = 0)
#it looks like this:
> network[1][1:5,]
 [1] "<r><biostatistics><bioinformatics>"                                 
 [2] "<hypothesis-testing><nonlinear-regression><regression-coefficients>"
 [3] "<aic>"                                                              
 [4] "<regression><nonparametric><kernel-smoothing>"                      
 [5] "<r><regression><experiment-design><simulation><random-generation>"  

l <- length(network[,1])
nk <- 1
keywords <- c("<r>")
M <- matrix(0,1)

for (j in 1:l) {                              # loop all lines in the text file
  s <- stringr::str_match_all(network[j,],"<.*?>")           # extract keywords
  m <- c(0)                                             
  for (is in s[[1]]) {
    if (sum(keywords == is) == 0) {           # check if there is a new keyword
      keywords <- c(keywords,is)              # add to the keywords table
      nk<-nk+1
      M <- cbind(M,rep(0,nk-1))               # expand the relation matrix with zero's
      M <- rbind(M,rep(0,nk))
    }
    m <- c(m, which(keywords == is))
    lm <- length(m)
    if (lm>2) {                               # for keywords >2 add +1 to the relations
      for (mi in m[-c(1,lm)]) {
        M[mi,m[lm]] <- M[mi,m[lm]]+1
        M[m[lm],mi] <- M[m[lm],mi]+1
      }
    }
  }
}


#getting rid of <  >
skeywords <- sub(c("<"),"",keywords)
skeywords <- sub(c(">"),"",skeywords) 


# plotting connections 

library(igraph)
library("visNetwork")

# reduces nodes and edges
Ms<-M[-1,-1]             # -1,-1 elliminates the 'r' tag which offsets the graph
Ms[which(Ms<50)] <- 0
ww <- colSums(Ms)
el <- which(ww==0)

# convert to data object for VisNetwork function
g <- graph.adjacency(Ms[-el,-el], weighted=TRUE, mode = "undirected")
data <- toVisNetworkData(g)

# adjust some plotting parameters some 
data$nodes['label'] <- skeywords[-1][-el]
data$nodes['title'] <- skeywords[-1][-el]
data$nodes['value'] <- colSums(Ms)[-el]
data$edges['width'] <- sqrt(data$edges['weight'])*1
data$nodes['font.size'] <- 20+log(ww[-el])*6
data$edges['color'] <- "#eeeeff"

#plot
visNetwork(nodes = data$nodes, edges = data$edges) %>%
visPhysics(solver = "forceAtlas2Based", stabilization = TRUE,
           forceAtlas2Based = list(nodeDistance=70, springConstant = 0.04,
                                   springLength = 50,
                                   avoidOverlap =1)
           )

Hierarchische Zweige

Ich glaube, dass diese Art von Netzwerkgraphen auf einige der Kritikpunkte in Bezug auf eine rein verzweigte hierarchische Struktur zurückzuführen ist. Wenn Sie möchten, können Sie vermutlich ein hierarchisches Clustering durchführen, um eine hierarchische Struktur zu erzwingen.

Nachfolgend finden Sie ein Beispiel für ein solches hierarchisches Modell. Man müsste immer noch die richtigen Gruppennamen für die verschiedenen Cluster finden (aber ich glaube nicht, dass diese hierarchische Gruppierung die richtige Richtung ist, also lasse ich sie offen).

hierarchisches Clustering

Das Abstandsmaß für das Clustering wurde durch Ausprobieren ermittelt (Anpassungen vornehmen, bis die Cluster schön aussehen).

#####
#####  cluster

library(cluster)

Ms<-M[-1,-1]
Ms[which(Ms<50)] <- 0
ww <- colSums(Ms)
el <- which(ww==0)

Ms<-M[-1,-1]
R <- (keycount[-1]^-1) %*% t(keycount[-1]^-1)
Ms <- log(Ms*R+0.00000001)

Mc <- Ms[-el,-el]
colnames(Mc) <- skeywords[-1][-el]

cmod <- agnes(-Mc, diss = TRUE)

plot(as.hclust(cmod), cex = 0.65, hang=-1, xlab = "", ylab ="")

Geschrieben von StackExchangeStrike

Sextus Empiricus
quelle
2
Vielleicht werde ich etwas dafür tun, die Grafiken ordentlicher zu gestalten. Es könnte schön sein, einige klare Grafiken zu haben, die die Themen auf dieser Website abbilden.
Sextus Empiricus
1
Dies ist ein großartiger Ansatz! Schön gemacht.
Andrew Brēza
In Ihrem farbigen Diagramm sind die drei großen Bereiche Wahrscheinlichkeit, Regression und maschinelles Lernen.
Matt F.
@MattF. Die Grafik ist eigentlich etwas problematisch und entspricht eher der Nutzungshäufigkeit. Ich habe versucht, die Matrix nach der Frequenz zu skalieren (wie beim Wechsel von der Kovarianzmatrix zur Korrelationsmatrix), aber es hat sich nicht viel geändert. Das 2D-Diagramm zeigt die Struktur nicht sehr gut und das physikalische Modell, das die Pfade als Zeichenfolgen behandelt, platziert die Knoten in einer hexagonalen / dreieckigen Form (was am effizientesten ist).
Sextus Empiricus
1
Ich würde sagen, dass es beim Stackoverflow fünf Hauptkategorien gibt: Wahrscheinlichkeit, Regression, maschinelles Lernen, aber auch Hypothesentests und Zeitreihen.
Sextus Empiricus
9

Eine einfache Möglichkeit, Ihre Frage zu beantworten, besteht darin, die allgemeinen Klassifizierungstabellen nachzuschlagen. Beispielsweise wird die 2010 Mathematics Subject Classification von einigen Veröffentlichungen zur Klassifizierung von Arbeiten verwendet. Diese sind relevant, weil so viele Autoren ihre eigenen Arbeiten klassifizieren. Bildbeschreibung hier eingeben

Es gibt viele Beispiele für ähnliche Klassifikationen, z. B. die Klassifikation von arxiv oder die UDK (Universal Decimal Classification) des russischen Bildungsministeriums, die für alle Veröffentlichungen und Forschungsarbeiten weit verbreitet ist.

Bildbeschreibung hier eingeben

Ein weiteres Beispiel ist das JEL Claasification System der American Economic Association. Rob Hyndmans Artikel " Automatische Zeitreihenprognose: Das Prognosepaket für R. " Es ist nach JEL als C53, C22, C52 klassifiziert. Hyndman hat jedoch einen Grund, die Baumklassifikationen zu kritisieren. Ein besserer Ansatz könnte das Markieren sein, z. B. lauten die Schlüsselwörter in seiner Arbeit: "ARIMA-Modelle, automatische Vorhersage, exponentielle Glättung, Vorhersageintervalle, Zustandsraummodelle, Zeitreihen, R." Man könnte argumentieren, dass dies eine bessere Methode zur Klassifizierung der Papiere ist, da sie nicht hierarchisch sind und mehrere Hierarchien aufgebaut werden könnten.

@whuber machte darauf aufmerksam, dass einige der neuesten Fortschritte, wie das maschinelle Lernen, in den aktuellen Klassifikationen nicht statistisch erfasst werden. Schauen Sie sich zum Beispiel den Artikel " Deep Learning: Eine Einführung für Angewandte Mathematiker " von Catherine F. Higham und Desmond J. Higham an. Sie klassifizierten ihr Papier unter der oben genannten MSC als 97R40, 68T01, 65K10, 62M45. Dazu gehören neben Statistiken auch Informatik, Mathematik und numerische Analyse

Aksakal
quelle
3
Ich denke, es wäre genauer zu sagen, dass so viele Autoren gebeten werden , ihre Arbeiten zu klassifizieren. Ich bin nie ganz zufrieden, wenn ich darum gebeten werde, solche Kategorien von vornherein für meine Arbeit zu verwenden.
Alexis
6
Dies ist eine gute Grundlage, um die Zweige der mathematischen Statistik zu identifizieren . Das hilft uns zu erkennen, was ausgelassen wurde, was viele Teile des maschinellen Lernens umfasst. In der Tat mag es gerechtfertigt sein, die Mathematikfachklassifikation 2010 so zu charakterisieren, dass sie "Statistiken ab 1950" beschreibt, und dann alles einfließen zu lassen, was später auftauchte, wie Geostatistik, Genomik, Bootstrapping usw. Kategorien, vielleicht).
whuber
4

Ein Weg, um das Problem anzugehen, ist der Blick auf Zitations- und Mitautoren-Netzwerke in Statistik-Journalen wie Annals of Statistics, Biometrika, JASA und JRSS-B. Dies wurde gemacht von:

Ji, P. & Jin, J. (2016). Kooperations- und Zitierungsnetzwerke für Statistiker. Die Annalen der angewandten Statistik, 10 (4), 1779-1812.

Sie identifizierten Gemeinschaften von Statistikern und benannten die Gemeinschaften anhand ihres Domänenverständnisses als:

  • Hochdimensionale Datenanalyse (HDDA-Coau-A)
  • Theoretisches maschinelles Lernen
  • Dimensionsreduzierung
  • Johns Hopkins
  • Herzog
  • Stanford
  • Quantile Regression
  • Experimentelles Design
  • Ziel Bayes
  • Bio-Statistiken
  • Hochdimensionale Datenanalyse (HDDA-Coau-B)
  • Mehrere Tests in großem Maßstab
  • Variablenauswahl
  • Räumliche und semiparametrische / nichtparametrische Statistik

Das Papier enthält eine detaillierte Diskussion der Gemeinschaften zusammen mit der Zerlegung der größeren in weitere Untergemeinschaften.

Dies ist möglicherweise nicht die vollständige Antwort auf die Frage, da es sich eher um die Bereiche der Statistikerforschung handelt als um alle Bereiche, auch solche, die nicht mehr aktiv sind. Hoffentlich ist es trotzdem hilfreich. Natürlich gibt es noch andere Vorbehalte (wie zum Beispiel nur die Berücksichtigung dieser vier Zeitschriften), die in der Veröffentlichung näher erläutert werden.

user257566
quelle
2
Ich habe darüber nachgedacht, dies für diese Website zu tun. Definition von "Mitautorenschaft" als Personen, die auf dieselben Fragen antworten / antworten.
Sextus Empiricus
@MartijnWeterings Ja, Ihre Antwort scheint in eine sehr ähnliche Richtung zu gehen wie dieser Ansatz!
user257566
2

Ich sehe viele erstaunliche Antworten, und ich weiß nicht, wie eine bescheidene, selbst gemachte Klassifizierung erhalten werden kann, aber ich kenne kein komplettes Buch aller Statistiken, um die Zusammenfassung von zu zeigen, und ich denke, dass, als @ Brillant kommentiert, kann eine Klassifizierung eines Studienfachs sinnvoll sein. Also, hier ist mein Schuss:

  • beschreibende Statistik
    • einfache Folgerung
      • einfache Hypothesentests
    • Plotten / Datenvisualisierung
  • Stichprobendesign
    • experimentelles Design
    • Umfrageentwurf
  • multivariate Statistik (nicht überwacht)
    • Clustering
    • Komponentenanalyse
    • Modelle latenter Variablen
  • lineare Modelle (die auch tatsächlich multivariat sind)
    • gewöhnliche kleinste Quadrate
    • verallgemeinerte lineare Modelle
      • logit model
    • andere lineare Modelle
      • Cox-Modell
      • Quantile Regression
    • multivariate Inferenz
      • Testen mehrerer Hypothesen
      • angepasster Hypothesentest
    • Modelle für strukturierte Daten
      • Modelle mit gemischten Effekten
      • räumliche Modelle
      • Zeitreihenmodelle
    • nicht lineare Ausdehnungen
      • verallgemeinerte additive Modelle
  • Bayes'sche Statistik (tatsächlich existieren Bayes'sche Methoden für viele Dinge, die ich bereits aufgelistet habe)
  • nicht parametrische Regression und Klassifikation
    • Viele Methoden des maschinellen Lernens passen hierher

Natürlich ist das zu simpel, es ist nur dazu gedacht, jemandem eine Idee zu vermitteln, der das Gebiet kaum kennt. Jeder von uns hier weiß mit Sicherheit, dass es eine Menge Methoden zwischen den Kategorien gibt, viele andere, die ich nicht kannte. ' t Liste, weil sie weniger berühmt sind oder weil ich es einfach vergessen habe. Hoffe du magst es.

carlo
quelle
1

Eine Möglichkeit, diese Informationen zu organisieren, besteht darin, ein gutes Buch zu finden und sich das Inhaltsverzeichnis anzusehen. Dies ist ein Paradoxon, weil Sie speziell nach Statistiken gefragt haben , während die meisten Texte für Einsteiger mit Abschluss zum Thema Statistik und Wahrscheinlichkeitstheorie zusammen sind. Ein Buch, das ich über Regression lese, hat jetzt das folgende Inhaltsverzeichnis:

  • Frequentistische Inferenz
  • Bayesianische Folgerung
  • Hypothesentest und Variablenauswahl
  • Lineare Modelle
  • Allgemeine Regressionsmodelle
  • Binäre Datenmodelle

  • Allgemeine Regressionsmodelle

  • Vorbereitungen für die nichtparametrische Regression
  • Spline- und Kernel-Methoden
  • Nichtparametrische Regression mit mehreren Prädiktoren

(Die übrigen Abschnitte befassen sich mit Mathematik und Wahrscheinlichkeitstheorie.)

  • Differenzierung von Matrixausdrücken
  • Matrix-Ergebnisse
  • Eine lineare Algebra
  • Wahrscheinlichkeitsverteilungen und generierende Funktionen
  • Funktionen normaler Zufallsvariablen
  • Einige Ergebnisse aus der klassischen Statistik
  • Grundlegende Theorie großer Stichproben
AdamO
quelle
2
Man könnte ein solches Buch betrachten zu vermitteln , einen Teil von einem Zweig einer Disziplin. Wenn es sich nicht um eine enzyklopädische Erhebung aller Statistiken handelt, können die Kapitelüberschriften kaum als Hauptzweige des Gebiets betrachtet werden!
whuber
3
@whuber stimmte zu. Ich habe sorgfältig darauf hingewiesen, dass es sich bei dem Buch um ein Buch zur Regression handelt und dass ich kein Buch zum Thema "Statistik" als allgemein genug oder auf einem angemessenen Niveau halte, damit ein Statistiker die behandelten Themen als ausreichend ansieht. Dieses spezielle Beispiel stammt aus Wakefields Text und ist eine bemerkenswert allgemeine Behandlung (der T-Test mit ungleicher Varianzschätzung wird beispielsweise im Zusammenhang mit linearer Regression mit binärer Kovariate und robuster Fehlerschätzung diskutiert).
AdamO