Was sind die klassischen Notationen in Statistik, linearer Algebra und maschinellem Lernen? Und wie hängen diese Notationen zusammen?

Wenn wir ein Buch lesen, spielt das Verstehen der Notationen eine sehr wichtige Rolle für das Verständnis des Inhalts. Leider haben verschiedene Communities unterschiedliche Notationskonventionen für die Formulierung des Modells und das Optimierungsproblem. Könnte jemand hier einige Formulierungsnotationen zusammenfassen und mögliche Gründe nennen?

Ich werde hier ein Beispiel geben: In der linearen Algebra-Literatur ist das klassische Buch Strangs Einführung in die lineare Algebra . Die am häufigsten verwendete Schreibweise im Buch ist

A x = b

$A x=b$

Wenn eine Koeffizientenmatrix ist , sind die zu lösenden Variablen und ein Vektor auf der rechten Seite der Gleichung . Der Grund, warum das Buch diese Schreibweise wählt, ist das Hauptziel der linearen Algebra, ein lineares System zu lösen und herauszufinden, was der Vektor . Bei einer solchen Formulierung ist das OLS-Optimierungsproblem $A$ $x$ $b$ $x$

\underset{x}{minimize} ‖ A x - b ‖^{2}

$\underset{x}{\text{minimize}}~~ \|A x-b\|^2$

In Statistik oder Maschinellem Lernen (aus dem Buch Elemente des Statistischen Lernens ) verwenden Menschen unterschiedliche Schreibweisen, um dasselbe zu repräsentieren:

X β = y

$X \beta= y$

Wo $X$ die Datenmatrix ist , ist $\beta$ ; die zu lernenden Koeffizienten oder Gewichte , $y$ ist die Antwort. Der Grund, warum die Leute dies verwenden, ist, dass die Leute in der Statistik oder in der Community des maschinellen Lernens datengesteuert sind. Daher sind Daten und Antworten für sie am interessantesten, wenn sie $X$ und $y$ um darzustellen.

Jetzt können wir sehen, dass alle möglichen Verwirrungen vorhanden sein können: $A$ in der ersten Gleichung ist dasselbe wie $X$ in der zweiten Gleichung. Und in der zweiten Gleichung $X$ ist nicht etwas zu lösen. Auch für die Begriffe: $A$ ist die Koeffizientenmatrix in der linearen Algebra, aber es sind Daten in der Statistik. $\beta$ wird auch als "Koeffizient" bezeichnet.

Darüber hinaus erwähnte ich, dass $X \beta=y$ nicht genau das ist, was Menschen im maschinellen Lernen häufig verwenden. Die Menschen verwenden eine halbvektorisierte Version, die alle Datenpunkte zusammenfasst. Sowie

min \sum_{i} L (y_{i}, f (x_{i}))

$\min \sum_i \text{L}(y_i,f(x_i))$

Ich denke, der Grund dafür ist, dass es gut ist, wenn man über den stochastischen Gradientenabstieg und andere unterschiedliche Verlustfunktionen spricht. Außerdem verschwindet die Kurzmatrixnotation bei anderen Problemen als der linearen Regression.

Matrixnotation für logistische Regression

Könnte jemand mehr Zusammenfassungen über die Notationen geben, die verschiedene Literaturstellen kreuzen? Ich hoffe, dass kluge Antworten auf diese Frage als eine gute Referenz für Leute dienen können, die Bücher lesen, die verschiedene Literaturstellen durchqueren.

Bitte lassen Sie sich nicht durch mein Beispiel und einschränken . Es gibt viele andere. Sowie $A x=b$ $X \beta=y$

Warum gibt es zwei verschiedene Formulierungen / Notationen für logistische Verluste?

machine-learning probability self-study optimization hxd1011
quelle

Notation existiert nicht wirklich als eine Art von äußerlich überprüfbarer Wahrheit. Es ist eine Sprache, also inhärent kontextabhängig und kann neu definiert werden. Wenn ich x * b schreibe und sage, das bedeutet Matrix x Punktproduktvektor b, ist es einfach fett oder nicht.

Sycorax sagt Reinstate Monica

Ich würde sagen, dass und eine äquivalente Notation haben. Lediglich die Namen der Variablen haben sich geändert. Im Allgemeinen werden Sie keine einheitliche Benennung der Variablen von Papier zu Papier finden, auch nicht innerhalb eines Feldes.

A x = b

$Ax = b$

X β = y

$X \beta = y$

user20160

Derzeit hat dies 10 positive Stimmen, 150 Aufrufe; Es scheint ein wertvoller und nützlicher Thread zu sein. Überdies hat es eine überstimmte Antwort; Daher denke ich nicht, dass es zu weit gefasst ist, um beantwortet zu werden.

gung - Reinstate Monica

Ich stimme mit @gung überein, die Community hat offensichtlich ein gewisses Interesse an dieser Frage. Ich nominierte für die Wiedereröffnung.

Matthew Drury

Ich denke, es ist zu breit für ein normales q. - aber da es bereits CW & etwas populär ist, habe ich meine Stimme hinzugefügt, um die vier wieder zu eröffnen, die dort waren.

Scortchi

Antworten:

Vielleicht ist eine verwandte Frage: "Was sind Wörter, die in verschiedenen Sprachen verwendet werden, und wie hängen diese Wörter zusammen?"

Notation ist in gewissem Sinne wie Sprache:

Einige Wörter haben regionenspezifische Bedeutungen. Einige Wörter werden weitgehend verstanden.
Wie mächtige Nationen ihre Sprache verbreiten, verbreiten erfolgreiche Felder und einflussreiche Forscher ihre Notation.
Sprache entwickelt sich im Laufe der Zeit: Sprache hat eine Mischung aus historischen Ursprüngen und modernen Einflüssen.

Ihre konkrete Frage ...

Ich würde Ihrer Behauptung widersprechen, dass die beiden "völlig unterschiedliche Schreibweisen" haben. Sowohl als auch bezeichnen Matrizen mit Großbuchstaben. Sie sind nicht so unterschiedlich. $X\boldsymbol{\beta} = \boldsymbol{y}$ $A\mathbf{x} = \mathbf{b}$
Maschinelles Lernen ist stark mit Statistik verbunden, einem großen und ausgereiften Bereich. Die Verwendung von zur Darstellung der Datenmatrix ist mit ziemlicher Sicherheit die am besten lesbare und am weitesten verbreitete Konvention. Während zur Lösung linearer Gleichungssysteme Standard ist, das ist nicht , wie die Leute Statistiken tun , um die Normalgleichungen schreiben. Sie werden Ihr Publikum verwirrter finden, wenn Sie das versuchen. Wenn du in Rom bist... $X$ $A\mathbf{x} = \mathbf{b}$
In gewissem Sinne lautet der Kern Ihrer überarbeiteten Frage: "Woher stammen Statistiken, bei denen der Buchstabe zur Darstellung von Daten und der Buchstabe zur Darstellung der unbekannten zu lösenden Variablen verwendet wird?" β
- Dies ist eine Frage an die Statistikhistoriker! Bei einer kurzen Suche sehe ich, dass der einflussreiche britische Statistiker und Cambridge-Wissenschaftler Udny Yule in seiner Einführung in die Theorie der Statistik (1911) zur Darstellung von Daten verwendet hat . Er schrieb eine Regressionsgleichung als mit dem Ziel der kleinsten Quadrate als Minimierung von und mit der Lösung . Zumindest geht es dann zurück ... $x$ $x_1 = a + bx_2$ $\sum\left( x_1 - a - bx_2\right)^2$ $b_{12} = \frac{\sum x_1x_2}{\sum x_2^2}$
- Der noch einflussreichere RA Fisher verwendete für die abhängige Variable und für die unabhängige Variable in seinem 1925 erschienenen Buch Statistical Methods for Research Workers . (Hat Tipp an @Nick Cox für den Link mit Informationen.) $y$ $x$

Gute Notation ist wie gute Sprache. Vermeiden Sie nach Möglichkeit Fachjargon. Schreiben Sie in der mathematischen Entsprechung von High-BBC-Englisch, einer Sprache, die für die meisten, die Englisch sprechen, verständlich ist. Man sollte, wann immer möglich, mit klarer und allgemein verständlicher Notation schreiben.

Matthew Gunn
quelle

Dieser Statistikhistoriker kann eine pedantische Korrektur liefern, die besagt, dass Yule nie Professor war ... Interessanterweise gibt es eine entsprechende Website unter jeff560.tripod.com/stat.html, mit der Ausnahme, dass sie derzeit nicht verfügbar zu sein scheint.

Nick Cox

math.hawaii.edu/~tom/history/stat.html scheint eine Kopie zu sein. Systematische Konventionen wie Griechisch für Parameter und roman für Variablen , die ich vor allem auf RA Fisher zu verstehen, aber es gibt viele Halte outs zB für Probe Chi-Quadrat - Statistik zeigt keine Anzeichen von Abklingen.

χ^{2}

$\chi^2$

Nick Cox

@ NickCox Fantastischer Link jeff560.tripod.com/stat.html (für mich ...), der auf Yule und RA Fisher verweist! Die frühesten mathematischen Ursprünge der Regression gehen offensichtlich früher auf Gauß und Laplace zurück, aber bei meiner vollständigen Amateursuche schienen sie eine andere Notation zu verwenden.

Matthew Gunn

jeff560.tripod.com/stat.html, während ich schreibe, ist ein Update für 2014; www.math.hawaii.edu/~tom/history/stat.html ist eine Kopie einer Version von 2007.

Nick Cox