Kann eine einfache lineare Regression ohne Verwendung von Plots und linearer Algebra durchgeführt werden?

47

Ich bin völlig blind und komme aus einer Programmiersprache.

Ich versuche, maschinelles Lernen zu erlernen. Dazu muss ich zunächst etwas über lineare Regression lernen. Alle Erklärungen im Internet, die ich zu diesem Thema finde, zeichnen die Daten zuerst auf. Ich suche nach einer praktischen Erklärung der linearen Regression, die nicht von Graphen und Plots abhängig ist.

Hier ist mein Verständnis des Ziels einer einfachen linearen Regression:

Bei der einfachen linearen Regression wird versucht, die Formel zu finden X, für die Sie die beste Schätzung erhalten Y.

Nach meinem Verständnis muss also der Prädiktor (z. B. die Fläche eines Hauses in Quadratfuß) mit der unabhängigen Variablen (dem Preis) verglichen werden. In meinem Beispiel können Sie wahrscheinlich eine nicht visuelle Methode erstellen, um die beste Formel zur Berechnung des Preises eines Hauses aus seiner Fläche zu erhalten. Zum Beispiel würden Sie vielleicht die Fläche und den Preis von 1000 Häusern in einer Nachbarschaft erhalten und den Preis auf die Fläche aufteilen? Das Ergebnis (zumindest in Iran, wo ich lebe) hätte eine sehr vernachlässigbare Varianz. Also würden Sie wahrscheinlich so etwas bekommen:

Price = 2333 Rials * Area of the house

Natürlich müssten Sie dann alle 1000 Häuser in Ihrem Datensatz durchgehen, den Bereich in die obige Formel einfügen, die Schätzung mit dem tatsächlichen Preis vergleichen, die Ergebnisse quadrieren (ich schätze, um zu verhindern, dass sich Abweichungen gegenseitig ausgleichen). und dann eine Zahl holen, dann weiter mit der 2333herumspielen, um die Fehler zu verringern.

Natürlich ist dies die Brute-Force-Option, bei der es wahrscheinlich Ewigkeiten dauern wird, die Fehler zu berechnen und die beste Option zu finden, aber sehen Sie, was ich sage? Ich habe nichts über ein Diagramm oder eine Linie oder Punkte in einem Diagramm oder die beste Methode zum Anpassen einer Linie an Ihre vorhandenen Daten gesagt.

Warum brauchen Sie dafür ein Streudiagramm und eine lineare Algebra? Gibt es nicht einen nicht-visuellen Weg?

Erstens, habe ich recht mit meinen Annahmen? Wenn nicht, würde ich gerne korrigiert werden. Ob ich es bin oder nicht, gibt es eine Möglichkeit, die Formel zu finden, ohne mit der linearen Algebra herumzuspielen?

Ich würde es wirklich begrüßen, wenn ich ein Beispiel mit der Erklärung bekommen könnte, damit ich es zusammen mit dem Text tun kann, um mein Verständnis zu testen.

regression intuition Parham Doustdar
quelle

2

Aber haben Sie räumliche Vorstellungskraft, die die Vision übernehmen kann? Wenn ja, kann man sich wahrscheinlich ein Streudiagramm vorstellen. Ich bezweifle, dass das Wesen der Regression nur durch Aussagen (wie verbale) erfasst werden kann.

TTNPHNS

3

Was ist dein mathematischer Hintergrund? Die Wikipedia-Seite mit dem Titel " Einfache lineare Regression" besteht hauptsächlich aus Text und enthält meines Erachtens eine einigermaßen klare Beschreibung im ersten Absatz. Wie verhält sich dieser Artikel zum Detailgrad, den Sie suchen?

Shadowtalker

3

Ich werde weiter darüber nachdenken, ob ich auftauchen kann, aber auf Anhieb denke ich an Regression als Lösung einer Gleichung, die keine Lösung hat. Alle Ihre Datenpunkte werden von Ihrem Regressor (dem Bereich des Hauses) falsch vorhergesagt. Sie suchen nach einer Gleichung, die Ihre Fehler so erträglich wie möglich macht.

Antoni Parellada

8

Gute Frage, wir müssen mehr darüber nachdenken, Menschen mit Behinderungen unsere Konzepte zu erklären

Aksakal

4

p + 1

$p+1$

17

$\beta$ $E$ $\beta$ $\beta$

$\beta$ $E$ $\beta$ $\beta$ $\beta$

$\beta$

Bearbeiten: Hier ist ein Link zu einigen Notizen mit dieser Art der Ableitung. Die Mathematik wird ein wenig chaotisch, aber im Kern ist es nur ein Kalkülproblem.

Chris Rackauckas
quelle

OH MEIN GOTT. Endlich! Eine nichtlineare Algebra-Methode, um dies zu berechnen. Die Konzepte, über die Sie in Ihrer Antwort sprechen, sind mir ein Rätsel, aber ich werde mich auf jeden Fall mit Derivaten befassen, um diese Denkweise besser zu verstehen.

Parham Doustdar

1

E (β)

$E(\beta)$

β

$\beta$

E

$E$

4

β

$\beta$

2

Für die Regression der kleinsten Quadrate müssen Sie keine Gradientenabweichung durchführen, da Sie nach einer Gleichung suchen können, die die Antwort ist. Auf diese Weise können Sie jedoch gut verstehen, was maschinelles Lernen ist. Es läuft darauf hinaus, eine Art der Fehlermessung zu wählen und dann einen Weg zu finden, um die Fehlergleichung zu minimieren. Das Ergebnis ist die "beste" Schätzgleichung, die über die Daten gelernt wurde. Ich hoffe, das hilft Ihnen auf Ihrem Weg zum maschinellen Lernen!

Chris Rackauckas

10

Ihr Verständnis ist eng, bedarf jedoch einer gewissen Erweiterung: Eine einfache lineare Regression versucht, die Formel zu finden, die Sie, wenn Sie Xsie einmal angegeben haben, am besten Y anhand einer linearen Beziehung zwischen X und abschätzen können Y.

Ihr Beispiel für Immobilienpreise zeigt, warum Sie Streudiagramme und ähnliches erhalten. Erstens funktioniert die einfache Aufteilung des Preises durch die Fläche in anderen Fällen nicht, wie zum Beispiel bei den Grundstückspreisen in meiner Heimatstadt, wo Bauvorschriften bedeuten, dass der Besitz eines Grundstücks, auf dem Sie ein Haus bauen können, einen hohen Wert hat. Die Grundstückspreise sind also nicht nur proportional zu den Flächen. Jede Vergrößerung der Parzellenfläche führt möglicherweise zu derselben Erhöhung des Parzellenwerts. Wenn Sie jedoch zu einer (mythischen) Parzelle mit einer Fläche von 0 absteigen, gibt es immer noch einen scheinbaren Preis, der den Wert darstellt, nur eine Parzelle zu besitzen Das ist für den Bau zugelassen.

Das ist immer noch eine lineare Beziehung zwischen Fläche und Wert, aber es gibt einen Schnittpunkt in der Beziehung, der den Wert darstellt, nur ein Paket zu besitzen. Was dies dennoch zu einer linearen Beziehung macht, ist, dass die Änderung des Wertes pro Einheit der Änderung der Fläche, der Steigung oder des Regressionskoeffizienten unabhängig von der Größe der Fläche oder des Wertes immer gleich ist.

Angenommen, Sie kennen bereits den Achsenabschnitt und die Steigung, die die Flurstücksflächen mit dem Wert in Beziehung setzen, und vergleichen die Werte aus dieser linearen Beziehung mit den tatsächlichen Werten der letzten Verkäufe. Sie werden feststellen, dass die vorhergesagten und tatsächlichen Werte selten oder nie übereinstimmen. Diese Abweichungen stellen die Fehler in Ihrem Modell dar und führen zu einer Streuung der Werte um die vorhergesagte Beziehung. Sie erhalten ein Punktstreudiagramm, das sich um die vorhergesagte lineare Beziehung zwischen Fläche und Wert gruppiert.

In den meisten praktischen Beispielen kennen Sie den Achsenabschnitt und die Steigung noch nicht. Daher müssen Sie versuchen, sie anhand der Daten abzuschätzen. Das versucht die lineare Regression.

Unter dem Gesichtspunkt der Maximum-Likelihood-Schätzung , bei der nach bestimmten Parameterwerten in Ihrem Modell gesucht wird, die die Daten am wahrscheinlichsten machen, sollten Sie sich besser mit linearer Regression und verwandter Modellierung auseinandersetzen . Es ähnelt dem "Brute-Force" -Ansatz, den Sie in Ihrer Frage vorschlagen, aber mit einem etwas anderen Maß für das, was Sie optimieren möchten. Mit modernen Rechenmethoden und einer intelligenten Gestaltung des Suchmusters ist dies recht schnell möglich.

Die Maximum-Likelihood-Schätzung kann so konzipiert werden, dass keine grafische Darstellung erforderlich ist. Sie ähnelt der Art und Weise, wie Sie bereits zu denken scheinen. Im Fall der linearen Regression liefern sowohl die Standardregression der kleinsten Quadrate als auch die maximale Wahrscheinlichkeit die gleichen Schätzungen für den Achsenabschnitt und die Steigung.

Das Denken mit maximaler Wahrscheinlichkeit hat den zusätzlichen Vorteil, dass es sich besser auf andere Situationen erstreckt, in denen es keine streng linearen Beziehungen gibt. Ein gutes Beispiel ist die logistische Regression, bei der Sie versuchen, die Eintrittswahrscheinlichkeit eines Ereignisses basierend auf Prädiktorvariablen zu schätzen. Dies kann mit maximaler Wahrscheinlichkeit erreicht werden, aber anders als bei der linearen Standardregression gibt es keine einfache Gleichung, die den Achsenabschnitt und die Steigungen bei der logistischen Regression erzeugt.

EdM
quelle

1

x^{2}

$x^2$

@fcop du bist richtig. Ich ging von dem vom OP zur Verfügung gestellten Beispiel aus, das eine Proportionalität zwischen Werten und Gebieten postulierte. Ich neige dazu, die transformierten Werte der ursprünglichen Prädiktorvariablen als die tatsächlichen unabhängigen Variablen in der Regression zu betrachten, wenn Transformationen wie Potenzen oder Protokolle verwendet werden. Ich denke, das führt in der Praxis hauptsächlich zu einem Unterschied in der Terminologie, obwohl es Unterschiede bei den implizierten Fehlermodellen gibt.

EdM

Ich

6

Zunächst meine Komplimente. Es ist schwierig für alle, mit Statistiken zu kämpfen (ich bin ein Arzt, also können Sie erraten, wie schwer es für mich ist) ...

Ich kann keine visuelle Erklärung für die lineare Regression vorschlagen , sondern etwas sehr Nahes: eine taktile Erklärung für die lineare Regression .

Stellen Sie sich vor, Sie betreten einen Raum von einer Tür aus. Der Raum ist mehr oder weniger quadratisch und die Tür befindet sich in der unteren linken Ecke. Sie möchten in den nächsten Raum gelangen, dessen Tür sich mehr oder weniger in der rechten oberen Ecke befindet. Stellen Sie sich vor, Sie können nicht genau sagen, wo die nächste Tür ist (je!), Aber es gibt einige Leute, die im Raum verstreut sind und die Ihnen sagen können, welche gehen sollen. Sie können auch nicht sehen, aber sie können Ihnen sagen, was in ihrer Nähe ist. Der letzte Weg, den Sie nehmen, um die nächste Tür zu erreichen, wird von diesen Personen geführt und entspricht einer Regressionslinie, die den Abstand zwischen diesen Personen minimiert und Sie zur Tür in der Nähe des (wenn nicht auf dem) richtigen Weg führt.

Joe_74
quelle

1

(+1) Ich mag Ihr Beispiel sehr und es ist lustig, dass wir rein zufällig für dieses Problem eine sehr ähnliche Illustration verwendet haben!

Tim

"Der Raum ist mehr oder weniger quadratisch" - was ist für Blinde quadratisch? Mit diesem Satz haben Sie uns dorthin gebracht, wo wir anfangen sollten.

Aksakal

4

Ich stimme nicht zu. Lassen Sie sie 10 Fuß in eine Richtung gehen, dann lassen Sie sie sich um 90 ° drehen (wie ein Armspan) und lassen Sie sie wieder 10 Fuß gehen. Das ist ein Quadrat, wenn Sie nicht richtig sehen können.

Joe_74

@ GiuseppeBiondi-Zoccai, wenn ich ein Modell des Drucks in der Kammer auf die Temperatur aufbaue, warum sollte ich dann Quadrate und Linien und andere räumliche Konzepte aufbringen müssen? Es ist sicherlich praktisch, wenn Sie nicht blind sind, aber für eine blinde Person bringen diese räumlichen Analogien für das

vorliegende

2

Auch hier widerspreche ich höflich ... Meine Annahme war immer, dass blinde Menschen besonders taktile räumliche Fähigkeiten entwickelt haben. Jedenfalls ist jedes Beispiel, das funktioniert, in Ordnung und je mehr desto besser.

Joe_74

3

$Y$ $X$

Y = β_{0} + β_{1} X + ε

$Y = \beta_0 + \beta_1 X + \varepsilon$

$\beta_0$ $y$ $x$

Vereinfachen wir dieses Beispiel noch deutlicher - so wie es Gelman und Park taten. Die von ihnen vorgeschlagene Vereinfachung besteht darin, das zu teilen $X$ Variable, dh Fläche des Hauses, in drei Gruppen: "kleine", "mittlere" und "große" Häuser (sie beschreiben, wie eine solche Entscheidung optimal getroffen werden kann, dies ist jedoch von geringerer Bedeutung). Berechnen Sie als Nächstes die durchschnittliche Größe des "kleinen" Hauses und die durchschnittliche Größe des "großen" Hauses. Berechnen Sie auch den Durchschnittspreis für ein "kleines" und ein "großes" Haus. Reduzieren Sie nun Ihre Daten auf zwei Punkte - die Mittelpunkte der Datenpunktwolken für kleine und große Häuser, die im Raum verstreut sind, und entfernen Sie alle Datenpunkte über "mittlere" Häuser. Sie haben zwei Punkte im zweidimensionalen Raum. Regressionsgerade ist die Linie, die die Punkte verbindet - Sie können sich das als eine Richtung von einem Punkt zum anderen vorstellen. $\beta_1$

Das gleiche passiert, wenn wir mehr Punkte im Raum haben: Die Regressionslinie findet ihren Weg, indem sie den quadratischen Abstand zu jedem Punkt minimiert. Die Linie verläuft also genau durch den Mittelpunkt der im Raum verstreuten Punktewolke. Anstatt zwei Punkte zu verbinden, können Sie sich vorstellen, eine unbegrenzte Anzahl solcher zentralen Punkte zu verbinden.

Gelman, A. & Park, DK (2012). Teilen eines Prädiktors im oberen Viertel oder Drittel und im unteren Viertel oder Drittel. The American Statistician, 62 (4), 1-8.

Tim
quelle

3

Die kurze Antwort lautet: Ja. Welche Linie verläuft am besten durch die Mitte aller Punkte, die die gesamte oder nur die Oberfläche eines Flugzeugs oder eines Speers umfassen? Zeichne es; in deinem Kopf oder auf einem Bild. Sie suchen nach und an dieser einzelnen Linie, von der aus jeder Punkt (von Interesse, ob Sie sie plotten oder nicht), der zur geringsten Abweichung (zwischen den Punkten) von dieser Linie beitragen würde. Wenn Sie es mit dem Auge tun, implizit mit gesundem Menschenverstand, werden Sie ein mathematisch berechnetes Ergebnis (bemerkenswert gut) approximieren. Dafür gibt es Formeln, die das Auge stören und möglicherweise keinen gesunden Menschenverstand ergeben. Bei ähnlichen formalisierten technischen und naturwissenschaftlichen Problemen fordern die Streuungen immer noch eine vorläufige Beurteilung durch das Auge, aber in diesen Bereichen soll man eine "Test" -Wahrscheinlichkeit finden, dass eine Linie die Linie ist. Von dort geht es bergab. Jedoch, Sie versuchen anscheinend, einer Maschine beizubringen, die Grenzen und Grenzen von (a) einem beträchtlichen Scheunenhof und (b) verstreutem Vieh darin zu bestimmen. Wenn Sie Ihrer Maschine ein Bild (grafisch, algebraisch) von der Immobilie und den Bewohnern geben, sollte sie in der Lage sein (Mittellinie, die den Blob sauber in zwei Teile teilt, berechneter Descatter in eine Linie), was Sie von ihr erwarten. Jedes anständige Statistik-Lehrbuch (Lehrer oder Professoren sollten mehr als ein Lehrbuch nennen) sollte sowohl den gesamten Punkt der linearen Regression als auch die Vorgehensweise in den einfachsten Fällen (bis hin zu nicht einfachen Fällen) beschreiben. Eine Reihe von Brezeln später, haben Sie es auf Lager. Wenn Sie Ihrer Maschine ein Bild (grafisch, algebraisch) von der Immobilie und den Bewohnern geben, sollte sie in der Lage sein (Mittellinie, die den Blob sauber in zwei Teile teilt, berechneter Descatter in eine Linie), was Sie von ihr erwarten. Jedes anständige Statistik-Lehrbuch (Lehrer oder Professoren sollten mehr als ein Lehrbuch nennen) sollte sowohl den gesamten Punkt der linearen Regression als auch die Vorgehensweise in den einfachsten Fällen (bis hin zu nicht einfachen Fällen) beschreiben. Eine Reihe von Brezeln später, haben Sie es auf Lager. Wenn Sie Ihrer Maschine ein Bild (grafisch, algebraisch) von der Immobilie und den Bewohnern geben, sollte sie in der Lage sein (Mittellinie, die den Blob sauber in zwei Teile teilt, berechneter Descatter in eine Linie), was Sie von ihr erwarten. Jedes anständige Statistik-Lehrbuch (Lehrer oder Professoren sollten mehr als ein Lehrbuch nennen) sollte sowohl den gesamten Punkt der linearen Regression als auch die Vorgehensweise in den einfachsten Fällen (bis hin zu nicht einfachen Fällen) beschreiben. Eine Reihe von Brezeln später, haben Sie es auf Lager. Jedes anständige Statistik-Lehrbuch (Lehrer oder Professoren sollten mehr als ein Lehrbuch nennen) sollte sowohl den gesamten Punkt der linearen Regression als auch die Vorgehensweise in den einfachsten Fällen (bis hin zu nicht einfachen Fällen) beschreiben. Eine Reihe von Brezeln später, haben Sie es auf Lager. Jedes anständige Statistik-Lehrbuch (Lehrer oder Professoren sollten mehr als ein Lehrbuch nennen) sollte sowohl den gesamten Punkt der linearen Regression als auch die Vorgehensweise in den einfachsten Fällen (bis hin zu nicht einfachen Fällen) beschreiben. Eine Reihe von Brezeln später, haben Sie es auf Lager.

In Bezug auf den Kommentar von Silverfish zu meinem obigen Beitrag (es scheint keine einfache Möglichkeit zu geben, einen Kommentar zu diesem Kommentar hinzuzufügen): Ja, das OP ist blind, lernt maschinelles Lernen und verlangt nach Praktikabilität ohne Diagramme oder Grafiken, aber ich gehe davon aus Er ist in der Lage, "Visualisierung" von "Vision" zu unterscheiden, visualisiert und hat wahre Bilder im Kopf und hat eine grundlegende Vorstellung von allen Arten von physischen Objekten in der Welt um ihn herum (unter anderem Häuser), so dass er immer noch " zeichnen "sowohl mathematisch als auch anderweitig in seinem Kopf und können wohl einen guten Anschein von 2D und 3D auf Papier bringen. Eine breite Palette von Büchern und anderen Texten ist heutzutage in physischer Braille-Schrift sowie in elektronischer Sprache auf dem eigenen Computer verfügbar (z. B. für Foren, Wörterbücher usw.). und viele Schulen für Blinde haben ziemlich vollständige Lehrpläne. Anstelle von Flugzeugen oder Speeren wären Sofas oder Zuckerrohr nicht unbedingt angemessener, und wahrscheinlich sind statistische Texte verfügbar. Er ist weniger besorgt darüber, wie Maschinen lernen, Regressionen zu zeichnen und grafisch darzustellen oder zu berechnen, als darüber, wie Maschinen lernen, etwas Äquivalentes (und grundlegenderes) zu tun, um Regressionen zu erfassen (ob eine Maschine sie anzeigt, darauf reagiert, folgt) es vermeiden, oder was auch immer). Der Hauptschub (sowohl für blinde als auch für sehende Schüler) besteht darin, zu visualisieren, was nicht-visuell sein kann (z. B. das Konzept der Linearität anstelle der Instanz der gezeichneten Linie, seit vor Euklid und Pythagoras) und wie das zu visualisieren ist Grundzweck einer besonderen Art von Linearität (Regression, deren Grundpunkt am besten zur geringsten Abweichung passt, seit früh in Mathematik und Statistik). Die Fortran-Regressionsausgabe eines Liniendruckers ist kaum "visuell", bis sie mental assimiliert wird, aber selbst der Grundpunkt der Regression ist imaginär (eine Linie, die nicht vorhanden ist, bis sie zu einem bestimmten Zweck erstellt wurde).

butte
quelle

2

Vielleicht missverstehe ich diese Antwort, aber "zeichne sie, in deinen Kopf oder auf ein Bild" scheint den Punkt der Frage etwas zu verfehlen: Die ursprüngliche Frage wird von jemandem gestellt, der völlig blind ist und daher nach einem Nicht-Ich sucht. visuelle Annäherung an die Regression.

Silberfischchen

@Silverfish Antwort (zu lang für einen Kommentar) wurde in die obige Antwort

Vielen Dank. Ich fand die Ablehnung etwas hart (ich war es nicht), aber einige der Sprachwahlen in dieser Antwort waren unglücklich (z. B. gibt es mehrere Hinweise darauf, Dinge "mit dem Auge" zu tun). Trotzdem kann ich verstehen, warum Sie zwischen visueller Wahrnehmung und dem, was mit dem "Auge des Geistes" sichtbar gemacht werden kann, unterscheiden möchten.

Silberfischchen

2

Ich kann mir Dinge in meinem Kopf vorstellen. Es ist nur so, dass ich nicht die gleichen Arten der Visualisierung verwende. Es geht nicht darum, nicht drawoder zu verwenden visualize. Es geht nur darum, das Konzept zu verwenden, um die Visualisierung abzuleiten, und nicht umgekehrt. Ich habe festgestellt, dass dies an vielen Stellen in der Mathematik passiert. Um ein schwieriges Thema zu erklären, werden normalerweise Formen und Bilder verwendet, anstatt die Berechnung auf Konzepte zu beziehen, die der Lernende aus dem wirklichen Leben kennt.

Parham Doustdar

3

Der Grund, warum Diagramme allgemein verwendet werden, um eine einfache Regression einzuführen - eine Antwort, die von einem einzelnen Prädiktor vorhergesagt wird - ist, dass sie das Verständnis unterstützen.

Ich glaube jedoch, dass ich etwas von dem Geschmack geben kann, das zum Verständnis der Vorgänge beitragen könnte. In diesem Artikel werde ich mich hauptsächlich darauf konzentrieren, einen Teil des Verständnisses zu vermitteln, das sie vermitteln. Dies kann bei einigen anderen Aspekten hilfreich sein, auf die Sie normalerweise beim Lesen über Regression stoßen. Diese Antwort wird sich also hauptsächlich mit einem bestimmten Aspekt Ihres Beitrags befassen.

Stellen Sie sich vor, Sie sitzen vor einem großen rechteckigen Tisch wie einem schlichten Schreibtisch, von dem einer eine volle Armspanne (vielleicht 1,8 Meter) hat und vielleicht halb so breit ist.

Sie sitzen in der gewohnten Position in der Mitte einer langen Seite vor dem Tisch. Auf diesem Tisch wurde eine große Anzahl von Nägeln (mit ziemlich glatten Köpfen) in die Oberfläche gehämmert, so dass jeder ein Stück nach oben ragt (genug, um zu fühlen, wo sie sind, und genug, um eine Schnur daran zu binden oder ein Gummiband anzubringen ).

Diese Nägel befinden sich in unterschiedlichem Abstand von Ihrer Schreibtischkante, so dass sie sich in der Regel an einem Ende (sagen wir am linken Ende) näher an Ihrer Schreibtischkante befinden und wenn Sie sich zum anderen Ende bewegen, die Nagelköpfe neigen dazu, weiter von Ihrem Rand entfernt zu sein.

Stellen Sie sich außerdem vor, dass es nützlich wäre, zu wissen, wie weit die Nägel im Durchschnitt von Ihrer Kante entfernt sind, und zwar an jeder beliebigen Position entlang Ihrer Kante.

Wählen Sie eine Stelle entlang Ihrer Schreibtischkante und legen Sie Ihre Hand dort ab. Greifen Sie dann direkt über den Tisch und ziehen Sie Ihre Hand sanft zurück zu sich, dann wieder weg und bewegen Sie Ihre Hand hin und her über die Nagelköpfe. Bei diesen Nägeln treten mehrere Dutzend Unebenheiten auf - diejenigen in der schmalen Breite Ihrer Hand (wenn sie sich direkt von Ihrer Kante wegbewegen, in konstantem Abstand vom linken Ende des Schreibtisches), ein etwa zehn Zentimeter breiter Abschnitt oder Streifen .

Die Idee ist, einen durchschnittlichen Abstand zu einem Nagel von Ihrer Schreibtischkante in diesem kleinen Bereich herauszufinden. Intuitiv ist es nur die Mitte der Unebenheiten, die wir treffen, aber wenn wir jeden Nagelabstand in diesem handbreiten Abschnitt des Schreibtisches messen, können wir diese Durchschnittswerte leicht berechnen.

Zum Beispiel könnten wir ein T-Quadrat verwenden, dessen Kopf entlang der Kante des Schreibtisches gleitet und dessen Schaft zur anderen Seite des Schreibtisches verläuft, aber direkt über dem Schreibtisch, damit wir die Nägel nicht berühren, wenn sie nach links gleiten oder rechts - wenn wir einen bestimmten Nagel passieren, können wir seinen Abstand entlang des Schafts des T-Quadrats ermitteln.

Bei einer Reihe von Stellen entlang unserer Kante wiederholen wir diese Übung, indem wir alle Nägel in einem handbreiten Streifen finden, der auf uns zu- und von uns wegläuft, und ihre durchschnittliche Entfernung ermitteln. Vielleicht teilen wir den Schreibtisch entlang unserer Kante in handbreite Streifen auf (damit jeder Nagel in genau einem Streifen angetroffen wird).

Stellen Sie sich vor, es gäbe 21 solcher Streifen, der erste am linken Rand und der letzte am rechten Rand. Die Mittel entfernen sich weiter von unserer Schreibtischkante, wenn wir über die Streifen fahren.

Diese Mittel bilden einen einfachen nichtparametrischen Regressionsschätzer für die Erwartung von y (unser Abstand) bei gegebenem x (Abstand entlang unserer Kante vom linken Ende), dh E (y | x). Insbesondere handelt es sich hierbei um einen nichtparametrischen Regressionsschätzer, der auch als Regressionsprogramm bezeichnet wird

Wenn sich diese Streifenmittelwerte regelmäßig erhöhen - das heißt, der Mittelwert stieg normalerweise um ungefähr den gleichen Betrag pro Streifen, wie wir uns über die Streifen bewegt haben -, können wir unsere Regressionsfunktion besser abschätzen, indem wir annehmen, dass der erwartete Wert von y linear ist Funktion von x - dh dass der erwartete Wert von y bei x eine Konstante plus ein Vielfaches von x war. Hier stellt die Konstante dar, wo sich die Nägel tendenziell befinden, wenn wir bei x Null sind (oft können wir dies am äußersten linken Rand platzieren, müssen es aber nicht), und das besondere Vielfache von x gibt an, wie schnell im Durchschnitt der Mittelwert ist ändert sich, wenn wir uns um einen Zentimeter nach rechts bewegen.

Aber wie findet man eine solche lineare Funktion?

Stellen Sie sich vor, wir wickeln ein Gummiband über jeden Nagelkopf und befestigen jedes an einem langen, dünnen Stab, der direkt über dem Schreibtisch auf den Nägeln liegt, so dass er ungefähr in der Mitte jedes Streifens liegt, den wir hatten zum.

Wir befestigen die Bänder so, dass sie sich nur in die Richtung zu uns hin und von uns weg erstrecken (nicht nach links oder rechts) - nach links ziehen sie, um ihre Dehnungsrichtung mit dem Stock im rechten Winkel zu machen. aber hier verhindern wir das, so dass ihre Dehnungsrichtung nur in der Richtung zu oder von unserer Schreibtischkante weg bleibt. Jetzt lassen wir den Stab sich beruhigen, während die Bänder ihn zu jedem Nagel ziehen, wobei entferntere Nägel (mit mehr gedehnten Gummibändern) entsprechend stärker ziehen als Nägel in der Nähe des Stabes.

Dann würde das kombinierte Ergebnis aller Bänder, die am Stock ziehen, (idealerweise zumindest) darin bestehen, den Stock zu ziehen, um die Summe der quadratischen Längen der gedehnten Gummibänder zu minimieren; in dieser Richtung direkt über dem Tisch wäre der Abstand von unserer Tischkante zum Stab an einer gegebenen x-Position unsere Schätzung des erwarteten Wertes von y bei gegebenem x.

Dies ist im Wesentlichen eine lineare Regressionsschätzung.

Stellen Sie sich nun vor, dass anstelle von Nägeln viele Früchte (wie z. B. kleine Äpfel) an einem großen Baum hängen und wir den durchschnittlichen Abstand der Früchte über dem Boden ermitteln möchten, da er mit der Position auf dem Boden variiert. Stellen Sie sich vor, dass in diesem Fall die Höhen über dem Boden größer werden, wenn wir vorwärts gehen, und etwas größer werden, wenn wir uns nach rechts bewegen, und zwar wieder in regelmäßiger Weise Rechts ändert auch den Mittelwert um einen ungefähr konstanten Betrag (dieser Änderungsbetrag nach rechts unterscheidet sich jedoch vom Änderungsbetrag nach vorne).

Wenn wir die Summe der quadratischen vertikalen Abstände von den Früchten zu einem dünnen, flachen Blatt (möglicherweise einem dünnen Blatt aus sehr steifem Kunststoff) minimieren, um herauszufinden, wie sich die mittlere Höhe ändert, wenn wir uns vorwärts bewegen oder nach rechts gehen, wäre das eine lineare Regression mit zwei Prädiktoren - eine multiple Regression.

Dies sind die einzigen beiden Fälle, die zum Verständnis von Plots beitragen können (sie können schnell zeigen, was ich gerade ausführlich beschrieben habe, aber Sie wissen hoffentlich, auf welcher Grundlage Sie dieselben Ideen konzipieren können). Abgesehen von diesen beiden einfachsten Fällen bleibt uns nur die Mathematik.

Nehmen Sie nun Ihr Hauspreisbeispiel. Sie können die Fläche jedes Hauses durch einen Abstand entlang Ihrer Schreibtischkante darstellen - stellen Sie die größte Hausgröße als Position in der Nähe der rechten Kante dar, jede andere Hausgröße ist eine Position weiter links, wobei eine bestimmte Anzahl von Zentimetern für eine bestimmte Position steht Anzahl der Quadratmeter. Jetzt entspricht die Entfernung dem Verkaufspreis. Stellen Sie das teuerste Haus dar, da eine bestimmte Entfernung in der Nähe der äußersten Kante des Schreibtisches (wie immer die Kante, die am weitesten von Ihrem Stuhl entfernt ist) und jeder Zentimeter, der von diesem entfernt ist, eine bestimmte Anzahl von Rials darstellt.

Stellen Sie sich vorerst vor, dass wir die Darstellung so gewählt haben, dass die linke Kante des Schreibtisches einer Hausfläche von Null und die nahe Kante einem Hauspreis von 0 entspricht. Dann setzen wir für jedes Haus einen Nagel ein.

Wir werden wahrscheinlich keine Nägel in der Nähe des linken Endes unserer Kante haben (sie könnten meistens nach rechts und von uns entfernt sein), weil dies nicht unbedingt eine gute Wahl des Maßstabs ist, aber Ihre Wahl eines No-Intercept-Modells macht dies ein besserer Weg, um es zu diskutieren.

Jetzt zwingen Sie in Ihrem Modell den Stock, durch eine Schnurschleife an der linken Ecke der nahen Kante des Schreibtisches zu laufen, wodurch das angepasste Modell gezwungen wird, für den Bereich Null den Preis Null zu haben, was natürlich erscheinen mag - stellen Sie sich jedoch vor, ob dies der Fall ist einige ziemlich konstante Preisbestandteile, die jeden Verkauf betrafen. Dann wäre es sinnvoll, wenn sich der Achsenabschnitt von Null unterscheidet.

In jedem Fall wird mit der Hinzufügung dieser Schleife die gleiche Gummibandübung wie zuvor unsere Schätzung der kleinsten Quadrate der Linie finden.

Glen_b
quelle

Wow, danke für diese lange räumliche Antwort. Es hat viel erklärt. Vielen Dank.

Parham Doustdar

2

Haben Sie die Art von Toaster angetroffen, die Sie oft in Hotels bekommen. Sie legen an einem Ende Brot auf ein Förderband und es wird am anderen Ende als Toast ausgegeben. Leider sind die Heizungen im Toaster dieses billigen Hotels alle in zufällige Höhen und Entfernungen vom Eingang zum Toaster versetzt worden. Sie können die Heizelemente nicht bewegen oder den Pfad des Riemens nicht biegen (der übrigens gerade ist (hier kommt das lineare Bit ins Spiel), aber Sie können die HÖHE und NEIGUNG des Riemens ändern.

In Anbetracht der Positionen aller Heizelemente gibt die lineare Regression die richtige Höhe und den richtigen Winkel für die Platzierung des Riemens an, um insgesamt die meiste Wärme zu erhalten. Dies liegt daran, dass die lineare Regression den durchschnittlichen Abstand zwischen dem Toast und den Heizungen minimiert.

Mein erster Ferienjob bestand darin, lineare Regressionen von Hand durchzuführen. Der Typ, der gesagt hat, dass du das nicht willst, ist RICHTIG !!!

Chris J
quelle

2

Meine Lieblingserklärung der linearen Regression ist geometrisch, aber nicht visuell. Es behandelt den Datensatz als einen einzelnen Punkt in einem hochdimensionalen Raum, anstatt ihn in eine Punktwolke im zweidimensionalen Raum aufzuteilen.

$a$ $p$ $(a, p)$ $a_1, \ldots, a_{1000}$ $p_1, \ldots, p_{1000}$

D = (a_{1}, \dots, a_{1000}, p_{1}, \dots, p_{1000})

$D = (a_1, \ldots, a_{1000}, p_1, \ldots, p_{1000})$

D

$D$

M (ρ, β) = (a_{1}, \dots, a_{1000}, ρ a_{1} + β, \dots, ρ a_{1000} + β) .

$M(\rho, \beta) = (a_1, \ldots, a_{1000}, \rho a_1 + \beta, \ldots, \rho a_{1000} + \beta).$

ρ

$\rho$

β

$\beta$

a_{1}, \dots, a_{1000}

$a_1, \ldots, a_{1000}$

ρ

$\rho$

β

$\beta$

$D$ $M(\rho, \beta)$ $D$

$D$ $M(\rho, \beta)$

[p_{1} - (ρ a_{1} + β)]^{2} + \dots + [p_{1000} - (ρ a_{1000} + β)]^{2} .

$[p_1 - (\rho a_1 + \beta)]^2 + \ldots + [p_{1000} - (\rho a_{1000} + \beta)]^2.$ Mit anderen Worten, der Abstand zwischen dem Datenpunkt und dem Modellpunkt ist der quadratische Gesamtfehler des Modells! Das Minimieren des quadratischen Gesamtfehlers eines Modells entspricht dem Minimieren des Abstands zwischen dem Modell und den Daten im Datenraum.

$\rho$ $\beta$ $D$ $M(\rho, \beta)$

Vectornaut
quelle

1

Die Antworten von @Chris Rackauckas und @ EDM sind genau richtig. Es gibt viele Möglichkeiten, sich einer einfachen linearen Regression zu nähern, für die keine grafischen Darstellungen oder visuellen Erklärungen der gewöhnlichen Schätzung der kleinsten Quadrate erforderlich sind, und sie geben sehr solide Erklärungen darüber, was tatsächlich passiert, wenn Sie OLS ausführen.

Ich könnte hinzufügen, dass die Verwendung von Streudiagrammen als Instruktionswerkzeug zum Erlernen einer neuen Modellierungsprozedur, sei es ein parametrisches Modell der alten Schule, fortgeschrittenes maschinelles Lernen oder Bayes'sche Algorithmen, die grafische Darstellung dazu beitragen kann, die Zeit zu verkürzen, die zum Erlernen eines bestimmten Verfahrens benötigt wird Algorithmus tut.

Die grafische Darstellung ist auch für die explorative Datenanalyse von großer Bedeutung, wenn Sie zum ersten Mal mit einem neuen Datensatz arbeiten. Ich hatte Situationen, in denen ich viele Daten gesammelt, die Theorie ausgearbeitet, mein Modell sorgfältig geplant und dann ausgeführt habe, um Ergebnisse zu erhalten, die im Wesentlichen keine Vorhersagekraft hatten. Das Zeichnen von bivariaten Beziehungen kann einige Vermutungen zunichte machen: In Ihrem Beispiel ist es möglich, dass der Immobilienpreis in einem linearen Verhältnis zur Fläche steht, die Beziehung ist jedoch möglicherweise nicht linear. Streudiagramme helfen Ihnen bei der Entscheidung, ob Sie Terme höherer Ordnung in Ihrer Regression benötigen oder ob Sie eine andere Methode als die lineare Regression verwenden möchten oder ob Sie eine nichtparametrische Methode verwenden möchten.

Chris K
quelle

1

Google für Anscombe Quartet.

Es werden 4 Datensätze angezeigt, die bei numerischer Prüfung keinen großen Unterschied aufweisen.

Beim Erstellen eines visuellen Streudiagramms werden die Unterschiede jedoch dramatisch sichtbar.

Es gibt einen ziemlich klaren Überblick, warum Sie Ihre Daten immer zeichnen sollten, Regression oder keine Regression :-)

ctd2015
quelle

0

Wir wollen eine Lösung, die den Unterschied zwischen den vorhergesagten und den tatsächlichen Werten minimiert.

$y=bx+a$

$y$ $y$

Wenn wir davon ausgehen, dass die Fehlerverteilung normal verteilt ist, gibt es eine analytische Lösung für dieses Minimierungsproblem. Die Summe der Quadrate der Differenzen ist der beste Wert, um eine optimale Anpassung zu erzielen. Normalität ist jedoch im Allgemeinen nicht erforderlich.

Es gibt eigentlich nicht viel mehr.

$y=bx+a$

Heutzutage bleibt es eher als Verständnishilfe, aber es ist nicht notwendig, die lineare Regression wirklich verstehen zu müssen.

BEARBEITEN: Die Normalität der Fehlerannahme wurde durch eine korrekte, aber weniger präzise Liste ersetzt. Normalität musste eine analytische Lösung haben und kann für viele praktische Fälle angenommen werden. In diesem Fall ist die Quadratsumme nicht nur für den linearen Schätzer optimal und maximiert auch die Wahrscheinlichkeit.

Wenn weiterhin die Annahme der Normalität der Fehlerverteilung zutrifft, ist die Summe der Quadrate sowohl unter linearen als auch nichtlinearen Schätzern optimal und maximiert die Wahrscheinlichkeit.

Diego
quelle

1

Die Annahme einer Normalverteilung ist für nichts, was Sie beschrieben haben, erforderlich

Aksakal,

Bitte überprüfen Sie diese Erklärung stats.stackexchange.com/a/1516/98469

Diego

Der Link hat nichts mit Ihrer Antwort zu tun. Wenn Sie in kleine Stichprobeneigenschaften oder MLE expandiert haben, könnten Sie die Normalverteilungsannahme einbringen, aber die OLS-Beschreibung in Ihrer Antwort benötigt derzeit keine Normalverteilung. Tatsächlich benötigen Sie keine Verteilung oder Statistik, um die Summe der Quadrate zu minimieren. Es ist reine Algebra.

Aksakal

Es geht darum, warum wir die Summe der Quadrate minimieren und nicht irgendeine andere Metrik. Nicht darüber, wie man die Summe der Quadrate minimiert.

Diego

Das Minimieren der Quadratsumme hat nichts mit der Normalverteilung zu tun. Es ist nur Ihre Verlustfunktion. Jede andere Fehlerverteilung kann mit dieser Verlustfunktion verwendet werden. Sie benötigen die Verteilungen in bestimmten Fällen, z. B. wenn Sie Rückschlüsse auf Parameterwerte in kleinen Stichproben usw. ziehen möchten. Auch in diesem Fall können Sie andere Verteilungen verwenden. Ich bin mir nicht sicher, warum Sie auf Normal festgelegt sind.

Aksakal

Kann eine einfache lineare Regression ohne Verwendung von Plots und linearer Algebra durchgeführt werden?

Antworten: