Ich lese gerade " Eine Einführung in das statistische Lernen ". In Kapitel 2 diskutieren sie den Grund für die Schätzung einer Funktion .
2.1.1 Warum schätzen ?
Es gibt zwei Hauptgründe, warum wir f abschätzen möchten : Vorhersage und Inferenz . Wir diskutieren nacheinander.
Ich habe es ein paarmal gelesen, bin mir aber immer noch teilweise unklar über den Unterschied zwischen Vorhersage und Schlussfolgerung. Könnte jemand ein (praktisches) Beispiel für die Unterschiede geben?
prediction
terminology
causality
user61629
quelle
quelle
Antworten:
Inferenz: Bei einem gegebenen Datensatz möchten Sie ableiten, wie die Ausgabe als Funktion der Daten generiert wird.
Vorhersage: Bei einer neuen Messung möchten Sie einen vorhandenen Datensatz verwenden, um ein Modell zu erstellen, das aus einer Reihe von Ergebnissen zuverlässig den richtigen Bezeichner auswählt.
Schlussfolgerung: Sie möchten herausfinden, wie sich Alter, Passagierklasse und Geschlecht auf das Überleben der Titanic-Katastrophe auswirken. Sie können eine logistische Regression durchführen und daraus den Einfluss der einzelnen Passagiereigenschaften auf die Überlebensraten ableiten .
Vorhersage: Angesichts einiger Informationen über einen Titanic-Passagier möchten Sie aus dem Satz auswählen und so oft wie möglich korrekt sein. (Siehe Bias-Varianz-Kompromiss zur Vorhersage, falls Sie sich fragen, wie Sie so oft wie möglich korrekt sein sollen.){ Lebt , stirbt }
Bei der Vorhersage geht es nicht darum, die genaueste Beziehung zwischen Eingabe und Ausgabe herzustellen. Bei der genauen Vorhersage geht es darum, dass neue Beobachtungen so oft wie möglich in die richtige Klasse eingereiht werden.
Das "praktische Beispiel" läuft also grob auf den folgenden Unterschied hinaus: Bei einer Reihe von Passagierdaten für einen einzelnen Passagier gibt Ihnen der Inferenzansatz eine Überlebenswahrscheinlichkeit, der Klassifikator gibt Ihnen die Wahl zwischen Leben oder Sterben.
Die Optimierung von Klassifikatoren ist ein sehr interessantes und wichtiges Thema, genauso wie die korrekte Interpretation von p-Werten und Konfidenzintervallen.
quelle
Im Allgemeinen stellen wir uns bei der Datenanalyse vor, dass es eine Art "Datenerzeugungsprozess" gibt, der zu den Daten führt, und Inferenz bezieht sich auf das Lernen über die Struktur dieses Prozesses, während Vorhersage bedeutet, dass die von ihm stammenden Daten tatsächlich prognostiziert werden können . Oft gehören beide zusammen, aber nicht immer.
Ein Beispiel, bei dem beide Hand in Hand gehen, wäre das einfache lineare Regressionsmodell
quelle
Auf Seite 20 des Buches geben die Autoren ein schönes Beispiel, anhand dessen ich den Unterschied verstehe.
Hier ist der Absatz aus dem Buch: Eine Einführung in das statistische Lernen
"Zum Beispiel , in einer Immobilien - Einstellung, kann man versuchen , Werte von Häusern auf Eingaben wie Kriminalitätsraten, Zoning, Abstand von einem Fluss, Luftqualität, Schulen, Einkommensniveau der Gemeinschaft, die Größe der Häuser zu beziehen, und so weiter. In diesem Fall könnte es interessant sein, wie sich die einzelnen Eingabevariablen auf die Preise auswirken - das heißt, wie viel mehr ist ein Haus wert, wenn es einen Blick auf den Fluss hat? Dies ist ein Inferenzproblem , oder es könnte einfach interessant sein bei der Vorhersage des Werts eines Hauses aufgrund seiner Merkmale: Ist dieses Haus unter- oder überbewertet? Dies ist ein Vorhersageproblem . "
quelle
Wenn Sie nun die Einkommensdaten erhalten, z. B. persönliche verfügbare Einkommensreihen von BEA, und die Variable für die Jahreszeit erstellen, können Sie die Funktion f schätzen und dann die neuesten Werte des Bevölkerungseinkommens und der Jahreszeit in diese einstecken Funktion. Dies ergibt die Vorhersage für das nächste Quartal des Umsatzes des Geschäfts.
quelle
Stellen Sie sich vor, Sie sind ein Arzt auf einer Intensivstation. Sie haben einen Patienten mit starkem Fieber, einer bestimmten Anzahl von Blutzellen, einem bestimmten Körpergewicht und hundert verschiedenen Daten und möchten vorhersagen, ob er oder sie überleben wird. Wenn ja, wird er seiner Frau diese Geschichte über sein anderes Kind verheimlichen, wenn nicht, ist es wichtig, dass er sie preisgibt, solange er kann.
Der Arzt kann diese Vorhersage auf der Grundlage der Daten früherer Patienten vornehmen, die er in seiner Abteilung hatte. Basierend auf seinen Software-Kenntnissen kann er entweder eine generalisierte lineare Regression (glm) oder ein neuronales Netz (nn) vorhersagen.
1. Verallgemeinertes lineares Modell
Es gibt viel zu viele korrelierte Parameter für den GLM. Um zu einem Ergebnis zu gelangen, muss der Arzt Annahmen treffen (Linearität usw.) und entscheiden, welche Parameter wahrscheinlich einen Einfluss haben. Der GLM wird ihn mit einem T-Test der Signifikanz für jeden seiner Parameter belohnen, damit er starke Beweise dafür sammeln kann, dass Geschlecht und Fieber einen signifikanten Einfluss haben, das Körpergewicht nicht unbedingt.
2. Neuronales Netz
Das neuronale Netz schluckt und verdaut alle Informationen, die in der Stichprobe ehemaliger Patienten enthalten sind. Es ist unerheblich, ob Prädiktoren korreliert sind und ob der Einfluss des Körpergewichts nur in der vorliegenden Stichprobe oder im Allgemeinen von Bedeutung zu sein scheint (zumindest nicht in Bezug auf das Fachwissen des Arztes) hat anzubieten). Es wird nur ein Ergebnis berechnet.
Was ist besser
Welche Methode zu wählen ist, hängt von dem Blickwinkel ab, aus dem Sie das Problem betrachten: Als Patient würde ich das neuronale Netz bevorzugen, das alle verfügbaren Daten verwendet, um zu erraten, was mit mir ohne starke und offensichtlich falsche Annahmen wie Linearität passieren wird. Als Arzt, der einige Daten in einem Journal darstellen möchte, benötigt er p-Werte. Die Medizin ist sehr konservativ: Sie werden nach p-Werten fragen. Der Arzt möchte daher mitteilen, dass in einer solchen Situation das Geschlecht einen wesentlichen Einfluss hat. Für den Patienten spielt das keine Rolle. Verwenden Sie einfach den Einfluss, den die Stichprobe für am wahrscheinlichsten hält.
In diesem Beispiel möchte der Patient eine Vorhersage, die wissenschaftliche Seite des Arztes möchte eine Schlussfolgerung. Wenn Sie ein System verstehen wollen, ist Inferenz meistens gut. Wenn Sie eine Entscheidung treffen müssen, bei der Sie das System nicht verstehen können, muss die Vorhersage ausreichen.
quelle
Sie sind hier nicht allein. Nachdem ich die Antworten gelesen habe, bin ich nicht mehr verwirrt - nicht weil ich den Unterschied verstehe, sondern weil ich verstehe, dass er im Auge des Betrachters liegt und verbal induziert wird. Ich bin mir jetzt sicher, dass diese beiden Begriffe eher politische als wissenschaftliche Definitionen sind. Nehmen Sie zum Beispiel die Erklärung aus dem Buch, das die Colleges als eine gute Erklärung zu verwenden versuchten: "Wie viel mehr wird ein Haus wert sein, wenn es einen Blick auf den Fluss hat? Dies ist ein Schlußfolgerungsproblem." Aus meiner Sicht ist dies absolut ein Vorhersageproblem. Sie sind Bauunternehmer und möchten das beste Grundstück für den Bau der nächsten Häuser auswählen. Sie müssen zwischen zwei Orten in der gleichen Stadt wählen, einen in der Nähe des Flusses, den nächsten in der Nähe des Bahnhofs. Sie möchten vorhersagendie Preise für beide Standorte. Oder Sie möchten schließen . Sie werden die genauen Methoden der Statistik anwenden, aber Sie benennen den Prozess. :)
quelle
Es gibt gute Studien, die belegen, dass ein starker Indikator dafür, ob Kreditnehmer ihre Kredite zurückzahlen, die Verwendung von Filz ist, um ihre Böden vor Kratzern durch Möbelbeine zu schützen. Diese "gefühlte" Variable ist eine eindeutige Hilfe für ein Vorhersagemodell, bei dem das Ergebnis aus Rückzahlung und Ausfall besteht. Wenn die Kreditgeber jedoch einen größeren Einfluss auf dieses Ergebnis haben möchten, denken sie, dass sie dies tun können, indem sie Filz so weit wie möglich verteilen.
"Wie wahrscheinlich ist es, dass dieser Kreditnehmer zurückzahlt?" ist ein Vorhersageproblem; "Wie kann ich das Ergebnis beeinflussen?" ist ein kausales Inferenzproblem.
quelle
y = f (x) dann
Vorhersage (was ist der Wert von Y mit einem gegebenen Wert von x: wenn spezifischer Wert von x, was könnte der Wert von Y sein?
Inferenz (wie sich y mit der Änderung von x ändert): Was könnte die Auswirkung auf Y sein, wenn sich x ändert
Vorhersagebeispiel: Angenommen, y repräsentiert das Gehalt einer Person. Wenn wir Eingaben wie jahrelange Erfahrung, Abschluss als Eingabevariablen bereitstellen, sagt unsere Funktion das Gehalt des Mitarbeiters voraus.
Inferenzbeispiel: Angenommen, die Lebenshaltungskosten ändern sich, und wie hoch ist dann die Änderung des Gehalts?
quelle