Wie interpretiere ich Bootstrap?

7

Ich bin ein echter Neuling, wenn es um Statistik geht, also beurteilen Sie mich und meine Frage bitte nicht;)

Ich mache eine lineare Regressionsanalyse mit SPSS und da meine Daten weder normal verteilt sind noch Homoskedastizität aufweisen, habe ich mich für Bootstrapping entschieden.

Jetzt bin ich wirklich verwirrt, wenn es um die Interpretation der Ausgabe geht. SPSS bietet mir die "normale" Modellzusammenfassung und die Koeffizienten sowie die Bootstrap-Zusammenfassung und die Bootstrap-Koeffizienten. Interpretiere ich jetzt nur den Bootstrap-Teil? Oder ist der F-Wert zum Beispiel immer noch relevant, was bedeutet, dass ich, wenn F nicht signifikant ist, das Bootstrap-Intervall auch nicht interpretieren kann, obwohl es signifikant ist?

user143853
quelle

Antworten:

4

Die intuitive Idee hinter dem Bootstrap lautet: Wenn Ihr ursprünglicher Datensatz eine zufällige Ziehung aus der Gesamtpopulation war, wenn Sie eine Teilstichprobe aus der Stichprobe (mit Ersetzung) entnehmen, entspricht dies ebenfalls einer Ziehung aus der Gesamtpopulation. Sie können dann Ihr Modell für alle diese Bootstrap-Datasets schätzen. Dies gibt Ihnen eine große Anzahl von Schätzungen und Sie können beispielsweise die Standardabweichungen Ihrer Schätzungen betrachten - es stellt sich heraus, dass dies häufig eine gute Schätzung des Standardfehlers der Schätzungen ergibt. Tatsächlich kann der Standardfehler der Schätzungen genau so betrachtet werden, wenn Sie die vielen Datensätze aus der tatsächlichen Grundgesamtheit entnehmen.

Angenommen, Ihr Datensatz enthält einen Ausreißer: In vielen Ihrer Bootstrap-Datensätze ist diese Beobachtung nicht enthalten, und für diese Datensätze ändern sich die geschätzten Koeffizienten um ein Vielfaches.

Ebenso können Sie die F-Statistik für jedes der Bootstrap-Datasets anzeigen. Sie können beispielsweise sehen, wie oft das Modell abgelehnt wurde. Aber ich bin mit SPSS nicht ausreichend vertraut, um zu wissen, was es als F-Statistik meldet: Ist es die durchschnittliche F-Statistik?

Superpronker
quelle
4

Wie @Superpronker erwähnte, hängt es wirklich davon ab, was SPSS mit dem Bootstrap macht. Das Einbeziehen Ihres Codes und der Ausgabe würde sehr helfen. Auch der Bootstrap ist ein Thema mit einer großen Menge an Literatur. Sie können dies sehen, indem Sie einfach die Bibliographie in meiner 2007 von Wiley veröffentlichten Ausgabe von Bootstrap Methods betrachten. Ich denke, Sie brauchen wirklich auch mindestens ein grundlegendes Tutorial zum Bootstrap. Manchmal hilft es, wenn man zu Wikipedia geht.

In der Regression gibt es verschiedene Möglichkeiten, mit Problemen wie Heteroskedastizität und Nicht-Normalität umzugehen. Wenn der F-Test, auf den Sie sich beziehen, von der OLS-Lösung zur linearen Regression stammt, bei der Normalität und Homoskedastizität ignoriert werden, und mit Nicht-Signifikanz gemeint ist, dass der F-Test Ihnen nicht sagen kann, dass sich einer der Regressionskoeffizienten von 0 unterscheidet sei es, dass du es einfach ignorieren und einen anderen Ansatz anwenden solltest.

Der Bootstrap kann ein Ansatz sein, um das Problem zu lösen. Bei der Regression gibt es zwei gängige Bootstrap-Ansätze. Einer wird als Bootstrapping-Residuen und der andere als Bootstrapping-Vektoren bezeichnet . Sie sollten herausfinden wollen, welches SPSS verwendet. Es gibt einige Literatur, die besagt, dass Bootstrapping-Vektoren in dem Sinne robuster sind, dass weniger Annahmen erforderlich sind. Der Vektor ist die Menge der beobachteten Werte von(Y,X1,X2,,Xk) wo Y ist die abhängige Variable und die Xj sind die kPrädiktorvariablen in Ihrem Modell. Aus Ihrer Problembeschreibung wissen wir nicht, obk ist 1 oder >1. Für jedesj es ist verbunden mit Xj ein Regressionsparameter bj das wird geschätzt.

Die Bootstrapping-Residuen-Methode verwendet dien Residuen, wo nist Ihre Stichprobengröße und wird mit Ersatz aus diesem Satz von Residuen abgetastet. Im Computerprogramm erfolgt dies nach der Monte-Carlo-Methode.

Das Modell ist Y=b1X1+b2X2++bkXk+e wo eist ein Fehlerbegriff. Sie erhalten zunächst n Residuen, indem Sie nehmenyib^1x1ib^2x2ib^kxki zu sein ith Rest. Hierb^j bezeichnet die Schätzung des Regressionsparameters bj. Wir verwenden die Notationyi und xji die iDer beobachtete Wert der abhängigen Variablen und der ith beobachteten Wert der jjeweils die Prädiktorvariable.

Da dies kompliziert wird, schlage ich vor, dass Sie sich eine Referenz zu Bootstrapping-Residuen ansehen. Der Chapman and Hall-Text von 1993 von Efron und Tibshirani ist eine Möglichkeit. Das Endergebnis sind Bootstrap-Verteilungen für jeden Regressionsparameter, und eines von mehreren möglichen Bootstrap-Konfidenzintervallen könnte verwendet werden. Die Perzentilmethode von Efron ist die wahrscheinlichste Möglichkeit. Wenn das Konfidenzintervall nicht 0 enthält, wird der Regressionsparameter als signifikant angesehen.

Michael R. Chernick
quelle
2

Als kurze Zusammenfassung wird der allgemeine Bootstrap in SPSS Statistics in der Hilfe beschrieben.

Die einfache Methode ist das Resampling von Fällen mit Ersetzung aus dem Originaldatensatz. Bei der geschichteten Methode handelt es sich um ein Fall-Resampling mit Ersetzung aus dem ursprünglichen Datensatz innerhalb der Schichten, die durch die Kreuzklassifizierung von Schichtvariablen definiert sind.

Einige Verfahren haben andere Optionen.

Das online verfügbare Algorithmus-Handbuch enthält Details zu Jackknife-, Case-, Stratified-, Residual- und Wild-Resampling.

In Bezug auf die ursprüngliche Frage des Benutzers lautet die Frage "Meine Daten sind weder normal verteilt noch zeigen sie Homoskedastizität", was ein Missverständnis darüber widerspiegeln könnte, was die Normalitätsannahme bei der Regression bedeutet. Es geht um den Fehlerterm, nicht um die Variablen in der Gleichung.

Und eine Frage an Michael: Ihre Bücher über Bootstrapping kosten bei Amazon für Kindle zwischen 107 und 237 Dollar! Warum? Ich würde gerne eines davon lesen, aber die Kosten sind phänomenal. Leider habe ich keine gute Bibliothek als Alternative zum Kauf.

JKP
quelle
Wenn Sie das Buch kaufen möchten, gehen Sie nicht dorthin. Das ist viel zu teuer. Überprüfen Sie die Wiley-Website, um zu sehen, wofür sie verkauft werden. In Bezug auf Amazon fungieren sie oft als Vermittler für einen Verkäufer. Das Buch kann unbenutzt sein oder nicht und der Preis wird vom Verkäufer festgelegt. Auch einige Websites wie Amazon führen Auktionen für Bücher durch. Diese Verkäufer versuchen, Menschen auszunutzen, die den wahren Wert des Buches nicht kennen. Andererseits finden Sie manchmal neue oder gebrauchte Bücher, die Schnäppchen sind. Suchen Sie im Internet, wenn Sie wirklich eine kaufen möchten.
Michael R. Chernick
Vielen Dank für die Erklärung zu SPSS. Ich bin sicher, das hilft dem OP. Ich stimme Ihrer Antwort zu. Auch das Resampling von Fällen ist dasselbe wie das, was ich Bootstrapping-Vektoren genannt habe.
Michael R. Chernick
Ich denke, einige unserer Kommentare wurden von einem Monitor gelöscht. Es kann sein, dass wir die Preise auf der Website nicht erwähnen sollten. Ich möchte nur sagen, dass ich Wiley und Amazon überprüft habe. Leider werden neue Bücher immer teurer. Auf der Wiley-Website habe ich die erste Ausgabe meines Bootstrap-Buches zu einem sehr niedrigen Preis gesehen. Das Buch ist vergriffen, daher nur gebraucht erhältlich und seit der zweiten Auflage nicht mehr gefragt. Wenn Sie sich andere vergleichbare technische Bücher ansehen, die neu verkauft werden, werden Sie wahrscheinlich feststellen, dass meine neuen Bücher mit den anderen übereinstimmen.
Michael R. Chernick
AFAIK nichts wurde gelöscht. Die obige Diskussion über Buchpreise ist für die Frage nicht wirklich relevant und wird wahrscheinlich nach einer Weile aus diesem Grund gelöscht, aber wir haben keine spezifische Richtlinie, die keine Erwähnung von Buchpreisen zulässt.
Scortchi - Monica wieder einsetzen
Da das betreffende Buch in der Antwort empfohlen wurde, scheinen mir Preisdiskussionen von Bedeutung zu sein.
JKP