Beim statistischen Lernen wird implizit oder explizit immer davon ausgegangen, dass die Trainingsmenge aus Eingabe- / Antworttupeln besteht , die unabhängig voneinander aus derselben gemeinsamen Verteilung gezogen werden mit
und die Beziehung, die wir durch einen bestimmten Lernalgorithmus erfassen wollen. Mathematisch lautet diese Annahme:
Ich denke, wir können uns alle einig sein, dass diese Annahme in der Praxis selten erfüllt ist. Sehen Sie sich diese verwandte SE-Frage und die weisen Kommentare von @Glen_b und @Luca an.
Meine Frage lautet daher:
Wo genau wird die iid-Annahme in der Praxis kritisch?
[Kontext]
Ich frage dies, weil ich mir viele Situationen vorstellen kann, in denen eine derart strenge Annahme nicht erforderlich ist, um ein bestimmtes Modell zu trainieren (z. B. lineare Regressionsmethoden), oder zumindest eine, die die iid-Annahme umgeht und robuste Ergebnisse erzielt. Tatsächlich bleiben die Ergebnisse in der Regel gleich, vielmehr werden sich die Schlussfolgerungen ändern (z. B. heteroskedastische und Autokorrelations-konsistente HAC-Schätzer in der linearen Regression) Finite-Sample-Verhalten des OLS-Schätzers zur Berücksichtigung der Verletzung der Gauß-Markov-Annahmen).
Ich vermute daher, dass die iid-Annahme nicht erforderlich ist, um einen bestimmten Lernalgorithmus zu trainieren, sondern um zu gewährleisten, dass Techniken wie die Kreuzvalidierung tatsächlich verwendet werden können, um ein zuverlässiges Maß für die Fähigkeit des Modells zur Verallgemeinerung abzuleiten , das ist das einzige, was uns am Ende des Tages am statistischen Lernen interessiert, weil es zeigt, dass wir tatsächlich aus den Daten lernen können. Intuitiv kann ich in der Tat verstehen, dass die Verwendung der Kreuzvalidierung für abhängige Daten optimistisch beeinflusst werden kann (wie in diesem interessanten Beispiel veranschaulicht / erläutert ).
Für mich hat iid also nichts mit dem Training eines bestimmten Modells zu tun, sondern mit der Generalisierbarkeit dieses Modells . Dies scheint mit einem Artikel übereinzustimmen, den ich von Huan Xu et al. Gefunden habe, siehe "Robustheit und Generalisierbarkeit für markovianische Proben" hier .
Würden Sie dem zustimmen?
[Beispiel]
Wenn dies die Diskussion helfen kann, sollten Sie das Problem des LASSO Algorithmus mit einer Smart Auswahl unter auszuführen Merkmalen gegeben N Trainingsproben ( X i , y i ) mit ∀ i = 1 , . . . , N Wir können ferner annehmen, dass:
- Die Eingaben sind abhängig, was zu einer Verletzung der iid-Annahme führt (z. B. beobachten wir für jedes Merkmal eine Punkt-Zeitreihe, wodurch eine zeitliche Autokorrelation eingeführt wird).j=1,. . ,PN
- Die bedingten Antworten sind unabhängig.
- Wir haben .
Inwiefern kann die Verletzung der iid-Annahme in diesem Fall ein Problem darstellen, wenn wir vorhaben, den LASSO-Bestrafungskoeffizienten mithilfe eines Kreuzvalidierungsansatzes (für den vollständigen Datensatz) zu bestimmen + eine verschachtelte Kreuzvalidierung zu verwenden um ein Gefühl für den Generalisierungsfehler dieser Lernstrategie zu bekommen (wir können die Diskussion über die inhärenten Vor- und Nachteile des LASSO beiseite lassen, es sei denn, dies ist nützlich).
quelle
Antworten:
Die iid-Annahme über die Paare , i = 1 , … , N , wird häufig in der Statistik und beim maschinellen Lernen gemacht. Manchmal aus gutem Grund, manchmal aus Bequemlichkeit und manchmal nur, weil wir normalerweise diese Annahme machen. Um zufriedenstellend zu beantworten, ob die Annahme wirklich notwendig ist und was die Konsequenzen sind, wenn diese Annahme nicht gemacht wird, würde ich leicht ein Buch schreiben (falls Sie jemals so etwas leicht machen). Hier werde ich versuchen, einen kurzen Überblick über die meiner Meinung nach wichtigsten Aspekte zu geben.( Xich, yich) i = 1 , … , N
Eine Grundannahme
Nehmen wir an, wir wollen ein Wahrscheinlichkeitsmodell von gegebenem X lernen , das wir p ( y ∣ X ) nennen . Wir machen keine Annahmen über dieses Modell zu einem Priorat, aber wir werden die minimale Annahme treffen, dass ein solches Modell so existiert, dassy X p ( y∣ X )
Bemerkenswert an dieser Annahme ist, dass die bedingte Verteilung von von i nur über X i abhängt . Dies macht das Modell nützlich, z. B. für die Vorhersage. Die Annahme gilt als Konsequenz des identisch verteilten Teils unter der Annahme iid, ist aber schwächer, weil wir keine Annahmen über die X i machen .yich ich Xich Xich
Im Folgenden wird der Schwerpunkt hauptsächlich auf der Rolle der Unabhängigkeit liegen.
Modellieren
Es gibt zwei Hauptansätze, um ein Modell von gegebenem X zu lernen . Ein Ansatz wird als diskriminative Modellierung und der andere als generative Modellierung bezeichnet.y X
Für beide Modellierungsansätze wird die Arbeitsmodellierungsannahme verwendet, um Lernmethoden (oder Schätzer) abzuleiten oder vorzuschlagen. Dies könnte durch Maximierung der (bestraften) Log-Wahrscheinlichkeit, Minimierung des empirischen Risikos oder durch Verwendung von Bayes-Methoden geschehen. Auch wenn die Annahme der Arbeitsmodellierung falsch ist, kann die resultierende Methode eine sinnvolle Anpassung von liefern .p ( y∣ X )
Einige Techniken, die zusammen mit der diskriminativen Modellierung verwendet werden, z. B. Bagging (Bootstrap-Aggregation), passen viele Modelle an Daten an, die zufällig aus dem Datensatz entnommen wurden. Ohne die iid-Annahme (oder Austauschbarkeit) weisen die neu abgetasteten Datensätze keine gemeinsame Verteilung auf, die der des Originaldatensatzes ähnelt. Jede Abhängigkeitsstruktur wurde durch das Resampling "durcheinander gebracht". Ich habe nicht tief darüber nachgedacht, aber ich verstehe nicht, warum das die Methode als Methode zum Lernen von unbedingt brechen sollte . Zumindest nicht für Methoden, die auf den Annahmen zur Arbeitsunabhängigkeit beruhen. Ich bin froh, dass ich mich hier geirrt habe.p ( y∣ X )
Konsistenz- und Fehlergrenzen
Eine zentrale Frage für alle Lernmethoden ist, ob sich daraus Modelle in der Nähe von . Es gibt eine umfangreiche theoretische Literatur zu Statistik und maschinellem Lernen, die sich mit Konsistenz und Fehlergrenzen befasst. Ein Hauptziel dieser Literatur ist zu beweisen , dass das gelernte Modell zu schließen ist p ( y | X ) , wenn N groß ist. Konsistenz ist eine qualitative Zusicherung, während Fehlergrenzen eine (halb-) explizite quantitative Kontrolle der Nähe ermöglichen und Konvergenzraten angeben.p ( y∣ X ) p ( y∣ X ) N
Die theoretischen Ergebnisse beruhen alle auf Annahmen über die gemeinsame Verteilung der Beobachtungen im Datensatz. Häufig werden die oben genannten Annahmen zur Arbeitsmodellierung getroffen (dh bedingte Unabhängigkeit für die diskriminative Modellierung und iid für die generative Modellierung). Konsistenz und Fehlergrenzen erfordern für die diskriminative Modellierung, dass die bestimmte Bedingungen erfüllen. In der klassischen Regression ist eine solche Bedingung, dass 1Xich fürN→∞, wobeiXdie Entwurfsmatrix mit den ZeilenX T i bezeichnet . Schwächere Bedingungen können für die Konsistenz ausreichen. In spärlichen Lernen ist ein weiterer solcher Zustand der eingeschränkte Eigenwert Zustand, siehe zBvon den verwendeten Bedingungen zu oracle Ergebnisse für das Lasso zu beweisen. Die iid-Annahme zusammen mit einigen technischen Verteilungsannahmen impliziert, dass einige dieser ausreichenden Bedingungen mit großer Wahrscheinlichkeit erfüllt sind, und daher kann sich die iid-Annahme als ausreichende, aber nicht notwendige Annahme erweisen, um Konsistenz und Fehlergrenzen für die diskriminative Modellierung zu erhalten.1NXTX →Σ N→ ∞ X XTich
Die Annahme einer funktionierenden Modellierung der Unabhängigkeit kann für jeden der Modellierungsansätze falsch sein. Als grobe Faustregel kann man immer noch Konsistenz erwarten, wenn die Daten aus einem ergodischen Prozess stammen , und man kann immer noch einige Fehlergrenzen erwarten, wenn der Prozess ausreichend schnell gemischt wird . Eine genaue mathematische Definition dieser Begriffe würde uns zu weit von der Hauptfrage entfernen. Es genügt anzumerken, dass es neben der iid-Annahme Abhängigkeitsstrukturen gibt, für die nachgewiesen werden kann, dass die Lernmethoden funktionieren, da gegen unendlich tendiert.N
Wenn wir detailliertere Kenntnisse über die Abhängigkeitsstruktur haben, können wir die für die Modellierung verwendete Annahme der Arbeitsunabhängigkeit durch ein Modell ersetzen, das auch die Abhängigkeitsstruktur erfasst. Dies wird häufig für Zeitreihen durchgeführt. Ein besseres Arbeitsmodell kann zu einer effizienteren Methode führen.
Modellbewertung
Anstatt zu beweisen , dass das Lernverfahren ein Modell nahe an gibt es von großem praktischem Wert ist eine (relative) Beurteilung „ wie gut ein gelehrtes Modell“ zu erhalten. Solche Bewertungsergebnisse sind für zwei oder mehr gelernte Modelle vergleichbar, liefern jedoch keine absolute Bewertung der Nähe eines gelernten Modells zu p ( y ∣ X ) . Schätzungen der Bewertungsergebnisse werden in der Regel empirisch auf der Grundlage der Aufteilung des Datensatzes in einen Trainings- und einen Testdatensatz oder durch Kreuzvalidierung berechnet.p ( y∣ X ) p ( y∣ X )
Wie beim Absacken wird eine zufällige Aufteilung des Datensatzes jede Abhängigkeitsstruktur "durcheinander bringen". Für Methoden, die auf den Annahmen zur Arbeitsunabhängigkeit basieren, sollten jedoch Ergodizitätsannahmen, die schwächer als iid sind, ausreichen, damit die Schätzungen für die Bewertung angemessen sind, obwohl Standardfehler bei diesen Schätzungen sehr schwierig zu finden sein werden.
[ Bearbeiten: Die Abhängigkeit zwischen den Variablen führt zu einer Verteilung des gelernten Modells, die sich von der Verteilung unter der iid-Annahme unterscheidet. Die durch Kreuzvalidierung erzeugte Schätzung hängt offensichtlich nicht mit dem Generalisierungsfehler zusammen. Wenn die Abhängigkeit stark ist, handelt es sich höchstwahrscheinlich um eine schlechte Schätzung.]
Zusammenfassung (tl; dr)
All dies unter der Annahme, dass es ein Modell mit fester bedingter Wahrscheinlichkeit gibt, . Daher kann es keine Trends oder plötzlichen Änderungen in der bedingten Verteilung geben, die nicht von X erfasst werden .p ( y∣ X ) X
Beim Erlernen eines Modells von gegebenem X spielt die Unabhängigkeit eine Rolle alsy X
Genau zu verstehen, welche Alternativen zu iid auch ausreichen, ist nicht trivial und zum Teil ein Forschungsgegenstand.
quelle
Was iid Annahme Staaten ist , dass Zufallsvariablen sind unabhängig und identisch verteilt . Sie können formal definieren, was es bedeutet, aber informell heißt es, dass alle Variablen unabhängig voneinander die gleiche Art von Informationen liefern (Sie können auch über die damit zusammenhängende Austauschbarkeit nachlesen ).
Lassen Sie uns von den abstrakten Ideen einen Moment zu einem konkreten Beispiel springen: In den meisten Fällen können Ihre Daten in einer Matrix gespeichert werden, wobei die Beobachtungen zeilenweise und die Variablen spaltenweise erfolgen. Wenn Sie davon ausgehen, dass Ihre Daten id sind , bedeutet dies für Sie, dass Sie sich nur um die Beziehungen zwischen Spalten und nicht um die Beziehungen zwischen Zeilen kümmern müssen. Wenn Sie sich um beides kümmern würden, würden Sie die Abhängigkeit von Spalten und Zeilen von Zeilen modellieren, dh alles von allem. Es ist sehr schwierig, Vereinfachungen vorzunehmen und ein statistisches Modell für alles zu erstellen, das von allem abhängt.
Sie haben zu Recht bemerkt, dass die Austauschbarkeit es uns ermöglicht, Methoden wie Cross-Validation oder Bootstrap zu verwenden, aber auch den zentralen Grenzwertsatz zu verwenden und Vereinfachungen für die Modellierung hilfreich zu machen (spaltenweise zu denken) ).
Wie Sie im LASSO-Beispiel bemerkt haben, wird die Annahme der Unabhängigkeit häufig zu einer bedingten Unabhängigkeit gemildert . Auch in diesem Fall benötigen wir unabhängige und identisch verteilte "Teile". Ähnliche, weichere Annahmen werden häufig für Zeitreihenmodelle gemacht, die Sie erwähnt haben und die Stationarität annehmen (es besteht also eine Abhängigkeit, aber es gibt auch eine gemeinsame Verteilung, und die Reihen stabilisieren sich im Laufe der Zeit - wieder "iid" -Teile). Es geht darum, eine Reihe ähnlicher Dinge zu beobachten, die dieselbe Vorstellung von einem allgemeinen Phänomen haben. Wenn wir eine Reihe von unterschiedlichen und abhängigen Dingen haben, können wir keine Verallgemeinerungen vornehmen.
Was Sie beachten müssen, ist, dass dies nur eine Annahme ist, wir sind nicht streng. Es geht darum, genug Dinge zu haben, die alle unabhängig voneinander ähnliche Informationen über ein gemeinsames Phänomen vermitteln. Wenn die Dinge sich gegenseitig beeinflussen würden, würden sie offensichtlich ähnliche Informationen übermitteln, sodass sie nicht so nützlich wären.
Stellen Sie sich vor, Sie wollten in einem Klassenzimmer etwas über die Fähigkeiten von Kindern lernen, und Sie geben ihnen einige Tests. Sie können die Testergebnisse nur dann als Indikator für die Fähigkeiten von Kindern verwenden, wenn sie diese unabhängig voneinander selbst durchgeführt haben. Wenn sie interagieren würden, würden Sie wahrscheinlich die Fähigkeiten des klügsten oder einflussreichsten Kindes messen. Es bedeutet nicht, dass Sie davon ausgehen müssen, dass es keinerlei Wechselwirkung oder Abhängigkeit zwischen Kindern gab, sondern dass sie die Tests alleine durchgeführt haben. Die Kinder müssen auch "identisch verteilt" sein, damit sie nicht aus verschiedenen Ländern kommen, verschiedene Sprachen sprechen, in verschiedenen Altersgruppen sein können, da es schwierig wird, die Ergebnisse zu interpretieren (vielleicht haben sie die Fragen nicht verstanden und zufällig beantwortet). Wenn Sie davon ausgehen können, dass Ihre Daten iid sindDann können Sie sich auf die Erstellung eines allgemeinen Modells konzentrieren. Sie können mit Nicht- ID- Daten umgehen , müssen sich dann aber viel mehr Gedanken über "Rauschen" in Ihren Daten machen.
Neben Ihrer Hauptfrage stellen Sie auch Fragen zur Kreuzvalidierung mit Non- ID- Daten. Während Sie die Bedeutung der iid- Annahme zu unterschätzen scheinen, übertreiben Sie gleichzeitig die Probleme, die sich aus der Nichteinhaltung dieser Annahme für die Kreuzvalidierung ergeben. Es gibt mehrere Möglichkeiten, wie wir mit solchen Daten umgehen können, wenn wir Resampling-Methoden wie Bootstrap oder Cross-Validation verwenden. Wenn Sie sich mit Zeitreihen beschäftigen, können Sie nicht davon ausgehen, dass die Werte unabhängig sind. Daher wäre es eine schlechte Idee, den zufälligen Bruchteil der Werte zu verwenden, da die autokorrelierte Struktur der Daten ignoriert wird. Aus diesem Grund verwenden wir bei Zeitreihen in der Regel eine Kreuzvalidierung, die einen Schritt voraus istDas heißt, Sie nehmen an der Serie teil, um den nächsten Wert vorherzusagen (nicht für die Modellierung verwendet). Wenn Ihre Daten über eine Clusterstruktur verfügen , können Sie auch ganze Cluster untersuchen , um die Art der Daten zu erhalten. So wie bei der Modellierung können wir auch bei der Kreuzvalidierung mit Non- ID- Sness umgehen , aber wir müssen unsere Methoden an die Art der Daten anpassen, da Methoden, die für ID- Daten entwickelt wurden, in solchen Fällen nicht anwendbar sind.
quelle
Der einzige Ort, an dem man iid ignorieren kann, sind Statistikkurse für Studenten und Kurse für maschinelles Lernen. Sie haben geschrieben, dass:
Dies gilt nur, wenn die Funktionsform der Modelle als grundsätzlich korrekt vorausgesetzt wird. Eine solche Annahme ist jedoch noch weniger plausibel als iid.
Es gibt mindestens zwei Möglichkeiten, wie iid für die angewandte Modellierung von entscheidender Bedeutung ist:
Dies ist eine explizite Annahme bei den meisten statistischen Schlussfolgerungen, wie Sie in Ihrer Frage bemerken. In den meisten realen Modellen müssen wir zu einem bestimmten Zeitpunkt Inferenzen verwenden, um die Spezifikation zu testen, z. B. während der Variablenauswahl und des Modellvergleichs. Obwohl die jeweilige Modellanpassung trotz Verstößen gegen IID in Ordnung sein kann, können Sie trotzdem das falsche Modell auswählen.
Ich finde, dass das Durchdenken von Verstößen gegen iid eine nützliche Methode ist, um über den Mechanismus der Datengenerierung nachzudenken, was mir wiederum hilft, über die geeignete Spezifikation eines Modells von vornherein nachzudenken. Zwei Beispiele:
Natürlich habe ich es in so ziemlich jedem Modell, das ich jemals gebaut habe, nicht geschafft, die Verteilung der Residuen auf irgendetwas zu reduzieren, das einer wirklich normalen Verteilung nahekommt. Trotzdem gewinne ich immer viel, wenn ich mich wirklich sehr anstrenge, es zu tun.
quelle
Meiner Meinung nach gibt es zwei eher banale Gründe, warum die iid-Annahme für das statistische Lernen (oder für Statistiken im Allgemeinen) wichtig ist.
Viele Hintergründe der Mathematik hängen von dieser Annahme ab. Wenn Sie nachweisen möchten, dass Ihre Lernmethode tatsächlich für mehr als einen Datensatz funktioniert, wird diese Annahme irgendwann zutage treten. Es ist möglich, dies zu vermeiden, aber die Mathematik wird um ein Vielfaches schwieriger.
Wenn Sie etwas aus Daten lernen möchten, müssen Sie davon ausgehen, dass es etwas zu lernen gibt. Lernen ist unmöglich, wenn jeder Datenpunkt durch einen anderen Mechanismus erzeugt wird. Man muss also davon ausgehen, dass etwas einen bestimmten Datensatz vereinheitlicht. Wenn wir davon ausgehen, dass die Daten zufällig sind, handelt es sich natürlich um eine Wahrscheinlichkeitsverteilung, da die Wahrscheinlichkeitsverteilung alle Informationen über die Zufallsvariable umfasst.
quelle
Ich möchte betonen, dass die Daten unter Umständen nicht eindeutig sind und statistisches Lernen weiterhin möglich ist. Es ist entscheidend, ein identifizierbares Modell für die gemeinsame Verteilung aller Beobachtungen zu haben. Wenn die Beobachtungen gleich sind, ergibt sich diese gemeinsame Verteilung leicht aus der Randverteilung einzelner Beobachtungen. In einigen Fällen wird die gemeinsame Verteilung jedoch direkt angegeben, ohne auf eine marginale Verteilung zurückzugreifen.
quelle