Angenommen, wir haben einen Datensatz mit Punkten. Wir wollen eine lineare Regression durchführen, aber zuerst sortieren wir die Werte und die Werte unabhängig voneinander und bilden einen Datensatz . Gibt es eine sinnvolle Interpretation der Regression auf den neuen Datensatz? Hat das einen Namen?n X i Y i ( X i , Y j )
Ich stelle mir vor, dass dies eine dumme Frage ist, also entschuldige ich mich, ich bin nicht offiziell in Statistik ausgebildet. In meinen Augen zerstört dies unsere Daten vollständig und die Regression ist bedeutungslos. Aber mein Manager sagt, dass er "die meiste Zeit bessere Regressionen" bekommt, wenn er dies tut (hier bedeutet "besser" voraussagender). Ich habe das Gefühl, er täuscht sich.
EDIT: Vielen Dank für all Ihre netten und geduldigen Beispiele. Ich habe ihm die Beispiele von @ RUser4512 und @gung gezeigt und er bleibt standhaft. Er wird gereizt und ich werde erschöpft. Ich fühle mich niedergeschlagen. Ich werde wahrscheinlich bald nach anderen Jobs suchen.
quelle
Antworten:
Ich bin mir nicht sicher, was Ihr Chef unter "prädiktiver" versteht. Viele Menschen glauben fälschlicherweise , dass niedrigere Werte ein besseres / prädiktiveres Modell bedeuten. Das ist nicht unbedingt wahr (dies ist ein typisches Beispiel). Das unabhängige Sortieren beider Variablen im Voraus garantiert jedoch einen niedrigeren Wert. Auf der anderen Seite können wir die Vorhersagegenauigkeit eines Modells beurteilen, indem wir seine Vorhersagen mit neuen Daten vergleichen, die durch denselben Prozess generiert wurden. Ich mache das unten in einem einfachen Beispiel (mit ). pp p
R
Das Diagramm oben links zeigt die Originaldaten. Es gibt eine gewisse Beziehung zwischen und (die Korrelation beträgt nämlich etwa ). Das Diagramm oben rechts zeigt, wie die Daten aussehen, nachdem beide Variablen unabhängig voneinander sortiert wurden. Sie können leicht erkennen, dass die Stärke der Korrelation erheblich zugenommen hat (sie liegt jetzt bei ). In den unteren Darstellungen sehen wir jedoch, dass die Verteilung der Vorhersagefehler für das auf den ursprünglichen (unsortierten) Daten trainierte Modell viel näher bei . Der mittlere absolute Vorhersagefehler für das Modell, das die Originaldaten verwendet hat, beträgt , während der mittlere absolute Vorhersagefehler für das auf den sortierten Daten trainierte Modell beträgty .31 .99 0 1.1 1.98 y 68 %X y .31 .99 0 1.1 1,98 - fast doppelt so groß. Dies bedeutet, dass die Vorhersagen des sortierten Datenmodells viel weiter von den korrekten Werten entfernt sind. Das Diagramm im unteren rechten Quadranten ist ein Punktdiagramm. Es zeigt die Unterschiede zwischen dem Vorhersagefehler mit den Originaldaten und den sortierten Daten an. Auf diese Weise können Sie die beiden entsprechenden Vorhersagen für jede neue simulierte Beobachtung vergleichen. Blaue Punkte links sind Zeiten, in denen die ursprünglichen Daten näher am neuen Wert lagen , und rote Punkte rechts sind Zeiten, in denen die sortierten Daten bessere Vorhersagen lieferten. In der Fälle gab es genauere Vorhersagen aus dem Modell, die auf den ursprünglichen Daten beruhten . y 68 %
Inwieweit das Sortieren diese Probleme verursacht, hängt von der linearen Beziehung ab, die in Ihren Daten besteht. Wenn die Korrelation zwischen und bereits wäre, hätte die Sortierung keine Auswirkung und wäre daher nicht schädlich. Wenn andererseits die Korrelationy 1,0 - 1,0X y 1,0 - 1,0 würde die Sortierung die Beziehung vollständig umkehren und das Modell so ungenau wie möglich machen. Wenn die Daten ursprünglich vollständig unkorreliert wären, hätte die Sortierung eine mittlere, aber immer noch ziemlich große nachteilige Auswirkung auf die Vorhersagegenauigkeit des resultierenden Modells. Da Sie erwähnen, dass Ihre Daten normalerweise korreliert sind, habe ich den Verdacht, dass dies einen gewissen Schutz gegen die mit diesem Verfahren verbundenen Schäden bietet. Trotzdem ist es definitiv schädlich, zuerst zu sortieren. Um diese Möglichkeiten zu erkunden, können wir einfach den obigen Code mit unterschiedlichen Werten für
B1
(unter Verwendung des gleichen Startwerts für die Reproduzierbarkeit) erneut ausführen und die Ausgabe untersuchen:B1 = -5
:B1 = 0
:B1 = 5
:quelle
<-
manchmal, aber mein Ziel bei CV ist es, R-Code so nahe wie möglich am Pseudocode zu schreiben, damit er für Leute, die mit R. nicht vertraut sind, besser lesbar=
ist .Wenn Sie Ihren Chef überzeugen möchten, können Sie mit simulierten, zufälligen, unabhängigen Daten zeigen, was passiert . Mit R:x,y
Offensichtlich bieten die sortierten Ergebnisse eine viel schönere Regression. In Anbetracht des Prozesses, mit dem die Daten generiert wurden (zwei unabhängige Stichproben), ist es jedoch absolut unwahrscheinlich, dass eine zur Vorhersage der anderen verwendet werden kann.
quelle
Ihre Intuition ist richtig: Die unabhängig sortierten Daten haben keine verlässliche Bedeutung, da die Ein- und Ausgänge zufällig aufeinander abgebildet werden und nicht die beobachtete Beziehung.
Es besteht eine (gute) Chance, dass die Regression der sortierten Daten gut aussieht, sie ist jedoch im Kontext bedeutungslos.
Intuitives Beispiel: Nehmen Sie einen Datensatz für eine Population an. Das Diagramm der unverfälschten Daten würde wahrscheinlich eher wie eine logarithmische oder Potenzfunktion aussehen: schnellere Wachstumsraten für Kinder, die sich für spätere Jugendliche verlangsamen, und "asymptotisch" die maximale Körpergröße für junge Erwachsene und ältere erreichen.(X=age,Y=height)
Wenn wir in aufsteigender Reihenfolge sortieren , wird der Graph wahrscheinlich nahezu linear sein. Die Vorhersagefunktion ist also, dass die Menschen ihr ganzes Leben lang größer werden. Ich würde kein Geld auf diesen Vorhersagealgorithmus setzen.x,y
quelle
Lassen Sie uns das wirklich klar und einfach machen. Angenommen, ich führe ein Experiment durch, bei dem ich 1 Liter Wasser in einem standardisierten Behälter und die im Behälter verbleibende Wassermenge als Funktion der Zeit , des Wasserverlusts durch Verdunstung, betrachte:Vi ti
Angenommen, ich erhalte die folgenden Maße in Stunden bzw. Litern: Dies sind ganz offensichtlich perfekt korrelierte (und hypothetische) Daten. Wenn ich jedoch die Zeit- und Volumenmessungen sortieren würde, würde ich Und die Schlussfolgerung aus diesem sortierten Datensatz ist, dass mit zunehmender Zeit das Wasservolumen zunimmt und dass ab 1 Liter Wasser nach 5 Stunden Wartezeit mehr als 1 Liter Wasser anfällt. Ist das nicht bemerkenswert? Die Schlussfolgerung steht nicht nur im Gegensatz zu den ursprünglichen Daten, sondern lässt auch darauf schließen, dass wir eine neue Physik entdeckt haben!(ti,Vi)
quelle
Es ist eine echte Kunst und setzt ein echtes Verständnis der Psychologie voraus, um einige Menschen von dem Fehler ihres Weges überzeugen zu können. Neben all den hervorragenden Beispielen oben ist es manchmal eine nützliche Strategie, zu zeigen, dass der Glaube einer Person zu einer Inkonsistenz mit sich selbst führt. Oder probieren Sie diesen Ansatz. Finden Sie heraus, woran Ihr Chef fest glaubt, wie die Leistung von Personen bei Aufgabe Y in keinem Zusammenhang mit dem Wert eines Attributs X steht, das sie besitzen. Zeigen Sie, wie der eigene Ansatz Ihres Chefs zu einer starken Assoziation zwischen X und Y führen würde. Profitieren Sie von politischen, rassischen und religiösen Überzeugungen.
Gesichtsinvalidität hätte reichen sollen. Was für ein störrischer Chef. In der Zwischenzeit auf der Suche nach einem besseren Job. Viel Glück.
quelle
Noch ein Beispiel. Stellen Sie sich vor, Sie haben zwei Variablen, eine, die mit dem Verzehr von Schokolade zusammenhängt, und eine, die mit dem allgemeinen Wohlbefinden zusammenhängt. Sie haben zwei Beispiele und Ihre Daten sehen wie folgt aus:
Wie ist das Verhältnis von Schokolade und Glück auf der Grundlage Ihrer Probe? Und nun ändern Sie die Reihenfolge einer der Spalten - wie ist die Beziehung nach dieser Operation?
Beachten Sie, dass manchmal tatsächlich interessiert wir bei der Veränderung der Reihenfolge der Fälle sind, tun wir dies in Resampling - Methoden . Zum Beispiel können wir absichtlich Beobachtungen mehrmals mischen, um etwas über die Nullverteilung unserer Daten zu lernen (wie würden unsere Daten aussehen, wenn es keine paarweisen Beziehungen gäbe), und als nächstes können wir vergleichen, ob unsere realen Daten irgendwie besser sind als die zufälligen schlurfte. Was Ihr Manager tut, ist genau das Gegenteil - er zwingt die Beobachtungen absichtlich dazu, eine künstliche Struktur zu haben, wo es keine Struktur gab, was zu falschen Korrelationen führt.
quelle
Ein einfaches Beispiel, das Ihr Manager vielleicht verstehen könnte:
Angenommen, Sie haben Coin Y und Coin X und Sie werfen jeweils 100 Mal um. Dann möchten Sie vorhersagen, ob das Erhalten eines Kopfes mit Coin X (IV) die Chance erhöhen kann, einen Kopf mit Coin Y (DV) zu erhalten.
Ohne Sortierung ist die Beziehung keine, da das Ergebnis von Coin X das Ergebnis von Coin Y nicht beeinflussen sollte. Mit dem Sortieren wird die Beziehung nahezu perfekt.
Wie ist es sinnvoll zu folgern, dass Sie eine gute Chance haben, einen Kopf auf einen Münzwurf zu bekommen, wenn Sie gerade einen Kopf mit einer anderen Münze geworfen haben?
quelle
Diese Technik ist wirklich erstaunlich. Ich finde alle möglichen Beziehungen, die ich nie vermutet habe. Ich hätte zum Beispiel nicht vermutet, dass die Zahlen, die in der Powerball-Lotterie auftauchen, die GEFORDERT ist, zufällig sind und tatsächlich in hohem Maße mit dem Eröffnungskurs der Apple-Aktie am selben Tag korrelieren! Leute, ich denke, wir werden bald viel Geld verdienen. :)
Hmm, scheint keine signifikante Beziehung zu haben. ABER mit der neuen, verbesserten Technik:
HINWEIS: Dies ist keine ernsthafte Analyse. Zeigen Sie Ihrem Manager einfach, dass er JEDE zwei Variablen signifikant in Beziehung setzen kann, wenn Sie beide sortieren.
quelle
Viele gute Gegenbeispiele hier. Lassen Sie mich nur einen Absatz über den Kern des Problems hinzufügen.
Lassen Sie mich einen Absatz darüber hinzufügen, warum es auch "funktioniert".
quelle
Tatsächlich testet der beschriebene Test (dh sortieren Sie die X-Werte und die Y-Werte unabhängig voneinander und regressieren Sie sie gegeneinander) etwas, vorausgesetzt, dass die (X, Y) als unabhängige Paare aus einer bivariaten Verteilung abgetastet werden. Es ist nur kein Test dessen, was Ihr Manager testen möchte. Im Wesentlichen wird die Linearität eines QQ-Diagramms überprüft, indem die Randverteilung der Xs mit der Randverteilung der Ys verglichen wird. Insbesondere werden die 'Daten' nahe einer geraden Linie liegen, wenn die Dichte der Xs (f (x)) auf diese Weise mit der Dichte der Ys (g (y)) in Beziehung gesetzt wird:
quelle
Seltsam, dass das offensichtlichste Gegenbeispiel in seiner einfachsten Form immer noch nicht unter den Antworten vorhanden ist.
Dies ist eine Art "direkte Umkehrung" des Musters, das Sie möglicherweise hier finden möchten.
quelle
Du hast recht. Ihr Manager würde "gute" Ergebnisse finden! Aber sie sind bedeutungslos. Was Sie erhalten, wenn Sie sie unabhängig sortieren, ist, dass die beiden Werte ähnlich zunehmen oder abnehmen, und dies ergibt den Anschein eines guten Modells. Die beiden Variablen wurden jedoch ihrer tatsächlichen Beziehung enthoben, und das Modell ist falsch.
quelle
Die lineare Regression ist normalerweise weniger sinnvoll (es gibt Ausnahmen, siehe andere Antworten). Die Geometrie der Schwänze und die Verteilung der Fehler zeigen jedoch, wie weit die Verteilungen voneinander entfernt sind.
quelle
Ich habe eine einfache Vorstellung, warum dies eigentlich eine gute Idee ist, wenn die Funktion monoton ist :
PS: Ich finde es erstaunlich, wie eine scheinbar einfache Frage zu interessanten neuen Wegen führen kann, Standards zu überdenken. Bitte danke Chef!
quelle
Angenommen, Sie haben diese Punkte auf einem Kreis mit Radius 5. Sie berechnen die Korrelation:
Dann sortieren Sie Ihre x- und y-Werte und führen die Korrelation erneut durch:
Durch diese Manipulation ändern Sie einen Datensatz mit einer Korrelation von 0,0 in einen Datensatz mit einer Korrelation von 1,0. Das ist ein Problem.
quelle
Lassen Sie mich hier Devil's Advocate spielen. Ich denke, viele Antworten haben überzeugend gezeigt, dass das Vorgehen des Chefs grundlegend falsch ist. Gleichzeitig biete ich ein Gegenbeispiel, das zeigt, dass der Chef tatsächlich gesehen hat, wie sich die Ergebnisse durch diese fehlerhafte Transformation verbessert haben.
Ich denke, dass das Anerkennen, dass dieses Verfahren für den Chef "funktioniert" hat, ein überzeugenderes Argument sein könnte: Sicher, es hat funktioniert, aber nur unter diesen glücklichen Umständen, die normalerweise nicht funktionieren. Dann können wir - wie in der hervorragend akzeptierten Antwort - zeigen, wie schlimm es sein kann, wenn wir kein Glück haben. Welches ist die meiste Zeit. Dem Chef isoliert zu zeigen, wie schlimm es sein kann , kann ihn nicht überzeugen, weil er vielleicht einen Fall gesehen hat, in dem es die Dinge verbessert, und zu der Annahme gelangt , dass unser ausgefallenes Argument irgendwo einen Fehler haben muss.
Ich habe diese Daten online gefunden, und es scheint, dass die Regression durch die unabhängige Sortierung von X und Y verbessert wird, weil: a) die Daten in hohem Maße positiv korreliert sind und b) OLS mit extremen Werten (hoch) nicht gut zurechtkommt Ausreißer. Größe und Gewicht haben eine Korrelation von 0,19 mit dem eingeschlossenen Ausreißer, 0,77 mit dem ausgeschlossenen Ausreißer und 0,78 mit X und Y, die unabhängig voneinander sortiert sind.
Daher scheint es mir, dass das Regressionsmodell für diesen Datensatz durch die unabhängige Sortierung (schwarze gegen rote Linie im ersten Diagramm) verbessert wird und aufgrund des jeweiligen Datensatzes eine sichtbare Beziehung besteht (schwarze gegen rote Linie im zweiten Diagramm) Hoch (positiv) korreliert und mit der richtigen Art von Ausreißern, die die Regression stärker beeinträchtigen als das Mischen, das auftritt, wenn Sie x und y unabhängig voneinander sortieren.
Auch hier macht es keinen Sinn, unabhängig zu sortieren, und es ist auch hier nicht die richtige Antwort. Nur, dass der Chef vielleicht so etwas gesehen hat, das unter den richtigen Umständen funktioniert hat.
quelle
Wenn er die Variablen als monoton vorausgewählt hat, ist sie tatsächlich ziemlich robust. Google "falsche lineare Modelle" und "Robin Dawes" oder "Howard Wainer". Dawes und Wainer sprechen über alternative Arten der Koeffizientenauswahl. John Cook hat eine kurze Kolumne ( http://www.johndcook.com/blog/2013/03/05/robustness-of-equal-weights/ ).
quelle
Ich habe darüber nachgedacht und dachte, dass es hier eine Struktur gibt, die auf Auftragsstatistiken basiert. Ich habe nachgesehen und es scheint, als sei Manager's Mo nicht so verrückt, wie es sich anhört
Ordnungsstatistik-Korrelationskoeffizient als neuartige Assoziationsmessung mit Anwendungen für die Biosignalanalyse
http://www.researchgate.net/profile/Weichao_Xu/publication/3320558_Order_Statistics_Correlation_Coefficient_as_a_Novel_Association_Measurement_With_Applications_to_Biosignal_Analysis/links/0912f507ed6f94a3c6000000.pdf
quelle