Wie kann ich meine Analyse der Auswirkungen der Reputation auf die Stimmabgabe verbessern?

15

Kürzlich hatte ich einige Analysen über die Auswirkungen von Reputation auf Upvotes durchgeführt (siehe Blog-Post ) und anschließend einige Fragen zu möglicherweise aufschlussreicheren (oder angemesseneren) Analysen und Grafiken.

Also ein paar Fragen (und zögern Sie nicht, auf irgendjemanden zu antworten und die anderen zu ignorieren):

  1. In seiner aktuellen Inkarnation habe ich die Postnummer nicht zentriert gemeint. Ich denke, dies führt zu einem falschen Auftreten einer negativen Korrelation im Streudiagramm, da es mehr Posts am unteren Ende der Postanzahl gibt (Sie sehen, dass dies nicht im Jon Skeet-Panel geschieht, sondern nur bei den sterblichen Benutzern Panel). Ist es nicht angebracht, die Post-Nummer nicht mittig zu zentrieren (da ich die Punktzahl pro Benutzer-Durchschnittspunktzahl zentriert habe)?

  2. Aus den Diagrammen sollte ersichtlich sein, dass die Punktzahl stark nach rechts geneigt ist (und die mittlere Zentrierung dies nicht geändert hat). Beim Anpassen einer Regressionsgeraden passte ich sowohl lineare Modelle als auch ein Modell unter Verwendung des Huber-White-Sandwichs an, dessen Fehler (über rlmim MASS R-Paket ) keinen Unterschied bei den Steigungsschätzungen machten. Hätte ich eine Transformation der Daten anstelle einer robusten Regression in Betracht ziehen sollen? Beachten Sie, dass bei jeder Transformation die Möglichkeit von 0 und negativen Werten berücksichtigt werden muss. Oder hätte ich anstelle von OLS ein anderes Modell für die Zähldaten verwenden sollen?

  3. Ich glaube, dass die letzten beiden Grafiken im Allgemeinen verbessert werden könnten (und auch mit verbesserten Modellierungsstrategien zusammenhängen). Meiner Meinung nach würde ich vermuten, dass Reputationseffekte schon sehr früh in der Geschichte eines Plakats erkannt werden (ich nehme an, wenn dies zutrifft, werden diese möglicherweise überdacht) Beiträge "anstelle von" Ruf nach Gesamtpunktzahl "Effekte). Wie kann ich eine Grafik erstellen, um zu demonstrieren, ob dies wahr ist, während das Überzeichnen berücksichtigt wird? Ich dachte, ein guter Weg, dies zu demonstrieren, wäre, ein Modell der Form zu erstellen.

Y=β0+β1(X1)+α1(Z1)+α2(Z2)αk(Zk)+γ1(Z1X1)γk(ZkX1)+ϵ

wobei das ist (die gleiche wie in den aktuellen Streudiagrammen ist), X 1 die ist , und die Z 1Z k sind Dummy - Variablen einen beliebigen Bereich von Postzahlen (zum Beispiel repräsentieren Z 1 equals , wenn die Postnummer ist , Z 2 ist gleich, wenn die Post-Nummer usw. ist). β 0 und ϵ sind der Hauptabschnitt bzw. der Fehlerterm. Dann würde ich einfach das geschätzte γ untersuchenYscore - (mean score per user)X1post numberZ1ZkZ111 through 25Z2126 through 50β0ϵγSteigungen, um zu bestimmen, ob Reputationseffekte zu Beginn eines Posterverlaufs aufgetreten sind (oder grafisch angezeigt werden). Ist das ein vernünftiger (und angemessener) Ansatz?

Es scheint beliebt zu sein, Streudiagramme wie diese mit einer Art nichtparametrischer Glättungslinie zu versehen (z. B. Löss oder Splines), aber meine Versuche mit Splines ergaben keine aufschlussreichen Ergebnisse (alle Hinweise auf positive Effekte waren zu Beginn der Postergeschichte gering und verhalten auf die Anzahl der Keile, die ich eingeschlossen habe). Ist mein Modellierungsansatz vernünftiger als Splines, da ich die Hypothese habe, dass die Effekte früh auftreten?

Beachten Sie auch, dass ich all diese Daten bereits ausgegraben habe. Es gibt jedoch noch viele andere Communities, die untersucht werden müssen (und einige wie Superuser und Serverfault haben ähnlich große Beispiele, aus denen Sie ziehen können) Analyse, dass ich eine Hold-out-Stichprobe verwende, um eine Beziehung zu untersuchen.

Andy W
quelle
Ich habe mir zur Zeit einige Notizen zu meiner ersten Frage gemacht, die hier zu finden sind . Ich bin mir im Moment nicht sicher, ob ich dies einfach als Antwort auf meine eigene Frage posten oder eine separate Frage öffnen soll (da dies hauptsächlich auf Datenvisualisierung abzielt). Aber zögern Sie nicht, mir hier oder im Chatroom einen Kommentar zum Google-Dokument zu hinterlassen .
Andy W

Antworten:

14

Dies ist ein mutiger Versuch, aber allein mit diesen Daten wird es schwierig oder unmöglich sein, Ihre Forschungsfrage bezüglich der "Auswirkung des Ansehens auf die Stimmabgaben" zu beantworten. Das Problem besteht darin, die Auswirkungen anderer Phänomene zu trennen, die ich zusammen mit kurzen Hinweisen auf ihre Bewältigung aufführe.

  • Lerneffekte . Wenn der Ruf steigt, steigt die Erfahrung; Mit zunehmender Erfahrung erwarten wir von einer Person, dass sie bessere Fragen und Antworten stellt. Da sich ihre Qualität verbessert, erwarten wir mehr Stimmen pro Post. Möglicherweise besteht eine Möglichkeit, dies in einer Analyse zu handhaben, darin, Personen zu identifizieren, die an mehr als einem SE-Standort aktiv sind . Auf jeder Website steigt ihr Ruf langsamer als die Menge ihrer Erfahrung, wodurch die Reputation und die Lerneffekte auseinandergenommen werden können.

  • Zeitliche Änderungen im Kontext. Dies sind unzählige, aber die offensichtlichen würden einschließen

    • Veränderungen in der Zahl der Wähler im Zeitverlauf , einschließlich eines allgemeinen Aufwärtstrends, saisonaler Trends (häufig im Zusammenhang mit akademischen Zyklen) und Ausreißern (aufgrund externer Publizität wie Links zu bestimmten Themen). Bei jeder Analyse müsste dies berücksichtigt werden, wenn Reputationstrends für eine Person bewertet werden .

    • Änderungen in den Sitten einer Community im Laufe der Zeit . Gemeinschaften und wie sie interagieren, sich entwickeln und entwickeln. Im Laufe der Zeit neigen sie dazu, mehr oder weniger oft zu wählen. Jede Analyse müsste diesen Effekt bewerten und berücksichtigen .

    • Zeit selbst. Mit der Zeit bleiben frühere Beiträge für die Suche verfügbar und können weiterhin Stimmen sammeln. So paribus caeteris , ältere sollten Beiträge als neuere mehr Stimmen erzeugen. (Dies ist ein starker Effekt: Einige Leute mit konstant hohem monatlichem Bekanntheitsgrad haben diese Site nicht das ganze Jahr über besucht!) Dies würde jeden tatsächlichen positiven Bekanntheitseffekt maskieren oder sogar umkehren. Bei jeder Analyse muss berücksichtigt werden, wie lange jeder Beitrag auf der Website vorhanden war .

  • Fachpopularität. Einige Tags (z. B. ) sind weitaus beliebter als andere. Daher können Änderungen der Art der Fragen, auf die eine Person antwortet, mit zeitlichen Änderungen verwechselt werden, beispielsweise mit einem Reputationseffekt. Daher muss jede Analyse die Art der zu beantwortenden Fragen berücksichtigen.

  • Ansichten [als Bearbeitung hinzugefügt]. Fragen werden aus verschiedenen Gründen (Filter, Links usw.) von einer unterschiedlichen Anzahl von Personen betrachtet. Es ist möglich, dass die Anzahl der Stimmen, die von den Antworten erhalten werden, mit der Anzahl der Aufrufe zusammenhängt, obwohl man mit einem sinkenden Anteil rechnen würde, wenn die Anzahl der Aufrufe steigt. (Es kommt darauf an, wie viele Leute, die wirklich an der Frage interessiert sind, sie tatsächlich sehen, nicht die rohe Zahl. Meine eigene - anekdotische - Erfahrung ist, dass ungefähr die Hälfte der Stimmen, die ich bei vielen Fragen erhalte, innerhalb der ersten 5-15 liegen Aufrufe, obwohl die Fragen letztendlich hunderte Male angezeigt werden.) Daher muss bei jeder Analyse die Anzahl der Aufrufe berücksichtigt werden, wahrscheinlich jedoch nicht linear.

  • Messschwierigkeiten. "Reputation" ist die Summe der Stimmen, die für verschiedene Aktivitäten erhalten wurden: Erstes Ansehen, Antworten, Fragen, Genehmigen von Fragen, Bearbeiten von Tag-Wikis, Abstimmen und Herabstimmen (in absteigender Reihenfolge des Werts). Da diese Komponenten unterschiedliche Aspekte bewerten und nicht alle von den Wählern der Community kontrolliert werden, sollten sie zur Analyse getrennt werden . Ein "Reputationseffekt" ist vermutlich mit Aufwertungen bei Antworten und möglicherweise bei Fragen verbunden, sollte jedoch keine Auswirkungen auf andere Reputationsquellen haben. Der Anfangsruf sollte auf jeden Fall abgezogen werden (könnte aber möglicherweise als Ersatz für eine anfängliche Menge an Erfahrung dienen).

  • Versteckte Faktoren. Es kann viele andere Störfaktoren geben, die nicht messbar sind. Beispielsweise gibt es bei der Teilnahme an Foren verschiedene Formen von "Burnout". Was tun Menschen nach ein paar Wochen, Monaten oder Jahren der Begeisterung? Einige Möglichkeiten umfassen die Konzentration auf seltene, ungewöhnliche oder schwierige Fragen; Antworten nur auf unbeantwortete Fragen geben; Bereitstellung von weniger Antworten, aber von höherer Qualität; usw. Einige davon könnten einen Reputationseffekt maskieren, während andere fälschlicherweise mit einem verwechselt werden könnten. Ein Proxy für solche Faktoren könnten Änderungen der Teilnahmequoten einer Person sein : Sie könnten Änderungen in der Art der Posten dieser Person signalisieren.

  • Phänomene der Subcommunity. Ein genauer Blick auf die Statistiken, selbst auf sehr aktiven SE-Seiten, zeigt, dass nur eine relativ kleine Anzahl von Personen die meisten Antworten und Abstimmungen vornimmt. Eine Clique von nur zwei oder drei Personen kann einen tiefgreifenden Einfluss auf die Steigerung der Reputation haben. Eine Clique aus zwei Personen wird von den integrierten Monitoren der Site erkannt (und eine solche Gruppe ist auf dieser Site vorhanden), größere Cliquen jedoch wahrscheinlich nicht. (Ich spreche nicht von formeller Absprache: Menschen können Mitglieder solcher Cliquen sein, ohne sich dessen bewusst zu sein.) Wie würden wir einen offensichtlichen Reputationseffekt von Aktivitäten dieser unsichtbaren, unentdeckten, informellen Cliquen trennen? Detaillierte Abstimmungsdaten könnten diagnostisch verwendet werden, aber ich glaube nicht, dass wir Zugriff auf diese Daten haben.

  • Begrenzte Daten. Um einen Reputationseffekt zu erkennen, müssen Sie sich wahrscheinlich (mindestens) auf Personen mit Dutzenden bis Hunderten von Posts konzentrieren. Dadurch sinkt die aktuelle Bevölkerung auf weniger als 50 Personen. Bei aller Variations- und Verwechslungsmöglichkeit ist dies viel zu gering, um signifikante Effekte auszuschöpfen, es sei denn, sie sind tatsächlich sehr stark. Die Lösung besteht darin, den Datensatz mit Datensätzen von anderen SE-Standorten zu erweitern .

Angesichts all dieser Komplikationen sollte klar sein, dass die Erkundungsgrafiken im Blog-Artikel kaum eine Chance haben, etwas preiszugeben, es sei denn, dies ist offensichtlich. Bei uns springt nichts heraus: Die Daten sind erwartungsgemäß unübersichtlich und kompliziert. Es ist verfrüht, Verbesserungen für die Diagramme oder die vorgestellte Analyse zu empfehlen: Inkrementelle Änderungen und zusätzliche Analysen helfen erst, wenn diese grundlegenden Probleme behoben wurden .

whuber
quelle
Danke für die Antwort. Angesichts der Breite der Kritik kann ich nicht auf alle Vorschläge in Kommentaren angemessen eingehen (ich muss mir einen anderen Veranstaltungsort überlegen, vielleicht einfach ein anderes Google-Dokument posten). Aber ich werde jetzt sagen, ich denke nicht, dass es unmöglich ist zu antworten (in dem Maße, dass irgendjemand irgendetwas mit Beobachtungsdaten wie diesen beantworten kann). Angesichts der Grenzen potenzieller Verwirrungen kann zumindest festgestellt werden, ob die Reputationseffekte mit den verfügbaren Beweisen übereinstimmen.
Andy W
@Andy Ich denke, die Verwirrung ist substanziell und allgegenwärtig, so dass es, auch wenn es so aussieht, als ob ein Reputationseffekt vorliegt , ein Artefakt sein könnte: Sie werden keine gültigen Schlussfolgerungen ziehen können, wenn Sie diese Probleme nicht angesprochen haben. Natürlich könnte ich mich irren, aber die Beweislast liegt bei Ihnen.
whuber
Das "Wenn es so aussieht, als ob ein Reputationseffekt vorhanden ist" ist die Schlüsselaussage (wie ich es sehe). Die meisten der von Ihnen vorgebrachten Konfusionen hätten entweder einen zweideutigen Zusammenhang mit der Reputation / Beitragsnummer / Historie eines Plakats oder es wäre theoretisch zu erwarten, dass sie die Punktzahl des Plakats bei späteren Antworten in seiner Historie erhöhen. Wenn ich keine Anhaltspunkte für Reputationseffekte finde, können viele der möglichen Fehler nicht zur Erklärung des Fehlens herangezogen werden.
Andy W
@Andy Aber wenigstens kann man, und das reicht. Dazu gehören versteckte Faktoren, die Popularität von Themen und zeitliche Änderungen im Kontext. Wenn Sie in der Analyse nicht alle diese Punkte explizit behandeln , sind Ihre Schlussfolgerungen verdächtig. Ein Blick auf die Aufzeichnungen zeigt, dass die Popularität und die zeitlichen Veränderungen der Themen enorm sind. Ihre potenziellen Einflüsse übersteigen die zu erwartenden Reputationseffekte um eine Größenordnung.
whuber
2
@cardinal, auch ohne eine formale Definition, könnte eine kleine Anzahl von Personen einen nennenswerten Einfluss auf das Abstimmungsmuster haben (worauf ich in diesem Zusammenhang Bezug nehme). Jon Skeets durchschnittlicher Post bestand nur aus 5 positiven Stimmen. Wenn plötzlich eine Person beschließt, alle ihre Antworten zu verbessern, könnte dies angesichts der anfänglich niedrigen Durchschnittspunktzahl erhebliche Auswirkungen haben.
Andy W
5

YtZtYt=a0+a1Yt1+a2Zt1+ϵtZt=b0+b1Yt1+b2Zt1+δta2ZYZYtΔYt=YtYt1YtFχ2T1T1/2YtZta0a1a2

Zu Punkt 1: Wenn Sie feste Effekte von Hand ausführen, sollten Sie sowohl die Antwortvariable als auch die erklärenden Variablen zentriert haben. Das Panel-Daten-Regressionspaket hätte dies für Sie getan, aber die offizielle ökonometrische Betrachtungsweise besteht darin, die "zwischen" Regression von der "gepoolten" Regression abzuziehen (siehe Wooldridges Schwarzbuch ; ich habe die zweite Ausgabe nicht überprüft, Ich betrachte die erste Ausgabe jedoch im Allgemeinen als die beste Lehrbuchbeschreibung für ökonometrische Paneldaten.

Zu Punkt 2: Natürlich haben Eicker / White-Standardfehler keinen Einfluss auf Ihre Punktschätzungen. Wenn dies der Fall wäre, würde dies auf eine inkorrekte Implementierung hinweisen! Im Zusammenhang mit Zeitreihen ist Newey und West (1987) ein noch geeigneterer Schätzer . Transformationen könnten helfen. Ich persönlich bin ein großer Fan der Box-Cox-TransformationAber im Kontext der Analyse, die Sie durchführen, ist es schwierig, sie sauber zu machen. Erstens benötigen Sie einen Verschiebungsparameter über dem Formparameter, und die Verschiebungsparameter sind in Modellen wie diesem bekanntermaßen schwer zu identifizieren. Zweitens würden Sie wahrscheinlich unterschiedliche Verschiebungs- / Formparameter für unterschiedliche Personen und / oder unterschiedliche Pfosten benötigen und / oder ... (die Hölle bricht los). Zähldaten sind ebenfalls eine Option, aber im Kontext der Mittelwertmodellierung ist eine Poisson-Regression genauso gut wie die Log-Transformation, setzt jedoch eine unhandliche Annahme von Varianz = Mittelwert voraus.

PS Sie könnten dies wahrscheinlich mit "longitudinal-data" und "time-series" versehen.

StasK
quelle
Vielen Dank für die Antwort und ein paar Kommentare / Fragen. Ich bin damit einverstanden, dass ich zumindest einen expliziteren Zeitreihenansatz in diesen Daten hätte untersuchen sollen (ich habe nicht einmal geprüft, ob es Hinweise auf eine Autokorrelation in den Residuen gibt). Es gibt jedoch noch einige weitere Komplikationen bei der Zeitreihenmodellierung dieser Daten (was ist t? Und der Score selbst ist dynamisch und nicht pro Beitrag festgelegt). Außerdem wäre keine Regression erforderlich, die Z_t vorhersagt. Ich weiß genau, was Z_t ist ist eine Funktion von!
Andy W
Ich bezweifle auch stark, dass die Punktzahl instationär ist. Was lässt Sie glauben, dass dies der Fall ist?
Andy W
Zumindest ist es wahrscheinlich heteroskedastisch: Einige Posts sind interessant, bekommen viele Hits und viele Upvotes, während andere kleine Erläuterungen oder RTFM- "Read this link" -Typen von Fragen / Antworten sind. Das an sich würde es technisch instationär machen. Natürlich ist Stationarität eine überprüfbare Annahme, aber mit verrückten Daten wie diesen möchten Sie wahrscheinlich auf der sicheren Seite sein, wenn Sie übermäßig konservativ in den Analysemethoden sind (oder, wie ich bereits sagte, um zu wissen, dass die Ergebnisse möglicherweise vorliegen) seltsam).
StasK
Ich bin ein bisschen durch den letzten Kommentar verwirrt. Wie machen exogene Faktoren, die die Bewertung einer Antwort beeinflussen, die Serie heteroskedastisch (ich nehme an, Sie meinen, dass die Varianz der Bewertung mit der Post-Nummer größer / kleiner wird?), Und von welcher Relevanz ist dies für die vorliegende Frage?
Andy W
Eine Zeitreihe ist stationär, wenn die Randverteilungen zu allen Zeitpunkten gleich sind. Selbst wenn Sie den gleichen Mittelwert haben, macht eine sich ändernde Varianz die Serie instationär. Ein Beispiel sind (G) ARCH-Modelle, für die Anfang der 2000er Jahre ein Nobelpreis verliehen wurde. Aber bei diesen Daten würde ich auch einige Verschiebungen im Mittelwert erwarten. Wenn die Zielgruppe der Website wächst, werden bei einer bestimmten Qualität einer Antwort wahrscheinlich mehr Stimmen angezeigt, wodurch sich sowohl der Mittelwert als auch die Varianz der Bewertungen erhöhen.
StasK
3

Einige andere Änderungen an Handlungen:

  1. Quantilbänder für die Antwortbewertung im Vergleich zum vorherigen Ruf. (Parzellen 1 & 3)
  2. Dichtediagramme für Skeet im Vergleich zu anderen, nach Postnummer geschichtet (Diagramm 3)
  3. Betrachten Sie die Schichtung nach Anzahl der konkurrierenden Beiträge
  4. Nach Zeit schichten (man kann noch lange nach Beantwortung der Frage Punkte sammeln)

Dies zu modellieren wird schwieriger sein. Sie könnten Poisson-Regression in Betracht ziehen. Ehrlich gesagt, ist die Entwicklung guter Handlungen eine viel bessere Methode, um Einsichten und Fähigkeiten zu entwickeln. Beginnen Sie mit der Modellierung, nachdem Sie die Daten besser verstanden haben.

Iterator
quelle
(+1) Nachdem ich den Beitrag eine Weile stehen gelassen hatte, stellte ich fest, dass die Darstellung der Punktedichte eine viel bessere Lösung darstellt als die Darstellung der Punkte selbst (obwohl ich nicht ganz sicher bin, was Sie unter "Stratifizieren nach" verstehen) die Post #"). Ich denke auch, dass das Plotten der geschätzten Quantile eine gute Idee ist, obwohl es für Plot 1 & 2 wahrscheinlich nur in der massiven Wolke sein wird. Auch hier weiß ich nicht, was "nach Zeit schichten" in diesem Zusammenhang bedeutet, siehe Brad Larsons Kommentar zum Blog-Post und meine diesbezügliche Antwort.
Andy W
Ich bezweifle auch, dass konkurrierende Posts irgendetwas mit den beobachteten Beziehungen zu tun haben. Denken Sie, dass Menschen, die ein hohes Ansehen in Threads mit konkurrierenderen Antworten zu einem früheren Zeitpunkt in ihrer Geschichte haben? Ihre Vorschläge, andere Kovariaten einzubeziehen, stehen anscheinend im Widerspruch zu dem Vorschlag, die Modellierung zu vermeiden und sich auf Diagramme zu konzentrieren.
Andy W
Die Idee hinter den konkurrierenden Beiträgen ist explorativer Natur. Die Motivation zu antworten hat nichts damit zu tun. In Bezug auf die Modellierung bin ich nicht gegen die Modellierung per se, aber Sie sind noch nicht dazu bereit, bis Sie ein besseres Verständnis der Daten haben. Wenn Sie die Daten nicht verstehen, werden Sie die Modelle nicht verstehen.
Iterator
Ich schlage vor, dass Sie die Posts ablegen, indem Sie sie nach Post-Nr. Schichten. Dies kann auf einer Intervallskala wie 0-100 Posts, 101-200 usw. erfolgen. Oder auf einer Quantilskala: Teilen Sie die Benutzer nach denen auf, die sich im unteren 10% ile der gesamten Posts, 20% ile usw. befinden Wenn er so viele Posts hat, ist es am besten, ihn mit seiner Vergleichsgruppe zu vergleichen, aber es ist schwierig, ihn mit einer Vergleichsgruppe mit genau der gleichen Anzahl von Posts zu vergleichen - das Binning der Daten kann hilfreich sein.
Iterator
Übrigens können Sie für die Schichtung verwenden coplot().
Iterator
1

Whoa da. (Und das meine ich auf eine gute Art und Weise ;-)) Bevor Sie mit den Modellen weitermachen, müssen Sie sich mit den Daten befassen.

Ich sehe keine Erklärung für die sehr eigenartige Kurve in der Mitte dieses Diagramms: http://stats.blogoverflow.com/files/2011/07/Rep_Correlated_With_Upvotes.png

Wenn ich eine solche Kurve sehe, denke ich, dass diese Punkte etwas sehr Seltsames haben - dass sie nicht unabhängig voneinander sind und stattdessen eine Abfolge von Beobachtungen derselben Quelle widerspiegeln.

(Kleinere Anmerkung: Die Bezeichnung der Handlung "Korrelation ..." ist irreführend.)

Iterator
quelle
5
23
Diese Kurve lässt sich durch die Art und Weise erklären, wie Reputation mit Upvotes zusammenhängt. Es handelt sich wahrscheinlich um Personen, die eine Antwort gepostet und aus dieser einzigen Antwort alle Reputation gewonnen haben. . Wenn ich die aktuelle Reputation abzüglich der Reputation aus dem aktuellsten Beitrag aufgezeichnet hätte, hätte dies den größten Teil erledigt (auch diese Beobachtungen haben nichts mit der nachfolgenden Analyse zu tun). Möchten Sie näher auf die irreführende Korrelation eingehen?
Andy W
@whuber, ich glaube nicht, dass ich sagen würde, dass etwas unter 10 ^ 3 nur Rauschen ist. Sicherlich sollte eine Theorie der Reputationseffekte auf das Fehlen von Reputation anwendbar sein. Ich freue mich auch über Verbesserungsvorschläge für die Parzellen (es gibt nicht viele Informationen in einer der Parzellen!)
Andy W
Vielen Dank. Für den Titel gibt es keine Berechnung der Korrelation. Es ist nur eine Streudiagramm von Grenzwert gegen Ruf. Außer, wie Sie und @whuber erwähnen, ist es nicht wirklich die marginale Punktzahl: Es sollte deltaRep (oder Rep (t) - Rep (t-1)) gegen Rep (t-1) sein.
Iterator
1
@Iterator, richtig für die letzte Aussage (10 Punkte pro positive Bewertung), aber es scheint immer noch, dass Sie verwirrt sein könnten, was ich mit der anderen Aussage plante. Die Y-Achse ist keine Reputation, aber die Anzahl der Upvotes für den letzten Beitrag (dies ist nicht unbedingt erforderlich, Rep(t) - Rep(t-1)da Benutzer an anderen Orten Reputation erlangen können). Die X-Achse ist die aktuelle Reputation (einschließlich der durch diesen Beitrag erlangten Reputation). Die X-Achse ist das, was ich vorgeschlagen habe, zu ersetzen (abzüglich der Aufwertungen, die von der Antwort in Frage I auf der Y-Achse erhalten wurden).
Andy W