Wie lässt sich die „Rundung“ der SE-Mitarbeiter messen?

12

Stack Exchange ist, wie wir alle wissen, eine Sammlung von Q & A-Sites mit diversifizierten Themen. Angenommen, jede Site ist unabhängig voneinander, wie kann man angesichts der Statistiken eines Benutzers seine "Rundung" im Vergleich zum nächsten berechnen? Was ist das statistische Tool, das ich verwenden sollte?

Um ehrlich zu sein, weiß ich nicht genau, wie man die "Well-Rundheit" mathematisch definiert, aber sie muss die folgenden Eigenschaften haben:

Wenn alle Dinge gleich sind, ist er umso runder, je mehr Wiederholungen ein Benutzer hat
Wenn alle Dinge gleich sind, ist er umso runder, je mehr Websites ein Benutzer besucht.
Ob Antwort oder Frage keinen Einfluss auf die Rundheit haben

ranking diversity Graviton
quelle

Wie würden Sie zunächst "SE-Rundung" im SE-Kontext definieren?

JM ist kein Statistiker

@JM, ich weiß nicht, deshalb würde ich hoffen, dass die Community dazu beiträgt, die Konzepte ein bisschen weiter zu konkretisieren.

Graviton

1

Auf die Gefahr hin, wie eine der ruckeligen PC-Polizisten zu klingen - Lassen Sie uns die Frauen einbeziehen, die unsere Website besuchen. @ Graviton, Alle Ihre Referenzen beziehen sich auf Männer.

Rolando2

Die durch eine Benutzer-ID definierte Rundung gibt keinen Aufschluss über die Rundung eines Mitwirkenden , da ein Mitwirkender möglicherweise unterschiedliche Benutzer-IDs für unterschiedliche SEs hat. Einige Benutzer-IDs können auch von mehr als einem Mitwirkenden verwendet werden (z. B. von Partnern, die ein Konto gemeinsam nutzen).

Alexis vor

7

Sie müssen auch die Ähnlichkeit zwischen den Websites berücksichtigen. Jemand, der an StackOverflow und Seasoned Advice teilnimmt, ist runder als jemand, der an SO und CrossValidated teilnimmt, der wiederum (ich würde argumentieren) runder ist als jemand, der an SO und Programmierern teilnimmt . Es gibt zweifellos viele Möglichkeiten, dies zu tun, aber Sie können die überlappende Registrierung überprüfen, um ein Gefühl dafür zu bekommen.

Matt Parker
quelle

1

@ Matt Parker, gute Punkte - Wenn Wiederholung Teil der Metrik ist, denke ich auch, dass Sie sich ansehen müssen, wie die Wiederholung gewonnen wurde. Eine Person, die ihren Repräsentanten aus kleinen Gewinnen bei vielen Fragen / Antworten gewonnen hat, wäre wahrscheinlich runder als eine Person, die denselben Repräsentanten bei einer einzelnen Frage gewonnen hat, die eine Menge Stimmen gesammelt hat.

DQdlM

3

@Kenny Das ist ein guter Punkt, und ich denke, die Art und Weise, wie Sie es angegeben haben, ist richtig - aber ich denke, dass viele der am häufigsten bewerteten Fragen und Antworten oft am wenigsten auf Fachwissen hinweisen, während gute Antworten auf wirklich schwierige technische Fragen häufig zutreffen sehr niedrige Stimmen.

Matt Parker

1

Schauen Sie sich zum Beispiel die Antworten von whuber an. Seine Antworten sind durchweg ausgezeichnet. Was unterscheidet also zwischen seinen hoch bewerteten Antworten und seinen 1-Wählern? Wenn ich mir das erstere ansehe, sehe ich hervorragende Antworten auf Fragen, die ich verstehe; bei letzteren hervorragende Antworten auf Fragen, die ich nicht einmal anfange zu graben. Antworten mit niedrigen Stimmen können also tatsächlich auf eine tiefe Spezialisierung hinweisen (aber beachten Sie: Wenn Sie neugierig sind, wie ein abgerundeter SE-Benutzer aussieht, ist dies der Fall ).

Matt Parker

1

In der Tat, @Graviton, ist es möglicherweise ratsam, Benutzer mit mehreren Standorten zu suchen, die Sie als abgerundet betrachten, und zu sehen, wie sie sich in Ihren verschiedenen Metriken verhalten.

Matt Parker

1

@KennyPeanuts, um @ Matts obigen Punkt zu ergänzen, scheint es auch eine beträchtliche Anzahl von Benutzern auf SE-Websites zu geben, die auf eine enorme Anzahl von Fragen antworten, aber nur wenige positive Stimmen abgeben. Dies ist normalerweise auch kein Hinweis auf Fachwissen oder Rundung. (Es ist jedoch eine der einfachsten Strategien, um "Ruf" zu erlangen).

Kardinal

6

BEISPIEL: Angenommen, es gibt drei Websites, und wir möchten die Rundung der Benutzer A, B, C vergleichen. Wir schreiben den Ruf der Benutzer über die drei Websites in Vektorform:

Benutzer A: [23, 23, 0]

Benutzer B: [15, 15, 0]

Benutzer C: [10, 10, 10]

Wir würden A als runder als B betrachten (ihr Ruf ist gleichmäßig auf zwei Standorte verteilt, aber A hat einen besseren Ruf). Wir würden C auch als runder als B betrachten (sie haben den gleichen Ruf, aber C hat eine gleichmäßige Verteilung auf mehr Standorte). Es ist unentschlossen, ob A als runder als C angesehen werden sollte oder umgekehrt .

$x_A$ $x_B$ $x_C$

$f(x)$ $f$ $f(x_A) > f(x_B)$ $f(x_C) > f(x_B)$

$f(x)$

Zwei gängige Beispiele für konvexe Funktionen sind die 'Bruchnorm'

f ([x_{1}, . . ., x_{m}]) = \sum_{i} x_{i}^{p}

$f([x_1,...,x_m]) = \sum_i x_i^p$

$0 < p < 1$

$p = 1/2$

f (x_{A}) = 2 \sqrt{23} \approx 9.6

$f(x_A) = 2\sqrt{23} \approx 9.6$

f (x_{B}) = 2 \sqrt{15} \approx 7.7

$f(x_B) = 2\sqrt{15} \approx 7.7$

f (x_{C}) = 3 \sqrt{10} \approx 9.5

$f(x_C) = 3\sqrt{10} \approx 9.5$

$1/2$

$f$

f ([x_{1}, . . ., x_{m}]) = - \sum_{i} x_{i} \log (x_{i} / c) .

$f([x_1,...,x_m]) = -\sum_i x_i \log(x_i/c).$

$c = \sum_i x_i$

$f$

f (x_{A}) = 46 \log (2) \approx 31.9

$f(x_A) = 46 \log(2) \approx 31.9$

f (x_{B}) = 30 \log (2) \approx 20.8

$f(x_B) = 30 \log(2) \approx 20.8$

f (x_{C}) = 30 \log (3) \approx 33.0

$f(x_C) = 30 \log(3) \approx 33.0$

Gemessen an der skalierten Shannon-Entropie würden wir sagen, dass C die am besten gerundete der drei und A die am zweithäufigsten gerundete ist.

$f(x)$

EDIT2: Ein Beispiel wurde im Lichte von Whubers Kommentar hinzugefügt.

charles.y.zheng
quelle

f

$f$

f

$f$

[1, 101]

$[1,101]$

f

$f$

Die Bruchnorm ist undefiniert, wenn x_i <0 ist. Die Shannon-Entropie versagt, wenn x_i / c ≤ 0 ist. Es ist nicht sinnvoll, dass ein Maß für eine gute Rundung plötzlich explodiert, wenn sich x_i von 0 auf -𝜀 ändert.

200_erfolg

4

Dies ist eine sehr, sehr interessante Frage (in der Tat bin ich etwas verliebt in die Idee, die Stapelaustauschstellen im Allgemeinen zu modellieren).

In Bezug auf die Frage der Rundung besteht eine Möglichkeit, dies zu bewerten, in den Tags, die bestimmte Benutzer tendenziell beantworten, und in ihrer Verteilung auf mehrere Websites. Beispiele können dies klarer machen.

Ich bin Mitglied bei TeX, StackOverflow, CrossValidated und AskUbuntu. Jetzt trage ich wirklich nur zu hier und StackOverflow bei und nur zu R bei Stackoverflow. Um eine gute Rundung zu definieren, würde ich a) die Anzahl der Tags betrachten, die zwei Websites gemeinsam haben (um die Ähnlichkeit zwischen Websites zu definieren) und das Ausmaß, in dem ein Benutzer Fragen zu Websites beantwortet, die nur wenige oder keine Tags gemeinsam haben.

Wenn zum Beispiel jemand zu Python-Tags für StackOverflow und Kochen beiträgt, ist diese Person runder als jemand, der Fragen zur statistischen Software (zum Beispiel) zu Überlauf- und Statistikfragen hier beantwortet.

Ich hoffe das ist etwas hilfreich.

richiemorrisroe
quelle

4

(+1) Jemand, der sowohl auf SO als auch beim Kochen zu Python-Tags beiträgt, hat einen exotischen Geschmack im Essen :-) Ich höre, es schmeckt wie Hühnchen.

whuber

3

Wenn Sie "Rundung" als "Beitrag zu vielen verschiedenen Stack Exchange-Sites" definieren, würde ich eine Metrik des Beitrags pro Site berechnen. Sie können die Gesamtzahl der Beiträge oder die durchschnittlichen Beiträge pro Tag oder möglicherweise den Ruf verwenden. Schauen Sie sich dann die Verteilung dieser Metrik auf alle Websites an und berechnen Sie ihre Schiefe auf eine sinnvolle Weise.

Mit anderen Worten, eine "gut gerundete" Person wäre eine Person, die zu vielen verschiedenen Sites beiträgt, während eine "nicht abgerundete" Person eine Person wäre, die hauptsächlich zu einer Site beiträgt. Sie können dies weiter verbessern, indem Sie Ihre Metrik mit der Gesamtsumme eines Benutzers auf allen Websites skalieren. dh jemand, der viel zu vielen verschiedenen Websites beigetragen hat, sollte als runder angesehen werden als jemand, der nichts zu einer der Websites beigetragen hat. Eine Person, die SE noch nie benutzt hat, ist nicht sehr gut gerundet!

Zach
quelle

1

Schon viele gute Antworten, warum noch eine? Dies dient hauptsächlich dazu, die Aufmerksamkeit auf die interessanten Ideen zu lenken, die hier im The n-Category Café diskutiert werden . Während die Vielfalt in der Ökologie (und anderswo) meist nur die Fülle betrachtet, sollte man auch untersuchen, wie ähnlich / unähnlich die verschiedenen Arten sind.

Durch die Darstellung der Spezies (oder was auch immer, wie SE-Stellen ...) als Punkte in einem metrischen Raum führt dies zu einer Verallgemeinerung der Entropie auf metrische Räume, siehe zum Beispiel Die maximale Entropie eines metrischen Raums von Tom Leinster, Emily Roff . Dieselben Ideen könnten in SE-Sites verwendet werden, indem Tags als Punkte in einem metrischen Raum betrachtet werden.

kjetil b halvorsen
quelle

Wie lässt sich die „Rundung“ der SE-Mitarbeiter messen?

Antworten: