"Interestingness" -Funktion für StackExchange-Fragen

Ich versuche, ein Data-Mining-Paket für StackExchange-Sites zusammenzustellen, und insbesondere stecke ich fest, um die "interessantesten" Fragen zu ermitteln. Ich würde gerne die Fragenbewertung verwenden, aber die Verzerrung aufgrund der Anzahl der Ansichten entfernen, aber ich weiß nicht, wie ich konsequent damit umgehen soll.

In der idealen Welt könnte ich die Fragen sortieren, indem ich berechne , wobei die Gesamtzahl der Stimmen und die Anzahl der Aufrufe ist. Schließlich würde es den Prozentsatz der Personen messen, die die Frage positiv bewertet haben, abzüglich des Prozentsatzes der Personen, die die Frage negativ bewertet haben. $\frac{v}{n}$ $v$ $n$

Leider ist das Abstimmungsmuster viel komplizierter. Stimmen tendieren zu einem gewissen "Plateau" und dies hat den Effekt, dass wild populäre Fragen drastisch unterschätzt werden. In der Praxis würde eine Frage mit einer Ansicht und einer positiven Bewertung mit Sicherheit höher bewertet und sortiert werden als jede andere Frage mit 10.000 Ansichten, jedoch weniger als 10.000 Stimmen.

Ich verwende derzeit als empirische Formel, möchte aber genau sein. Wie kann ich dieses Problem mit mathematischer Strenge angehen? $\frac{v}{\log{n}+1}$

Um auf einige der Kommentare einzugehen, werde ich versuchen, das Problem besser wiederzugeben:

Angenommen, ich habe eine Frage mit insgesamt Stimmen und Ansichten. Ich würde gerne abschätzen können, welche Stimmenanzahl am wahrscheinlichsten ist, wenn die Aufrufe erreichen . $v_0$ $n_0$ $v_1$ $n_1$

Auf diese Weise konnte ich einfach einen Nominalwert für auswählen und alle Fragen gemäß der erwarteten Summe . $n_1$ $v_1$

Ich habe zwei Abfragen im SO-Datendump erstellt, um den Effekt, von dem ich spreche, besser darzustellen:

Durchschnittliche Ansichten nach Punktzahl

Ergebnis:

Ansichten nach Punktzahl

Durchschnittsbewertung nach Ansichten (100-Ansichten-Eimer)

Ergebnis:

Ergebnis nach Ansichten

Die beiden Formeln verglichen

Ergebnisse, nicht sicher, ob das Richtige besser ist: ( in Blau, in Rot) $\frac{v}{n}$ $\frac{v}{log{n}+1}$

Formeln

data-mining predictive-models Sklivvz
quelle

Dies ist sicherlich eine interessante Frage, aber ich denke, Sie sollten dies besser in Statistiken nachfragen.

@ Theo Du hast vielleicht tatsächlich recht. Ich melde mich, damit die Mods migrieren können, wenn sie das Beste finden.

Warum sollten Ansichten nicht zur Interessiertheit beitragen? (aber noch schlimmer, warum sollten sie negativ beitragen?) Weitere interessante Dinge neigen häufiger zu betrachten ... Das grundlegende Problem hier ist , was tut interessant auch bedeuten? Bedeutet dies Fragen von allgemeinem Interesse oder Fragen, die für ein spezifischeres höheres Publikum von Interesse sind? Damit jemand diese Frage mit "mathematischer Strenge" beantworten kann, muss er sich zuerst rigoros stellen.

Ansichten verzerren die Fragen, weil eine Frage beispielsweise durch eine gute Website verknüpft ist und Unmengen von Ansichten erhält. Wenn Sie sich die am besten bewerteten Fragen ansehen, handelt es sich dabei um Fragen mit hohen Ansichten. Mit interessant meine ich die Fragen, die für die Benutzer der Website mehr Wert haben. In jedem Fall bleibt die Frage offen: Wie lassen sich Ansichten und Stimmen richtig kombinieren, um den besten Prädiktor für die Qualität zu erhalten?

Die Mathematiker stellten gute Fragen. Die Logik dieser Frage scheint zirkulär zu sein: Es scheint, als ob wir nach einer Formel gefragt werden, mit der die "Qualität" einer SE-Frage gemessen werden kann. Sie legt jedoch nicht fest, was "Qualität" bedeutet, außer dass nichtoperative Synonyme wie "Wert" von den Benutzern wahrgenommen werden Der Seite." Sie können nicht umsonst etwas bekommen!

whuber

Antworten:

Man könnte eine interessante Frage als eine definieren, die angesichts der Anzahl der Ansichten vergleichsweise viele Stimmen erhalten hat. Zu diesem Zweck können Sie eine Basiskurve erstellen, die die erwartete Anzahl von Stimmen für die Ansichten widerspiegelt. Kurven, die viel mehr Stimmen als die Basislinie zogen, wurden als besonders interessant angesehen.

Um die Basislinie zu erstellen, können Sie den Median der Stimmenanzahl pro Bin mit 100 Ansichten berechnen. Darüber hinaus können Sie die mittlere absolute Abweichung (MAD) als robustes Maß für die Standardabweichung pro Bin berechnen. Dann kann "Interessantheit" wie folgt berechnet werden

interestingness(votes,views) = (votes-baselineVotes(views))/baselineMAD(views)

Jonas
quelle

Das ist meine Theorie. Ich denke, es gibt zwei Arten von Fragen: die, die meistens innerhalb von SE bleiben (die normalerweise weniger Ansichten haben), und die, die von Außenstehenden gesehen werden, weil sie von woanders verlinkt wurden (normalerweise mehr Ansichten haben).

Für die Fragen, die größtenteils in der SE verbleiben, sind Abstimmungen ein gutes Maß für interessante Fragen. Dies ist der Abstimmungspunkt.

Wenn eine Frage außerhalb der Site verlinkt wird, haben die Stimmen keine Bedeutung mehr. Einige Link-Sites haben möglicherweise nur sehr wenige SE-Mitglieder, andere möglicherweise mehr. Die Varianz der Stimmenzahl für diese Fragen ist wahrscheinlich hoch (wie aus Ihrem Score-vs.-View-Diagramm hervorgeht, bei dem die rechte Seite der Kurve ausgeblendet ist). Diese Fragen haben mehr Ansichten, und Ansichten können ein besserer Indikator für interessante Fragen sein. Oder Fragen, die eine größere Community zufällig interessanter fand. In dieser Situation gibt es viele Variablen, und ich denke, es lohnt sich, nach weiteren Informationen zu suchen, um diese Fälle zu unterscheiden. Macht SE Empfehlungsinformationen bekannt?

rm999
quelle

Macht SE Empfehlungsinformationen bekannt? Es würde mich interessieren, das Anzeigemuster von Posts zu kennen, anstatt nur Upvotes, Kommentare usw.

d_a_c321