Was ist Ratlosigkeit?

42

Ich bin auf den Begriff Ratlosigkeit gestoßen, der sich auf die logarithmisch gemittelte inverse Wahrscheinlichkeit für unsichtbare Daten bezieht. Ein Wikipedia- Artikel über Ratlosigkeit gibt keine intuitive Bedeutung dafür.

Dieses Verwirrungsmaß wurde in pLSA- Papier verwendet.

Kann jemand die Notwendigkeit und die intuitive Bedeutung von Ratlosigkeit erklären ?

Lerner
quelle
Wie berechne ich Ratlosigkeit für pLSA. Ich habe die Datenmatrix die die Zählung hat und mit dem TEM-Algorithmus p ( d ) und p ( w | d ) berechnet wird. Xp(d)p(w|d)
Lerner
3
Ich habe die Indizes von 5 Büchern zu Data Mining / Maschinelles Lernen / Predictive Analytics von Nisbett, Larose, Witten, Torgo und Shemueli (plus Co-Autoren) überprüft, und dieser Begriff kommt in keinem von ihnen vor. Ich bin ratlos :)
Radfahrer
1
Ratlosigkeit ist ein anderer ausgefallener Name für Unsicherheit. Es kann als eine intrinsische Bewertung gegen eine extrinsische Bewertung betrachtet werden. Jan Jurafsky erklärt es elegant
anhand von
2
@zbicyclist, Wenn Sie nach Beispielen in freier Wildbahn suchen, ist dies in NLP besonders häufig, insbesondere bei der Bewertung von Dingen wie Sprachmodellen.
Matt Krause
In einigen Bereichen (z. B. Wirtschaftswissenschaften) wird von äquivalenten Zahlen gesprochen, sodass z. B. bei dem H auf natürlichen Logarithmen beruhende Entropie ist, eine äquivalente Anzahl von gleich häufig vorkommenden Kategorien darstellt. Zwei Kategorien mit einer Wahrscheinlichkeit von jeweils 0,5 ergeben eine Entropie von ln 2, und die Exponentiation ergibt 2 als die Anzahl der gleich häufig vorkommenden Kategorien. Bei ungleichen Wahrscheinlichkeiten ist das Zahlenäquivalent im Allgemeinen keine ganze Zahl. exp(H)Hln2
Nick Cox

Antworten:

21

Sie haben den Wikipedia-Artikel über Ratlosigkeit gelesen . Es gibt die Verwirrung einer diskreten Verteilung als

2xp(x)log2p(x)

was auch geschrieben werden könnte als

exp(xp(x)loge1p(x))

dh als gewichtetes geometrisches Mittel der Umkehrungen der Wahrscheinlichkeiten. Bei einer kontinuierlichen Verteilung würde die Summe zu einem Integral.

Der Artikel gibt auch eine Möglichkeit, die Verwirrung für ein Modell unter Verwendung von Testdaten zu schätzenN

2i=1N1Nlog2q(xi)

was auch geschrieben werden könnte

exp(i=1Nloge(1q(xi))N) or i=1N1q(xi)N

oder auf eine Vielzahl anderer Arten, und dies sollte es noch klarer machen, woher die "log-durchschnittliche inverse Wahrscheinlichkeit" kommt.

Henry
quelle
Gibt es einen besonderen Unterschied zwischen der Verwendung von e als Exponent und 2?
Henry E
2
10alogax=blogbx
Das habe ich mir gedacht. Ich bin auf diese Antwort gestoßen, als ich zu verstehen versuchte, warum ein Teil des Codes e zur Berechnung der Ratlosigkeit verwendete, als alle anderen Formulierungen, die ich zuvor gesehen hatte, 2 verwendeten. Mir ist jetzt klar, wie wichtig es ist, zu wissen, welchen Wert ein Framework hat verwendet als Grundlage für die Berechnung des logarithmischen Verlusts
Henry E
27

Ich fand das ziemlich intuitiv:

Die Ratlosigkeit dessen, was Sie auswerten, sagt Ihnen in Bezug auf die Daten, auf denen Sie es auswerten, sozusagen: "Diese Sache ist ungefähr so ​​oft richtig, wie es ein x-seitiger Würfel sein würde."

http://planspace.org/2013/09/23/perplexity-what-it-is-and-what-yours-is/

pandasÜberall
quelle
Das ist ein interessanter Artikel. Vielleicht nicht so ausführlich, aber eine gute Einführung.
Monica Heddneck
1
Ich fand diesen Artikel auch hilfreich, jamesmccaffrey.wordpress.com/2016/08/16/…
user2561747
11

Ich habe mich das auch gefragt. Die erste Erklärung ist nicht schlecht, aber hier sind meine 2 Nats für was auch immer das wert ist.


Ratlosigkeit hat vor allem nichts damit zu tun, wie oft man etwas Richtiges errät. Es hat mehr mit der Charakterisierung der Komplexität einer stochastischen Sequenz zu tun.

2xp(x)log2p(x)

Löschen wir zuerst das Protokoll und die Potenzierung.

2xp(x)log2p(x)=1xp(x)p(x)

Ich denke, es ist erwähnenswert, dass Ratlosigkeit mit der Basis, die Sie zur Definition der Entropie verwenden, unvermeidlich ist. In diesem Sinne ist Ratlosigkeit unendlich viel eindeutiger / weniger willkürlich als Entropie als Maß.

Beziehung zu Würfeln

11212×1212=2

N

1(1N1N)N=N

Ratlosigkeit ist also die Anzahl der Seiten eines fairen Würfels, die beim Würfeln eine Sequenz mit der gleichen Entropie wie Ihre gegebene Wahrscheinlichkeitsverteilung ergibt.

Anzahl der Staaten

NN+1NϵNN+1ϵNxpxN

px=px(1ϵ)

1ϵϵxNpxpx=1ϵϵxN(px(1ϵ))px(1ϵ)=1ϵϵxNpxpx(1ϵ)(1ϵ)px(1ϵ)=1ϵϵ(1ϵ)(1ϵ)xNpxpx(1ϵ)

ϵ0

1xNpxpx

Wenn Sie das Würfeln einer Seite des Würfels immer unwahrscheinlicher machen, sieht die Ratlosigkeit so aus, als ob die Seite nicht existiert.

Alex Eftimiades
quelle
3
Sicherlich sind das nur ~ 1,39 Nats wert?
Matt Krause
xNpxpx=(1ϵ)1ϵxNpxpx(1ϵ)
xNpxpx=xN(px(1ϵ))px(1ϵ)=xN(1ϵ)px(1ϵ)xNpxpx(1ϵ)
\prod_x^N\left{(1-\epsilon\right)}^{p_x\left(1-\epsilon\right)}={\left(1-\epsilon\right)}^{\sum_x^N p_x \left(1-\epsilon\right)}={\left(1-\epsilon\right)}^{\left(1-\epsilon\right)\sum_x^N p_x}={\left(1-\epsilon\right)}^{\left(1-\epsilon\right)}
5

XX

P(X=X)2H(X)=12H(X)=1perplexity

Um zu erklären, ist die Verwirrung einer gleichmäßigen Verteilung X nur | X |, die Anzahl der Elemente. Wenn wir versuchen, die Werte zu erraten, die iid-Samples von einer gleichmäßigen Verteilung X annehmen, indem wir einfach iid-Ratschläge von X machen, werden wir 1 / | X | = 1 / Verwirrung der Zeit korrekt sein. Da die Gleichverteilung die am schwersten zu erratenden Werte sind, können wir 1 / Ratlosigkeit als Untergrenze / heuristische Näherung für die Häufigkeit unserer Vermutungen verwenden.

user49404
quelle