Verwendung von CDF- und PDF-Statistiken zur Analyse

12

Dies mag eine zu allgemeine Frage sein, aber ich hoffe, dass ich hier Hilfe finden kann. Ich beginne einen RA-Job an meiner Universität und mein Thema wird sich mit Internet-Verkehrsanalyse befassen. Ich bin ziemlich neu in der Welt der Analyse, aber ich denke, in der Welt der Forschung ist dies das, was ich viel tun muss.

Ich habe ein paar Artikel durchgesehen und in vielen finde ich, dass sie Probability Density (PDF), CDF, CCDF usw. verwenden, um die Ergebnisse zu erklären, die sie erzielt haben. Zum Beispiel PDF der Sitzungsdauer des Benutzers, CDF der täglich übertragenen Bytes usw. Ich habe die Wahrscheinlichkeits- und Statistikklasse verwendet, damit ich verstehe, was sie sind, aber ich bin immer noch verwirrt über die Fälle, in denen eine solche Darstellung gewählt würde.

Wenn es also jemanden gibt, der solche Grafiken und Analysen erstellt (in einem anderen Thema im Allgemeinen oder in diesem), können Sie mir einfach sagen, in welcher Situation ich die eine oder andere dieser Darstellungen verwenden würde

sfactor
quelle

Antworten:

17

Es ist zum Teil eine Frage des Geschmacks und der Konvention, aber die Theorie, die Beachtung Ihrer Ziele und ein wenig kognitive Neurowissenschaft [siehe die Referenzen] können eine Orientierungshilfe sein.

Da ein pdf und ein cdf die gleichen Informationen enthalten, ergibt sich die Unterscheidung zwischen ihnen daraus, wie sie es tun: Ein pdf repräsentiert die Wahrscheinlichkeit mit Bereichen, während ein cdf die Wahrscheinlichkeit mit (vertikalen) Abständen repräsentiert . Studien zeigen, dass Menschen Entfernungen schneller und genauer vergleichen als Flächen und Flächen systematisch falsch einschätzen. Wenn Sie also ein grafisches Tool zum Ablesen von Wahrscheinlichkeiten bereitstellen möchten, sollten Sie die Verwendung einer PDF-Datei bevorzugen.

PDF - Dateien und cdfs stellen auch Wahrscheinlichkeitsdichte : Erstere mittels so tut Höhe , während die letztere Dichte durch repräsentiert Steigung . Jetzt wird der Spieß umgedreht, weil die Leute die Neigung schlecht einschätzen (was der Tangens eines Winkels ist; wir neigen dazu, den Winkel selbst zu sehen). Dichten können Informationen über Modi, Schweregrad der Schwänze und Lücken vermitteln. Bevorzugen Sie die Verwendung von pdfs in solchen Situationen und überall dort, wo lokale Details der Wahrscheinlichkeitsverteilung hervorgehoben werden müssen.

Manchmal liefert eine PDF- oder CDF-Datei nützliche theoretische Informationen. Sein Wert (oder besser gesagt das Gegenteil davon) ist in Formeln für Standardfehler für Quantile, Extreme und Rangstatistiken enthalten. Zeigen Sie in solchen Situationen eher eine PDF-Datei als eine PDF-Datei an. Bei der Untersuchung multivariater Korrelationen in einer nichtparametrischen Umgebung, wie bei Copulas , erweist sich das cdf als nützlicher (möglicherweise weil es die Funktion ist, die ein kontinuierliches Wahrscheinlichkeitsgesetz in ein einheitliches umwandelt).

Ein pdf oder cdf kann eng mit einem bestimmten statistischen Test verknüpft werden. Der Kolmogorov-Smirnov-Test (und die KS-Statistik) haben eine einfache grafische Darstellung in Form eines vertikalen Puffers um das PDF. Es gibt keine einfache grafische Darstellung in Bezug auf das PDF (das ich kenne).

Das ccdf (komplementäres cdf) wird in speziellen Anwendungen verwendet, die sich auf Überlebensraten und seltene Ereignisse konzentrieren. Seine Verwendung wird in der Regel durch Konvention festgelegt.

Verweise

WS Cleveland (1994). Die Elemente der grafischen Darstellung von Daten. Summit, New Jersey, USA: Hobart Press. ISBN 0-9634884-1-4

BD Dent (1999). Kartographie: Thematisches Kartendesign 5th Ed. Boston, Massachusetts, USA: WCB McGraw-Hill.

AM MacEachren (2004). Funktionsweise von Maps. New York, NY, USA: Die Guilford Press. ISBN 1-57230-040-X

whuber
quelle
(+1) speziell für die Einsichten in die Interpretierbarkeit von Entfernungen gegen Flächen und Neigung gegen Höhe.
Steffen
8

Ich bin mit Whubers Antwort einverstanden, habe aber noch einen weiteren kleinen Punkt:

Die CDF verfügt über einen einfachen nichtparametrischen Schätzer, für den keine Auswahl getroffen werden muss: die empirische Verteilungsfunktion . Es ist nicht ganz so einfach, ein PDF zu schätzen. Wenn Sie ein Histogramm verwenden, müssen Sie die Behälterbreite und den Startpunkt für den ersten Behälter auswählen. Wenn Sie die Schätzung der Kerneldichte verwenden, müssen Sie die Form und Bandbreite des Kernels auswählen. Ein misstrauischer oder zynischer Leser mag sich fragen, ob Sie diese wirklich von vornherein ausgewählt haben oder ob Sie einige andere Werte ausprobiert und diejenigen ausgewählt haben, die das Ergebnis ergeben haben, das Ihnen am besten gefällt.

Dies ist jedoch nur ein kleiner Punkt. Die, die wir gemacht haben, sind wichtiger, deshalb würde ich das wahrscheinlich nur verwenden, um zu wählen, als ich nach diesen Überlegungen noch unentschlossen war.

ein Stop
quelle
Es ist immer noch ein interessanter Punkt. Danke, dass du es angesprochen hast.
Whuber
2

Ich denke, es hängt davon ab, welche Statistiken oder Ergebnisse Sie herausfinden, recherchieren, studieren oder berichten werden. Ich gehe davon aus, dass Sie wahrscheinlich diese Grafiken verwenden, um die Ergebnisse für Ihr Universitätsthema darzustellen, oder?

Wenn Sie beispielsweise Ihre Erkenntnisse zu "Wie lange Benutzer auf einer bestimmten Website bleiben" präsentieren möchten, kann es sinnvoll sein, sie in CDF anzuzeigen, da sie die auf dieser Website insgesamt verbrachte Zeit auf den Seiten usw. anzeigt .

Wenn Sie jedoch einfach die Wahrscheinlichkeit anzeigen möchten, dass Benutzer auf einen Werbelink klicken (z. B. einen Google AdWords-Link), möchten Sie diesen möglicherweise als PDF-Datei anzeigen, da es sich wahrscheinlich um eine normale Verteilungsglockenkurve handelt, die Sie anzeigen können die Wahrscheinlichkeit dieses Heppings.

Hoffe das hilft, Jeff


quelle