Interpretation des Unterschieds zwischen lognormaler und Potenzgesetzverteilung (Netzgradverteilung)

22

Zunächst einmal bin ich kein Statistiker. Ich habe jedoch eine statistische Netzwerkanalyse für meine Promotion durchgeführt.

Im Rahmen der Netzwerkanalyse habe ich eine CCDF (Complementary Cumulative Distribution Function) mit Netzwerkabschlüssen aufgezeichnet. Was ich fand, war, dass im Gegensatz zu herkömmlichen Netzwerkverteilungen (z. B. WWW) die Verteilung am besten durch eine logarithmische Normalverteilung angepasst wird. Ich habe versucht, es gegen ein Potenzgesetz anzupassen, und unter Verwendung der Matlab-Skripte von Clauset et al. Habe ich festgestellt, dass das Ende der Kurve einem Potenzgesetz mit einem Cut-Off folgt.

Bildbeschreibung hier eingeben

Die gepunktete Linie repräsentiert die Potenzgesetzanpassung. Die violette Linie zeigt die logarithmische Normalanpassung an. Die grüne Linie steht für die Exponentialanpassung.

Was ich nur schwer verstehen kann, ist, was das alles bedeutet? Ich habe dieses Papier von Newman gelesen, das dieses Thema ein wenig berührt: http://arxiv.org/abs/cond-mat/0412004

Unten ist meine wilde Vermutung:

Wenn die Gradverteilung einer Potenzgesetzverteilung folgt, bedeutet dies meines Wissens, dass die Verteilung der Links und der Netzwerkgrad eine lineare bevorzugte Bindung aufweisen (Rich-gets-Richer-Effekt oder Yules-Prozess).

Habe ich Recht, wenn ich sage, dass es bei der lognormalen Verteilung, die ich beobachte, zu Beginn der Kurve eine sublineare bevorzugte Bindung gibt, die zum Heck hin linearer wird, wo sie durch ein Potenzgesetz angepasst werden kann?

Da eine logarithmische Normalverteilung auftritt, wenn der Logarithmus der Zufallsvariablen (z. B. X) normal verteilt ist, bedeutet dies auch, dass es in einer logarithmischen Normalverteilung mehr kleine Werte für X und weniger große Werte für X als a gibt Zufallsvariable, die einer Potenzgesetzverteilung folgt, hätte?

Was noch wichtiger ist, deutet ein logarithmisch normaler bevorzugter Anhang in Bezug auf die Verteilung der Netzwerkgrade immer noch auf ein skalierungsfreies Netzwerk hin? Mein Instinkt sagt mir, dass, da das Ende der Kurve durch ein Potenzgesetz angepasst werden kann, das Netzwerk immer noch so geschlossen werden kann, dass es schuppenfreie Eigenschaften aufweist.

Mike
quelle
2
Mike, ich denke, es wäre sehr interessant, die Handlung zu sehen, die Sie sich ansehen. Würde es Ihnen etwas ausmachen, Ihre Antwort zu bearbeiten, um sie einzuschließen? Eine Sache, die mir sofort aufgefallen ist, ist, dass die Implikation in Bezug auf Potenzgesetze und bevorzugte Bindung rückwärts ist. Während (einige) bevorzugte Bindungsschemata Potenzgesetz-Gradverteilungen erzeugen, ist die umgekehrte Implikation nicht wahr (dh es ist nicht der einzige Weg). Einige Informationen zu dem Netzwerk, in dem Sie sich gerade befinden, könnten ebenfalls hilfreich sein. Prost.
Kardinal
1
Ich meine, bevorzugte Bindung ist einfach ein anderer Name für den Effekt "Reich wird reicher", oder? Wenn dies der Fall ist, ist die lineare (Potenzgesetz-) Netzgradverteilung nur eine von vielen Gradverteilungen, die eine bevorzugte Bindung nachweisen können. Mit anderen Worten, solange der Gradient der Kurve in einem Log-Log-Diagramm negativ ist, gibt es unabhängig von der Verteilung einige Elemente der bevorzugten Bindung. Dann hängt der Unterschied zwischen logarithmischer Normalverteilung und Potenzgesetzverteilung nicht so sehr davon ab, ob es eine bevorzugte Bindung gibt, sondern von deren Verhältnismäßigkeit.
Mike
1
Beachten Sie, dass die bevorzugte Bindung ein (stochastischer) Prozess ist, der Potenzgesetz-Gradverteilungen für ein Netzwerk generiert . Die Steigung der Linie ändert sich gemäß dem Skalierungsexponenten für ein Potenzgesetz, aber im Fall eines logarithmischen Normalwerts ist die Darstellung selbst im Heck nicht linear. Der Gradient einer Überlebensverteilung ist immer negativ, unabhängig von der Auswirkung. (Warum?)
Kardinal
Das ist eine sehr gute Bearbeitung. Danke, Michael! Die logarithmische Übereinstimmung in der Region, die Sie gezeigt haben, ist bemerkenswert. Es sieht so aus, als würde es ein bisschen im Schwanz zusammenbrechen.
Kardinal
Vielen Dank für Ihre Antwort noch einmal Kardinal. Stimmen Sie also zu, dass die bevorzugte Bindung im Netzwerk, das ich beobachte, noch funktioniert? Eine andere Frage, die sich stellt, ist, ob das Netzwerk frei von Skalen ist. Wenn der bevorzugte Anhang im Netzwerk aktiv ist und das Netzwerk neue Mitglieder aufnimmt, kann das Netzwerk als skalierungsfrei eingestuft werden, obwohl die Netzwerkgradverteilung nicht linear ist. Da bin ich mir nicht ganz sicher.
Mike

Antworten:

12

Ich denke, es wird hilfreich sein, die Frage in zwei Teile zu unterteilen:

  1. Was ist die funktionale Form Ihrer empirischen Verteilung? und
  2. Was bedeutet diese funktionale Form für den Erzeugungsprozess in Ihrem Netzwerk?

p>0,1x15p<0,1bedeutet im Grunde das Gleiche zu tun. Können Sie dieses Modell als Generierungsprozess für Ihre Daten zur Gradverteilung ablehnen? Wenn nicht, dürfen Sie die log-normal in die Kategorie "plausibel" setzen.

x1

Die zweite Frage ist tatsächlich schwieriger. Wie in den obigen Kommentaren einige Leute betonten, gibt es viele Mechanismen, die Potenzgesetzverteilungen erzeugen, und bevorzugte Bindung (in all ihren Variationen und Herrlichkeiten) ist nur einer von vielen. Die Beachtung einer Potenzverteilung in Ihren Daten (auch einer echten, die die erforderlichen statistischen Tests besteht) ist daher kein ausreichender Beweis für den Schluss, dass der Erzeugungsprozess eine bevorzugte Bindung war. Oder allgemeiner, wenn Sie einen Mechanismus A haben, der ein Muster X in den Daten erzeugt (z. B. eine logarithmische Normalverteilung in Ihrem Netzwerk). Das Beobachten von Muster X in Ihren Daten ist kein Beweis dafür, dass Ihre Daten von Mechanismus A erzeugt wurden. Die Daten stimmen mit A überein, aber das bedeutet nicht, dass A der richtige Mechanismus ist.

Um wirklich zu zeigen, dass A die Antwort ist, müssen Sie seine mechanistischen Annahmen direkt testen und zeigen, dass sie auch für Ihr System gelten, und vorzugsweise auch, dass andere Vorhersagen des Mechanismus auch in den Daten gelten. Ein wirklich großartiges Beispiel für den Annahmetestteil wurde von Sid Redner erstellt (siehe Abbildung 4 dieses Papiers) ), in dem er zeigte, dass für Zitierungsnetzwerke die Annahme linearer bevorzugter Bindungen tatsächlich in den Daten gilt.

Schließlich ist der Begriff "skalierungsfreies Netzwerk" in der Literatur überladen, weshalb ich dringend empfehlen würde, ihn zu vermeiden. Die Leute bezeichnen damit Netzwerke mit leistungsrechtlichen Verteilungen undzu Netzwerken, die durch (lineare) Präferenzbindung gewachsen sind. Aber wie wir gerade erklärt haben, sind diese beiden Dinge nicht dasselbe, weshalb es nur verwirrend ist, einen einzigen Begriff zu verwenden, um sich auf beide zu beziehen. In Ihrem Fall ist eine logarithmische Normalverteilung völlig inkonsistent mit dem klassischen linearen bevorzugten Anhangsmechanismus. Wenn Sie also entscheiden, dass logarithmische Normalverteilung die Antwort auf Frage 1 (in meiner Antwort) ist, würde dies bedeuten, dass Ihr Netzwerk nicht ' frei skalieren 'in diesem Sinne. Die Tatsache, dass der obere Schwanz als Potenzgesetz-Verteilung „in Ordnung“ ist, wäre in diesem Fall bedeutungslos, da immer ein Teil des oberen Schwanzes einer empirischen Verteilung vorhanden ist, die diesen Test besteht (und er besteht, weil der Test besteht) verliert die Energie, wenn nicht viel Daten vorhanden sind (genau das passiert im extremen oberen Schwanz).

aaronclauset
quelle
Haben Sie verwechselt, <und> als Sie über den p-Wert für den oberen Schwanz gesprochen haben?
David Nathan
Die p-Wert-Bedingungen in diesem Kommentar sind richtig. Die hier genannten p-Werte stammen aus Abschnitt 4.1 von arxiv.org/abs/0706.1062 , in dem große Werte gute und kleine Werte schlechte Anpassungen darstellen. Siehe insbesondere Fußnote 8 unten auf Seite 17.
Jonathan S.
3

So eine coole Frage. Ich habe ein ähnliches Gespräch darüber, das mit einer von mir gestellten Frage zusammenhängt anderer Stelle bei CrossValidated gestellt. Dort fragte ich, ob die Gammaverteilung eine gute Verteilung für die Simulation eines sozialen Netzwerks ist, in dem die Wahrscheinlichkeit von Bindungen endogen zu einer für Knoten charakteristischen kontinuierlichen "Beliebtheit" ist. @NickCox schlug vor, stattdessen die lognormal-Verteilung zu verwenden. Ich antwortete, dass die logarithmische Normalverteilung als zugrunde liegender Prozess, der die Popularität beschreibt, eine gewisse theoretische Rechtfertigung hat, da die Popularität als das Produkt vieler positiv bewerteter Zufallsvariablen interpretiert werden könnte (z. B. Reichtum, Einkommen, Größe, sexuelle Stärke, Kampfstärke, IQ). Dies ist für mich sinnvoller als die theoretische Rechtfertigung des Potenzgesetzes, und es lebt von den empirischen Daten, die darauf hindeuten, dass die Form des Potenzgesetzes zu unflexibel ist, um die netzwerkübergreifende Variation in der Gradverteilung zu erklären. Das lognormal, im Vergleich dazu hat eine sehr flexible Form, wobei der Modus für eine hohe Varianz gegen Null geht. Darüber hinaus ist es sinnvoll, dass die Schiefe der Gradverteilung aufgrund des bevorzugten Bindungseffekts mit der Varianz zunimmt.

Zusammenfassend denke ich, dass die logarithmische Normalverteilung am besten zu Ihren Daten passt, da die logarithmische Normalverteilung den zugrunde liegenden Prozess der Bildung der Gradverteilung besser beschreibt als das Potenzgesetz oder die Exponentialverteilungen.

Dreistes Gleichgewicht
quelle
2

Kommen Sie auf diese Seite, nachdem Sie meine Blasenverteilungen gezählt und das Potenzgesetz für Viskositätsdaten verwendet haben.

Durchblättern der Beispieldatensätze im Power Law Paper von Clauset et al. Sie haben einige wirkliche Schrecken von Datensätzen hinterlassen, weit entfernt von den Potenzgesetz-Datensätzen, um ihre Argumentation zu stützen. Nur vom gesunden Menschenverstand aus hätte ich sicherlich nicht versucht, eine Potenzgesetzfunktion für die meisten von ihnen auf den gesamten Datenbereich abzustimmen. Das Verhalten der Selbstskalierung in der realen Welt kann jedoch für einen Teil eines beobachteten Systems gültig sein. Es kann jedoch zusammenbrechen, wenn eine Systemeigenschaft eine physikalische oder funktionale Grenze erreicht.

Die folgenden, gut lesbaren Artikel beziehen sich auf die Anpassung der Wachstumskurven für Ökologen mit einer guten Diskussion über das Potenzgesetz und die damit verbundenen Verteilungen, basierend auf beobachtungsbasierten Modellen des Bevölkerungsverhaltens.

Der Autor ist viel pragmatischer als Clauset et al. Zitat: "... wenn das Ziel nur eine optimale Anpassung ist und Skalen außerhalb des Skalenfensters des Datensatzes nicht diskutiert werden, kann jedes Modell ausreichend sein, vorausgesetzt, es erzeugt eine gute Anpassung und erzeugt keine Maxima oder Minima innerhalb des untersuchten Skalenfensters . " "Man muss oft dasselbe Modell anpassen, wie andere Forscher es bei ihren Daten angewendet haben, um Parameterwerte vergleichen zu können, aber man kann dies zusätzlich zu der Anwendung eines besser passenden Modells oder besser erwarteter Modelle tun Formen oder beides. " Erholsame Worte.

Tjørve, E. (2003). Formen und Funktionen von Artenbereichskurven: Ein Überblick über mögliche Modelle. Journal of Biogeography, 30 (6), 827 & ndash; 835.

Tjørve, E. (2009). Formen und Funktionen von Artenbereichskurven (ii): Ein Überblick über neue Modelle und Parametrisierungen. Journal of Biogeography, 36 (8), 1435-1445.

TerryW
quelle
1

Die obigen Ergebnisse zeigen, dass die Gradverteilung sowohl Potenzgesetz als auch logarithmisch normal sein kann, was darauf hindeuten könnte, dass kleine welt- und schuppenfreie Eigenschaften im untersuchten Netzwerk nebeneinander existieren. Um zu prüfen, ob das Netzwerk skalierungsfrei (mit konstanten Skalierungsparametern) und mit bevorzugter Anbindung ist, ist häufig ein experimenteller Entwurf erforderlich. In dem oben erwähnten Artikel von Sid Redner wird die Wachstumsrate verwendet, um den Wachstumsmechanismus zu verstehen. Während Gallos, Song und Makse Kästchen verwenden, um das Netzwerk abzudecken, und daraus schließen, dass die Verteilung des Netzwerkgrads der Potenzgesetzverteilung folgt, wenn NB (1B) ~ 1B ^ -dB. Oder die Beziehung zwischen Clusterkoeffizient und Grad untersuchen (ob die Beziehung das Potenzgesetz erfüllt). Ansonsten wird diskutiert, dass hierachische Netzwerke sowohl weltkleine als auch skalierungsfreie Netzwerkeigenschaften haben. (fraktale Skala frei eingeben,

liandexinshi
quelle