Mein Datensatz enthält zwei (ziemlich stark korrelierte) Variablen (Laufzeit des Algorithmus) und (Anzahl der untersuchten Knoten, was auch immer). Beide sind vom Design her stark korreliert, da der Algorithmus ungefähr Knoten pro Sekunde verwalten kann.n c
Der Algorithmus wurde bei mehreren Problemen ausgeführt, aber beendet, wenn nach einer Zeitüberschreitung keine Lösung gefunden wurde . Daten werden also für die Zeitvariable rechtszensiert.
Ich zeichne die geschätzte kumulative Dichtefunktion (oder die kumulierte Anzahl) der Variablen für die Fälle, in denen der Algorithmus mit endete . Dies zeigt, wie viele Probleme durch Erweitern von höchstens Knoten gelöst werden könnten, und ist nützlich, um verschiedene Konfigurationen des Algorithmus zu vergleichen. Aber in der Handlung für gibt es diese lustigen Schwänze oben, die scharf nach rechts gehen, wie im Bild unten zu sehen ist. Vergleichen Sie das ecdf für die Variable , für die die Zensur durchgeführt wurde.t < T n n t
Kumulierte Anzahl von
Kumulierte Anzahl von
Simulation
Ich verstehe, warum dies passiert, und kann den Effekt in einer Simulation mit dem folgenden R- Code reproduzieren . Es wird durch Zensur einer stark korrelierten Variablen unter Hinzufügung von etwas Rauschen verursacht.
qplot(
Filter(function(x) (x + rnorm(1,0,1)[1]) < 5,
runif(10000,0,10)),
stat="ecdf",geom="step")
Wie heißt dieses Phänomen? Ich muss in einer Veröffentlichung angeben, dass diese Fans Artefakte des Experiments sind und nicht die tatsächliche Verteilung widerspiegeln.
Antworten:
Ich bin kein Experte, aber ich glaube, was Sie sehen, ist analog zu weichem Clipping .
Clipping sortieren (Gain Compression)
Es ist ein wenig anders, weil Ihr Clipping durch einen nicht deterministischen Prozess verursacht wird, indem Ihr Signal abgeschnitten wird, wenn es plus ein zufälliges Rauschen einen Schwellenwert überschreitet, anstatt eines Geräts, das ein analoges Signal deterministisch reduziert. Ich habe ein Gitarrenpedal, das dies tut. Es mildert den "Schlag" beim Spielen einer E-Gitarre:
Keeyley Compressor Demo
Scheint eine anständige Analogie zu sein. Ich bin mir nicht sicher, ob es einen Namen in der statistischen Gemeinschaft gibt.
quelle
Ich vermute, Sie stoßen auf die Familie stabiler nicht symmetrischer Verteilungen.
Zeichnen Sie zunächst Ihr ecdf in ein Protokoll-Protokoll-Diagramm. Nehmen Sie einen parametrischen Ansatz an, nehmen Sie Pareto Distribution an,
Das Phänomen der schweren Schwänze ist in der Informatik häufig, insbesondere wenn Knoten auf zufällige Weise gegen gemeinsam genutzte Ressourcen antreten, z. B. Computernetzwerke.
quelle
Sagen Sie, dass Ihre Verteilung abgeschnitten ist , wie normal abgeschnitten
quelle