Name des Phänomens auf geschätzten CDF-Plots zensierter Daten

8

Mein Datensatz enthält zwei (ziemlich stark korrelierte) Variablen (Laufzeit des Algorithmus) und (Anzahl der untersuchten Knoten, was auch immer). Beide sind vom Design her stark korreliert, da der Algorithmus ungefähr Knoten pro Sekunde verwalten kann.n ctnc

Der Algorithmus wurde bei mehreren Problemen ausgeführt, aber beendet, wenn nach einer Zeitüberschreitung keine Lösung gefunden wurde . Daten werden also für die Zeitvariable rechtszensiert.T.

Ich zeichne die geschätzte kumulative Dichtefunktion (oder die kumulierte Anzahl) der Variablen für die Fälle, in denen der Algorithmus mit endete . Dies zeigt, wie viele Probleme durch Erweitern von höchstens Knoten gelöst werden könnten, und ist nützlich, um verschiedene Konfigurationen des Algorithmus zu vergleichen. Aber in der Handlung für gibt es diese lustigen Schwänze oben, die scharf nach rechts gehen, wie im Bild unten zu sehen ist. Vergleichen Sie das ecdf für die Variable , für die die Zensur durchgeführt wurde.t < T n n tnt<T.nnt

Kumulierte Anzahl vonn

ecdf von n

Kumulierte Anzahl vont

ecdf von t

Simulation

Ich verstehe, warum dies passiert, und kann den Effekt in einer Simulation mit dem folgenden R- Code reproduzieren . Es wird durch Zensur einer stark korrelierten Variablen unter Hinzufügung von etwas Rauschen verursacht.

qplot(
  Filter(function(x) (x + rnorm(1,0,1)[1]) < 5,
         runif(10000,0,10)),
  stat="ecdf",geom="step")

synthetische Daten

Wie heißt dieses Phänomen? Ich muss in einer Veröffentlichung angeben, dass diese Fans Artefakte des Experiments sind und nicht die tatsächliche Verteilung widerspiegeln.

Zikzystar
quelle
Liegt das an einer vorzeitigen Kündigung?
lcrmorin
Können Sie Ihre Daten mit einer parametrischen Verteilung modellieren? Sie können dies nur mit den unzensierten Daten versuchen. Wenn dies funktioniert, können Sie die maximale Wahrscheinlichkeit für den gesamten Datensatz verwenden, um eine Schätzung der tatsächlichen CDF zu erhalten und das Verhalten in Ihrem Diagramm zu beseitigen.
Soakley
@soakly Die Proben sind nicht iis. Der Algorithmus läuft auf einer Reihe von Benchmark-Problemen, die im Wesentlichen die Form der Kurve definieren (zusammen mit den Eigenschaften der Algorithmuskonfigurationen).
Ziggystar
@lmorin Ich weiß nicht genau, was eine vorzeitige Beendigung bedeutet, aber die Daten sind in Bezug auf die Zeitvariable sauber richtig zensiert.
Ziggystar
1
Die Mengen in den ersten beiden Anzeigen sind eigentlich keine ECDFs, da die von ECDFs gemessenen Werte auf [0,1] stehen. Es wäre besser, sie mit einem genaueren Titel zu kennzeichnen.
Glen_b -State Monica

Antworten:

1

Ich bin kein Experte, aber ich glaube, was Sie sehen, ist analog zu weichem Clipping .

Clipping sortieren (Gain Compression)

Es ist ein wenig anders, weil Ihr Clipping durch einen nicht deterministischen Prozess verursacht wird, indem Ihr Signal abgeschnitten wird, wenn es plus ein zufälliges Rauschen einen Schwellenwert überschreitet, anstatt eines Geräts, das ein analoges Signal deterministisch reduziert. Ich habe ein Gitarrenpedal, das dies tut. Es mildert den "Schlag" beim Spielen einer E-Gitarre:

Keeyley Compressor Demo

Scheint eine anständige Analogie zu sein. Ich bin mir nicht sicher, ob es einen Namen in der statistischen Gemeinschaft gibt.

Matthew Drury
quelle
0

Ich vermute, Sie stoßen auf die Familie stabiler nicht symmetrischer Verteilungen.
Zeichnen Sie zunächst Ihr ecdf in ein Protokoll-Protokoll-Diagramm. Nehmen Sie einen parametrischen Ansatz an, nehmen Sie Pareto Distribution an, Geben Sie hier die Bildbeschreibung ein

F.t(t)=1- -(tmichnt)ein fÖr t>tmichntmichn
α^


αα^=α^(T.)T.

Das Phänomen der schweren Schwänze ist in der Informatik häufig, insbesondere wenn Knoten auf zufällige Weise gegen gemeinsam genutzte Ressourcen antreten, z. B. Computernetzwerke.

aarsakian
quelle
2
Ich glaube nicht, dass mein Problem darin besteht, das richtige Modell zu finden. Siehst du die zweite Handlung in meiner Frage? Die wahre Verteilung würde als Linie angezeigt, aber aufgrund des Zensureffekts wird sie zu einer Kurve. Ich möchte wissen, wie man dieses Phänomen nennt.
Ziggystar
Ihre Knoten teilen sich eine gemeinsame Ressource, Ihre CPU, die sich indirekt in Zeitabschlussschwankungen widerspiegelt, und diese roten und rosa Punkte, die ziemlich weit von der Hauptmasse ihrer jeweiligen Verteilung entfernt sind, machen mich misstrauisch. Die langlebigen Verarbeitungsknoten wirken sich auf Ruheknoten aus. Ich spekuliere, dass sie die Masse irgendwann von ihrem Zentrum wegdrängen werden.
Aarsakian
2
Ich bin mir nicht sicher, ob Sie die Domain richtig verstanden haben: Das Problem ist eine Suche. Der Algorithmus betrachtet jeweils einen Knoten, um einen Lösungsknoten zu finden. Ein besserer Algorithmus muss weniger Knoten betrachten, bevor er eine Lösung findet (weil er Knoten klüger auswählt). Das Betrachten eines Knotens erfordert einige Zeit, daher sollten die Anzahl der untersuchten Knoten und der Zeitaufwand ziemlich stark korrelieren.
Ziggystar
-1

Sagen Sie, dass Ihre Verteilung abgeschnitten ist , wie normal abgeschnitten

Aksakal
quelle