Bezogen auf das Analysieren von Verhältnissen von Variablen und Wie wird das Verhältnis von zwei normalverteilten Variablen oder die Umkehrung von einer parametrisiert? .
Angenommen, ich habe eine Reihe von Stichproben aus vier verschiedenen kontinuierlichen Zufallsverteilungen, von denen wir alle annehmen können, dass sie ungefähr normal sind. In meinem Fall entsprechen diese einigen Leistungsmetriken von zwei verschiedenen Dateisystemen (z. B. ext4 und XFS), sowohl mit als auch ohne Verschlüsselung. Die Metrik kann beispielsweise die Anzahl der pro Sekunde erstellten Dateien oder die durchschnittliche Latenz für einige Dateivorgänge sein. Wir können davon ausgehen, dass alle aus diesen Verteilungen gezogenen Stichproben immer streng positiv sind. Nennen wir diese Distributionen wobei und encryption \ in \ {crypto, nocrypto \} . fstype∈{xfs,ext4}encr
Meine Hypothese ist nun, dass die Verschlüsselung eines der Dateisysteme um einen größeren Faktor verlangsamt als das andere. Gibt es einen einfachen Test für die Hypothese ?
Antworten:
Eine Alternative zu StasKs feiner Antwort ist die Verwendung eines Permutationstests. Der erste Schritt besteht darin, eine Teststatistik zu definieren , vielleicht:T.
Dabei ist möglicherweise der Stichprobenmittelwert der Beobachtungen von usw. (Dies passt zu Ihrer Definition der Hypothese als Verhältnis von eher die Erwartungen als die alternative Möglichkeit der Erwartung des Verhältnisses - welche Alternative könnte das sein, was Sie wirklich wollen.) Der zweite Schritt besteht darin, die Bezeichnungen in den Daten viele Male zufällig zu permutieren , z. B. , und berechne für jede Permutation. Der letzte Schritt besteht darin, Ihr ursprüngliches mit dem beobachteten zu vergleichen . die Permutation schätzt p-Wert würde der Bruchteil der sein . Perfext4,cryptoext4,xfsi=1,…,10000TiTTiTi≤T.P.e r fˆe x t 4 , c r yp t o Perfe x t 4 , c r yp t o e x t 4 , x f s i = 1 , … , 10000 T.ich T. T.ich T.ich≤ T.
Der Permutationstest befreit Sie von der Abhängigkeit von Asymptotika, aber abhängig von Ihrer Stichprobengröße (und natürlich auch den Daten) funktioniert die Delta-Methode, die ich gelegentlich auch verwende, möglicherweise einwandfrei.
quelle
Sie können den (asymptotischen) Standardfehler des Verhältnisses mit der Delta-Methode berechnen . Wenn Sie zwei Zufallsvariablen und so dass in der Verteilung (was der Fall wäre, wenn Sie unabhängige Daten haben, aber es würde auch in einem allgemeineren Fall von gelten Clustered-Daten, wenn Sie Ihre Tests auf verschiedenen Maschinen ausgeführt haben), dann haben wir für das Verhältnis mit dem Populationsanalogon vonY √X. Y. r= ˉ Y / ˉ X.
Ich hoffe, Sie können es von dort nehmen und die verbleibende Rückseite der Umschlagberechnungen durchführen, um die endgültige Formel zu erhalten.
Es ist zu beachten, dass das Ergebnis asymptotisch ist und das Verhältnis ein voreingenommener Schätzer von in kleinen Stichproben ist. Die Vorspannung hat die Größenordnung von und verschwindet asymptotisch im Vergleich zur Stichprobenvariabilität in der Größenordnung von .r 0 O ( 1 / n ) O ( 1 / √r r0 O ( 1 / n ) O ( 1 / n- -- -√)
quelle
Das Verhältnis der Normalvariablen ist Cauchy verteilt. Wenn Sie das wissen, können Sie einfach einen Bayes-Faktor-Test durchführen.
Dies war eine eher spontane Idee. Ich bin mir jetzt nicht sicher über den Datenerzeugungsmechanismus. Installieren Sie verschiedene Dateisysteme auf demselben PC und vergleichen Sie dann die beiden Fälle, damit wir eine hierarchische Datenstruktur annehmen können?
Ich bin mir auch nicht sicher, ob es Sinn macht, Verhältnisse zu betrachten.
Und dann haben Sie das Verhältnis der erwarteten Werte geschrieben, während ich an den erwarteten Wert der Verhältnisse dachte. Ich denke, ich brauche mehr Informationen über die Datengenerierung, bevor ich fortfahre.
quelle
In Fällen, in denen Sie keine Permutationen durchführen können, z. B. wenn die Stichprobengröße Millionen von Möglichkeiten bietet, wäre eine andere Lösung das Monte-Carlo-Resampling.
quelle