Test auf Proportionen und binären Klassifikator

10

Ich habe einen Prototyp einer Maschine, die Teile herstellt.

In einem ersten Test produziert die Maschine Teile und ein binärer Klassifikator sagt mir, dass Teile defekt sind ( , normalerweise und ) und Teile gut sind.d 1 d 1 < N 1 d 1 / N 1 < 0,01 N 110 4 N 1 - d 1N1d1d1<N1d1/N1<0.01N1104N1d1

Anschließend nimmt ein Techniker einige Änderungen an der Maschine vor, um die Anzahl der defekten Teile zu verringern.

In einem zweiten und folgenden Test produziert die modifizierte Maschine Teile und der gleiche binäre Klassifikator (unberührt) sagt mir, dass Teile defekt sind, trotzdem ist ziemlich ähnlich .d 2 d 2 / N 2 d 1 / N 1N2d2d2/N2d1/N1

Der Techniker möchte wissen, ob seine Änderungen wirksam sind.

Unter der Annahme, dass die Klassifikatoren perfekt sind (ihre Empfindlichkeit beträgt 100% und ihre Spezifität 100%), kann ich einen Proportionstest durchführen (mit R tippe ich einfach prop.test(c(d1,d2),c(N1,N2))).

Der Klassifikator ist jedoch nicht perfekt. Wie kann ich also die Empfindlichkeit und die Spezifität des Klassifikators berücksichtigen, die beide unbekannt sind, um dem Techniker richtig zu antworten?

Alessandro Jacopson
quelle
Können Sie die Genauigkeitsrate des Klassifikators bestätigen?
Michelle
@Michelle Ich weiß ohne Fehler und aber ich weiß nicht, wie viele defekte Teile als gut falsch eingestuft sind. d 2d1d2
Alessandro Jacopson
Hallo nochmal. Können Sie eine Zufallsstichprobe der guten Teile von N1 und N2 getrennt durchführen, um die falsch positive Rate zu schätzen?
Michelle
1
Können Sie mit diesen Informationen diese Methode verwenden, um die Änderungen zu vergleichen? onlinelibrary.wiley.com/doi/10.1002/sim.906/abstract siehe auch hier ncbi.nlm.nih.gov/pubmed/18224558 und andere Idee hier, Volltext: stat.colostate.edu/~bradb/papers/lrgraphfinal. pdf
Michelle
2
(+1) das ist eine tolle Frage!
steffen

Antworten:

4

Ich leite dies also aus ersten Prinzipien ab und bin mir daher nicht sicher, ob es richtig ist. Hier sind meine Gedanken:

EDIT: Das war vorher nicht ganz richtig. Ich habe es aktualisiert.

  1. Lassen Sie uns die erwartete Differenz zwischen der tatsächlichen Anzahl der echten Positiven und der vom binären Klassifikator ausgegebenen Anzahl bezeichnen, die wir . Sie können dies messen, indem Sie Ihren Klassifikator auf einem Set mit bekannten Beschriftungen ausführen. Subtrahieren Sie die Anzahl der tatsächlichen Positiven von der Anzahl der vom Klassifizierer erzeugten Positiven und dividieren Sie dann durch , um .d 1 ^ d 1 N ααd1d1^Nα

  2. Eine Punktschätzung für das tatsächliche Verhältnis fehlerhafter Teile ergibt sich also aus: . Das heißt, die beobachtete Anzahl fehlerhafter Teile, abzüglich der erwarteten Anzahl falsch positiver Ergebnisse plus der erwarteten Anzahl falsch negativer Teile.d1N1^=d1+αN1N1

  3. Ebenso istd2N2^=d2+αN2N2

  4. Lassen Sie uns jetzt einen Requisitentest durchführen. Im Standard-Prop-Test berechnen wir zuerst das gepoolte Verhältnis, das als Nullwert verwendet wird: . Hier geben wir also unsere Punktschätzungen für und , um zu erhalten: ^ d 1p=p1N1+p2N2N1+N2 ^d2d1N1^d2N2^p=d1+d2+α(N1+N2)N1+N2

  5. Und dann ist der Standardfehler nur der übliche:p(1p)(1N1+1N2)

  6. Die Teststatistik ist dieselbe:z=d1N1d2N2se

Einige Gedanken zur Interpretation:

  • Das Modell kann imaginäre Werte für Standardfehler erzeugen. Dies geschieht, wenn ist. Dies ist der Fall, wenn die Anzahl der Fehler, die die Klassifizierer voraussichtlich erzeugen, die beobachtete Anzahl überschreitet. Nehmen wir zum Beispiel an, wir erwarten von unserem Klassifikator einen Durchschnitt von 5 Positiven, selbst wenn eine Probe keine Positiven enthält. Wenn wir 4 Positive beobachten, ist es so, als gäbe es kein Signal: Unser Ergebnis ist nicht von dem vom Klassifikator erzeugten Rauschen zu unterscheiden. In diesem Fall sollten wir die Nullhypothese nicht ablehnen, denke ich.p<0

  • Eine andere Möglichkeit, darüber nachzudenken, besteht darin, dass wir, wenn die Anzahl der fehlerhaften Teile innerhalb der Fehlergrenze für den Klassifizierer liegt, natürlich nicht feststellen können, ob es einen Unterschied gibt: Wir können nicht einmal feststellen, ob Teile defekt sind!

Einbeziehung von Fehlern in die Schätzung von :α

  • Ich habe noch etwas darüber nachgedacht, und ich denke, es gibt verschiedene Möglichkeiten, dies zu tun, aber im Wesentlichen möchten Sie eine Schätzung der Verteilung von . Idealerweise würden Sie diesen Kauf wiederholen, indem Sie Ihr Verfahren wiederholen, um die Schätzung von für eine repräsentative Stichprobe der Datensätze zu erhalten, für die Sie diese Methode verwenden möchten . Wenn dies nicht möglich ist, können Sie einen einzelnen Datensatz booten, indem Sie Beispiele daraus zeichnen. Dies ist jedoch nur dann ideal, wenn Ihr einzelner Datensatz für alle Sätze repräsentativ ist, die Sie interessieren.αα

Angenommen, wir möchten ein Konfidenzintervall mit einer Konfidenz von berechnen .h

  • Berechnen Sie das -Konfidenzintervall empirisch über mithilfe der Bootstrap-Verteilung. Stecken Sie jeden Endpunkt in den obigen Prozess und verwenden Sie ihn als (sehr konservative oder sehr liberale) Punktschätzung für Ermitteln Sie das Konfidenzintervall für die Schätzung der Proportionsdifferenz mithilfe des Prop-Tests . Angenommen, wir erhalten Intervalle ( und als Intervalle für die niedrigeren und höheren Werte von . Dann sollte das Intervall (das beide früheren Intervalle enthält) ein (1-h) * 100% CI für den Unterschied in den Proportionen sein ... Ich denke ...h2ααh2lowl,lowr)(highl,highr)α(highl,lowr)

Hinweis: Oben habe ich einen einseitigen Test angenommen. Sie teilen h durch 2, um die Tatsache zu berücksichtigen, dass Sie zwei unabhängige Hypothesen testen ( sich in dem Intervall, das Sie denken, und die Teststatistik ist ein signifikanter Unterschied). Wenn Sie einen zweiseitigen Test durchführen möchten, teilen Sie stattdessen durch 4.α

John Doucette
quelle
+1, danke. In 6 haben Sie "statisch" geschrieben, meinten Sie "Statistik"?
Alessandro Jacopson
In Ihrem ersten Aufzählungspunkt betrachten Sie einen imaginären Standardfehler. Was ist mit (was auch einen imaginären Standardfehler ergeben kann)? Ist es möglich, ? p<00<p<10<p<1
Alessandro Jacopson
In Ihrem zweiten Punkt haben Sie über die "Varianz" geschrieben. Was meinen Sie damit? Mein Verständnis ist das Folgende: Nehmen wir an, ich nehme eine Stichprobe der Größe aus den guten des ersten Tests und habe 7 fehlerhafte Teile gefunden. Wenn ich dann Ich werde jede Abweichung in der ignorieren . Andererseits kann ich ein Konfidenzintervall für (zum Beispiel mit R ) erhalten und es dann in das Modell integrieren. Habe ich recht? 0.01(N1d1)100β=7100ββprop.test(7,100)
Alessandro Jacopson
@uvts_cvs Ja, das sollte "Statistik" sein. Ich werde es gleich beheben. Es gibt auch einen Tippfehler in der Berechnung für Standardfehler, der stattdessen p * (1-p) sein sollte. P sollte immer <1 sein, außer vielleicht, wenn Ihr Klassifikator wirklich schlecht und d groß ist. Für Ihren dritten Kommentar, ja, das ist die Idee. Ich bin mir nur nicht sicher, wie ich diese Schätzung in das Modell integrieren soll. Vielleicht weiß es hier jemand anderes?
John Doucette
Vielen Dank für die Annahme, aber seit letzter Nacht habe ich mir mehr Gedanken darüber gemacht (übrigens eine sehr gute Frage!) Und einige Ideen, wie ich die Varianz einbeziehen kann. Außerdem habe ich festgestellt, dass dieses Modell nicht ganz richtig ist. Sie müssen mit der Anzahl der negativen Exemplare und mit der Anzahl der positiven Exemplare multiplizieren . Ich werde es durcharbeiten und später aktualisieren. βαβ
John Doucette