Dies ist keine Hausaufgabenfrage, sondern ein echtes Problem, mit dem unser Unternehmen konfrontiert ist.
Vor kurzem (vor 2 Tagen) haben wir bei einem Händler die Herstellung von 10000 Produktetiketten bestellt. Der Händler ist eine unabhängige Person. Er lässt die Etiketten von außen herstellen und bezahlt sie an den Händler. Jedes Etikett kostet genau 1 US-Dollar für das Unternehmen.
Gestern kam der Händler mit Etiketten, aber die Etiketten wurden in einer Packung mit jeweils 100 Etiketten gebündelt. Auf diese Weise gab es insgesamt 100 Päckchen und jedes Päckchen enthielt 100 Etiketten, also insgesamt 10000 Etiketten. Bevor wir eine Zahlung an den Händler in Höhe von 10000 US-Dollar leisten, haben wir beschlossen, nur wenige Päckchen zu zählen, um sicherzustellen, dass jedes Päckchen genau 100 Etiketten enthält. Als wir die Etiketten gezählt haben, haben wir eine Packung mit weniger als 100 Etiketten gefunden (wir haben 97 Etiketten gefunden). Um sicherzustellen, dass dies nicht zufällig, sondern absichtlich geschehen ist, haben wir 5 weitere Pakete gezählt und in jedem Paket die folgende Anzahl von Etiketten gefunden (einschließlich des ersten Pakets):
Packet Number Number of labels
1 97
2 98
3 96
4 100
5 95
6 97
Es war nicht möglich, jedes einzelne Paket zu zählen, daher haben wir uns für eine durchschnittliche Zahlung entschieden. Die durchschnittliche Anzahl der Etiketten in sechs Paketen beträgt 97,166, sodass die Gesamtzahlung bei 9716 USD lag.
Ich möchte nur wissen, wie Statistiker mit solchen Problemen umgegangen sein müssen .
Außerdem möchte ich wissen, wie viel wir bezahlen müssen, um zu 95% sicher zu sein, dass wir nicht mehr als die tatsächliche Anzahl ganzer Etiketten bezahlt haben.
Zusätzliche Information:
P (jedes Paket enthielt mehr als 100 Etiketten) = 0
P (jedes Paket enthielt Etiketten weniger als 90) = 0 {Etiketten weniger als 90 würden beim Zählen von Paketen leicht erkannt werden, da das Paket ein geringeres Gewicht hätte}
EDIT: Händler einfach von solchen Fehlverhalten bestritten. Wir haben festgestellt, dass diese Händler auf einer bestimmten Provision arbeiten, die sie vom Hersteller erhalten, wenn sie von der Firma bezahlt werden. Als wir direkt mit dem Hersteller kommunizierten, stellten wir fest, dass es weder Hersteller- noch Händlerfehler sind. Der Hersteller sagte: „Etiketten werden kurz, weil die Größe der Blätter nicht standardisiert ist und unabhängig von der Anzahl der Einzelblätter, die sie zu einem Paket bündeln“.
Darüber hinaus erhalten wir unsere erste Behauptung in Bezug auf zusätzliche Informationen bestätigt, da der Hersteller zugegeben hat, dass es nicht möglich ist, zusätzliche Etiketten zu schneiden, wenn die Blattgröße geringfügig verringert wird 100 Etiketten exakt gleicher Größe.
Antworten:
Ich wäre an Rückmeldungen zu dem Absatz interessiert, der mit "Nachdenken ..." beginnt, da mich ein bestimmter Teil des Modells nachts auf Trab gehalten hat.
Das Bayes'sche Modell
Die überarbeitete Frage lässt mich denken, dass wir das Modell explizit entwickeln können, ohne Simulation zu verwenden. Durch die Simulation wurde aufgrund der inhärenten Zufälligkeit der Stichproben eine zusätzliche Variabilität eingeführt. Die Antwort der Sophologen ist jedoch großartig.
Annahmen : Die kleinste Anzahl Etiketten pro Umschlag beträgt 90 und die größte Anzahl 100.
Daher beträgt die kleinstmögliche Anzahl von Etiketten 9000 + 7 + 8 + 6 + 10 + 5 + 7 = 9043 (gemäß OP-Daten), 9000 aufgrund unserer Untergrenze und der zusätzlichen Etiketten, die aus den beobachteten Daten stammen.
Bezeichne die Anzahl der Etiketten in einem Umschlag . Bezeichne die Anzahl der Labels über 90, dh , also . Die Binomialverteilung modelliert die Gesamtzahl der Erfolge (hier ist ein Erfolg das Vorhandensein eines Etiketts in einem Umschlag) in Versuchen, wenn die Versuche mit konstanter Erfolgswahrscheinlichkeit unabhängig sind, sodass die Werte annimmtWir nehmen , was 11 verschiedene mögliche Ergebnisse ergibt. Ich gehe davon aus, dass aufgrund der unregelmäßigen Blattgrößen einige Blätter nur Platz fürYi i Xi X=Y−90 X∈{0,1,2,...,10} n p X 0,1,2,3,...,n. n=10 X zusätzliche Markierungen über 90, und dass dieser "zusätzliche Raum" für jede Markierung über 90 unabhängig mit der Wahrscheinlichkeit auftritt . Alsop Xi∼Binomial(10,p).
(Nach der Überlegung ist die Annahme der Unabhängigkeit / des Binomialmodells wahrscheinlich eine seltsame Annahme, da dadurch die Zusammensetzung der Druckerbögen effektiv als unimodal festgelegt wird und die Daten nur den Ort des Modus ändern können, das Modell dies jedoch niemals zulässt.) eine multimodale Verteilung , z. B. unter einem alternativen Modell, ist es möglich , dass der Drucker nurhat Blätter der Größen 97, 98, 96, 100 und 95: dies erfüllt alle angegebenen Einschränkungen und die Daten schließen diese Möglichkeit nicht aus. Es ist möglicherweise sinnvoller, jedes Blattformat als eine eigene Kategorie zu betrachten und dann ein Dirichlet-Multinomial-Modell an die Daten anzupassen. Ich mache das hier nicht, weil die Daten so knapp sind, so dass die hinteren Wahrscheinlichkeiten für jede der 11 Kategorien sehr stark vom Prior beeinflusst werden. Andererseits schränken wir durch die Anpassung des einfacheren Modells auch die Art der Schlussfolgerungen ein, die wir ziehen können.)
Jeder Umschlag ist eine IId Realisierung . Die Summe der Binomialversuche mit der gleichen Erfolgswahrscheinlichkeit ist ebenfalls binomial, also(Dies ist ein Theorem. Verwenden Sie zur Verifizierung den MGF-Eindeutigkeitssatz.)i X p ∑iXi∼Binomial(60,p).
Ich ziehe es vor, über diese Probleme im Bayes'schen Modus nachzudenken, da Sie direkte Wahrscheinlichkeitsaussagen über posteriore interessierende Mengen machen können. Ein typischer Stand der Technik für Binomialversuche mit unbekanntem ist die Beta-Verteilung , die sehr flexibel ist (variiert zwischen 0 und 1, kann in beide Richtungen symmetrisch oder asymmetrisch sein, gleichförmig sein oder eine von zwei Dirac-Massen haben, einen Antimode oder einen Mode. Es ist ein erstaunliches Werkzeug! In Ermangelung von Daten erscheint es vernünftig, eine einheitliche Wahrscheinlichkeit über anzunehmen . Das heißt, man könnte erwarten, dass auf einem Blatt 90 Etiketten 91, 92, ... und 100 Platz finden. Unser Prior ist alsop p p∼Beta(1,1). Wenn Sie der Meinung sind, dass diese Betaversion nicht zumutbar ist, können Sie die einheitliche Betaversion durch eine andere ersetzen, und der Schwierigkeitsgrad steigt nicht einmal an.
Die posteriore Verteilung auf ist durch die Konjugationseigenschaften dieses Modells. Dies ist jedoch nur ein Zwischenschritt, da uns weniger wichtig ist als die Gesamtzahl der Etiketten. Zum Glück bedeuten die Eigenschaften der Konjugation auch, dass die posteriore prädiktive Verteilung der Blätter Beta-Binomial ist , mit Parametern der Beta-Posterior. Es gibt reamining „Versuche“, also Etiketten , für die ihre Präsenz in der Lieferung unsicher ist, so dass unser posterior Modell auf den verbleibenden Etiketten istp p∼Beta(1+43,1+17) p 940 Z Z∼BB(44,18,940).
Da wir eine Verteilung auf und ein Wertmodell pro Etikett haben (der Verkäufer hat einem Dollar pro Etikett zugestimmt), können wir auch eine Wahrscheinlichkeitsverteilung über den Wert des Loses ableiten. Man bezeichne den Gesamtdollarwert der Partie. Wir wissen, dass , weil nur die Bezeichnungen modelliert, über die wir unsicher sind. So ist die Verteilung über Wert ist gegeben durch .Z D D=9043+Z Z D
Was ist der geeignete Weg, um die Preisgestaltung des Loses zu erwägen?
Wir können feststellen, dass die Quantile bei 0,025 und 0,975 (ein 95% -Intervall) 553 bzw. 769 betragen. Das 95% -Intervall für D ist also . Ihre Zahlung fällt in dieses Intervall. (Die Verteilung auf ist nicht genau symmetrisch, daher ist dies nicht das zentrale 95% -Intervall. Die Asymmetrie ist jedoch vernachlässigbar. Wie ich weiter unten erläutere, bin ich mir nicht sicher, ob ein zentrales 95% -Intervall überhaupt das richtige ist eine zu beachten!)[9596,9812] D
Ich kenne keine Quantilfunktion für die Beta-Binomialverteilung in R, daher habe ich meine eigene mit Rs Root-Finding geschrieben.
Eine andere Möglichkeit, darüber nachzudenken, besteht darin, über die Erwartungen nachzudenken. Wenn Sie diesen Vorgang mehrmals wiederholen, wie hoch sind dann die durchschnittlichen Kosten, die Sie bezahlen würden? Wir können die Erwartung von direkt berechnen . Das Beta-Binomialmodell hat die Erwartung , also fast genau das, was Sie bezahlt haben. Ihr erwarteter Verlust bei dem Geschäft betrug nur 6 Dollar! Alles in allem gut gemacht!D E(D)=E(9043+Z)=E(Z)+9043. E(Z)=nαα+β=667.0968 E(D)=9710.097,
Ich bin mir jedoch nicht sicher, ob eine dieser Zahlen die relevanteste ist. Immerhin versucht dieser Anbieter, Sie zu betrügen! Wenn ich diesen Deal machen würde, würde ich aufhören, mir Sorgen über die Gewinnschwelle oder den fairen Preis des Loses zu machen und die Wahrscheinlichkeit herausfinden, dass ich zu viel bezahle! Der Verkäufer versucht eindeutig, mich zu betrügen, daher bin ich vollkommen in meinem Recht, meine Verluste zu minimieren und mich nicht um die Gewinnschwelle zu kümmern. In dieser Einstellung ist der höchste Preis, den ich anbieten würde, 9615 Dollar, da dies das 5% -Quantil des hinteren Teils von , dh es besteht eine 95% -ige Wahrscheinlichkeit, dass ich unterbezahleD . Der Verkäufer kann mir nicht beweisen, dass alle Labels vorhanden sind, daher werde ich meine Einsätze absichern.
(Die Tatsache, dass der Verkäufer den Deal akzeptiert hat, sagt uns natürlich, dass er einen nichtnegativen realen Verlust hat ... Ich habe keine Möglichkeit gefunden, diese Informationen zu verwenden, um genauer zu bestimmen, wie viel Sie betrogen wurden, außer zu beachten dass, weil er das Angebot angenommen hat, Sie bestenfalls die Gewinnschwelle überschritten haben.)
Vergleich zum Bootstrap
Wir haben nur 6 Beobachtungen, mit denen wir arbeiten können. Die Rechtfertigung für den Bootstrap ist asymptotisch. Betrachten wir also, wie die Ergebnisse in unserer kleinen Stichprobe aussehen. Dieses Diagramm zeigt die Dichte der Boostrap-Simulation.
Das "holprige" Muster ist ein Artefakt der kleinen Stichprobengröße. Das Einbeziehen oder Ausschließen eines Punktes hat einen dramatischen Effekt auf den Mittelwert, wodurch dieses "büschelige" Erscheinungsbild entsteht. Der Bayes'sche Ansatz glättet diese Klumpen und ist meiner Meinung nach ein glaubwürdigeres Porträt dessen, was vor sich geht. Vertikale Linien sind die 5% Quantile.
quelle
EDIT: Tragödie! Meine anfänglichen Annahmen waren falsch! (Oder zumindest im Zweifelsfall - vertrauen Sie dem, was der Verkäufer Ihnen sagt? Trotzdem, haben Sie auch einen Tipp an Morten.) Was meiner Meinung nach eine weitere gute Einführung in die Statistik ist, aber der Teilblattansatz wird jetzt unten hinzugefügt. ( da die Leute das Ganze Blatt zu mögen schienen, und vielleicht wird es noch jemand nützlich finden).
Vor allem ein großes Problem. Aber ich würde es gerne etwas komplizierter machen.
Lassen Sie mich es deshalb vorab etwas einfacher machen und sagen: Die Methode, die Sie gerade anwenden, ist absolut vernünftig . Es ist billig, es ist einfach, es macht Sinn. Wenn Sie sich also daran halten müssen, sollten Sie sich nicht schlecht fühlen. Stellen Sie einfach sicher, dass Sie Ihre Bundles zufällig auswählen. UND, wenn Sie einfach alles zuverlässig wiegen können (Hutspitze zu whuber und user777), dann sollten Sie das tun.
Der Grund, warum ich es etwas komplizierter machen möchte, ist, dass Sie es bereits getan haben - Sie haben uns nur nicht über die ganze Komplikation informiert, das heißt: Zählen braucht Zeit, und Zeit ist auch Geld . Aber wie viel ? Vielleicht ist es tatsächlich billiger, alles zu zählen!
Sie müssen also die Zeit, die Sie zum Zählen benötigen, mit der Menge an Geld, die Sie sparen, abwägen. (WENN Sie dieses Spiel natürlich nur einmal spielen. Wenn Sie das das NÄCHSTE Mal mit dem Verkäufer tun, haben sie möglicherweise einen neuen Trick erprobt. In der Spieltheorie ist dies der Unterschied zwischen Einzelschussspielen und Wiederholt Spiele. Aber vorerst wollen wir so tun, als würde der Verkäufer immer dasselbe tun.)
Noch etwas, bevor ich zur Schätzung komme. (Und es tut mir leid, dass ich so viel geschrieben habe und immer noch nicht auf die Antwort gekommen bin, aber dann ist das eine ziemlich gute Antwort auf Was würde ein Statistiker tun? bevor sie sich wohl fühlten, etwas darüber zu sagen.) Und das Ding ist eine Einsicht, die auf Folgendem basiert:
(BEARBEITEN: WENN SIE TATSÄCHLICH TÄUSCHEN ...) Ihr Verkäufer spart kein Geld, indem er Etiketten entfernt - er spart Geld, indem er keine Blätter druckt . Sie können Ihre Etiketten nicht an andere verkaufen (nehme ich an). Und vielleicht weiß ich es nicht und ich weiß nicht, ob Sie es tun. Sie können nicht ein halbes Blatt von Ihren Sachen und ein halbes Blatt von jemand anderem drucken. Mit anderen Worten, bevor Sie überhaupt angefangen Zählen haben, können Sie davon ausgehen , dass die Gesamtzahl der Etiketten entweder ist
9000, 9100, ... 9900, or 10,000
. So gehe ich es vorerst an.Die Ganzblattmethode
Wenn ein Problem wie dieses ein wenig knifflig ist (diskret und begrenzt), simulieren viele Statistiker, was passieren könnte. Folgendes habe ich simuliert:
Dies gibt Ihnen, vorausgesetzt sie verwenden ganze Blätter und Ihre Annahmen sind korrekt, eine mögliche Verteilung Ihrer Etiketten (in der Programmiersprache R).
Dann habe ich das gemacht:
Dies findet unter Verwendung einer "Bootstrap" -Methode Konfidenzintervalle unter Verwendung von 4, 5, ... 20 Abtastwerten. Mit anderen Worten: Wenn Sie im Durchschnitt N Stichproben verwenden würden, wie groß wäre Ihr Konfidenzintervall? Ich benutze dies, um ein Intervall zu finden, das klein genug ist, um über die Anzahl der Blätter zu entscheiden, und das ist meine Antwort.
Mit "klein genug" meine ich, dass in meinem 95% -Konfidenzintervall nur eine ganze Zahl enthalten ist. Wenn mein Konfidenzintervall beispielsweise bei [93,1, 94,7] liegt, würde ich 94 als die richtige Anzahl von Blättern auswählen, da wir wissen es ist eine ganze Zahl.
Eine weitere Schwierigkeit - Ihr Vertrauen hängt von der Wahrheit ab . Wenn Sie über 90 Blatt verfügen und jeder Stapel über 90 Etiketten verfügt, konvergieren Sie sehr schnell. Gleiches gilt für 100 Blatt. Ich habe mir also 95 Blätter angesehen, bei denen die größte Unsicherheit besteht, und festgestellt, dass Sie für 95% ige Sicherheit durchschnittlich etwa 15 Muster benötigen. Nehmen wir also an, Sie möchten insgesamt 15 Proben nehmen, weil Sie nie wissen, was wirklich da ist.
Nachdem Sie wissen, wie viele Proben Sie benötigen, wissen Sie, dass Sie mit folgenden Einsparungen rechnen müssen:
Dabei ist die Kosten für das Zählen eines Stapels. Wenn Sie davon ausgehen, dass jede Zahl zwischen 0 und 10 mit gleicher Wahrscheinlichkeit fehlt, liegen Ihre erwarteten Einsparungen bei c $. Aber und hier ist der Punkt, an dem Sie die Gleichung aufstellen müssen: Sie können sie auch optimieren, um Ihr Vertrauen in die Anzahl der von Ihnen benötigten Proben zu verlieren. Wenn Sie mit der Gewissheit einverstanden sind, dass Sie 5 Proben erhalten, können Sie auch berechnen, wie viel Sie dort verdienen. (Und Sie können mit diesem Code spielen, um das herauszufinden.)500 - 15 ∗c 500−15∗
Aber Sie sollten auch den Typen dafür belasten, dass er Sie dazu gebracht hat, all diese Arbeit zu erledigen!
(EDIT: ADDED!) Der Partial Sheet Approach
Okay, nehmen wir also an, dass das, was der Hersteller sagt, wahr ist und nicht beabsichtigt ist - ein paar Etiketten gehen einfach in jedem Blatt verloren. Sie möchten immer noch wissen, über wie viele Labels insgesamt?
Dieses Problem ist anders, weil Sie keine schöne saubere Entscheidung mehr treffen können - das war ein Vorteil für die Annahme von Whole Sheet. Früher gab es nur 11 mögliche Antworten - jetzt gibt es 1100 Antworten. Wenn Sie ein Konfidenzintervall von 95% für genau die Anzahl der Etiketten erhalten, werden wahrscheinlich viel mehr Proben entnommen, als Sie möchten. Mal sehen, ob wir uns das anders überlegen können.
Da es wirklich darum geht, dass Sie eine Entscheidung treffen, fehlen uns noch einige Parameter - wie viel Geld sind Sie bereit, in einem einzigen Deal zu verlieren, und wie viel Geld kostet es, einen Stapel zu zählen. Aber lassen Sie mich festlegen, was Sie mit diesen Zahlen machen können.
Wenn Sie erneut simulieren (obwohl dies für user777 empfohlen wird, wenn Sie es nicht tun können!), Ist es informativ, die Größe der Intervalle zu überprüfen, wenn Sie eine andere Anzahl von Samples verwenden. Das geht so:
Diesmal wird davon ausgegangen, dass jeder Stapel eine einheitlich zufällige Anzahl von Etiketten zwischen 90 und 100 enthält, und Sie erhalten:
Wenn die Dinge wirklich so aussehen würden, als wären sie simuliert worden, wäre der wahre Mittelwert ungefähr 95 Samples pro Stapel, was niedriger ist als die Wahrheit - dies ist tatsächlich ein Argument für den Bayes'schen Ansatz. Aber es gibt Ihnen ein nützliches Gefühl dafür, wie viel sicherer Sie über Ihre Antwort werden, wenn Sie weiter probieren - und Sie können jetzt die Kosten für die Probennahme explizit mit dem Preis abwägen, zu dem Sie kommen.
Was ich mittlerweile weiß, wir sind alle sehr neugierig.
quelle
9000,9100...10000
am Ende die Gesamtzahl der Beschriftungen haben möchten, können Sie Ihre if-Logik durch ersetzenbucket <- sample(which(stacks!=100),1)
und dann den Stapel immer inkrementieren.Dies ist eine ziemlich begrenzte Stichprobe. (Code-Schnipsel sind in R)
Für eine erste Schätzung der erwarteten Anzahl in der Gesamtbevölkerung und einen 95% igen Vertrauenswert für den Preis können wir mit dem Mittelwert und dem 5% igen Quantil beginnen
Um weiter zu gehen, müssen wir ein theoretisches Modell erstellen und zusätzliche Annahmen treffen. Es gibt verschiedene Unsicherheitsquellen: (1) Unsicherheit für die Funktionsform eines Modells zur Paketfüllung, (2) Unsicherheit bei der Schätzung der Parameter für das Modell und (3) Abtastfehler.
lambda
100*lambda
Angenommen, jedes Paket wird unabhängig gefüllt, können wir die gesamte Paketbox als 10000 unabhängige Ereignisse anstatt als 100 Ereignisse von 100 Unterereignissen anzeigen. Der Mittelwert beträgt daher 9717,138 mit der Standardabweichung 69,57153. Mit der Verteilungsfunktion können Sie die 95% -Konfidenzzahl auf etwa 9593 berechnen. Dabei habe ich das R-Paket
VGAM
für seine*betabinom.ab
Funktionen verwendet.Die Unsicherheit in dem geschätzten Parameter reduziert den 95% -Konfidenzpreis also um fast 100, und wir kommen unserer anfänglichen einfachen Annäherung ziemlich nahe.
Unabhängig vom Ansatz oder Modell können zusätzliche Daten verwendet werden, um das Modell zu validieren. Dies bedeutet, dass die zusätzlichen Daten unter dem theoretischen Modell angemessen sind oder ob Anpassungen oder ein neues Modell erforderlich sind. Der Modellierungsprozess ähnelt der wissenschaftlichen Methode.
quelle
Zur Not würde meine erste Neigung darin bestehen, ein Konfidenzintervall von 95% für Ihren Stichprobenmittelwert über eine abgestumpfte Normalverteilung zwischen der unteren und oberen Grenze von 90 und 100 Etiketten zu berechnen .
Mit dem Paket R
truncnorm
können Sie Konfidenzintervalle für eine verkürzte Normalverteilung bei einem bestimmten Stichprobenmittelwert, einer bestimmten Stichprobenstandardabweichung, einer bestimmten Unter- und Obergrenze ermitteln.Da Sie eine Stichprobe von n = 5 aus einer relativ kleinen Grundgesamtheit (N = 100) ziehen, können Sie die Standardabweichung der Stichprobe mit einem endlichen Grundgesamtheitsfaktor multiplizieren = [(Nn) / (N-1)] ^. 5 = 0,98.
quelle
Ein schneller und einfacher Ansatz besteht darin, alle möglichen Resamples der Größe 6 zu berücksichtigen. Es gibt nur 15.625 Permutationen. Betrachtet man diese und nimmt den Durchschnitt für jeden Fall, sortiert dann die Mittelwerte und extrahiert das 5% -Quantil, so erhält man einen Wert von 96.
Der geschätzte Betrag, den Sie bereit sein sollten zu zahlen, liegt bei 9600. Dies steht in guter Übereinstimmung mit einigen der ausgefeilteren Ansätze.
Eine Verbesserung wäre hier, eine große Anzahl von Proben der Größe 6 zu simulieren und auf dieselbe Weise das 5. Perzentil der Probenmittel zu finden. Unter Verwendung von etwas mehr als einer Million Resamples fand ich das 5. Perzentil als 96,1667, sodass die Zahlung auf den nächsten Dollar 9617 Dollar betragen würde, was nur eine Differenz von 2 Dollar zum Ergebnis von 9615 von user777 ist.
quelle
Es scheint, als hätten Sie bereits festgestellt, dass der Fehler absichtlich begangen wurde, aber ein Statistiker würde nicht zu solchen Schlussfolgerungen springen (obwohl die Beweise dies zu stützen scheinen).
Man könnte dies als Hypothesentest aufstellen:
H0: Der Händler ist ehrlich, aber ziemlich schlampig
H1: Der Händler ist betrügerisch und der Fehlbetrag ist beabsichtigt.
Nehmen wir H0 an, dann ist jede Abweichung ein zufälliges Ereignis mit einem Mittelwert von 0 und der gleichen Chance, positiv oder negativ zu sein. Nehmen wir weiter an, dass die Abweichungen normalverteilt sind. Die Standardabweichung für die Normalverteilung basierend auf den Abweichungen in den 6 Datenpunkten beträgt sd = 1,722
Wenn sich der Statistiker nicht sehr gut an seine Theorie erinnerte, aber R in der Nähe hatte (kein unwahrscheinliches Szenario), könnte er / sie den folgenden Code schreiben, um die Wahrscheinlichkeit zu prüfen, keine positiven Abweichungen zu erhalten (keine Pakete von mehr als 100), wenn H0 ist wahr.
Das Ergebnis der Simulation ist:
Die Wahrscheinlichkeit, dass der Dealer ehrlich ist, beträgt nur 5,35%, und es ist daher sehr wahrscheinlich, dass Sie Opfer eines Betrugs wurden.
Da Sie sagen, dass dies keine Hausaufgabe, sondern eine reale Situation für Ihr Unternehmen ist, ist dies keine Übung zur Berechnung der korrekten erwarteten Nummernschilder mehr, sondern ein kniffliger Fall, wie man mit einem unehrlichen Lieferanten umgeht.
Was Sie von hier aus tun, lässt sich nicht allein mit Statistiken beantworten. Es hängt sehr stark von Ihrer Hebelwirkung und Ihrer Beziehung zum Händler ab.
Viel Glück !
Morten Bunes Gustavsen
quelle
Wie wäre es mit einem multinomialen Modell?
Die Wahrscheinlichkeit jedes Ergebnisses wird mit 1/6, 1/6, .... (basierend auf den 6 Beobachtungen) geschätzt, und so ist E (x) = 97,16 und Var (x) = Summe (95 ^ 2 * 1/6 +) ...) - E (x) ^ 2 = 2.47, so dass der 95% CI [94, 100] wäre
quelle