Gibt es heute jemanden, der schneller ist als Usain Bolt?

EDIT: Ich interessiere mich mehr für die technischen Fragen und Methoden zur Bestimmung der Wahrscheinlichkeit eines "wahren" Maximums in einer bestimmten Population bei einer Stichprobenstatistik. Es gibt Probleme, die Wahrscheinlichkeit schnellerer Läufer als Mr. Bolt anhand von Rekordzeiten zu schätzen, die sowohl offensichtlich als auch subtil sind. Humor mich, indem Sie sich vorstellen, dass dies nicht der Fall ist.

Usain Bolt ist der schnellste Mensch, der für den 100-Meter-Lauf gemessen wurde. Angesichts der geringen Anzahl von Athleten scheint es jedoch wahrscheinlich, dass der "wahre" schnellste lebende Mensch irgendwo auf einer Couch sitzt und nie versucht hat, eine wettbewerbsfähige Laufkarriere zu starten.

Ich versuche die Tatsache zu nutzen, dass der Unterschied zwischen den Proben an den Enden der Normalverteilung immer kleiner wird. Ich benutze dies, um die Wahrscheinlichkeit zu berechnen, dass es jemanden gibt, der schneller als Usain Bolt ist, indem ich Usain mit dem zweitschnellsten, drittschnellsten usw. vergleiche.

Um dies zu tun, ich versuche , den größten Wert zu berechnen, indem die Ableitung der Normalverteilung der CDF in Bezug auf beyond „Usain Bolt“ existiert $y$ , Aufhellen , dass mit dem - ten (wobei ist etwa 7 Milliarden oder die Anzahl der Samples, die kleiner als das "Maximum" sind - die Logik dahinter ist auf der Wikipedia-Seite zu deutschen Panzerproblemen beschrieben, die unter verschiedenen Distributionen verallgemeinert), zB: $n$ $n$

$\int_{0}^{\infty}y f_{Y_N} (y)dy = \lambda n \int_{0}^{\infty} y \left [ \tfrac12\left[1 + \operatorname{erf}\left( \frac{y-\mu}{\sigma\sqrt{2}}\right)\right] \right ]^{n-1} \frac{1}{\sqrt{2\pi\sigma^2}}\, e^{-\frac{(y - \mu)^2}{2 \sigma^2}}dy$

Ist dies eine gültige Methode, um die Wahrscheinlichkeit zu berechnen, dass es jemanden gibt, der schneller ist als Usain Bolt?
Gibt es einen Namen für diese Art von Frage außerhalb von "Deutsches Panzerproblem für andere Distributionen"?
Gibt es eine gute Möglichkeit, die Standardabweichung von den extremen Stichproben einer Verteilung abzuschätzen? Es ist einfach, Informationen über die schnellsten 100-Meter-Bindestriche aller Zeiten zu finden.

Vielen Dank für Ihre Geduld im Umgang mit einem Programmierer ohne Hintergrundwissen zum Thema.

normal-distribution maximum ŹV -
quelle

Sie gehen davon aus, dass Sie als Athlet unabhängig von Ihrer Laufgeschwindigkeit sind. Welches ist in Ordnung, aber fraglich.

Bayerj

@bayerj Ja, ich denke, es ist ziemlich klar, dass dies eine wirklich schlechte Art wäre, den nächsten olympischen Herausforderer vorherzusagen. Im Allgemeinen scheint es sich jedoch um eine interessante Frage zu handeln, und ich versuche, sie nach besten Kräften zu beantworten, in der Hoffnung, dass jemand Mitleid hat und mir weiterhilft.

ŹV -

Ich finde die Frage schlecht gestellt, da sich die Qualität des "schnellen (er)" hier auf ein genetisches Potenzial oder sportliches Talent bezieht und nicht auf die tatsächliche Fähigkeit, hohe Geschwindigkeiten zu erreichen.

Digio

@Digio "schneller" durch "hat höhere Seriennummer" ersetzen, vorausgesetzt, einige Unternehmen "Fubarco" stellen eine Reihe von Produkten mit normal verteilten Seriennummern her.

ŹV -

Das Motivieren einer Frage mit einem Beispiel ist im Allgemeinen eine gute Sache. Dieses Beispiel scheint jedoch die Leute von dem abzulenken, was Sie wirklich zu fragen versuchen. Könnten Sie dies bearbeiten, um die Situation zu diskutieren, mit der Sie wirklich konfrontiert sind?

gung - Wiedereinsetzung von Monica

Antworten:

Im Gegensatz zu anderen Antworten würde ich argumentieren, dass Sie angesichts der verfügbaren Daten etwas über die Fähigkeiten von Bolts sagen können. Lassen Sie uns zunächst Ihre Frage einschränken. Sie fragen nach dem schnellsten Menschen, aber da es einen Unterschied in der Verteilung der Laufgeschwindigkeiten für Männer und Frauen gibt, bei denen die besten Frauen etwas langsamer zu sein scheinen als die besten Männer, sollten wir uns auf Männer konzentrieren. Um einige Daten zu erhalten, können wir die besten Jahresergebnisse von 100 Läufen der letzten 45 Jahre betrachten . Es gibt verschiedene Dinge, die bei diesen Daten zu beachten sind:

Das sind die besten Laufzeiten, also erzählen sie nicht von den Fähigkeiten aller Menschen, sondern von den minimal erreichten Geschwindigkeiten.
Wir gehen davon aus, dass diese Daten eine Auswahl der besten Läufer der Welt widerspiegeln. Es könnte sein, dass es noch bessere Läufer gab, die nicht an den Meisterschaften teilgenommen haben, aber diese Annahme scheint ziemlich vernünftig zu sein.

Lassen Sie uns zunächst erläutern, wie Sie diese Daten nicht analysieren können. Sie könnten feststellen, dass wir, wenn wir die Laufzeiten gegen die Zeit zeichnen, eine starke lineare Beziehung beobachten würden.

Dies könnte dazu führen, dass Sie mithilfe der linearen Regression prognostizieren, wie viel bessere Läufer wir in den nächsten Jahren beobachten können. Dies wäre jedoch eine sehr schlechte Idee, die unvermeidlich zu dem Schluss führen würde, dass Menschen in ungefähr zweitausend Jahren in der Lage wären, 100 Meter in null Sekunden zu rennen, und danach würden sie anfangen, die negativen Laufzeiten zu erreichen! Dies ist natürlich absurd, da wir uns vorstellen können, dass es eine biologische und physikalische Grenze unserer Fähigkeiten gibt, die uns unbekannt ist.

$Y = \max(X_1,X_2,\dots,X_n)$ wobei unabhängige und identisch verteilte Zufallsvariablen sind, dann folgen einer GEV-Verteilung. Wenn Sie Minimas modellieren möchten, dann sind Z_1, Beispiele für Minimas, dann $X_1,X_2,\dots,X_n$ $Y_i$ $Z_1,Z_2,\dots,Z_k$ $-Z_i$ 's folgen einer GEV-Distribution für Minimas. So können wir die GEV-Verteilung an die Laufgeschwindigkeitsdaten anpassen, was zu einer ziemlich guten Anpassung führt (siehe unten).

Wenn Sie sich die vom Modell vorgeschlagene kumulative Verteilung ansehen, werden Sie feststellen, dass die beste Laufzeit von Usain Bolt bei der niedrigsten $1\%$ Ende der Verteilung. Wenn wir uns also an diese Daten und diese Spielzeugbeispielanalyse halten, würden wir den Schluss ziehen, dass die wesentlich kürzeren Laufzeiten unwahrscheinlich (aber offensichtlich möglich) sind. Das offensichtliche Problem bei dieser Analyse ist, dass wir die Tatsache ignorieren, dass sich die besten Laufzeiten von Jahr zu Jahr verbessert haben. Dies bringt uns zurück zu dem im ersten Teil der Antwort beschriebenen Problem, dass die Annahme eines Regressionsmodells hier riskant ist. Eine andere Sache, die verbessert werden könnte, ist, dass wir den Bayes'schen Ansatz anwenden und voraussetzen könnten, dass einiges an Wissen über die physiologisch möglichen Laufzeiten vorliegt, das möglicherweise noch nicht beobachtet wurde (aber, soweit ich weiß, dies ist derzeit nicht bekannt). Eine ähnliche Extremwerttheorie wurde schließlich bereits in der Sportforschung angewendet, z. B. von Einmahl und Magnus (2008) imRekorde in der Leichtathletik durch das Papier der Extreme Value Theory .

Sie könnten protestieren, dass Sie nicht nach der Wahrscheinlichkeit der schnelleren Laufzeit gefragt haben, sondern nach der Wahrscheinlichkeit, einen schnelleren Läufer zu beobachten. Leider können wir hier nicht viel tun, da wir nicht wissen, wie hoch die Wahrscheinlichkeit ist, dass ein Läufer ein Profisportler wird und ihm die aufgezeichneten Laufzeiten zur Verfügung stehen. Dies geschieht nicht zufällig und es gibt viele Faktoren, die dazu beitragen, dass einige Läufer zu Profisportlern werden und andere nicht (oder sogar, dass jemand gerne rennt und überhaupt rennt). Dazu müssten wir detaillierte bevölkerungsweite Daten zu Läufern haben. Da Sie außerdem nach den Extremen der Verteilung fragen, müssten die Daten sehr umfangreich sein. In diesem Punkt stimme ich den anderen Antworten zu.

Tim
quelle

Mein erster Instinkt ist, dass dies eine schlechte Idee ist, aber lassen Sie mich kurz auf den Grund eingehen.

1) Sie möchten eine nicht beobachtbare Variable, eine latente Lauffähigkeit, mit einer beobachtbaren, aufgezeichneten Laufzeit messen. Das ist in Ordnung, aber: In der deutschen Panzerproblematik werden die Seriennummern alle aus der gleichen Gleichverteilung generiert. In Ihrem Problem müssen Sie die latente variable Fähigkeit (von 7 Milliarden Menschen) aus den beobachtbaren variablen Laufzeiten ableiten. Im GTP sind mehrere Seriennummern bekannt. In Ihrem Problem haben Sie überhaupt keine Daten gesammelt und sind nur auf dem Höhepunkt (Bolt). Darüber hinaus scheinen Sie anzunehmen, dass diese nicht beobachtbare latente Fähigkeit nicht mit den tatsächlichen Laufzeiten korreliert, bis zu dem Punkt, an dem es möglich ist, dass jemand, der noch nie gelaufen ist, besser ist als Bolt. Es scheint nur absurd!

2) Athleten sind keine Zufallsstichproben der Bevölkerung. Sie werden sorgfältig durch mehrere Versuche ausgewählt. Wenn wir davon ausgehen, dass jeder, der überhaupt in der Lage ist zu laufen, wahrscheinlich mindestens einmal in seinem Leben an einem Rennen teilgenommen hat und dass jeder eine Entscheidung getroffen hat, ob er weiterhin ein höheres Wettbewerbsniveau erreichen soll, basierend darauf, wie oft oder wie viel er gewinnt Rennen --- dann scheint es nicht so unwahrscheinlich, dass Bolt wirklich der schnellste Mensch ist, den es gibt.

Dies sind nur die ersten Gründe, die mir einfallen. Ehrlich gesagt, Sie sind ein bisschen verrückt. Es gibt keine Möglichkeit, die "Wahrscheinlichkeit" der Art von Dingen zu messen, über die Sie sprechen.

entartetes Hessisch
quelle

Ein anderer Befragter äußerte sich ähnlich und es ist zweifellos richtig, dass die Einschätzung der Wahrscheinlichkeit, dass es jemanden gibt, der schneller als Mr. Bolt ist, auf dieser Grundlage sehr fehlerhaft ist. Interessanter wäre es auch zu wissen, ob die auf diesen Extremwerten basierende technische Prognoselogik prinzipiell korrekt ist.

ŹV -

Ich würde vorschlagen, die Frage dann zu abstrahieren, um auf den Punkt zu bringen, was Sie tatsächlich zu fragen versuchen, da der Kontext viel Ablenkung hervorrufen wird. Mir ist immer noch nicht klar, auf welche "Normalverteilung" Sie sich beziehen. Aktuelle Laufzeiten? Lauffähigkeit von Sportlern?

entarteten Hessischen

-2

Die Antwort ist nein.

Sie gehen davon aus, dass es eine Stichprobe aus der Bevölkerung (Sportler) gibt, und Bolt ist das Maximum in dieser Stichprobe. Sie suchen also nach der Wahrscheinlichkeit, dass das Maximum der Population größer ist als das Maximum der Stichprobe. Das ist deine Hypothese.

Was ist, wenn Ihre Annahme falsch ist und die Stichprobe tatsächlich die Bevölkerung war?

Ich kann mit Recht behaupten, dass jeder, der laufen kann, die Chance hatte, ihn zu schlagen. Niemand hat es getan, also ist er das wahre Maximum der Weltbevölkerung.

Es ist klar, dass die Athleten keine Zufallsstichprobe sind. Ich hoffe, es gibt keine Frage dazu. Es ist natürlich eine gewisse Zufälligkeit, wie man ein Athlet wird. Auf der anderen Seite werden seine sportlichen Fähigkeiten und Leistungen nicht mit denen des Athleten verglichen, wenn man kein Athlet ist. Ich kann davon ausgehen, dass jemand unter allen Bedingungen, die für ein Training UND ein hartes Training erforderlich sind, möglicherweise schneller als Bolt laufen KÖNNTE. Es ist jedoch unwahrscheinlich, dass Sie einen Nicht-Athleten ziehen und dieser Bolt unter Leichtathletikbedingungen im 100-Meter-Schuss schlägt.

Aksakal
quelle

Ich bin mehr an der Methodik interessiert, die dahinter steckt. Stellen Sie sich Tanks vor, deren Seriennummern normalerweise mit Duplikaten anstatt mit Laufgeschwindigkeit verteilt sind. :)

ŹV -