"Alle diese Datenpunkte stammen aus der gleichen Verteilung."

16

Ich habe das Gefühl, dass ich dieses Thema schon einmal gesehen habe, aber ich konnte nichts Bestimmtes finden. Andererseits bin ich mir auch nicht sicher, wonach ich suchen soll.

Ich habe einen eindimensionalen Satz von bestellten Daten. Ich gehe davon aus, dass alle Punkte in der Menge aus derselben Verteilung gezogen werden.

Wie kann ich diese Hypothese testen? Ist es sinnvoll, gegen eine allgemeine Alternative von "die Beobachtungen in diesem Datensatz stammen aus zwei verschiedenen Verteilungen" zu testen?

Im Idealfall möchte ich herausfinden, welche Punkte aus der "anderen" Verteilung stammen. Könnte ich, da meine Daten bestellt sind, mit der Identifizierung eines Schnittpunkts davonkommen, nachdem ich irgendwie getestet habe, ob es "gültig" ist, die Daten zu schneiden?

Edit: Laut Antwort von Glen_b wäre ich an streng positiven, unimodalen Distributionen interessiert. Mich würde auch der Sonderfall interessieren, eine Verteilung anzunehmen und dann auf verschiedene Parameter zu testen .

Shadowtalker
quelle
Was meinst du mit "Gleichverteilung"? Werden Beobachtungen von Gamma als aus derselben Verteilung stammend betrachtet oder als die Summe der Exponentialverteilungen?
Metariat
+1 Das ist eine wirklich gute Frage, die Sie sich stellen sollten.
Mehrdad
@Metallica Solange jede Beobachtung eine exponentielle Summe ist, würde ich sagen, dass sie aus der gleichen Distribution stammen
shadowtalker
@Mehrdad Ich habe keine formelle Statistikausbildung, die über mein Grundstudium hinausgeht, und einige verschiedene Kurse in meinen Mastern. Wenn Sie sich meine Antworthistorie
ansehen
2
Eine Möglichkeit, sich dieser Frage zu nähern, besteht darin, eine endliche Mischung von z. B. einigen Verteilungsklassen zu betrachten und zu prüfen, ob Sie mehr als eine Mischungskomponente benötigen, um Ihre Daten gut zu beschreiben. Die Frage ist jedoch, ob es eine Klasse von Verteilungen gibt, die flexibel genug ist, um Ihre "Nullhypothese" durch eine einzelne Mischungskomponente zu beschreiben (z. B. wenn Sie eine endliche Mischung von Gammaverteilungen verwenden, sind diese möglicherweise nicht flexibel in Bezug auf Schräglage oder Tail Verhalten abhängig von dem, was Sie versuchen, zu tun), während die potenzielle Alternative als Mehrkomponentengemisch enthalten.
Björn

Antworten:

29

Stellen Sie sich zwei Szenarien vor:

  1. Die Datenpunkte wurden alle aus derselben Verteilung gezogen - einer, die auf (16,36) einheitlich war.

  2. Die Datenpunkte wurden aus einem 50-50-Mix von zwei Populationen gezogen:

    ein. Bevölkerung A, die wie folgt geformt ist:

Bildbeschreibung hier eingeben

b. Population B, wie folgt geformt:

Bildbeschreibung hier eingeben

... so dass die Mischung der beiden genau wie in 1 aussieht.

Wie konnte man sie auseinanderhalten?

Unabhängig von der Form, die Sie für zwei Populationen wählen, wird es immer eine einzige Bevölkerungsverteilung geben, die dieselbe Form hat. Dieses Argument zeigt deutlich, dass man es für den allgemeinen Fall einfach nicht kann. Es gibt keine Möglichkeit zur Differenzierung.

Wenn Sie Informationen über die Populationen (Annahmen, effektiv) einbringen, gibt es oft Möglichkeiten, um fortzufahren *, aber der allgemeine Fall ist tot.

* Wenn Sie beispielsweise annehmen, dass die Populationen unimodal sind und über ausreichend unterschiedliche Mittel verfügen, können Sie irgendwohin gelangen

[Es gibt Einschränkungen, die der Frage hinzugefügt wurden, die nicht ausreichen, um eine andere Version des oben beschriebenen Problems zu vermeiden. Wir können immer noch eine unimodale Null in die positive Halblinie als eine 50: 50-Mischung aus zwei unimodalen Verteilungen schreiben auf der positiven halben Linie. Wenn Sie eine spezifischere Null haben, ist dies natürlich weniger ein Problem. Alternativ sollte es weiterhin möglich sein, die Klasse der Alternativen weiter einzuschränken, bis wir in der Lage waren, gegen eine Mischungsalternative zu testen. Oder es könnten einige zusätzliche Einschränkungen sowohl für Null als auch für Alternative gelten, die sie unterscheidbar machen würden.]

Glen_b - Setzen Sie Monica wieder ein
quelle
1
Danke, tolles Gegenbeispiel. Es kommt also darauf an, die Alternativhypothese angemessen einzuschränken, richtig?
Shadowtalker
@ssdecontrol ja, im Wesentlichen; Wenn (unter den gegebenen Voraussetzungen) die Alternative von der Null unterschieden werden kann, besteht die Hoffnung auf einen Test mit einer Leistung, die über Ihrem Signifikanzniveau liegt.
Glen_b
0

Sie müssen offensichtlich eine Theorie haben, um über die Verteilung (en) zu sprechen und Hypothesen zu testen. Etwas, das Motive in einer oder mehreren Gruppen gruppiert, und etwas, das Messungen durchführt, um sie auseinander zu halten.

Wie kann man dorthin gelangen? Ich sehe drei Möglichkeiten:

  • Wenn Sie das aus Ihrem Fachgebiet bereits wissen, müssen Sie es nur in die Sprache der statistischen Hypothese übersetzen
  • Zeichnen Sie die Diagramme und erkennen Sie Muster, um zu testenden Hypothesen zu werden
  • Überlegen Sie sich eine Liste mit Verteilungen, für die Sie ein mathematisches Experiment durchführen können. Probabilistische Programmierung ist hier das Schlüsselwort

Die Übung lässt dann den Schluss zu, dass eine oder mehrere Gruppen in Ihrer Stichprobe vertreten sind oder nur eine. Oder überhaupt keine Gruppe.

Diego
quelle