Überprüfung auf einen statistisch signifikanten Peak

14

Ich habe eine Reihe von Daten, y und . Ich möchte die folgende Hypothese testen: Es gibt einen Peak in ; das heißt, wenn zunimmt, nimmt zuerst zu und dann ab.y x yxyxy

Meine erste Idee war, und in eine Spiegelreflexkamera einzubauen. Das heißt, wenn ich finde, dass der Koeffizient vor signifikant positiv und der Koeffizient vor signifikant negativ ist, dann habe ich Unterstützung für die Hypothese. Dies überprüft jedoch nur einen Beziehungstyp (quadratisch) und erfasst möglicherweise nicht unbedingt die Existenz des Peaks.x 2 x x 2xx2xx2

Dann dachte ich daran, ,solcher Bereich von (geordnet Werte) x , daß b zwischen a und c zwei anderen Regionen von x , die mindestens so viele Punkte wie enthalten b und daß ¯ y b > ¯ y a und ¯ y b > ¯ y c deutlich. Wenn die Hypothese wahr ist, sollten wir viele solcher Regionen erwarten b . Wenn also die Anzahl von b ausreichend groß ist, sollte die Hypothese unterstützt werden.bxbacxbyb¯>ya¯yb¯>yc¯bb

Glauben Sie, ich bin auf dem richtigen Weg, um einen geeigneten Test für meine Hypothese zu finden? Oder erfinde ich das Rad und es gibt eine etablierte Methode für dieses Problem? Ich werde Ihren Beitrag sehr schätzen.

AKTUALISIEREN. Meine abhängige Variable ist count (nicht negative ganze Zahl).y

Nikita Samoylov
quelle
Variiert reibungslos mit x ? In diesem Fall können Sie versuchen, ein Modell mit einem Glättungsfaktor (z. B. einem GAM) anzupassen, und dann die ersten Ableitungen des Glättungsfaktors und deren Konfidenzintervall berechnen. Wenn die Ableitung signifikant zunimmt, dann haben Sie eine Antwort. yx
wieder einzusetzen Monica - G. Simpson

Antworten:

6

Ich dachte auch an die Glättungsidee. Es gibt jedoch einen ganzen Bereich, der als Antwortoberflächenmethode bezeichnet wird und bei dem nach Peaks in verrauschten Daten gesucht wird (dabei werden in erster Linie lokale quadratische Anpassungen an die Daten verwendet), und es gab ein berühmtes Papier, an das ich mich mit "Bump Hunting" im Titel erinnere. Hier sind einige Links zu Büchern über die Methodik der Antwortoberflächen. Ray Myers Bücher sind besonders gut geschrieben. Ich werde versuchen, das Beulenjagdpapier zu finden.

Response Surface Methodology: Prozess- und Produktoptimierung mit Hilfe von Designed Experiments

Antwortoberflächenmethodik und verwandte Themen

Antwortoberflächen-Methodik

Empirische Modellbildung und Reaktionsflächen

Obwohl nicht der Artikel, den ich gesucht habe, ist hier ein sehr relevanter Artikel von Jerry Friedman und Nick Fisher, der sich mit diesen Ideen befasst, die auf hochdimensionale Daten angewendet werden.

Hier ist ein Artikel mit einigen Online-Kommentaren.

Ich hoffe, Sie wissen meine Antwort zumindest zu schätzen. Ich denke, Ihre Ideen sind gut und auf dem richtigen Weg, aber ich glaube, Sie erfinden das Rad möglicherweise neu, und ich hoffe, Sie und andere werden sich diese hervorragenden Referenzen ansehen.

Michael R. Chernick
quelle
3
Ich war nicht unter den Downvotern, aber Antworten auf SE-Sites sind mehr als nur ein Link zu Inhalten. Es ist besser, den Inhalt zusammenzufassen oder eine zusammenfassende Antwort bereitzustellen und dann auf den Inhalt zu verlinken, um weitere Einzelheiten zu erfahren.
Setzen Sie Monica - G. Simpson
2
Ich stimme dem zu, weil (1) es eine gute Idee darstellt; (2) es hat einige Kommentare; und (3) es wird mit einigen sorgfältig ausgewählten Links unterstützt, einschließlich zu frei verfügbarem Material. Ja, es sieht typografisch schlecht aus, weil die Links besser formatiert sein könnten. Ich hoffe, dass die Leute diesen Aspekt der Antworten bei ihren Abstimmungsentscheidungen nicht stark abwägen!
Whuber
1
@whuber Ich stimme zu, nachdem ich es aufgrund der netten Formatierung durch Procastinator deutlich lesen konnte. +1 auch. Ich denke, es gibt genug Zusammenfassung hier und einige Themen sind fast zu komplex für mehr als die Grundidee und eine Referenz für die weitere Lektüre.
Erik
5
@MichaelChernick Beachten Sie, dass dies keine Kritik von mir war, sondern nur einen Grund darstellte, warum die Leute möglicherweise abgestimmt haben. Ich würde ihnen nicht zustimmen, wenn dies der Grund wäre, denn ich denke, Ihre Antwort ist genau richtig, insbesondere bei PRIM. Ich habe gerade meinen Kollegen von Hastie et al. (2009) zu PRIM befragt. Sie können diesen Link zur Antwort hinzufügen, da es dort zwei Abschnitte zu PRIM gibt und das PDF kostenlos verfügbar ist.
Setzen Sie Monica - G. Simpson
1
@ Nikita Was ist die formale statistische Hypothese, die Sie testen möchten? Zuerst muss man die Peaks finden, die einen großen Teil davon ausmachen. Testen Sie, dass der Peak nicht nur auf Rauschen zurückzuführen ist? Ich bin nicht sicher, welche Literatur es gibt, um dieses Problem zu lösen, aber ich dachte, Sie könnten eine polynomielle Regression an die Daten anpassen (möglicherweise eine quadratische lokal). Daraus hätten Sie eine Schätzung der Restvarianz. Die statistische Signifikanz des quadratischen Terms wäre ein Test für die Signifikanz des Peaks.
Michael R. Chernick
1

Auch wenn Sie meine Frage nicht beantwortet haben, suchen Sie nach einem Test für weißes Rauschen, der im Frequenzbereich liegt, um zu zeigen, dass das Spektrum flach ist. Es könnte also ein Fisher-Periodogrammtest verwendet werden, der in dieser Literaturstelle als Fisher-Kappa bezeichnet wird. Siehe den Link.

http://www4.stat.ncsu.edu/~dickey/Spain/pdf_Notes/Spectral2.pdf

Bartletts Test wird auch in der Referenz erwähnt. Das Ablehnen der Nullhypothese läuft darauf hinaus, einen signifikanten Peak im Periodogramm zu finden. Dies würde bedeuten, dass in der Zeitreihe eine periodische Komponente vorhanden ist.

Da sich der Test im Frequenzbereich befindet und Periodogramm-Ordinaten umfasst, hat die Ordinate eine Chi-Quadrat-2-Verteilung unter der Nullhypothese und ist unabhängig. Diese spezielle Verteilung kommt nur durch die Transformation in den Frequenzbereich zustande. Wenn x Zeit wäre, würde dies im Zeitbereich nicht funktionieren, oder im Allgemeinen wäre die Verteilung für das ys kein unabhängiges Chi-Quadrat.

m

Michael R. Chernick
quelle
Je mehr ich auf dieser Website frage, desto mehr lerne ich =), diesmal über Tests mit weißem Rauschen und über die Notwendigkeit, dass ich bei meinen Fragen ausreichende Informationen gebe. Es tut mir leid, dass ich Ihre Frage nicht rechtzeitig beantwortet habe. Ich denke, Tests mit weißem Rauschen für Residuen wären geeignet, wenn die Fehler normalverteilt sind, aber meine abhängige Variable zählt tatsächlich. Ich würde also auf keinen Fall erwarten, dass in Resten weißes Rauschen auftritt. Oder vermisse ich etwas? y
Nikita Samoylov
Y ist also Zähldaten und was ist x eine kontinuierliche erklärende Variable? In meinen früheren Vorschlägen ist dies wahrscheinlich nicht der Fall, aber es gibt eine Menge neuerer Literatur zu Zählmodellen. Also, wenn Sie ein wenig genauer über die Daten und das Problem sein können, kann ich vielleicht auf eine Lösung verweisen.
Michael R. Chernick
yx
Ich bin mir nicht sicher, ob dies helfen wird, aber Cameron und Trivedi haben ein Buch über Count-Regressionsmodelle veröffentlicht und haben eine zweite Ausgabe im Jahr 2013 herausgebracht. Hier ist ein Link mit einigen Informationen: cameron.econ.ucdavis.edu/racd/count .html
Michael R. Chernick