Ich habe einen kleinen Datensatz, der zeigt, dass die Anzahl junger Patienten in einem Krankheitsregister im Laufe der Zeit zunimmt. Ich vermute, dass dies nur darauf zurückzuführen ist, dass die Registrierung im Laufe der Zeit erfolgreicher geworden ist und jetzt einen größeren Anteil der Fälle erfasst.
Ich möchte daher die Anzahl der jungen Patienten im Register jedes Jahr, z. B. in einem Liniendiagramm, zusammen mit der Gesamtzahl der Patienten (dh aller Altersgruppen), die jedes Jahr in das Register aufgenommen werden, darstellen und nachweisen, ob dies der Fall ist oder nicht
Ich habe dies grob in Excel gemacht und die Trends sind nicht identisch. Ich möchte daher zeigen, ob die Trends statistisch / grafisch miteinander übereinstimmen oder nicht. Kann jemand einen guten Weg vorschlagen, dies entweder mit Stata oder Excel zu tun?
quelle
Antworten:
Da die Varianz in einer Zählung oder Proportion tendenziell proportional zur Zählung oder Proportion selbst ist, schlagen Theorie (und viel Erfahrung) vor, die Quadratwurzeln der Daten zu analysieren.
Überzeugen Sie sich selbst, indem Sie die Proportionen und Gesamtzahlen auf Quadratwurzelachsen zeichnen.
Damit jede Spalte eine visuelle Wirkung hat, die direkt proportional zur Anzahl ist, die sie darstellt, sind die Spaltenbreiten (sowie ihre Höhen) auch proportional zu den Quadratwurzeln der Anzahl: Dadurch werden die Bereiche der Spalten direkt proportional zur Anzahl. Die Spalten sind nur leicht gezeichnet, da sie für diese Visualisierung der Proportionen von zweitrangigem Interesse sind , wie der Titel besagt.
Die scheinbar zufällige Variation von Punkten (die die Proportionen darstellen) um ihre Glätte (dargestellt als blaue Linie) sowie die ungefähre Symmetrie dieser Variation um die Glätte herum bestätigen die Angemessenheit der Quadratwurzelskala. Sie legen auch nahe, dass eine differenziertere Analyse der zeitlichen Korrelation nicht erforderlich ist: Sie können sicher sein, dass die Trends, die Sie in diesem Diagramm sehen, real sind. Sie zeigen ein subtileres Bild als in der Frage vorgeschlagen: Die Proportionen nehmen zu, aber nur in den ersten sieben Jahren.
Das Erstellen eines solchen kombinierten Diagramms kann in Excel oder Stata erfolgen, ist jedoch in beiden Programmen schwierig, pingelig und zeitaufwändig. Dieses Beispiel wurde mit dem
ggplot2
Paket inR
(Version 3.4.0) erstellt.Zur Veranschaulichung des Prozesses finden Sie hier den vollständigen
R
Code.quelle
sqrt
), und die Form der gelben Balken und der blauen Linie bleibt gleich, sodass Sie anscheinend die gleiche Schlussfolgerung ziehen würden.