Welcher Verteilung folgen meine Daten?

31

Angenommen, ich habe 1000 Komponenten und habe Daten darüber gesammelt, wie oft ein Fehler protokolliert wurde. Jedes Mal, wenn ein Fehler protokolliert wurde, verfolge ich auch, wie lange mein Team zur Behebung des Problems gebraucht hat. Kurz gesagt, ich habe die Reparaturzeit (in Sekunden) für jede dieser 1000 Komponenten aufgezeichnet. Daten werden am Ende dieser Frage angegeben.

Ich habe all diese Werte genommen und ein Cullen und Frey-Diagramm in R descdistaus dem fitdistrplusPaket gezogen. Ich hatte die Hoffnung zu verstehen, ob die Reparaturzeit einer bestimmten Verteilung folgt. Hier ist der Plot mit boot=500den Bootstrap-Werten:

Bildbeschreibung hier eingeben

Ich sehe, dass dieser Plot mir sagt, dass die Beobachtung in die Betaverteilung fällt (oder vielleicht nicht, in welchem ​​Fall, was offenbart sie?). Nun, wenn man bedenkt, dass ich ein Systemarchitekt und kein Statistiker bin, was offenbart dieser Plot ? (Ich suche nach einer praktischen Intuition hinter diesen Ergebnissen).

BEARBEITEN:

QQplot mit der qqPlotFunktion im Paket car. Ich habe zuerst die Form- und Skalierungsparameter unter Verwendung der fitdistrFunktion geschätzt .

> fitdistr(Data$Duration, "weibull")
      shape          scale    
  3.783365e-01   5.273310e+03 
 (6.657644e-03) (3.396456e+02)

Dann habe ich das gemacht:

qqPlot(LB$Duration, distribution="weibull", shape=3.783365e-01, scale=5.273310e+03)

Bildbeschreibung hier eingeben

EDIT 2:

Aktualisierung mit einem normalen QQplot.

Bildbeschreibung hier eingeben

Hier sind meine Daten:

c(1528L, 285L, 87138L, 302L, 115L, 416L, 8940L, 19438L, 165820L, 
540L, 1653L, 1527L, 974L, 12999L, 226L, 190L, 306L, 189L, 138542L, 
3049L, 129067L, 21806L, 456L, 22745L, 198L, 44568L, 29355L, 17163L, 
294L, 4218L, 3672L, 10100L, 290L, 8341L, 128L, 11263L, 1495243L, 
1699L, 247L, 249L, 300L, 351L, 608L, 186684L, 524026L, 1392L, 
396L, 298L, 1063L, 11102L, 6684L, 6546L, 289L, 465L, 261L, 175L, 
356L, 61652L, 236L, 74795L, 64982L, 294L, 95221L, 322L, 38892L, 
2146L, 59347L, 2118L, 310801L, 277964L, 205679L, 5980L, 66102L, 
36495L, 580277L, 27600L, 509L, 21795L, 21795L, 301L, 617L, 331L, 
250L, 123501L, 144L, 347L, 121443L, 211L, 232L, 445783L, 9715L, 
10308L, 1921L, 178L, 168L, 291L, 6915L, 6735L, 1008478L, 274L, 
20L, 3287L, 591208L, 797L, 586L, 170613L, 938L, 3121L, 249L, 
1497L, 24L, 1407L, 1217L, 1323L, 272L, 443L, 49466L, 323L, 323L, 
784L, 900L, 26814L, 2452L, 214713L, 3668L, 325L, 20439L, 12304L, 
261L, 137L, 379L, 2273L, 274L, 17760L, 920699L, 13L, 485644L, 
1243L, 226L, 20388L, 584L, 17695L, 1477L, 242L, 280L, 253L, 17964L, 
7073L, 308L, 260692L, 155L, 58136L, 16644L, 29353L, 543L, 276L, 
2328L, 254L, 1392L, 272L, 480L, 219L, 60L, 2285L, 2676L, 256L, 
234L, 1240L, 219714L, 102174L, 258L, 266L, 33043L, 530L, 6334L, 
94047L, 293L, 536L, 48557L, 4141L, 39079L, 23259L, 2235L, 17673L, 
28268L, 112L, 64824L, 127992L, 5291L, 51693L, 762L, 1070735L, 
179L, 189L, 157L, 157L, 122L, 1045L, 1317L, 186L, 57901L, 456126L, 
674L, 2375L, 1782L, 257L, 23L, 248L, 216L, 114L, 11662L, 107890L, 
203022L, 513L, 2549L, 146L, 53331L, 1690L, 10752L, 1648611L, 
148L, 611L, 198L, 443L, 10061L, 720L, 10L, 24L, 220L, 38L, 453L, 
10066L, 115774L, 97713L, 7234L, 773L, 90154L, 151L, 1560L, 222L, 
51558L, 214L, 948L, 208L, 1127L, 221L, 169L, 1528L, 78959L, 61566L, 
88049L, 780L, 6196L, 633L, 214L, 2547L, 19088L, 119L, 561L, 112L, 
17557L, 101086L, 244L, 257L, 94483L, 6189L, 236L, 248L, 966L, 
117L, 333L, 278L, 553L, 568L, 356L, 731L, 25258L, 127931L, 7735L, 
112717L, 395L, 12960L, 11383L, 16L, 229067L, 259076L, 311L, 366L, 
2696L, 7265L, 259076L, 3551L, 7782L, 4256L, 87121L, 4971L, 4706L, 
245L, 34457L, 4971L, 4706L, 245L, 34457L, 258L, 36071L, 301L, 
2214L, 2231L, 247L, 537L, 301L, 2214L, 230L, 1076L, 1881L, 266L, 
4371L, 88304L, 50056L, 50056L, 232L, 186336L, 48200L, 112L, 48200L, 
48200L, 6236L, 82158L, 6236L, 82158L, 1331L, 713L, 89106L, 46315L, 
220L, 5634L, 170601L, 588L, 1063L, 2282L, 247L, 804L, 125L, 5507L, 
1271L, 2567L, 441L, 6623L, 64781L, 1545L, 240L, 2921L, 777L, 
697L, 2018L, 24064L, 199L, 183L, 297L, 9010L, 16304L, 930L, 6522L, 
5717L, 17L, 20L, 364418L, 58246L, 7976L, 304L, 4814L, 307L, 487L, 
292016L, 6972L, 15L, 40922L, 471L, 2342L, 2248L, 23L, 2434L, 
23342L, 807L, 21L, 345568L, 324L, 188L, 184L, 191L, 188L, 198L, 
195L, 187L, 185L, 33968L, 1375L, 121L, 56872L, 35970L, 929L, 
151L, 5526L, 156L, 2687L, 4870L, 26939L, 180L, 14623L, 265L, 
261L, 30501L, 5435L, 9849L, 5496L, 1753L, 847L, 265L, 280L, 1840L, 
1107L, 2174L, 18907L, 14762L, 3450L, 9648L, 1080L, 45L, 6453L, 
136351L, 521L, 715L, 668L, 14550L, 1381L, 13294L, 13100L, 6354L, 
6319L, 84837L, 84726L, 84702L, 2126L, 36L, 572L, 1448L, 215L, 
12L, 7105L, 758L, 4694L, 29369L, 7579L, 709L, 121L, 781L, 1391L, 
2166L, 160403L, 674L, 1933L, 320L, 1628L, 2346L, 2955L, 204852L, 
206277L, 2408L, 2162L, 312L, 280L, 243L, 84050L, 830L, 290L, 
10490L, 119392L, 182960L, 261791L, 92L, 415L, 144L, 2006L, 1172L, 
1886L, 233L, 36123L, 7855L, 554L, 234L, 2292L, 21L, 132L, 142L, 
3848L, 3847L, 3965L, 3431L, 2465L, 1717L, 3952L, 854L, 854L, 
834L, 14608L, 172L, 7885L, 75303L, 535L, 443347L, 5478L, 782L, 
9066L, 6733L, 568L, 611L, 533L, 1022L, 334L, 21628L, 295362L, 
34L, 486L, 279L, 2530L, 504L, 525L, 367L, 293L, 258L, 1854L, 
209L, 152L, 1139L, 398L, 3275L, 284178L, 284127L, 826L, 751L, 
1814L, 398L, 1517L, 255L, 13745L, 43L, 1463L, 385L, 64L, 5279L, 
885L, 1193L, 190L, 451L, 1093L, 322L, 453L, 680L, 452L, 677L, 
295L, 120L, 12184L, 250L, 1165L, 476L, 211L, 4437L, 7310L, 778L, 
260L, 855L, 353L, 97L, 34L, 87L, 137L, 101L, 416L, 130L, 148L, 
832L, 187L, 291L, 4050L, 14569L, 271L, 1968L, 6553L, 2535L, 227L, 
202L, 647L, 266L, 2681L, 106L, 158L, 257L, 234L, 1726L, 34L, 
465L, 436L, 245L, 245L, 2790L, 104L, 1283L, 44416L, 142L, 13617L, 
232L, 171L, 221L, 719L, 176L, 5838L, 37488L, 12214L, 3780L, 5556L, 
5368L, 106L, 246L, 101L, 158L, 10743L, 5L, 46478L, 5286L, 9866L, 
32593L, 174L, 298L, 19617L, 19350L, 230L, 78449L, 78414L, 78413L, 
78413L, 6260L, 6260L, 209L, 2552L, 522L, 178L, 140L, 173046L, 
299L, 265L, 132360L, 132252L, 4821L, 4755L, 197L, 567L, 113L, 
30314L, 7006L, 10L, 30L, 55281L, 8263L, 8244L, 8142L, 568L, 1592L, 
1750L, 628L, 60304L, 212553L, 51393L, 222L, 13471L, 3423L, 306L, 
325L, 2650L, 74796L, 37807L, 103751L, 6924L, 6727L, 667L, 657L, 
752L, 546L, 1860L, 230L, 217L, 1422L, 347L, 341055L, 4510L, 4398L, 
179670L, 796L, 1210L, 2579L, 250L, 273L, 407L, 192049L, 236L, 
96084L, 5808L, 7546L, 10646L, 197L, 188L, 19L, 167877L, 200509L, 
429L, 632L, 495L, 471L, 2578L, 251L, 198L, 175L, 19161L, 289L, 
20718L, 201L, 937L, 283L, 4829L, 4776L, 5949L, 856907L, 2747L, 
2761L, 3150L, 3142L, 68031L, 187666L, 255211L, 255231L, 6581L, 
392991L, 858L, 115L, 141L, 85629L, 125433L, 6850L, 6684L, 23L, 
529L, 562L, 216L, 1450L, 838L, 3335L, 1446L, 178L, 130101L, 239L, 
1838L, 286L, 289L, 68974L, 757L, 764L, 218L, 207L, 3485L, 16597L, 
236L, 1387L, 2121L, 2122L, 957L, 199899L, 409803L, 367877L, 1650L, 
116710L, 5662L, 12497L, 613889L, 10182L, 260L, 9654L, 422947L, 
294L, 284L, 996L, 1444L, 2373L, 308L, 1522L, 288L, 937L, 291L, 
93L, 17629L, 5151L, 184L, 161L, 3273L, 1090L, 179840L, 1294L, 
922L, 826L, 725L, 252L, 715L, 6116L, 259L, 6171L, 198L, 5610L, 
5679L, 862L, 332L, 1324L, 536L, 98737L, 316L, 5608L, 5526L, 404L, 
255L, 251L, 14067L, 3360L, 3623L, 8920L, 288L, 447L, 453L, 1604687L, 
115L, 127L, 127L, 2398L, 2396L, 2396L, 2398L, 2396L, 2397L, 154L, 
154L, 154L, 154L, 887L, 636L, 227L, 227L, 354L, 7150L, 30227L, 
546013L, 545979L, 251L, 171647L, 252L, 583L, 593L, 10222L, 2660L, 
1864L, 2884L, 1577L, 1304L, 337L, 2642L, 2462L, 280L, 284L, 3463L, 
288L, 288L, 540L, 287L, 526L, 721L, 1015L, 74071L, 6338L, 1590L, 
582L, 765L, 291L, 983L, 158L, 625L, 581L, 350L, 6896L, 13567L, 
20261L, 4781L, 1025L, 722L, 721L, 1618L, 1799L, 987L, 6373L, 
733L, 5648L, 987L, 1010L, 985L, 920L, 920L, 4696L, 1154L, 1132L, 
927L, 4546L, 692L, 702L, 301L, 305L, 316L, 313L, 801L, 788L, 
14624L, 14624L, 9778L, 9778L, 9778L, 9778L, 757L, 275L, 1480L, 
610L, 68495L, 1152L, 1155L, 323L, 312L, 303L, 298L, 1641L, 1607L, 
1645L, 616L, 1002L, 1034L, 1022L, 1030L, 1030L, 1027L, 1027L, 
934L, 960L, 47L, 44L, 1935L, 1925L, 43L, 47L, 1933L, 1898L, 938L, 
830L, 286L, 287L, 807L, 807L, 741L, 628L, 482L, 500L, 480L, 431L, 
287L, 298L, 227L, 968L, 961L, 943L, 932L, 704L, 420L, 548L, 3612L, 
1723L, 780L, 337L, 780L, 527L, 528L, 499L, 679L, 308L, 1104L, 
314L, 1607L, 990L, 1156L, 562L, 299L, 16L, 20L, 287L, 581L, 1710L, 
1859L, 988L, 962L, 834L, 1138L, 363L, 294L, 2678L, 362L, 539L, 
295L, 996L, 977L, 988L, 39L, 762L, 579L, 595L, 405L, 1001L, 1002L, 
555L, 1102L, 54L, 1283L, 347L, 1384L, 603L, 307L, 306L, 302L, 
302L, 288L, 288L, 286L, 292L, 529L, 56844L, 1986L, 503L, 751L, 
3977L, 367L, 4817L, 4631L, 4609L, 4579L, 937L, 402L, 257L, 570L, 
1156L, 3297L, 3948L, 4527L, 3119L, 15227L, 3893L, 538L, 802L, 
5128L, 595L, 522L, 1346L, 449L, 443L, 323L, 372L, 369L, 307L, 
246L, 260L, 342L, 283L, 963L, 751L, 108L, 280L, 320L, 287L, 285L, 
283L, 529L, 536L, 298L, 29427L, 29413L, 761L, 249L, 255L, 304L, 
297L, 256L, 119L, 288L, 564L, 234L, 226L, 530L, 766L, 223L, 5858L, 
5568L, 481L, 462L, 8692L, 498L, 330L, 7604L, 15L, 121738L, 121833L, 
826L, 760L, 208937L, 1598L, 1166L, 446L, 85598L, 513L, 84897L, 
50239L, 308L, 1351L, 283L, 7100L, 7101L, 321L, 1019L, 287L, 253L, 
634L, 629L, 628L, 678L, 1391L, 1147L, 853L, 287L, 1174L, 287L, 
197145L, 197116L, 147L, 147L, 712L, 274L, 283L, 907L, 434L, 1164L, 
30L, 599L, 577L, 315L, 1423L, 1250L, 30L, 1502L, 296L, 348L, 
617L, 339L, 328L, 123L, 338L, 332L, 47133L, 288L, 340L, 1524L, 
1049L, 1072L, 1031L, 1059L, 1038L, 989L, 52L, 54L, 986L, 46L, 
1202L, 1272L, 43L, 785L, 761L, 16924L, 289L, 264L, 453L, 365L, 
356L, 280L, 16520L, 281L, 255L, 244L, 642L, 1003L, 951L, 921L, 
1011L, 45L, 932L, 973L, 39L, 40L, 159L, 566L, 49L, 1161L, 50L, 
200L, 215L, 361L, 377L, 980L, 935L, 882L, 281L, 280L, 1025L, 
319L, 690L, 284L, 271L, 276L, 286L, 371L, 324L, 304L, 311L, 341L, 
603L, 11566L, 270L, 286L, 342L, 326L, 11018L, 282L, 271L, 286L, 
586L, 604L, 750L, 608L, 523L, 506L, 3303L, 1079797L, 1079811L, 
530L, 2631L, 882L, 628L, 30L, 11905L, 12966L, 390995L, 322353L, 
1763L, 1755L, 709L, 713L, 365L, 351L, 205L, 393L, 284L, 39417L, 
320L, 322L, 8039L, 995L, 625L, 785L, 298L, 518L, 467L, 1050L, 
329L, 141345L, 55566L, 40318L, 287L, 220L, 309346L, 220L, 215314L, 
304L, 296L, 4301L, 4311L, 1543L, 1549L, 2876L, 2894L, 287L, 290L, 
215L, 605L, 577L, 254L, 1330L, 1863L, 140L, 328L, 284L, 291L, 
283L, 1701L, 1696L, 519L, 499L, 2440007L, 289L, 294L, 311L, 324L, 
4793L, 4808L, 249L, 205L, 219L, 638L, 2653L, 2648L, 351L, 323L, 
1056L, 327L, 794L, 1491L, 284L, 289L, 220L, 765L, 565L, 808L, 
832L, 772L, 41668L, 42307L, 6843L, 6612L, 6598L, 241164L, 531L, 
554L, 1246L, 459L, 971504L, 805L, 2615L, 2290L, 2086L, 2063L, 
2685L, 2704L, 275L, 461L, 458L, 317L, 889L, 335L, 974L, 959L, 
253142L, 257L, 250L, 282L, 293L, 666L, 4991L, 287L, 588L, 555L, 
3585L, 3195L, 481L, 2405L, 135266L, 571L, 1805L, 365L, 340L, 
232L, 224L, 298L, 3682L, 3677L, 577L, 571L, 288L, 297L, 293L, 
291L, 256L, 214L, 1257L, 1271L, 65471L, 65471L, 65476L, 65476L, 
4680L, 4675L, 339L, 329L, 284L, 288L, 4859L, 4851L, 2534L, 24222L, 
330684L, 330684L, 2116L, 282L, 412L, 429L, 2324L, 1978L, 502L, 
286L, 943149L, 256L, 288L, 286L, 1098L, 1125L, 442L, 240L, 182L, 
2617L, 1068L, 25204L, 170L, 418L, 1867L, 8989L, 1804L, 1240L, 
6610L, 1237L, 1750L, 1565L, 1565L, 3662L, 1803L, 218L, 172L, 
780L, 1418L, 2390L, 7514L, 23214L, 1464L, 1060L, 1503L, 308802L, 
308357L, 21691L, 298817L, 289875L, 4442L, 289284L, 235L, 456L, 
676L, 897L, 289109L, 1865L, 288030L, 287899L, 287767L, 287635L, 
286639L, 286509L, 286157L, 1427L, 2958L, 4340L, 5646L, 282469L, 
7016L, 279353L, 278568L, 316L, 558L, 3501L, 1630L, 278443L, 1360L, 
828L, 1089L, 278430L, 278299L, 278169L, 278035L, 277671L, 277541L, 
277400L, 277277L, 276567L, 285L, 555L, 834L, 1084L, 1355L, 5249L, 
14776L, 1441L, 755L, 755L, 70418L, 3135L, 1026L, 1497L, 949663L, 
68L, 526058L, 1692L, 150L, 48370L, 4207L, 4088L, 197551L, 197109L, 
196891L, 196634L, 2960L, 194319L, 194037L, 3008L, 3927L, 178762L, 
178567L, 403L, 178124L, 2590L, 177405L, 177179L, 301L, 328L, 
390685L, 390683L, 575L, 1049L, 819L, 367L, 289L, 277L, 390L, 
301L, 318L, 3806L, 3778L, 3699L, 3691L)
Legende
quelle
7
Dieses Diagramm sagt Ihnen nicht , dass Ihre Distribution Beta ist. Es heißt, die Schiefe und die Kurtosis stimmen mit einer Beta überein - es könnte beispielsweise leicht lognormal sein, aber es ist wahrscheinlich keine der in diesem Diagramm genannten Distributionen.
Glen_b
@ Glen_b: Danke. Ich habe gerade auch einen qqplot für lognormal eingefügt, aber auch das scheint nicht gut zu passen. Gibt es noch etwas, das Sie mir zum Ausprobieren empfehlen? Ich habe meine Daten in die Frage aufgenommen.
Legende
4
Ich bin neugierig, warum Sie dies eine "Cullen Frey" -Handlung nennen, als sie 1909 von Rhind eingeführt wurde (und seit Generationen bekannt ist), 90 Jahre bevor Cullen und Frey etwas zusammenschrieben! Siehe den Wikipedia-Artikel zum Pearson-Verteilungssystem .
whuber
3
Wir sehen Stiglers Eponymiegesetz in Aktion. :-)
whuber
3
@whuber Es ist eine Handlung von Cullen und Frey, nicht Rhinds Visualisierung des Pearson-Raums. Es weist deutlich unterschiedliche Merkmale auf, wie die Darstellung von Boostrapped-Werten, die Überlagerung der Gleichverteilung usw. Es baut auf Rhinds Grafik auf, aber alles in der Wissenschaft baut auf etwas davor auf (und wir möchten nicht, dass dies geschieht) schreiben alles den ursprünglichen, unbekannten Erfindern des Feuers und des Rades zu ...).
Hack-R

Antworten:

34

Die Sache ist, dass echte Daten nicht unbedingt einer bestimmten Verteilung folgen, die Sie benennen können ... und es wäre in der Tat überraschend, wenn dies der Fall wäre.

Obwohl ich ein Dutzend Möglichkeiten nennen könnte, wird der eigentliche Prozess, der diese Beobachtungen generiert, wahrscheinlich auch nichts sein, was ich vorschlagen könnte. Mit zunehmender Stichprobengröße können Sie wahrscheinlich jede bekannte Verteilung ablehnen.

Parametrische Verteilungen sind oft eine nützliche Fiktion und keine perfekte Beschreibung.

Schauen wir uns zumindest die Protokolldaten an, zuerst in einem normalen qqplot und dann als Schätzung der Kerneldichte, um zu sehen, wie sie aussehen:

qqnorm log (x)

Beachten Sie, dass in einem QQ-Diagramm, das auf diese Weise erstellt wurde, in den flachsten Abschnitten der Steigung die Tendenz besteht, Spitzen zu sehen. Dies deutet auf einen Peak nahe 6 und einen weiteren nahe 12,3 hin. Die Schätzung der Kerneldichte des Protokolls zeigt dasselbe:

Schätzung der Kerneldichte

In beiden Fällen ist die Anzeige, dass die Verteilung der Log- Zeit recht schief ist, aber nicht eindeutig unimodal. Offensichtlich liegt der Hauptpeak irgendwo um die 5-Minuten-Marke. Es kann sein, dass es einen zweiten kleinen Peak in der Log-Zeit-Dichte gibt, der irgendwo in der Region von vielleicht 60 Stunden zu liegen scheint. Möglicherweise gibt es zwei qualitativ sehr unterschiedliche "Reparaturarten", und Ihre Verteilung spiegelt eine Mischung aus zwei Arten wider. Oder wenn eine Reparatur erst einmal einen ganzen Arbeitstag erreicht hat, dauert sie in der Regel länger (das heißt, anstatt einen Spitzenwert von etwas mehr als einer Woche wiederzugeben, kann sie einen Anti-Spitzenwert von etwas mehr als einem Tag wiedergeben - einmal Die Reparatur dauert weniger als einen Tag, die Jobs verlangsamen sich.

Auch das Logbuch des Logbuchs der Zeit ist etwas schief. Schauen wir uns eine stärkere Transformation an, bei der der zweite Peak ganz klar ist - abzüglich der Umkehrung der vierten Wurzel der Zeit:

hist von -1 / (x ^ 0,25)

Die markierten Linien sind bei 5 Minuten (blau) und 60 Stunden (grün gestrichelt); Wie Sie sehen, gibt es eine Spitze knapp unter 5 Minuten und eine andere irgendwo über 60 Stunden. Es ist zu beachten, dass der obere "Peak" ungefähr bei dem 95. Perzentil liegt und nicht notwendigerweise in der Nähe eines Peaks in der nicht transformierten Verteilung liegt.

Es gibt auch einen Vorschlag für einen weiteren Einbruch um 7,5 Minuten mit einem breiten Peak zwischen 10 und 20 Minuten, was auf eine sehr geringe Tendenz zur "Aufrundung" in dieser Region hindeuten könnte (nicht, dass es notwendigerweise etwas Ungewöhnliches gibt; auch wenn es keinen Einbruch gibt) In der dortigen Hauptbeschäftigungszeit könnte es sogar so einfach sein, sich in einem ununterbrochenen Zeitraum für mehr als ein paar Minuten auf die menschliche Fähigkeit zu konzentrieren.)

Es sieht für mich so aus, als ob eine Zweikomponentenmischung (zwei Peaks) oder eine Dreikomponentenmischung mit Verteilung nach rechts den Prozess ziemlich gut beschreiben würde, aber keine perfekte Beschreibung wäre.

Das Paket logsplinescheint vier Peaks im Logbuch (Zeit) auszuwählen:

Logpsine-Plot

mit Peaks in der Nähe von 30, 270, 900 und 270K Sekunden (30s, 4,5m, 15m und 75h).

Wenn Sie Logspline mit anderen Transformationen verwenden, finden Sie im Allgemeinen 4 Peaks mit leicht unterschiedlichen Mitten (wenn Sie in die ursprünglichen Einheiten übersetzt werden). Dies ist bei Transformationen zu erwarten.

Glen_b - Setzen Sie Monica wieder ein
quelle
2
+1 Dies ist eine Goldmine von Informationen von mir. Ich versuche, alles zu verdauen, was Sie geschrieben haben, und bisher habe ich gelernt, wie ich diese Art von Problemen tatsächlich angehen kann. Was ist der Sinn der stärkeren Transformation? Darf ich fragen, wie Sie darauf gekommen sind? Geht das mit der Erfahrung einher oder gibt es einen formaleren Weg, eine solche nicht konventionelle Transformation zu wählen? Bitte verzeihen Sie meine Unwissenheit, wenn dies in der Statistik-Community allgemein bekannt ist. Aber ich wäre dankbar, wenn Sie mir einen guten Hinweis geben könnten, um diese Art von "Detektivarbeit" zu lernen, die sich für mich großartig anfühlt.
Legende
3
Korrekter Verweis auf EDA: Tukey, JW (1977). Explorative Datenanalyse . Addison-Wesley, Reading, MA.
Glen_b
3
Wie in der obigen Antwort erwähnt, können Sie versuchen, eine Mischungsverteilung anzupassen. Hier ist ein Artikel, in dem diese Hybriden für die Windgeschwindigkeit verwendet werden. Ich denke, einige der Verteilungen sind Kombinationen aus drei anderen Verteilungen. journal-ijeee.com/content/3/1/27
rbatt
2
Für eine Mischung müssen Sie herausfinden, wie viele Komponenten Sie benötigen, welche Distribution oder Distributionen Sie verwenden möchten (worüber Sie ursprünglich geschrieben haben) und wie Sie dann die Parameter der Komponenten identifizieren und die Komponentenverhältnisse. Es gibt eine Reihe von Paketen, die bei diesen Aufgaben helfen können. Hier ist ein Artikel (pdf) über einen von ihnen. Einige der Pakete zur Modellierung von Gemischen werden in der Task-Ansicht "Clusteranalyse und Modellierung endlicher Gemische" (ctd)
Glen_b -Reinstate Monica,
1
(ctd) ... Ein weiteres Beispielpaket ist Rebmix . Meine obige Analyse basierte auf einfacheren explorativen Ansätzen, ist jedoch derzeit noch kein vollständig identifiziertes Mischungsmodell. Dies deutet darauf hin, dass ein 4-Komponenten-Gemisch erforderlich sein könnte. Der letzte Teil meiner Antwort - der Teil mit dem Log-Spline - ist ein anderer (nichtparametrischer) Ansatz zur Modellierung komplizierter Dichten.
Glen_b -Reinstate Monica
12

Die Descdist-Funktion bietet die Option, Ihre Distribution zu booten, um ein Gefühl für die Genauigkeit zu bekommen, die mit dem gezeichneten Schätzwert verbunden ist. Sie könnten das versuchen.

descdist(time_to_repair, boot=1000)

Meine Vermutung ist, dass Ihre Daten mit mehr als nur der Betaverteilung konsistent sind.

Im Allgemeinen ist die Beta-Verteilung die Verteilung kontinuierlicher Anteile oder Wahrscheinlichkeiten. Zum Beispiel wäre die Verteilung von p-Werten aus einem t-Test ein spezieller Fall einer Beta-Verteilung, abhängig davon, ob die Nullhypothese wahr ist und wie viel Aussagekraft Ihre Analyse hat.

Ich finde es äußerst unwahrscheinlich, dass die Verteilung Ihrer Reparaturzeiten tatsächlich Beta wäre. Beachten Sie, dass dieses Diagramm nur den Versatz und die Kurtosis Ihrer Daten mit der angegebenen Verteilung vergleicht. Das Beta ist an 0 und 1 gebunden; Ich wette, Ihre Daten sind es nicht, aber das Diagramm überprüft diese Tatsache nicht.

Andererseits ist die Weibull-Verteilung für Verzögerungszeiten üblich. Ich gehe davon aus, dass Ihre Daten mit einem Weibull übereinstimmen, wenn Sie die Figur in Augenschein nehmen (ohne die Bootsamples, die aufgezeichnet wurden, um die Unsicherheit zu messen).

Sie könnten auch überprüfen, ob Ihre Daten Weibull sind. Ich glaube, Sie verwenden qqPlot aus dem Autopaket , um einen qq-Plot zu erstellen .

gung - Wiedereinsetzung von Monica
quelle
2
+1 Vielen Dank. In der Zeit, in der ich Ihre Antwort verstehe, habe ich meine Frage mit dem bootstrapParameter 500 in der descdistFunktion aktualisiert . Und ja, Sie haben Recht, dass meine Werte nicht in [0,1] sind. Gibt es eine Möglichkeit, diese Tatsache (die zu weibull gehört) anhand dieser Grafik zu zeigen? Ich werde versuchen, meine Frage in Kürze mit einem QQPlot zu aktualisieren.
Legende
Habe gerade meine Frage mit einem qqPlotaus dem carPaket aktualisiert .
Legende
Hmmm. Nun, die qq-Darstellung lässt es nicht so aussehen, als ob die Weibull-Verteilung gut passt.
gung - Wiedereinsetzung von Monica
1
Und noch eine für die Lognormalverteilung. Empfehlen Sie eine Vorverarbeitung, die ich mit den Daten durchführen soll? Oder gibt es einen besseren Weg, um die beste Anpassung abzuschätzen? Ich frage mich immer noch, wie ich das Cullen / Frey-Diagramm in meinem Kontext verwenden kann.
Legende
Außerdem wurde meine Frage mit den Daten aktualisiert, die ich am Ende verwende, falls dies hilfreich ist.
Legende
3

Für das, was es wert ist, unter Verwendung der FindDistribution-Routine von Mathematica, sind die Logarithmen sehr ungefähr eine Mischung aus zwei Normalverteilungen,

Bildbeschreibung hier eingeben

x=ln(data)

f(x)=0,0585522e-0,33781(x-11.7025)2+0,229776e-0,245814(x-6.66864)2

Mit 3 Verteilungen kann eine Mischungsverteilung erstellt werden

Bildbeschreibung hier eingeben

f(x)=0,560456 Laplace(5,85532,0,59296)+0,312384 LogNormal(2,08338,0,122309)+0,12716 Normal(11.6327,1.02011),
{0,472592e-1.68646(5,85532-x)+0,0497292e-0,480476(x-11.6327)2x00,472592e-1.68646(5,85532-x)+0,0497292e-0,480476(x-11.6327)2+1.01893xe-33.4238(ln(x)-2,08338)20<x<5,855320,472592e-1.68646(x-5,85532)+0,0497292e-0,480476(x-11.6327)2+1.01893xe-33.4238(ln(x)-2,08338)2Andernfalls

th

Carl
quelle