Statystyka Opisowa w2: podstawowe miary Jerzy Stefaowski Istytut Iformatyki Politechika Pozańska Pozań, 205/6 aktualizacja 207
STATYSTYKA OPISOWA Techiki wstępej aalizy daych i ich prezetacji: gromadzeie, przechowywaie daych, aaliza daych surowych prezetacja daych: tabele, wykresy, parametry liczbowe obliczae dla daych. Cel: charakteryzacja daych - w zwięzłej formie odzwierciedlająca pewe ich cechy, p. średi dochód, średie zużycie paliwa,.. odalezieie różego rodzaju regularości ( ieregularości ) ukrytych w daych, zależości między podzbiorami daych.
Podstawowymi zadaiami parametrów opisowych jest określeie: przeciętego poziomu zmieych - tj. miary przeciętej (położeia), reprezetującej wszystkie wartości szeregu, zmieości (dyspersji, rozproszeia) wartości zmieych w obserwowaej zbiorowości, tj. określeie miary zmieości, rozmieszczeia wariatów cechy w zbiorze, przez obliczeie mometów oraz wskazaie skupieia (kocetracji) i spłaszczeia (ekscesu) w stosuku do kształtu krzywej ormalej, przez obliczeie wskaźika spłaszczeia. w jakim stopiu baday szereg odbiega od idealej symetrii, tj. określeie miary asymetrii.
Miary położeia wartości przecięte średia arytmetycza miary położeia klasycze średia harmoicza średia geometrycza pozycyje modala kwatyle kwartyl pierwszy mediaa kwartyl trzeci cetyle
Wartości przecięte WSKAŹNIKI POŁOŻENIA (miary położeia, parametry położeia ) charakteryzują ajbardziej reprezetatywe dae, cetralą tedecję daych, określają środek próbki: Niech :, 2,..., - próbka o liczości. Wartość średia w próbce ( średia próbkowa, średia próbki ) ( + 2 +... + ) i i
Średia uciaa (ucięta) ( z parametrem k ) tk 2k k i k+ ( i), stosowaa gdy wartości odstające są wyikiem błędu (błęde przetworzeie daych lub błędy przyrządów pomiarowych). Ostrzeżeie: obserwacje odstające mogą być bardzo istote, p. są wyikiem rozregulowaia procesu produkcji
Średia wisorowska ( z parametrem k ) wk k i k+ ( ) k + ( k+ ) + ( i) + ( k + ) ( k) 2 Stosowaa w sytuacjach gdy wartości skraje ( k ajmiejszych lub k ajwiększych ) iepewe co do ich prawdziwych wartości (p. zostały utracoe z bazy daych; ie mogły być zaobserwowae w przypadku badaia czasu życia lub czasu bezawaryjej pracy urządzeia gdy eksperymetator ma ograiczoy czas obserwowaia zjawiska. Moda ajczęściej występująca wartość (lub wartości) w próbce.
Średia harmoicza Średia harmoicza jest stosowaa, gdy wartości cechy statystyczej podawae są w przeliczeiu a stałą jedostkę iej zmieej, p. prędkość w km/h, gęstość zaludieia w osobach/km 2, spożycie w kg/osobę, itp. Średią harmoiczą moża wyzaczyć ze wzoru: H i i + +... 2 +
Średia harmoicza Przykład: W ciągu 8 godzi pracy w przychodi obserwowao pracę trzech pielęgiarek. Na wykoaie obowiązków związaych z jedym pacjetem pielęgiarka A potrzebowała 4 mi pielęgiarka B 6 mi, a pielęgiarka C 2 mi. Jaki jest średi czas zużyway a jedego pacjeta? (proszę zwrócić uwagę a rzeczywistą jedostkę badaej cechy: mi/osobę!!!) H 4 + 3 + 6 2 6 mi
Średia harmoicza Gdyby zastosować średią arytmetyczą uzyskalibyśmy iy wyik: 4 + 6 + 2 3 7 3 mi Jest to wyik ieprawidłowy, bo przy takim tempie pracy, trzy pielęgiarki w ciągu 8 godzi (480 miut) obsłużyłyby 3 480 7,333 mi96 osób. W rzeczywistości jedak, pielęgiarka A mogłaby zająć się 480 420 pacjetami, pielęgiarka B - 480 680, a pielęgiarka C - 480 240, co daje 20+80+40240 pacjetów.
Średia geometrycza Średią geometryczą stosuje się przy badaiu średiego tempa zmia zjawisk, tz. w sytuacji, gdy zjawiska są ujmowae w sposób dyamiczy. Średią geometryczą wyzacza się korzystając ze wzoru: G i i 2...
Średia geometrycza Przykład: W ciągu trzech kolejych lat liczba osób owozakażoych wirusem X wyosiła odpowiedio: 500, 750, 825. Jaki był średi względy przyrost liczby owych zakażeń? Wartości cechy statystyczej w tym zadaiu to przyrosty liczby zakażeń w kolejych latach, tz.: 2 750 500 825 750,5, Zgodie ze wzorem, średi przyrost, to: G,5,,28
Średia geometrycza Gdyby w tym przykładzie zastosować średią arytmetyczą uzyskalibyśmy wyik: (,5+,) 2,3. Wyikałoby z tego, że w 3 roku, powio być 500,3,3845 osób owozakażoych.
W przypadku szeregu szczegółowego korzysta się z relacji: i i Dla szeregu rozdzielczego o przedziałach klasowych, w których zmiea reprezetująca badaą cechę statystyczą jest skokowa, a przedziały klasowe jedojedostkowe (puktowe) stosuje się wzór a tzw. średią ważoą: k i i atomiast w przypadku zmieych ciągłych występujących w szeregu rozdzielczym o przedziałach klasowych wielojedostkowych, średią arytmetyczą wyzacza się jako: i k i! i i
Przykład. Miesięczy dochód 0-ciu osób ( w tys. PLN): Dochód (PLN) [,,5) [,5, 2) [2, 2,5) [2,5, 3) Liczba osób 2 2 4 2 Średia a podstawie daych zgrupowaych: k ~ ii 2,25 + 2,75 + 4 2,25 + i 0 2 2,75 2,05
Mediaa w próbce (mediaa próbki, mediaa próbkowa) Niech ( ) (2)... ( ) ( ) uporządkowae w sposób rosący wartości próbki: () mi{, 2,..., },..., () ma{, 2,..., } med, gdy jest ieparzyste (( +) / 2) med ( ( / 2) + ( / 2+ ) ), gdy jest parzyste. 2
Przykład. Miesięczy dochód -tu osób: Dochód (PLN) 2000 2500 3500 9000 Liczba osób 4 4 2 Średie wyagrodzeie tej grupy osób to: (4 2000 + 4 2500 + 2 3500 + 9000) 4000 2000, 2000, 2000, 2000, 2500, 2500, 2500, 2500, 3500, 3500, 9000 Mediaa 2500
Średia wrażliwa a obserwacje odstające: 4000 > 3500, 9000 typowego dochodu. (0) ( ) - średia ie odzwierciedla Mediaa odpora ( mało wrażliwa ) a obserwacje odstające: med ( 6) 2500 - mediaa jest lepszą miarą przeciętego wyagrodzeia iż średia
W sposób przybliżoy obliczamy mediaę opierając się a wzorze iterpolacyjym: h0 Me N 0 + ( Me sk ) 0 gdzie: 0 - dola graica przedziału mediay, h 0 - rozpiętość przedziału mediay, 0 - liczebość przedziału mediay, N Me - umer mediay, sk- - suma liczebości wszystkich przedziałów klasowych poprzedzających przedział mediay.
Miary zmieości Miary zmieości (rozproszeia, dyspersji) opisują rozrzut wartości cechy statystyczej w populacji wokół wartości przeciętej. Charakteryzują stopień zróżicowaia jedostek zbiorowości pod względem badaej cechy.
Miary zmieości wariacja klasycze odchyleie stadardowe odchyleie przecięte miary zmieości współczyik zmieości rozstęp pozycyje odchyleie ćwartkowe współczyik zmieości Miary klasycze, to miary, których wartość jest wyzaczoa w oparciu o wszystkie obserwacje. Miary pozycyje, to miary, a których wartość wpływają tylko wybrae obserwacje z próby uporządkowaej.
(miary rozproszeia, zmieości ) charakteryzują rozrzut daych, rozproszeie wartości próbki wokół parametru położeia. Rozstęp próbki R (, ) () Wariacja próbki (w próbce) s 2 i ( i ) 2,
Odchyleie stadardowe w próbce (próbki) s 2 s Odchyleie przecięte od wartości średiej d i i Doly (pierwszy) kwartyl Q mediaa podpróbki składającej się z elemetów próbki miejszych od mediay med.
Góry (trzeci) kwartyl Q 3 mediaa podpróbki składającej się z elemetów próbki większych od mediay. Rozstęp międzykwartylowy: IQR Q 3 Q
Popularym mierikiem dyspersji jest wariacja która dla szeregów: w przypadku szeregu szczegółowego dla szeregu rozdzielczego puktowego dla szeregu rozdzielczego z przedziałami klasowymi S S 2 2 ( - ) 2 i i S k (! - ) 2 i i k i i 2 i k ( - ) 2 i i k i i i
Odchyleie stadardowe 68% 95% 3s 2s s 99,7% + s + 2s + 3s Poza przedział +/- jedego odchyleia stadardowego od średiej wykracza około 32% obserwacji. Poza przedział +/- dwóch odchyleń stadardowych od średiej wykracza tylko około 5% obserwacji. Prawdopodobieństwo, wystąpieia obserwacji spoza przedziału +/- trzech odchyleń stadardowych od średiej jest zikome i wyosi ok. 0,3%.
współczyiki zmieości Defiiuje się je jako stosuek wartości miary dyspersji do średiej. Współczyik zmieości oparty a odchyleiu stadardowym postaci: S V s Współczyik zmieości oblicza się rówież dla odchyleia ćwiartkowego:. Q V Q Me
Współczyik skośości określa zarówo kieruek, jak i siłę asymetrii i wyzacza się go: dla miar klasyczych W s Do S dla miar pozycyjych A s ( Q ( Q 3 3 Me) Me) + ( Me ( Me Q Q ) )
Współczyiki skośości są miarami iemiaowaymi i uormowaymi, co umożliwia porówywaie asymetrii różych rozkładów. Poza przypadkami skrajej asymetrii wartości współczyików asymetrii W s, A s wahają się w przedziale <-, >, w przypadku szeregu symetryczego przyjmują oe wartość zero.
Miary asymetrii Wskaźik asymetrii (zway rówież mierikiem skośości) dla szeregu symetryczego jest rówy zero. W szeregach asymetryczych mierik skośości może być większy lub miejszy od zera, mówimy wówczas o asymetrii prawostroej (dodatiej) lub asymetrii lewostroej (ujemej).
2 0 8 6 4 2 0 2 3 4 5 6 7 8 9 0 Wartość cechy X Rys. Przykład szeregu symetryczego
2 3 4 5 6 7 8 9 0 Rys. 2 Szereg o asymetrii dodatiej (prawostroej)
2 3 4 5 6 7 8 9 0 Rys. 3 Szereg asymetryczy ujemie (lewostroie)
W szeregu symetryczym Me Do przy asymetrii lewostroej D 0 < Me < Do < Do M s < 0 przy prawostroej > Me > Do > Do M s > 0
WYKRES Boplot (pudełkowy) ilustruje wzajeme położeie pięciu wskaźików sumaryczych: ( ) mi, Q, med, Q3, () ma. Obserwacja potecjalie odstająca 0 0,4 0,8,2,6
Z wykresu odczytujemy astępujące wskaźiki: Q 0, rzut a oś poziomą lewego boku prostokąta Q2 0,7 rzut a oś poziomą prawego boku prostokąta Q3 0,3 rzut a oś poziomą pioowego odcika wewątrz prostokąta IQR długość podstawy prostokąta Wąsy wykresu ramkowego liie po obu stroach prostokąta. Rzut lewego wąsa a oś poziomą przedział [ *, Q ], gdzie * mi{ k : Q 3/2 IQR k Q }, podobie określamy rzut prawego wąsa przedział [ *, Q ], gdzie * ma{ k : Q 3 k Q 3 + 3/2 IQR }
Bo Plot wykres pudełkowy Rozważamy rozkład wartości w pewej serii pomiarów tej samej zmieej Joh Tukey wprowadził wykres pudełkowy boplot dla wizualizacji rozkladu wartości Więcej iformacji: M media Q, Q3 quarrtiles Whiskers.5 * iterquartile rage Dots - outliers http://mathworld.wolfram.com/bo-ad- WhiskerPlot.html http://e.wikipedia.org/wiki/bo_plot Darwi s plat study http://www.upscale.utoroto.ca/geeraliterest/harriso/visualisatio/visualisatio.html
Wykorzystaie wykresów pudełkowych - porówaia
Cout 00 Average 2,02544 Media,46467 Variace 3,6395 Stadard deviatio,77875 Miimum 0,050559 Maimum 8,05684 Rage 8,0479 Lower quartile 0,63868 Upper quartile 3,23695 Iterquartile rage 2,59833 Coeff. of variatio 87,8206% Bo-ad-Whisker Plot 0 2 4 6 8 0 Col_
Histogram 40 30 frequecy 20 0 0-3 5 7 9 Col_ Bo-ad-Whisker Plot 0 2 4 6 8 0 Col_
Summary Statistics for RAND Cout 00 Average -0,0696 Media -0,056888 Variace,07775 Stadard deviatio,0385 Miimum -3,3656 Maimum 2,26235 Rage 5,6275 Lower quartile -0,726224 Upper quartile 0,680553 Iterquartile rage,40678 Std. skewess -,86072 Coeff. of variatio -937,836% Bo-ad-Whisker Plot -3,4-2,4 -,4-0,4 0,6,6 2,6 RAND
Histogram 40 30 frequecy 20 0 0-3,7 -,7 0,3 2,3 4,3 RAND Bo-ad-Whi sker Pl ot -3,4-2,4 -,4-0,4 0,6,6 2,6 RAND