STATYSTYKA OPISOWA WYKŁAD i 2 Literatura: Marek Cieciura, Jausz Zacharski, Metody probabilistycze w ujęciu praktyczym, L. Kowalski, Statystyka, 2005
2
Statystyka to dyscyplia aukowa, której zadaiem jest wykrywaie, aaliza i opis prawidłowości występujących w procesach masowych. 3
Populacja to zbiorowość podlegająca badaiu statystyczemu. Aby populację określić jedozaczie charakteryzujemy ją pod względem: rzeczowym czasowym przestrzeym (terytorialym). 4
Cecha to właściwość elemetów populacji ze względu a którą prowadzimy badaie statystycze. Wariaty to wartości cechy (cecha powia mieć przyajmiej dwa wariaty). 5
Przykład Populacja: Studeci II semestru Wydziału Elektroiki WAT, wg stau a.0.200. Cechy: płeć, wzrost, kolor oczu, ocea a egzamiie z matematyki po I semestrze, ulubioy tygodik, wysokość miesięczych dochodów, czas poświęcoy a aukę w tygodiu poprzedzającym ostatią sesję egzamiacyją. 6
Przykład Populacja: Samochody osobowe zarejestrowae w Warszawie, wg stau a.09.200. Cechy: kolor karoserii, przebieg, średie zużycie paliwa a 00 km, marka, czas osiągaia prędkości 00 km/godz. 7
Uproszczoa klasyfikacja cech: 8
Badaie statystycze może być: pełe (obejmuje całą populację), częściowe (obejmuje część populacji próbę). 9
Próba powia być reprezetatywa tz. rozkład wariatów badaej cechy w próbie powiie być zbliżoy do rozkładu w całej populacji. 0
George Gallup 90-984 Pioier w dziedziie badaia opiii publiczej. Rozwiął techikę doboru grupy reprezetatywej
Uwaga Badaia pełe ie zawsze są możliwe lub celowe (badaia iszczące, duża poplacja, wysokie koszty). 2
Humor Polski lata 80-te 3
Liczebość próby. Dla reprezetatywej próby dorosłej liczebości Polski zwykle 000 300 osób. Jerzy Spława-Neyma (894-98) polski i amerykański matematyk i statystyk. Wprowadził pojęcie przedziału ufości. 4
CHARAKTERYSTYKI LICZBOWE Charakterystyki liczbowe to wielkości wyzaczoe a podstawie daych statystyczych, charakteryzujące własości badaej cechy. Zakładamy, że badaa cecha jest mierzala. 5
Klasyfikacja charakterystyk: charakterystyki położeia (p. średia, mediaa, domiata), charakterystyki rozproszeia (p. wariacja, odchyleie stadardowe, odchyleie ćwiartkowe, współczyik zmieości), charakterystyki asymetrii (p. współczyik asymetrii, wskaźik asymetrii), charakterystyki spłaszczeia (p. kurtoza). 6
Charakterystyki mogą być: klasycze (wyzaczoe przez wszystkie wartości daych statystyczych, p. średia, wariacja, odchyleie stadardowe, współczyik zmieości, współczyik asymetrii), pozycyje (wyzaczoe przez iektóre (decyduje ich pozycja) wartości daych statystyczych, p. mediaa, domiata, kwartyle), mieszae (p. wskaźik asymetrii). 7
Dae statystycze prezetujemy zwykle w postaci Szeregu prostego (stosujemy w przypadku małej liczby daych), Szeregu rozdzielczego puktowego (stosujemy gdy dae się powtarzają), Szeregu rozdzielczego przedziałowego (stosujemy gdy daych jest dużo i się ie powtarzają), 8
Szereg prosty Ozaczeia: X badaa cecha, liczba daych statystyczych, x i dae statystycze (i =, 2,..., ), Przykład X czas dojazdu do pracy (mi), Dae od 20 pracowików: 8, 26, 35, 2, 38, 45, 25, 54, 32, 5, 28, 22, 5, 8, 48, 42, 55, 4, 36, 6, tz. x = 8, x 2 = 26,., x 20 = 6, 9
Średia (arytmetycza) x = i= Np. dla daych 2, 5, 3, 4, 6, średia wyosi 4 (sumujemy dae i sumę dzielimy przez liczbę daych). x i 20
2
Uwaga Własość (suma odchyleń od średiej jest rówa zero) i= ( x i x) = 0 22
EXCEL: ŚREDNIA Zwraca wartość średią (średią arytmetyczą) argumetów. Składia ŚREDNIA(liczba;liczba2;...) Liczba; liczba2;... to od do 255 argumetów liczbowych, 23
Domiata d = wariat cechy występujący ajczęściej (o ile taki istieje). Np. dla daych 2, 3, 4, 3, 2, 5, 3, 2, 3 domiatą jest 3. Natomiast dla daych 2, 3, 4, 3, 2, 5, 3, 2, 3, 2 domiata ie jest określoa (mówimy, że jest to rozkład dwumodaly). 24
EXCEL: WYST.NAJCZĘŚCIEJ Zwraca wartość ajczęściej występującą lub powtarzającą się w tablicy albo w zakresie daych. Składia WYST.NAJCZĘŚCIEJ(liczba;liczba2;...) Liczba; liczba2;... to do 255 argumetów, Zamiast listy argumetów rozdzieloych średikami moża zastosować także pojedyczą tablicę lub odwołaie do tablicy. Jeśli zbiór daych ie zawiera zduplikowaych puktów daych, fukcja WYST.NAJCZĘŚCIEJ zwraca wartość błędu #N/D!. 25
26 Mediaa (wartość środkowa) Jeśli x x x 2... dae uporządkowae to + = + + dlaparzystych dlaieparzystych 2 2 2 2 2 e x x x m
Przykład Dla daych (po uporządkowaiu) 2, 2, 3, 3, 4, 5, 5, 5, 5 mediaą jest 4. Dla daych (po uporządkowaiu) 2, 2, 2, 3, 3, 4, 5, 5, 5, 5 mediaą jest 3,5. 27
EXCEL: MEDIANA Zwraca wartość mediay dla podaych liczb. Mediaa jest liczbą w środku zbioru liczb. Składia MEDIANA(liczba;liczba2;...) Liczba; liczba2;... to do 255 liczb, dla których ależy wyzaczyć mediaę. 28
Podział co 50% - mediaa, Podział co 25% - kwartyle, q, q 2 = m e, q 3, Podział co 0% - decyle, Podział co % - percetyle (cetyle), 29
30 Obliczaie kwartyli. Jeśli x x x 2... dae uporządkowae to = + + = + + = + = = + + + + + k x x k x x k x k x q 4 dla 2 4 dla 2 2 4 dla 3 4 dla 4 4 4 3 4 3 4 2 4 = + + = + + = + = = + + + + + k x x k x x k x k x q 4 dla 2 4 dla 2 2 4 dla 3 4 dla 4 3 4 3 4 5 3 4 3 4 2 3 4 3 3 3
EXCEL: KWARTYL Zwraca kwartyl zbioru daych. Składia KWARTYL(tablica;kwartyl) Tablica to tablica lub zakres komórek wartości liczbowych, dla których chcemy obliczyć wartość kwartylu. Kwartyl wskazuje wartość, która ma być zwrócoa. 3
Jeżeli kwartyl rówa się fukcja KWARTYL zwraca 0 Wartość miimala Pierwszy kwartyl (25. percetyl) 2 Wartość mediay (50. percetyl) 3 Trzeci kwartyl (75. percetyl) 4 Wartość maksymala 32
EXCEL: PERCENTYL Zwraca k-ty percetyl wartości w zakresie. Składia PERCENTYL(tablica;k) Tablica to tablica lub zakres daych, który określa względą pozycję. k to wartość percetylu w zakresie od 0 do włączie. 33
Wariacja s = 2 ( x i x) i= 2 34
Np. dla daych 2, 5, 3, 4, 6, średia wyosi 4. Aby wyzaczyć wariację liczymy sumę kwadratów odchyleń poszczególych daych od średiej: (2 4) 2 + (5 4) 2 +(3 4) 2 +(4 4) 2 +(6 4) 2 = 4 + + + 0 + 4 = 0 otrzymaa sumę dzielimy przez 5 (liczba daych). Zatem wariacja dla powyższych daych wyosi 2. 35
EXCEL: WARIANCJA.POPUL Oblicza wariację a podstawie całej populacji. Składia WARIANCJA.POPUL(liczba;liczba2;...) Liczba; liczba2;... to od to 255 argumetów liczbowych, 36
Uwaga s = 2 i= 2 ( ) x i x 2 37
Wariacja mierzy rozrzut (zróżicowaie) daych statystyczych (puktem odiesieia jest średia) lecz miara ta wyrażoa jest w kwadratach jedostek rozpatrywaych daych statystyczych co utrudia iterpretację, dlatego w praktyce częściej stosujemy pierwiastek z wariacji azyway odchyleiem stadardowym. 38
Odchyleie stadardowe 2 s = s, 39
EXCEL: ODCH.STANDARD.POPUL Oblicza odchyleie stadardowe dla całej populacji podaej w postaci argumetów. Odchyleie stadardowe jest miarą tego, jak szeroko wartości są rozproszoe od wartości średiej. Składia ODCH.STANDARD.POPUL(liczba;liczba2;...) Liczba; liczba2;... to od do 255 argumetów odpowiadających populacji. Zamiast argumetów rozdzieloych średikami moża użyć pojedyczej tablicy lub odwołaia do tablicy. 40
Odchyleie przecięte s p = i= x i x 4
EXCEL: ODCH.ŚREDNIE Zwraca wartość średią odchyleń bezwzględych puktów daych od ich wartości średiej. Składia ODCH.ŚREDNIE(liczba;liczba2;...) Liczba; liczba2;... to od do 255 argumetów, dla których ależy wyzaczyć średią odchyleń bezwzględych. 42
Współczyik zmieości s v = x (iekiedy wyik jest podaway w procetach) Współczyik zmieości mierzy zróżicowaie względe i określa jaką część (ile procet) przeciętego poziomu badaej cechy staowi odchyleie stadardowe. 43
Przedział typowych wartości [ x s x + s],, Jest to przedział do którego ależy większość daych statystyczych, iterpretacja ta jest uzasadioa wtedy gdy cecha ma rozkład zbliżoy do rozkładu ormalego. 44
Rozstęp r 0 xmax xmi =, 45
Współczyik asymetrii lub a = a = x d s i= ( x x) s i 3 (wskaźik asymetrii) Wskaźik asymetrii moża wyzaczać tylko gdy domiata jest określoa. 3 46
EXCEL: SKOŚNOŚĆ Zwraca skośość rozkładu. Skośość charakteryzuje stopień asymetrii rozkładu wokół jego średiej. Skośość dodatia określa rozkład z asymetrią rozciągającą się w kieruku wartości dodatich. Skośość ujema określa rozkład z asymetrią rozciągającą się w kieruku wartości ujemych. Składia SKOŚNOŚĆ(liczba;liczba2;...) Liczba; liczba2;... to od do 255 argumetów, dla których ależy obliczyć skośość. Zamiast argumetów rozdzieloych średikami moża użyć pojedyczej tablicy lub odwołaia do tablicy. 47
Jeśli liczba puktów daych jest miejsza iż trzy lub jeśli odchyleie stadardowe rówe jest zero, fukcja SKOŚNOŚĆ zwraca wartość błędu #DZIEL/0!. gdzie Wzór obliczający skośość: aˆ = 2 ( )( 2) sˆ 2 = i= ( x x) sˆ ( x i x) Jest wariacją ieobciążoą (z próby) (fukcja WARIANCJA w EXCELU) i= 2 i 3 3 48
Uwaga Zak współczyika asymetrii wskazuje a kieruek asymetrii atomiast jego wartość bezwzględa określa siłę asymetrii. Poieważ współczyik asymetrii jest wielkością iemiaowaą to dobrze adaje się do porówywaia dwóch cech lub tej samej cechy w różych populacjach 49
Miary asymetrii mają poiższą iterpretację tylko w przypadku rozkładów z jedą domiującą wartością (rozkład jedomodaly) wtedy mediaa plasuje się miedzy domiatą a średią tz. d me x lub x me d. 50
a) Jeśli a = 0 to mówimy, że cecha ma rozkład symetryczy b) Jeśli a > 0 to mówimy, że cecha ma rozkład asymetryczy (asymetria dodatia lub prawostroa) d m e x Asymetria dodatia (prawostroa) Poieważ mediaa dzieli badaą strukturę a dwie rówe części a średia jest większa od mediay to miej iż połowa daych ma wartości większe od średiej. 5
c) Jeśli a < 0 to mówimy, że cecha ma rozkład asymetryczy (asymetria ujema lub lewostroa). Asymetria ujema (lewostroa) x X m e d Poieważ mediaa dzieli badaą strukturę a dwie rówe części a średia jest miejsza od mediay to poad połowa daych ma wartości większe od średiej. 52
Współczyik skupieia (kurtoza) k = i= ( x x) s i 4 4 53
Uwaga Kurtoza mierzy skupieie (kocetrację) wartości cechy wokół średiej arytmetyczej. W praktyce sile skupieie ozacza, że średia arytmetycza dobrze reprezetuje badaą zbiorowość bowiem wiele jej elemetów ma wartości zbliżoe do średiej. Jeśli k = 3 to skupieie jest ormale (takie skupieie ma rozkład ormaly będzie omawiay i stosoway późiej). W tym przypadku moża przyjmować, że w typowym obszarze zmieości mieści się około 68% obserwacji. Jeśli k < 3 to rozkład jest spłaszczoy (platokurtyczy). W tym przypadku moża przyjmować, że w typowym obszarze zmieości mieści się miej iż 68% obserwacji. Jeśli k > 3 to rozkład jest wysmukły (leptokurtyczy). W tym przypadku moża przyjmować, że w typowym obszarze zmieości mieści się poad 68% obserwacji. 54
Wskaźik kurt ozy k = k 3 55
EXCEL: KURTOZA Zwraca kurtozę zbioru daych. Kurtoza charakteryzuje względe spłaszczeie rozkładu w porówaiu z rozkładem ormalym. Dodatia kurtoza ozacza rozkład o stosukowo małym spłaszczeiu. Ujema kurtoza ozacza rozkład stosukowo płaski. Składia KURTOZA(liczba;liczba2;...) Liczba; liczba2;... to od do 255 argumetów, dla których jest obliczaa kurtoza. Zamiast argumetów rozdzieloych średikami moża zastosować pojedyczą tablicę lub odwołaie do tablicy. 56
Jeżeli jest miej iż cztery pukty daych lub jeśli stadardowe odchyleie próbki jest rówe zero, fukcja KURTOZA zwraca wartość błędu #DZIEL/0!. Wzór obliczający Kurtozę: kˆ = 2 ( + ) ( )( 2)( 3) i= ( x x) sˆ i 4 4 3 2 ( ) ( 2)( 3) gdzie sˆ 2 = ( x i x) i= Jest wariacją ieobciążoą (z próby) (fukcja WARIANCJA w EXCELU) 2 57
Uwaga. W EXCELU moża globalie obliczyć charakterystyki korzystając z opcji STATYSTYKA OPISOWA w module ANALIZA DANYCH (zakładka DANE). 58
PRZYKŁAD dae 8 Koluma 26 35 Średia 29,7 2 Błąd stadardowy 3,09677253 (błąd średiej) 38 Mediaa 27 45 Tryb 8 (domiata)! 25 Odchyleie stadardowe 3,849877 (z próby)! 54 Wariacja próbki 9,8 32 Kurtoza -,06690605! 5 Skośość 0,46097065! 28 Zakres 43 (rozstęp) 22 Miimum 2 5 Maksimum 55 8 Suma 594 48 Liczik 20 42 55 4 36 6 59
Szereg rozdzielczy puktowy (stosujemy gdy dae się powtarzają), w i i s i w w 2 2 + 2......... w r r + 2 +...+ r = razem --- (ostatia koluma umieszczoa dodatkowo) 60
Ozaczeia: X badaa cecha, liczba daych statystyczych, x i dae statystycze (i =, 2,..., ), r liczba wariatów, w i wariaty cechy (i =, 2,..., r), i liczebość wariatu w i (i =, 2,..., r), ( = + 2 +...+ r ) s i liczebości skumulowae (s i = + 2 +...+ i ). Niekiedy liczebości poszczególych wariatów azywa się częstościami. 6
Przykład W 25 osobowej grupie studetów a egzamiie ze statystyki zarejestrowao astępujące wyiki: 3, 2, 4, 3, 2, 5, 3, 3, 3, 2, 3, 4, 5, 3, 5, 3, 3, 2, 4, 3, 3, 4, 3, 2, 3. Szereg rozdzielczy puktowy w i i s i 2 5 5 3 3 8 4 4 22 5 3 25 25 62
EXCEL: CZĘSTOŚĆ Oblicza, jak często wartości występują w określoym zakresie wartości, a astępie zwraca tablicę liczb w układzie pioowym. Poieważ fukcja CZĘSTOŚĆ zwraca tablicę, musi być wprowadzoa jako formuła tablicowa. Składia CZĘSTOŚĆ(tablica_dae;tablica_przedziały) Tablica_dae to tablica lub odwołaie do zbioru wartości, dla których mają być liczoe częstości. Tablica_przedziały to tablica lub odwołaie do iterwałów, w których mają być grupowae wartości argumetu tablica_dae. 63
Liczba elemetów w zwrócoej tablicy jest o jede większa iż liczba elemetów w argumecie tablica_przedziały. Te dodatkowy elemet zwraca liczbę wszystkich wartości istiejących poza ajwyższym iterwałem.. UWAGA Formuła musi być wprowadzoa jako formuła tablicowa. Należy zazaczyć zakres komórek wyiku, acisąć klawisz F2, a astępie acisąć klawisze CTRL+SHIFT+ENTER. Jeżeli formuła ie jest wprowadzaa jako formuła tablicowa, to będzie tylko jede wyik w komórce. 64
Średia (arytmetycza) x = r i= w i i gdy dae się powtarzają. 65
Przykład Dla daych 2, 3, 4, 3, 2, 5, 3, 2, 4, 5, 3, 4, 2, 2, 3 możemy wykorzystać ich krotość (uikamy wielokrotego dodawaia tych samych składików) i zaim policzymy średią sporządzamy zestawieie daych w szeregu rozdzielczym puktowym. Ostatia koluma zawiera pomocicze obliczeia sumy w i i. r i= w i i w i i 2 5 0 3 5 5 4 3 2 5 2 0 razem 5 47 Dzieląc sumę ostatiej kolumy przez liczbę daych otrzymujemy wartość średiej 47/5 = 3,3. 66
Wariacja s = 2 r i= i ( w x) i 2 67
Uwaga s = 2 r i= w i 2 i ( x) 2 Odchyleie stadardowe 2 s = s, Odchyleie przecięte s p = r i= i w i x 68
Współczyik asymetrii a = r i= i ( w x) s 3 i 3 69
Współczyik skupieia (kurtoza) k = r i= i ( w x) s 4 i 4 70
Przykład W 25 osobowej grupie studetów a egzamiie ze statystyki zarejestrowao astępujące wyiki: 3, 2, 4, 3, 2, 5, 3, 3, 3, 2, 3, 4, 5, 3, 5, 3, 3, 2, 4, 3, 3, 4, 3, 2, 3. w i i s i i / w i * i (w i - x ) * i (w i - x ) 2 * i (w i - x ) 3 * i (w i - x ) 4 * i 2 5 5 0,2 0 6 7,2 8,64 0,368 3 3 8 0,52 39 2,6 0,52 0,04 0,02 4 4 22 0,6 6 3,2 2,56 2,048,638 5 3 25 0,2 5 5,4 9,72 7,496 3,493 25 80 0,00 20,00 0,80 43,52 7