Podstawy
Podstawowe funkcje statystyki: informacyjna, analityczna, prognostyczna.
Funkcja informacyjna umożliwia pełny i obiektywny obraz badanych zjawisk
Funkcja analityczna umożliwia określenie czynników kształtujących konkretne procesy i zjawiska.
Funkcja analityczna cd. analiza współzależności.
Funkcja prognostyczna pozwala na przewidywanie kierunku rozwoju analizowanych zjawisk. 1:30,00 1:25,00 1:20,00 1:15,00 MĘŻCZYŹNI M-wynik najlepszy M-wynik najsłabszy M-Trend liniowy y = -1E-04ln(x) + 0,0009 R² = 0,9525 KOBIETY K-wynik najlepszy K-wynik najsłabszy K-Trend liniowy y = -2E-04ln(x) + 0,0011 R² = 0,982 CZAS (min:ss,00) 1:10,00 1:05,00 1:00,00 0:55,00 Rio de Janeiro Tokio 0:50,00 0:45,00 0:40,00 2016 2020
PODSTAWOWE POJĘCIA STATYSTYCZNE Zbiorowość statystyczna (populacja) zbiór dowolnych elementów objętych badaniem statystycznym. Jednostka statystyczna element składowy badanej zbiorowości.
Cechy statystyczne cechy stałe cechy zmienne rzeczowe (co?) jakościowe (niemierzalne) ilościowe (mierzalne) czasowe (kiedy?) zmienne skokowe przestrzenne (gdzie?) zmienne ciągłe
Zmienne skokowe to cechy, których wartości mogą wyrażać się jedynie określonymi liczbami zmieniającymi się skokami, bez wartości pośrednich. Np. liczba startujących w danej konkurencji osób, ilość dobrze wykonanych serwisów itp. Zmienne ciągłe to cechy, które mogą przyjmować każdą wartość z określonego skończonego przedziału liczbowego. Np. wiek, wzrost, wynik skoku w dal itp.
POMIAR Pomiar polega na przyporządkowaniu cechom statystycznym ustalonych symboli, którymi mogą być liczby, litery alfabetu, formy geometryczne, kolory, opis słowny itp. Wyróżniamy pomiary: bezpośrednie (w naukach eksperymentalnych), pośrednie (w naukach społecznych).
SKALE POMIAROWE skala nominalna
SKALE POMIAROWE skala porządkowa (rangowa)
SKALE POMIAROWE skala przedziałowa (interwałowa)
SKALE POMIAROWE skala ilorazowa (stosunkowa)
Celem badania statystycznego jest realizacja jednego lub kilku poniższych zadań: - poznanie rozkładu zbiorowości pod względem wybranej lub wybranych cech (analiza struktury), 10 Histogram: Masa C. Oczekiwana normalna 9 8 7 Liczba obs. 6 5 4 3 2 1 0 49 56 63 70 77 84 91 X < Granica klasy
Celem badania statystycznego jest realizacja jednego lub kilku poniższych zadań: - ocena rodzajów związków występujących między cechami (analiza współzależności), Pchanie pod górę na 2km Bieg na nartorolkach na 5km p<0,001 p<0,010 BIEG INDYWIDUALNY NA 10km p<0,025 p<0,015 Wyciskanie sztangi na czas Wyciskanie sztangi leżąc
Celem badania statystycznego jest realizacja jednego lub kilku poniższych zadań: - poznanie zmian zbiorowości w czasie (analiza dynamiki).
ETAPY BADANIA STATYSTYCZNEGO przygotowanie (programowanie) badania, obserwacja statystyczna, opracowanie i prezentacja materiału statystycznego, opis lub wnioskowanie statystyczne.
Przykład Przeprowadzono test motoryczny wśród uczniów jednej ze szkół, w wyniku czego otrzymano następujące dane. Dokonaj interpretacji otrzymanych wyników. 55, 56, 58, 57, 56, 59, 58, 58, 58, 56, 54, 55, 55, 57, 56, 58, 59, 54, 55, 55, 56, 58, 57, 57, 56, 56, 56, 56, 57, 54, 55, 56, 57, 57, 57
60 Liniowy Wyniki testu motorycznego 59 Wyniki testu motorycznego 58 57 56 55 54 53 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35
60 Liniowy Wyniki testu motorycznego 59 Wyniki testu motorycznego 58 57 56 55 54 53 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35
11 Histogram: Wyniki testu motorycznego 10 9 8 7 Liczba obs. 6 5 4 3 2 1 0 54 55 56 57 58 59 Klasa
SZEREGI STATYSTYCZNE Szczegółowe (wyliczające) Rozdzielcze (strukturalne) Przestrzenne (geograficzne) Czasowe (dynamiczne) cech mierzalnych cech niemierzalnych punktowe przedziałowe
60 Liniowy Wyniki testu motorycznego 59 Wyniki testu motorycznego 58 57 56 55 54 53 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 Graficzne przedstawienie szeregu szczegółowego z uporządkowaniem rosnącym
Szereg rozdzielczy to zbiór wartości liczbowych uporządkowanych wg wariantów badanej cechy mierzalnej lub niemierzalnej, przy czym poszczególnym wariantom zmiennej przyporządkowane są odpowiadające im liczebności. Określa strukturę badanej zbiorowości. Szereg rozdzielczy punktowy Szereg rozdzielczy przedziałowy X i Częstość występowania N i 54 III 3 55 IIIIII 6 56 IIIIIIIIII 10 57 IIIIIIII 8 58 IIIIII 6 59 II 2 35 Zakres przedziału Liczebność 45,0 < x 50,0 1 50,0 < x 55,0 4 55,0 < x 60,0 3 60,0 < x 65,0 7 65,0 < x 70,0 4 70,0 < x 75,0 4 75,0 < x 80,0 3
12 10 Serie1 8 liczebność 6 4 2 0 54 55 56 57 58 59 wynik testu motorycznego Graficzne przedstawienie szeregu rozdzielczego punktowego
10 Histogram: Masa C. Oczekiwana normalna 9 8 7 Liczba obs. 6 5 4 3 2 1 0 49 56 63 70 77 84 91 X < Granica klasy Graficzne przedstawienie szeregu rozdzielczego przedziałowego
Określenie liczby przedziałów Jeżeli: N= 040 do 060 k=6-8 N= 060 do 100 k=7-10 N= 100 do 200 k=9-12 N= 200 do 500 k=12-17* k=n 1/2 k=1+3,22logn *wg Ostaszewski, Zając
Rozpiętość przedziału (interwał lub rozstęp klasowy) to różnica miedzy górną i dolną granicą klasy. i x max k x min gdzie: i k x max x min interwał przedziału liczba przedziałów największa wartość cechy najmniejsza wartość cechy Ustalenie dolnej granicy przedziału d x 1 min i 2 gdzie: d 1 i dolna gr. przedziału interwał zbiorowy
16 14 Papierosy Kawa 12 Ilość osób 10 8 6 4 2 0 Duże ilości Średnio Niewiele Nigdy Rodzaj używki Graficzne przedstawienie szeregu rozdzielczego punktowego
Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej cechy.
Średnia arytmetyczna suma wartości zmiennej wszystkich jednostek badanej zbiorowości podzielona przez liczbę tych jednostek. x x x... 1 2 N x n i 1 N N x i gdzie: x xi N - symbol średniej arytmetycznej, - warianty cechy mierzalnej, - liczebność badanej zbiorowości
Średnia jest wypadkową wszystkich wartości zmiennej i spełnia nierówność: x min x x max x 1 3 5 7 4 4 x = 1 + 3 + 5 + 5 + 5 + 5 + 7 7 = 4,43 x = 1 + 3 + 30 5 + 7 33 = 4,88 x 1 3 5 7 20 5 7,2 Właściwości średniej arytmetycznej
Suma odchyleń poszczególnych wartości zmiennej od średniej arytmetycznej jest równa zeru Reprezentacja Kartki x i (x i - x) Hiszpania 4 4-6,00 Belgia 6 6-4,00 Turcja 16 16 6,00 Niemcy 13 13 3,00 Anglia 10 10 0,00 Polska 11 11 1,00 Suma (x i ) = 60 Średnia ( x) = 10 Suma ( ) = 0 Właściwości średniej arytmetycznej
Suma wartości zmiennej jest równa iloczynowi średniej arytmetycznej i liczebności zbiorowości N i=1 x i = N x Reprezentacja Kartki x i Hiszpania 4 4 Belgia 6 6 Turcja 16 16 Niemcy 13 13 Anglia 10 10 Polska 11 11 Suma (x i ) = 60 Średnia ( x) = 10 N i=1 x i = 6 10 Właściwości średniej arytmetycznej
Jeżeli wszystkie wartości zmiennej powiększy się (pomniejszy, podzieli lub pomnoży) o pewną stałą, to średnia arytmetyczna będzie równa sumie (różnicy, ilorazowi lub iloczynowi) średniej arytmetycznej wyjściowych zmiennych i tej stałej) Reprezentacja x i x i +5 x i 5 x i /:5 Hiszpania 4 9 20 0,8 Belgia 6 11 30 1,2 Turcja 16 21 80 3,2 Niemcy 13 18 65 2,6 Anglia 10 15 50 2 Polska 11 16 55 2,2 Średnia ( x) = 10 Średnia ( x) = 15 Średnia ( x) = 50 Średnia ( x) = 2 Właściwości średniej arytmetycznej
Przeciętni 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 2 2,5 3 3,5 4 4,5 5 S=0
Normalnie przeciętni 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 2 2,5 3 3,5 4 4,5 5 S=0,42
Normalnie zróżnicowani 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 2 2,5 3 3,5 4 4,5 5 S=0,77
Słabeusze i Geniusze 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 2 2,5 3 3,5 4 4,5 5 S=1,54
Średnia wyliczana z szeregów rozdzielczych punktowych x x n x n x n 1 1 2 2... i i n gdzie: x x x... 1 i n... 1 ni n - symbol średniej arytmetycznej, - kolejne wartości zmiennej, - liczba jedn. odpowiadająca danym wariantom zmiennej - liczebność
Średnia wyliczana z szeregów rozdzielczych przedziałowych x x n x n x n 1 1 2 2... i i n gdzie: x x x... 1 i n... 1 ni n - symbol średniej arytmetycznej, - środki przedziałów klasowych, - liczba jedn. w danym przedziale klasowym - liczebność
Wysokość ciała [cm] NAPASTNICY 188,00 186,00 184,00 182,00 180,00 178,00 176,00 174,00
Średnia arytmetyczna ważona X n i 1 n i 1 XW i W i i gdzie: w i >0 tzw. wagi
Zadanie 3 Chcielibyśmy obliczyć ocenę końcową z przedmiotu STATYSTYKA z ocen cząstkowych, przedstawionych w poniższym szeregu: Rodzaj oceny Oc.1 Oc.2 Oc.3 Oc.4 Oc.5 oceny za aktywność 4 5 4 4 4 oceny z kolokwium pisemnego 3 2 3 oceny z odpowiedzi ustnych 3 4 Dla prowadzącego przedmiot, najistotniejszymi z punktu widzenia oceny końcowej są oceny z kolokwium pisemnego. Dlatego też zastosujemy wagę ocen w stosunku 2:4. X n 1 4 5 4 4 4 3 2 3 3 4 36 Xi n 10 10 i 1 3,6
Rozwiązanie zadania 3 Rodzaj oceny Oc.1 Oc.2 Oc.3 Oc.4 Oc.5 oceny za aktywność 4 5 4 4 4 oceny z kolokwium pisemnego 3 2 3 oceny z odpowiedzi ustnych 3 4 X w (2 4) (4 2, 66) 18, 64 2 4 6 3,1 W 1 = 4+5+4+4+4+3+4 7 = 28 7 = 4 W 2 = 3 + 2 + 3 3 = 2,66
Modalna to wartość, która w rozkładzie empirycznym występuje najczęściej. W szeregach szczegółowych i rozdzielczych jest to wartość cechy, której odpowiada największa liczebność. n n m m 1 Mo x o m m 1 m m 1 ( ) ( ) n n n n k m x 0 n m n m-1 n m+1 k m - dolna granica przedziału, w którym występuje modalna, - liczebność przedziału modalnej, - liczebność klasy poprzedzającej przedział modalnej, - liczebność klasy następującej po przedziale modalnej, - rozpiętość przedziału klasowego modalnej.
Kwantyle dzielą zbiorowość przedstawioną w postaci szeregu statystycznego na określone części pod względem liczby jednostek. Części te pozostają w stosunku do siebie w określonych proporcjach. Kwartyl pierwszy Q 1 jest to wartość jednostki, dzieląca zbiorowość w ten sposób, że ¼ (25%) jednostek ma od niej wartości nie większe, a ¾ (75%) nie mniejsze.
Kwartyl drugi (mediana, wartość środkowa, Me) to wartość jednostki położonej w ten sposób, że dzieli zbiorowość na dwie równe części. Kwartyl trzeci Q 3 to wartość jednostki dzieląca zbiorowość w ten sposób, że ¾ (75%) jednostek ma od niej wartości nie większe, a ¼ (25%) nie mniejsze. 25 % wartości 25 % wartości 25 % wartości 25 % wartości Q 1 Mediana Q 3 Rozstęp kwartylowy Rozstęp
Wysokość ciała [cm] NAPASTNICY Średnie wartości napastników I.O. w Turynie Q1 Q3 188 186 184 182 180 178 176 174
Wzory na obliczenie mediany w szeregu szczegółowym w przypadku, gdy n jest nieparzyste Me x n 1 2 w przypadku, gdy n jest parzyste Me ( x x ) n n 1 2 2 2
ZADANIE W Mistrzostwa Świata w piłce nożnej ilość żółtych kartek otrzymanych przez zawodników reprezentacji narodowych przedstawia się następująco: Reprezentacja Kartki Reprezentacja Kartki Hiszpania 9 Belgia 6 Turcja 16 Niemcy 13 Anglia 15 Polska 11 Kamerun 6 Nigeria 5 Brazylia 3 Japonia 8 Holandia 9 Chorwacja 12 Dania 10 Francja 7 Czechy 8 Słowacja 11
Wzór na obliczenie mediany w szeregu rozdzielczym przedziałowym m 1 km n Me xm n n m 2 i 1 i m x m n m k m m 1 i 1 n i - numer klasy, w której występuje Mediana, - dolna granica tej klasy, - liczebność tej klasy, - rozpiętość tej klasy, - liczebność skumulowana do przedziału poprzedzającego klasę, w której występuje mediana.
Wzory na obliczenie kwartyla pierwszego w szeregu szczegółowym n podzielne przez 4 Q 1.4 x n n 1 4 4 2 x n+1 podzielne przez 4 Q 1.4 x n 4 1 n+2 podzielne przez 4 Q 1.4 x n 4 0,5 n+3 podzielne przez 4 Q 1.4 x n 1 n 1 0,5 0,5 4 4 2 x
Wzory na obliczenie kwartyla trzeciego w szeregu szczegółowym n podzielne przez 4 Q 3.4 x 3n 3n 1 4 4 2 x n+1 podzielne przez 4 Q 3.4 x3( n 1) 4 n+2 podzielne przez 4 Q x 3.4 3 n 4 0,5 n+3 podzielne przez 4 Q 3.4 x 3( n 1) 3n 1 0,5 0,5 4 4 2 x
MIARY ZMIENNOŚCI Rozstęp jest miarą charakteryzującą empiryczny obszar zmienności badanej cechy. R=x max - x min Odchylenie ćwiartkowe jest połową obszaru zmienności 50% środkowych jednostek zbiorowości. Q Q Q 2 3.4 1.4
Współczynnik zmienności jest względną miarą rozproszenia, służącą do porównywania zróżnicowania dwóch różnych cech lub jednej cechy w dwóch różnych grupach. V s x 100% Jeśli współczynniki zmienności przyjmują wartości liczbowe z przedziału od 0% do 100%, to fakt ten świadczy o niejednorodności zbiorowości. Jeśli V>20%, to zbiorowość jest znacznie zróżnicowana pod względem badanej cechy.
Wariancja średnia arytmetyczna z kwadratów odchyleń poszczególnych wartości zmiennej od średniej arytmetycznej całej zbiorowości. 1 s x x n 2 2 ( i ) n i 1 Odchylenie standardowe pierwiastek kwadratowy z wariancji. n 1 s ( x x) n i 1 i 2
Przeciętni Normalnie przeciętni 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 S=0 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 S=0,42 2 2,5 3 3,5 4 4,5 5 2 2,5 3 3,5 4 4,5 5 Normalnie zróżnicowani Słabeusze i Geniusze 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 S=0,77 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 S=1,54 2 2,5 3 3,5 4 4,5 5 2 2,5 3 3,5 4 4,5 5
1) Jest wielkością obliczaną na podstawie wszystkich obserwacji. 2) Można je poddawać przekształceniom algebraicznym. 3) Im zbiorowość jest bardziej zróżnicowana, tym większe jest odchylenie standardowe. 4) Odchylenie standardowe spełnia regułę trzech sigm, według której w przypadku rozkładu normalnego lub zbliżonego do normalnego: blisko 31,73% wszystkich obserwacji różni się od średniej arytmetycznej więcej niż o ±s, tylko około 5% obserwacji wykracza poza przedział ( -2s, +2s), tylko 0,3% wszystkich obserwacji wykracza poza przedział ( -3s, +3s).
Tabela pomocnicza dla obliczenia wariancji (odchylenia standardowego) Reprezentacja Kartki x i x i - (x i - ) 2 Hiszpania 9 9-0,31 0,10 Belgia 6 6-3,31 10,97 Turcja 16 16 6,69 44,72 Niemcy 13 13 3,69 13,60 Anglia 15 15 5,69 32,35 Polska 11 11 1,69 2,85 Kamerun 6 6-3,31 10,97 Nigeria 5 5-4,31 18,60 Brazylia 3 3-6,31 39,85 Japonia 8 8-1,31 1,72 Holandia 9 9-0,31 0,10 Chorwacja 12 12 2,69 7,22 Dania 10 10 0,69 0,47 Francja 7 7-2,31 5,35 Czechy 8 8-1,31 1,72 Słowacja 11 11 1,69 2,85 Σ=193,44
Miary asymetrii =Me=Mo >Me>Mo <Me<Mo - rozkład symetryczny - rozkład o asymetrii prawostronnej - rozkład o asymetrii lewostronnej n i n i x Me Mo Mo Me x x i x i Asymetria lewostronna <Me<Mo Asymetria prawostronna >Me>Mo
Asymetria prawostronna oznacza, że przewaga liczebności występuje w przedziałach klasowych poniżej średniej arytmetycznej.
Asymetria lewostronna oznacza, że przewaga liczebności występuje w przedziałach klasowych powyżej średniej arytmetycznej.
Miary asymetrii i koncentracji Wskaźnik asymetrii (skośności) Określa kierunek A x Mo s Współczynnik asymetrii (skośności) klasyczno-pozycyjny A s x Mo s Współczynnik asymetrii tzw. klasyczny, zwany także momentem centralnym rzędu trzeciego. Określa kierunek i siłę asymetrii A s m s 3 3 gdzie: m 3 ( x x) i n 3
Interpretacja współczynnika asymetrii: As = 0 As >0 As <0 rozkład symetryczny asymetria prawostronna asymetria lewostronna
Miary koncentracji n i n i n i x i x i x i Rozkład normalny Rozkład wysmukły Rozkład spłaszczony
Częstość 190 185 180 175 170 165 160 155 150 Wysokość ciała - Grupa 1 1 2 3 4 5 6 7 8 9 10 11 12 Wzrost (cm) Średnia 1 kwartyl 3 kwartyl Średnia 178,00 Mediana 179,50 1 kwartyl 176,00 3 kwartyl 181,25 Modalna 180,00 Odchylenie stand. 5,78 Wsp.zmienności 3,25 Skośność -1,36 Kurtoza 2,38 7 Wysokość ciała - Grupa 1 6 5 4 3 2 Częstość 1 0 160 165 170 175 180 185 190 195 Więcej Zbiór danych (koszyk)
Częstość 205 200 195 190 185 180 175 170 165 160 Wysokość ciała - Grupa 2 1 2 3 4 5 6 7 8 9 10 11 12 Wzrost (cm) Średnia 1 kwartyl 3 kwartyl Średnia 182,58 Mediana 181,50 1 kwartyl 179,75 3 kwartyl 182,25 Modalna 182,00 Odchylenie stand. 6,57 Wsp.zmienności 3,60 Skośność 1,54 Kurtoza 3,28 Wysokość ciała - Grupa 2 6 5 4 3 2 Częstość 1 0 160 165 170 175 180 185 190 195 Więcej Zbiór danych (koszyk)
Współczynnik skupienia (kurtoza) jest miarą skupienia poszczególnych obserwacji wokół średniej. K m4 4 s gdzie: n 1 m ( x x) 4 n i 1 i 4 Interpretacja współczynnika skupienia: k <3 rozkład spłaszczony k =3 rozkład normalny k >3 rozkład wysmukły
Tabela pomocnicza dla obliczenia wariancji (odchylenia standardowego), asymetrii i kurtozy x i x i - (x i - ) 2 (x i - ) 3 (x i - ) 4 3 3 4 4 4 5 6 6 7 8 Σ= Σ= Σ=
Tabela pomocnicza dla obliczenia wariancji (odchylenia standardowego), asymetrii i kurtozy x i x i x i - (x i - ) 2 (x i - ) 3 (x i - ) 4 3 3-2,00 4,00-8,00 16,00 6 3-2,00 4,00-8,00 16,00 4 4-1,00 1,00-1,00 1,00 8 4-1,00 1,00-1,00 1,00 4 4-1,00 1,00-1,00 1,00 5 5 0,00 0,00 0,00 0,00 6 6 1,00 1,00 1,00 1,00 3 6 1,00 1,00 1,00 1,00 7 7 2,00 4,00 8,00 16,00 4 8 3,00 9,00 27,00 81,00 Σ=26,00 Σ=18,00 Σ=134,00 =5; Me=4,5; Mo=4; s 2 =2,6; s=1,61; v=32,25; As=0,43; Ku=1,98