Wykład Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy
Zbiorowość statystyczna - zbiór elementów lub wyników jakiegoś procesu powiązanych ze sobą logicznie (tzn. posiadających wspólne cechy stałe) i jednocześnie nieidentycznych (tzn. różniących się ze względu na cechy zmienne).
Cechy statystyczne - właściwości jednostek zbiorowości statystycznej TYPY CECH STATYSTYCZNYCH cechy mierzalne czyli: ilościowe, które można określić za pomocą liczb ciągłe czyli: wartości rzeczywiste z pewnego przedziału skokowe (dyskretne) czyli przyjmujące skończoną lub co najwyżej przeliczalną liczbę wartości cechy niemierzalne czyli: jakościowe, które można opisać jedynie słownie lub za pomocą odpowiednich skal numerycznych
Rodzaje badań statystycznych Badanie pełne obejmujące wszystkie elementy zbiorowości generalnej. Zbiorowość generalna (populacja generalna) - kompletny zbiór elementów lub wyników procesu. Badanie częściowe obejmujące pewną część elementów zbiorowości generalnej PRÓBA
Metody statystyczne metody opisu metody wnioskowania statystycznego syntetyczny liczbowy opis właściwości zbioru danych ocena charakterystyk populacji generalnej na podstawie danych częściowych = metody rachunku prawdopodobieństwa statystyka opisowa statystyka matematyczna
Badanie statystyczne Zbiorowość statystyczna: studenci w auli Z na wykładzie Pani Q = populacja generalna skończona Cechy statystyczne: liczba rodzeństwa cecha mierzalna skokowa (dyskretna) wiek ulubionego przeboju muzycznego cecha mierzalna ciągła Badanie pełne (jeśli wszyscy przyszli na wykład) Metoda badania statystycznego: opis statystyczny
Cecha = liczba rodzeństwa xj : ; 2; 2; ; 0; 0; ; ; 0; ; ; 0; 0; ; 2; 2; 4; 0; 0; ; ; ; ; 3; 4; 0; 0; ; 2; 2; ; 2; 2; ; 0; 0; 0; 0; 0; ; ; 0; 0; ; 2; 2; 3; 0; 0; ; ; ; ; 3; 4; 0; 0; ; 2; 2; ; 2; 2; ; 0; ; ; 0; 0; ; ; 0; 0; ; 2; 2; 4; 0; 0; ; ; ; ; 3; 4; 0; 0; ; 2; 2; ; 2; 2; ; 0; 0; 0; 0; 0; ; ; ; 0; ; 2; 2; 4; 0; 0; ; ; ; ; 3; 3; ; 0; ; 2; 2; n=20 dane indywidualne xj- indywidualne wartości cechy, gdzie j=,2,...,n ; n - liczebność badanej zbiorowości,
Cecha = liczba rodzeństwa Rozkład empiryczny cechy = dane pogrupowane i uporządkowane Szereg rozdzielczy xi ni wi 0 38 0,32 46 0,38 2 24 0,20 3 8 0,07 4 4 0,03 razem 20,00 xi - cecha przyjmuje k wartości, dla i=,2,...,k,. gdzie..,k (k<n), ni - liczba jednostek zbiorowości, dla których cecha przyjmuje wartość xi, przy czym zachodzi: ni n r i wi - udział jednostek o wartości xi cechy w ogólnej liczebności zbiorowości, czyli częstość względna (częstość jej występowania w ogólnej zbiorowości) określana jako: w i n i ; n i, 2,..., k w,oraz i i r,
Graficzna prezentacja Wykres punktowy Wykres słupkowy
Szereg rozdzielczy Wartości cechy xi Liczebności ni Częstości wi Dystrybuanta empiryczna Fn(xi) = w s x 0 n 38 0,32 w 0,32 w x2 n2 46 0,38 w2 w+w2 0,70 x3 n3 w3 w+w2+ w3 2 24 0,20 0,90.... 3. 8. 0,07. 0,97 x4 k n4 k 0,03 w k w+...,00 +wk = Ogółem razem 20 n,00 ------- X
Szereg rozdzielczy Wartości cechy xi x x2 x3.. Liczebności ni n n2 n3.. Częstości wi w w2 w3.. Dystrybuanta empiryczna Fn(xi) = w s w w+w2 w+w2+ w3. x k n k w k w+... +wk = Ogółem n -------
Dystrybuanta empiryczna cechy X jest to funkcja F n (x) określona na zbiorze liczb rzeczywistych od - do + xi dystrybuanta 0 0,32 0,70 2 0,90 3 0,97 4,00 razem X 32 97
Dystrybuanta empiryczna cechy X F(x),00 0,97,00 0,90 0,96 0,86 0,70 0,58 0,32 Dystrybuanta cechy skokowej x Liczba (liczba rodzeństwa dzieci w rodzinach) liczba rodzeństwa cecha skokowa x 0,29 0 0 2 3 4 x
Rozkład empiryczny cechy ciągłej Cecha = wiek ulubionego przeboju muzycznego (w latach) <x0i xi ) ni 5-0 2 0-5 20 5-20 38 20-25 35 25-30 5 30-35 0 razem 20 podział obszaru zmienności cechy na przedziały klasowe określenie liczby przedziałów klasowych k (k5), (k 5) ustalenie rozpiętości przedziału klasowego hi: h x x 0 i, 2,..., k i i i x0i, xi - odpowiednia dolna i górna granica przedziału klasowego.
Graficzna prezentacja Wiek ulubionego przeboju muzycznego Wielobok liczebności 5 0 5 20 25 30 35 Histogram Wiek ulubionego przeboju muzycznego 5 0 5 20 25 30 35
Dystrybuanta cechy ciągłej x F(x) Wiek ulubionego przeboju muzycznego lata
Analiza struktury zbiorowości statystycznej MIARY KLASYCZNE POZYCYJNE Położenia = tendencji centralnej Zróżnicowania Asymetrii Średnia arytmetyczna Wariancja Odchylenie standardowe Współczynnik zmienności Współczynnik asymetrii Mediana Kwantyle Dominanta Rozstęp Rozstęp międzykwartylowy Odchylenie ćwiartkowe Współczynnik zmienności
Miary położenia Miary klasyczne: Średnia arytmetyczna Miary pozycyjne: Kwantyle: mediana kwartyle decyle centyle Dominanta- najczęściej występująca wartość
Średnia arytmetyczna:
xi wi 0 0,32 0,38 2 0,20 3 0,07 4 0,03 razem,00 Średnia arytmetyczna:
dane indywidualne, Średnia arytmetyczna: formuła nieważona x n x o o x x - środek i-tego przedziału klasowego xi 2 i i0 n j w rozkładzie cechy skokowej, dane pogrupowane, formuła ważona x n k x j x n i i i w rozkładzie z przedziałami klasowymi, formuła ważona k x n x n i i i
Miary pozycyjne - kwantyle Mediana dzieli na połowę Kwartyle dzielą na cztery równe części Decyle dzielą na dziesięć równych części Centyle dzielą na sto równych części
kwantyl rzędu p (0 < p <) w rozkładzie empirycznym to taka wartość k p cechy, dla której - jako pierwszej - dystrybuanta empiryczna spełnia warunek: F n (k p ) p me =Mediana F n (k 0,5 ) 0,5 Q=Kwartyle F n (k 0,25 ) 0,25 F n (k 0,75 ) 0,75 Decyle Centyle F n (k 0, ) 0, F n (k 0,2 ) 0,2 F n (k 0,9 ) 0,9 F n (k 0,0 ) 0,0 F n (k 0,02 ) 0,02 F n (k 0,99 ) 0,99
Przykład wyznaczania kwartyla drugiego =mediany: dane indywidualne dane uporządkowane: 2; 2; 2; 4; 4; 5; 5; 5; 5; 6 n = 0 me = (4 + 5) / 2 = 4,5 (liczebność parzysta) dane uporządkowane: 2; 2; 2; 4; 4; 5; 5; 5; 5; 6 6 n = me = 5 (liczebność nieparzysta) PORZĄDEK!!! mediana to środkowa wartość w uporządkowanym rosnąco zbiorze wartości cechy. me me
Przykład: kwartyl drugi =mediana w szeregu rozdzielczym cechy skokowej F n (me) 0,5 Mediana =
Dystrybuanta cechy ciągłej x skumulowane częstości Graficzne wyznaczanie mediany F(x) Wiek ulubionego przeboju muzycznego 0,50 me lata
Przykład: kwartyle w szeregu rozdzielczym cechy skokowej F n (Q ) 0,25 F n (me) 0,5 F n (Q 3 ) 0,75 Q = 0 Mediana = = Q 3 = 2 Q 2
kwartyle Q, Q 2, Q 3 w rozkładzie cechy skokowej F n (Q ) 0,25; F n (Q2) 0,5; F n (Q 3 ) 0,75 w rozkładzie z przedziałami klasowymi Q x Q 3 oq x oq (0,25-3 Q 2 =me F n (0,75 - (x F oq n ) (x ) oq h w 3 ) Q Q ) h w Q Q 3 3
Miary zróżnicowania klasyczne wariancja z próby, to suma kwadratów odchyleń wartości cechy od jej średniej podzielona przez n- dane indywidualne, formuła nieważona w rozkładzie cechy skokowej, formuła ważona w rozkładzie z przedziałami klasowymi, formuła ważona odchylenie standardowe 2 ) 2 ( x x S j j n n n i x x S i k i n 2 ) ( 2 n i x x S i k i n 2 ) ( 2 2 S S
Obliczanie odchylenia standardowego w rozkładzie z przedziałami klasowymi Wiek ulubionego przeboju muzycznego (w latach) 5-0 2 7,5 69 338 0-5 20 2,5 64 280 5-20 38 7,5 9 342 20-25 35 22,5 4 40 25-30 5 27,5 49 735 30-35 0 32,5 44 440 razem 20 x x 4275 roku S 2 k n i ( x i x) 2 n i S= S Q Q Q 3 2 S lata² 2 lat
Miary zróżnicowania pozycyjne rozstęp = x max x min rozstęp międzykwartylowy I = Q 3 - Q odchylenie ćwiartkowe Q Q Q 3 2
Miary względne współczynnik zmienności (miara klasyczna ) V S *00% x współczynnik zmienności (miara pozycyjna ) V Q *00% me Średnia arytmetyczna Odchylenie standardowe Współczynnik zmienności (klasyczny) studenci 20,5 6 29% rodzice 25 7 28%
średnia; mediana; dominanta (do) n i Symetria A=0 Asymetria dodatnia (prawostronna) n i A>0 x M x D x x me do x i do Dx Mme x x x x i n i Asymetria ujemna (lewostronna) A<0 x me x M x do D x x i
A 2 Miary asymetrii współczynnik asymetrii (miara klasyczna) ( Q M A S 3 me) ( m Q Q 3 3 3 pozycyjny współczynnik asymetrii współczynnik skośności -2<A<2 eq ) A x S do
dla danych indywidualnych, formuła nieważona Moment centralny trzeciego rzędu M n ( x n 3 x j w rozkładzie cechy skokowej, formuła ważona n M n ( x * 3 - j - x i j ) ) 3 3 n i w rozkładzie z przedziałami klasowymi, formuła ważona n M n ( x * 3 j x i ) 3 n i