14.X.2011
Porządek wykładu Grupowanie i prezentacja danych Analiza struktury Analiza współzależności Rozkłady prawdopodobieństwa
Literatura - Kot, S. (2007), Statystyka podręcznik dla studiów ekonomicznych, Wydawnictwo Difin, Warszawa; - Luszniewicz A., Słaby T., (2008), Statystyka z pakietem komputerowym STATISTICA PL. Teoria i zastosowania, Wydawnictwo C.H.Beck, Warszawa.
Grupowanie i prezentacja danych
Podstawowe pojęcia Populacja generalna (ang. general population) Próba (ang. sample) losowa (ang. random) nielosowa tendencyjna (ang. nonrandom) Jednostka statystyczna Cecha statystyczna zmienna (ang. variable) jakościowa (ang. qualitative) dychotomiczna (ang. bicategorical) wielodzielna(ang. multicategorical) ilościowa(ang. quantitative) skokowa (ang. discrete) ciągła (ang. continous)
Grupowanie typologiczne wariancyjne Szereg danych szereg szczegółowy szereg rozdzielczy punktowy szereg rozdzielczy przedziałowy Prezentacja danych na wykresach dystrybuanta histogram
Zasady poprawnego grupowania R = x x max min k n lub k 1+ 3,322 log n R h = k x = x 0,5 h 01 min x = x + h M 11 01 x = x + ( i 1) h 0i 01 x = x + h 1i 0i i = 2,3,4,..., k liczba obserwacji (n) liczba zalecanych klas 40 60 6 8 60 100 7 10 100 200 9 12 200 500 11 17 500 1500 18 25 ponad 1500 25 k x & i xi 0,5 h i= 1 ni 5
Przykład Stopę bezrobocia rejestrowanego w % wpolsce wg województw na koniec roku 1996 przedstawia następujący szereg szczegółowy (źródło: Rocznik Statystyczny 1997, GUS, tabl. 21(214), s. 141): 4,1; 11,9; 11,7; 9,6; 16,7; 13,1; 19,0; 12,1; 23,4; 10,6; 17,0; 18,2; 14,9; 8,4; 15,2; 17,3; 24,7; 6,1; 14,9; 16,9; 12,0; 11,7; 14,3; 16,2; 12,8; 23,6; 12,9; 17,0; 17,4; 16,8; 16,6; 6,2; 14,2; 17,2; 14,6; 10,7; 12,7; 10,7; 25,7; 24,6; 13,1; 13,9; 12,4; 18,6; 21,7; 21,5; 9,8; 12,4; 15,3. 1. Określ badaną zbiorowość, jednostkę oraz cechę statystyczną. 2. Przeprowadź grupowanie statystyczne. 3. Zaprezentuj graficznie otrzymany szereg.
Rozwiązanie nr 1 Przedział klasowy x x 0i 1i (2,3 ; 5,9 (5,9 ; 9,5 (9,5 ;13,1 (13,1;16, 7 (16,7 ; 20,3 (20,3 ; 23,9 (23,9 ; 27,5 Pomiary z przedziału Liczba jednostek Środek przedziału Średnia z przedziału 4,1 1 4,1 4,1 0 6,1; 6,2; 8,4 3 7,7 6,9 0,8 9,6; 9,8; 10,6; 10,7; 10,7; 11,7; 11,7; 11,9; 12,0; 12,1; 12,4; 12,4; 12,7; 12,8; 12,9; 13,1; 13,1 13,9; 14,2; 14,3; 14,6; 14,9; 14,9; 15,2; 15,3; 16,2; 16,6; 16,7 16,8; 16,9; 17,0; 17,0; 17,2; 17,3; 17,4; 18,2; 18,6; 19,0 n i x& i 17 11,3 11,8 0,5 11 14,9 15,2 0,3 10 18,5 17,5 1 21,5; 21,7; 23,4; 23,6; 4 22,1 22,6 0,5 24,6; 24,7; 25,7 3 25,7 25 0,7 Suma X 49 X X 3,8 x i x& i x i
Rozwiązanie nr 2 k = 49 = 7 k 1+ 3,322 log 49 6, 615 k 6, 615 k = 6 R = 25, 7 4,1 = 21, 6 21,6 h = = 3,6 4 6 x 01 = 4,1 0,5 4 = 2,1 2
Analiza struktury Lean Six Sigma Six Sigma Black Black Belt Belt
Podstawowe pojęcia Miary położenia (tendencji centralnej) Miary dyspersji (rozproszenia) Miary asymetrii Miary koncentracji (spłaszczenia)
Miary tendencji centralnej klasyczne średnia arytmetyczna (ang. arithmetic mean) średnia geometryczna (ang. geometric mean) pozycyjne dominanta, moda(ang. mode) mediana(ang. median) kwartyle(pierwszy, trzeci) (ang. lower and upper quartile) decyle(ang. decile) percentyle(ang. percentile)
Zadanie 1 Poniższy zestaw danych przedstawia wyniki biegu na 60m w sekundach. Wyznacz miary tendencji centralnej (średnia, mediana, dominanta, kwartyl pierwszy i trzeci) dla podanego szeregu szczegółowego. 10, 11, 9, 9, 12, 16, 12, 13, 8, 9, 10, 15 Rozwiązanie 8, 9, 9, 9, 10, 10, 11, 12, 12, 13, 15, 16
Zadanie 2 Poniższy szereg przedstawia zestawienie meczy piłki nożnej Ekstraklasy w rundzie jesiennej 2008/2009 pod względem strzelonych bramek w poszczególnych meczach. Wyznacz miary tendencji centralnej (średnia, mediana, dominanta, kwartyl pierwszy i trzeci) dla podanego szeregu rozdzielczego punktowego.
Rozwiązanie
Wykres ramka wąsy (boxand whiskerplot)
Zadanie 3 Podany szereg przedstawia zestawienie wyników ankiety przeprowadzonej w grupie 50 kobiet w wieku 20-40 lat odnośnie kwoty miesięcznych wydatków w zł na środki pielęgnacyjne. Wyznacz miary tendencji centralnej (średnia, mediana, dominanta, kwartyl pierwszy i trzeci, decyl dziewiąty) dla podanego szeregu rozdzielczego przedziałowego.
Rozwiązanie
Miary dyspersji klasyczne wariancja (ang. variance) odchylenie standardowe (ang. standard deviation) współczynnik zmienności (ang. coefficient of variation) odchylenie przeciętne (ang. mean deviation) pozycyjne rozstęp (ang. range) rozstęp kwartylowy (ang. interquartile range) odchylenie ćwiartkowe współczynnik zmienności (ang. coefficient of variation)
Miary asymetrii klasyczne moment trzeci centralny moment trzeci względny pozycyjne kwartylowywspółczynnik skośności decylowy współczynnik skośności współczynnik asymetrii oparty na średniej i dominancie
Miary spłaszczenia -kurtozy klasyczne moment czwarty centralny moment czwarty względny współczynnik ekscesu pozycyjne nie stosuję się
Zadanie 4 Poniższy szereg rozdzielczy przedstawia dane o zarobkach pracowników pewnej firmy produkcyjnej w skali roku w tysiącach zł. Dokonaj analizy miar położenia, dyspersji, asymetrii i spłaszczenia
Rozwiązanie
Podsumowanie
Analiza współzależności
Podstawowe pojęcia korelacja (ang. correlation) dodatnia, ujemna współczynnik korelacji liniowej Pearsona (ang. Pearson s correlation) współczynnik determinacji (ang. coefficient of determination ) współczynnik korelacji rang (ang. rank correlation) Spearmana, Kendalla
Współczynniki korelacji
Siła i kierunek korelacji
Przykład Na podstawie rocznych danych dotyczących populacji bocianów X oraz ilości urodzeń żywych Y w gminie Z ustalić czy między zmiennymi X i Y istnieje (z punktu widzenia statystycznego) zależność korelacyjna. Jeśli tak, to określić jej siłę i kierunek. Do obliczeń wykorzystaj współczynnik korelacji liniowej Pearsona, współczynnik rang Spearmana oraz rang Kendalla. X 136 132 141 144 152 148 158 163 154 155 Y 12 4 7 11 8 5 14 12 9 7
Przykład Policzyć macierz korelacji pomiędzy następującymi zmiennymi i podaj interpretację obliczonych współczynników.
Rozwiązanie
Regresja liniowa
Przykład Poniższa tabela przedstawia dane odnośnie wieku (w latach) oraz wzrostu (w cm) dla grupy 15 losowo wybranych osób. Określ równanie regresji liniowej opisującej zależność wzrostu od wieku. Oceń dopasowanie funkcji regresji do danych. Za pomocą otrzymanego modelu teoretycznego oszacuj wzrost osoby w wieku 17 lat.
Rozwiązanie Z modelu teoretycznego regresji liniowej wynika, że wzrost wieku o jeden rok powoduje przyrost wysokości o 5,31 cm. Faktycznie zaobserwowany wzrost badanych osób różni się od szacowanego za pomocą funkcji średnio 6,94 cm, co stanowi 4,87% średniego wzrostu. 4% zmienności wzrostu nie jest wyjaśniona przez wiek. 96% zmienności wzrostu jest wyjaśniona przez wiek. Osoba w wieku 17 lat powinna mieć wzrost w granicach od 164,15 cm do 178,03 cm.
200 Wykres rozrzutu wzrost względem wiek wzrost = 80,8227+5,3141*x 180 160 wzrost 140 120 100 80 0 2 4 6 8 10 12 14 16 18 20 22 wiek
Wybrane rozkłady prawdopodobieństwa
Podstawowe pojęcia zmienna losowa - skokowa, ciągła (ang. random variable) rozkład prawdopodobieństwa (ang. distribution) dystrybuanta zmiennej losowej (ang. distribution function) wartość oczekiwana (ang. expected value) wariancja (ang. variance) funkcja gęstości(ang. density function)
Rozkłady zmiennej losowej Zmienna skokowa rozkład Bernouliego rozkład Poissona rozkład geometryczny Zmienna ciągła rozkład normalny rozkład wykładniczy
Parametry rozkładów zmiennych losowych skokowych Wartość oczekiwana Wariancja pi = P( X = xi ) µ = E( X ) = xi pi = m i 2 2 ( ) ( ) ( ) ( ( )) 2 i i E X E X 2 2 σ = D X = x m p = i Odchylenie standardowe Współczynnik zmienności ( ) ( ) D X = D 2 X = σ = σ 2 ( ) ( ) D X σ V ( X ) = 100% = 100% E X m
Parametry rozkładów zmiennych losowych ciągłych Wartość oczekiwana Wariancja ( ) ( ) E X = x f x dx = m 2 2 2 2 ( ) ( ) ( ) ( ) ( ( )) 2 D X = x m f x dx = E X E X = σ Odchylenie standardowe Współczynnik zmienności ( ) ( ) D X = D 2 X = σ = σ 2 ( ) ( ) D X σ V ( X ) = 100% = 100% E X m
Rozkład Bernouliego
Przykład W pomieszczeniu sypialnym domownicy zlokalizowali 10 osobników Culex pipiens (komary). Zastosowano środek owadobójczy o skuteczności 90%. Niech zmienną losową będzie ilość owadów, które przeżyły po zastosowaniu w pomieszczeniu preparatu. Określ parametry rozkładu tej zmiennej losowej oraz oblicz następujące prawdopodobieństwa zdarzeń: a) żaden owad nie przeżyje b) wszystkie owady przeżyją c) dokładnie jeden owad przeżyje d) co najwyżej 3 owady przeżyją e) co najmniej 2 owady przeżyją
Rozwiązanie
Rozkład Poissona
Przykład W pewnej firmie po analizie danych historycznych stwierdzono, że w procesie produkcyjnym występują dziennie, średnio 3,84 wadliwe produkty. Jakie jest prawdopodobieństwo, że losowo wybranych dniu liczba wadliwych produktów wyniesie 5?
Rozkład geometryczny
Przykład Prawdopodobieństwo znalezienia wadliwego produktu wynosi 0,01. Oblicz prawdopodobieństwo, że podczas kontroli dopiero 70-ta sprawdzona sztuka będzie wadliwa oraz prawdopodobieństwo, że musi być sprawdzone ponad 50 sztuk by wykryć pierwszą wadliwą sztukę.
Rozkład normalny Przykłady zmiennych charakteryzujące się rozkładem normalnym wzrost waga poziom IQ temperatura ciała średnia roczna temperatura Przykłady zmiennych, których rozkład nie jest normalny prędkość wiatru długość ciąży kobiet długość dzioba zięby afrykańskiej dobowa temperatura w okresie zimowym
Rozkład normalny
Rozkład normalny standardowy
Krzywa Gaussa 68% wartości cechy leży w odległości od wartości oczekiwanej; 95,5% wartości cechy leży w odległości od wartości oczekiwanej; 99,7% wartości cechy leży w odległości od wartości oczekiwanej. Ostatnie stwierdzenie jest również znane jako reguła trzech sigm
Przykład Ciężar jajek dostarczanych do skupu ma rozkład normalny ze średnią 2 dag i wariancją 0,1. Jajko kwalifikuję się do odpowiedniej klasy w zależności od masy co przedstawia poniższe zestawienie: klasa S klasa M klasa L klasa XL masa <= 1,5 dag 1,5 dag < masa <= 2,1 dag 2,1 dag< masa <= 2,7 dag masa > 2,7 dag Określ parametry rozkładu oraz odpowiedz jaki procent jajek dostarczonych do skupu to jajka klasy a) S, b) M, c) L, d) XL.
Rozwiązanie
Rozkład wykładniczy
Przykład Linia produkcyjna średnio 2 razy wciągu miesiąca jest zatrzymywana z powodu awarii. Oblicz prawdopodobieństwo, że linia produkcyjna zostanie zatrzymana ponownie: a) później niż 15 miesięcy b) wcześniej niż 20 miesięcy c) zatrzymana będzie nie wcześniej niż za 10 i nie później niż za 15 miesięcy