Rozkład zmiennej losowej Polega na przyporządkowaniu każdej wartości zmiennej losowej prawdopodobieństwo jej wystąpienia. D A R I U S Z P I W C Z Y Ń S K I 2 2
ROZKŁAD ZMIENNEJ LOSOWEJ Polega na przyporządkowaniu każdej wartości zmiennej losowej prawdopodobieństwo jej wystąpienia. D A R I U S Z P I W C Z Y Ń S K I 3
SZEREG ROZDZIELCZY Zawiera pomiary pogrupowane na klasy. W ramach szeregu rozdzielczego tworzone są przedziały klasowe oraz zliczana jest liczba pomiarów w każdym przedziale klasowym. Informacja zawarta w szeregu rozdzielczym pozwala skonstruować histogram. Ten typ wykresu służy do obrazowania rozkładu zmiennej losowej. D A R I U S Z P I W C Z Y Ń S K I 4
SZEREG ROZDZIELCZY D A R I U S Z P I W C Z Y Ń S K I 5
HISTOGRAM W MS EXCEL D A R I U S Z P I W C Z Y Ń S K I 6
HISTOGRAM W MS EXCEL D A R I U S Z P I W C Z Y Ń S K I 7
D A R I U S Z P I W C Z Y Ń S K I 8
D A R I U S Z P I W C Z Y Ń S K I 9
D A R I U S Z P I W C Z Y Ń S K I 10
D A R I U S Z P I W C Z Y Ń S K I 11
ROZKŁAD NORMALNY Zgodnie z rozkładem normalnym kształtuje się wiele zjawisk ekonomicznych, przyrodniczych i społecznych. Funkcja gęstości jest ciągłym odpowiednikiem postaci szeregu klasowego. D A R I U S Z P I W C Z Y Ń S K I 12
Rozkład normalny jest najważniejszym w statystyce rozkładem zmiennej losowej ciągłej X. Jest on dziełem niemieckiego matematyka, astronoma, geodety Karola Fryderyka Gauss a (1777-1855). f ( x) 1 2 e ( x ) 2 2 2, x f(x) oznacza wysokość krzywej rozkładu, najwyższa wartość f(x) odpowiada X równej. e =2,7182818 D A R I U S Z P I W C Z Y Ń S K I 13
Rozkład normalny oznacza się często symbolem N(, ). Parametr jest wskaźnikiem położenia, wartością oczekiwaną (średnią). Z kolei jest wskaźnikiem rozproszenia. D A R I U S Z P I W C Z Y Ń S K I 14
Zmienność a kształt krzywej! PRZYKŁAD EXCEL D A R I U S Z P I W C Z Y Ń S K I 15
Pole powierzchni między krzywą a osią odciętych jest równe 1, gdyż prawdopodobieństwo, że zmienna losowa przyjmie wartość w przedziale od - do + jest równe 1 (jest to zdarzenie pewne). Jest to rozkład symetryczny. Rozkład normalny jest rozkładem ciągłym, nie można zatem określić powierzchni pod krzywą rozkładu dla jednej konkretnej liczby, ale dla zakresu. Jeżeli wykonuje się pomiar z dokładnością do 1 mm, to interesujący nas przedział wynosi, np. od 20,5 do 21,5. D A R I U S Z P I W C Z Y Ń S K I 16
DYSTRYBUANTA ROZKŁADU Dystrybuanta odpowiada części skumulowanej szeregu klasowego W obliczeniach statystycznych ze względu na wygodę wykorzystuje się dystrybuantę a nie funkcję gęstości. 1 F x 2 ( ) e 2 x ( x ) 2 2 dx D A R I U S Z P I W C Z Y Ń S K I 17 17
DYSTRYBUANTA ROZKŁADU Dystrybuanta jest funkcją niemalejącą, przyjmuje wartości od 0 do 1. Wartość dystrybuanty F dla argumentu x 0 przedstawia prawdopodobieństwo, że zmienna losowa przyjmie wartości mniejsze lub równe x 0. F(x 0 )=P(x<x 0 ). 1 F x 2 ( ) e 2 x ( x ) Wartość dystrybuanty odpowiada polu pod krzywą gęstości odciętego z lewej strony argumentu x 0. D A R I U S Z P I W C Z Y Ń S K I 18 2 2 dx
ROZKŁAD NORMALNY STANDARYZOWANY Standaryzacja rozkładu normalnego polega na odjęciu średniej i podzieleniu przez odchylenie standardowe, tzn. X ma rozkład normalny N(, ), to U = (X- )/ ma rozkład N(0,1). ( u) 1 e 2 u 1 u 2 ( ) e 2 u 2 u 2 2 du D A R I U S Z P I W C Z Y Ń S K I 19
WŁASNOŚCI KRZYWEJ, REGUŁA 3 SIGM ±1 68,26 % ±2 95,46 % ±3 99,73 % D A R I U S Z P I W C Z Y Ń S K I 20
PRAKTYCZNE ZASTOSOWANIE W dużej populacji mężczyzn wzrost ma rozkład normalny o średniej wartości 175 cm i odchyleniu standardowym 5 cm. Jaki procent populacji odpowiada przedziałom wzrostu: poniżej 160 cm powyżej 200 cm od 170 do 190 cm? D A R I U S Z P I W C Z Y Ń S K I 21
ROZWIĄZANIE, 1 160 175 P(X 160) P Xs 5 P(X 3) 1 F(3) 1 0,9987 s 0,0013 Wnioskujemy, że 0,13% populacji stanowią mężczyźni o wzroście poniżej 160 cm. D A R I U S Z P I W C Z Y Ń S K I 22
ROZWIĄZANIE, 2 P(X 200) 1 1 P(X s P(X 5) 0,0001 200) 1 P X s 200 175 5 Mężczyźni o wzroście 200 cm stanowią zaledwie 0,01% populacji. D A R I U S Z P I W C Z Y Ń S K I 23
ROZWIĄZANIE, 3 P 170 175 5 190 175 5 170 X 190 P X P( 1 Xs 3) F(3) F(-1) F(3) (1 0,9987 0,8413-1 0,84 s F(1)) Prawdopodobieństwo, że przypadkowo wybrany mężczyzna będzie miał wzrost z przedziału (170 cm, 190 cm) wynosi 0,84. Stąd wnioskujemy, że 84% dużej populacji mężczyzn ma wzrost z przedziału (170 cm, 190 cm). D A R I U S Z P I W C Z Y Ń S K I 24
WARTOŚĆ DYSTRYBUANTY ROZKŁADU NORMALNEGO =ROZKŁAD.NORMALNY.S() D A R I U S Z P I W C Z Y Ń S K I 25
TESTY NORMALNOŚCI 1. Shapiro-Wilka: jest on najbardziej zalecanym testem normalności rozkładu. Jednak wskazane jest, aby liczebność próby była poniżej 2000, gdyż w przeciwnym wypadku daje mylne wyniki. Test ten wymaga, aby cecha miała rozkład ciągły. 2. Kołmogorowa-Smirnowa (K-S): Wymaga znajomości średniej i odchylenia standardowego dla populacji. 3. W sytuacji, gdy nie znamy wyżej wymienionych parametrów stosujemy test K-S z poprawką Lilieforsa. Test K-S wymaga, aby cecha była ciągła. Jest to test mocniejszy, aniżeli test 2. D A R I U S Z P I W C Z Y Ń S K I 26
HIPOTEZA O ZGODNOŚCI ROZKŁADU EMPIRYCZNEGO Z ROZKŁADEM TEORETYCZNYM H 0 : X ~ N(, ) D A R I U S Z P I W C Z Y Ń S K I 27
ANALIZA ROZKŁADU D A R I U S Z P I W C Z Y Ń S K I 28
USTALENIE RÓL POSZCZEGÓLNYCH ZMIENNYCH D A R I U S Z P I W C Z Y Ń S K I 29
ROZKŁAD TEORETYCZNY D A R I U S Z P I W C Z Y Ń S K I 30
RYSUJEMY HISTOGRAM D A R I U S Z P I W C Z Y Ń S K I 31
TESTY NORMALNOŚCI D A R I U S Z P I W C Z Y Ń S K I 32
WYNIKI p prawdopodobieństwo (p-value) błąd z jakim należy się liczyć odrzucając hipotezę zerową prawdopodobieństwo otrzymania wyniku. D A R I U S Z P I W C Z Y Ń S K I 33
WYNIKI D A R I U S Z P I W C Z Y Ń S K I 34
WYKRES NORMALNOŚCI KWANTYL-KWANTYL D A R I U S Z P I W C Z Y Ń S K I 35
WNIOSEK Nie mamy podstaw do odrzucenia hipotezy zerowej zakładającej zgodność rozkładu empirycznego (masa ciała w wieku 4 miesięcy) z rozkładem teoretycznym normalnym. Możemy zatem przyjąć, że rozkład masy ciała w wieku 4 miesięcy jest zgodny z normalnym. D A R I U S Z P I W C Z Y Ń S K I 36
ROZKŁAD NIEZGODNY Z NORMALNYM, SO 2 Testy normalności Test Statystyka Wartość p Shapiro-Wilk W 0.837621 Pr. < W <0.0001 Kolmogorov- Smirnov D 0.152429 Pr. > D <0.0100 Cramer-von Mises W-kwadr. 2.197638 Pr. > W- <0.0050 kwadr. Anderson-Darling A-kwadr. 14.31463 Pr. > A-kwadr. <0.0050 D A R I U S Z P I W C Z Y Ń S K I 37
HISTOGRAM SO 2 D A R I U S Z P I W C Z Y Ń S K I 38
WYKRES NORMALNOŚCI KWANTYL-KWANTYL SO 2 D A R I U S Z P I W C Z Y Ń S K I 39
FUNKCJA ROZKŁADU PRAWDOPODOBIEŃSTWA Funkcją rozkładu zmiennej losowej skokowej X nazywamy funkcję określoną wzorem: P(X = x i ) = p i gdzie: (i = 1, 2,...), przy czym i p i 1 Dystrybuantę zmiennej określamy wzorem: gdzie x R F X P X x P X xi x x i D A R I U S Z P I W C Z Y Ń S K I 41
DYSTRYBUANTA Dystrybuanta jest funkcją niemalejącą, przyjmuje wartości od 0 do 1. Dzięki dystrybuancie możemy obliczyć prawdopodobieństwo, że zmienna losowa przyjmuje wartości z określonego przedziału a < x b, P(a < X b) = F(b) - F(a). D A R I U S Z P I W C Z Y Ń S K I 42
DYSTRYBUANTA ROZKŁADU D A R I U S Z P I W C Z Y Ń S K I 43
ROZKŁADY ZMIENNYCH LOSOWYCH DYSKRETNYCH Rozkład zero-jedynkowy Rozkład Bernoulliego Rozkład Poissona D A R I U S Z P I W C Z Y Ń S K I 44
ROZKŁAD ZERO-JEDYNKOWY Zmienna losowa przyjmuje tylko dwie możliwe wartości (1 z prawdopodobieństwem p, zaś 0 z prawdopodobieństwem 1 - p). D A R I U S Z P I W C Z Y Ń S K I 45
ROZKŁAD DWUPUNKTOWY (ZERO-JEDYNKOWY) Funkcja rozkładu: oraz 0 < p < 1 Dystrybuanta rozkładu: p=0,2 D A R I U S Z P I W C Z Y Ń S K I 46
PARAMETRY ROZKŁADU Wartość oczekiwana: E(X) = p; Wariancja: D 2 X = p (p 1) = p q; Załóżmy, że interesuje nas rozkład kobiet lubiących słodycze: X = 1, kobieta lubi słodycze, P(X = 1) = 0,9292 X = 0, kobieta nie lubi słodyczy, P(X = 0) = 0,0708 p = 0,9292; q = 0,0708 E(X) = 1 0,9292 + 0 0,0708 = 0,9292 D 2 X = 0,9292 0,0708 = 0,0658 D A R I U S Z P I W C Z Y Ń S K I 47
ROZKŁAD BERNOULLIEGO (DWUMIANOWY) Opisuje n-krotne wystąpienie tego samego zjawiska, które może przyjmować wyłącznie dwa stany, Efektem tego jest pewna liczba k (k n) sukcesów i liczba (n - k) porażek. Prawdopodobieństwo sukcesu w rozkładzie zero-jedynkowym wynosi p, zaś porażka 1 - p = q. D A R I U S Z P I W C Z Y Ń S K I 48
PARAMETRY ROZKŁADU BERNOULLIEGO E(X) = n p; D 2 (X) = n p q; D A R I U S Z P I W C Z Y Ń S K I 49
WZÓR BERNOULLIEGO, PRAWDOPODOBIEŃSTWO OTRZYMANIA K-SUKCESÓW Plub X k p k q n k k!( n n! k)! dla k = 0, 1,..., n P n k n k X k p q k D A R I U S Z P I W C Z Y Ń S K I 50
ROZKŁAD PRAWDOPODOBIEŃSTWA LICZBY KOGUTÓW W PARTII 10 WYLĘŻONYCH PISKLĄT, LICZBA PARTII OKREŚLONĄ LICZBĄ KOGUTÓW (K) ORAZ ŁĄCZNA LICZBA KOGUTÓW W N=1000 PARTIACH. Liczba partii w zależności od liczby kogutków 250 200 150 100 50 0 0 1 2 3 4 5 6 7 8 9 10 Prawdopodobieństwo otrzymania k-sukcesów D A R I U S Z P I W C Z Y Ń S K I 51
PRZYKŁAD P Prawdopodobieństwo, że zużycie energii elektrycznej w ciągu jednej doby nie przekroczy ustalonej normy jest równe p = 0,75. Oblicz prawdopodobieństwo, że w ciągu kolejnych 6 dób zużycie energii nie zostanie przekroczone w ciągu 4 dób? p = 0,75, to q = 1 0,75 = 0,25 X 4 0,75 4 0,25 6 4 0, 30 4!(6 6! 4)! D A R I U S Z P I W C Z Y Ń S K I 52
ROZKŁAD POISSONA - ZASTOSOWANIE Doświadczenia losowe, w których występuje duża seria prób, jednocześnie przy małym prawdopodobieństwie sukcesu w pojedynczej próbie. D A R I U S Z P I W C Z Y Ń S K I 53
ROZKŁAD POISSONA Opisuje takie zjawiska, jak liczba wypadków w jednostce czasu, liczba bakterii w danej objętości, liczba zachorowań na rzadkie choroby D A R I U S Z P I W C Z Y Ń S K I 54
ROZKŁAD POISSONA Zmienna losowa X posiada rozkład Poissona, jeśli przyjmuje wartości k (k = 0, 1, 2,..., ) z prawdopodobieństwem: P k X k λ e k! gdzie parametr λ = const. λ D A R I U S Z P I W C Z Y Ń S K I 55
ROZKŁAD POISSONA Jest to rozkład graniczny dla ciągu zmiennych mających rozkład dwumianowy. Wraz ze wzrostem długości serii (n) maleje prawdopodobieństwo sukcesu (P) tak, że n p = const. n p = λ (iloczyn długości serii i prawdopodobieństwa sukcesu) D A R I U S Z P I W C Z Y Ń S K I 56
PARAMETRY ROZKŁADU Wartość oczekiwana E(X) = λ Wariancja D 2 (X) = λ D A R I U S Z P I W C Z Y Ń S K I 57
PRZYKŁAD W stadzie liczącym 2000 sztuk zwierząt zanotowano 80 zgonów na pewną chorobę. Przeciętna zapadalność na tę chorobę ustalona dla całej rasy wynosi 0,05. Czy liczba zgonów w tym stadzie jest podobna do średniej dla rasy? Załóżmy, że zmienna posiada rozkład Poissona. Zatem, λ = np = 2000 0,05 = 40 D A R I U S Z P I W C Z Y Ń S K I 58
PRZYKŁAD, ROZWIĄZANIE P k X k λ e k! λ 80 40 X 80 40 e 8,67545592E -09 P 80! Jakie jest prawdopodobieństwo zgonu 80 zwierząt w tym stadzie? D A R I U S Z P I W C Z Y Ń S K I 59
ROZKŁAD POISSONA D A R I U S Z P I W C Z Y Ń S K I 60