PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5. Testy parametryczne 6. Testy nieparametryczne 7. Korelacja liniowa i rangowa 8. Regresja prosta 9. Analiza wariancji
Z poprzedniego wykładu Statystyka matematyczna umożliwia wnioskowanie o populacji na podstawie próby Pięć kotek pewnej rasy urodziło w sumie 23 kocięta, więc średnia liczebność miotu wyniosła 4,6. Pytanie: Ile kociąt średnio w jednym miocie uzyskuje się w tej rasie kotów? Pięć kotek to próba; wszystkie kotki (samice) tej rasy - populacja Żeby uzyskać odpowiedź używając statystyki matematycznej, trzeba znać prawdopodobieństwa urodzenia się 1 kotka, 2 kotków. n (najwyższej zaobserwowanej liczby kotków), czyli: zbiór prawdopodobieństw dla wszystkich wartości cechy o nazwie liczba kociąt w miocie Taki zbiór nosi nazwę ROZKŁADU prawdopodobieństwa
Zdarzenie losowe a zmienna losowa Prawdopodobieństwo zdarzenia losowego A P A k n Przykłady zdarzeń losowych: wyrzucenie szóstki w rzucie kostką do gry wyrzucenie orła w rzucie monetą wylosowanie asa z talii kart urodzenie się dziecka płci męskiej wyklucie się 7 kurek (i 3 kogucików) z 10 jaj spotkanie osoby o wzroście 205 cm Jeśli zdarzenie losowe można wyrazić liczbowo to mamy do czynienia ze ZMIENNĄ LOSOWĄ
ZMIENNE LOSOWE I ICH ROZKŁADY
1. Cecha ilościowa jako zmienna losowa skokowa lub ciągła 2. Rozkład zmiennej skokowej (rozkład dyskretny) 3. Dystrybuanta rozkładu 4. Parametry opisujące rozkład: wartość oczekiwana i wariancja 5. Rozkład normalny jako najważniejszy rozkład zmiennej losowej ciągłej 6. Standaryzacja zmiennej losowej 7. Inne ważne rozkłady ciągłe
Zmienna losowa Cechy organizmów żywych: jakościowe (np. kolor oczu, umaszczenie, rogatość) wyrażamy opisowo ilościowe (np. wzrost, ciężar, plenność) przyjmują wartości liczbowe Cecha ilościowa to zmienna losowa skokowa (dyskretna) przyjmuje tylko niektóre wartości, w hodowli będą to na ogół liczby naturalne (np. liczba prosiąt w miocie) ciągła może przyjmować wszystkie wartości rzeczywiste z określonego przedziału (np. wzrost człowieka lub wydajność mleka krowy)
Zmienna losowa Opis zmiennej losowej wyjaśnienie używanych symboli Wielka litera, np., Y, Z oznacza zmienną losową, na przykład: - wydajność mleka w laktacji u krów rasy jersey Y - wysokość w kłębie koni angielskich Z liczba prosiąt w miocie u świń duroc Mała litera, np. x, y, z oznacza zmierzoną konkretną wartość zmiennej: x = 3125 kg, y = 165 cm, z = 9 sztuk Wartości zmiennej mierzone u wielu osobników numeruje się, np. x 1 = 3425, x 2 = 2955, x 3 = 4012, itd. Ogólnie: x i (i=1, 2, 3,, n) to kolejne wartości zmiennej losowej
ROZKŁAD zestaw prawdopodobieństw dla poszczególnych wartości zmiennej losowej Matematyczny zapis: ( x) P( x) Przykład 1: W pewnej rasie owiec w 75% wykotów rodzi się 1 jagnię, w 20% - dwojaczki, a w 5% - trojaczki. (1) P( 1) 0,75 (2) P( 2) 0,20 (3) P( 3) 0,05 n i1 P( x i ) 1 Zmienna losowa skokowa (dyskretna), np. zmienna o nazwie liczba jagniąt w miocie owiec tej rasy ma ROZKŁAD DYSKRETNY
ROZKŁAD prawdopodobieństwa ( x) P( x) Przykład 2: rzut kostką do gry (1) P( (2) P( (3) P( 1 1) 6 1 2) 6 1 3) 6 itd Zmienna losowa o nazwie liczba oczek wyrzucona w pojedynczym rzucie kostką ma szczególny rodzaj rozkładu dyskretnego: ROZKŁAD JEDNORODNY
ROZKŁAD prawdopodobieństwa ( x) P( x) Przykład 3: Jaki jest rozkład zmiennej liczba kurek wśród 10 piskląt? Schemat Bernoulliego B( n; k; p) n k p k q n k (0) B(10;0;0,5) 0,000977 (1) B(10;1;0,5) 0,009766 (2) B(10;2;0,5) 0,043945 itd Rozkład oparty na schemacie Bernoulliego to ROZKŁAD DWUMIANOWY (jest to też rodzaj rozkładu dyskretnego)
Rozkład prawdopodobieństwa ( x) P( x) Dystrybuanta rozkładu (1) P( (2) P( (3) P( 1) 0,75 2) 0,20 3) 0,05 F( x) P( x) F(1) P( F(2) P( F(3) P( 1) P( 2) P( 3) P( 1) 0,75 1) P( 1) P( 2) 0,75 0,20 0,95 2) P( 3) 0,75 0,20 0,05 1 DYSTRYBUANTA to inaczej rozkład skumulowany
Rozkład Dystrybuanta ( x) P( x) F( x) P( x) 1 1 0,75 0,75 0,5 0,5 0,25 0,25 0 1 2 3 0 1 2 3
0,3 0,25 Rozkład liczby kurek wśród 10 piskląt 0,2 0,15 0,1 0,05 0 0 1 2 3 4 5 6 7 8 9 10 Dystrybuanta rozkladu liczby kurek wśród 10 piskląt 1,2 1 0,8 0,6 0,4 0,2 0 0 1 2 3 4 5 6 7 8 9 10
Rozkład ( x) P( x) Dystrybuanta F( x) P( x) Przykład wykorzystania dystrybuanty P( a x b) F( b) F( a) Np. Jakie jest prawdopodobieństwo, że wśród 10 piskląt będzie od 3 do 6 kurek? P( 2 x 6) F(6) F(2) 0,773438
Podstawowe parametry opisujące rozkład zmiennej losowej Wartość oczekiwana (średnia) miara poziomu cechy E n x i p i x 1 p 1 x 2 p 2... x n p n i 1 Wariancja 2 x 2 E miara rozrzutu cechy gdzie E( ) Standardowe odchylenie x x 2
Wartość oczekiwana E n i 1 x i p i Przykład: W pewnej rasie owiec w 75% wykotów rodzi się 1 jagnię, w 20% - dwojaczki, a w 5% - trojaczki. Dane: Obliczenia: x i 1 2 3 p i 0,75 0,2 0,05 n x i p i i1 1 0,75 2 0,20 3 0,05 0,75 0,4 0,15 1,3 Oczekiwana liczebność miotu (plenność) w tej rasie owiec to 1,3 jagnięcia
Wariancja Dane: 2 x Obliczenie wariancji 2 E 2 x E (11,3) 2 E 1,3 2 0,75 (21,3) 2 2 x i 1 2 3 p i 0,75 0,2 0,05 0,2 (31,3) 0,09 0,75 0,49 0,2 2,89 0,05 0,4545 2 0,05 oraz = 1,3 Odchylenie standardowe: x 2 x 0,4545 0,674
Rozkład dwumianowy B(n;k;p) n k p k q n k Wartość oczekiwana n p Wariancja 2 x n p q Obliczenie wartości oczekiwanej i wariancji dla liczby kurek wśród 10 piskląt na ćwiczeniach, zapraszam!
Zmienna losowa skokowa (dyskretna) ciągła Rozkład dyskretny Rozkład ciągły Np. rozkład jednorodny, rozkład dwumianowy????
Zmienna losowa ciągła Cecha ciągła nie przyjmuje konkretnej wartości liczbowej, np. gdyby wydajność 4525 kg mleka zmierzyć dokładniej, okazało by się, że jest to 4524,9 kg, lub 4524,92 kg, lub 4524,92487351 kg, lub Nie można określić prawdopodobieństwa, że cecha przyjmie konkretną wartość P( x ) i 0 Rozkład zmiennej losowej ciągłej opisuje się za pomocą tzw. GĘSTOŚCI prawdopodobieństwa
Większość cech ilościowych ma ROZKŁAD NORMALNY * Prawdopodobieństwo x x 1 2 2 e 2 2 Obraz graiczny (krzywa Gaussa) 0,5 0,4 0,3 (x) 0,2 0,1 0 x * zbliżony do normalnego, lub dający się przekształcić na normalny
Zdanie: Zmienna ma rozkład normalny o średniej i standardowym odchyleniu zapisujemy: ~ N(, )
~ N(, ) ROZKŁAD NORMALNY Położenie i kształt rozkładu zależy od oraz graika - Wikipedia
ROZKŁAD NORMALNY ~ N(, ) Rozkład zależy od oraz Pytanie: Jak określać prawdopodobieństwa wartości cech o rozkładzie normalnym? Czy obliczać wg wzoru: 2 x???!!!! 2 x 1 2 e 2 Odpowiedź: NIE! Korzysta się z dystrybuanty standaryzowanego rozkładu normalnego
ROZKŁAD NORMALNY Aby określać prawdopodobieństwa wartości cech o rozkładzie normalnym korzystamy z dystrybuanty standaryzowanego rozkładu normalnego STANDARYZACJA zmiennej losowej Standaryzowana wartość zmiennej, np. (165-160):10=0,5 Z Wartość zmiennej, np. 165 cm wzrostu Jeżeli ~ N(, ) to Z ~ N(0,1)
ROZKŁAD NORMALNY Aby określać prawdopodobieństwa wartości cech o rozkładzie normalnym korzystamy z dystrybuanty standaryzowanego rozkładu normalnego ~ N(, ) Z ~ N(0,1) 0,5 0,4 0,3 0,2 0,1 0 100 120 140 160 180 200 220 0,5 0,4 0,3 0,2 0,1 0-3 -2-1 0 1 2 3
ROZKŁAD NORMALNY Aby określać prawdopodobieństwa wartości cech o rozkładzie normalnym korzystamy z dystrybuanty standaryzowanego rozkładu normalnego Zmienna ciągła! F( x) P( x) P( a x b) F( b) F( a) graika - Wikipedia
ROZKŁAD NORMALNY Aby określać prawdopodobieństwa wartości cech o rozkładzie normalnym korzystamy z dystrybuanty standaryzowanego rozkładu normalnego ) ( ) ( x P x F ) ( ) ( ) ( a F b F b x a P ) ( ) ( z Φ x F x z ) ( 1 ) ( 0 ) ( 1 ) ( x F x P F F Dla wartości standaryzowanej: Wykorzystanie skrajnych wartości dystrybuanty:
ROZKŁAD NORMALNY Wartości dystrybuanty standaryzowanego rozkładu normalnego od stuleci zebrane były w tablicach a dziś dostępne są w programach komputerowych nie trzeba nawet nic standaryzować
ROZKŁAD NORMALNY Standaryzowany rozkład normalny ilustracja reguły trzech sigm Ponad 68% wartości cechy odbiega od średniej co najwyżej o 1 st. odchylenie; ponad 95% - najwyżej o 2, a ponad 99% mieści się w przedziale {- 3; + 3 } graika - Wikipedia
Inne ważne rozkłady ciągłe ROZKŁAD t - Studenta Stosuje się go w analizach statystycznych, jeśli próby są małe (rozrzut danych nie oddaje prawdziwej zmienności cechy) graika - Wikipedia
Inne ważne rozkłady ciągłe ROZKŁAD chi kwadrat 2 Stosowany jest do badania zgodności rozkładu próby z rozkładem teoretycznym graika - Wikipedia
Określenia rozkładu: Zmienna skokowa Rozkład prawdopodobieństwa Funkcja prawdopodobieństwa Funkcja masy prawdopodobieństwa Zmienna ciągła Gęstość prawdopodobieństwa Rozkład gęstości prawdopodobieństwa Funkcja gęstości prawdopodobieństwa No to jak mam mooowić?! Po prostu: rozkład zmiennej losowej
1. Cecha ilościowa jako zmienna losowa skokowa lub ciągła 2. Rozkład zmiennej skokowej (rozkład dyskretny) 3. Dystrybuanta rozkładu 4. Parametry opisujące rozkład: wartość oczekiwana i wariancja 5. Rozkład normalny jako najważniejszy rozkład zmiennej losowej ciągłej 6. Standaryzacja zmiennej losowej 7. Inne ważne rozkłady ciągłe
Zmienne losowe i ich rozklady Rozkład dwumianowy, rozkład normalny rozkłady teoretyczne Próba pobieranie Populacja wnioskowanie Dla próby określa się rozkład empiryczny, gdzie teoretyczne prawdopodobieństwo wyrażone jest przez obserwowaną częstość różnych wartości cechy. Analiza statystyczna jest możliwa, jeśli rozkład empiryczny przypomina teoretyczny. Szczegóły na następnym wykładzie. ZAPRASZAM!