STATYSTYKA MATEMATYCZNA 1. Wykład wstępny 2. Zmienne losowe i teoria prawdopodobieństwa 3. Populacje i próby danych 4. Testowanie hipotez i estymacja parametrów 5. Najczęściej wykorzystywane testy statystyczne I 6. Najczęściej wykorzystywane testy statystyczne II 7. Regresja liniowa 8. Regresja nieliniowa 9. Określenie jakości dopasowania równania regresji liniowej i nieliniowej 10. Korelacja 11. Elementy statystycznego modelowania danych 12. Porównywanie modeli 13. Analiza wariancji 14. Analiza kowariancji 15. Podsumowanie dotychczasowego materiału, wspólna analiza przykładów, dyskusja
WSTĘP 1. Zmienna losowa 2. Funkcja gęstości prawdopodobieństwa 3. Dystrybuanta 4. Statystyki opisowe 5. Przykładowe rozkłady 6. Prawdopodobieństwo
ZMIENNA LOSOWA
ZMIENNA LOSOWA zmienna losowa zmienna losowa przyjęta wartość a random variable przyjmuje różne wartości wartości są określone przez przypadek x x zmienna losowa dyskretna wartości przeliczalne pomiar w skali nominalnej (brak uporządkowania) np.? pomiar w skali porządkowej (uporządkowanej) np.? zmienna losowa ciągła dowolne wartości
ZMIENNA LOSOWA Zmienna dyskretna a random variable Zmienna ciągła liczba szczeniąt w miocie X X=x np. X=7 X { 1, 2, 3, 4, 5, 6, 7, 8, 9 } wysokość konia w kłębie W W=w np. W=167 W [ 150, 190 ]
FUNKCJA GĘSTOŚCI PRAWDOPODOBIEŃSTWA
FUNKCJA GĘSTOŚCI PRAWDOPODOBIEŃSTWA probability density function Zmienna dyskretna Zmienna ciągła funkcja prawdopodobieństwa Jakie jest prawdopodobieństwo uzyskania danej wartości? X { 1, 2, 3, 4, 5, 6, 7, 8, 9 } P(X=x i ) np. urodzenie 5 szczeniąt: P(X=5) funkcja gęstości prawdopodobieństwa Jakie jest prawdopodobieństwo uzyskania wartości z danego przedziału? W [ 150, 190 ] f(w) np. wys. w kłębie [160,165] 165 160 w 0. 12 f dw
FUNKCJA GĘSTOŚCI PRAWDOPODOBIEŃSTWA probability density function P(X=x) f (w) Zmienna dyskretna Zmienna ciągła 0.25 0.20 9 i1 P X 1 x i f wdw 1 0.15 0.10 0.05 0.00 1 2 3 4 5 6 7 8 9 liczba szczeniąt x wysokość w kłębie w
DYSTRYBUANTA
DYSTRYBUANTA cumulative distribution function Zmienna dyskretna Zmienna ciągła dystrybuanta Jakie jest prawdopodobieństwo uzyskania wartości mniejszej lub równej x? X { 1, 2, 3, 4, 5, 6, 7, 8, 9 } F(x) = P(Xx) np. urodzenie maksymalnie 5 szczeniąt F(5)=P(X5)=0.40 dystrybuanta Jakie jest prawdopodobieństwo uzyskania wartości mniejszej lub równej w? W [ 150, 190 ] Fw w f wdw np. maksymalna wys. w kłębie 170 F 170 170 f wdw 0. 69
DYSTRYBUANTA P(Xx) cumulative distribution function F (w) Zmienna dyskretna Zmienna ciągła 1.20 1.00 9 i1 P X 1 x i Fw 1 0.80 0.60 0.40 0.20 0.00 1 2 3 4 5 6 7 8 9 maks. liczba szczeniąt x wysokość w kłębie w
DYSTRYBUANTA cumulative distribution function P(Xx) Zmienna dyskretna pr. urodzenia 1 szczeniaka: F(1)=P(X1)=0.03 pr. urodzenia maks. 9 szczeniaków: F(9)=P(X9)=1 pr. urodzenia maks. 3 szczeniaków: F(3)=P(X3)=0.03+0.04+0.06 pr. urodzenia 4 lub 5 szczeniaków: F(5)-F(3) 1.20 1.00 0.80 0.60 0.40 0.20 0.00 1 2 3 4 5 6 7 8 9 maks. liczba szczeniąt x
DYSTRYBUANTA cumulative distribution function F (w) Zmienna ciągła pr. wystąpienia osobnika o wys. w kłębie maks. 150 cm: F(150)=P(W150)=0.11 pr. wystąpienia osobnika o wys. w kłębie maks. 190 cm: F(190)=P(W190)=1.00 pr. wystąpienia osobnika o wys. w kłębie 160-170 cm: F(170)-F(160)=0.32 pr. wystąpienia osobnika o wys. w kłębie pow. 165 cm: 1-F(165)=0.62 wysokość w kłębie w
STATYSTYKI OPISOWE
STATYSTYKI OPISOWE wartość oczekiwana wariancja przebieg funkcji kształt rozkładu (gęstości) prawdopodobieństwa modalna mediana
WARTOŚĆ OCZEKIWANA expected value Wartość oczekiwana (średnia) E(X) liczba, wokół której skupiają się poszczególne wartości X wartość średnia Zmienna dyskretna Zmienna ciągła E(X)=5.72 szczeniąt liczba urodzonych szczeniąt jest bliska 5 9 E X EW wf wdw i1 p i x i E(X)= 0.03 1 + 0.04 2 + 0.06 3 + 0.10 4 + 0.17 5 + 0.22 6 + 0.23 7 + 0.10 8 + 0.05 9 E(W)=167 cm - większość koni ma wys. w kłębie 167 cm
WARIANCJA variance Wariancja 2 X V(X), Var(X), liczba określająca rozproszenie wartości zmiennej wokół wartości oczekiwanej X,, s. d X V X. odchylenie standardowe Zmienna dyskretna Zmienna ciągła V X EX EX 2 V W EW EW 2
ZMIENNA STANDARYZOWANA Standaryzacja zmiennej X Z X V E X X Z i X maja taki sam rozkład gęstości prawdopodobieństwa E(Z) = 0 Var(Z) = 1
P(X=x) f (w) MEDIANA x~ median Mediana liczba, która dzieli funkcję gęstości na połowy mniej zależna od odstających obserwacji niż średnia Zmienna dyskretna P(X m) ½ i P(X m) ½ 0.25 F(w)=½ Zmienna ciągła 0.20 0.15 0.10 0.05 0.00 1 2 3 4 5 6 7 8 9 liczba szczeniąt x wysokość w kłębie w Copyright 2018 Joanna Szyda
P(X=x) f (w) MODALNA Modalna wartość x o najwyższym prawdopodobieństwie 0.25 liczba, która występuje najczęściej może istnieć więcej niż jedna modalna może nie być wartości modalnej Zmienna dyskretna Zmienna ciągła mode wartość w dla której f(w) jest najwyższe 0.20 0.15 0.10 0.05 0.00 1 2 3 4 5 6 7 8 9 liczba szczeniąt x wysokość w kłębie w
PRZYKŁADOWE ROZKŁADY
ROZKŁAD NORMALNY x f x N e 2,, 2 1 2 1 2 x 2 E(x) = mediana = modalna Bardzo często spotykany w danych biologicznych Np. wydajność mleka Np. masa ciała prosięcia w 4 tygodniu życia
ROZKŁAD t Studenta William Gosset pseudonim student Kształt zależny od stopni swobody x x t f k E x Var, x 0 k 1 2 1 k k 2 k k 2 Dla wielu stopni swobody zbliżony do rozkładu normalnego x k 2 k 1 2
ROZKŁAD 2 2 x f x k k 2 2 2 x (0, ] E 2 k x Var Skośny Kształt zależny od liczby stopni swobody x k 2k k 1 e x 2
ROZKŁAD DWUMIANOWY n f x x [0, n] E x x p 1 p x Var np x np1 p nx Liczba "sukcesów" (x) w n próbach Np. liczba urodzonych ogierków w 10 wyźrebieniach Dla dużej liczby prób kształt zbliżony do rozkładu normalnego
PRAWDOPODOBIEŃSTWO
OBLICZANIE PRAWDOPODOBIEŃSTWA Journal of Psychiatric Research (2003) Carter i wsp. wystąpienie choroby dwubiegunowej w zależności od wieku... i uwarunkowań rodzinnych 318 pacjentów wystąpienie choroby dwubiegunowej historia choroby w rodzinie <18 lat (E) 18 lat (L) nie wystepuje (A) 28 35 63 dwubiegunowa (B) 19 38 57 jednobiegunowa (C) 41 44 85 jedno- i dwubiegunowa (D) 53 60 113 141 177 318
PRAWDOPODOBIEŃSTWO BRZEGOWE (marginal probability) wystąpienie choroby dwubiegunowej historia choroby w rodzinie <18 lat (E) 18 lat (L) nie wystepuje (A) 28 35 63 dwubiegunowa (B) 19 38 57 jednobiegunowa (C) 41 44 85 jedno- i dwubiegunowa (D) 53 60 113 141 177 318 Prawdopodobieństwo, że choroba dwubiegunowa wystąpiła poniżej 18 roku życia, P(E) P 141 318 E 0. 4434 Prawdopodobieństwo, że losowo wybrany chory jest dzieckiem zdrowych rodziców, P(A) P 63 318 A 0. 1981
PRAWDOPODOBIEŃSTWO ŁĄCZNE (joint probability) wystąpienie choroby dwubiegunowej historia choroby w rodzinie <18 lat (E) 18 lat (L) nie wystepuje (A) 28 35 63 dwubiegunowa (B) 19 38 57 jednobiegunowa (C) 41 44 85 jedno- i dwubiegunowa (D) 53 60 113 141 177 318 Prawdopodobieństwo, że choroba dwubiegunowa wystąpiła poniżej 18 roku życia i, że chory pochodzi ze zdrowej rodziny Prawdopodobieństwo łącznego zajścia zdarzeń A i E, P(AE) P 28 318 A E P AE 0. 0881
PRAWDOPODOBIEŃSTWO WARUNKOWE (conditional pr.) wystąpienie choroby dwubiegunowej historia choroby w rodzinie <18 lat (E) 18 lat (L) nie wystepuje (A) 28 35 63 dwubiegunowa (B) 19 38 57 jednobiegunowa (C) 41 44 85 jedno- i dwubiegunowa (D) 53 60 113 141 177 318 Prawdopodobieństwo, że losowo wybrany chory poniżej 18 lat pochodzi ze zdrowej rodziny Warunek chory ma poniżej 18 lat Prawdopodobieństwo zdarzenia A pod warunkiem, że zaszło zdarzenie E, P(A E) P A AE E P 28 E P 141 0.1986
1. Zmienna losowa 2. Funkcja gęstości prawdopodobieństwa 3. Dystrybuanta 4. Statystyki opisowe 5. Przykładowe rozkłady 6. Prawdopodobieństwo