STATYSTYKA MATEMATYCZNA. Wkład wstępn. Teora prawdopodobeństwa element kombnatork. Zmenne losowe ch rozkład 3. Populacje prób danch, estmacja parametrów 4. Testowane hpotez statstcznch 5. Test parametrczne (na przkładze testu t ) 6. Test neparametrczne (na przkładze testu ) 7. Korelacja regresja lnowa nelnowa 8. Analza warancj
KORELACJA WSPÓŁCZYNNIK KORELACJI mara welkośc (sł) zależnośc dwóch zmennch losowch. Korelacja lnowa Pearsona oblczane testowane. Korelacja rangowa Spearmana oblczane testowane
WSPÓŁCZYNNIK KORELACJI PEARSONA
WSPÓŁCZYNNIK KORELACJI PEARSONA - defncja r ). cov( ), cov( gdze: ) ( ) ( n n, ) )( ( ), cov( n warancje kowarancja (n lczba par obserwacj w próbe)
WSPÓŁCZYNNIK KORELACJI PEARSONA - oblczane r cov(. ) n n n. Mara sł zależnośc dwóch zmennch (, ). Założena: zmenne, - cągłe normaln rozkład zmennch zależność lnowa 3. r przjmuje wartośc z przedzału [ -, ]
WSPÓŁCZYNNIK KORELACJI PEARSONA - przkład
WSPÓŁCZYNNIK KORELACJI PEARSONA - przkład
WSPÓŁCZYNNIK KORELACJI PEARSONA - przkład PRÓBA DANYCH MASA CIAŁA ZAW. TŁUSZCZU 89 8 88 7 66 4 59 3 93 9 73 5 8 9 r mt = 0.94 77 5 00 30 67 3
WSPÓŁCZYNNIK KORELACJI PEARSONA - testowane. Hpotez H 0 : brak korelacj mędz masą cała, a zaw. tłuszczu H : stneje korelacja mędz masą cała, a zaw. tłuszczu H 0 : r mt = 0 H : r mt 0. Założone maksmalne prawdopodobeństwo błędu MAX = 0.0 3. Test: 4. Prawdopodobeństwo błędu dla t=7.47 wnos T =0.00007 5. MAX > T 6. H t r mt N r mt ~ t N 7. Wstępuje dodatna korelacja mędz masą cała, a zawartoścą tłuszczu
WSPÓŁCZYNNIK KORELACJI SPEARMANA
WSPÓŁCZYNNIK KORELACJI SPEARMANA - defncja 6 N n N d d - różnca w rankngu zmennch. Mara zależnośc dwóch zmennch (,). Brak założeń dotczącch rozkładu zmennch 3. Brak założeń dotczącch lnowej zależnośc 4. Test neparametrczn 5. Wkorzstuje rankng obserwacj 6. Przjmuje wartośc z przedzału [ -, ]
WSPÓŁCZYNNIK KORELACJI SPEARMANA - przkład
WSPÓŁCZYNNIK KORELACJI SPEARMANA- przkład PRÓBA DANYCH. 8 samców Fregata magnfcens objętość [cm 3 ] częstotlwość [Hz] 760 59 040 566 440 473 550 46 730 465 740 53 300 484 3080 57 3370 488 3740 485. Powązane objętośc worka z częstotlwoścą wdawanego dźwęku ct = - 0.76
. Hpotez H 0 : brak korelacj mędz objętoścą, a częstotlwoścą H : stneje korelacja mędz objętoścą, a częstotlwoścą H 0 : ct = 0 H : ct 0. Założone maksmalne prawdopodob. błędu MAX = 0.0 3. Test: 4. Prawdopodobeństwo błędu dla t=-4.68 wnos T =0.0009 5. MAX > T 6. H t N ~ t N 7. Wstępuje ujemna korelacja mędz objętoścą worka, a częstotlwoścą dźwęku
KORELACJA określane sł zależnośc (podobeństwa) zmennch zależnch (prz pomoc współcznnka korelacj) Jeśl zmenne są zależne można próbować przewdzeć wartośc jednej zmennej na podstawe wartośc przjmowanch przez drugą REGRESJA określane modelu zależnośc zmennch wkorzstane tego modelu do przewdwana wartośc neznanch na podstawe wartośc obserwowanch (zmerzonch) Ten matematczn model to równane regresj
REGRESJA Regresja lnowa. Równane regresj lnowej. Estmacja współcznnków prostej regresj 3. Przkład równań regresj Regresja nelnowa. Dane pochodzące z rozkładu dwumanowego. Transformacje danch dwumanowch 3. Równane regresj logstcznej Dopasowane równana regresj
REGRESJA LINIOWA
RÓWNANIE REGRESJI zaw. tłuszczu 30 9 8 7 6 5 4 3 50 60 70 80 90 00 masa cała
RÓWNANIE REGRESJI 0 ) ( ), cov(
RÓWNANIE REGRESJI zaw. tłuszczu 30 9 8 7 6 5 4 3 0 50 60 70 80 90 00 masa cała nachlene błąd wraz woln 0
RÓWNANIE REGRESJI zaw. tłuszczu 30 Wartość zaobserwowana () 9 8 7 6 5 4 Wartość przewdzana (ŷ) 3 50 60 70 80 90 00 masa cała
METODA NAJMNIEJSZYCH KWADRATÓW Jak wznaczć parametr równana regresj? 0 Tak ab odległośc obserwacj od prostej bł jak najmnejsze: metoda najmnejszch kwadratów 30 zaw. tłuszczu 9 8 7 6 5 4 3 50 60 70 80 90 00 masa cała
METODA NAJMNIEJSZYCH KWADRATÓW zaw. tłuszczu 30 9 8 7 6 5 4 3 50 60 70 80 90 00 masa cała ( ) mnmum
METODA NAJMNIEJSZYCH KWADRATÓW mn ˆ 0 N N 0 0 0 0 0 N N 0 0 0 0 N N
METODA NAJMNIEJSZYCH KWADRATÓW 0 cov(, ) N N
WSPÓŁCZYNNIK REGRESJI A WSPÓŁCZYNNIK KORELACJI b cov(, ) r Współcznnk regresj nformuje, o le zmen sę wartość zmennej, jeśl wartość zmennej zmen sę o zmenna objaśnana, zmenna zależna, zmenna neznana (nedostępna, nemerzona, neobserwowana) zmenna objaśnająca, zmenna nezależna (znana, dostępna, obserwowana, zmerzona)
WAŻONA METODA NAJMNIEJSZYCH KWADRATÓW JAK WYZNACZYĆ PARAMETRY RÓWNANIA REGRESJI JEŻELI MIERZONE SĄ ZE ZRÓŻNICOWANĄ DOKŁADNOŚCIĄ? 0 WAŻENIE OBSERWACJI
WAŻONA METODA NAJMNIEJSZYCH KWADRATÓW WAŻENIE OBSERWACJI 0 w cov (, ) w
PRZYKŁADY RÓWNAŃ REGRESJI. stopna 0 WIELOMIANY. stopna 3. stopna 0 3 0 3
PRZYKŁADY RÓWNAŃ REGRESJI REGRESJA LOGARYTMICZNA 0 ln
PRZYKŁADY RÓWNAŃ REGRESJI MASA CIAŁA WZROST ZAW. TŁUSZCZU 89 54 8 REGRESJA WIELOKROTNA zt wz 0zt zt 0wz wz 88 76 7 66 66 4 59 89 3 93 99 9 73 60 5 8 78 9 zt zt... wz... 0 0 0... 0... 0 0... 0 0 zt wz zt wz 77 58 5 00 73 30 67 69 3
REGRESJA NIELINIOWA
DANE chore zdrowe PRÓBA DANYCH gr. badawcza gr. kontrolna 9 3. Grupa badawcza stat kontakt z dmem ttonowm. Grupa kontrolna brak kontaktu 3. Wnk sekcj po roku badań zman nowotworowe w płucach
DANE choroba [] grupa [] 0=b. 0 0 0...... =k. 0. Dane ne mają rozkładu normalnego PRÓBA DANYCH. Y { chor, zdrow } rozkład dwumanow 3. Określam prawdopodobeństwo zachorowana w każdej grupe
TRANSFORMACJA DANYCH prawdopodobeństwo 0 transformacja funkcja prawdopodobeństwa - +
TRANSFORMACJA DANYCH Transformacja logstczna logt p ln p p p=0.5 logt(p)=0 p logt(p) + p 0 logt(p) -
TRANSFORMACJA DANYCH Transformacja logstczna logt p ln p p zależność nelnowa zależność lnowa
TRANSFORMACJA DANYCH. Transformacja logt - najczęścej stosowana. Inne transformacje prawdopodobeństwo funkcja prawdopodobeństwa : probt (podobna do logt, trudnejsza do oblczena) log-log (stosowana prz nesmetrcznośc względem p=0.5)
RÓWNANIE REGRESJI LOGISTYCZNEJ e e p p p p p p p 0 0 ) ( logt ) ( logt 0 ep ep ) ln( ) ln( ln logt p
PRZYKŁAD choroba [] grupa [] 0=b. 0 0 0...... =k. 0. Równane regresj logt p p ln p PRÓBA DANYCH.35.97. Prawdopodobeństwo zachorowana jest mnejsze w grupe kontrolnej 3. Prawdopodobeństwo zachorowana w grupe badawczej: p b ep.35.97 0 ep.35.97 0 0.93 4. Prawdopodobeństwo zachorowana w grupe kontrolnej: p k ep.35.97 ep.35.97 0.594
PRZYKŁADY
INTERPRETACJA WYNIKÓW RÓWNAŃ REGRESJI
INTERPRETACJA RÓWNAŃ REGRESJI nterval 8.36 0. temp. Wraz ze wzrostem temperatur czas pomędz odgłosam skraca sę. Wzrost temperatur o C powoduje skrócene odstępu o 0. s. 3. W temperaturze 0 C osobnk wdają dogłos średno co 6.6 s. : nterval 8.36 0.0 6.6
INTERPRETACJA RÓWNAŃ REGRESJI
INTERPRETACJA RÓWNAŃ REGRESJI. Model: n_dzec.8 0.0wek 0.03r_w 0.00r_w. Partnerz, którz w 003 r. mel średno 40 lat oraz, u którch mąż jest starsz o 5 mają średno.4 dzec: n_dzec.8 0.0 40 0.035 0.005 3. Partnerz, którz w 003 r. mel średno 5 lat oraz, u którch mąż jest starsz o 4 mają średno.66 dzec: n_dzec.8 0.0 5 0.034 0.00 4.4.66
PRZYKŁAD
DOPASOWANIE RÓWNANIA REGRESJI LINIOWEJ
RÓWNANIE REGRESJI BŁĄD różnca mędz a ŷ zaw. tłuszczu 30 Wartość zaobserwowana () 9 8 7 6 5 4 Wartość przewdzana (ŷ) 3 50 60 70 80 90 00 masa cała
DOPASOWANIE REGRESJI LINIOWEJ zmenność "" wjaśnona przez równane regresj n zaobserwowana ˆ R n n ˆ n
DOPASOWANIE REGRESJI LINIOWEJ WSPÓŁCZYNNIK DETERMINACJI jaka część obserwowanej zmennośc została wjaśnona przez równane regresj R n n ˆ przjmuje wartośc od 0 do ; m blższ tm lepsze dopasowane modelu regresj
DOPASOWANIE REGRESJI LINIOWEJ - przkład PRÓBA DANYCH MASA CIAŁA ZAW. TŁUSZCZU 89 8 88 7 66 4 59 3 93 9 73 5 8 9 77 5. Zmenna nezależna. Zmenna zależna, rozkład cągł tluszcz.57 0.9masa_cała R = 0.37 00 30 67 3
HISTOGRAM DIAGNOSTYCZNY Założene regresj lnowej: ˆ e ~ N 0, e
KORELACJA - podsumowane. Współcznnk korelacj lnowej Pearsona oblczane testowane. Współcznnk korelacj rangowej Spearmana oblczane testowane
REGRESJA Regresja lnowa. Równane regresj lnowej. Estmacja współcznnków regresj 3. Przkład równań regresj Regresja nelnowa Regresja logstczna - przkład Dopasowane równana regresj