PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i element kombinatorki. Zmienne losowe i ich rozkład 3. Populacje i prób danch, estmacja parametrów 4. Testowanie hipotez 5. Test parametrczne (na przkładzie testu t) 6. Test nieparametrczne (na przkładzie testu ) 7. Zależność cech - korelacja liniowa i rangowa 8. Zależność cech - regresja prosta 9. Analiza wariancji
Badanie zależności cech 1. Co to jest korelacja?. Jak określić wielkość zależności cech? 3. Współcznnik korelacji liniowej (Pearsona) obliczanie testowanie 4. Współcznnik korelacji rang (Spearmana) obliczanie testowanie
Populacja i próba Populacja Próba pobieranie wnioskowanie Dotąd: Rozpatrwaliśm POPULACJĘ jako zbiór wartości jednej cech (badaliśm jej rozkład, szacowaliśm parametr, testowaliśm hipotez) Ale: Populacja biologiczna to zbiór osobników mającch wiele cech
Populacja wielocechowa Osobnik Populacja Cecha wdajność mleka zawartość tłuszczu długość laktacji tempo wzrostu przrost dzienn wdajność rzeźna wsokość w kłębie skuteczność inseminacji
Zależność cech Osobnik Populacja Cecha X Cecha Y Poszczególne cech mogą bć współzależne Zależność cech można określić matematcznie
Zależność cech współcznnik korelacji Zależność statstczna zmiennch losowch nosi nazwę KORELACJI Wielkość (siłę) zależności dwóch zmiennch losowch (np. cech) mierz WSPÓŁCZYNNIK KORELACJI Miarą zależności dwóch cech ilościowch jest najczęściej WSPÓŁCZYNNIK KORELACJI LINIOWEJ PEARSONA Karl Pearson (1857-1936) angielski matematk, prekursor statstki matematcznej
Jak zbadać i określić korelację dwóch cech? Przkładow zbiór pomiarów (uporządkowan wg wartości cech X) Nr osobnika 1 3 4 5 6 7 8 9 10 11 1 Wartość cech X 10,0 1,5 15,0 17,5 0,0,5 5,0 7,5 30,0 3,5 35,0 37,5 Wartość cech Y 8,5 11,4 14,5 9,6 13,9 17,6 16,1 16,7 1,7 15, 19,9 0,0 Zależność cech współcznnik korelacji liniowej Ten sam zbiór przedstawion graficznie (na osiach x i wartości cech X i Y) Wartości Y 5 19 16 13 10 7 nr 3 10 15 0 5 30 35 Wartości X
Zależność cech Czerwone punkt wskazują odpowiadające sobie wartości cech X i cech Y u każdego osobnika Widzim LINIOWY charakter zależności 5 19 16 13 10 7 10 15 0 5 30 35 Jeśli zależność wgląda na liniową, możem określić jej wielkość prz pomoc współcznnika korelacji Pearsona
x x x x x r ). cov( ), cov( gdzie: 1 ) ( 1 ) ( n n x x i i x, 1 ) )( ( ), cov( n x x x wariancje kowariancja (n liczba par obserwacji w próbie) Zależność cech współcznnik korelacji liniowej Współcznnik korelacji liniowej (Pearsona) - definicja
Zależność cech współcznnik korelacji liniowej Współcznnik korelacji liniowej (Pearsona) - obliczanie r x cov( x, x ) n n i1 x x i n x x i i1 i1 i i Mierz siłę zależności dwóch zmiennch losowch X i Y Pod warunkiem, że: zmienne są ciągłe mają rozkład normaln zależność jest liniowa r x przjmuje wartości z przedziału [ -1, 1 ]
Zależność cech współcznnik korelacji liniowej Współcznnik korelacji przjmuje wartości z przedziału [ -1, 1 ] 0 0 15 r x = 1 15 r x = -1 10 10 5 5 0 0 5 10 15 0 0 0 5 10 15 0 0 15 10 r x = -0.5 0 15 10 r x = -0.9 5 5 0 0 0 5 10 15 0 0 5 10 15 0 Wartości bliskie 0 brak zależności; wartości bliskie 1 lub -1 silna zależność dodatnia lub ujemna
OBLICZANIE współcznnika korelacji liniowej Zależność cech współcznnik korelacji liniowej WZROST (cm) DŁ. STOPY (cm) 185 8 Przkład: Badam zależność wzrostu i rozmiaru obuwia Pomiar w próbie 10 osób (N =10) 179 7 158 4 160 3 190 9 173 5 180 9 175 5 188 30 165 3 Obliczenia: r x 10 x x i i i1 10 10 xi x i i1 i1 0,9
Zależność cech współcznnik korelacji liniowej TESTOWANIE współcznnika korelacji liniowej (bo otrzmaliśm estmator r) 1. Hipotez H 0 : r x = 0 (nie ma zależności); H A : r x 0 (jest zależność). Poziom istotności MAX = 0,05 3. Statstka t r N 1 r ~ tn (N liczba par obserwacji) 4. Obliczenie w próbie: t = 6,64 5. Dla N = 8 stopni swobod, t = 0,00016 6. Odrzucam H 0 i przjmujem H A (Wstępuje wsoka dodatnia korelacja międz wzrostem a długością stop)
Zależność cech współcznnik korelacji liniowej Diagram zależności wzrostu i długości stop w próbie: 31 30 9 8 7 6 5 4 3 158 160 165 173 175 179 180 185 188 190 Zależność jest liniowa, więc można bło posłużć się Pearsonem A co robić, jeśli zależność nie jest liniowa?!
Zależność cech współcznnik korelacji liniowej r x = 0,816 r x = 0,816 r x = 0,816 r x = 0,816 Na upartego można obliczać współcznniki korelacji liniowej, ale nie będą miarodajne
Zależność cech współcznnik korelacji rang Jeśli zależność wartości zmiennch nie jest liniowa w próbie są wartości odstające rozkład nie przpomina normalnego można wkorzstać nie wartości cech, tlko ich miejsce w próbie po uporządkowaniu (tzw. rangę). Siłę zależności takich zmiennch mierz WSPÓŁCZYNNIK KORELACJI RANG SPEARMANA Charles Spearman (1863-1945) angielski pscholog
Współcznnik korelacji rang (Spearmana) Zależność cech współcznnik korelacji rang grecka litera rho, cztam ro x 6 i1 1 N n N d i 1 d - różnica w rankingu według zmiennej X i według zmiennej Y Mierz siłę zależności dwóch zmiennch losowch X i Y Nie ma wmagań, co do ciągłości wartości i normalności rozkładu, a zwłaszcza co do liniowej zależności zmiennch W obliczeniach wkorzstuje się nie wartości zmiennch, lecz ich kolejn numer (rangę) w uporządkowanej próbie x przjmuje wartości z przedziału [ -1, 1 ]
Zależność cech współcznnik korelacji rang Kot A Miejsce wg sędziego 1 11 Miejsce wg sędziego 10 Przkład: B C D E F 4 18 8 7 15 6 1 3 17 18 Na wstawie kotów rasowch 0 kotów uzskało ocen od dwóch sędziów Liczba zdobtch punktów wznaczała miejsce na liście zwcięzców G H 16 13 4 Cz ocen sędziów są podobne? I 10 11 J 13 16 K 3 L 0 7 M 1 5 N 1 8 O 17 0 P 5 19 R 6 1 S 9 9 T 14 14 W 19 15
Zależność cech współcznnik korelacji rang 646 Suma 169 13 7 0 L 16 4 15 19 W 36 6 1 18 C 9-3 0 17 O 9 3 13 16 G 9-3 18 15 F 0 0 14 14 T 9-3 16 13 J 16 4 8 1 N 1 1 10 11 A 1-1 11 10 I 0 0 9 9 S 5 5 3 8 D 100-10 17 7 E 5 5 1 6 R 196-14 19 5 P 4-6 4 B 1 1 3 K 4-4 H 16-4 5 1 M d kwadrat różnica d Miejsce wg s. Miejsce wg s. 1 Kot 0,49 1) 0(400 646 6 1 6 1 1 N N d n i i x OBLICZANIE współcznnika korelacji rang (Spearmana)
Zależność cech współcznnik korelacji rang TESTOWANIE współcznnika korelacji rang (bo otrzmaliśm estmator) 1. Hipotez H 0 : x = 0 (nie ma zależności) H A : x 0 (jest zależność). Poziom istotności MAX = 0,05 3. Jeśli próba jest liczna (N = 0 lub więcej) można użć statstki t N 1 ~ tn 4. Obliczenie dla prób t =,38 5. Dla N = 18 stopni swobod, t = 0,08 6. Odrzucam H 0 i przjmujem H A (Test wkazał, że istnieje związek międz ocenami sędziów)
Zależność cech współcznniki korelacji Poznane współcznniki korelacji prz zależności liniowej, nieliniowej i danch odstającch (kwartet Anscombe a) r x = 0,816 x = 0,818 r x = 0,816 x = 0,691 r x = 0,816 x = 0,991 r x = 0,816 x = 0,500
Badanie zależności cech - podsumowanie 1. Co to jest korelacja?. Jak określić wielkość zależności cech? 3. Współcznnik korelacji liniowej (Pearsona) obliczanie testowanie 4. Współcznnik korelacji rang (Spearmana) obliczanie testowanie
PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i element kombinatorki. Zmienne losowe i ich rozkład 3. Populacje i prób danch, estmacja parametrów 4. Testowanie hipotez 5. Test parametrczne (na przkładzie testu t) 6. Test nieparametrczne (na przkładzie testu ) 7. Zależność cech - korelacja liniowa i rangowa 8. Zależność cech - regresja prosta 9. Analiza wariancji
Zależność zmiennch KORELACJA określanie sił zależności (podobieństwa) zmiennch zależnch (prz pomoc współcznnika korelacji) Jeśli zmienne są zależne można próbować przewidzieć wartości jednej zmiennej na podstawie wartości przjmowanch przez drugą REGRESJA (a) określanie modelu zależności zmiennch i (b) wkorzstanie tego modelu do przewidwania wartości nieznanch na podstawie wartości obserwowanch (zmierzonch) Taki matematczn model zależności nosi nazwę równania regresji
Wkorzstanie zależności cech - regresja 1. Regresja liniowa (prosta) Równanie regresji Estmacja współcznników regresji Przkład równań regresji. Regresja nieliniowa i wielokrotna (przkład) 3. Dopasowanie równania regresji
Wkorzstanie zależności cech - regresja WZROST X STOPA Y Zależność cech X i Y ma charakter liniow 185 8 179 7 158 4 160 3 190 9 173 5 180 9 175 5 188 30 165 3 31 30 9 8 7 6 5 4 3 158 160 165 173 175 179 180 185 188 190 Cz można b odgadnąć (przewidzieć) długość stop człowieka, jeśli znam jego wzrost?
Wkorzstanie zależności cech - regresja 31 30 9 8 7 6 5 4 3 158 160 165 173 175 179 180 185 188 190 Żeb przewidwać wartości Y na podstawie wartości X trzeba znaleźć linię prostą jak najlepiej dopasowaną do zbioru punktów Wzór określając tę prostą w układzie współrzędnch to RÓWNANIE REGRESJI matematczn model zależności cech Y od cech X
Wkorzstanie zależności cech - regresja 31 30 9 8 7 6 5 4 3 NACHYLENIE 158 160 165 173 175 179 180 185 188 190 RÓWNANIE REGRESJI określa kąt nachlenia prostej do osi X oraz punkt przecięcia z osią Y
Wkorzstanie zależności cech - regresja Równanie regresji Współcznnik regresji b( x x) Przekształcenie równania regresji b( x x) bx bx bx bx a bx
Wkorzstanie zależności cech - regresja Równanie regresji a bx a bx b? wraz woln, punkt przecięcia z osią wsp. regresji, tangens kąta nachlenia prostej Współcznnik regresji musi bć taki, żeb dopasowanie modelu (linii) bło jak nalepsze!
Wkorzstanie zależności cech - regresja 31 30 9 8 7 6 5 4 3 158 160 165 173 175 179 180 185 188 190 A jak wbrać linię najlepiej dopasowaną do zbioru punktów? METODĄ NAJMNIEJSZYCH KWADRATÓW
Wkorzstanie zależności cech - regresja 31 30 9 wartość rzeczwista 8 7 6 wartość teoretczna ŷ 5 4 3 158 160 165 173 175 179 180 185 188 190 Metoda najmniejszch kwadratów taki sposób obliczeń, żeb suma kwadratów odchleń wartości rzeczwistch od teoretcznch bła minimalna (opart na rachunku różniczkowm)
Wkorzstanie zależności cech - regresja a bx Prosta regresji będzie dopasowana metodą najmniejszch kwadratów, jeśli współcznnik regresji obliczm według wzoru: b cov( x, x ) N i1 x x N i x x i i1 i Definicja współcznnika regresji liniowej
Wkorzstanie zależności cech - regresja WZROST X STOPA Y Skonstruujem równanie regresji dla naszego przkladu 185 8 179 7 158 4 160 3 190 9 173 5 180 9 175 5 188 30 165 3 31 30 9 8 7 6 5 4 3 158 160 165 173 175 179 180 185 188 190
Wkorzstanie zależności cech - regresja WZROST X STOPA Y 185 8 1. Obliczam odchlenia poszczególnch wartości od średnich, obliczam iloczn i kwadrat odchleń, sumujem; obliczam b: 179 7 158 4 160 3 190 9 173 5 180 9 175 5 188 30 165 3 x 175,3 6,3 b N x x i i i1 N xi x i1. Obliczam wraz woln: a bx 11,15 3. Uzskujem równanie regresji: 11,15 0, 1x 0,1
Wkorzstanie zależności cech - regresja 31 30 9 8 7 6 0,1x 11,15 5 4 3 158 160 165 173 175 179 180 185 188 190 Wstawiając w równaniu różne wartości wzrostu (x) otrzmujem odpowiadajace im teoretcznie długości stop ()
Wkorzstanie zależności cech - regresja Związek współcznników regresji i korelacji liniowej b cov( x, x ) r x bo r cov( x, x ) Współcznnik regresji informuje, o ile zmieni się wartość zmiennej, jeśli wartość zmiennej x zmieni się o 1 zmienna objaśniana, zmienna zależna, zmienna nieznana (niedostępna, niemierzona, nieobserwowana) x zmienna objaśniająca, zmienna niezależna (znana, dostępna, obserwowana, zmierzona)
Wkorzstanie zależności cech - regresja Wielomian 1. stopnia Regresja nie musi bć zawsze prostoliniowa to najprostsz przpadek ogólnej regresji wielomianowej a bx. stopnia 3. stopnia a b x 1 b x a b x 3 1 b x b3 x
Wkorzstanie zależności cech - regresja Regresja wielokrotna pozwala przewidwać na podstawie kilku powiązanch zmiennch x 1, x x n Waga Z 66 Wzrost X 158 Stopa Y 4 a b x b 1 z 59 160 3 67 73 77 165 173 175 3 5 5 Żeb uzskać współcznniki regresji cząstkowej tworz się macierze zależności zmiennch 88 179 7 8 180 9 89 185 8 100 93 188 190 30 9 O, ja cież! Macierz! Powiedz lepiej, jak sprawdzić dopasowanie naszej prostej regresji!
Wkorzstanie zależności cech - regresja Ocena DOPASOWANIA regresji 31 30 9 wartość rzeczwista 8 7 6 ˆ 0,1x 11,15 wartość teoretczna ŷ 5 4 3 158 160 165 173 175 179 180 185 188 190 n ˆ i i i1 n i1 zmienność wartości teoretcznch zmienność wartości rzeczwistch
n ˆ i i i1 Wkorzstanie zależności cech - regresja Ocena DOPASOWANIA regresji n i1 zmienność wartości teoretcznch zmienność wartości rzeczwistch WSPÓŁCZYNNIK DETERMINACJI R n i1 n i i1 ˆ i informuje, jaka część obserwowanej zmienności została wjaśniona przez równanie regresji przjmuje wartości od 0 do 1; im bliższ 1 tm lepsze dopasowanie modelu regresji
Wkorzstanie zależności cech - regresja Ocena dopasowania regresji WZROST X STOPA Y 185 8 179 7 158 4 160 3 190 9 31 30 9 8 7 6 5 4 3 ˆ 0,1x 11,15 158 160 165 173 175 179 180 185 188 190 173 5 180 9 175 5 188 30 165 3 R n i1 n i1 ˆ i i 0,85 Suuuper dopasowanie
Wkorzstanie zależności cech - regresja Ocena dopasowania regresji zawsze warto przedstawić dane graficznie! 3 0, 5x Niedopasowanie widać gołm okiem
Zależność zmiennch - podsumowanie KORELACJA określanie sił zależności (podobieństwa) zmiennch zależnch (prz pomoc współcznnika korelacji) Jeśli zmienne są zależne można próbować przewidzieć wartości jednej zmiennej na podstawie wartości przjmowanch przez drugą REGRESJA (a) określanie modelu zależności zmiennch i (b) wkorzstanie tego modelu do przewidwania wartości nieznanch na podstawie wartości obserwowanch (zmierzonch) Taki matematczn model zależności nosi nazwę równania regresji
Badanie zależności cech - podsumowanie 1. Co to jest korelacja?. Jak określić wielkość zależności cech? 3. Współcznnik korelacji liniowej (Pearsona) obliczanie testowanie 4. Współcznnik korelacji rang (Spearmana) obliczanie testowanie
Wkorzstanie zależności cech - podsumowanie 1. Regresja liniowa (prosta) Równanie regresji Estmacja współcznników regresji Przkład równań regresji. Regresja nieliniowa i wielokrotna (przkład) 3. Dopasowanie równania regresji