dr hab., prof. nadzw. UTP
HASŁA Z DOMU I MEDIÓW Ucz się a wyrosną z Ciebie ludzie Pij mleko będziesz wielki Każdy wypalony papieros skraca Twoje życie o 5 minut 2
WZROST I STOPY 3
GRAFICZNA OCENA ZALEŻNOŚCI Możliwe sytuacje: Zależności dodatnie Zależności ujemne 4
Temperatura na lędźwiach SZEREG DWUCECHOWY, KONIE BEZPOŚREDNIO PO TRENINGU 38.5 38 37.5 37 36.5 36 35.5 35 34.5 34 33.5 34.5 35 35.5 36 36.5 37 37.5 38 38.5 Temperatura na głowie 5
6
WYKRES ROZRZUTU, ZALEŻNOŚĆ UJEMNA 7
8
WYKRES W MS EXCEL 9
WYKRES W MS EXCEL Zaznaczamy wskazane pola! Przemieszczamy wskaźnik myszy na jeden z punktów, a następnie z pop-menu wybieramy Dodaj linię trendu 10
OSTATECZNY WYNIK 11
BADANIE ZALEŻNOŚCI MIĘDZY CECHAMI Analiza korelacji Analiza regresji 12
KORELACJE Podstawowe miary zależności między zmiennymi. Współczynnik korelacji jest podstawową, najczęściej stosowaną miarą zależności. Określa on ogólną zależność między badanymi cechami. Najczęściej obliczaną miarą zależności jest współczynnik korelacji prostoliniowej (Pearsona). Stosujemy go do korelowania zmiennych ilościowych ciągłych o rozkładzie zgodnym lub zbliżonym do normalnego. 13
WSPÓŁCZYNNIK KORELACJI r xy jest liczbą niemianowaną, przyjmującą wartości od -1 do +1. r xy zbliżony do -1 lub 1 całkowita zależność cech X i Y r xy zbliżony do 0 brak jakiejkolwiek zależności Skala Guillforda 14
WSPÓŁCZYNNIK KORELACJI LINIOWEJ Znak korelacji informuje nas o kierunku zależności a wartość bezwzględna o sile zależności r xy = r yx (zależność symetryczna) r xy S S 2 x xy S 2 y lub r xy S x S xy S y 15
KOWARIANCJA MIĘDZY CECHAMI (S XY ) Jest to średnia z iloczynów odchyłek każdej pary punktu danych. Należy używać kowariancji w celu określenia zależności pomiędzy dwoma zbiorami danych. Na przykład można sprawdzić, czy większe przychody związane są z wyższym poziomem wykształcenia. S xy x xy n n 1 y 16
BADANIE ISTOTNOŚCI WSPÓŁCZYNNIKA KORELACJI Hipoteza zerowa w przypadku badania zależności między cechami posiada następującą postać: H 0 : = 0, zaś alternatywna H 1 : 0 (ro) Istotność korelacji badana jest po to, aby przekonać się czy zależność stwierdzona w próbie będzie miała miejsce również w populacji, z której próba ta pochodzi. 17
TESTY ISTOTNOŚCI DLA WSPÓŁCZYNNIKA KORELACJI, N < 122 t r xy n 2 1 r 2 xy Jeżeli t > t ; n-2 to mamy podstawę do odrzucenia H 0. t ; n-2 odczytujemy z tabeli testu t dla poziomu istotności 0,05 i 0,01 oraz dla liczby stopni swobody równej n 2. 18
TESTY ISTOTNOŚCI DLA WSPÓŁCZYNNIKA KORELACJI, DUŻE PRÓBY z r xy 1 n r 2 xy Jeżeli z > u to mamy podstawę do odrzucenia H 0. 19
20
21
ROZWIĄZANIE, ŚLIMAK WINNICZEK Długość Szerokość XY muszli (X) muszli (Y) suma 759,50 637,50 21533.00 suma kwadratów 25685,75 18092,25 wariancja 27,53 19,20 S xy 21533 759,50 637,5 23 23 1 21,893 r xy 21,893 27,5319,20 0,952 22
WERYFIKACJA HIPOTEZY ZEROWEJ t 0,952 1 23 2 0,952 2 14,588 t 0,05 2,074 t 0,01 2,819 23
24
25
WSP.KORELACJI() 26
27
28
29
30
31
32
WSPÓŁCZYNNIK KORELACJI SPEARMANA (LOKAT) Ten typ korelacji wykorzystujemy do korelowania cech niemierzalnych oraz mierzalnych, ale gdy interesuje nas lokata w próbie. Z tego też względu, muszą istnieć dwa kryteria wg, których możemy uporządkować elementy w próbie. Współczynnik korelacji rang r s Spearmana waha się w przedziale liczbowym od 1 do +1. 33
WSPÓŁCZYNNIK KORELACJI RANG 6 i rs 1 2 n(n n d 1 2 i 1) d i różnica pomiędzy lokatami uzyskanymi przez obiekt w dwóch ocenach n liczba elementów w próbie 34
ZADANIE: (ŻUK, BIOMETRIA STOSOWANA) Na wystawie zootechnicznej dwóch sędziów oceniało niezależnie od siebie, pokrój zwierząt i na podstawie tych ocen każdy z sędziów uszeregował stawkę 10 osobników od najlepszego do najgorszego. Sprawdź czy pomiędzy ocenami sędziów istnieje zależność między tymi ocenami? 35
DANE ID sędzia 1 sędzia 2 1 1 4 2 4 1 3 2 3 4 7 10 5 8 2 6 3 6 7 10 5 8 6 8 9 9 7 10 5 9 36
r S = 0,261? Istnieje pewna zależność między ocenami sędziów, lecz nie wiadomo, czy taka zależność wystąpi w populacji (czy przy ocenie dalszych zwierząt przez tych sędziów będzie występować taka zgodność jak w pierwszej ocenie?). Przeprowadzamy wnioskowanie statystyczne, weryfikujemy hipotezę o niezależności uporządkowań. 37
ISTOTNOŚĆ Wartości krytyczne odczytujemy dla n=10 i =0,05 i 0,01 (ale tylko do 10 obiektów). Wartość krytyczna równa się 0,64 zatem nie można odrzucić hipotezy zerowej, iż obydwa uporządkowania są niezależne. 38
SAS EG 39
40
41
REGRESJA Regresja prostoliniowa ocena wartości jednej cechy na podstawie drugiej. Prognozowanie (predykcja) wartości zmiennej Y na podstawie wartości zmiennej X. 42
WSPÓŁCZYNNIK REGRESJI Informuje o ile zmieni się wartość jednej zmiennej (Y), jeżeli wartość drugiej (X) zmieni się o jednostkę. Punkty równania szacuje się metodą najmniejszych kwadratów (MNK). Regresja liniowa między dwiema zmiennymi, równanie liniowe: y = b 0 + b 1 x (y = a + bx ) 43
MNK 44
RÓWNANIE PROSTEJ REGRESJI Jeżeli założymy, że Y jest funkcją X, to równanie prostej regresji Y względem X ma następującą postać: y = b yx + a Y y b (x yx x) b yx S S xy 2 x a y b x S xy n1 yx x xy n y 45
WSPÓŁCZYNNIK REGRESJI b yx r xy S S y x Y - zmienna zależna, X - zmienna niezależna 46
GRAFICZNA INTERPRETACJA b = tg() a 47
Temperatura na głowie i krzyżu 48
49
GRAFICZNA INTERPRETACJA y = a + b yx x b - współczynnik regresji tangens kąta tworzonego przez prostą regresji i oś OX (skośność - slope), współczynnik kierunkowy a - odległość punktu przecięcia osi OY przez prostą (wyraz wolny - constant, intercept) 50
51
Wyniki, MS EXCEL 52
ZASTOSOWANIE RÓWNIA REGRESJI Jeżeli (b) i (a) są znane, to równanie regresji można użyć do przewidywania wartości jednej cechy (Y) na podstawie zmiennej wartości drugiej cechy (X) dla dowolnego elementu populacji. Estymatorami parametrów i są wymiary uzyskane z prób: b i a. 53
54
55
Analiza regresji w SAS Pierw.bł.śr.-kw. (Root MSE) odchylenie standardowe błędu, pierwiastek kwadratowy MSE (Średni kwadrat odchyleń dla zmienności spowodowanej modelem). Służy do określania jakości modelu, im niższy Root MSE, tym lepszy model. Wsp.Zmienności (CoeffVar) = (RootMSE)/średnia arytmetyczna zmiennej Y*100; Ocena parametru oszacowane parametry, Wartość t statystyka t, t = parameter / błąd standardowy Model - zmienność zmiennej zależnej wyjaśniona poprzez model regresji. Błąd - zmienność zmiennej zależnej niewyjaśniona równaniem regresji. 56
MIARA JAKOŚCI MODELU REGRESJI R 2 (współczynnik determinacji) informacja o tym, w jakim stopniu równanie regresji wyjaśnia zmienność zmiennej zależnej. Przyjmuje wartość od 0 do 1 (0-100%). R 2 y 2 p 2 y y p odchylenie wartości przewidywanej równaniem od wartości średniej y odchylenie rzeczywistej wartości zmiennej zależnej od wartości średniej 57
58
59
MODELE REGRESJI Związki między cechami można rozpatrywać za pomocą 2 różnych modeli. 60
MODELE REGRESJI MODEL I Jesteśmy w stanie wyodrębnić zmienną niezależną X i zmienną zależną Y. Zmienna niezależna X nie jest zmienną losową, zależy od eksperymentatora, np. temperatura, liczba osobników. Nie posiada ona rozkładu zgodnego z normalnym. Z kolei zmienna zależna Y jest zmienną losową, a jej rozkład jest zgodny z normalnym. Model I charakteryzuje zależność jednokierunkowa, tj. Y od X. y = a + b yx 61
MODELE REGRESJI MODEL II Obie zmienne mają rozkład zgodny z normalnym, traktowane są równorzędnie. Kłopotliwe jest wyróżnienie zmiennej zależnej i niezależnej, gdyż obie nie znajdują się pod bezpośrednim wpływem eksperymentatora. Zamiast prostej regresji, obliczamy tzw. oś główną zredukowaną. Oś główna zredukowana to linia prosta, której suma powierzchni wszystkich trójkątów (punkt opisujący parę pomiarów połączony równoległymi do osi x i y odcinkami tworzącymi trójkąty prostokątne) jest najmniejsza. Jej postać jest następująca: y = a + x ( ni) 62
ISTOTNOŚĆ WSPÓŁCZYNNIKA REGRESJI Model I H 0 : =0, zaś alternatywna H 1 : 0 Model II H 0 : =0, zaś alternatywna H 1 : 0 63
REGRESJA WIELOKROTNA Model wykorzystywany do szukania estymatorów β 0, β 1, β 2 i β 3. Y = β 0 + β 1 X 1 + β 2 X 2 + β 3 X 3... + ε i, gdzie: β 0 wyraz wolny; β 1, β 2, β 3 cząstkowe współczynniki regresji wielokrotnej; ε błąd losowy (reszta); β 1 przyrost wartości zmiennej Y przy zmianie wartości zmiennej niezależnej X 1 o jednostkę, niezależnie od pozostałych zmiennych niezależnych. 64
Kilka zaawansowanych statystycznie problemów dotyczących analizy regresji 65
Analiza wariancji a analiza regresji 66
ANALIZA WARIANCJI A ANALIZA REGRESJI y Y - Y y odchylenie wartości zmiennej zależnej od wartości średniej dla tej zmiennej d odchylenie wartości zmiennej zależnej od wartości przewidywanej równaniem regresji y p odchylenie wartości przewidywanej od wartości średniej, jest to odchylenie wyjaśnione równaniem regresji Odchylenie pomiaru od średniej można rozbić na dwie części: y p Y - Y Sumy kwadratów powyższych odchyleń pozostają względem siebie w następującej relacji: y 2 = y 2 p + d 2 p d Y y y p d Y p 67
ISTOTNOŚĆ MODELU REGRESJI Odchylenie przewidywane, czyli y p wyjaśnia współczynnik regresji b, czyli y p = b x. Można więcej przyjąć, że kwadrat tegoż odchylenia ma następującą postać: 2 y p b 2 x 2 b 2 x 2 xy x 2 2 2 x 2 xy x 2 2 wzór na współczynnik korelacji: r xy x 2 xy y 2 68
ANALIZY WARIANCJI CD. MSS 2 2 y r p xy y 2 ESS y 2 d y 2 y 2 p y 2 r 2 xy y 2 2 1 r y xy 2 TSS y 2 Sum of Squares Sumy kwadratów odchyleń TSS suma kwadratów odchyleń (Zmienność ogólna Razem skorygowane) MSS suma kwadratów odchyleń, zmienność międzygrupowa (Model) ESS suma kwadratów odchyleń, zmienność wewnątrzgrupowa (Błąd) 69
Ogólna suma kwadratów = wyjaśniona + niewyjaśniona, tj. TSS = MSS + ESS Wartość F to stosunek zmienności zmiennej zależnej wyjaśnionej modelem do zmienności, która nie została wyjaśniona modelem regresji. 70
AUTOMATYCZNE METODY DOBORU ZMIENNYCH DO MODELU (REGRESJA HIERARCHICZNA) Metody selekcji krokowej: FORWARD (krokowa postępująca) Jest to metoda, która polega na stopniowym dołączaniu do modelu kolejnych zmiennych. W pierwszym kroku tworzony jest model z jedną zmienną niezależną, zmienną, którą charakteryzuje najniższy poziom istotności z nią związany. W następnym kroku tworzony jest na tej samej zasadzie model z dwiema zmiennymi niezależnymi itd. Postępowanie trwa tak długo, aż nie zostanie znaleziona już zmienna, dla której poziom istotności jest mniejszy aniżeli 0.50, w takiej też sytuacji R 2 jest najwyższe. 71
SELEKCJA POSTĘPUJĄCA FORWARD 72
METODY SELEKCJI BACKWARD (krokowa wsteczna) Punktem wyjścia jest model z wszystkim deklarowanymi zmiennymi. Kolejne kroki tejże metody polegają na usuwaniu pojedynczo zmiennych, które najmniej wnoszą do modelu, tzn. p jest największe. Analiza trwa do momentu, gdy pozostałe w modelu zmienne charakteryzują się p poniżej 0.10. STEPWISE (krokowa) Metoda będąca kombinacją dwóch poprzednich metod. Domyślny poziom istotności, przy którym zmienna jest wprowadzana i usuwana z modelu wynosi 0.15. 73
MIARY JAKOŚCI (DOBROCI) MODELU R-Square, R 2 (współczynnik determinacji) Adj R-sq poprawiony współczynnik Statystyka Cp SBC Schwarz s Bayesian Criterion, AIC Akaike s Information Criterion. 74
R-SQUARE (WSPÓŁCZYNNIK DETERMINACJI) Informacja o tym, w jakim stopniu równanie regresji wyjaśnia zmienność zmiennej zależnej. To jest inaczej kwadrat współczynnika korelacji. Przyjmuje wartość od 0 do 1 (0-100%). 75
ADJ R-SQ Poprawiony współczynnik determinacji, zawiera poprawkę na liczbę zmiennych niezależnych w równaniu regresji. 76
STATYSTYKA CP, PROSTY WSKAŹNIK C p p MSE MSE n p p MSE full full MSE p średni kwadrat odchyleń dla modelu z liczbą zmiennych niezależnych równą p (włącznie z wyrazem wolnym) MSE full średni kwadrat odchyleń dla modelu z wszystkimi wskazanymi zmiennymi (włącznie z wyrazem wolnym) n liczba obserwacji p liczba parametrów, tj. liczba cech + 1. 77
CP Biorąc pod uwagę liczbę zmiennych oraz statystykę Cp, należy stwierdzić, że te modele są właściwe, dla których Cp jest mniejsze lub równe p+1, tzn. Cpp+1. Spośród porównywanych modeli, ten jest lepszy, dla którego Cp jest najniższe. 78
KRYTERIA OCENY MODELU AIC I SBC AIC (Akaike s Information Criterion) AIC = n ln(ess/n)+2p SBC (Schwarz s Bayesian Criterion) SBC = n ln(ess/n)+(p) ln(n) Spośród rozpatrywanych modeli ten jest najlepszy, w przypadku którego obie statystyki przyjmują najniższą wartość. 79
WYBÓR NA PODSTAWIE R 2 80
SUGEROWANIE MODELE 81
OCENA ZAŁOŻEŃ REGRESJI Włączenie do modelu regresyjnego zmiennej wymaga spełnienia wielu założeń: Zmienne niezależne winny być nielosowe. Model winien być linowy względem parametrów. Liczba obserwacji musi być większa od liczby parametrów. Niezmiernie ważna jest między innymi ocena reszt. Resztę należy rozumieć jako różnicę między rzeczywistą a oszacowaną wartością zmiennej zależnej: y i Y i Yˆ i 82
BADANIE RESZT Wartość oczekiwana reszt, dla każdej oszacowanej wartości wynosiła 0. Reszty powinny posiadać rozkład normalny w każdym punkcie szacowanej wartości zmiennej zależnej. Reszty posiadają podobną wariancję w każdym punkcie szacowanej zmiennej (homoscedastyczność) Są niezależne (nieskorelowane). 83
WSPÓŁLINIOWOŚĆ Oprócz oceny reszt konieczne jest prześledzenie współliniowości zmiennych (collinearity). Do wskaźników oceniających współliniowość należy, m.in. VIF, CI i VP. Eliminacja współliniowości polega na usunięciu z modelu cech, które są liniową kombinacją innych zmiennych niezależnych. 84
COLLIN Użycie opcji COLLIN w modelu wariancji pozwala obliczyć, tzw. Condition index (CI) oraz Variance proportions (VP). 85
VIF (VARIANCE INFLATION FACTOR) zwany jest współczynnikiem podbicia wariancji. VIF pozwala wychwycić wzrost wariancji ze względu na współliniowość cechy. VIF > 10 wskazuje na obecną współliniowość. 86
CONDITION INDEX (CI) ORAZ VARIANCE PROPORTIONS (VP) Jak interpretować CI? CI pomiędzy 10 a 30 wskazuje na słabą współliniowość CI między 30 a 100 dowodzi silniejszej współliniowości. CI > 100 świadczy o bardzo silnej współliniowości. VP > 0.5 świadczy również o istnieniu współliniowości. 87
EG 88
WYNIKI 89
WSPÓŁLINIOWOŚĆ, SAS proc reg data=owce.dysekcja; model prmoszac=kulmie LATAMIE COMBER POLEDWI tlzeb POWOKA wydrzzim prmudo prmlmz /vif collin;run;quit; 90