Tym razem pominę wstęp teoretyczny i skupię się na praktycznym aspekcie sprawy, czyli jak szybko policzyć korelację oraz ocenić jej istotność. Bardzo zachęcam do przejrzenia książki autorstwa Adama wspomnianej w nagłówku. Znajduje się tam szczegółowo omówione zagadnienia związane z korelacją oraz jej znaczeniem. Oznaczenia oraz dane do przykładu pochodzą z wspomnianej wcześniej książki. Jeżeli będę odwoływać się do numerów stron, czy ćwiczeń, to mam na myśli wydanie z roku 003. Współczynnik korelacji Pearsona r jest definiowany następującym wzorem: można też spotkać następujący wzór: r = W tabeli 14.1 podano następujące dane: Obliczony z wzoru r wynosi 0,7091 r = xy x ( x x) ( x x) ( y x y 3 5 5 8 8 6 9 9 10 8 y y) ( y y) Czasami zachodzi konieczność wyliczenia wzajemnych korelacji pomiędzy wieloma cechami, np. właściwościami skrobi. W tabeli poniżej zebrałem dane dotyczące zawartości amylozy, tłuszczu oraz zdolności wiązania wody (ZWW) oraz rozpuszczalności (R) 1 wartości średnie. kilku odmian i rodów owsa. Są to AKT 16,63 1,36 3,04 4,99 8,81 10,73 5,49 6,68 8,36 9,80 CACKO 16,47 1,3 1,54,6 6,15 8,00 3,85 5,15 6,03 8, POLAR 14,46 1,77 0,96 1,04,07 3,08,51 4,95 5,94 6,38 STH 865 15,91 1,06,06 3,16 5,99 6,30 5,89 6,4 6,67 9,07 STH 1009 14,67 1,05 1,40,60 3,6 4,00 4,69 6,31 8,34 8,60 STH 1011 16,4 1,09 1,70,18 3,38 4,50 4,8 5,67 5,7 7,3 STH 107 15,06 1,16 1,98,43 3,36 4,3 4,45 5,6 6,35 7,74 Aby szybko policzyć korelacje pomiędzy tymi wszystkimi cechami należy się posłużyć funkcja korelacja, która jest dostępna w Excelu, w zakładce dane analiza danych. Standardowo funkcja ta nie jest dostępna, więc należy ja zainstalować. 1 Liczba oznacza temperaturę w C, w jakiej wykonano oznaczenie Strona 1 z 4
Dane przenosimy do Excela, pomijając pierwszą kolumnę zawierającą nazwy odmian i rodów. Następnie uruchamiamy w/w funkcję: Dane Analiza danych Korelacja. Pojawia się okienko dialogowe, w którym zaznaczmy nasze dane (zakres wejściowy, w tabelce powyżej podkreśliłem je), ponieważ dane mamy uszeregowane w kolumnach to nagłówki są w pierwszym wierszu. Jeżeli nic nie zmienimy w opcjach wyjścia, to dane pojawia się w nowym arkuszu. Otrzymana matrycę korelacji zamieszczam poniżej. By zmieściła się na stronie trochę ja zmieniłem. Zmniejszyłem czcionkę oraz pozostawiłem tylko dwie cyfry po przecinku. Amyloza 1,00 lipidy -0,6 1,00 R_60 0,63-0,9 1,00 R_80 0,58-0,3 0,95 1,00 R_90 0,76-0,1 0,84 0,88 1,00 R_95 0,78-0,0 0,80 0,83 0,98 1,00 ZWW_60 0,53-0,77 0,76 0,79 0,61 0,49 1,00 ZWW_80 0,3-0,51 0,68 0,83 0,60 0,50 0,85 1,00 ZWW_90-0,03-0,3 0,51 0,71 0,46 0,4 0,48 0,79 1,00 ZWW_95 0,49-0,46 0,80 0,9 0,85 0,78 0,81 0,85 0,75 1,00 Poniżej zamieszczam matrycę korelacji wyliczona dla danych z tabeli 14.1 x y x 1 y 0,709139 1 By wiedzieć, które korelacje są statystycznie istotne należy obliczyć wartość F (stosunek F), a następnie porównać go z wartością krytyczną F, która odnajdziemy w tabeli na końcu tego konspektu (jest to uproszona tabela z podręcznika). Stosunek F oblicza się ze wzoru: r ( N ) F = (1 r ) Wartość krytyczną F odczytuje dla określonego poziomu istotności α, i określonej liczby stopni swobody df=n-, gdzie N oznacza liczbę zabiegów (grup). W przykładzie z książki N=6, więc wartość krytyczną odczytujemy dla df=4. Przy poziomie istotności α=0,05 F 0,05;4 =7,71. Ponieważ wartość krytyczna jest większa od obliczonego stosunku F, to hipotezę należy odrzucić. Innymi słowy, między danymi nie występuje korelacja. Strona z 4
Stosunek F wyliczony dla matrycy korelacji zawierającej dane o skrobi zamieszczam poniżej Amyloza #DZIEL/0! 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 lipidy 0,30 #DZIEL/0! 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 R_60,68 0,36 #DZIEL/0! 0,00 0,00 0,00 0,00 0,00 0,00 0,00 R_80,00 0,46 37,40 #DZIEL/0! 0,00 0,00 0,00 0,00 0,00 0,00 R_90 5,61 0,06 9,3 13,5 #DZIEL/0! 0,00 0,00 0,00 0,00 0,00 R_95 6,39 0,00 7,3 9,09 118,35 #DZIEL/0! 0,00 0,00 0,00 0,00 ZWW_60 1,57 5,79 5,43 6,45,33 1,7 #DZIEL/0! 0,00 0,00 0,00 ZWW_80 0,45 1,38 3,4 8,66,4 1,30 10,58 #DZIEL/0! 0,00 0,00 ZWW_90 0,00 0,3 1,38 4,18 1,05 0,84 1,17 6,78 #DZIEL/0! 0,00 ZWW_95 1,8 1,06 6,89 1,69 10,75 6,3 7,58 10,0 5,11 #DZIEL/0! Teraz należy go tylko porównać z wartościami krytycznymi (przy różnych poziomach istotności), przy df=5 stopniach swobody. Wartości te podaje w tabeli poniżej. Jeżeli wyliczony stosunek F jest większy, lub równy krytycznej wartości F to dana korelacja jest statystycznie istotna, przy założonym poziomie istotności. α 0,05 0,05 0,01 0,001 6,61 10,01 16,6 47,04 Amyloza 1,00 lipidy -0,6 1,00 R_60 0,63-0,9 1,00 R_80 0,58-0,3 0,95 1,00 R_90 0,76-0,1 0,84 0,88 1,00 R_95 0,78-0,0 0,80 0,83 0,98 1,00 ZWW_60 0,53-0,77 0,76 0,79 0,61 0,49 1,00 ZWW_80 0,3-0,51 0,68 0,83 0,60 0,50 0,85 1,00 ZWW_90-0,03-0,3 0,51 0,71 0,46 0,4 0,48 0,79 1,00 ZWW_95 0,49-0,46 0,80 0,9 0,85 0,78 0,81 0,85 0,75 1,00 Powyżej zamieściłem matrycę korelacji wraz z zaznaczonymi korelacjami istotnymi statystycznie: na żółto (α=0,05), czerwono (α=0,05), oraz pogrubione (α=0,01). Przy większej ilości korelacji (większej matrycy) w poszukiwaniu korelacji można sobie pomóc funkcją (testem logicznym) jeżeli. Opis tej funkcji znajduje się w POMOCY programu Excel. Korelacje zostały wyliczone, wiadomo, które z nich są statystycznie istotne. Pozostaje tylko pytanie, czy maja one jakiś sens, czy dają się wytłumaczyć. Ale to już zupełnie inna sprawa wykraczająca poza zakres tego opracowania. Strona 3 z 4
Wartości krytyczne rozkładu F Snedecora dla różnych poziomów istotności α df 0,1 0,5 0,05 0,01 0,001 1 39,86 161,45 647,79 405,18 40584 8,53 18,51 38,51 98,50 3 5,54 10,13 17,44 34,1 4 4,54 7,71 1, 1,0 5 4,06 6,61 10,01 16,6 6 3,78 5,99 8,81 13,75 7 3,59 5,59 8,07 1,5 8 3,46 5,3 7,57 11,6 9 3,36 5,1 7,1 10,56 10 3,9 4,96 6,94 10,04 11 3,3 4,84 6,7 9,65 1 3,18 4,75 6,55 9,33 13 3,14 4,67 6,41 9,07 14 3,10 4,60 6,30 8,86 15 3,07 4,54 6,0 8,68 16 3,05 4,49 6,1 8,53 17 3,03 4,45 6,04 8,40 18 3,01 4,41 5,98 8,9 19,99 4,38 5,9 8,18 0,97 4,35 5,87 8,10 1,96 4,3 5,83 8,0,95 4,30 5,79 7,95 3,94 4,8 5,75 7,88 4,93 4,6 5,7 7,8 5,9 4,4 5,69 7,77 6,91 4,3 5,66 7,7 7,90 4,1 5,63 7,68 8,89 4,0 5,61 7,64 9,89 4,18 5,59 7,60 30,88 4,17 5,57 7,56 40,84 4,08 5,4 7,31 60,79 4,00 5,9 7,08 10,75 3,9 5,15 6,85,71 3,84 5,0 6,63 Program Excel umożliwia nam wyliczenie wartości krytycznej F. Służy do tego celu funkcja: rozkład f odwrócony. Wszelkie informacje na jej temat znajdują się w pomocy. Poniżej zamieszczam informacje z pliku pomocy: Składnia ROZKŁAD.F.ODW(prawdopodobieństwo;stopnie_swobody1;stopnie_swobody) Prawdopodobieństwo Stopnie_swobody1 Stopnie_swobody to prawdopodobieństwo związane ze skumulowanym rozkładem F-Snedecora. to licznik stopni swobody. to mianownik stopni swobody. W miejsce prawdopodobieństwo wstawiamy wartość α, stopni_swobody1 wartość 1, natomiast w miejsce stopnie_swobody wstawiamy df. Strona 4 z 4
Stopnie swobody 0,05 0,01 1 0,997 1,000 0,950 0,990 3 0,878 0,959 4 0,811 0,917 5 0,754 0,874 6 0,707 0,834 7 0,666 0,798 8 0,63 0,765 9 0,60 0,735 10 0,576 0,708 11 0,553 0,684 1 0,53 0,661 13 0,514 0,641 14 0,497 0,63 15 0,48 0,606 16 0,468 0,590 17 0,456 0,575 18 0,444 0,561 19 0,433 0,549 0 0,43 0,537 1 0,413 0,56 0,404 0,515 3 0,396 0,505 4 0,388 0,496 5 0,381 0,487 6 0,374 0,478 7 0,367 0,470 8 0,361 0,463 9 0,355 0,456 30 0,349 0,449 35 0,35 0,418 40 0,304 0,393 45 0,88 0,37 50 0,37 0,354 60 0,50 0,35 70 0,3 0,30 80 0,17 0,83 90 0,05 0,67 100 0,195 0,54 15 0,174 0,8 150 0,159 0,08 00 0,138 0,181 300 0,113 0,148 400 0,098 0,18 500 0,088 0,115 1000 0,06 0,081 dla n<50 df=n- R. Bochno, A. Lewczuk Biometria stosowana Przeodnik do ćwiczen 1980 Skrypt ART. Olsztyn