x y

Podobne dokumenty
( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

TABLICE PODSTAWOWYCH ROZKŁADÓW PRAWDOPODOBIEŃSTWA. T4. Tablica kwantyli rozkładu chi-kwadrat (I część - poziomy kwantyli 0,5)

Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne)

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

Zawartość. Zawartość

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

Katedra Biotechnologii i Genetyki Zwierząt, Wydział Hodowli i Biologii Zwierząt, UTP w Bydgoszczy

Spis treści. Laboratorium III: Testy statystyczne. Inżynieria biomedyczna, I rok, semestr letni 2013/2014 Analiza danych pomiarowych

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Przykład 1. (Arkusz: Sortowanie 1 )

Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Rozdział 8. Regresja. Definiowanie modelu

Autor: Dariusz Piwczyński 1 Ćwiczenie: Doświadczenia 2-grupowe w układzie niezależnym i zależnym.

Katedra Biotechnologii i Genetyki Zwierząt, Wydział Hodowli i Biologii Zwierząt, UTP w Bydgoszczy

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Analiza autokorelacji

1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Ćwiczenia nr 4. Arkusz kalkulacyjny i programy do obliczeń statystycznych

Statystyka matematyczna dla kierunku Rolnictwo w SGGW. BADANIE WSPÓŁZALEśNOŚCI DWÓCH CECH. ANALIZA KORELACJI PROSTEJ.

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

Dodatek Solver Teoria Dodatek Solver jest częścią zestawu poleceń czasami zwaną narzędziami analizy typu co-jśli (analiza typu co, jeśli?

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1

Porównanie modeli statystycznych. Monika Wawrzyniak Katarzyna Kociałkowska

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Temat: BADANIE NIEZALEśNOŚCI DWÓCH CECH JAKOŚCIOWYCH TEST CHI KWADRAT. Anna Rajfura 1

Ćwiczenie 1 - Arkusze kalkulacyjne

Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych

Wykład 14. Testowanie hipotez statystycznych - test zgodności chi-kwadrat. Generowanie liczb losowych.

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

, a ilość poziomów czynnika A., b ilość poziomów czynnika B. gdzie

Sposób tworzenia tabeli przestawnej pokażę na przykładzie listy krajów z podstawowymi informacjami o nich.

Outlier to dana (punkt, obiekt, wartośd w zbiorze) znacznie odstająca od reszty. prezentacji punktów odstających jest rysunek poniżej.

WYKŁAD 8 ANALIZA REGRESJI

Katedra Genetyki i Podstaw Hodowli Zwierząt Wydział Hodowli i Biologii Zwierząt, UTP w Bydgoszczy

Weryfikacja hipotez statystycznych testy dla dwóch zbiorowości

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

Analiza Statystyczna

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

PDF created with FinePrint pdffactory Pro trial version

TEMAT : TWORZENIE BAZY DANYCH PRZY POMOCY PROGRAMU EXCEL

Badanie normalności rozkładu

(autor Piotr Kwiatkowski)

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4

EXCEL TABELE PRZESTAWNE

Porównanie dwóch rozkładów normalnych

Ekonometria. Weryfikacja modelu. Paweł Cibis 12 maja 2007

Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady

Program szkoleniowy. 16 h dydaktycznych (12 h zegarowych) NAZWA SZCZEGÓŁY CZAS. Skróty do przeglądania arkusza. Skróty dostępu do narzędzi

Metody Statystyczne. Metody Statystyczne

TABELE I WYKRESY W EXCELU I ACCESSIE

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

EXCEL Prowadzący: dr hab. inż. Marek Jaszczur Poziom: początkujący

Testy dla dwóch prób w rodzinie rozkładów normalnych

Wykład 12 ( ): Testy dla dwóch prób w rodzinie rozkładów normalnych

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Ćwiczenie: Weryfikacja hipotez statystycznych dla jednej i dwóch średnich.

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Informatyka Arkusz kalkulacyjny Excel 2010 dla WINDOWS cz.3

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Podręczna pomoc Microsoft Excel 2007

Elektrotechnika II [ Laboratorium Grupa 1 ] 2016/2017 Zimowy. [ Laboratorium Grupa 2 ] 2016/2017 Zimowy

Testy post-hoc. Wrocław, 6 czerwca 2016

Geomatyka02 Wczytanie danych, obliczenie długości, azymutu i kąta ze współrzędnych. Przygotowanie do pracy

Prawdopodobieństwo i rozkład normalny cd.

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

PODSTAWOWE ROZKŁADY ZMIENNYCH LOSOWYCH CIĄGŁYCH

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji, współczynnik korelacji wielorakiej. Paweł Cibis

Temat: Arkusze kalkulacyjne. Program Microsoft Office Excel. Podstawy

KURS STATYSTYKA. Lekcja 5 Analiza współzależności ZADANIE DOMOWE. Strona 1

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

ĆWICZENIE 11 NIEPARAMETRYCZNE TESTY ISTOTNOŚCI

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Zadania ze statystyki, cz.6

FORMUŁY AUTOSUMOWANIE SUMA

Badanie zależności pomiędzy zmiennymi

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

Dodawanie grafiki i obiektów

Ćwiczenie 1. Metody określania niepewności pomiaru

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

POLITECHNIKA OPOLSKA

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Transkrypt:

Tym razem pominę wstęp teoretyczny i skupię się na praktycznym aspekcie sprawy, czyli jak szybko policzyć korelację oraz ocenić jej istotność. Bardzo zachęcam do przejrzenia książki autorstwa Adama wspomnianej w nagłówku. Znajduje się tam szczegółowo omówione zagadnienia związane z korelacją oraz jej znaczeniem. Oznaczenia oraz dane do przykładu pochodzą z wspomnianej wcześniej książki. Jeżeli będę odwoływać się do numerów stron, czy ćwiczeń, to mam na myśli wydanie z roku 003. Współczynnik korelacji Pearsona r jest definiowany następującym wzorem: można też spotkać następujący wzór: r = W tabeli 14.1 podano następujące dane: Obliczony z wzoru r wynosi 0,7091 r = xy x ( x x) ( x x) ( y x y 3 5 5 8 8 6 9 9 10 8 y y) ( y y) Czasami zachodzi konieczność wyliczenia wzajemnych korelacji pomiędzy wieloma cechami, np. właściwościami skrobi. W tabeli poniżej zebrałem dane dotyczące zawartości amylozy, tłuszczu oraz zdolności wiązania wody (ZWW) oraz rozpuszczalności (R) 1 wartości średnie. kilku odmian i rodów owsa. Są to AKT 16,63 1,36 3,04 4,99 8,81 10,73 5,49 6,68 8,36 9,80 CACKO 16,47 1,3 1,54,6 6,15 8,00 3,85 5,15 6,03 8, POLAR 14,46 1,77 0,96 1,04,07 3,08,51 4,95 5,94 6,38 STH 865 15,91 1,06,06 3,16 5,99 6,30 5,89 6,4 6,67 9,07 STH 1009 14,67 1,05 1,40,60 3,6 4,00 4,69 6,31 8,34 8,60 STH 1011 16,4 1,09 1,70,18 3,38 4,50 4,8 5,67 5,7 7,3 STH 107 15,06 1,16 1,98,43 3,36 4,3 4,45 5,6 6,35 7,74 Aby szybko policzyć korelacje pomiędzy tymi wszystkimi cechami należy się posłużyć funkcja korelacja, która jest dostępna w Excelu, w zakładce dane analiza danych. Standardowo funkcja ta nie jest dostępna, więc należy ja zainstalować. 1 Liczba oznacza temperaturę w C, w jakiej wykonano oznaczenie Strona 1 z 4

Dane przenosimy do Excela, pomijając pierwszą kolumnę zawierającą nazwy odmian i rodów. Następnie uruchamiamy w/w funkcję: Dane Analiza danych Korelacja. Pojawia się okienko dialogowe, w którym zaznaczmy nasze dane (zakres wejściowy, w tabelce powyżej podkreśliłem je), ponieważ dane mamy uszeregowane w kolumnach to nagłówki są w pierwszym wierszu. Jeżeli nic nie zmienimy w opcjach wyjścia, to dane pojawia się w nowym arkuszu. Otrzymana matrycę korelacji zamieszczam poniżej. By zmieściła się na stronie trochę ja zmieniłem. Zmniejszyłem czcionkę oraz pozostawiłem tylko dwie cyfry po przecinku. Amyloza 1,00 lipidy -0,6 1,00 R_60 0,63-0,9 1,00 R_80 0,58-0,3 0,95 1,00 R_90 0,76-0,1 0,84 0,88 1,00 R_95 0,78-0,0 0,80 0,83 0,98 1,00 ZWW_60 0,53-0,77 0,76 0,79 0,61 0,49 1,00 ZWW_80 0,3-0,51 0,68 0,83 0,60 0,50 0,85 1,00 ZWW_90-0,03-0,3 0,51 0,71 0,46 0,4 0,48 0,79 1,00 ZWW_95 0,49-0,46 0,80 0,9 0,85 0,78 0,81 0,85 0,75 1,00 Poniżej zamieszczam matrycę korelacji wyliczona dla danych z tabeli 14.1 x y x 1 y 0,709139 1 By wiedzieć, które korelacje są statystycznie istotne należy obliczyć wartość F (stosunek F), a następnie porównać go z wartością krytyczną F, która odnajdziemy w tabeli na końcu tego konspektu (jest to uproszona tabela z podręcznika). Stosunek F oblicza się ze wzoru: r ( N ) F = (1 r ) Wartość krytyczną F odczytuje dla określonego poziomu istotności α, i określonej liczby stopni swobody df=n-, gdzie N oznacza liczbę zabiegów (grup). W przykładzie z książki N=6, więc wartość krytyczną odczytujemy dla df=4. Przy poziomie istotności α=0,05 F 0,05;4 =7,71. Ponieważ wartość krytyczna jest większa od obliczonego stosunku F, to hipotezę należy odrzucić. Innymi słowy, między danymi nie występuje korelacja. Strona z 4

Stosunek F wyliczony dla matrycy korelacji zawierającej dane o skrobi zamieszczam poniżej Amyloza #DZIEL/0! 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 lipidy 0,30 #DZIEL/0! 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 R_60,68 0,36 #DZIEL/0! 0,00 0,00 0,00 0,00 0,00 0,00 0,00 R_80,00 0,46 37,40 #DZIEL/0! 0,00 0,00 0,00 0,00 0,00 0,00 R_90 5,61 0,06 9,3 13,5 #DZIEL/0! 0,00 0,00 0,00 0,00 0,00 R_95 6,39 0,00 7,3 9,09 118,35 #DZIEL/0! 0,00 0,00 0,00 0,00 ZWW_60 1,57 5,79 5,43 6,45,33 1,7 #DZIEL/0! 0,00 0,00 0,00 ZWW_80 0,45 1,38 3,4 8,66,4 1,30 10,58 #DZIEL/0! 0,00 0,00 ZWW_90 0,00 0,3 1,38 4,18 1,05 0,84 1,17 6,78 #DZIEL/0! 0,00 ZWW_95 1,8 1,06 6,89 1,69 10,75 6,3 7,58 10,0 5,11 #DZIEL/0! Teraz należy go tylko porównać z wartościami krytycznymi (przy różnych poziomach istotności), przy df=5 stopniach swobody. Wartości te podaje w tabeli poniżej. Jeżeli wyliczony stosunek F jest większy, lub równy krytycznej wartości F to dana korelacja jest statystycznie istotna, przy założonym poziomie istotności. α 0,05 0,05 0,01 0,001 6,61 10,01 16,6 47,04 Amyloza 1,00 lipidy -0,6 1,00 R_60 0,63-0,9 1,00 R_80 0,58-0,3 0,95 1,00 R_90 0,76-0,1 0,84 0,88 1,00 R_95 0,78-0,0 0,80 0,83 0,98 1,00 ZWW_60 0,53-0,77 0,76 0,79 0,61 0,49 1,00 ZWW_80 0,3-0,51 0,68 0,83 0,60 0,50 0,85 1,00 ZWW_90-0,03-0,3 0,51 0,71 0,46 0,4 0,48 0,79 1,00 ZWW_95 0,49-0,46 0,80 0,9 0,85 0,78 0,81 0,85 0,75 1,00 Powyżej zamieściłem matrycę korelacji wraz z zaznaczonymi korelacjami istotnymi statystycznie: na żółto (α=0,05), czerwono (α=0,05), oraz pogrubione (α=0,01). Przy większej ilości korelacji (większej matrycy) w poszukiwaniu korelacji można sobie pomóc funkcją (testem logicznym) jeżeli. Opis tej funkcji znajduje się w POMOCY programu Excel. Korelacje zostały wyliczone, wiadomo, które z nich są statystycznie istotne. Pozostaje tylko pytanie, czy maja one jakiś sens, czy dają się wytłumaczyć. Ale to już zupełnie inna sprawa wykraczająca poza zakres tego opracowania. Strona 3 z 4

Wartości krytyczne rozkładu F Snedecora dla różnych poziomów istotności α df 0,1 0,5 0,05 0,01 0,001 1 39,86 161,45 647,79 405,18 40584 8,53 18,51 38,51 98,50 3 5,54 10,13 17,44 34,1 4 4,54 7,71 1, 1,0 5 4,06 6,61 10,01 16,6 6 3,78 5,99 8,81 13,75 7 3,59 5,59 8,07 1,5 8 3,46 5,3 7,57 11,6 9 3,36 5,1 7,1 10,56 10 3,9 4,96 6,94 10,04 11 3,3 4,84 6,7 9,65 1 3,18 4,75 6,55 9,33 13 3,14 4,67 6,41 9,07 14 3,10 4,60 6,30 8,86 15 3,07 4,54 6,0 8,68 16 3,05 4,49 6,1 8,53 17 3,03 4,45 6,04 8,40 18 3,01 4,41 5,98 8,9 19,99 4,38 5,9 8,18 0,97 4,35 5,87 8,10 1,96 4,3 5,83 8,0,95 4,30 5,79 7,95 3,94 4,8 5,75 7,88 4,93 4,6 5,7 7,8 5,9 4,4 5,69 7,77 6,91 4,3 5,66 7,7 7,90 4,1 5,63 7,68 8,89 4,0 5,61 7,64 9,89 4,18 5,59 7,60 30,88 4,17 5,57 7,56 40,84 4,08 5,4 7,31 60,79 4,00 5,9 7,08 10,75 3,9 5,15 6,85,71 3,84 5,0 6,63 Program Excel umożliwia nam wyliczenie wartości krytycznej F. Służy do tego celu funkcja: rozkład f odwrócony. Wszelkie informacje na jej temat znajdują się w pomocy. Poniżej zamieszczam informacje z pliku pomocy: Składnia ROZKŁAD.F.ODW(prawdopodobieństwo;stopnie_swobody1;stopnie_swobody) Prawdopodobieństwo Stopnie_swobody1 Stopnie_swobody to prawdopodobieństwo związane ze skumulowanym rozkładem F-Snedecora. to licznik stopni swobody. to mianownik stopni swobody. W miejsce prawdopodobieństwo wstawiamy wartość α, stopni_swobody1 wartość 1, natomiast w miejsce stopnie_swobody wstawiamy df. Strona 4 z 4

Stopnie swobody 0,05 0,01 1 0,997 1,000 0,950 0,990 3 0,878 0,959 4 0,811 0,917 5 0,754 0,874 6 0,707 0,834 7 0,666 0,798 8 0,63 0,765 9 0,60 0,735 10 0,576 0,708 11 0,553 0,684 1 0,53 0,661 13 0,514 0,641 14 0,497 0,63 15 0,48 0,606 16 0,468 0,590 17 0,456 0,575 18 0,444 0,561 19 0,433 0,549 0 0,43 0,537 1 0,413 0,56 0,404 0,515 3 0,396 0,505 4 0,388 0,496 5 0,381 0,487 6 0,374 0,478 7 0,367 0,470 8 0,361 0,463 9 0,355 0,456 30 0,349 0,449 35 0,35 0,418 40 0,304 0,393 45 0,88 0,37 50 0,37 0,354 60 0,50 0,35 70 0,3 0,30 80 0,17 0,83 90 0,05 0,67 100 0,195 0,54 15 0,174 0,8 150 0,159 0,08 00 0,138 0,181 300 0,113 0,148 400 0,098 0,18 500 0,088 0,115 1000 0,06 0,081 dla n<50 df=n- R. Bochno, A. Lewczuk Biometria stosowana Przeodnik do ćwiczen 1980 Skrypt ART. Olsztyn