Ćwiczenie: Wybrane zagadnienia z korelacji i regresji W statystyce stopień zależności między cechami można wyrazić wg następującej skali: Skala Stanisza r xy = 0 zmienne nie są skorelowane 0 < r xy 0,1 korelacja nikła 0,1 < r xy 0,3 korelacja słaba 0,3 r xy 0,5 korelacja przeciętna 0,5 r xy 0,7 korelacja wysoka 0,7 r xy 0,9 korelacja bardzo wysoka 0,9 r xy 1 korelacja prawie pewna Skala Guillforda Przedział Zależność Współczynnik 0,00±0,20 Słaba Prawie nic nieznaczący ±0,20±040 Niska Wyraźna, ale słaba ±0,40±0,70 Umiarkowana Rzeczywisty ±0,70±0,90 Wysoka Znaczny ±0,90±1,00 Bardzo wysoka Pewny Istotność korelacji - weryfikacja hipotezy o niezależności cech. Polega ona na obliczeniu t 0 i porównaniu go z t tab (ale w odniesieniu do prób mniejszych od 122 - n < 122, w przeciwnym wypadku stosujemy test z) t0 = rxy * n 2 n z0 = rxy * 2 2 1 r 1 r xy t tab odczytujemy z tabeli testu t dla poziomu istotności 0,05 i 0,01 oraz dla liczby stopni swobody równej n-2. Jeżeli t 0 > t tab to korelacja jest istotna statystycznie. Jeżeli t 0 < t tab to korelacja jest nieistotna statystycznie. Istotność korelacji jest liczona po to, aby sprawdzić czy zależność jaką stwierdzono w próbie będzie miała miejsce również w populacji, z której próba ta pochodzi. Funkcje pozwalające obliczyć współczynnik korelacji i regresji: =wsp.korelacji(x2:x100;y2:y100) współczynnik korelacji =nachylenie(y2:y100;x2:x100) współczynnik regresji {=NACHYLENIE(znane_y ; znane_x ) Znane_y jest to tablica lub zakres komórek liczbowych zależnych punktów danych. Znane_x jest to zbiór niezależnych punktów danych.} Jak sporządzić wykres? 1. Zaznaczyć zmienne do analizy 2.Wybrać ikonę kreator wykresów z paska narzędzi (ikona, na której znajduje się wykres) 3. Zaznaczyć obszar arkusza, na którym ma się znaleźć wykres 4. Nacisnąć przycisk DALEJ 5. Wybrać typ wykresu - Punktowy 6. Wybrać format wykresu same punkty 7. Przycisk DALEJ 8. Wpisać tytuł wykresu, osi X i Y Do wpisywanych formuł wygodnie jest wprowadzić adresy bezwzględne komórek, co umożliwia kopiowania (w prawo). xy Statystyka i modelowanie w ochronie środowiska Strona 1
ZADANIE EXCEL: I. 1. Wykonaj wykres rozrzutu dla zmiennych: wzrost oraz długość stopy (stopy2009z.xls). Jaki charakter ma zależność między tymi zmiennymi? 2. Oblicz współczynnik korelacji pomiędzy wzrostem oraz długością stopy. Sprawdź czy jest to współczynnik istotny. 3. Oblicz współczynniki regresji między wzrostem i stopą. Załóż, że długość stopy jest zmienną zależną! 4. Do sporządzonego wykresu rozrzutu dołącz równanie regresji liniowej. Czy jest ono dobrze dopasowane do punktów w układzie współrzędnych? R-Square, R 2 (współczynnik determinacji) informacja o tym, w jakim stopniu równanie regresji wyjaśnia zmienność zmiennej zależnej. To jest inaczej kwadrat współczynnika korelacji. 2 y R 2 2 p przyjmuje wartości od 0 do 1 (0-100%). R = 2 y II. Wykonaj podobną analizę, jeśli chodzi o długość i masę jaj (jajasrok.xls) [załóżmy, że długość jaja to zmienna niezależna, zaś masa jaja zmienna zależna]. ZADANIE STATISTICA: 1. Sprawdź, które z wymiarów ciała są najsilniej związane z masą ciała kretów? Skonstruuj model regresji wielokrotnej, który zawierać będzie trzy zmienne najlepiej wyjaśniające zmienność masy ciała kretów (S:\~\bazyXLS\KRET.XLS). Obliczanie korelacji Statystyka i modelowanie w ochronie środowiska Strona 2
Statystyka i modelowanie w ochronie środowiska Strona 3
Stwierdzono, że wszystkie obliczone współczynniki korelacji prostoliniowej między masą ciała zwierząt a wymiarami ciała były wysoko istotne. Bardzo wysoką zależność zarejestrowano między długością i szerokością tułowia a masą zwierząt. Wysoką zależność stwierdzono między szerokością dłoni a masą ciała. Statystyka i modelowanie w ochronie środowiska Strona 4
Inny sposób obliczenia korelacji Na podstawie uzyskanych wyników podaj wartości współczynnika korelacji oraz skonstruuj równania regresji dla badanych zmiennych. Statystyka i modelowanie w ochronie środowiska Strona 5
Analiza regresji wielokrotnej krokowej postępującej Statystyka i modelowanie w ochronie środowiska Strona 6
2. Zbadaj zależność między różnymi rodzajami drobnoustrojów w ściekach o różnym pochodzeniu. 3. Jakiego rodzaju zależność istnieje między stężeniem pyłu a dwutlenku siarki? WYKRESY Podaj, jaki rodzaj wykresów rozrzutu i dla jakich cech przedstawiono poniżej. Podobne wykresy wykonaj samodzielne w programie Statistica. Wykres 1 Statystyka i modelowanie w ochronie środowiska Strona 7
Wykres 2 Wykres 3 Statystyka i modelowanie w ochronie środowiska Strona 8