ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość obserwacji ( ) Czyli ostatecznie wzór na współczynnik b przyjmuje postać b = ( x) Po obliczeniu b można już obliczyć a Współczynnik Pearsona (współczynnik korelacji, współczynnik r,) określający siłę związku jest liczony ze wzoru: r = Gdzie: xy x x = y ( ) ( ) y = Czyli ostatecznie wzór na współczynnik r przyjmuje postać r = ( ) ( ) 1 Dużymi litrami oznaczono dane empiryczne 1
By wyjaśnić jak tego dokonać w praktyce posłużymy się przykładem, do którego dane zebrano w tabeli 1 Tabela 1. Liczba gatunków drzew w oddziale leśnym () oraz liczba gatunków ptaków w tymże oddziale () 3 6 4 9 5 10 5 4 5 8 40 5 64 8 6 48 64 36 9 9 81 81 81 10 8 80 100 64 sumy 39 36 65 99 58 = 39, = 36, = 65, = 99, = = 6, 58 Suma kwadratów odchyleń: x = Suma iloczynów: xy = ( ) ( ) = 99 39 / 6 = 45,5 y = = 65 39 36 / 6 = 31,0 Współczynnik regresji liniowej b oraz a : b = xy b = 31,0 / 45,5 = 0,6813 a = = 1,5714 x = 58 36 / 6 = 4,0 atomiast współczynnik r: r xy = x y = 31,0 / 45,5 4,0 = 0,7091 Tak więc równanie regresji przyjmuje postać: = 1,5714 + 0, 6813 Można też oba współczynniki policzyć posługując się następującymi wzorami: ( ) 1 a = b = ( a )
TEST ISTOTOŚCI WSPÓŁCZIKÓW REGRESJI I KORELACJI Zadaniem tego testu jest sprawdzenie hipotezy zerowej, że współczynniki regresji i korelacji SA równe zero. Zakłada się, że zbiór par pomiarów jest niezależną próbą losową z populacji generalnej, a zmienna ma rozkład normalny. W tym celu należy obliczyć wyjaśnioną sumę kwadratów: lub 0,7091 41,119 Aby sumy kwadratów móc analizować metodami znanymi z analizy wariancji należy im przypisać liczby stopni swobody. Liczba stopni swobody dla całkowitej sumy kwadratów wynosi 1, ponieważ średnia, na podstawie której liczono odchylenia dla, oparta jest na parach pomiarów. Liczba stopni swobody dla wyjaśnionej sumy kwadratów wynosi 1, a dla niewyjaśnionej Z kolei niewyjaśniona suma kwadratów 1 10,7091 40,881 Po podzieleniu sumy kwadratów przez odpowiadające im stopnie swobody otrzymujemy oszacowanie wariancji, które zestawiono poniżej. Suma Oszacowanie Stopnie swobody kwadratów wariancji F Wyjaśniona 1,119 1 1,119 iewyjaśniona 0,881 4 5,5,0 4,045 Stosunek f otrzymano dzieląc wariancje wyjaśniona przez niewyjaśnioną. Można go tez obliczyć bezpośrednio ze wzoru /1 Istnieją pewne rozbieżności pomiędzy wartościami obliczonymi przy użyciu kalkulatora oraz Excel'a 3
Wartość krytyczna F kryt 3 Równanie regresji liniowej dla poziomu istotności 0,05 i liczby stopni swobody df=1 i 4 wynosi F 0,05;1;4 =7,71, czyli jest większa od obliczonego F (F kryt >F). Czyli należy przyjąć hipotezę zerową (ponieważ błąd pierwszego rodzaju P>0,05). Dane empiryczne nie upoważniają do stwierdzenia, że między liczbą gatunków ptaków a liczba gatunków drzew istnieje związek. 3 Wartośc krytyczna F odczytujemy z tabeli g na końcu książki, lub tez korzystamy z funkcji Excel a Rozkład.F.ODW. Dane wpisujemy w tej samej kolejności co w tym konspekcie (czyli poziom istotności, a następnie df dla wyjaśnionej, po czym dla niewyjaśnionej). 4
Wszystkie te dane można obliczyć korzystając z np. z programu Excel. Jednym ze sposobów jest stworzenie wykresu punktowego, a następnie po zaznaczeniu serii danych wybraniu opcji wstaw linię trendu (czyli po kolei lewy, a następnie prawy przycisk myszy). ależy wybrać interesujący nas rodzaj linii trendu, oraz zaznaczyć opcje pokaż na wykresie równanie regresji oraz wyświetl R-kwadrat na wykresie. Powyższe dane można uzyskać tez bez tworzenia wykresu. Uzyskuje się to poprzez wybór tzw. funkcji 4. I tak: a nachylenie (pod-menu funkcji regresja) b odcięta R R.kwadrat Graficzna prezentacja danych z tabelki znajdującej się na stronie pierwszej przedstawia się następująco: 10 9 8 7 y = 0,6813x + 1,5714 R² = 0,509 6 5 4 3 1 0 0 4 6 8 10 1 4 ależy się jednak zapoznać z treścią pomocy dla wybranych funkcji, by uniknąć ewentualnych przykrych niespodzianek 5
Współczynniki równania regresji liniowej można też otrzymać wykonując następujące operacje 5,6 : 1. ależy wprowadzi dane do komórek arkusza.. ależy zaznaczyć dziesięć leżących obok siebie w dwóch kolumnach komórki arkusza np. zakres D1:E5. 3. ależy wybrać polecenie WstawFunkcja... 4. Z kategorii Wszystkie lub Statystyczne należy wybrać funkcję REGLIP 7. 5. W oknie wprowadzania parametrów należy podać parametry funkcji: w wierszu znane_y zakres komórek zawierających wartości rzędnych (), w wierszu znane_x zakres komórek zawierających wartości odciętych (), w wierszu Stała nic lub wartość logiczną PRAWDA (czyli 1), w wierszu Statyczny wartość logiczną PRAWDA (jw.), jeżeli chcemy poznać wartości błędów parametrów a i b. 6. Po zamknięciu okna wprowadzania parametrów przez kliknięcie na przycisk OK należy kliknąć wskaźnikiem myszy na tzw. pasek formuł znajdujących się nad arkuszem, tak aby pojawił się tam i zaczął migać kursor tekstowy. 7. Trzymając wciśnięte jednocześnie klawisze Ctrl i Shift należ y nacisnąć klawisz Enter, w czterech komórkach zaznaczonych w punkcie pojawią się wartości wyliczone metodą najmniejszych kwadratów. Wykonując powyższe operacje na danych ze strony pierwszej otrzymujemy: 3 0,681319 1,57149 5 0,338704,391004 5 8 0,50878,84684 8 6 4,046316 4 9 9 1,1088 0,8791 10 8 I ten sposób otrzymaliśmy: a 0,681319 b 1,57149 s a0 0,338704 s a1,391004 R 0,50878 s,84684 F 4,046316 df 4 8 1,1088 0,8791 5 http://www.chem.univ.gda.pl/kchfiz/assets/uploads/ztchf/files/ii-ch-mik_lab/regresja-liniowa.pdf 6 http://www.staff.amu.edu.pl/~zcht/pliki/regresja%0liniowa.pdf 7 Obszerne informacje nt tej funkcji można znaleźć w tzw. pomocy 8 Proszę porównać z danymi na stronie 6
R funkcja R.kwadrat, gdzie Funkcja ta zwraca kwadrat współczynnika korelacji iloczynu momentów Pearsona dla punktów danych w argumentach znane_y i znane_x. Aby uzyskać więcej informacji, zobacz opis funkcji PEARSO. Wartość r-kwadrat można zinterpretować jako proporcję wariancji y przypisywaną do wariancji x 9. s (lub ) - funkcja REGBŁSTD, gdzie Zwraca ona błąd standardowy prognozowanej wartości y dla każdego x w regresji. Błąd standardowy jest miarą wielkości błędu przy prognozowaniu wartości y dla oddzielnej wartości x. s a0 i s a1 (lub a i b) to błędy standardowe wyznaczonych parametrów funkcji:, F - Statystyka F lub wartość obserwowana F. Statystykę F stosuje się do określania, czy obserwowana zależność pomiędzy zmienną zależną a zmienną niezależną występuje przypadkowo 10. df stopnie swobody (degree of freedom) dla niewyjaśnionej sumy kwadratów - wyjaśniona suma kwadratów - niewyjaśniona suma kwadratów 9 temat pomocy dla danej funkcji w Excelu 10 Sposoby liczenia F oraz sum kwadratów przedstawiono na stronie 3 7