1 LaboratoriumV: Podstawy korelacji i regresji Spis treści Laboratorium V: Podstawy korelacji i regresji...1 Wiadomości ogólne...2 1. Wstęp teoretyczny....2 1.1 Korelacja....2 1.2 Funkcja regresji....5 2. Korelacja i regresja w STATISTICE...6 2.1 Macierz korelacji wszystkich zmiennych....6 2.2 Macierz korelacji dla wybranych zmiennych....8 2.3 Test istotności związku pomiędzy zmiennymi....9 2.4 Kolorowa mapa korelacji... 10 2.5 Wykresy rozrzutu dla korelacji liniowej.... 10 2.6 Dopasowanie krzywej regresji do zależności liniowych i nieliniowych.... 11 Ćwiczenia... 13 Częśd I... 13 Częśd II... 14
2 Wiadomości ogólne 1. Wstęp teoretyczny. 1.1 Korelacja. Korelacja to narzędzie matematyczne służące do dokładnego określenia stopnia, w jakim dwie zmienne są ze sobą powiązane. W badaniach korelacji określa się siłę, kształt oraz kierunek takiego powiązania. Jeśli chodzi o postad, można mówid o dwóch rodzajach zależności (rys.1): Liniowej; Krzywoliniowej; Rys.1 Wykresy rozrzutu obrazujące zależności pomiędzy zmiennymi X i Y: liniową i przykładową krzywoliniową. Istnieją też dwa rodzaje związku pomiędzy zmiennymi: funkcyjny i statystyczny. Funkcyjny ma miejsce wtedy, gdy każdej wartości zmiennej niezależnej X odpowiada dokładnie jedna wartośd zmiennej zależnej Y. Związek statystyczny polega na tym, że określonym wartościom jednej zmiennej odpowiadają ściśle określone wartości drugiej zmiennej. Można zatem obliczyd wartośd zmiennej zależnej Y w zależności od wartości zmiennej niezależnej X. Na rys.1 związki pomiędzy zmiennymi mają charaktery statystyczny. Wykresy ilustrujące związki pomiędzy zmiennymi to wykresy rozrzutu. Na osi pionowej zaznacza się zmienną zależną, natomiast na poziomej niezależną. Najczęściej punkty odpowiadające poszczególnym wartościom cech leżą mniej więcej wzdłuż linii korelacji. Korelacja dodatnia występuje wtedy, gdy wraz ze wzrostem wartości jednej cechy, wzrastają wartości drugiej. Korelacja ujemna gdy wraz ze wzrostem wartości jednej cechy maleją wartości drugiej.
3 Rys.2 Od lewej: korelacja dodatnia, korelacja ujemna, brak korelacji pomiędzy zmiennymi. Siłę związku pomiędzy zmiennymi określa się przy pomocy wielu parametrów liczbowych. Pierwszym z nich jest kowariancja. Załóżmy, że w wyniku pewnego doświadczenia uzyskano pary liczb, gdzie Tak przedstawioną zmienną nazywamy dwuwymiarową zmienną losową i oznaczamy jako. Kowariancję dla takiej próby wyliczamy wg wzoru: Gdzie oraz to średnie obu zmiennych. Wyliczona w ten sposób na podstawie próby kowariancja jest oczywiście estymatorem kowariancji populacji. Jeżeli małym wartościom zmiennej X odpowiadają małe wartości zmiennej Y, natomiast dużym wartościom X duże wartości Y, to kowariancja przyjmuje wartośd dodatnią obydwa iloczyny są w większości dodatnie. Dodatnia wartośd kowariancji oznacza, że przy wzroście wartości zmiennej X wzrastają także wartości zmiennej Y, a więc mamy do czynienia z korelacją dodatnią. Jeśli ze wzrostem wartości zmiennej X, wartości zmiennej Y maleją korelacja ujemna. Gdy zmienne nie są skorelowane, wówczas. Wadą kowariancji jest fakt, że jej wartośd zależy od jednostek pomiaru cech nie można zatem oceniad siły zależności. Okazuje się jednak, że wystarczy kowariancję podzielid przez iloczyn odchyleo standardowych, aby otrzymad miarę siły powiązania niezależną od jednostki pomiarowej, przyjmującą wartości z przedziału. Jest to współczynnik korelacji liniowej Pearsona: Gdzie oraz to średnie obu zmiennych, natomiast oraz to odchylenia standardowe. Znak współczynnika informuje o kierunku korelacji ( + oznacza korelację dodatnią, natomiast - ujemną), natomiast wartośd bezwzględna mówi o sile związku (patrz Tab.1). Współczynnik stosuje się, gdy zależnośd pomiędzy zmiennymi jest liniowa.
4 Tab.1 Siła związku na podstawie współczynnika korelacji liniowej Pearsona. r xy = 0 zmienne nie są skorelowane; 0 < r xy <0,1 korelacja nikła; 0,1 r xy <0,3 korelacja słaba; 0,3 r xy <0,5 korelacja przeciętna; 0,5 r xy <0,7 korelacja wysoka; 0,7 r xy <0,9 korelacja bardzo wysoka; 0,9 r xy <1 korelacja prawie pełna. Podobnie jak w przypadku innych parametrów statystycznych, współczynnik korelacji liniowej Pearsona dla populacji generalnej nie jest znany. Należy go oszacowad na podstawie danych z próby. Wyznaczony w ten sposób parametr jest estymatorem współczynnika korelacji w populacji generalnej, oznaczanego jako ρ. Na podstawie wartości r xy wyznaczonej dla danych z próby można wnioskowad na temat występowania związku i jego siły pomiędzy cechami dla całej populacji. Do sprawdzenia, czy w populacji również występuje związek pomiędzy zmiennymi, wykorzystuje się odpowiednie testy statystyczne. Test istotności współczynnika korelacji Pearsona. Założenia testu: zmienne X i Y mają dwuwymiarowy rozkład normalny o nieznanym współczynniku korelacji liniowej. Z populacji wylosowano n-elementową próbę, na podstawie której wyliczono parametr r xy. Hipotezy wyglądają następująco: H 0 : ρ = 0 H 1 : ρ 0 (lub ρ <0, lub ρ >0) Do zweryfikowania tak sformułowanej hipotezy zerowej wykorzystujemy statystykę testową: Test z o rozkładzie normalnym Dla Test t o rozkładzie t-studenta o (n-1) stopniach swobody Dla Przeprowadzenie testu istotności dla współczynnika korelacji pozwala stwierdzid, czy zależnośd pomiędzy zmiennymi X i Y widoczna dla danych z próby jest tylko przypadkowa, czy jest prawidłowością dla całej populacji. Podsumowując rozważania na temat korelacji, przy interpretacji współczynnika należy pamiętad: Najważniejsza jest istotnośd korelacji nie interesują nas korelacja, która jest bardzo wysoka, ale nie jest istotna; Wartośd współczynnika korelacji linowej bliska 0, nie zawsze oznacza brak jakiejkolwiek korelacji, jedynie brak korelacji liniowej. Na wartośd współczynnika duży wpływ mają wartości odstające.
5 1.2 Funkcja regresji. Funkcja regresji jest z kolei narzędziem do badania mechanizmu powiązania pomiędzy zmiennymi. Wybór postaci funkcji regresji dokonuje się po wstępnej analizie materiału statystycznego, na podstawie wykresu rozrzutu lub źródeł literaturowych opisujących zależności, jakich dla danych zmiennych można się spodziewad. Najprostszymi, a jednocześnie najczęściej spotykanymi zależnościami są te, które mają postad liniową. Krzywe regresji dla postaci liniowej to proste regresji, mające następującą postad: y = ax +b Gdzie: x oraz y to wartości cech odpowiednio dla zmiennej X oraz Y. Parametry równania dla prostej regresji szacuje się metodą najmniejszych kwadratów. Parametr a nosi nazwę parametru regresji, natomiast parametr b to wyraz wolny równania regresji. Parametr jest estymatorem współczynnika regresji liniowej. Określa o ile jednostek zmieni się (wzrośnie lub zmaleje) wartośd zmiennej zależnej, podczas gdy wartośd zmiennej niezależnej zmieni się (wzrośnie lub zmaleje) o jedną jednostkę. Współczynnik ten ma duże znaczenie przy interpretacji zależności. Na wykresach rozrzutu sporządzanych w STATISTICE obok prostej zaznaczane są przerywane linie określające 95% przedział ufności dla prostej. Daje to pełniejszą informację o linii regresji. Wyznaczone granice ufności są różne dla różnych wartości zmiennej X, ulegają rozszerzeniu wraz z oddalaniem się od wartości średniej dla tej zmiennej. Obszar pomiędzy tymi krzywymi to przedział ufności. Rys.3 Prosta regresji wraz z 95% przedziałem ufności, którego granice wyznaczają przerywane linie. W wyniku dopasowywania prostej regresji pakiet STATISTICA wylicza również współczynnik determinacji R 2. Współczynnik ten jest jedną z podstawowych miar jakości dopasowania modelu. Współczynnik determinacji wyliczamy jako iloraz:
6 Współczynnik ten określa jaka częśd zmienności całkowitej zmiennej losowej Y została wyjaśniona regresją liniową względem zmiennej X. Gdzie sumy kwadratów odchyleo spełniają równanie: Równośd ta wyraża podział całkowitej sumy kwadratów odchyleo dla zmiennej Y na dwa składniki: sumę kwadratów odchyleo wyjaśnioną efektem regresji oraz resztową sumę kwadratów odchyleo nie wyjaśnioną regresją. Czyli biorąc pod uwagę odchylenia od średniej wszystkich punktów zmiennej Y: 2. Korelacja i regresja w STATISTICE 2.1 Macierz korelacji wszystkich zmiennych. Z poziomu menu głównego można też wejśd do okna służącego do analizy regresji: Statystyka/Regresja wieloraka: Rys.4 Okno regresji wielorakiej. W oknie tym naciskając na przycisk Zmienne, dokonuje się wyboru zmiennych do analizy. Jako zmienną niezależną należy wskazad Czas, natomiast jako zmienne zależne, pozostałe zmienne. W tym samym oknie, ale w zakładce Więcej można zaznaczyd dodatkowo opcję Przeglądaj statystyki opisowe, macierze korelacji. Można tu wybrad także działanie dla sytuacji, w której brakuje danych najczęściej zaznacza się usuwanie przypadkami. Po wciśnięciu przycisku OK pojawia się okno:
7 Rys.5. Przegląd statystyk opisowych. W oknie tym w poszczególnych zakładkach znajdują się różne przyciski, najwięcej w zakładce Więcej. Aby uzyskad wykresy rozrzutu dla wszystkich poszczególnych zmiennych ze sobą należy kliknąd na przycisk Macierzowy wykres korelacji. Rys.6 Macierz korelacji dla wszystkich zmiennych. Analiza tych wykresów, pozwala stwierdzid pomiędzy którymi zmiennymi będzie występowała korelacja, jaka jest też jej postad. W dwiczeniu najbardziej interesuje nas wpływ Czasu na rozwój komórek w poszczególnych środowiskach (wykresy rozrzutu, w których czas jest na osi poziomej). Na podstawie analizy Macierzowego wykresu korelacji można stwierdzid w których środowiskach komórki mają sprzyjające warunki wzrostu, w których nie.
8 2.2 Macierz korelacji dla wybranych zmiennych. W celu zgromadzenia na jednym wykresie macierzowym tylko tych zmiennych, które charakteryzują się np. korelacją ujemną należy wejśd w menu głównym w Statystyki/Statystyki podstawowe i tabele, a następnie wybrad Macierze korelacji: Rys.7 Statystyki podstawowe i tabele. Po wejściu do Macierzy korelacji pojawia się okno: Rys.8 Okno korelacji, po lewej zakładka Podstawowe, po prawej zakładka Więcej. Przycisk Macierz wykresów rozrzutu dla wybranych zmiennych pozwala sporządzid taki macierzowy wykres jedynie dla wybranych zmiennych. W przypadku dwiczenia należy pamiętad, że zmienna czas
9 będzie odpowiadad osi x. Na rys. 9 przedstawiono wykresy rozrzutu dla wszystkich zmiennych, które wykazują ujemną korelację utworzony za pomocą przycisku Macierz wykresów rozrzutu: Rys.9 Macierzowy wykres korelacji dla danych wykazujących ujemna korelację. 2.3 Test istotności związku pomiędzy zmiennymi. Następnie w zakładce Opcje w oknie z rys. 10 można przeprowadzid test statystyczny istotności korelacji. Hipoteza zerowa domyślnie zakłada brak korelacji pomiędzy zmiennymi, alternatywna natomiast mówi o tym, że korelacja występuje (zobacz jak wyglądają hipotezy w teście istotności współczynnika korelacji liniowej w rozdz.1.1). W odpowiednim miejscu można wybrad wartośd poziomu istotności, dla którego test zostanie przeprowadzony. Rys.10 Wybór parametrów testu korelacji.
10 Aby przeprowadzid test, należy wcisnąd przycisk Podsumowanie dostępny w prawym górnym rogu okna, a następnie wskazad zmienne dla których zostaną jednocześnie wyliczone współczynniki korelacji liniowej Pearsona oraz zostanie przeprowadzony test. W jednej liście zmiennych należy wskazad wszystkie zmienne zależne, a w osobnej zmienną niezależną. W wyniku tego działania wyświetli się tabela zawierająca wartości współczynnika korelacji liniowej Pearsona wszystkich wybranych zmiennych zależnych ze zmienną niezależną. Rys.11 Wynik testu, współczynniki korelacji. Podświetlone na czerwono wartości wskazują, gdzie na zadanym poziomie istotności (jeśli został ustawiony dla podświetlenia) należy odrzucid hipotezę zerową mówiąca o braku korelacji między zmiennymi. Na podstawie znaku oraz wartości tego parametru można określid siłę związku. 2.4 Kolorowa mapa korelacji W zakładce Kolory można jeszcze wybrad, jakie parametry zostaną wyświetlone w macierzy korelacji najlepiej wybrad Prostą macierz (wartości r). Dostępny w tej zakładce przycisk mapa kolorowa pozwala uzyskad macierz korelacji pokolorowaną w zależności od wielkości i znaku współczynnika r. Rys.12 Kolorowa mapa korelacji. 2.5 Wykresy rozrzutu dla korelacji liniowej. Przy pozostawieniu takiego samego wyboru zmiennych, zmieniając zakładkę w oknie Korelacji (rys.13) na zakładkę Więcej, można sporządzid osobne wykresy rozrzutu dla każdej zmiennej względem czasu.
11 Rys.13 Okno korelacji, zakładka Więcej. Wystarczy kliknąd przycisk 2W Rozrzutu i w skoroszycie pojawią się wszystkie potrzebne wykresy. Nad każdym wykresem widoczne jest również równanie prostej regresji. 2.6 Dopasowanie krzywej regresji do zależności liniowych i nieliniowych. W przypadku widocznego związku nieliniowego do rozrzutu punktów można dopasowad odpowiednią krzywą wchodząc przez menu główne Wykresy/Wykresy 2W/Wykresy rozrzutu. Rys.14 Dostęp do ogólnych modeli regresji. W oknie które pojawi się na ekranie w wyniku tego działania należy wybrad zakładkę Więcej, a w niej odpowiednią krzywą do dopasowania:
12 Rys.15 Wykresy rozrzutu 2W. Dopasowując w tym samym oknie prostą regresji dla zależności liniowej, można wyliczyd także parametry: R 2, współczynnik korelacji liniowej oraz wyznaczyd równanie prostej regresji. Rys.16 Wykresy rozrzutu 2W. Dopasowanie funkcji liniowej z wyliczeniem statystyk i pasem ufności.
13 Ćwiczenia Część I Dwie osoby przeprowadziły pomiary wzrostu dzieci w różnym wieku. Każda z osób dokonała pomiarów wzrostu tej samej grupy dzieci, wyniki pomiarów przedstawiają poniższe tabele: Pomiary osoby 1: i Wiek (X) Wzrost (Y) 1 12 142-2,5-10 25 2 13 145-1,5-7 10,5 3 14 150-0,5-2 1 4 15 154 0,5 2 1 5 16 159 1,5 7 10,5 6 17 162 2,5 10 25 wiek:, wzrost:, Pomiary osoby 2: (średni wiek: średni wzrost: ): i Wiek (X) Wzrost (Y) 1 12 1,42-2,5-0,01 0,25 2 13 1,45-1,5-0,007 0,105 3 14 1,50-0,5-0,002 0,01 4 15 1,54 0,5 0,002 0,01 5 16 1,59 1,5 0,007 0,105 6 17 1,62 2,5 0,01 0,25 wiek:, wzrost:, 1) Na podstawie powyższych wyników oblicz wartości parametrów kowariancji oraz współczynnika korelacji liniowej Pearsona dla pomiarów wykonanych przez każdą z osób: Kto wykonał pomiary? Osoba 1 Osoba 2 2) Co można powiedzied na podstawie porównania wartości parametrów wyliczonych dla każdej z osób? 3) Przeprowadź test istotności dla współczynnika korelacji liniowej Pearsona w oparciu o pomiary wykonane przez osobę 1. Test wykonaj na poziomie istotności. Zanotuj hipotezę zerową oraz alternatywną i kolejne kroki weryfikacji. Do odczytania wartości krytycznej wykorzystaj Kalkulator prawdopodobieństwa.
14 Część II Dane znajdują się w pliku dane5.sta. Zawierają informację na temat ilości komórek na jednostkę powierzchni, hodowanych w różnych warunkach, w środowiskach, które zawierały różne czynniki wpływające na szybkośd namnażania (litery od A do I). W czasie zerowym można przyjąd, że ilośd komórek na jednostkę powierzchni dla każdej zmiennej była taka sama. 1. Wczytaj plik z danymi. Wskazówka: W kolejnych punktach przyjmuj zmienną Czas za zmienną niezależną, a pozostałe zmienne jako zależne. 2. Sporządź macierz korelacji dla wszystkich zmiennych (patrz rozdz. 2.1). Na podstawie macierzy wyznacz te zmienne, które charakteryzują się korelacją liniową dodatnią, korelacją liniową ujemną i brakiem korelacji liniowej ze zmienną Czas. Korelacja liniowa dodatnia Korelacja liniowa ujemna Brak korelacji liniowej Zmienne 3. Sporządź macierz korelacji tylko dla tych zmiennych, które charakteryzują się dodatnią korelacją ze zmienną Czas. (patrz rozdz. 2.2). 4. Zweryfikuj hipotezy zerowe mówiące o istnieniu związku pomiędzy poszczególnymi zmiennymi i zmienną Czas na poziomie istotności 0,05. Wykorzystaj informacje z rozdz. 2.3. Które ze zmiennych wykazują istotne związki ze zmienną Czas? Wskazówka: przy wyborze zmiennych wybierz dwie listy zmiennych w pierwszej wprowadź Czas, a w drugiej pozostałe zmienne, w zakładce Opcje zaznacz opcję, aby macierz korelacji wyświetlała r, p i N. 5. Wykorzystując Tab.1 określ siłę związku każdej ze zmiennych ze zmienną Czas. W celu zilustrowania siły związków sporządź kolorową mapę korelacji dla wszystkich zmiennych (rozdz. 2.4). 6. Dla zmiennych, dla których test wskazał występowanie istotnego związku ze zmienną czas sporządź wykresy rozrzutu z 95% przedziałem ufności. Skorzystaj z rozdz.2.5. a. Zapisz równania dla prostych regresji dla tych przypadków. Wskazówka: równania wyświetlają się nad każdym wykresem rozrzutu. b. Który z nich odpowiada najsilniejszej korelacji dodatniej, a który najsilniejszej ujemnej? c. O ile jednostek zmieni się (wzrośnie lub zmaleje) wartośd zmiennej zależnej dla przypadków z podpunktu b), podczas gdy wartośd zmiennej Czas zmieni się o jedną jednostkę? 7. Na podstawie macierzy korelacji sporządzonej w punkcie 2 wskaż zmienną która charakteryzuje się korelacją nieliniową. Dopasuj do niej odpowiednią krzywą regresji i wykonaj wykres rozrzutu z 95% pasem ufności. Skorzystaj z informacji z rozdz. 2.6 8. Wykorzystując wykresy rozrzutu dostępne z menu Wykresy/Wykresy2D/Wykresyrozrzutu sporządź wykres rozrzutu dla zmiennej I z 95% pasem ufności, dopasowując funkcję liniową, zaznaczając statystyki:
15 a. Zanotuj równanie prostej regresji, wartośd współczynnika korelacji liniowej oraz współczynnika determinacji. Na podstawie równania wylicz ile komórek na jednostkę powierzchni będzie przypadad po 100, a ile po 200 godzinach. b. Klikając prawym klawiszem na sporządzonym w ten sposób wykresie rozrzutu na obserwację odstającą, z podręcznego menu wybierz Włącz/Wyłącz. W wyniku tego działania zaznaczony punkt zostaje usunięty z analizy. Zanotuj nowe równanie regresji i wartośd współczynnika korelacji liniowej. Na podstawie tego równania wylicz ile komórek na jednostkę powierzchni będzie przypadad po 100, a ile po 200 godzinach. c. Co można powiedzied o wpływie obserwacji odstającej na wyniki analizy z podpunktu a?