Badanie współzależności zmiennych liczbowych korelacja Aktualizacja 2017 JERZY STEFANOWSKI Instytut Informatyki Politechnika Poznańska
Plan wykładu 1. Badanie współzależności między dwoma zmiennymi 2. Od kowariancji do korelacji 3. Współczynnik korelacji liniowej (K. Pearsona) 4. Własności korelacji 5. Związki przyczynowo - skutkowe 6. Korelacje pozorne 7. Liniowa zależność między dwoma zmiennymi: Prosta regresja
Motywacje Dotychczas badanie jednej zmiennej Badania struktury zbiorowości opierały się na obserwacjach tylko jednej cechy (zmiennej), a jeśli brano pod uwagę kilka cech, to każdą analizowano oddzielnie. Testy dla pojedynczych wymiarów (zmiennych) Wiele zjawisk dotyczy jednak danych wielowymiarowych Typowe zainteresowania w spojrzeniu na rzeczywistość oraz w badaniach naukowych Potrzeba badania wielu zmiennych oraz ich wzajemnej interakcji! W tym wykładzie współzależności dwóch zmiennych
Przykład analizy danych o zarobkach W pewnej firmie pracownicy otrzymują 10 złotych za godzinę + premie uznaniowe Zapytano 10 losowo wybranych osób o zarobki oraz ich czas pracy
Przykład współzależności statystycznej (korelacyjnej) Wykonaj wykres rozrzutu XY Czas na interpretacje Zależność ściśle funkcyjna vs. korelacyjna
Funkcyjny związek deterministyczny Nie to samo co zależność korelacyjna Związek funkcyjny odznacza się tym, że każdej wartości jednej zmiennej niezależnej (będziemy ją oznaczać X) odpowiada tylko jedna, jednoznacznie określona wartość zmiennej zależnej (oznaczamy ją przez Y). Wiadomo na przykład, że pole kwadratu jest funkcją jego boku (P=a 2 ). Wynik można przewidzieć od razu
Mniej oczywisty przykład Ponownie zrób wykres XY Za Anna Raifuna SGGW
Wykres korelacyjny rozrzutu XY Inny rodzaj związku między wartościami zmiennych X i Y
Czego oczekujemy od związku między zmiennymi? Większość punktów tutaj Większość punktów tutaj Pozytywna (dodatnia) współzależność
Czego oczekujemy od związku między zmiennymi? Większość punktów tutaj Większość punktów tutaj Negatywna (ujemna) współzależność
Różne zależności między zmiennymi za Wieczorkowska
Pojęcie korelacji Związek w zakresie współzmienności między dwoma (lub większą) liczbą zmiennych liczbowych Pytanie badawcze czy ze wzrostem wartości jednej zmiennej rosną (lub maleją) wartości drugiej zmiennej np. czy średnio ze zwiększającą się wysokością osoby rośnie (lub maleje) jej waga Intuicyjnie, zależność dwóch zmiennych X i Y oznacza, że znając wartość jednej z nich, dałoby się przynajmniej w niektórych sytuacjach dokładniej przewidzieć wartość drugiej zmiennej, niż bez posiadania tej informacji Uwaga wyniku badania korelacyjnego nie wolno interpretować w terminach przyczynowo - skutkowych
Wykrywanie korelacji między zmiennymi W analizie korelacji zadaje się pytania: Czy istnieje związek współzależność między dwoma zmiennymi? Jaka jest skala tej zależności. Czy jest ona słaba czy silna? Czy istnieją możliwości wyrażenia tej zależności w postaci liczbowej?
Jaka korelacja Nas dziś interesuje? Jaki typ zależności między wartościami zmiennych? Zmienne liczbowe Statystyczna i monotoniczna Liniowa Czy istnieją inne możliwości wyrażenia zależności między zmiennymi? Związki nieliniowe Inne zmienne (porządkowe, nominalne) Będą (?) korelacja rangowa Spearmana, współczynnik tau-kendalla; statystka gamma, miary siły związku wykorzystujące test χ 2,
Korelacja między dwoma zmiennymi / cechami Korelacja związek dodatni, ujemny, Skala tej zależności - słaba lub silna
Brak korelacji między dwoma zmiennymi / cechami Zinterpretuj drugi wykres
Współczynnik korelacji liniowej Korelacja oznacza związek między zmiennymi a współczynnik korelacji r liczbową miarę tego związku Oczekiwania Dane (X,Y) przedstawione w postaci par liczb Jeśli nie ma związku, to wartość współ. r 0 Wartości odzwierciedlają związki proporcjonalne między wartościami zmiennych (pozytywne, negatywne) Dążenie do unormowanie wartości współczynnika korelacji i interpretacji jako siły związku
Od kowariancji do korelacji liniowej Pomiar jak ZMANY wartość jednej zmiennej wpływa średnio na ZMIANY wartość drugiej zmiennej Inspiracja z analizy jednej zmiennej: Analiza zmienności (wariancji) zmiennej - Kwadraty odchyleń od średniej Prostsza interpretacja odchylanie standardowe
Ilustracyjny przykład rybaka Wyobraźmy sobie mały zestaw danych X,Y tj.: (1,1) (4,3) (7,5) (8,7) X,Y mogą być dowolnymi zmiennymi Tutaj: X czas łowienia, Y liczba złapanych ryb Przykład za COMP6053
Popatrzmy na zmienność pojedynczych zmiennych Policzmy średnie arytmetyczne dla każdej zmiennej Dla X = 5, dla Y =4
Od wariancji do kowariancji Dla jednej zmiennej policzyłbyś wariancje Lecz powiązanie dwóch zmiennej: Rachunek prawd. współzależność zmiennych losowych = kowariancja Cov(X,Y)=E[(X-µ X ) [(Y-µ Y )] Interesują Nas iloczyny odchyleń (xi od średniej X)(yi od średniej Y); sumuj iloczyny oraz podziel przez n liczbę par (ew. n-1)
Policzmy kowariancje -4 x -3 = 12-1 x -1 = 1 2 x 1 = 2 3 x 3 = 9 Razem 24 podzielone przez 4 obserwacje Kowariancja 8 ryb-godzin Interpretacja Może inaczej, jeśli wiemy że SDX=3.16 i SDY=2.58 Pearson linear correlation r=0.98
Korelacja liniowa miara kierunku i siły współzależności między dwiema zmiennymi X i Y. Współczynnik korelacji liniowej Pearsona: r xy = n i= 1( xi x) ( yi y) C( x, y) = n 2 n 2 S i xi x i yi y x S = 1( ) = 1( ) y gdzie x, y- średnie art. zmiennych X i Y, a Sx i S y ich odchylenia standardowe; kowariancja 1 n C( x, y) = i = 1 ( xi x)( yi y) n r xy [ 1, 1] Miarą siły liniowego związku między zmiennymi X i Y. Zakres stosowalności: zależność dwóch zmiennych ilościowych o charakterze liniowym.
Inne sformułowanie wzoru r XY n i = = 1 Z n Xi Z Yi Zi wynik standaryzowanego i-tego pomiaru zmiennej n liczba pomiarów
Własności współczynnika korelacji liniowej Pearsona 1. Miara symetryczna 2. Miara niemianowana i unormowaną Można porównywać korelacje dla różnych zestawów zmiennych 3. Pozwala na określenie nie tylko siły, ale i kierunku zależności między zmiennymi 4. Interpretacja wartości współczynnika korelacji: im 1 tym silniejsza korelacja. r xy 5. Ograniczenia Podatny na obserwacje skrajne (ang. outliers)
Współczynniki korelacji dla przykładowych zależności X i Y Wykres za A.Adrian AGH
Przykładowa interpretacja wartości jako siły związku Pamiętając o liczności próby interp. wartości bezwzględnych Lecz sprawdź inne źródła dziedzinowe
Korelacja Pearsona tylko liniowa za: Wiki Czy na pewno zero w ostatnim?
Korelacja a rozkłady prawdopodobieństwa Wykres za R.Gonzales
Korelacja a rozkłady prawdopodobieństwa
Wykresy korelacyjne dla różnych n Wykresy symulacyjne za R.Gonzales
Przykłady obliczania korelacji Zbadaj zależność dwóch zmiennych opisujących odpowiedzi respondentów w pewnej ankiecie X - liczba randek w ostatnim tygodniu Y ocena satysfakcji z życia na skali punktowej 1,2,3,..,5 X 1 2 5 Y 1 2 4 Dla każdego zestawu odpowiedzi narysuj wykres korelacyjny (każda para wartości odpowiedzi dla jednej osoby przedstawiona jest jako punkt na płaszczyźnie x,y)
Przykłady Grupa nastolatków X 1 2 3 4 5 6 7 Y 1 2 3 4 4 5 5 Wykres korelacyjny - nastolatki Korelacja = 0.97 6 5 satysfakcja 4 3 2 1 0 0 2 4 6 8 liczba randek
Przykłady 2 Grupa dwudziestoparo-latków X 1 2 2 3 3 4 5 6 7 Y 1 2 1 3 4 4 3 2 1 Korelacja =?? satysfakcja 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 Trzydziestolatki 0 1 2 3 4 5 6 7 8 liczba randek
Przykłady 3 Grupa troszkę starszych-latków X 1 2 3 3 3 4 4 4 5 5 7 Y 4 3 2 3 4 1 2 3 2 1 1 Korelacja = -0.77 Satysfakcja 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 troche pozniej 0 1 2 3 4 5 6 7 8 liczba spotkań
Ocena współczynnika korelacji ρ w populacji r współczynnik korelacji w próbie czy może być użyty w odniesieniu do populacji? Estymator punktowy? Może być także użyty do testowania hipotezy o korelacji zmiennych w populacji. Założenia: zmienne (X,Y) populacji mają dwuwymiarowy rozkład normalny o nieznanym współczynniku korelacji ρ. Na podstawie n - elementowej próby wyznaczono r. Testowany układ hipotez: 0 : ρ = Statystyka testowa: test z = H 0 H : ρ 0 r xy 1 r 2 xy n 1 lub test = rxy t n 2 2 1 r xy
Przykład testowania istotności współczynnika korelacji Współczynnik korelacji między liczbą randek w tygodniu a satysfakcją z życia wynosi r=0.493 (N = 16 par pomiarów). Czy możemy podjąć decyzję wobec populacji H0: ρ=0. Schemat postępowania: Testowany układ hipotez: 0 : ρ = 0 H1 : ρ Wybór statystyki testowej = rxy t n 2 2 1 r Ma rozkład t - Studenta z n-2 stopni swobody (14) Poziom α=0.05 tkryt=2.145 t=2.11 H 0 Podjęcie decyzji xy
Test w Statsoft Statistica Przykład biostatystyczny
Ostrożność z testem ρ dla rozmiarów próby Dla dużych rozmiarów próby nawet małe korelacje (brak związku) mogą okazać się istotne wg. testu Lecz nie musi być to rzeczywisty związek
Wykresy kwartetu Anscombe'a
Problemy w interpretacji współczynnika korelacji Uwagi po analizie przykładu: Należy oglądać dane! Współczynnik służy do badania związku liniowego! Jeśli związek nie jest liniowy stosuj regresję krzywoliniową. Współczynnik korelacji jest nieistotny można stwierdzić wyłącznie brak związku liniowego. Ponadto pamiętaj: Wrażliwość na obserwacje skrajne i ograniczenie zakresy zmienności zmiennej niezależnej.
Związki przyczynowo-skutkowe Przyczynowość zainteresowanie od początku ludzkości (poznanie naukowe) Także fabuła opowieści, logika prawa (kary),.. Związek przyczynowo-skutkowy między danymi zjawiskami czy zdarzeniami zostało wykazane powiązanie. Innymi słowy, że A jest przyczyną B Pragnienie wypicie napoju Przyczyna Skutek
Związki przyczynowo-skutkowe ważne są Badanie przyczynowości jest próbą zrozumienia tego, jak działa świat. Co więcej, odkrycia w tej kwestii pozwalają nam na stawianie prognoz. Jeżeli znamy przyczynę - możemy próbować przewidzieć skutek. Bardziej formalnie możemy zdefiniować przyczynowość jako związek, który występuje pomiędzy dwoma zmiennymi losowymi, przy czym jedna ze zmiennych wyznacza wartość drugiej zmiennej.
Korelacja to nie zależność przyczynowo-skutkowa Częstym błędem jest przyjmowanie, że zmienne silnie nawet skorelowane są związane jakimś związkiem przyczynowo-skutkowym, tym mocniejszym, im korelacja większa Silna korelację pomiędzy zachorowaniem na raka a paleniem papierosów; palenie powoduje raka (czy tylko) Istnienie związku między zmiennymi NIE OZNACZA PRZYCZYNOWOŚCI!!
Korelacje nie są związkami przyczynowoskutkowymi Klasyczny przykład zegara dworcowego Dźwięk dworcowego zegara wybijającego godzinę pierwszą jest niezwykle silnie skorelowany z odjazdem pociągu o 1:00 ze stacji, Nie jest on jednak żadną przyczyną ruchu - i odwrotnie, odjazd pociągu nie jest przyczyną dźwięku Są to zjawiska tylko współ-występujące
Dziwne sytuacje Inny klasyczny przykład (bociany) wykryto istotną statystycznie dodatnią zależność pomiędzy liczbą bocianów przypadających na km2 w danym skupisku ludzkim, a przyrostem naturalnym na tym obszarze. Czy to nie dowodzi, że bociany przynoszą dzieci?
Koincydencja zdarzeń Jako pierwszy zdefiniował Arthur Schopenhauer w Űber den Willen in der Natur w 1836 r. Określił ją jako jednoczesne występowanie zdarzeń, które nie są związane ze sobą przyczynowo. Jednoczesne zdarzenia przebiegają w równoległych liniach. Jedno i to samo zdarzenie będące ogniwem w zupełnie różnych łańcuchach, występuje ponadto w kilku innych, tak że los jednostki spotyka się nieuchronnie z losem innej. Każdy z nas jest głównym aktorem we własnym dramacie, równocześnie zaś gra jakąś rolę w innym, obcym mu dramacie
Pozorne korelacje Zależność pozorna to związek, który istnieje pomiędzy zmiennymi, ale jest w rzeczywistości powodowany przez inną zmienną Lecz mogą być błędnie interpretowane Zwłaszcza w podejściu policzmy korelacje wszystkich zmiennych ze wszystkimi w naszych danych, a później zobaczymy co wyjdzie,.. Przykłady: Zarobki prezbiteriańskich pastorów w stanie Massachusetts a cena rumu w Hawanie są silnie skorelowane Z książki D.Haff: How to lie with statistics.
Strona WWW Spurious Correlations (pozorne korelacje) Korelacja między wydatkami na naukę, badania kosmiczne i technologię a ceną bananów w kolejnych latach (współczynnik korelacji 0,94) Zależność między wydatkami na utrzymanie zwierząt domowych a liczbą prawników w Kalifornii (współczynnik korelacji 0,998)
Inne przykłady silnych lecz złóżonychzwiązków między zmiennymi. Przykład nr. 1: Długość okresu pobierania nauki i wysokość zarobków są wysoce skorelowane Badania ankietowe w Anglii (F.Clegg str. 154). Pytanie czy poziom wykształcenia sam w sobie determinuje stanowisko i wysokość zarobków? Raczej związek nie jest tak prosty, lecz dość złożony! Inteligencja osoby, cechy osobowościowe, różne umiejętności, no i łut szczęścia, J Wysoka korelacja wyłącznie opisuje związek, który istnieje w danych pomiarowych pomiędzy obiema zmiennymi.
Dalej Przykład nr. 2: Oglądalność TV i wskaźnik urodzeń są negatywnie skorelowane Badania demograficzne w USA zaobserwowano wysoki wzrost wskaźnika urodzeń, które nastąpiło 9 miesięcy po awarii TV w pewnych rejonach USA. Podobnie wiele osób interpretując inne badania wierzy istnieje sprecyzowany związek pomiędzy pokazywaniem przemocy w TV a poziomem agresji! Związek przyczynowo-skutkowy nie jest tak prosty i bezpośredni, lecz dość złożony i wymaga uwzględniania innej wiedzy niż wyłącznie korelacja!
A co z naszymi bocianami? Badania Roberta Metthewsa (Stork deliver babys, Teaching Statistics, vol. 22, 2000) Dane także dostępne w książce P.Francuz, R.Mackiewicz: Liczby nie wiedzą skąd pochodzą. Wyd. KUL, 2007 patrz str 506-509 Korelacja między liczbą rodzących się dzieci a liczbą bocianów w danych kraju r=0,62 Lecz badania obejmowały więcej cech krajów: Powierzchnia (tys km kw.) Ludność (mln) Liczba bocianów (l. par) Liczba urodzeń (w tys. na rok)
Macierze korelacji Zmienne Powierzchnia Liczba bocianów Liczba mieszkańców Liczba urodzeń Pow. 1 0,579 0,812 0,923 Bociany 0,579 1 0,354 0,620 Mieszkańcy 0,812 0,354 1 0,851 Urodzenia 0,923 0,620 0,851 1 Możliwe interpretacje złożonych powiązań (może być więcej): Liczba bocianów powiązana w dużą powierzchnią kraju, Powierzchnia kraju skorelowana z liczbą mieszkańców, Liczba mieszkańców silnie skorelowana z liczbą urodzeń, Pełniejsza analiza tzw. korelacje cząstkowe r(xy.z)=0,22
Gdzie jesteśmy w trakcie wykładu? 1. Wykrywanie zależności między zmiennymi 2. Współczynnik korelacji próbkowej (Pearsona). 3. Liniowa zależność między dwoma zmiennymi: Prosta regresja Metoda najmniejszych kwadratów Właściwości 4. Zastosowanie różnego oprogramowania
W stronę regresji Mat. Statistica + wykład A.Adrian AGH
Literatura Statystyka dla studentów kierunków technicznych i przyrodniczych, Koronacki Jacek, Mielniczuk Jan, WNT, 2001. Statystyka w zarządzaniu, A.Aczel, PWN 2000. Statystyka praktyczna. W.Starzyńska, Statystyka. Wprowadzenie do analizy danych sondażowych i eksperymentalnych. G.Wieczorkowska, Scholar, 2004. Przystępny kurs statystyki, Stanisz A., 1997. Tom 2 poświęcony wyłącznie analizie regresji! I wiele innych
Dziękuję za uwagę Czytaj także podręczniki!