ZJAZD 4 KORELACJA, BADANIE NIEZALEŻNOŚCI, ANALIZA REGRESJI Analiza korelacji i regresji jest działem statystyki zajmującym się badaniem zależności i związków pomiędzy rozkładami dwu lub więcej badanych cech w populacji generalnej. KORELACJA I BADANIE NIEZALEŻNOŚCI Korelacja między dwiema zmiennymi losowymi X i Y oznacza zależność między tymi zmiennymi. Miarą siły związku między zmiennymi jest m. in. współczynnik korelacji Pearsona ρ(x, Y), dany wzorem: E( X Y ) E ( X ) E ( Y ) ( X, Y ) gdzie E(x) jest wartością oczekiwaną x X Y W programie Statgraph współczynnik ten wyznaczany jest za pomocą odpowiedniego narzędzia. Wartość współczynnika ρ określa stopień zależności liniowej między dwiema badanymi zmiennymi. Ma on następujące własności: przyjmuje wartości od do +. jeżeli zmienne są niezależne, to ρ = 0. jeżeli istnieje zależność liniowa między zmiennymi, to ρ = lub ρ = -. Znak współczynnika korelacji mówi o kierunku związku: "+" oznacza związek dodatni, tj. wzrost (spadek) wartości jednej cechy powoduje wzrost (spadek) wartości drugiej (związek wprost proporcjonalny). "-" oznacza kierunek ujemny, tj. wzrost (spadek) wartości cechy powoduje spadek (wzrost) wartości drugiej (związek odwrotnie proporcjonalny). Przyjmuje się następujące oceny siły związku: r siła związku korelacyjnego 0.0-0. brak 0. - 0.4 słaba 0.4-0.7 średnia 0.7-0.9 silna 0.9 -.0 bardzo silna Czasem w badaniach mamy do czynienia z cechami niemierzalnymi, które można jednak uporządkować. W takim przypadku do badania zależności można wykorzystywać współczynnik korelacji rangowej Spearmana r s (rangowanie jest ponumerowaniem
od do n ciągu n-elementowego ustawionego w kolejności rosnącej) o następujących własnościach: wartość współczynnika korelacji rangowej należy do przedziału [-, ]. jeżeli r s = występuje idealna zgodność rang obu zmiennych jeżeli r s = - występuje idealna niezgodność rang jeżeli r s jest bliskie zeru brak jest zależności między zmiennymi. Testowanie niezależności na podstawie współczynnika korelacji. Współczynnik korelacji Pearsona Rozpatrujemy hipotezę o braku skorelowania między dwiema cechami X i Y, czyli hipotezę: H : ρ = 0 Hipotezę tę można testować wobec jednej z hipotez alternatywnych: K : ρ 0 K : ρ < 0 K 3 : ρ > 0 Do weryfikacji hipotezy H wykorzystuje się statystykę testującą t R R n gdzie R jest współczynnikiem korelacji Persona obliczonym na podstawie wartości próbkowych. Zbiory krytyczne tej statystyki są odpowiednio postaci: W, t 3 W, t W t n n n n, t, UWAGA: Jeżeli rozkład (X, Y) jest dwuwymiarowym rozkładem normalnym, to hipoteza H jest równoważna hipotezie o niezależności cech X i Y. Wówczas hipotezą alternatywną jest hipoteza o zależności cech (hipoteza K ). Współczynnik korelacji rangowej Spearmana Jeżeli badana próbka nie pochodzi z populacji o dwuwymiarowym rozkładzie normalnym, wówczas do badania niezależności cech X i Y wykorzystuje się współczynnik korelacji rangowej Spearmana.
Weryfikujemy hipotezę H : cechy X i Y są niezależne Wobec hipotezy alternatywnej K : cechy X i Y są zależne a) Jeżeli liczność próbki n 30 to statystyką testującą testu jest r s czyli obliczony na podstawie elementów próby współczynnik korelacji rangowej, natomiast zbiorem krytycznym jest zbiór W, u u, n n b) Dla próbek o liczności 8 < n < 30 statystykę testową oblicza się ze wzoru r t s n r s Dla tej statystyki zbiorem krytycznym jest zbiór W, t t n n, Procedury programu Statgraphic W celu obliczenia współczynników korelacji dla dwóch zmiennych korzystamy z narzędzia Describe/Numeric Data/Multiple-Variable Analysis a następnie spośród opcji tekstowych wyświetlonego okna wybieramy Correlations dla wyznaczenia współczynnika korelacji liniowej Persona lub Rank Correlations dla wyznaczenia współczynnika korelacji rangowej Spearmana. W oknie wyświetlają się następujące wielkości: wartość współczynnika korekacji, liczność badanej próbki i poziom krytyczny p-value. Jeżeli badane cechy mają dwuwymiarowy rozkład normalny, to wówczas do zbadania niezależności tych cech możemy skorzystać z poziomu krytycznego. 3
ANALIZA REGRESJI Termin regresja oznacza zależność funkcyjną pomiędzy cechami. Będziemy szukać zależności postaci: Y = f(x) + ε lub Y = f(x, X,... X n ) + ε gdzie ε jest błędem losowym o rozkładzie normalnym o wartości oczekiwanej E(ε) = 0 i nieznanej wariancji N(0, σ). Regresja liniowa prosta opisuje zależność między cechami X i Y w postaci funkcji liniowej: Y = a + bx + ε Istnieją metody umożliwiające oszacowanie nieznanych parametrów a i b oraz nieznanej wariancji σ losowego błędu ε. W ramach zajęć wykorzystuje się program Statgraphic w celu określenia funkcji regresji. Model regresji liniowej może posłużyć do znajdowania dowolnej zależności nieliniowej typu: G(Y) = a + bh(x) + ε gdzie G i H są funkcjami znanymi. Wybrane modele nieliniowe oparte na powyższej zależności: model wykładniczy (exponential) Y e a bx model odwrotnościowy Y (reciprocal Y) Y a bx model potęgowy (multiplicative) Y ax b model logarytmiczny (logarithmic) Y a bln( X ) model pierwiastkowy X (square root X) Y a b X model pierwiastkowy Y (square root Y) Y a b X Procedury programu Statgraphic Aby wyznaczyć model regresji prostej dla zmiennej niezależnej X i zmiennej zależnej Y należy wybrać narzędzie Relate/Simple Regression, wskazać zmienną niezależną i zmienną zależną. W oknie analizy domyślnym modelem jest model liniowy. Aby znaleźć model najlepiej dopasowany dla zmiennych należy spośród opcji tekstowych wybrać Comparison of Alternative Models. Najlepszym model dla badanych cech jest model o największej wartości R kwadrat (pierwszy model z listy). Aby wykonać analizę dla wybranego modelu należy zaznaczyć jego nazwę o opcjach okna Regression Analysis. Opcja 4
tekstowa Forecasts umożliwia wyznaczenie nieznanych wartości zmiennej zależnej Y na podstawie podanych (w opcjach okna) wartości zmiennej niezależnej X. ZADANIA Zadanie Obliczyć i zinterpretować współczynniki kowariancji i korelacji Pearsona dla zmiennych numerycznych ze zbioru danych CARDATA (zbiór ten zawiera zestaw parametrów charakteryzujących różne modele samochodów, np. średnie zużycie paliwa, moc, przyspieszenie, waga, cena). Użyć m.in. zmiennej mpg (mile na galon paliwa) do utworzenia nowej zmiennej kml zawierającej wartości zmiennej mpg w jednostkach: kilometry na litr; wskazówka: mila =.609 km oraz galon = 3.785 l. Zadanie Grupę złożona z studentów poddano ocenie dwóch profesorów pod względem ich zdolności. W tabeli podano oceny względne (od oceny najwyższej do oceny najniższej ) Student A B C D E F G H I J K Ocena prof. X 7 8 3 6 0 9 4 5 Ocena prof Y 4 8 0 5 9 3 7 6 Czy można twierdzić, że oceny obu profesorów są zbieżne? Zweryfikować odpowiednią hipotezę statystyczną. Przyjąć a = 0.05. Zadanie 3 Na wylosowanej grupie 0 uczniów przeprowadzono testy oceniające stopień zręczności oraz agresywności, uzyskując wyniki (liczby punktów): Uczeń 3 4 5 6 7 8 9 0 Zręczność 3 9 45 36 49 4 30 5 4 38 Agresja 45 48 6 8 38 36 8 3 37 Ocenić stopień zależności badanych cech. Zweryfikować hipotezę o ich niezależności na poziomie istotności 0.05. Zadanie 4 Badano wpływ dawki pewnego leku na puls pacjenta. Oto wyniki uzyskane dla 0 osób: Dawka leku 4 4 8 8 6 6 3 3 Puls 60 58 63 6 67 65 70 70 74 73 Dopasować właściwy model regresji do tych danych. Korzystając z wyznaczonego modelu obliczyć prognozowane wartości pulsu przy dawkach leku równych 0 oraz 40. 5