Statystyka Wykład 7 Magdalena Alama-Bućko 3 kwietnia 2017 Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 1 / 36
Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia miary zmienności miary asymetrii miary koncentracji. Analiza współzależności zjawisk. Analiza dynamiki zjawisk. Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 2 / 36
Celem analizy jest stwierdzenie, czy między badanymi zmiennymi zachodza jakieś zależności oraz jaka jest ich: siła np. słaba albo silna zależność postać ( dopasowanie funkcji reprezentujacej zależność ) kierunek (monotoniczność) czy wraz ze wzrostem jednej cechy, druga rośnie czy maleje? Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 3 / 36
Przedstawienie danych Dane (x i, y i ), i = 1, 2,..., n można przedstawić w postaci diagramów korelacyjnych i tabeli korelacyjnych. 1) diagram korelacyjny - to graficzne zaznaczenie na płaszczyźnie punktów (x i, y i ), i = 1, 2,..., n. 2) tablica korelacyjna albo tablica dwudzielcza Y y 1 y 2... y k Suma X x 1 n 11 n 12... n 1k n 1 x 2 n 21 n 22... n 2k n 2...... x r n r1 n r2... n rk n r Suma n 1 n 2... n k n Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 4 / 36
Z tabeli korelacyjnej można odczytać następujace rozkłady: 1) rozkłady brzegowe rozkład cechy X (wartości to kolumna pierwsza, liczebności : kolumna ostatnia) rozkład cechy Y (wartości to wiersz pierwszy, liczebności to wiersz ostatni) 2) rozkłady warunkowe - rozkład wartości danej cechy pod warunkiem, że druga cecha ma określona wartość Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 5 / 36
Procedura badania zależności między cechami zależy od typów tych cech. Moga być następujace sytuacje: obie cechy sa mierzalne (ilościowe) np. zależność wzrostu od wagi, wydatków od dochodów,... współczynnik korelacji liniowej Pearsona obie cechy sa niemierzalne (jakościowe) np. zależność wykształcenia od preferencji politycznych jedna cecha jest ilościowa i jedna jakościowa np. zależność zarobków od płci. Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 6 / 36
Współczynnik korelacji liniowej Pearsona dwie cechy ilościowe n 1 n (x i x)(y i y) x i y i x y n i=1 i=1 r XY = albo r XY = n s X s Y s X s Y gdzie x, y - średnie arytmetyczne danych x i y s X, s Y - odchylenia standardowe danych x = {x 1, x 2,..., x n } oraz y = {y 1, y 2,..., y n }. Dla danych zgrupowanych w tabeli korelacyjnej mamy: r XY = 1 n n ˆx i ŷ i n ij x y i=1 s X s Y. Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 7 / 36
Interpretacja Korelacja między X i Y niekoniecznie oznacza zwiazek przyczynowy między cechami!!! Np. X - liczba policjantów w pewnym mieście Y - liczba przestępstw w pewnym mieście możemy otrzymać wysoki dodatni współczynnik korelacji, ale oczywiście nie oznacza to zwiazku przyczynowo-skutkowego między tymi cechami :) Cecha, która bezpośrednio w sposób przyczynowy oddziałuje na te dwie cechy jest cecha : Z - wielkość miasta. Im większe miasto, tym więcej ludzi a zatem szans na dokonanie przestępstw. Im większe miasto, tym potrzebna większa liczba policjantów do zapewnienia porzadku. Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 8 / 36
Skrajne wartości r xy = 0, gdy brak współzależności (liniowej) Uwaga! - może istnieć zależność nieliniowa, np. kwadratowa r xy = 1 gdy zależność funkcyjna (korelacja doskonała), tzn. istnieja pewne stałe a i b takie, że wszystkie dane spełniaja warunek Y = ax + b Kierunek r xy < 0, gdy korelacja ujemna (, ) r xy > 0, gdy korelacja dodatnia (, ) Siła zależności r xy 0.2, praktycznie brak zwiazku liniowego pomiędzy badanymi cechami, 0, 2 < r xy 0, 4 - słaba zależność liniowa 0, 4 < r xy 0, 7 - zależność liniowa umiarkowana (przeciętna) 0, 7 < r xy 0, 9 - zależność liniowa znaczaca (wysoka) 0.9 < r xy 1 - bardzo silna ( bardzo wysoka) korelacja liniowa. Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 9 / 36
Poznaliśmy ostatnio następujacy współczynnik: współczynnik korelacji liniowej Pearsona dwie cechy ilościowe (mierzalne) Ponadto poznamy następujace współczynniki: współczynnik korelacji rang Spearmana dwie cechy ilościowe (mierzalne) jedna cecha ilościowa i jedna cecha jakościowa (porzadkowa) skorygowanego współczynnika kontyngencji współczynnika Czuprowa współczynnika zbieżności V-Cramera dwie cechy jakościowe jedna cecha ilościowa i jedna cecha jakościowa Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 10 / 36
Współczynnik determinacji współczynnik determinacji liniowej r 2 = r 2 xy podaje, jaka część zmienności cechy zależnej jest wyjaśniona zmiennościa cechy niezależnej. ułamek [0, 1] procent: 0% 100% Jeśli r xy = 0.5, to r 2 = 0.25 = 25% co oznacza, że 25% zmian wartości zmiennej objaśnianej jest wyjaśnione przez zmianę wartości zmiennej objaśniajacej. współczynnik indeterminacji φ 2 = 1 r 2 podaje, jaka część zmienności cechy zależnej nie może być wyjaśniona zmiennościa cechy niezależnej. Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 11 / 36
Zadania z Wykładu 6 Zadanie 1 Zaobserwowano następujace wartości wieku mężczyzn (X) i kobiet (Y) zawierajacych zwiazek małżeński (w latach). X 22 21 30 18 28 Y 26 22 29 22 25 r xy = 0.8239 wysoka dodatnia korelacja między wiekiem kobiet i mężczyzn zmienna niezależna: wiek mężczyzny, zmienna zależna : wiek kobiety (ale odwrotnie też może być) r = r 2 xy = 0.8239 2 = 0.6788 zatem 68% zmian wieku mężczyzn bioracych ślub jest wyjaśniane przez zmianę wieku kobiety Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 12 / 36
Zadania z Wykładu 6 Zadanie 2 Zbadano zależność między stażem pracy (X), a wydajnościa pracownika (Y) w dużym przedsiębiorstwie. Wylosowano w sposób niezależny stu pracowników. Staż Liczba sztuk na godzinę 10 20 20 30 30 40 40 50 0 2 15 5 2 4 10 10 5 4 6 10 10 5 6 8 10 5 8 10 5 10 r xy = 0.802. silna dodatnia korelacja pomiędzy stażem pracy a wydajnościa pracownika zmienna niezależna : staż, zmienna zależna : wydajność r = rxy 2 = 0.802 2 = 0.643 zatem 64% zmian wartości wydajności pracy jest wyjaśniane przez zmianę wieku pracownika Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 13 / 36
Współczynnik korelacji rang Spearmana dwie cechy ilościowe dwie cechy jakościowe, ale w skali porzadkowej (tzn. cechy posiadaja pewien naturalny porzadek pozwalajacy uporzadkować je rosnaco lub malejaco) badamy czy istnieje monotoniczna zależność między cechami i określamy jej siłę nie musi być to korelacja liniowa! n 6 r s = 1 i=1 d 2 i n 3 n d 1, d 2,..., d n - rangi wyznaczone na podstawie n par obserwacji Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 14 / 36
Własności wartości w przedziale [ 1, 1] im bliższy do 1 albo 1 tym zwiazek silniejszy współczynnik bada zgodność uporzadkowania cech wartość dodatnia oznacza uporzadkowanie zgodne (, ) wartość ujemna oznacza uporzadkowanie przeciwne (, ) interpretacja siły taka jak dla współczynnika korelacji Pearsona Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 15 / 36
Jak obliczyć rangi d i? porzadkujemy obserwacje względem każdej cechy ( od najmniejszej do największej) kolejnym uporzadkowanym wartościom cech przyporzadkowujemy rangi ( czyli numerujemy od 1 do n) jeśli kilka obserwacji ma tę sama wartość, to rangi uśredniamy d i = r xi r yi to różnice między kolejnymi rangami d i = 0 oznacza, że obie obserwacje x i i y i zajmuja w odpowiednich uporzadkowanych ciagach te same wartości Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 16 / 36
Przykład 1 Wyliczymy r s dla danych z zadania 1. X 22 21 30 18 28 Y 26 22 29 22 25 Porzadkujemy wartości cechy X: (22, 21, 30, 18, 28) (18, 21, 22, 28, 30) r xi na jakiej pozycji w uporzadkowanym ciagu znajduje się i ta obserwacja cechy X r x1 = 3, r x2 = 2, r x3 = 5, r x4 = 1, r x5 = 4. Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 17 / 36
Przykład 1 Wyliczymy r s dla danych z zadania 1. X 22 21 30 18 28 Y 26 22 29 22 25 Porzadkujemy wartości cechy Y : (26, 22, 29, 22, 25) (22, 22, 25, 26, 29) r yi na jakiej pozycji w uporzadkowanym ciagu znajduje się i ta obserwacja cechy Y r y1 = 4, r y2 = 1, r y3 = 5, r y4 = 2, r y5 = 3. ponieważ obserwacja druga i czwarta sa równe oraz r y2 = 1 i r y4 = 2, to uśredniamy ich rangi: r y2 = r y5 = 1 + 2 2 = 1.5 Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 18 / 36
X Y r x r y d i = r x r y di 2 22 26 3 4 1 1 21 22 2 1,5 0.5 0.25 30 29 5 5 0 0 18 22 1 1,5 0.5 0.25 28 25 4 3 1 1 suma= 2, 5 n i=1 d 2 i = 2, 5 6 n di 2 i=1 n 3 n = 1 6 2, 5 r s = 1 5 3 5 = 1 15 = 1 0, 125 = 0.875. 120 oznacza to silna zależność między cechami przypomnijmy, że r xy = 0.8239 Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 19 / 36
Współczynniki oparte na statystyce χ 2 dwie cechy jakościowe jedna cecha jakościowa i jedna ilościowa Siłę zależności takich cech można określić za pomoca: skorygowanego współczynnika kontyngencji C skor współczynnika Czuprowa T xy współczynnika zbieżności V-Cramera V c. Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 20 / 36
Własności Wszystkie współczynniki wyrażaja się przez statystykę χ 2 Współczynniki te przyjmuja wartości z przedziału [0; 1] im wartość bliższa 1, tym zależność jest silniejsza im wartość bliższa 0, tym zależność słabsza. Interpretacja : wartość < 0.3 : słaby zwiazek wartość < 0.5 : umiarkowany zwiazek wartość > 0.5 : silny zwiazek Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 21 / 36
X r wariantów (czyli tabela korelacyjna ma r wierszy) Y k wariantów (czyli tabela korelacyjna ma k kolumn) Procedura wyliczenia statystyki χ 2 : Dla każdego pola w tabeli wyliczamy liczebności teoretyczne, tzn. ˆn ij = n i n j, n gdzie n i oznacza liczebność cechy x i, a n j oznacza liczebność cechy y j. wyliczamy wartość statystyki χ 2 : χ 2 = i (n ij ˆn ij ) 2 ˆn ij j = i j n 2 ij ˆn ij n Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 22 / 36
χ 2 = i (n ij ˆn ij ) 2 ˆn ij j = i j n 2 ij ˆn ij n Uwaga dane powinny być tak pogrupowane tak, by ˆn ij 5 χ 2 = 0 gdy wszystkie liczebności teoretyczne i zaobserwowane sa takie same. Wówczas cechy sa niezależne. χ 2 xy = χ 2 yx Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 23 / 36
Przykład 2 Wyznaczyć wartość χ 2 dla następujacych danych: X oczywiście n = 100 przyjmujemy oznaczenia : Y 0 1 0 10 20 1 40 30 n 00 = 10, n 01 = 20 n 10 = 40, n 11 = 30 Dla każdego pola w tabeli wyliczamy liczebności teoretyczne, tzn. ˆn ij = n i n j, i, j = 0, 1 n gdzie n i oznacza liczebność cechy x i, a n j oznacza liczebność cechy y j. Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 24 / 36
sumujemy liczebności w wierszach i kolumnach: Y 0 1 Suma X 0 10 20 n 0 = 30 1 40 30 n 1 = 70 Suma n 0 = 50 n 1 = 50 n = 100 wyliczamy liczebności teoretyczne: ˆn 00 = n 0 n 0 n ˆn 01 = n 0 n 1 n ˆn 10 = n 1 n 0 n ˆn 11 = n 1 n 1 n = = = = 30 50 100 = 15 30 50 100 = 15 70 50 100 = 35 70 50 100 = 35 Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 25 / 36
musimy wyliczyć (n ij ˆn ij ) 2 χ 2 = i w tabeli korelacyjnej wpisujemy w odpowiednich komórkach wyliczone liczebności teoretyczne (czyli ˆn ij ) j Y 0 1 Suma X 0 10 (15) 20 (15) n 0 = 30 1 40 (35) 30 (35) n 1 = 70 Suma n 0 = 50 n 1 = 50 n = 100 ˆn ij χ 2 = (10 15)2 15 + (20 15)2 15 + (40 35)2 35 = 25 15 + 25 15 + 25 35 + 25 35 = 4.762. + (30 35)2 35 Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 26 / 36
Skorygowany współczynnik kontyngencji χ 2 C = χ 2 + n, r 1 k 1 + C max = r k 2 C skor = C C max, χ 2 = r i=1 j=1 k (n ij ˆn ik ) 2 ˆn ik, ˆn ik = n i n j n r liczba wierszy, k liczba kolumn, n liczebność próby Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 27 / 36
Skorygowany współczynnik kontyngencji Przykład 2 - c.d k = 2 liczba kolumn r = 2 liczba wierszy n = 100 χ 2 = 4.762 χ 2 4.762 C = χ 2 + n = 4.762 + 100 = 0.213. r 1 k 1 1 1 1 + C max = r k = 2 + 2 2 = 2 2 2 2 C skor = C = 0.213 C max 0.707 = 0.301. oznacza słaby zwiazek między cechami = 1 2 = 0.707 Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 28 / 36
współczynnik Czuprowa T xy = χ 2 n (r 1)(k 1) χ 2 = r i=1 j=1 k (n ij ˆn ik ) 2 ˆn ik, ˆn ik = n i n j n r liczba wierszy, k liczba kolumn, n liczebność próby T xy = T yx Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 29 / 36
współczynnik Czuprowa Przykład 2- c.d. k = 2 liczba kolumn r = 2 liczba wierszy n = 100 χ 2 = 4.762 χ T xy = 2 n (r 1)(k 1) = = 0.04762 = 0.218. 4.762 100 1 1 = oznacza słaby zwiazek między cechami 4.762 100 Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 30 / 36
współczynnik zbieżności V-Cramera χ V c = 2 n g gdzie g = min{r 1, k 1}. χ 2 = r i=1 j=1 k (n ij ˆn ik ) 2 ˆn ik, ˆn ik = n i n j n r liczba wierszy, k liczba kolumn, n liczebność próby Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 31 / 36
Jeżeli k = r czyli macierz korelacji ma tyle samo wierszy co kolumn, to współczynnik zbieżności V-Cramera jest równoważny współczynnikowi Czuprowa, czyli bo V c = T xy dla g = min{r 1, k 1} = min{r 1, r 1} = min{r 1} = r 1 mamy χ V c = 2 n g = χ 2 n (r 1) oraz χ T xy = 2 n (r 1)(k 1) = χ 2 n (r 1)(r 1) = χ 2 n(r 1). Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 32 / 36
współczynnik zbieżności V-Cramera Przykład 2- c.d. k = 2 liczba kolumn r = 2 liczba wierszy n = 100 χ 2 = 4.762 Jeżeli g = min{r 1, k 1} to χ V c = 2 n g g = min{r 1, k 1} = min{2 1, 2 1} = min{1, 1} = 1 4.762 V c = 100 1 = 0.218 oznacza słaby zwiazek między cechami Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 33 / 36
Zadanie Niech X oznacza płeć studentów a Y - rodzaj studiów (stacjonarne/niestacjonarne). Dane z 2013 roku ( źródło: bdl) wygladaj a następujaco: Studia Stacjonarne Niestacjonarne K 499195 158408 Płeć M 360579 132677 Zbadać, czy rodzaj trybu podejmowanych studiów zależy od płci? Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 34 / 36
Wszystkie wyliczone wskaźniki wskazuja na brak zależności między płcia a rodzajem wybieranego trybu studiów. Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 35 / 36
Dziękuję za uwagę! Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 36 / 36