Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

Podobne dokumenty
Statystyka. Wykład 7. Magdalena Alama-Bućko. 3 kwietnia Magdalena Alama-Bućko Statystyka 3 kwietnia / 36

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Statystyka. Wykład 9. Magdalena Alama-Bućko. 7 maja Magdalena Alama-Bućko Statystyka 7 maja / 40

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Analiza Współzależności

Statystyka. Wykład 6. Magdalena Alama-Bućko. 9 kwietnia Magdalena Alama-Bućko Statystyka 9 kwietnia / 36

Analiza współzależności zjawisk

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Analiza współzależności dwóch cech I

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Statystyka. Wykład 5. Magdalena Alama-Bućko. 26 marca Magdalena Alama-Bućko Statystyka 26 marca / 40

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

ANALIZA DWUZMIENNOWA. czyli ABC KOREALCJI

Statystyka. Wykład 10. Magdalena Alama-Bućko. 14 maja Magdalena Alama-Bućko Statystyka 14 maja / 31

Pojęcie korelacji. Korelacja (współzależność cech) określa wzajemne powiązania pomiędzy wybranymi zmiennymi.

Analiza współzależności dwóch cech II

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Statystyka. Wykład 5. Magdalena Alama-Bućko. 20 marca Magdalena Alama-Bućko Statystyka 20 marca / 26

Statystyka. Wykład 10. Magdalena Alama-Bućko. 15 maja Magdalena Alama-Bućko Statystyka 15 maja / 32

ANALIZA DWUZMIENNOWA. czyli ABC KOREALCJI

(x j x)(y j ȳ) r xy =

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Statystyka. Wykład 2. Magdalena Alama-Bućko. 27 lutego Magdalena Alama-Bućko Statystyka 27 lutego / 39

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

Statystyka. Wykład 11. Magdalena Alama-Bućko. 21 maja Magdalena Alama-Bućko Statystyka 21 maja / 31

Statystyka. Wykład 1. Magdalena Alama-Bućko. 20 lutego Magdalena Alama-Bućko Statystyka 20 lutego / 19

X WYKŁAD STATYSTYKA. 14/05/2014 B8 sala 0.10B Godz. 15:15

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

KORELACJE I REGRESJA LINIOWA

4.2. Statystyczne opracowanie zebranego materiału

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Wprowadzenie do technik analitycznych Metoda najmniejszych kwadratów

Analiza korelacji

KURS STATYSTYKA. Lekcja 5 Analiza współzależności ZADANIE DOMOWE. Strona 1

PDF created with FinePrint pdffactory Pro trial version

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona

Wykład 7. Opis współzaleŝności zjawisk. 1. Wprowadzenie.

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

ρ siła związku korelacyjnego brak słaba średnia silna bardzo silna

Statystyka. Wykład 1. Magdalena Alama-Bućko. 26 lutego Magdalena Alama-Bućko Statystyka 26 lutego / 34

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

R-PEARSONA Zależność liniowa

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Metodologia badań psychologicznych. Wykład 12. Korelacje

ANALIZA KORELACJI Korelacja między zmiennymi X i Y jest miarą siły liniowego związku między tymi zmiennymi.

Testy nieparametryczne

Badanie zależności skala nominalna

ĆWICZENIE 11 NIEPARAMETRYCZNE TESTY ISTOTNOŚCI

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD EMPIRYCZNY

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

W1. Wprowadzenie. Statystyka opisowa

Statystyka matematyczna

REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym.

STATYSTYKA wykłady. L.Gruszczyński Elementy statystyki dla socjologów Dr. Pactwa pon. i wtorek 09:30 11:00 (pok. 217) I. (08.X)

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Współczynniki korelacji czastkowej i wielorakiej STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 18 listopada 2017

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Zmienna losowa dwuwymiarowa i korelacja

ANALIZA KORELACJI I REGRESJI

Temat: BADANIE NIEZALEśNOŚCI DWÓCH CECH JAKOŚCIOWYCH TEST CHI KWADRAT. Anna Rajfura 1

Matematyka z elementami statystyki

Regresja i Korelacja

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Wielkość dziennego obrotu w tys. zł. (y) Liczba ekspedientek (x) ,5 6,6

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Zadania ze statystyki cz.5 I rok socjologii miary związków między zmiennymi jakościowymi

Wskaźnik asymetrii Jeżeli: rozkład jest symetryczny, to = 0, rozkład jest asymetryczny lewostronnie, to < 0. Kwartylowy wskaźnik asymetrii

Miary asymetrii STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

Statystyka opisowa. Robert Pietrzykowski.

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

Badanie zależności pomiędzy zmiennymi

ĆWICZENIE 11 ANALIZA KORELACJI I REGRESJI

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Analiza zależności zmiennych ilościowych regresja

Statystyka matematyczna

Rozkłady dwóch zmiennych losowych

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski

Wprowadzenie do analizy korelacji i regresji

Statystyka opisowa. Wykład VI. Analiza danych jakośiowych

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

Transkrypt:

Statystyka Wykład 8 Magdalena Alama-Bućko 23 kwietnia 2017 Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 1 / 38

Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia miary zmienności miary asymetrii miary koncentracji. Analiza współzależności zjawisk. Analiza dynamiki zjawisk. Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 2 / 38

Przedstawienie danych Dane (x i, y i ), i = 1, 2,..., n można przedstawić w postaci diagramów korelacyjnych i tabeli korelacyjnych. 1) diagram korelacyjny - to graficzne zaznaczenie na płaszczyźnie punktów (x i, y i ), i = 1, 2,..., n. 2) tablica korelacyjna albo tablica dwudzielcza Y y 1 y 2... y k Suma X x 1 n 11 n 12... n 1k n 1 x 2 n 21 n 22... n 2k n 2...... x r n r1 n r2... n rk n r Suma n 1 n 2... n k n Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 3 / 38

Z tabeli korelacyjnej można odczytać następujace rozkłady: 1) rozkłady brzegowe rozkład cechy X (wartości to kolumna pierwsza, liczebności : kolumna ostatnia) rozkład cechy Y (wartości to wiersz pierwszy, liczebności to wiersz ostatni) 2) rozkłady warunkowe - rozkład wartości danej cechy pod warunkiem, że druga cecha ma określona wartość Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 4 / 38

Dwie cechy ilościowe Współczynnik kowariancji cov xy = 1 n gdzie n (x i x)(y i y) = 1 n x, y - średnie arytmetyczne cech X i Y n x i y i x y x = 1 n n x i, y = 1 n n y i cov xy = cov yx kowariancja jest wartościa mianowana (wyrażona w jednostkach "jednostka X jednostka Y", np. kg m) znak kowariancji informuje nas o kierunku zależności liniowej s x s y < cov xy < s x s y Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 5 / 38

Współczynnik korelacji liniowej Pearsona gdzie r XY = cov xy s x s y = n (x i x)(y i y) n s X s Y = x, y - średnie arytmetyczne danych X i Y 1 n n x i y i x y s X, s Y - odchylenia standardowe danych X i Y s X s Y s 2 x = 1 n n (x i x) 2 = 1 n n x 2 i (x) 2 Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 6 / 38

Dla danych zgrupowanych w tabeli korelacyjnej mamy: r XY = 1 n x i y j n ij x y i,j s X s Y gdzie x, y, s X i s Y obliczone sa dla rozkładów brzegowych x = 1 n r x i n i, y = 1 n k y j n j j=1 s 2 x = 1 n s 2 y = 1 n r n i (x i x) 2 = 1 n k n j (y j y) 2 = 1 n j=1 r k j=1 n i x 2 i (x) 2 n j y 2 j (y) 2 Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 7 / 38

Uwaga Korelacja (liczbowa) między X i Y niekoniecznie oznacza zwiazek przyczynowy między cechami!!! Np. X - liczba policjantów w pewnym mieście Y - liczba przestępstw w pewnym mieście możemy otrzymać wysoki dodatni współczynnik korelacji, ale oczywiście nie oznacza to zwiazku przyczynowo-skutkowego między tymi cechami :) Cecha, która bezpośrednio w sposób przyczynowy oddziałuje na te dwie cechy jest cecha : Z - wielkość miasta. Im większe miasto, tym więcej ludzi a zatem szans na dokonanie przestępstw. Im większe miasto, tym potrzebna większa liczba policjantów do zapewnienia porzadku. Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 8 / 38

Współczynnik korelacji Pearsona określa kierunek i siłę zależności (liniowej) dwóch zmiennych mierzalnych (ilościowych). Przyjmuje on wartości z przedziału [ 1; 1], im wartość r xy jest bliższa 1 lub 1, tym zależność jest silniejsza, im wartość r xy bliższa 0, tym zależność jest słabsza. miara symetryczna, tzn. r xy = r yx. Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 9 / 38

Interpretacja r xy = 0 albo r xy = 1: r xy = 0, gdy brak współzależności (liniowej) Uwaga! - może istnieć zależność nieliniowa, np. kwadratowa r xy = 1, gdy zależność funkcyjna (korelacja doskonała) tzn. istnieja pewne stałe a i b takie, że wszystkie dane spełniaja warunek Y = ax + b Kierunek r xy < 0, gdy korelacja ujemna, tzn. wraz ze wzrostem wartości jednej zmiennej maleja wartości drugiej zmiennej, i odwrotnie, r xy > 0, gdy korelacja dodatnia, tzn. wraz ze wzrostem wartości jednej zmiennej rosna wartości drugiej zmiennej, i odwrotnie, Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 10 / 38

Siła zależności r xy 0.2, praktycznie brak zwiazku liniowego pomiędzy badanymi cechami (bardzo słaba), 0, 2 < r xy 0, 4 - słaba zależność liniowa 0, 4 < r xy 0, 6 - zależność liniowa umiarkowana (przeciętna) 0, 6 < r xy 0, 8 - zależność liniowa silna (wysoka) 0.8 < r xy 1 - bardzo silna (bardzo wysoka) korelacja liniowa. Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 11 / 38

Zadanie 1 Zaobserwowano następujace wartości wieku mężczyzn (X) i kobiet (Y) zawierajacych zwiazek małżeński (w latach). X 22 21 30 18 28 Y 26 22 29 22 25 Wyznaczyć współczynnik korelacji Pearsona dla tych danych. Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 12 / 38

Obliczymy r xy korzystajac z pierwszego wzoru: n (x i x)(y i y) r xy =, x = 1 n x i, n s X s Y n s 2 x = 1 n n (x i x) 2 Wartość r xy = 0.8239, wskazuje na bardzo wysoka i dodatnia korelację między wiekiem kobiet i mężczyzn. Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 13 / 38

Obliczymy r xy korzystajac z drugiego wzoru: r XY = 1 n n x i y i x y s X s Y, x = 1 n n x i, s 2 x = 1 n n (x i x) 2 Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 14 / 38

Zadanie 2 W celu zbadania zależności stażu pracy (X), a wydajnościa pracownika (Y) w dużym przedsiębiorstwie wylosowano w sposób niezależny stu pracowników. Wyniki podaje tabela: Staż Liczba sztuk na godzinę 10 20 20 30 30 40 40 50 0 2 15 5 2 4 10 10 5 4 6 10 10 5 6 8 10 5 8 10 5 10 Wyznaczyć współczynnik korelacji Pearsona dla tych danych. Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 15 / 38

r xy = 1 n n ˆx i ŷ j n ij x y s X s Y, x = 1 n r x i n i, s 2 x = 1 n r n i (x i x) 2 Liczba sztuk na godzinę Y 10 20 20 30 30 40 40 50 Suma Staż X 0 2 15 5 20 2 4 10 10 5 25 4 6 10 10 5 25 6 8 10 5 15 8 10 5 10 15 Suma 25 25 30 20 100 Wyliczymy najpierw osobno : ˆx i ŷ j n ij : = 1 15 15+1 25 5+3 15 10+3 25 10+3 35 5+5 25 10+5 35 10 +5 45 5 + 7 35 10 + 7 45 5 + 9 35 5 + 9 45 10 = 15850 Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 16 / 38

albo z użyciem tabelki ˆxi ŷ j n ij W każej przegródce wyliczamy liczebność z wnętrza nazwa wiersza nazwa kolumny X Liczba sztuk na godzinę Y 10 20 20 30 30 40 40 50 0 2 15 (15 1 15) 5 (5 1 25) 2 4 10 (10 3 15) 10 (10 3 25) 5 (5 3 35) 4 6 10 (10 5 25) 10 (10 5 35) 5 (5 5 45) 6 8 10 (10 7 35) 5 (5 7 45) 8 10 5 (5 9 35) 10 (10 9 45) i sumujemy: ˆxi ŷ j n ij = 225+125+450+750+525+1250+1750+1125+2450 +1575 + 1575 + 4050 = 15850 Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 17 / 38

Rozkład X (obliczymy x i s 2 x) X i 1 3 5 7 9 n i 20 25 25 15 15 20 1 + 25 3 + 25 5 + 15 7 + 15 9 x = 100 x 2 = 1 xi 2 n i n i = 460 100 = 4, 6 = 20 12 + 25 3 2 + 25 5 2 + 15 7 2 + 15 9 2 100 = 2820 100 = 28, 2 s 2 x = x 2 (x) 2 = 28, 2 4, 6 2 = 7, 04 s x = 2, 653 Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 18 / 38

Rozkład Y (obliczymy y i s 2 y) Y i 15 25 35 45 n i 25 25 30 20 25 15 + 25 25 + 30 35 + 20 45 y = 100 y 2 = 1 yi 2 n i n i = 2950 100 = 29, 5 = 25 152 + 25 25 2 + 30 35 2 + 20 45 2 100 = 98500 100 = 985 s 2 y = y 2 (y) 2 = 985 29, 5 2 = 114.75 s y = 10, 71 Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 19 / 38

r xy = 1 n n ˆx i ŷ j n ij x y ˆxi ŷ j n ij = 15850 1 n ˆxi ŷ j n ij = 15850 100 = 158, 5 x = 4, 6 s x = 2, 653 y = 29, 5 s y = 10, 71 r xy = s x s y 158, 5 4, 6 29, 5 2, 653 10, 71 = 0.802. Istnieje bardzo silna dodatnia korelacja pomiędzy stażem pracy a wydajnościa pracownika. Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 20 / 38

Współczynnik determinacji współczynnik determinacji liniowej r 2 = r 2 xy podaje, jaka część zmienności cechy zależnej jest wyjaśniona zmiennościa cechy niezależnej. ułamek [0, 1] procent: 0% 100% Jeśli r xy = 0.5, to r 2 = 0.25 = 25% co oznacza, że 25% zmian wartości zmiennej objaśnianej jest wyjaśnione przez zmianę wartości zmiennej objaśniajacej. współczynnik indeterminacji φ 2 = 1 r 2 podaje, jaka część zmienności cechy zależnej nie może być wyjaśniona zmiennościa cechy niezależnej. Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 21 / 38

Zadanie 1 Zaobserwowano następujace wartości wieku mężczyzn (X) i kobiet (Y) zawierajacych zwiazek małżeński (w latach). X 22 21 30 18 28 Y 26 22 29 22 25 r xy = 0.8239 bardzo wysoka dodatnia korelacja między wiekiem kobiet i mężczyzn zmienna niezależna: wiek mężczyzny, zmienna zależna : wiek kobiety (ale odwrotnie też może być) r = r 2 xy = 0.8239 2 = 0.6788 zatem 68% zmian wieku mężczyzn bioracych ślub jest wyjaśniane przez zmianę wieku kobiety Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 22 / 38

Zadanie 2 Zbadano zależność między stażem pracy (X), a wydajnościa pracownika (Y) w dużym przedsiębiorstwie. Wylosowano w sposób niezależny stu pracowników. Staż Liczba sztuk na godzinę 10 20 20 30 30 40 40 50 0 2 15 5 2 4 10 10 5 4 6 10 10 5 6 8 10 5 8 10 5 10 r xy = 0.802. bardzo silna dodatnia korelacja pomiędzy stażem pracy a wydajnościa pracownika zmienna niezależna : staż, zmienna zależna : wydajność r = r 2 xy = 0.802 2 = 0.643 zatem 64% zmian wartości wydajności pracy jest wyjaśniane przez zmianę wieku pracownika Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 23 / 38

Poznaliśmy dotychczas następujacy współczynnik: współczynnik korelacji liniowej Pearsona dwie cechy ilościowe (mierzalne) Ponadto poznamy jeszcze następujace współczynniki: współczynnik korelacji rang Spearmana dwie cechy ilościowe (mierzalne) jedna cecha ilościowa i jedna cecha jakościowa (porzadkowa) współczynnika zbieżności V-Cramera dwie cechy jakościowe jedna cecha ilościowa i jedna cecha jakościowa Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 24 / 38

Współczynnik korelacji rang Spearmana dwie cechy ilościowe dwie cechy jakościowe, ale w skali porzadkowej (tzn. cechy posiadaja pewien naturalny porzadek pozwalajacy uporzadkować je rosnaco lub malejaco) badamy czy istnieje monotoniczna zależność między cechami i określamy jej siłę nie musi być to korelacja liniowa! n 6 r s = 1 d 2 i n 3 n d 1, d 2,..., d n - rangi wyznaczone na podstawie n par obserwacji Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 25 / 38

Własności wartości w przedziale [ 1, 1] im bliższy do 1 albo 1 tym zwiazek silniejszy współczynnik bada zgodność uporzadkowania cech wartość dodatnia oznacza uporzadkowanie zgodne (, ) wartość ujemna oznacza uporzadkowanie przeciwne (, ) interpretacja siły taka jak dla współczynnika korelacji Pearsona Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 26 / 38

Jak obliczyć rangi d i? porzadkujemy obserwacje względem każdej cechy ( od najmniejszej do największej) kolejnym uporzadkowanym wartościom cech przyporzadkowujemy rangi ( czyli pozycje w uporzadkowanej próbie, zatem numerujemy od 1 do n) jeśli kilka obserwacji ma tę sama wartość, to rangi uśredniamy d i = r xi r yi to różnice między kolejnymi rangami d i = 0 oznacza, że obie obserwacje x i i y i zajmuja w odpowiednich uporzadkowanych ciagach te same wartości Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 27 / 38

Przykład 1 Wyliczymy r s dla danych z zadania 1. X 22 21 30 18 28 Y 26 22 29 22 25 Porzadkujemy wartości cechy X: (22, 21, 30, 18, 28) (18, 21, 22, 28, 30) r xi na jakiej pozycji w uporzadkowanym ciagu obserwacji cechy X znajduje się i ta obserwacja: r x1 = 3, r x2 = 2, r x3 = 5, r x4 = 1, r x5 = 4. Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 28 / 38

Przykład 1 Wyliczymy r s dla danych z zadania 1. X 22 21 30 18 28 Y 26 22 29 22 25 Porzadkujemy wartości cechy Y : (26, 22, 29, 22, 25) (22, 22, 25, 26, 29) r yi na jakiej pozycji w uporzadkowanym ciagu znajduje się i ta obserwacja cechy Y r y1 = 4, r y2 = 1(?), r y3 = 5, r y4 = 2(?), r y5 = 3. ponieważ obserwacja druga i czwarta sa równe oraz r y2 = 1 i r y4 = 2, to uśredniamy ich rangi: r y2 = r y5 = 1 + 2 2 = 1.5 Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 29 / 38

X Y r x r y d i = r x r y di 2 22 26 3 4 1 1 21 22 2 1,5 0.5 0.25 30 29 5 5 0 0 18 22 1 1,5 0.5 0.25 28 25 4 3 1 1 suma= 2, 5 n d 2 i = 2, 5 6 n di 2 n 3 n = 1 6 2, 5 r s = 1 5 3 5 = 1 15 = 1 0, 125 = 0.875. 120 oznacza to bardzo silna zależność między cechami przypomnijmy, że r xy = 0.8239 Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 30 / 38

Współczynnik zbieżności V-Cramera - oparty na statystyce χ 2 dwie cechy jakościowe jedna cecha jakościowa i jedna ilościowa Siłę zależności takich cech można określić za pomoca: współczynnika zbieżności V-Cramera V c. Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 31 / 38

Własności współczynnika zbieżności Cramera V c : wyrażaja się przez statystykę χ 2 przyjmuje wartości z przedziału [0; 1] (tylko informacja o sile, a nie kierunku) im wartość bliższa 1, tym zależność jest silniejsza im wartość bliższa 0, tym zależność słabsza. Interpretacja : - jak wcześniej: wartość 0 0.2 : bardzo słaby zwiazek wartość 0.2 0.4 : słaby zwiazek wartość 0.4 0.6 : umiarkowany zwiazek wartość 0.6 0.8 : silny zwiazek wartość 0.8 1 : bardzo silny zwiazek Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 32 / 38

X r wariantów (czyli tabela korelacyjna ma r wierszy) Y k wariantów (czyli tabela korelacyjna ma k kolumn) Procedura wyliczenia statystyki χ 2 : Dla każdego pola w tabeli wyliczamy liczebności teoretyczne, tzn. ˆn ij = n i n j, n gdzie n i oznacza liczebność cechy x i, a n j oznacza liczebność cechy y j. wyliczamy wartość statystyki χ 2 : (n ij ˆn ij ) 2 χ 2 = i j ˆn ij Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 33 / 38

(n ij ˆn ij ) 2 χ 2 = i j ˆn ij Uwaga dane powinny być tak pogrupowane tak, by ˆn ij 5 χ 2 = 0 gdy wszystkie liczebności teoretyczne i zaobserwowane sa takie same. Wówczas cechy sa niezależne. χ 2 xy = χ 2 yx Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 34 / 38

Przykład 2 Wyznaczyć wartość χ 2 dla następujacych danych: X oczywiście n = 100 przyjmujemy oznaczenia : Y 0 1 0 10 20 1 40 30 n 00 = 10, n 01 = 20 n 10 = 40, n 11 = 30 Dla każdego pola w tabeli wyliczamy liczebności teoretyczne, tzn. ˆn ij = n i n j, i, j = 0, 1 n gdzie n i oznacza liczebność cechy x i, a n j oznacza liczebność cechy y j. Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 35 / 38

sumujemy liczebności w wierszach i kolumnach: Y 0 1 Suma X 0 10 20 n 0 = 30 1 40 30 n 1 = 70 Suma n 0 = 50 n 1 = 50 n = 100 wyliczamy liczebności teoretyczne: ˆn 00 = n 0 n 0 n ˆn 01 = n 0 n 1 n ˆn 10 = n 1 n 0 n ˆn 11 = n 1 n 1 n = = = = 30 50 100 = 15 30 50 100 = 15 70 50 100 = 35 70 50 100 = 35 Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 36 / 38

musimy wyliczyć (n ij ˆn ij ) 2 χ 2 = i w tabeli korelacyjnej wpisujemy w odpowiednich komórkach wyliczone liczebności teoretyczne (czyli ˆn ij ) j Y 0 1 Suma X 0 10 (15) 20 (15) n 0 = 30 1 40 (35) 30 (35) n 1 = 70 Suma n 0 = 50 n 1 = 50 n = 100 ˆn ij χ 2 = (10 15)2 15 + (20 15)2 15 + (40 35)2 35 = 25 15 + 25 15 + 25 35 + 25 35 = 4.762. + (30 35)2 35 Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 37 / 38

Dziękuję za uwagę! Magdalena Alama-Bućko Statystyka 23 kwietnia 2017 38 / 38