Statystyka. Wykład 7. Magdalena Alama-Bućko. 3 kwietnia Magdalena Alama-Bućko Statystyka 3 kwietnia / 36

Podobne dokumenty
Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Statystyka. Wykład 9. Magdalena Alama-Bućko. 7 maja Magdalena Alama-Bućko Statystyka 7 maja / 40

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Statystyka. Wykład 6. Magdalena Alama-Bućko. 9 kwietnia Magdalena Alama-Bućko Statystyka 9 kwietnia / 36

Analiza Współzależności

Analiza współzależności zjawisk

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Statystyka. Wykład 1. Magdalena Alama-Bućko. 20 lutego Magdalena Alama-Bućko Statystyka 20 lutego / 19

Statystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28

Statystyka. Wykład 10. Magdalena Alama-Bućko. 14 maja Magdalena Alama-Bućko Statystyka 14 maja / 31

Analiza współzależności dwóch cech II

Analiza współzależności dwóch cech I

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka. Wykład 5. Magdalena Alama-Bućko. 26 marca Magdalena Alama-Bućko Statystyka 26 marca / 40

Statystyka. Wykład 5. Magdalena Alama-Bućko. 20 marca Magdalena Alama-Bućko Statystyka 20 marca / 26

ANALIZA DWUZMIENNOWA. czyli ABC KOREALCJI

KURS STATYSTYKA. Lekcja 5 Analiza współzależności ZADANIE DOMOWE. Strona 1

Statystyka. Wykład 1. Magdalena Alama-Bućko. 26 lutego Magdalena Alama-Bućko Statystyka 26 lutego / 34

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

Wprowadzenie do technik analitycznych Metoda najmniejszych kwadratów

(x j x)(y j ȳ) r xy =

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona

4.2. Statystyczne opracowanie zebranego materiału

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

ANALIZA DWUZMIENNOWA. czyli ABC KOREALCJI

Statystyka. Wykład 2. Magdalena Alama-Bućko. 27 lutego Magdalena Alama-Bućko Statystyka 27 lutego / 39

Pojęcie korelacji. Korelacja (współzależność cech) określa wzajemne powiązania pomiędzy wybranymi zmiennymi.

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Statystyka. Wykład 10. Magdalena Alama-Bućko. 15 maja Magdalena Alama-Bućko Statystyka 15 maja / 32

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Statystyka. Wykład 11. Magdalena Alama-Bućko. 21 maja Magdalena Alama-Bućko Statystyka 21 maja / 31

Badanie zależności skala nominalna

X WYKŁAD STATYSTYKA. 14/05/2014 B8 sala 0.10B Godz. 15:15

ρ siła związku korelacyjnego brak słaba średnia silna bardzo silna

Wykład 7. Opis współzaleŝności zjawisk. 1. Wprowadzenie.

R-PEARSONA Zależność liniowa

ĆWICZENIE 11 NIEPARAMETRYCZNE TESTY ISTOTNOŚCI

KORELACJE I REGRESJA LINIOWA

Współczynniki korelacji czastkowej i wielorakiej STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 18 listopada 2017

PDF created with FinePrint pdffactory Pro trial version

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

Testy nieparametryczne

Badanie zależności pomiędzy zmiennymi

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

W1. Wprowadzenie. Statystyka opisowa

Statystyka matematyczna

ANALIZA KORELACJI I REGRESJI

Analiza korelacji

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

Matematyka z elementami statystyki

REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym.

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD EMPIRYCZNY

Testowanie hipotez statystycznych.

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Metodologia badań psychologicznych. Wykład 12. Korelacje

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

Wprowadzenie do analizy korelacji i regresji

ĆWICZENIE 11 ANALIZA KORELACJI I REGRESJI

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa

ANALIZA KORELACJI Korelacja między zmiennymi X i Y jest miarą siły liniowego związku między tymi zmiennymi.

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Temat: BADANIE NIEZALEśNOŚCI DWÓCH CECH JAKOŚCIOWYCH TEST CHI KWADRAT. Anna Rajfura 1

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Graficzna prezentacja danych statystycznych

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

Skalowanie wielowymiarowe idea

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Zmienna losowa dwuwymiarowa i korelacja

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Statystyka matematyczna

Wielkość dziennego obrotu w tys. zł. (y) Liczba ekspedientek (x) ,5 6,6

GRUPY NIEZALEŻNE Chi kwadrat Pearsona GRUPY ZALEŻNE (zmienne dwuwartościowe) McNemara Q Cochrana

Imię, nazwisko i tytuł/stopień KOORDYNATORA (-ÓW) kursu/przedmiotu zatwierdzającego protokoły w systemie USOS Jacek Marcinkiewicz, mgr

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt

Zadania ze statystyki cz.5 I rok socjologii miary związków między zmiennymi jakościowymi

Statystyka. Wykład 13. Magdalena Alama-Bućko. 12 czerwca Magdalena Alama-Bućko Statystyka 12 czerwca / 30

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

Wykład 12 Testowanie hipotez dla współczynnika korelacji

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

Transkrypt:

Statystyka Wykład 7 Magdalena Alama-Bućko 3 kwietnia 2017 Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 1 / 36

Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia miary zmienności miary asymetrii miary koncentracji. Analiza współzależności zjawisk. Analiza dynamiki zjawisk. Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 2 / 36

Celem analizy jest stwierdzenie, czy między badanymi zmiennymi zachodza jakieś zależności oraz jaka jest ich: siła np. słaba albo silna zależność postać ( dopasowanie funkcji reprezentujacej zależność ) kierunek (monotoniczność) czy wraz ze wzrostem jednej cechy, druga rośnie czy maleje? Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 3 / 36

Przedstawienie danych Dane (x i, y i ), i = 1, 2,..., n można przedstawić w postaci diagramów korelacyjnych i tabeli korelacyjnych. 1) diagram korelacyjny - to graficzne zaznaczenie na płaszczyźnie punktów (x i, y i ), i = 1, 2,..., n. 2) tablica korelacyjna albo tablica dwudzielcza Y y 1 y 2... y k Suma X x 1 n 11 n 12... n 1k n 1 x 2 n 21 n 22... n 2k n 2...... x r n r1 n r2... n rk n r Suma n 1 n 2... n k n Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 4 / 36

Z tabeli korelacyjnej można odczytać następujace rozkłady: 1) rozkłady brzegowe rozkład cechy X (wartości to kolumna pierwsza, liczebności : kolumna ostatnia) rozkład cechy Y (wartości to wiersz pierwszy, liczebności to wiersz ostatni) 2) rozkłady warunkowe - rozkład wartości danej cechy pod warunkiem, że druga cecha ma określona wartość Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 5 / 36

Procedura badania zależności między cechami zależy od typów tych cech. Moga być następujace sytuacje: obie cechy sa mierzalne (ilościowe) np. zależność wzrostu od wagi, wydatków od dochodów,... współczynnik korelacji liniowej Pearsona obie cechy sa niemierzalne (jakościowe) np. zależność wykształcenia od preferencji politycznych jedna cecha jest ilościowa i jedna jakościowa np. zależność zarobków od płci. Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 6 / 36

Współczynnik korelacji liniowej Pearsona dwie cechy ilościowe n 1 n (x i x)(y i y) x i y i x y n i=1 i=1 r XY = albo r XY = n s X s Y s X s Y gdzie x, y - średnie arytmetyczne danych x i y s X, s Y - odchylenia standardowe danych x = {x 1, x 2,..., x n } oraz y = {y 1, y 2,..., y n }. Dla danych zgrupowanych w tabeli korelacyjnej mamy: r XY = 1 n n ˆx i ŷ i n ij x y i=1 s X s Y. Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 7 / 36

Interpretacja Korelacja między X i Y niekoniecznie oznacza zwiazek przyczynowy między cechami!!! Np. X - liczba policjantów w pewnym mieście Y - liczba przestępstw w pewnym mieście możemy otrzymać wysoki dodatni współczynnik korelacji, ale oczywiście nie oznacza to zwiazku przyczynowo-skutkowego między tymi cechami :) Cecha, która bezpośrednio w sposób przyczynowy oddziałuje na te dwie cechy jest cecha : Z - wielkość miasta. Im większe miasto, tym więcej ludzi a zatem szans na dokonanie przestępstw. Im większe miasto, tym potrzebna większa liczba policjantów do zapewnienia porzadku. Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 8 / 36

Skrajne wartości r xy = 0, gdy brak współzależności (liniowej) Uwaga! - może istnieć zależność nieliniowa, np. kwadratowa r xy = 1 gdy zależność funkcyjna (korelacja doskonała), tzn. istnieja pewne stałe a i b takie, że wszystkie dane spełniaja warunek Y = ax + b Kierunek r xy < 0, gdy korelacja ujemna (, ) r xy > 0, gdy korelacja dodatnia (, ) Siła zależności r xy 0.2, praktycznie brak zwiazku liniowego pomiędzy badanymi cechami, 0, 2 < r xy 0, 4 - słaba zależność liniowa 0, 4 < r xy 0, 7 - zależność liniowa umiarkowana (przeciętna) 0, 7 < r xy 0, 9 - zależność liniowa znaczaca (wysoka) 0.9 < r xy 1 - bardzo silna ( bardzo wysoka) korelacja liniowa. Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 9 / 36

Poznaliśmy ostatnio następujacy współczynnik: współczynnik korelacji liniowej Pearsona dwie cechy ilościowe (mierzalne) Ponadto poznamy następujace współczynniki: współczynnik korelacji rang Spearmana dwie cechy ilościowe (mierzalne) jedna cecha ilościowa i jedna cecha jakościowa (porzadkowa) skorygowanego współczynnika kontyngencji współczynnika Czuprowa współczynnika zbieżności V-Cramera dwie cechy jakościowe jedna cecha ilościowa i jedna cecha jakościowa Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 10 / 36

Współczynnik determinacji współczynnik determinacji liniowej r 2 = r 2 xy podaje, jaka część zmienności cechy zależnej jest wyjaśniona zmiennościa cechy niezależnej. ułamek [0, 1] procent: 0% 100% Jeśli r xy = 0.5, to r 2 = 0.25 = 25% co oznacza, że 25% zmian wartości zmiennej objaśnianej jest wyjaśnione przez zmianę wartości zmiennej objaśniajacej. współczynnik indeterminacji φ 2 = 1 r 2 podaje, jaka część zmienności cechy zależnej nie może być wyjaśniona zmiennościa cechy niezależnej. Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 11 / 36

Zadania z Wykładu 6 Zadanie 1 Zaobserwowano następujace wartości wieku mężczyzn (X) i kobiet (Y) zawierajacych zwiazek małżeński (w latach). X 22 21 30 18 28 Y 26 22 29 22 25 r xy = 0.8239 wysoka dodatnia korelacja między wiekiem kobiet i mężczyzn zmienna niezależna: wiek mężczyzny, zmienna zależna : wiek kobiety (ale odwrotnie też może być) r = r 2 xy = 0.8239 2 = 0.6788 zatem 68% zmian wieku mężczyzn bioracych ślub jest wyjaśniane przez zmianę wieku kobiety Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 12 / 36

Zadania z Wykładu 6 Zadanie 2 Zbadano zależność między stażem pracy (X), a wydajnościa pracownika (Y) w dużym przedsiębiorstwie. Wylosowano w sposób niezależny stu pracowników. Staż Liczba sztuk na godzinę 10 20 20 30 30 40 40 50 0 2 15 5 2 4 10 10 5 4 6 10 10 5 6 8 10 5 8 10 5 10 r xy = 0.802. silna dodatnia korelacja pomiędzy stażem pracy a wydajnościa pracownika zmienna niezależna : staż, zmienna zależna : wydajność r = rxy 2 = 0.802 2 = 0.643 zatem 64% zmian wartości wydajności pracy jest wyjaśniane przez zmianę wieku pracownika Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 13 / 36

Współczynnik korelacji rang Spearmana dwie cechy ilościowe dwie cechy jakościowe, ale w skali porzadkowej (tzn. cechy posiadaja pewien naturalny porzadek pozwalajacy uporzadkować je rosnaco lub malejaco) badamy czy istnieje monotoniczna zależność między cechami i określamy jej siłę nie musi być to korelacja liniowa! n 6 r s = 1 i=1 d 2 i n 3 n d 1, d 2,..., d n - rangi wyznaczone na podstawie n par obserwacji Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 14 / 36

Własności wartości w przedziale [ 1, 1] im bliższy do 1 albo 1 tym zwiazek silniejszy współczynnik bada zgodność uporzadkowania cech wartość dodatnia oznacza uporzadkowanie zgodne (, ) wartość ujemna oznacza uporzadkowanie przeciwne (, ) interpretacja siły taka jak dla współczynnika korelacji Pearsona Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 15 / 36

Jak obliczyć rangi d i? porzadkujemy obserwacje względem każdej cechy ( od najmniejszej do największej) kolejnym uporzadkowanym wartościom cech przyporzadkowujemy rangi ( czyli numerujemy od 1 do n) jeśli kilka obserwacji ma tę sama wartość, to rangi uśredniamy d i = r xi r yi to różnice między kolejnymi rangami d i = 0 oznacza, że obie obserwacje x i i y i zajmuja w odpowiednich uporzadkowanych ciagach te same wartości Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 16 / 36

Przykład 1 Wyliczymy r s dla danych z zadania 1. X 22 21 30 18 28 Y 26 22 29 22 25 Porzadkujemy wartości cechy X: (22, 21, 30, 18, 28) (18, 21, 22, 28, 30) r xi na jakiej pozycji w uporzadkowanym ciagu znajduje się i ta obserwacja cechy X r x1 = 3, r x2 = 2, r x3 = 5, r x4 = 1, r x5 = 4. Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 17 / 36

Przykład 1 Wyliczymy r s dla danych z zadania 1. X 22 21 30 18 28 Y 26 22 29 22 25 Porzadkujemy wartości cechy Y : (26, 22, 29, 22, 25) (22, 22, 25, 26, 29) r yi na jakiej pozycji w uporzadkowanym ciagu znajduje się i ta obserwacja cechy Y r y1 = 4, r y2 = 1, r y3 = 5, r y4 = 2, r y5 = 3. ponieważ obserwacja druga i czwarta sa równe oraz r y2 = 1 i r y4 = 2, to uśredniamy ich rangi: r y2 = r y5 = 1 + 2 2 = 1.5 Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 18 / 36

X Y r x r y d i = r x r y di 2 22 26 3 4 1 1 21 22 2 1,5 0.5 0.25 30 29 5 5 0 0 18 22 1 1,5 0.5 0.25 28 25 4 3 1 1 suma= 2, 5 n i=1 d 2 i = 2, 5 6 n di 2 i=1 n 3 n = 1 6 2, 5 r s = 1 5 3 5 = 1 15 = 1 0, 125 = 0.875. 120 oznacza to silna zależność między cechami przypomnijmy, że r xy = 0.8239 Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 19 / 36

Współczynniki oparte na statystyce χ 2 dwie cechy jakościowe jedna cecha jakościowa i jedna ilościowa Siłę zależności takich cech można określić za pomoca: skorygowanego współczynnika kontyngencji C skor współczynnika Czuprowa T xy współczynnika zbieżności V-Cramera V c. Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 20 / 36

Własności Wszystkie współczynniki wyrażaja się przez statystykę χ 2 Współczynniki te przyjmuja wartości z przedziału [0; 1] im wartość bliższa 1, tym zależność jest silniejsza im wartość bliższa 0, tym zależność słabsza. Interpretacja : wartość < 0.3 : słaby zwiazek wartość < 0.5 : umiarkowany zwiazek wartość > 0.5 : silny zwiazek Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 21 / 36

X r wariantów (czyli tabela korelacyjna ma r wierszy) Y k wariantów (czyli tabela korelacyjna ma k kolumn) Procedura wyliczenia statystyki χ 2 : Dla każdego pola w tabeli wyliczamy liczebności teoretyczne, tzn. ˆn ij = n i n j, n gdzie n i oznacza liczebność cechy x i, a n j oznacza liczebność cechy y j. wyliczamy wartość statystyki χ 2 : χ 2 = i (n ij ˆn ij ) 2 ˆn ij j = i j n 2 ij ˆn ij n Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 22 / 36

χ 2 = i (n ij ˆn ij ) 2 ˆn ij j = i j n 2 ij ˆn ij n Uwaga dane powinny być tak pogrupowane tak, by ˆn ij 5 χ 2 = 0 gdy wszystkie liczebności teoretyczne i zaobserwowane sa takie same. Wówczas cechy sa niezależne. χ 2 xy = χ 2 yx Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 23 / 36

Przykład 2 Wyznaczyć wartość χ 2 dla następujacych danych: X oczywiście n = 100 przyjmujemy oznaczenia : Y 0 1 0 10 20 1 40 30 n 00 = 10, n 01 = 20 n 10 = 40, n 11 = 30 Dla każdego pola w tabeli wyliczamy liczebności teoretyczne, tzn. ˆn ij = n i n j, i, j = 0, 1 n gdzie n i oznacza liczebność cechy x i, a n j oznacza liczebność cechy y j. Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 24 / 36

sumujemy liczebności w wierszach i kolumnach: Y 0 1 Suma X 0 10 20 n 0 = 30 1 40 30 n 1 = 70 Suma n 0 = 50 n 1 = 50 n = 100 wyliczamy liczebności teoretyczne: ˆn 00 = n 0 n 0 n ˆn 01 = n 0 n 1 n ˆn 10 = n 1 n 0 n ˆn 11 = n 1 n 1 n = = = = 30 50 100 = 15 30 50 100 = 15 70 50 100 = 35 70 50 100 = 35 Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 25 / 36

musimy wyliczyć (n ij ˆn ij ) 2 χ 2 = i w tabeli korelacyjnej wpisujemy w odpowiednich komórkach wyliczone liczebności teoretyczne (czyli ˆn ij ) j Y 0 1 Suma X 0 10 (15) 20 (15) n 0 = 30 1 40 (35) 30 (35) n 1 = 70 Suma n 0 = 50 n 1 = 50 n = 100 ˆn ij χ 2 = (10 15)2 15 + (20 15)2 15 + (40 35)2 35 = 25 15 + 25 15 + 25 35 + 25 35 = 4.762. + (30 35)2 35 Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 26 / 36

Skorygowany współczynnik kontyngencji χ 2 C = χ 2 + n, r 1 k 1 + C max = r k 2 C skor = C C max, χ 2 = r i=1 j=1 k (n ij ˆn ik ) 2 ˆn ik, ˆn ik = n i n j n r liczba wierszy, k liczba kolumn, n liczebność próby Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 27 / 36

Skorygowany współczynnik kontyngencji Przykład 2 - c.d k = 2 liczba kolumn r = 2 liczba wierszy n = 100 χ 2 = 4.762 χ 2 4.762 C = χ 2 + n = 4.762 + 100 = 0.213. r 1 k 1 1 1 1 + C max = r k = 2 + 2 2 = 2 2 2 2 C skor = C = 0.213 C max 0.707 = 0.301. oznacza słaby zwiazek między cechami = 1 2 = 0.707 Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 28 / 36

współczynnik Czuprowa T xy = χ 2 n (r 1)(k 1) χ 2 = r i=1 j=1 k (n ij ˆn ik ) 2 ˆn ik, ˆn ik = n i n j n r liczba wierszy, k liczba kolumn, n liczebność próby T xy = T yx Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 29 / 36

współczynnik Czuprowa Przykład 2- c.d. k = 2 liczba kolumn r = 2 liczba wierszy n = 100 χ 2 = 4.762 χ T xy = 2 n (r 1)(k 1) = = 0.04762 = 0.218. 4.762 100 1 1 = oznacza słaby zwiazek między cechami 4.762 100 Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 30 / 36

współczynnik zbieżności V-Cramera χ V c = 2 n g gdzie g = min{r 1, k 1}. χ 2 = r i=1 j=1 k (n ij ˆn ik ) 2 ˆn ik, ˆn ik = n i n j n r liczba wierszy, k liczba kolumn, n liczebność próby Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 31 / 36

Jeżeli k = r czyli macierz korelacji ma tyle samo wierszy co kolumn, to współczynnik zbieżności V-Cramera jest równoważny współczynnikowi Czuprowa, czyli bo V c = T xy dla g = min{r 1, k 1} = min{r 1, r 1} = min{r 1} = r 1 mamy χ V c = 2 n g = χ 2 n (r 1) oraz χ T xy = 2 n (r 1)(k 1) = χ 2 n (r 1)(r 1) = χ 2 n(r 1). Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 32 / 36

współczynnik zbieżności V-Cramera Przykład 2- c.d. k = 2 liczba kolumn r = 2 liczba wierszy n = 100 χ 2 = 4.762 Jeżeli g = min{r 1, k 1} to χ V c = 2 n g g = min{r 1, k 1} = min{2 1, 2 1} = min{1, 1} = 1 4.762 V c = 100 1 = 0.218 oznacza słaby zwiazek między cechami Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 33 / 36

Zadanie Niech X oznacza płeć studentów a Y - rodzaj studiów (stacjonarne/niestacjonarne). Dane z 2013 roku ( źródło: bdl) wygladaj a następujaco: Studia Stacjonarne Niestacjonarne K 499195 158408 Płeć M 360579 132677 Zbadać, czy rodzaj trybu podejmowanych studiów zależy od płci? Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 34 / 36

Wszystkie wyliczone wskaźniki wskazuja na brak zależności między płcia a rodzajem wybieranego trybu studiów. Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 35 / 36

Dziękuję za uwagę! Magdalena Alama-Bućko Statystyka 3 kwietnia 2017 36 / 36