STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

Podobne dokumenty
Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Statystyka. Wykład 7. Magdalena Alama-Bućko. 3 kwietnia Magdalena Alama-Bućko Statystyka 3 kwietnia / 36

Analiza Współzależności

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

Analiza współzależności zjawisk

Korelacja krzywoliniowa i współzależność cech niemierzalnych

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Statystyka. Wykład 9. Magdalena Alama-Bućko. 7 maja Magdalena Alama-Bućko Statystyka 7 maja / 40

Analiza współzależności dwóch cech I

Analiza współzależności dwóch cech II

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona

Miary asymetrii STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018

Współczynniki korelacji czastkowej i wielorakiej STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 18 listopada 2017

Wykład 7. Opis współzaleŝności zjawisk. 1. Wprowadzenie.

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

(x j x)(y j ȳ) r xy =

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

ĆWICZENIE 11 NIEPARAMETRYCZNE TESTY ISTOTNOŚCI

ANALIZA DWUZMIENNOWA. czyli ABC KOREALCJI

ĆWICZENIE 11 ANALIZA KORELACJI I REGRESJI

Miary zmienności STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018

Pojęcie korelacji. Korelacja (współzależność cech) określa wzajemne powiązania pomiędzy wybranymi zmiennymi.

KORELACJE I REGRESJA LINIOWA

Statystyka. Wykład 6. Magdalena Alama-Bućko. 9 kwietnia Magdalena Alama-Bućko Statystyka 9 kwietnia / 36

ρ siła związku korelacyjnego brak słaba średnia silna bardzo silna

Badanie zależności skala nominalna

X WYKŁAD STATYSTYKA. 14/05/2014 B8 sala 0.10B Godz. 15:15

Matematyka z elementami statystyki

Wprowadzenie do analizy korelacji i regresji

4.2. Statystyczne opracowanie zebranego materiału

PDF created with FinePrint pdffactory Pro trial version

KURS STATYSTYKA. Lekcja 5 Analiza współzależności ZADANIE DOMOWE. Strona 1

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

ANALIZA DWUZMIENNOWA. czyli ABC KOREALCJI

Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Badanie zależności pomiędzy zmiennymi

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Temat: BADANIE NIEZALEśNOŚCI DWÓCH CECH JAKOŚCIOWYCH TEST CHI KWADRAT. Anna Rajfura 1

Podstawowe pojęcia statystyczne

Graficzna prezentacja danych statystycznych

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Statystyka opisowa. Wykład VI. Analiza danych jakośiowych

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

POJĘCIA WSTĘPNE. STATYSTYKA - nauka traktująca o metodach ilościowych badania prawidłowości zjawisk (procesów) masowych.

Statystyka matematyczna i ekonometria

R-PEARSONA Zależność liniowa

Sposoby prezentacji problemów w statystyce

Metodologia badań psychologicznych. Wykład 12. Korelacje

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

STATYSTYKA MATEMATYCZNA

ANALIZA KORELACJI Korelacja między zmiennymi X i Y jest miarą siły liniowego związku między tymi zmiennymi.

Statystyka w pracy badawczej nauczyciela

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

W1. Wprowadzenie. Statystyka opisowa

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Zmienna losowa dwuwymiarowa i korelacja

Zadania ze statystyki cz.5 I rok socjologii miary związków między zmiennymi jakościowymi

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

WYŻSZA SZKOŁA MENEDŻERSKA W WARSZAWIE WYDZIAŁ ZARZĄDZANIA W CIECHANOWIE KARTA PRZEDMIOTU - SYLABUS

Statystyka. Wykład 5. Magdalena Alama-Bućko. 26 marca Magdalena Alama-Bućko Statystyka 26 marca / 40

Próba własności i parametry

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Testowanie hipotez statystycznych.

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

1 Podstawy rachunku prawdopodobieństwa

Wykład ze statystyki. Maciej Wolny

Księgarnia PWN: George A. Ferguson, Yoshio Takane - Analiza statystyczna w psychologii i pedagogice

Wprowadzenie Pojęcia podstawowe Szeregi rozdzielcze STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP.

Rozkłady dwóch zmiennych losowych

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Policealna Szkoła Handlowa Rok I Wymiar godzin: 30 jednostek dydaktycznych Nr programu nauczania: 341(06)/SP/MEN/ (technik rachunkowości)

Spis treści 3 SPIS TREŚCI

Rok akademicki: 2013/2014 Kod: ZIE n Punkty ECTS: 6. Poziom studiów: Studia I stopnia Forma i tryb studiów: -

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

Badania eksperymentalne

POLITECHNIKA OPOLSKA

Miary koncentracji STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 28 września 2018

Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

Estymacja punktowa i przedziałowa

REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym.

Badania Statystyczne

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

Rozkład normalny Parametry rozkładu zmiennej losowej Zmienne losowe wielowymiarowe

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

STATYSTYKA wykłady. L.Gruszczyński Elementy statystyki dla socjologów Dr. Pactwa pon. i wtorek 09:30 11:00 (pok. 217) I. (08.X)

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

Transkrypt:

STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 12 listopada 2017

1 Analiza współzależności dwóch cech 2

Jednostka zbiorowości - para (X,Y ). Przy badaniu korelacji nie ma znaczenia, która cechę przyjmiemy za X, a która za Y. Rozróżnienie to jest istotne w analizie regresji.

Badanie zwiazków między cechami ma sens tylko wtedy, gdy występuje między nimi więź przyczynowo-skutkowa, dlatego analiza korelacji powinna być zawsze poprzedzona analiza merytoryczna problemu.

Celem analizy korelacji jest stwierdzenie: czy między badanymi cechami występuje współzależność, jaki jest kształt zależności (liniowa, nieliniowa), jaka jest jej siła, jaki jest jej kierunek. Ponieważ od oceny kształtu zależności zależy wybór właściwej miary korelacji, najpierw ocenia się kształt zależności, a dopiero potem stosujac odpowiednie miary, określa się siłę i kierunek tej zależności.

Wyróżniamy dwa rodzaje współzależności: funkcyjna - konkretnej wartości jednej zmiennej odpowiada tylko jedna, ściśle określona wartość drugiej zmiennej; statystyczna (stochastyczna) - konkretnej wartości jednej zmiennej odpowiada wiele różnych wartości drugiej zmiennej. Szczególnym przypadkiem zależności statystycznej jest współzależność korelacyjna, kiedy określonym wartościom jednej zmiennej odpowiadaja ściśle określone, lecz różne średnie wartości drugiej zmiennej.

Prezentacja graficzna danych: szereg korelacyjny dwuwymiarowy szereg szczegółowy diagram korelacyjny przedstawienie punktów (x i,y i ) w układzie współrzędnych tablica korelacyjna tabela dla danych pogrupowanych

Prezentacja graficzna danych: szereg korelacyjny dwuwymiarowy szereg szczegółowy diagram korelacyjny przedstawienie punktów (x i,y i ) w układzie współrzędnych tablica korelacyjna tabela dla danych pogrupowanych

Prezentacja graficzna danych: szereg korelacyjny dwuwymiarowy szereg szczegółowy diagram korelacyjny przedstawienie punktów (x i,y i ) w układzie współrzędnych tablica korelacyjna tabela dla danych pogrupowanych

Diagram korelacyjny pozwala ocenić, czy między badanymi cechami istnieje zależność (korelacja), o jakiej sile, kierunku i kształcie: siła zależności oceniamy na podstawie rozrzutu punktów na wykresie; niewielki rozrzut wskazuje na duża siłę zwiazku, im punkty bardziej rozrzucone, tym zwiazek jest słabszy; kierunek zależności korelacja dodatnia lub ujemna (tylko dla cech wyrażonych w skali co najmniej porzadkowej) kształt zależności postać funkcji matematycznej opisujacej zwiazek między badanymi cechami; korelacja liniowa lub krzywoliniowa.

Diagram korelacyjny pozwala ocenić, czy między badanymi cechami istnieje zależność (korelacja), o jakiej sile, kierunku i kształcie: siła zależności oceniamy na podstawie rozrzutu punktów na wykresie; niewielki rozrzut wskazuje na duża siłę zwiazku, im punkty bardziej rozrzucone, tym zwiazek jest słabszy; kierunek zależności korelacja dodatnia lub ujemna (tylko dla cech wyrażonych w skali co najmniej porzadkowej) kształt zależności postać funkcji matematycznej opisujacej zwiazek między badanymi cechami; korelacja liniowa lub krzywoliniowa.

Diagram korelacyjny pozwala ocenić, czy między badanymi cechami istnieje zależność (korelacja), o jakiej sile, kierunku i kształcie: siła zależności oceniamy na podstawie rozrzutu punktów na wykresie; niewielki rozrzut wskazuje na duża siłę zwiazku, im punkty bardziej rozrzucone, tym zwiazek jest słabszy; kierunek zależności korelacja dodatnia lub ujemna (tylko dla cech wyrażonych w skali co najmniej porzadkowej) kształt zależności postać funkcji matematycznej opisujacej zwiazek między badanymi cechami; korelacja liniowa lub krzywoliniowa.

Diagram korelacyjny pozwala ocenić, czy między badanymi cechami istnieje zależność (korelacja), o jakiej sile, kierunku i kształcie: siła zależności oceniamy na podstawie rozrzutu punktów na wykresie; niewielki rozrzut wskazuje na duża siłę zwiazku, im punkty bardziej rozrzucone, tym zwiazek jest słabszy; kierunek zależności korelacja dodatnia lub ujemna (tylko dla cech wyrażonych w skali co najmniej porzadkowej) kształt zależności postać funkcji matematycznej opisujacej zwiazek między badanymi cechami; korelacja liniowa lub krzywoliniowa.

Tablica korelacyjna Dla cech skokowych lub jakościowych Cecha Y Cecha X y 1 y 2... y l Ogółem x 1 n 11 n 12... n 1l n 1 x 2 n 21 n 22... n 2l n 2.................. x k n k1 n k2... n kl n k Ogółem n 1 n 2... n l n

Tablica korelacyjna Dla cech ciagłych Cecha Y Cecha X (y 0,y 1 ) (y 1,y 2 )... (y l 1,y l ) Ogółem (x 0,x 1 ) n 11 n 12... n 1l n 1 (x 1,x 2 ) n 21 n 22... n 2l n 2.................. (x k 1,x k ) n k1 n k2... n kl n k Ogółem n 1 n 2... n l n

Rozkład brzegowy cechy X Rozkład brzegowy to rozkład jednej cechy niezależnie od tego, jaka wartość przyjmuje druga cecha. Cecha Y Cecha X (y 0,y 1 ) (y 1,y 2 )... (y l 1,y l ) liczebność (x 0,x 1 ) n 11 n 12... n 1l n 1 (x 1,x 2 ) n 21 n 22... n 2l n 2.................. (x k 1,x k ) n k1 n k2... n kl n k Ogółem n 1 n 2... n l n

Rozkład brzegowy cechy Y Cecha Y Cecha X (y 0,y 1 ) (y 1,y 2 )... (y l 1,y l ) Ogółem (x 0,x 1 ) n 11 n 12... n 1l n 1 (x 1,x 2 ) n 21 n 22... n 2l n 2.................. (x k 1,x k ) n k1 n k2... n kl n k liczebność n 1 n 2... n l n

Rozkład warunkowy Rozkład warunkowy to rozkład jednej cechy pod warunkiem, że druga cecha przyjmuje określona wartość. Rozkład X pod warunkiem y (y 1,y 2 ) Cecha Y Cecha X (y 0,y 1 ) (y 1,y 2 )... (y l 1,y l ) Ogółem (x 0,x 1 ) n 11 n 12... n 1l n 1 (x 1,x 2 ) n 21 n 22... n 2l n 2.................. (x k 1,x k ) n k1 n k2... n kl n k Ogółem n 1 n 2... n l n

Rozkład warunkowy Rozkład Y pod warunkiem x (x 1,x 2 ) Cecha Y Cecha X (y 0,y 1 ) (y 1,y 2 )... (y l 1,y l ) Ogółem (x 0,x 1 ) n 11 n 12... n 1l n 1 (x 1,x 2 ) n 21 n 22... n 2l n 2.................. (x k 1,x k ) n k1 n k2... n kl n k Ogółem n 1 n 2... n l n

Współczynnik korelacji liniowej Pearsona Współczynnik korelacji liniowej Pearsona stosujemy wtedy, gdy zwiazek badanych cech jest liniowy. Wzór: r = cov(x,y ) S X S Y, gdzie cov(x,y ) oznacza kowariancję cech X i Y, a S X - odch. stand. zmiennej X, S Y - odch. stand. zmiennej Y.

Współczynnik korelacji liniowej Pearsona Własności: współczynnik r jest miara symetryczna, tzn. jego wartość nie zależy od tego, czy badamy nim zależność cechy X od cechy Y, czy odwrotnie, r [ 1,1], znak r, który jest zgodny ze znakiem kowariancji, informuje o kierunku korelacji: (i) r > 0 korelacja dodatnia (wzrost wartości jednej cechy pociaga za soba wzrost średnich wartości drugiej cechy), (ii) r < 0 korelacja ujemna (wzrost wartości jednej cechy pociaga za soba spadek średnich wartości drugiej cechy), siła korelacji:

Współczynnik korelacji liniowej Pearsona siła korelacji: (i) r [0,0.2) bardzo słaby zwiazek liniowy (praktycznie brak zwiazku), (ii) r [0.2,0.4) słaby zw. lin., (iii) r [0.4,0.6) umiarkowany zw. lin., (iv) r [0.6,0.8) silny zw. lin., (v) r [0.8,1) bardzo silny zw. lin., (vi) r = 1 zależność funkcyjna (na wykresie punkty empiryczne układaja się idealnie na linii prostej).

Wyznaczanie współczynnika korelacji liniowej Pearsona Wyznaczanie współczynnika korelacji liniowej Pearsona dla DANYCH INDYWIDUALNYCH (W POSTACI SZEREGU KORELACYJNEGO) cov(x,y ) = 1 n n i=1(x i x)(y i y) = 1 n n i=1 x i y i xy Uwaga: kowariancja jest wielkościa mianowana (np. lata cm), więc z powodu jej nienaturalnych jednostek miary nie interpretuje się jej. Jej znaczenie polega na tym, że jej znak informuje nas o kierunku korelacji.

Wyznaczanie współczynnika korelacji liniowej Pearsona Odchylenia standardowe S X i S Y obliczamy zgodnie ze wzorami: n n 1 S X = (x i x) n 2 1 = x 2 n i x 2 oraz S Y = 1 n i=1 n i=1 (y i y) 2 = 1 n i=1 n i=1 y 2 i y 2.

Wyznaczanie współczynnika korelacji liniowej Pearsona Wyznaczanie współczynnika korelacji liniowej Pearsona dla DANYCH POGRUPOWANYCH cov(x,y ) = 1 n r k i=1 j=1 (xi 0 x)(yj 0 y)n ij = 1 n r k i=1 j=1 x 0 i y 0 j n ij xy, gdzie xi 0 środek i-tego przedziału cechy X (w przypadku, gdy szereg dla cechy X jest punktowy w miejsce xi 0 wstawiamy x i oznaczajacy i-ty wariant cechy X), podobnie dla yj 0, zaś n ij to liczebność w kratce tablicy leżacej na przecięciu i-tego wiersza i j-tej kolumny.

Wyznaczanie współczynnika korelacji liniowej Pearsona Odchylenia standardowe S X i S Y obliczamy zgodnie ze wzorami: r 1 S X = (x 0 r n i x) 2 1 n i = (x 0 n i ) 2 n i x 2, i=1 i=1 gdzie n i suma liczebności w wierszach (liczebność brzegowa w rozkładzie cechy X) oraz S Y = 1 n k j=1 (yj 0 y) 2 n j = 1 n k j=1 (yj 0 ) 2 n j y 2, gdzie n j suma liczebności w kolumnach (liczebność brzegowa w rozkładzie cechy Y ).

Współczynnik korelacji rang Spearmana Współczynnik korelacji rang Spearmana, zwany też współczynnikiem korelacji kolejnościowej, stosujemy do oceny kierunku i siły korelacji w przypadku, gdy: cechy sa niemierzalne, ale istnieje możliwość uporzadkowania wariantów cechy (czyli cechy te sa wyrażone w skali porzadkowej), cechy s a mierzalne, przy czym liczba wariantów przyjmowanych przez te cechy musi być skończona.

Współczynnik korelacji rang Spearmana Najpierw poszczególnym wariantom obu cech nadaje się rangi, czyli numery od 1 do n, które pozwalaja uporzadkować ciag obserwacji (rosnaco lub malejaco). Takie tworzenie rankingu cech nazywamy rangowaniem. Uwaga 1: sposób rangowania musi być jednakowy dla obu cech (tj. dla obu cech w kolejności rosnacej lub dla obu cech w kolejności malejacej). Uwaga 2: w przypadku, gdy dana wartość (dany wariant) występuje wielokrotnie, wówczas wartościom tym nadajemy tę sama rangę równa średniej arytmetycznej kolejnych numerów pozycji, na których stoja te jednakowe wartości (sa to tzw. rangi wiazane).

Współczynnik korelacji rang Spearmana Cecha X Cecha Y Ranga X Ranga Y x 1 y 1 1 1 x 2 y 2 2 3 x 3 y 3 3,5 4 x 4 y 4 3,5 2 x 5 y 5 5 5....

Współczynnik korelacji rang Spearmana Wzór: 6 r s = 1 n(n 2 1) n i=1 d 2 i, gdzie n to liczba obserwacji jednej z cech, d i różnica między rangami, które sa przypisane i-tej obserwacji pierwszej i drugiej cechy.

Współczynnik korelacji rang Spearmana WŁASNOŚCI: współczynnik korelacji rang Spearmana r s jest miara symetryczna, korelacja rang jest niewrażliwa na obserwacje odstajace (które moga zaburzyć wartość współczynnika korelacji liniowej Pearsona), r s [ 1,1],

Współczynnik korelacji rang Spearmana znak informuje o kierunku współzależności między badanymi cechami: (i) r s > 0 korelacja dodatnia (występuje zgodność rang, czyli wyższym rangom jednej cechy odpowiadaja na ogół wyższe rangi drugiej cechy), (ii) r s = 1 idealna zgodność rang, (iii) r s = 0 brak korelacji, (iv) r s < 0 korelacja ujemna (występuje niezgodność rang, czyli wyższym rangom jednej cechy odpowiadaja na ogół niższe rangi drugiej cechy), (v) r s = 1 idealna niezgodność rang,

Współczynnik korelacji rang Spearmana siła korelacji (i) r s [0,0.2) bardzo słaba współzależność (praktycznie brak zwiazku), (ii) r s [0.2,0.4) słaba współzależność, (iii) r s [0.4,0.6) umiarkowana współzależność, (iv) r s [0.6,0.8) silna współzależność, (v) r s [0.8,1) bardzo silna współzależność. PRZYKŁAD.

- cechy jakościowe Jeżeli co najmniej jedna z cech jest cecha jakościowa typu nominalnego, to nie ma możliwości nadania rang. Wówczas korzystamy z tzw. współczynników kontyngencji (inaczej: zbieżności korelacyjnej). Należa do nich: współczynnik ϕ Yule a, współczynnik T Czuprowa, współczynnik V Cramera, współczynnik kontyngencji P Pearsona, współczynnik Q Kendalla (tylko do pomiaru cech dychotomicznych).

- cechy jakościowe Wszystkie współczynniki kontyngencji oparte sa na tzw. statystyce χ 2 (chi-kwadrat): χ 2 ϕ = n, T = χ 2 n (r 1)(k 1), χ V = 2 n min(r 1,k 1), P = χ 2 χ 2 + n.

- cechy jakościowe Własności współczynników ϕ,t,v,p: sa symetryczne, sa zawsze nieujemne, nie informuja o kierunku korelacji, ϕ,t,v,p [0,1] (na ogół; może się zdarzyć, że niektóre z nich przyjma wartość większa niż 1), informuja o sile korelacji: (i) 0 0.2 bardzo słaba współzależność (praktycznie brak zwiazku), (ii) 0.2 0.4 słaba współzależność, (iii) 0.4 0.6 umiarkowana współzależność, (iv) 0.6 0.8 silna współzależność, (v) 0.8 1 bardzo silna współzależność.

Statystyka χ 2 Statystykę χ 2 obliczamy według wzoru: χ 2 = r k i=1 j=1 (n ij nij t )2, gdzie n ij liczebności w poszczególnych kratkach tablicy kontyngencji, tzw. liczebności empiryczne (zaobserwowane w próbie), nij t liczebności teoretyczne (sa to takie liczebności, jakie powinny wystapić w poszczególnych kratkach tablicy, gdyby między badanymi cechami nie istniała zależność). n t ij

Statystyka χ 2 Liczebności teoretyczne obliczamy według wzoru: nij t = n i n j, n gdzie n i suma liczebności z wiersza, n j suma liczebności z kolumny, n liczebność zbiorowości.

Statystyka χ 2 Istota obliczania charakterystyki χ 2 jest porównanie liczebności zaobserwowanych n ij z liczebnościami teoretycznymi nij t, czyli takimi, których należałoby oczekiwać, gdyby cechy były niezależne. Jeżeli okaże się, że liczebności zaobserwowane sa bardzo bliskie liczebnościom teoretycznym wówczas można przypuszczać, że badane cechy sa niezależne. Natomiast im bardziej liczebności zaobserwowane różnia się od teoretycznych, tym większa jest wartość statystyki χ 2 i zwiazek badanych cech jest silniejszy. PRZYKŁAD

Statystyka χ 2 Dla cech dychotomicznych tablica kontyngencji jest tablica czteropolowa. Cecha Y Cecha X y 1 y 2 x 1 a b x 2 c d Po dość żmudnych obliczeniach otrzymujemy wzór na statystykę χ 2 : χ 2 = n(ad bc) 2 (a + b)(a + c)(b + d)(c + d), który możemy stosować, jeśli wszystkie a,b,c,d 5.

Statystyka χ 2 Jeżeli warunek ten nie jest spełniony, tzn. gdy którakolwiek z wartości a,b,c,d < 5, wówczas do powyższego wzoru wprowadzamy tzw. poprawkę Yatesa: χ 2 = n( ad bc 0,5n) 2 (a + b)(a + c)(b + d)(c + d).

Statystyka χ 2 W przypadku tablic czteropolowych możemy obliczyć WSPÓŁCZYNNIK Q KENDALLA: Q = ad bc ad + bc. Współczynnik Q Kendalla może przyjmować wartości ujemne (ale nie oznacza to, że korelacja jest ujemna; żaden ze współczynników kontyngencji nie wskazuje kierunku korelacji).

Statystyka χ 2 Własności współczynnika Q Kendalla: Q [ 1,1], jest symetryczny, nie informuje o kierunku korelacji, siła korelacji: Q [0, 0.2) bardzo słaba współzależność (praktycznie brak zwiazku), Q [0.2, 0.4) słaba współzależność, Q [0.4, 0.6) umiarkowana współzależność, Q [0.6, 0.8) silna współzależność, Q [0.8, 1] bardzo silna współzależność. PRZYKŁAD.