Analiza współzależności dwóch cech II

Podobne dokumenty
STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Statystyka. Wykład 7. Magdalena Alama-Bućko. 3 kwietnia Magdalena Alama-Bućko Statystyka 3 kwietnia / 36

Analiza współzależności dwóch cech I

Analiza Współzależności

Statystyka. Wykład 9. Magdalena Alama-Bućko. 7 maja Magdalena Alama-Bućko Statystyka 7 maja / 40

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Analiza współzależności zjawisk

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Korelacja krzywoliniowa i współzależność cech niemierzalnych

(x j x)(y j ȳ) r xy =

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

4.2. Statystyczne opracowanie zebranego materiału

REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym.

Wielkość dziennego obrotu w tys. zł. (y) Liczba ekspedientek (x) ,5 6,6

KORELACJE I REGRESJA LINIOWA

Badanie zależności skala nominalna

Wprowadzenie do analizy korelacji i regresji

X WYKŁAD STATYSTYKA. 14/05/2014 B8 sala 0.10B Godz. 15:15

Pojęcie korelacji. Korelacja (współzależność cech) określa wzajemne powiązania pomiędzy wybranymi zmiennymi.

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

Wykład z dnia 8 lub 15 października 2014 roku

KURS STATYSTYKA. Lekcja 5 Analiza współzależności ZADANIE DOMOWE. Strona 1

ĆWICZENIE 11 NIEPARAMETRYCZNE TESTY ISTOTNOŚCI

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Analiza korelacji

ρ siła związku korelacyjnego brak słaba średnia silna bardzo silna

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Zadania ze statystyki cz.5 I rok socjologii miary związków między zmiennymi jakościowymi

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona

PDF created with FinePrint pdffactory Pro trial version

Statystyka opisowa Opracował: dr hab. Eugeniusz Gatnar, prof. WSBiF

R-PEARSONA Zależność liniowa

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

ANALIZA KORELACJI Korelacja między zmiennymi X i Y jest miarą siły liniowego związku między tymi zmiennymi.

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

ĆWICZENIE 11 ANALIZA KORELACJI I REGRESJI

Analiza struktury i przeciętnego poziomu cechy

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Temat: Badanie niezależności dwóch cech jakościowych test chi-kwadrat

Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych

Współczynniki korelacji czastkowej i wielorakiej STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 18 listopada 2017

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

POLITECHNIKA OPOLSKA

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

ANALIZA DWUZMIENNOWA. czyli ABC KOREALCJI

Testy nieparametryczne

t y x y'y x'x y'x x-x śr (x-x śr)^2

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Statystyka opisowa. Wykład VI. Analiza danych jakośiowych

Wykład 2. Statystyka opisowa - Miary rozkładu: Miary położenia

Wykład 7. Opis współzaleŝności zjawisk. 1. Wprowadzenie.

Kontekstowe wskaźniki efektywności nauczania - warsztaty

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Statystyka. Wykład 5. Magdalena Alama-Bućko. 26 marca Magdalena Alama-Bućko Statystyka 26 marca / 40

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Temat: BADANIE NIEZALEśNOŚCI DWÓCH CECH JAKOŚCIOWYCH TEST CHI KWADRAT. Anna Rajfura 1

Teoria błędów. Wszystkie wartości wielkości fizycznych obarczone są pewnym błędem.

Rozdział 8. Regresja. Definiowanie modelu

Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 9 marca 2007

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Zmienna losowa dwuwymiarowa i korelacja

Regresja i Korelacja

ANALIZA WYNIKÓW NAUCZANIA W GIMNAZJUM NR 3 Z ZASTOSOWANIEM KALKULATORA EWD 100 ROK 2012

Statystyka. Wykład 6. Magdalena Alama-Bućko. 9 kwietnia Magdalena Alama-Bućko Statystyka 9 kwietnia / 36

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

ANALIZA ZALEŻNOŚCI MIĘDZY OCENAMI MINU WSTĘPNEGO KANDYDATÓW NA ROK AK. 2002/2003 NA ŚWIADECTWIE DOJRZAŁOŚCI A WYNIKAMI EGZA-

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

GRUPY NIEZALEŻNE Chi kwadrat Pearsona GRUPY ZALEŻNE (zmienne dwuwartościowe) McNemara Q Cochrana

Raport Testy Trenerskie. Kadr Makroregionalnych Polskiego Związku Podnoszenia Ciężarów

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

Sposoby prezentacji problemów w statystyce

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Wstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

3. Modele tendencji czasowej w prognozowaniu

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Statystyka. Wykład 10. Magdalena Alama-Bućko. 14 maja Magdalena Alama-Bućko Statystyka 14 maja / 31

Transkrypt:

Analiza współzależności dwóch cech II

Dopasowanie funkcji regresji do danych empirycznych Po znalezieniu równania funkcji regresji należy zbadać, na ile nasze oszacowanie pokrywa się z rzeczywistością. W tym celu badamy dopasowanie funkcji regresji do danych empirycznych. Do oceny dopasowania prostej regresji do punktów empirycznych wykorzystuje się tak zwane resztym które stanowią różnicę między rzeczywistymi i teoretycznymi (wyliczonymi z równania prostej) wartościami zmiennej zależnej: e i = y i y i.

Dopasowanie funkcji regresji do danych empirycznych Funkcja regresji jest poprawnie oszacowana, jeśli wartości reszt są niewielkie i mają charakter przypadkowy. W oparciu o reszty wyznacza się następujące miary dopasowania modelu do danych empirycznych: Średni błąd szacunku (średni błąd resztowy lub odchylenie standardowe składnika resztowego): S e = N i=1 (y i y i ) 2 N 2 = N i=1 e 2 i N 2.

Średni błąd szacunku Określa on, o ile przeciętnie różnią się wartości zmiennej zależnej wyznaczone na podstawie funkcji regresji od jej wartości empirycznych. Im mniejszy jest błąd, tym lepsze dopasowanie funkcji regresji do danych rzeczywistych (tym mniej mylić się będziemy szacując wartość zmiennej zależnej na podstawie funkcji regresji).

Współczynnik determinacji R 2 = 1 N i=1 N i=1 (y i y i ) 2 (y i y) 2. Jest to najważniejsza miara dopasowania funkcji regresji do danych empirycznych. Przyjmuje on wartość z przedziału od 0 do 1, przy czym im większa jego wartość, tym lepsze dopasowanie funkcji. Określa, ile % zmienności cechy Y zostało wyjaśnione przy pomocy oszacowanej funkcji regresji (ile % tej zmienności wynika z czynników uwzględnionych w równaniu regresji). W przypadku prostej regresji liniowej R 2 = (r xy ) 2.

Przykład Numer pracownika Staż pracy (w latach) Wydajność pracy (w szt./h) 1 1 10 2 2 11 3 3 12 4 4 14 5 5 15 6 5 15 7 6 16 8 7 18 9 8 19 10 9 20 y = 8,5 + 1,3 x. Zbadamy dopasowanie oszacowanej funkcji regresji do danych empirycznych. Obliczenia należy zacząć od wyznaczenia teoretycznych wartości zmiennej zależnej wyznaczonych przez funkcję regresji, a następnie obliczamy reszty.

Przykład Staż pracy (w latach) Wydajność pracy (w szt./h) y i = 8,5 + 1,3 x i x i y i e i = y i y i ei 2 = (y i y i ) 2 1 10 9,8 0,2 0,04 2 11 11,1-0,1 0,01 3 12 12,4-0,4 0,16 4 14 13,7 0,3 0,09 5 15 15 0,0 0,00 5 15 15 0,0 0,00 6 16 16,3-0,3 0,09 7 18 17,6 0,4 0,16 8 19 18,9 0,1 0,01 9 20 20,2-0,2 0,04 Razem 0,60 N = 10, S e = N i=1 e 2 i N 2 = 0,6 10 2 = 0,27.

Przykład S e = N i=1 e 2 i N 2 = 0,6 10 2 = 0,27. Oznacza to, że wyznaczając wydajność pracy pracowników na podstawie oszacowanej funkcji regresji mylimy się średnio o ± 0,27 sztuk/h. Innymi słowy, teoretyczna (obliczona na podstawie funkcji regresji) wydajność pracy poszczególnych pracowników różni się od wydajności rzeczywistej o ± 0,27 sztuk na godzinę.

Przykład x i y i y i = 8,5 + 1,3 x i e ei 2 = (y i y i ) 2 i = y i y i (y i y i ) 2 1 10 9,8 0,2 0,04 25 2 11 11,1-0,1 0,01 16 3 12 12,4-0,4 0,16 9 4 14 13,7 0,3 0,09 1 5 15 15 0,0 0,00 0 5 15 15 0,0 0,00 0 6 16 16,3-0,3 0,09 1 7 18 17,6 0,4 0,16 9 8 19 18,9 0,1 0,01 16 9 20 20,2-0,2 0,04 25 Razem 150 0,60 102 N = 10, y = 150 10 = 15, R2 = 1 N i=1 (y i y i ) 2 = 1 N (y i y) 2 i=1 0,6 102 = 0,9941.

Przykład R 2 = 0,9941. Otrzymano wartość bliską 1, a więc dopasowanie funkcji regresji do danych empirycznych jest bardzo dobre. Zmienność wydajności pracy została wyjaśniona przez badaną regresję aż w 99,41%. Wydajność pracy 22 19 16 13 10 y = 1,3x + 8,5 R² = 0,9941 7 0 1 2 3 4 5 6 7 8 9 Staż pracy

Wykorzystanie funkcji regresji Właściwie wyspecyfikowana, tzn. poprawna merytorycznie i dobrze dopasowana do danych empirycznych funkcja regresji może posłużyć do przewidywania wartości jednej zmiennej przy znanym poziomie drugiej. Warunkiem jest jednak, aby relacje między zmiennymi nie uległy znacznym zmianom, np. pod wpływem nieprzewidzianych, losowych okoliczności. Ponieważ jednak funkcja regresji z jedną zmienną niezależną stanowi bardzo mocne uproszczenie rzeczywistości, również prognozy dokonywane są nieco na wyrost.

Przykład Na podstawie oszacowanej funkcji regresji z poprzedniego przykładu: y = 8,5 + 1,3 x przewidzimy jakiej wydajności można się spodziewać po pracowniku o stażu dwunastoletnim. Interesuje nas, jaką wydajność może osiągnąć pracownik ze stażem x P = 12 Prognozę tę wyznaczymy podstawiając powyższą wartość do równania regresji.

Przykład Otrzymujemy: y = 8,5 + 1,3 x P = 8,5 + 1,3 12 = 24,1 szt./h. Oznacza to, że po pracowniku z dwunastoletnim stażem można się spodziewać, że w ciągu godziny wyprodukuje średnio 24,1 sztuk wyrobu. Nasze szacunki są obarczone pewnym błędem, który przyjmujemy na poziomie średniego błędu szacunku. Zatem uwzględniając wartość błędu, do otrzymanego wyniku dodamy i odejmiemy 0,27 szt./h; uzyskujemy w ten sposób przedział liczbowy (23,83; 24,37). Urealniając ten wynik, możemy zatem przypuszczać, że pracownik z 12-letnim stażem wyprodukuje od 23 do 25 szt. wyrobu w ciągu godziny.

Współczynnik korelacji rang Spearmana Służy on do badania zależności dwóch cech przedstawionych w szeregu korelacyjnym. Cechy te mogą być mierzalne lub niemierzalne ale porządkowe. Liczba badanych jednostek powinna być nieduża (poniżej 30). Przypuśćmy, że badamy N jednostek analizując dwie cechy. Elementy te można można więc uporządkować ze względu na obie cechy. Poszczególnym uporządkowanym wariantom cechy nadajemy kolejne numery, które określa się mianem rang, a procedurę nadawania rang rangowaniem.

Rangowanie Poszczególnym uporządkowanym wariantom cechy przyporządkowujemy kolejne liczby naturalne. W sytuacji, gdy kilka jednostek badania ma takie same warianty cechy, rangi ustalane są wówczas jako średnia arytmetyczna z kolejnych pozycji na jakich znalazły się jednostki badania posiadające dany wariant cechy, np. Nr jednostki Wariant cechy Ranga 1 podstawowe 1 2 zawodowe 2 3 średnie 4 4 średnie 4 5 średnie 4 6 wyższe 6,5 7 wyższe 6,5 Średnia z 3, 4, 5 Średnia z 6, 7

Współczynnik korelacji rang Spearmana Współczynnik korelacji rang Spearmana wyznacza sie na podstawie następującego wzoru r s = 1 6 N di 2 i=1 N(N 2 1), gdzie d i oznaczają różnice między rangami odpowiadających sobie wartości x i i y i tzn. rangami cech X i Y dla poszczególnych jednostek badania.

Współczynnik korelacji rang Spearmana Współczynnik korelacji rang Spearmana przyjmuje wartości z przedziału od -1 do 1. Im wartość tego miernika jest bliższa -1, tym silniejsza ujemna korelacja między badanymi cechami, z kolei im bliższa 1, tym silniejsza korelacja dodatnia. Wartości bliskie zeru wskazują na słabą zależność. Współczynnik ten jest symetryczny, to znaczy zależność Y od X jest taka sama jak zależność X od Y. Sposób wyznaczania współczynnika rang zaprezentujemy dla dwóch sytuacji, w których zalecane jest jego użycie: dla obu cech mierzalnych oraz w sytuacji, gdy jedna z cech jest niemierzalna, ale której warianty dają się uporządkować.

Przykład I Za pomocą współczynnika rang ustalimy zależność między emisją zanieczyszczeń powietrza CO2 a liczbą ludności w starych krajach Unii Europejskiej i w Polsce w 2004 roku. Kraj Liczba ludności (w tys.) Emisja zanieczyszczeń powietrza CO2 (w mln ton) Austra 8 105 79,5 Belgia 10 416 123,5 Dania 5 401 50,5 Finlandia 5 226 56,7 Francja 60 044 415,7 Grecja 11 015 110,5 Hiszpania 43 768 368,3 Irlandia 4 024 47,7 Luksemburg 454 12,1 Holandia 16 275 175,9 Niemcy 82 561 876,8 Portugalia 10 524 68,7 Szwecja 8 991 51,5 Wielka Brytania 59 561 555,6 Włochy 57 537 488 Polska 38 180 317,7

Przykład I Rangowanie ze względu na pierwszą cechę - Liczbę ludności. Kraj Liczba ludności (w tys.) Ranga Luksemburg 454 1 Irlandia 4 024 2 Finlandia 5 226 3 Dania 5 401 4 Austra 8 105 5 Szwecja 8 991 6 Belgia 10 416 7 Portugalia 10 524 8 Grecja 11 015 9 Holandia 16 275 10 Polska 38 180 11 Hiszpania 43 768 12 Włochy 57 537 13 Wielka Brytania 59 561 14 Francja 60 044 15 Niemcy 82 561 16

Przykład I Rangowanie ze względu na drugą cechę - Emisję zanieczyszczeń. Kraj Emisja zanieczyszczeń powietrza CO2 (w mln ton) Ranga Luksemburg 12,1 1 Irlandia 47,7 2 Dania 50,5 3 Szwecja 51,5 4 Finlandia 56,7 5 Portugalia 68,7 6 Austra 79,5 7 Grecja 110,5 8 Belgia 123,5 9 Holandia 175,9 10 Polska 317,7 11 Hiszpania 368,3 12 Francja 415,7 13 Włochy 488 14 Wielka Brytania 555,6 15 Niemcy 876,8 16

Przykład I Obliczenie różnic między rangami Kraj Liczba ludności (w tys.) Emisja zanieczyszczeń powietrza CO2 (w mln ton) Rangi X Rangi Y Różnice rang Kwadraty różnic rang x i y i d i d 2 i Luksemburg 454 12,1 1 1 0 0 Irlandia 4 024 47,7 2 2 0 0 Finlandia 5 226 56,7 3 5-2 4 Dania 5 401 50,5 4 3 1 1 Austra 8 105 79,5 5 7-2 4 Szwecja 8 991 51,5 6 4 2 4 Belgia 10 416 123,5 7 9-2 4 Portugalia 10 524 68,7 8 6 2 4 Grecja 11 015 110,5 9 8 1 1 Holandia 16 275 175,9 10 10 0 0 Polska 38 180 317,7 11 11 0 0 Hiszpania 43 768 368,3 12 12 0 0 Włochy 57 537 488 13 14-1 1 Wielka Brytania 59 561 555,6 14 15-1 1 Francja 60 044 415,7 15 13 2 4 Niemcy 82 561 876,8 16 16 0 0 Razem 28

Przykład I x i y i d i d 2 i Przystępujemy do obliczenia współczynnika korelacji rang Spearmana. N = 16, N i=1 d 2 i = 28, r s = 1 6 N di 2 i=1 N(N 2 1) = 1 6 28 16 (16 2 1) = 1 0,041 = 0,959.

Przykład I Otrzymany wynik współczynnika rang 0,959 wskazuje na dodatnią i silną zależność między emisją zanieczyszczeń powietrza dwutlenkiem x i węgla a liczbą ludności w starych krajach Unii Europejskiej i w Polsce w 204 roku. Emisja CO2 (w mln ton) 900 721,4 542,8 364,2 185,6 7 0 20000 40000 60000 80000 Liczba ludności (w tys.)

Przykład II Za pomocą współczynnika rang ustalimy zależność między czasem poświęconym na naukę języka obcego a poziomem znajomości tego języka Uczeń Czas poświęcony dziennie na naukę (w godz.) Poziom znajomości języka obcego Katarzyna Beksa 5 biegły Przemysław Bełkot 4 dobry Paweł Dentka 3 dobry Michalina Drzwi-Okno 3 przeciętny Franciszek Głąb 2 przeciętny Jacek Kolosalny 1 słaby Leokadia Masełko 4 biegły Rafał Nieuważny 4 biegły Józef Piszpan 1 przeciętny Zyglinda Żyłka 2 przeciętny

Przykład II Rangowanie dla cechy pierwszej czas poświęcony nauce. Nr Uczeń Czas poświęcony dziennie na naukę (w godz.) Poziom znajomości języka obcego Rangi X 1 Jacek Kolosalny 1 słaby 1,5 2 Józef Piszpan 1 przeciętny 1,5 3 Franciszek Głąb 2 przeciętny 3,5 4 Zyglinda Żyłka 2 przeciętny 3,5 5 Paweł Dentka 3 dobry 5,5 6 Michalina Drzwi-Okno 3 przeciętny 5,5 7 Przemysław Bełkot 4 dobry 8 8 Leokadia Masełko 4 biegły 8 9 Rafał Nieuważny 4 biegły 8 10 Katarzyna Beksa 5 biegły 10

Przykład II Rangowanie dla cechy drugiej poziom znajomości języka. Nr Uczeń Czas poświęcony dziennie na naukę (w godz.) Poziom znajomości języka obcego Rangi X 1 Jacek Kolosalny 1 słaby 1,5 1 Rangi Y 2 Józef Piszpan 1 przeciętny 1,5 3,5 3 Franciszek Głąb 2 przeciętny 3,5 3,5 4 Zyglinda Żyłka 2 przeciętny 3,5 3,5 5 Michalina Drzwi-Okno 3 przeciętny 5,5 3,5 6 Paweł Dentka 3 dobry 5,5 6,5 7 Przemysław Bełkot 4 dobry 8 6,5 8 Leokadia Masełko 4 biegły 8 9 9 Rafał Nieuważny 4 biegły 8 9 10 Katarzyna Beksa 5 biegły 10 9

Przykład II Obliczanie różnic rang i ich kwadratów: Nr Uczeń Czas poświęcony dziennie na naukę (w godz.) Poziom znajomości języka obcego Rangi X Rangi Y 1 Jacek Kolosalny 1 słaby 1,5 1 0,5 0,25 2 Józef Piszpan 1 przeciętny 1,5 3,5-2 4 3 Franciszek Głąb 2 przeciętny 3,5 3,5 0 0 4 Zyglinda Żyłka 2 przeciętny 3,5 3,5 0 0 5 Michalina Drzwi-Okno 3 przeciętny 5,5 3,5 2 4 6 Paweł Dentka 3 dobry 5,5 6,5-1 1 7 Przemysław Bełkot 4 dobry 8 6,5 1,5 2,25 8 Leokadia Masełko 4 biegły 8 9-1 1 9 Rafał Nieuważny 4 biegły 8 9-1 1 10 Katarzyna Beksa 5 biegły 10 9 1 1 Razem 14,5 d i d 2 i r s = 1 6 N di 2 i=1 N(N 2 1) = 1 6 14,5 10 (10 2 1) = 1 0,09 = 0,91.

Przykład II Wartość współczynnika rang Speramana równa 0,91 wskazuje na dodatnią silną zależność między ilością godzin poświęconych dziennie na naukę języka obcego a poziomem znajomości tego języka. Oznacza to, że osoba poświęcająca dziennie więcej czasu na opanowanie języka obcego osiąga na ogół lepsze rezultaty w tym względzie. 10 Rangi dla cechy Y 8 6 4 2 0 1 2 3 4 5 6 7 8 9 10 Rangi dla cechy X

Miary korelacji dla danych pogrupowanych w tablicy Poprzednie rozdziały poświęcone były wykrywaniu korelacji w sytuacji, gdy materiał statystyczny był zawarty w szeregu korelacyjnym. Jednakże, przy dużej liczebności badanej zbiorowości szereg korelacyjny nie jest dogodną formą opisu zależności, gdyż zawiera zbyt wiele szczegółowych informacji. W celu uzyskania bardziej syntetycznego obrazu, konieczny jest podział jednostek na grupy według dwóch zmiennych (cech) jednocześnie. W efekcie otrzymujemy tablicę korelacyjną, zwaną też tablicą współzależności.

Schemat tablicy korelacyjnej Warianty zmiennej niezależnej x i Warianty zmiennej zależnej y j y 1 y 2 y k n i = k j=1 n ij x 1 x 2 n 11 n 12 n 1k n 21 n 2k n 22 n 1 n 2............... x l n l1 n l2 n lk n l n j = l n ij n 1 n 2 n 2 i=1 N N - ogólna liczba jednostek, n i - liczebności brzegowe cechy X, n j - liczebności brzegowe cechy Y. n ij - liczebności warunkowe odpowiadające: i-temu wariantowi cechy X j-temu wariantowi cechy Y

Miary korelacji dla danych pogrupowanych w tablicy Tablica korelacyjna składa się z l rozkładów warunkowych cechy Y (dla każdego x i ):

Miary korelacji dla danych pogrupowanych w tablicy z k rozkładów cechy X (dla każdego y i ):

Miary korelacji dla danych pogrupowanych w tablicy zraz z dwóch rozkładów brzegowych: cechy X i cechy Y:

Miary korelacji dla danych pogrupowanych w tablicy Bardzo ważne w analizie korelacji są rozkłady warunkowe. Jeśli między cechami nie ma zależności, to rozkłady warunkowe y nie zależą od X i tym samym średnie warunkowe (grupowe) Y będą niezależne od X. średnie grupowe: y(x 1 ) pod warunkiem, że X = x 1 y(x 2 ) pod warunkiem, że X = x 2 y(x l ) pod warunkiem, że X = x l

Miary korelacji dla danych pogrupowanych w tablicy Jeśli natomiast wraz ze wzrostem wartości cechy X rosną średnie grupowe cechy Y, to mamy do czynienia z zależnością dodatnią. W przypadku przeciwnym istnieje zależność ujemna. Obserwacja rozkładów warunkowych, a w szczególności średnich grupowych, to jedna z metod wykrywania zależności dwóch cech w tablicy korelacyjnej. Do innych metod pozwalających na wykrycie zależności tak zaprezentowanych danych należą: analiza wykresów rozrzutu punktów empirycznych oraz analiza liczebności w tablicy korelacyjnej.

Analiza wykresu rozrzutu punktów empirycznych 19000 17000 Cena diamentów (w dolarach) 15000 13000 11000 9000 7000 5000 3000 1000-1000 0,1 0,4 0,7 1 1,3 1,6 Waga diamentu (w caratach)

Analiza liczebności w tablicy korelacyjnej Jeżeli w każdym polu tablicy są jednakowe liczebności n ij, to między cechami nie istnieje zależność. Gdy liczebności układają się wzdłuż przekątnej biegnącej od prawego górnego do lewego dolnego rogu tablicy wówczas można przypuszczać, że zależność istnieje, jest prostoliniowa i ma charakter ujemny. Rozkład liczebności warunkowych wzdłuż drugiej przekątnej oznacza korelację dodatnią, również liniową.

Analiza liczebności w tablicy korelacyjnej Im mniej pasażerów zabieramy tym szybciej jedziemy? Liczba pasazerów x i Prędkość samochodu 45 55 55 65 65 75 75 85 85 95 0 0 1 1 1 0 1 1 3 3 0 1 2 1 2 3 1 0 3 2 3 0 0 0 4 0 2 0 0 0 y j

Miary korelacji dla pogrupowanych danych Istnieje kilka miar korelacji dwóch cech pogrupowanych w tablicy korelacyjnej i tablicy kontyngencji. Wybór właściwej miary uzależniony jest od: rodzaju cech statystycznych, kształtu zależności między badanymi cechami, wielkości tablicy korelacyjnej lub tablicy kontyngencji (liczby kolumn i wierszy). Szerokie zastosowanie mają następujące miary: Stosunek korelacji, e yx, Współczynnik C-Pearsona, C, Współczynnik Q-Yule a, Q.

Stosunek korelacji Oparty jest na obserwacji, że przy braku korelacji wszystkie średnie grupowe cechy Y są jednakowe i równe średniej ogólnej cechy Y. Jest on relacją zróżnicowania średnich grupowych w stosunku do ogólnego zróżnicowania wartości cechy Y. y - średnia ogólna cechy Y, e yx = S y(x) S y, S y - odchylenie standardowe cechy Y, S y(x) - odchylenie standardowe średnich grupowych: y(x 1 ),, y(x l ).

Stosunek korelacji Z powyższego wzoru wynika, że obliczenia dotyczą tylko zmiennej Y, a zmienna X służy tylko do ustalenia grup wartości zmiennej Y. Zatem cecha X może być mierzalna lub niemierzalna. y = 1 N k j=1 y j n j = 1 N l i=1 k j=1 y j n ij, S y = 1 N k j=1 (y j y) 2 n j, y(x i ) = 1 n i k j=1 y j n ij, S y(x) = 1 N l i=1 (y(x i ) y) 2 n i.

Stosunek korelacji Stosunek korelacji zawiera się w przedziale od 0 do 1: 0 e yx 1. Przy braku korelacji e yx = 0. Im jego wartość jest bliższa 1, tym korelacja jest silniejsza.

Własności stosunku korelacji Stosunek korelacji nie jest miarą symetryczną, tzn. e xy nie jest równe e yx nawet gdy obie cechy X i Y są mierzalne i można obliczyć oba te współczynniki. Jeżeli w powyższym przypadku obliczymy współczynnik korelacji Pearsona, to r xy e yx, A równość występuje tylko w przypadku zależności liniowej.

Własności stosunku korelacji Stosunek korelacji może być obliczony również dla zależności nieliniowej, ale cecha Y musi być mierzalna, np. Miejsce zamieszkania X Ocena z matematyki na maturze Y 3 4 5 Ogółem Wieś 25 6 2 33 Małe miasto 5 38 1 44 Duże miasto 3 6 14 23 Ogółem 33 50 17 100

Przykład I Obie cechy mierzalne Wylosowano 100 jednoosobowych gospodarstw domowych i zbadano je pod względem wysokości miesięcznych dochodów w zł oraz procentowego udziału wydatków na żywność w wydatkach ogółem. Miesięczne dochody w zł X Procentowy udział wydatków na żywność, Y 30 32 32 34 34 36 Ogółem 800 1200 1 18 19 1200 1600 3 55 2 60 1600 2000 19 2 21 Ogółem 22 58 20 100

Przykład I Obie cechy mierzalne Miesięczne dochody w zł X Procentowy udział wydatków na żywność, Y 30 32 32 34 34 36 Ogółem 800 1200 1 18 19 1200 1600 3 55 2 60 1600 2000 19 2 21 n j y j n j yj 22 58 20 100 31 33 35 682 1914 700 3296 y = 1 N k j=1 yj n j = 3296 100 = 32,96 %

Przykład I Obie cechy mierzalne Miesięczne dochody w zł X Procentowy udział wydatków na żywność, Y 30 32 32 34 34 36 Ogółem 800 1200 1 18 19 1200 1600 3 55 2 60 1600 2000 19 2 21 n j y j n j yj ( y j y) 2 n j ( y j y) 2 22 58 20 100 31 33 35 682 1914 700 3296 3,8416 0,0016 4,1616 84,52 0,09 83,23 167,84

Przykład I Obie cechy mierzalne S y = 1 N k j=1 ( y j y) 2 n j = 167,84 100 = 1,3

Przykład I Obie cechy mierzalne Miesięczne dochody w zł X Proc. udz. wyd. na ż., Y 30 32 32 34 34 36 n i n ijy j y(x i ) (y(x i ) y) 2 n i 800 1200 1 18 19 663 34,89 71,1209 1200 1600 3 55 2 60 1978 32,97 0,0027 1600 2000 19 2 21 655 31,19 65,7555 Ogółem 22 58 20 100 3296 136,8791 S y(x) = 1 N l i=1 (y(x i ) y) 2 n i = 136,88 100 = 1,17

Przykład I Obie cechy mierzalne Podstawiając odpowiednie wartości: S y(x) = 1,17, S y = 1,3, otrzymujemy, że stosunek korelacji jest równy e yx = S y(x) S y = 1,17 1,3 = 0,9. Uzyskany wynik mówi o silnej zależności udziału wydatków na żywność w wydatkach ogółem od dochodów badanych gospodarstw jednoosobowych, a malejące średnie grupowe potwierdzają znaną w ekonomii zależność prawo Engela.

Przykład I Obie cechy mierzalne 35 Średnie grupowe cechy Y 34 33 32 31 30 1000 1160 1320 1480 1640 1800 Środki klas dla cechy X

Przykład II Cecha X niemierzalna W 2008 roku przeprowadzono badanie w grupie 100 studentów I roku prawa, mające na celu potwierdzenie zależności między miejscem zamieszkania a oceną z matematyki uzyskaną na maturze. Miejsce zamieszkania X Ocena z matematyki na maturze Y 3 4 5 Ogółem Wieś 25 6 2 33 Małe miasto 5 38 1 44 Duże miasto 3 6 14 23 Ogółem 33 50 17 100

Przykład II Cecha X niemierzalna Miejsce zamieszkania X Ocena z matematyki na maturze Y 3 4 5 Ogółem Wieś 25 6 2 33 Małe miasto 5 38 1 44 Duże miasto 3 6 14 23 n j n j y j (y j y) 2 n j (y j y) 2 33 50 17 100 99 200 85 384 0,7056 0,0256 1,3456 23,2848 1,28 22,8752 47,44 y = 1 N k j=1 y j n j = 384 100 = 3,84 S y = 1 N k j=1 (y j y) 2 n j = 47,44 100 = 0,69

Przykład II Cecha X niemierzalna Miejsce zamieszkania X Ocena z matematyki na maturze Y 3 4 5 n i n ijy j y(x i ) (y(x i ) y) 2 n i Wieś 25 6 2 33 109 3,30 9,52 Małe miasto 5 38 1 44 172 3,91 0,21 Duże miasto 3 6 14 23 103 4,48 9,37 Ogółem 33 50 17 100 384 19,09 S y(x) = 1 N l i=1 (y(x i ) y) 2 n i = 19,09 100 = 0,44

Przykład II Cecha X niemierzalna Podstawiając odpowiednie wartości: S y(x) = 0,44, S y = 0,69, otrzymujemy, że stosunek korelacji jest równy e yx = S y(x) S y = 0,44 0,69 = 0,64. Uzyskany wynik mówi o umiarkowanej zależności między miejscem zamieszkania a oceną uzyskaną na maturze z matematyki. Rosnące średnie grupowe świadczą o korelacji dodatniej: im większe miejsce zamieszkania tym wyższa ocena.

Tablica kontyngencji W przypadku, gdy obie cechy X i Y są niemierzalne zamiast tablicy korelacyjnej używa się określenia tablica kontyngencji lub tablica kontyngencyjna. Miarą wykorzystywaną do określenia związku między cechami niemierzalnymi jest najczęściej współczynnik współzależności C-Pearsona: C = χ 2 χ 2 + N, gdzie χ 2 to wartość statystyki χ 2 (chi-kwadrat).

Tablica kontyngencji Wartość statystyki chi-kwadrat wyznaczamy na podstawie danych z tablicy kontyngencji według następującego wzoru gdzie n ij n ij χ 2 = l i=1 k ( n ij j=1 n ij) 2, n ij - liczebności warunkowe (empiryczne), - liczebności teoretyczne, czyli takie, które wystąpiłyby, gdyby cechy były niezależne: n ij = n i n j N.

Współczynnik C-Pearsona Współczynnik C-Pearsona C = χ 2 χ 2 + N oblicza się dla przypadku cech jakościowych (niemierzalnych) oraz tablic wielopolowych, czyli tablic większych niż 2 x 2. Miara ta zawiera się w przedziale od 0 do 1. Wartości współczynnika bliskie 0 oznaczają słabą, a wartości współczynnika bliskie 1 silną współzależność cech.

Skorygowany współczynnik C-Pearsona Ponieważ poziom współczynnik C-Pearsona zależy od rozmiaru tablicy, aby móc porównywać współczynniki pochodzące z tablic różnej wielkości, proponuje się tzw. skorygowany współczynnik C-Pearsona: C skor = C C* C* 1, gdzie C* = min(l, k), l k - liczba wierszy tablicy kontyngencji, - liczba kolumn tablicy kontyngencji.

Przykład W pewnej szkole języka angielskiego nauczano trzema metodami: tradycyjną (A), Callana (B), relaksacyjną (C). Pod koniec kursu przeprowadzono egzamin i otrzymano następujące wyniki: Wyniki X Metoda nauczania, Y A B C Razem Pozytywne 30 80 50 160 Negatywne 10 60 20 90 Razem 40 140 70 250 Ustalimy siłę zależności między tymi cechami niemierzalnymi.

Przykład Wyniki X Metoda nauczania, Y A B C Razem Pozytywne n 11 = 30 n 12 = 80 n 13 = 50 n 1 = 160 Negatywne n 21 = 10 n 22 = 60 n 23 = 20 n 2 = 90 Razem n 1 = 40 n 2 = 140 n 3 = 70 N = 250 Liczebności teoretyczne: n 11 = n 1 n 1 N = 160 40 250 = 25,6 n 12 = n 1 n 2 N = 160 140 250 = 89,6 n 13 = n 1 n 3 N = 160 70 250 = 44,8 n 21 = n 2 n 1 N = 90 40 250 = 14,4 n 22 = n 2 n 2 N = 90 140 250 = 50,4 n 23 = n 2 n 3 N = 90 70 250 = 25,3

Przykład n ij (n n ij n ij n ij (n ij n ij ) 2 ij n ij ) 2 n ij 30 25,6 4,4 19,36 0,76 80 89,6-9,6 92,16 1,03 50 44,8 5,2 27,04 0,60 10 14,4-4,4 19,36 1,34 60 50,4 9,6 92,16 1,83 20 25,3-5,3 28,09 1,11 Razem 6,67 χ 2 = (n ij n ij )2 = 6,67 C = n ij χ 2 χ 2 + N = 6,67 6,67 + 250 = 0,16

Przykład C = χ 2 χ 2 + N = 6,67 6,67 + 250 = 0,16 Wartość współczynnika C-Pearsona jest niska i bliska zeru, gdyż C = 0,16. Współzależność między wynikami kursu językowego a metodą nauczania języka angielskiego jest bardzo słaba. Można zatem przypuszczać, że wszystkie trzy metody nauczania dają podobne wyniki.

Współczynnik współzależności Q-Yule a Najczęściej oblicza się go dla cech jakościowych i tablic czteropolowych: Warianty cechy niemierzalnej X Warianty cechy niemierzalnej Y y1 y2 x1 a b x2 c d Q = ad bc ad + bc.

Współczynnik współzależności Q-Yule a Współczynnik ten zawiera się w przedziale od -1 do 1. Jednak znak tego współczynnika jest tylko efektem ułożenia liczebności w tablicy. Im wartość bezwzględna tego współczynnika jest bliższa jedności, tym zależność jest silniejsza, a im bliższa zeru, tym związek między cechami jest słabszy.

Przykład Uważa się powszechnie, że egzamin na prawo jazdy lepiej zdają mężczyźni niż kobiety. Przeprowadzono badanie wśród 300 osób zdających ten egzamin i otrzymano następujące wyniki Egzamin Mężczyzna Płeć Kobieta Razem Zdany 70 125 195 Niezdany 20 85 105 Razem 90 210 300

Przykład Egzamin Mężczyzna Płeć Kobieta Razem Zdany 70 125 195 Niezdany 20 85 105 Razem 90 210 300 Q = ad bc ad + bc = 70 85 125 20 70 85 + 125 20 = 0,41. Obliczony wynik wskazuje na istnienie umiarkowanej współzależności między zdawalnością egzaminu a płcią.