Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Podobne dokumenty
Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

Statystyka. Wykład 7. Magdalena Alama-Bućko. 3 kwietnia Magdalena Alama-Bućko Statystyka 3 kwietnia / 36

Statystyka. Wykład 6. Magdalena Alama-Bućko. 9 kwietnia Magdalena Alama-Bućko Statystyka 9 kwietnia / 36

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Statystyka. Wykład 9. Magdalena Alama-Bućko. 7 maja Magdalena Alama-Bućko Statystyka 7 maja / 40

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Statystyka. Wykład 5. Magdalena Alama-Bućko. 26 marca Magdalena Alama-Bućko Statystyka 26 marca / 40

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Analiza współzależności zjawisk

Statystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28

Statystyka. Wykład 1. Magdalena Alama-Bućko. 20 lutego Magdalena Alama-Bućko Statystyka 20 lutego / 19

Analiza Współzależności

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

Statystyka. Wykład 10. Magdalena Alama-Bućko. 14 maja Magdalena Alama-Bućko Statystyka 14 maja / 31

Statystyka. Wykład 5. Magdalena Alama-Bućko. 20 marca Magdalena Alama-Bućko Statystyka 20 marca / 26

Wykład 7. Opis współzaleŝności zjawisk. 1. Wprowadzenie.

Korelacja krzywoliniowa i współzależność cech niemierzalnych

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Analiza współzależności dwóch cech I

Statystyka. Wykład 2. Magdalena Alama-Bućko. 27 lutego Magdalena Alama-Bućko Statystyka 27 lutego / 39

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

W1. Wprowadzenie. Statystyka opisowa

KURS STATYSTYKA. Lekcja 5 Analiza współzależności ZADANIE DOMOWE. Strona 1

Graficzna prezentacja danych statystycznych

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Statystyka. Wykład 1. Magdalena Alama-Bućko. 26 lutego Magdalena Alama-Bućko Statystyka 26 lutego / 34

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Statystyka matematyczna

Statystyka. Wykład 10. Magdalena Alama-Bućko. 15 maja Magdalena Alama-Bućko Statystyka 15 maja / 32

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

PDF created with FinePrint pdffactory Pro trial version

Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

X WYKŁAD STATYSTYKA. 14/05/2014 B8 sala 0.10B Godz. 15:15

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym.

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Miary statystyczne w badaniach pedagogicznych

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

Statystyka. Wykład 11. Magdalena Alama-Bućko. 21 maja Magdalena Alama-Bućko Statystyka 21 maja / 31

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD EMPIRYCZNY

Pozyskiwanie wiedzy z danych

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

(x j x)(y j ȳ) r xy =

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

Regresja i Korelacja

Statystyka. Wykład 13. Magdalena Alama-Bućko. 12 czerwca Magdalena Alama-Bućko Statystyka 12 czerwca / 30

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

4.2. Statystyczne opracowanie zebranego materiału

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Rozkłady dwóch zmiennych losowych

Wprowadzenie do analizy korelacji i regresji

Statystyka matematyczna dla leśników

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

Analiza współzależności dwóch cech II

Xi B ni B

Statystyka i opracowanie danych W5: Wprowadzenie do statystycznej analizy danych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl

Próba własności i parametry

Współczynniki korelacji czastkowej i wielorakiej STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 18 listopada 2017

POJĘCIA WSTĘPNE. STATYSTYKA - nauka traktująca o metodach ilościowych badania prawidłowości zjawisk (procesów) masowych.

Statystyka Matematyczna Anna Janicka

WYŻSZA SZKOŁA MENEDŻERSKA W WARSZAWIE WYDZIAŁ ZARZĄDZANIA W CIECHANOWIE KARTA PRZEDMIOTU - SYLABUS

ĆWICZENIE 11 NIEPARAMETRYCZNE TESTY ISTOTNOŚCI

POLITECHNIKA OPOLSKA

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Wskaźnik asymetrii Jeżeli: rozkład jest symetryczny, to = 0, rozkład jest asymetryczny lewostronnie, to < 0. Kwartylowy wskaźnik asymetrii

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

Podstawy statystyki - ćwiczenia r.

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Porównaj płace pracowników obu zakładów, dokonując kompleksowej analizy struktury. Zastanów się, w którym zakładzie jest korzystniej pracować?

KORELACJE I REGRESJA LINIOWA

Statystyka matematyczna

Statystyka. Wykład 13. Magdalena Alama-Bućko. 18 czerwca Magdalena Alama-Bućko Statystyka 18 czerwca / 36

Opisowa analiza struktury zjawisk statystycznych

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

STATYSTYKA wykłady. L.Gruszczyński Elementy statystyki dla socjologów Dr. Pactwa pon. i wtorek 09:30 11:00 (pok. 217) I. (08.X)

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Analiza korelacji

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Analiza zróżnicowania, asymetrii i koncentracji

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Z-ZIPN1-004 Statystyka. Zarządzanie i Inżynieria Produkcji I stopień Ogólnoakademicki Niestacjonarne Wszystkie Katedra Matematyki dr Zdzisław Piasta

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 3) Dariusz Gozdowski

Transkrypt:

Statystyka Wykład 7 Magdalena Alama-Bućko 16 kwietnia 2017 Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 1 / 35

Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia miary zmienności miary asymetrii miary koncentracji. Analiza współzależności zjawisk. Analiza dynamiki zjawisk. Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 2 / 35

załóżmy że dla każdej jednostki statystycznej mamy określone pary wartości (x, y) (czyli obserwacje dwóch cech) ponieważ badamy n obiektów, to dysponujemy n parami obserwacji (x i, y i ), i = 1, 2,..., n szukamy zależności między obserwacjami x i i y i czy istnieje zależność między cechami X i Y? jak silna jest ta zależność? czy można napisać wzór tej zależności? Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 3 / 35

Celem analizy jest stwierdzenie, czy między badanymi zmiennymi zachodza jakieś zależności, jaka jest ich: siła np. słaba albo silna zależność postać ( dopasowanie funkcji reprezentujacych zależność ) kierunek (monotoniczność) czy wraz ze wzrostem jednej cechy, druga rośnie czy maleje? Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 4 / 35

Postać zależności (wzór) gdy y = f (x) to x jest zmienna objaśniajac a (niezależna), a y - zmienna objaśniana (zależna) gdy x = f (y) to y jest zmienna objaśniajac a (niezależna), a x - zmienna objaśniana (zależna) czasami można zamiennie wybierać nasze zmienne jako zmienne zależne i niezależne, a czasami ten wybór jest określony: waga może być funkcja wzrostu, wzrost może być funkcja wagi ilość wyprodukowanych śmieci jest funkcja ilości robionych zakupów ilość wydatków na jedzenie w rodzinie jest funkcja liczby osób w tej rodzinie Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 5 / 35

Wzór zależności zależność między zmiennymi może być liniowa (tzw. korelacja liniowa), zależność między zmiennymi może mieć postać innej funkcji, np. wykładniczej, logarytmicznej, drugiego stopnia itp. (tzw. korelacja krzywoliniowa) Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 6 / 35

Procedura badania zależności między cechami zależy od typów tych cech. Moga być następujace sytuacje: obie cechy sa mierzalne (ilościowe) np. zależność wzrostu od wagi, wydatków od dochodów,... obie cechy sa niemierzalne (jakościowe) np. zależność wykształcenia od preferencji politycznych jedna cecha jest ilościowa i jedna jakościowa np. zależność zarobków od płci. Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 7 / 35

Przedstawienie danych (obie ilościowe) Dane (x i, y i ), i = 1, 2,..., n można przedstawić w postaci diagramów korelacyjnych i tabeli korelacyjnych. 1) diagram korelacyjny - to graficzne zaznaczenie na płaszczyźnie punktów (x i, y i ), i = 1, 2,..., n. w Excelu : wykres punktowy danych (X, Y ) Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 8 / 35

2) tablica korelacyjna albo tablica dwudzielcza warunek: n 30 w kolejnych wierszach znajduja się możliwe wartości (warianty) jednej zmiennej {x 1, x 2,..., x r } w kolejnych kolumnach znajduja się możliwe wartości (warianty) drugiej zmiennej {y 1, y 2,..., y k } wewnatrz tabelki znajduja się liczebności konkretnych klas, tzn. n ij - liczebność obiektów które maja równocześnie wartość x i i y j. Y y 1 y 2... y k X x 1 n 11 n 12... n 1k x 2 n 21 n 22... n 2k... x r n r1 n r2... n rk Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 9 / 35

Tak jak dla "pojedynczych" cech czasami lepiej było pracować na szeregach przedziałowych, tak tutaj też może się zdarzyć że wartościami zmiennych moga być przedziały. Y y 01 y 11 y 02 y 12... y 0k y 1k X x 01 x 11 n 11 n 12... n 1k x 02 x 12 n 21 n 22... n 2k... x 0r x 1r n r1 n r2... n rk Pamiętamy, że we wszelkich obliczeniach (średniej, wariancji,...) dla obiektów danej klasy, jako reprezentanta przedziału bierzemy środek danego przedziału przez ˆx i, ŷ j oznaczamy środki odpowiednich klas Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 10 / 35

Zasady tworzenia przedziałów dla cech X i Y te same co dla szeregów rozdzielczych przedziałowych: liczba klas r (dla X) i k (dla Y ) zależna od n rozrzut każdej z cech R x = x max x min, R y = y max y min długość każdego przedziału : d x = R x r kolejne klasy: = x max x min, d y = R y r k = y max y min k [x min, x min + d x ), [x min + d x, x min + 2d x ), [x min + 2d x, x min + 3d x ),... [y min, y min + d y ), [y min + d y, y min + 2d y ), [y min + 2d y, y min + 3d y ),... Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 11 / 35

Przykład 1 40 osobom zadano pytanie o liczbę dzieci (cecha X) i staż pracy (cecha Y, w latach). Otrzymano następujace dane postaci (X, Y ): (0, 0), (0, 0), (0, 1), (0, 1), (0, 2), (0, 5), (1, 0), (1, 1), (1, 1), (1, 2), (1, 2), (1, 3), (1, 3), (1, 3), (1, 4), (1, 5), (1, 5), (1, 5), (1, 6), (1, 7), (2, 2), (2, 3), (2, 3), (2, 4), (2, 4), (2, 4), (2, 4), (2, 5), (2, 5), (2, 5), (2, 6), (2, 6), (2, 6), (3, 6), (3, 7), (3, 8), (3, 9), (3, 10), (4, 8), (4, 10) cecha X: X {0, 1, 2, 3, 4} cecha Y : Y {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10} cecha Y ma wiele wartości, więc wprowadzimy podział na 3 klasy: y min = 0, y max = 10, k = 3. Długość każdego przedziału: d = 10 0 3 = 10 3 = 3 1 3. Przyjmijmy przedziały długości d = 4: [0, 0 + 4) = [0, 4), [4, 4 + 4) = [4, 8), [8, 8 + 4] = [8, 12] Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 12 / 35

Przykład 1 Zatem tabela korelacyjna będzie miała postać: X 0 1 2 3 4 Y [0, 4)] [4, 8)] [8, 12] Trzeba teraz wybełnić tabelę liczebnościami poszczególnych kategorii. Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 13 / 35

Przykład 1 Y [0, 4) [4, 8) [8, 12] X 0 1 2 3 4 Zliczamy liczebności przypadków gdy X = 0: (0, 0), (0, 0), (0, 1), (0, 1), (0, 2), (0, 5) - przypadki czerwone : 5 sztuk, - niebieskie : 1 sztuka, - brazowe: 0 sztuk Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 14 / 35

Przykład 1 Y [0, 4) [4, 8) [8, 12] X 0 5 1 0 1 2 3 4 Zliczamy liczebności przypadków gdy X = 1: (1, 0), (1, 1), (1, 1), (1, 2), (1, 2), (1, 3), (1, 3), (1, 3), (1, 4), (1, 5), (1, 5), (1, 5), (1, 6), (1, 7), - przypadki czerwone : 8 sztuk, - niebieskie : 6 sztuk, - brazowe: 0 sztuk Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 15 / 35

Przykład 1 Y [0, 4) [4, 8) [8, 12] X 0 5 1 0 1 8 6 0 2 3 10 0 3 0 2 3 4 0 0 2 Zliczamy liczebności przypadków gdy X = 2: (2, 2), (2, 3), (2, 3), (2, 4), (2, 4), (2, 4), (2, 4), (2, 5), (2, 5), (2, 5), (2, 6), (2, 6), (2, 6), Zliczamy liczebności przypadków gdy X = 3: (3, 6), (3, 7), (3, 8), (3, 9), (3, 10), Zliczamy liczebności przypadków gdy X = 4: (4, 8), (4, 10) Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 16 / 35

Przykład 1 Zatem ostatecznie tabela korelacyjna (dwudzielcza) dla naszych danych przyjmuje postać: Y [0, 4) [4, 8) [8, 12] X 0 5 1 0 1 8 6 0 2 3 10 0 3 0 2 3 4 0 0 2 Warto sprawdzić, że suma wszystkich liczebności z wnętrza tabeli wynosi 40. Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 17 / 35

Wprowadźmy pewne dodatkowe oznaczenia: n i jest liczebnościa i- tego wariantu cechy X, tzn. oznacza sumę liczebności w i- tym wierszu, czyli n i = j n ij n j jest liczebnościa j- tego wariantu cechy Y, tzn. oznacza sumę liczebności w j- tej kolumnie, czyli n j = i n ij Y y 1 y 2... y k Suma X x 1 n 11 n 12... n 1k n 1 x 2 n 21 n 22... n 2k n 2...... x r n r1 n r2... n rk n r Suma n 1 n 2... n k n Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 18 / 35

Liczności w tablicy korelacyjnej musza spełniać warunki: mamy łacznie n obserwacji, zatem suma wszystkich liczebności musi dać nam n, tzn: n ij = n i suma elementów w "zbiorczej" ostatniej kolumnie daje n, tzn. j n i = n i suma elementów w "zbiorczym" ostatnim wierszu daje n, tzn. n j = n j Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 19 / 35

Przykład 1 -c.d. Zsumujemy liczebności w każdym wierszu i w każdej kolumnie tabeli korelacyjnej. Y [0, 4) [4, 8) [8, 12] suma X 0 5 1 0 6 1 8 6 0 14 2 3 10 0 13 3 0 2 3 5 4 0 0 2 2 Suma 16 19 5 40 suma elementów w ostatniej kolumnie wynosi 40 suma elementów w ostatnim wierszu wynosi 40 suma elementów z wnętrza tabeli też wynosi 40. Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 20 / 35

Z tabeli korelacyjnej cech (X, Y ) można odczytać następujace rozkłady: brzegowe rozkład cechy X (nieistotna wartość cechy Y ) rozkład cechy Y (nieistotna wartość cechy X) warunkowe rozkład warunkowy cechy X przy założeniu, że Y przyjmuje określona wartość rozkład warunkowy cechy Y przy założeniu, że X przyjmuje określona wartość Dla rozkładów brzegowych i warunkowych możemy policzyć wszystkie wcześniej zdefiniowane miary (położenia, zmienności, asymetrii, koncentracji). Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 21 / 35

Jak odczytać rozkłady brzegowe? rozkład cechy X (zupełnie nieistotne wartości cechy Y ) - liczebności to ostatnia kolumna, czyli z liczebnościami n i, i = 1, 2,..., r X x 1 x 2... x r n i n 1 n 2... n r rozkład cechy Y (zupełnie nieistotne wartości cechy X ) - liczebności to ostatni wiersz, czyli z liczebnościami n j, j = 1, 2,..., k Y y 1 y 2... y k n j n 1 n 2... n k Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 22 / 35

Jak odczytać rozkłady warunkowe? z tabeli korelacji można odczytywać rozkłady pewnej cechy pod warunkiem, że druga ma określona wartość warunkowe rozkłady liczebności zmiennych X Y = y j przy przy ustalonym y j znajduja się w j-tej kolumnie tabeli korelacyjnej warunkowe rozkłady liczebności zmiennych Y X = x i przy przy ustalonym x i znajduja się w i-tym wierszu tabeli korelacyjnej Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 23 / 35

Przykład 1 -c.d. (X, Y ), gdzie X-liczba dzieci, Y -staż pracy. Y [0, 4) [4, 8) [8, 12] suma X 0 5 1 0 6 1 8 6 0 14 2 3 10 0 13 3 0 2 3 5 4 0 0 2 2 Suma 16 19 5 40 rozkład brzegowy X - liczby dzieci rozkład brzegowy Y - stażu pracy X 0 1 2 3 4 n i 6 14 13 5 2 Y [0, 4) [4,8) [8,12] n i 16 19 5 Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 24 / 35

Przykład 1 -c.d. rozkład brzegowy X - liczby dzieci x = X 0 1 2 3 4 n i 6 14 13 5 2 0 + 14 + 26 + 15 + 8 40 = 63 = 1.575 1.6 40 Średnia liczba dzieci wśród (wszystkich) badanych wynosi 1.6. rozkład brzegowy Y - stażu pracy y = Y [0,4) [4,8) [8,12] n i 16 19 5 2 16 + 6 19 + 10 5 40 = 196 40 = 4.9 5 Średni staż pracy wśród (wszystkich) badanych wynosi 5 lat. Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 25 / 35

Przykład 1 -c.d. Y [0, 4) [4, 8) [8, 12] suma X 0 5 1 0 6 1 8 6 0 14 2 3 10 0 13 3 0 2 3 5 4 0 0 2 2 Suma 16 19 5 40 rozkład warunkowy X Y = [0, 4) - rozkład liczby dzieci tych badanych, którzy pracuja mniej niż 4 lata: X Y = [0, 4) 0 1 2 3 4 n i 5 8 3 0 0 rozkład warunkowy Y X = 2 - rozkład stażu pracy tych badanych, którzy maja 2 dzieci Y X = 2 [0, 4) [4,8) [8,12] n i 3 10 0 Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 26 / 35

X Y = [0, 4) - rozkład liczby dzieci tych badanych, którzy pracuja mniej niż 4 lata: X Y = [0, 4) 0 1 2 3 4 n i 5 8 3 0 0 x = 0 + 8 + 6 16 = 14 16 = 0.875 Osoby, które pracuja mniej niż 4 lata maja średnio 0.875 dziecka. Y X = 2 - rozkład stażu pracy tych badanych, którzy maja 2 dzieci Y X = 2 [0, 4) [4,8) [8,12] n i 3 10 0 y = 2 3 + 6 10 + 0 13 = 66 13 = 5.08 Osoby które maja 2 dzieci pracuja średnio 5 lat. Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 27 / 35

Dwie cechy ilościowe Współczynnik kowariancji cov xy = 1 n gdzie n (x i x)(y i y) = 1 n i=1 x, y - średnie arytmetyczne cech X i Y n x i y i x y i=1 x = 1 n n x i, i=1 y = 1 n n i=1 y i cov xy = cov yx kowariancja jest wartościa mianowana (wyrażona w jednostkach "jednostka X jednostka Y", np. kg m) znak kowariancji informuje nas o kierunku zależności liniowej s x s y < cov xy < s x s y Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 28 / 35

Współczynnik korelacji liniowej Pearsona gdzie r XY = cov xy s x s y = n (x i x)(y i y) i=1 n s X s Y = x, y - średnie arytmetyczne danych X i Y 1 n n x i y i x y i=1 s X, s Y - odchylenia standardowe danych X i Y s X s Y s 2 x = 1 n n (x i x) 2 = 1 n i=1 n i=1 x 2 i (x) 2 Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 29 / 35

Dla danych zgrupowanych w tabeli korelacyjnej mamy: r XY = 1 n x i y j n ij x y i,j s X s Y gdzie x, y, s X i s Y obliczone sa dla rozkładów brzegowych x = 1 n r x i n i, y = 1 n k y j n j i=1 j=1 s 2 x = 1 n s 2 y = 1 n r n i (x i x) 2 = 1 n i=1 k n j (y j y) 2 = 1 n j=1 r i=1 k j=1 n i x 2 i (x) 2 n j y 2 j (y) 2 Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 30 / 35

Współczynnik korelacji Pearsona określa kierunek i siłę zależności (liniowej) dwóch zmiennych mierzalnych (ilościowych). Przyjmuje on wartości z przedziału [ 1; 1], im wartość r xy jest bliższa 1 lub 1, tym zależność jest silniejsza, im wartość r xy bliższa 0, tym zależność jest słabsza. miara symetryczna, tzn. r xy = r yx. Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 31 / 35

Interpretacja r xy = 0 albo r xy = 1: r xy = 0, gdy brak współzależności (liniowej) Uwaga! - może istnieć zależność nieliniowa, np. kwadratowa r xy = 1, gdy zależność funkcyjna (korelacja doskonała) tzn. istnieja pewne stałe a i b takie, że wszystkie dane spełniaja warunek Y = ax + b Kierunek r xy < 0, gdy korelacja ujemna, tzn. wraz ze wzrostem wartości jednej zmiennej maleja wartości drugiej zmiennej, i odwrotnie, r xy > 0, gdy korelacja dodatnia, tzn. wraz ze wzrostem wartości jednej zmiennej rosna wartości drugiej zmiennej, i odwrotnie, Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 32 / 35

Siła zależności r xy 0.2, praktycznie brak zwiazku liniowego pomiędzy badanymi cechami, 0, 2 < r xy 0, 4 - słaba zależność liniowa 0, 4 < r xy 0, 7 - zależność liniowa umiarkowana (przeciętna) 0, 7 < r xy 0, 9 - zależność liniowa znaczaca (wysoka) 0.9 < r xy 1 - bardzo silna (bardzo wysoka) korelacja liniowa. Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 33 / 35

Wykresy korelacyjne w zależności od wartości współczynnika korelacji Pearsona r moga wygladać następujaco: By Imagecreator at English Wikipedia [Public domain], via Wikimedia Commons, https://upload.wikimedia.org/wikipedia/commons/thumb/0/02/correlation_examples.png/512px-correlation_examples.png" Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 34 / 35

Dziękuję za uwagę! Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 35 / 35