Analiza Współzależności



Podobne dokumenty
Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Statystyka. Wykład 9. Magdalena Alama-Bućko. 7 maja Magdalena Alama-Bućko Statystyka 7 maja / 40

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

Analiza współzależności zjawisk

Statystyka. Wykład 7. Magdalena Alama-Bućko. 3 kwietnia Magdalena Alama-Bućko Statystyka 3 kwietnia / 36

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

KORELACJE I REGRESJA LINIOWA

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

Badania Statystyczne

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Analiza Zmian w czasie

Analiza współzależności dwóch cech I

PDF created with FinePrint pdffactory Pro trial version

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Wprowadzenie do analizy korelacji i regresji

Temat: Badanie niezależności dwóch cech jakościowych test chi-kwadrat

Statystyka. Wykład 6. Magdalena Alama-Bućko. 9 kwietnia Magdalena Alama-Bućko Statystyka 9 kwietnia / 36

Analiza współzależności dwóch cech II

Rozdział 8. Regresja. Definiowanie modelu

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Statystyka. Wykład 10. Magdalena Alama-Bućko. 14 maja Magdalena Alama-Bućko Statystyka 14 maja / 31

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Wyniki egzaminu gimnazjalnego w 2012 roku województwo pomorskie

4.2. Statystyczne opracowanie zebranego materiału

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Wyniki egzaminu gimnazjalnego w 2013 roku województwo pomorskie

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Pojęcie korelacji. Korelacja (współzależność cech) określa wzajemne powiązania pomiędzy wybranymi zmiennymi.

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

Współczynniki korelacji czastkowej i wielorakiej STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 18 listopada 2017

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 9 marca 2007

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Wykład 7. Opis współzaleŝności zjawisk. 1. Wprowadzenie.

Regresja i Korelacja

X WYKŁAD STATYSTYKA. 14/05/2014 B8 sala 0.10B Godz. 15:15

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona

ĆWICZENIE 11 NIEPARAMETRYCZNE TESTY ISTOTNOŚCI

MODELE LINIOWE. Dr Wioleta Drobik

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

3. Modele tendencji czasowej w prognozowaniu

Temat: BADANIE NIEZALEśNOŚCI DWÓCH CECH JAKOŚCIOWYCH TEST CHI KWADRAT. Anna Rajfura 1

ĆWICZENIE 11 ANALIZA KORELACJI I REGRESJI

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

STATYSTYKA MATEMATYCZNA

(x j x)(y j ȳ) r xy =

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 23 marca 2006

Wielkość dziennego obrotu w tys. zł. (y) Liczba ekspedientek (x) ,5 6,6

Metodologia badań psychologicznych. Wykład 12. Korelacje

ANALIZA KORELACJI Korelacja między zmiennymi X i Y jest miarą siły liniowego związku między tymi zmiennymi.

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Statystyka opisowa Opracował: dr hab. Eugeniusz Gatnar, prof. WSBiF

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2013/2014

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2012/2013

Opisowa analiza struktury zjawisk statystycznych

R-PEARSONA Zależność liniowa

Badanie zależności skala nominalna

Teoretyczne podstawy analizy indeksowej klasyfikacja indeksów, konstrukcja, zastosowanie

OTWARTE FUNDUSZE EMERYTALNE W POLSCE Struktura funduszy emerytalnych pod względem liczby członków oraz wielkości aktywów

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

POLITECHNIKA OPOLSKA

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Analiza korelacji

STATYSTYKA MATEMATYCZNA

Statystyka matematyczna i ekonometria

Stanisław Cichocki. Natalia Nehrebecka. Wykład 4

W1. Wprowadzenie. Statystyka opisowa

Zawartość. Zawartość

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

Statystyka Opisowa z Demografią oraz Biostatystyka. Zmienne losowe. Aleksander Denisiuk. denisjuk@euh-e.edu.pl

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Statystyka. Tematyka wykładów. Przykładowe pytania. dr Tomasz Giętkowski wersja /13:40

REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym.

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

ANALIZA KORELACJI I REGRESJI

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Wykład z dnia 8 lub 15 października 2014 roku

JEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY

Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa

Statystyka. Wykład 13. Magdalena Alama-Bućko. 12 czerwca Magdalena Alama-Bućko Statystyka 12 czerwca / 30

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2015/2016

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Statystyka i Analiza Danych

Budowanie macierzy danych geograficznych Procedura normalizacji Budowanie wskaźnika syntetycznego

Imię, nazwisko i tytuł/stopień KOORDYNATORA (-ÓW) kursu/przedmiotu zatwierdzającego protokoły w systemie USOS Jacek Marcinkiewicz, mgr

Transkrypt:

Statystyka Opisowa z Demografią oraz Biostatystyka Analiza Współzależności Aleksander Denisiuk denisjuk@euh-e.edu.pl Elblaska Uczelnia Humanistyczno-Ekonomiczna ul. Lotnicza 2 82-300 Elblag oraz Biostatystyka p. 1

Analiza Współzależności Najnowsza wersja tego dokumentu dostępna jest pod adresem http://denisjuk.euh-e.edu.pl/ oraz Biostatystyka p. 2

Współzależność statystyczna zwiazki między zjawiskami duża liczba obserwacji wykrywanie zwiazków analiza statystyczna poprzedzana jest analiza logiczna zwiazków pary cech, każda jednostka ststystyczna scharakteryzowana jednocześnie dwoma cechami oraz Biostatystyka p. 3

Metody analizy współzależnośi korelacja wzajemne oddziaływanie regresja wpływ jednej cechy (przyczyny) na druga (skutek) forma opisu tabelaryczna (czeregi lub tablice) graficzna (diagram korelacji) parametryczna (liczbowa) zależy od rodzaju cech (ilościowe, jakościowe) oraz Biostatystyka p. 4

Ocena rodzaju zwiazku korelacja dodatnia korelacja ujemna poszczególne obserwacje moga odbiegać od stwierdzonej prawidłowości oraz Biostatystyka p. 5

Przykład (wojewódzstwo Pomorskie) powiat liczba ludności liczba podmiotów sektora publicznego bytowski 76,0 164 chojnicki 90,3 182 człuchowski 58,6 124 kartuski 98,0 170 kościerski 65,0 136 kwidzyński 82,6 146 lęborski 65,2 199 malborski 108,8 234 nowodworski 36,5 86 gdański 74,7 128 pucki 69,9 142 słupski 93,7 154 starogardski 121,0 232 tczewski 113,4 178 wejherowski 166,7 209 oraz Biostatystyka p. 6

Diagram korelacyjny! zwiazek korelacyjny dodatni zbliżony do liniowego umiarkowana siła współzależnośi oraz Biostatystyka p. 7

Miary korelacji Miara Cechy Zwiazek Prezentacja współczynnik korelacji linowej obie ilościowe liniowy szeregi, tablice Pearsona współczynnik obie ilościowe lub korelacji jakościowe w skali liniowy szeregi rang Spearmana porzadkowej współczynnik obie ilościowe lub nie ma zbieżności jakościowa i znaczenia tablice T Czuprowa ilościowa oraz Biostatystyka p. 8

Współczynnik korelacji liniowej Pearsona pokazuje siłę i kierunek współzależnośi r = n (x i x)(y i ȳ) n s x s y = i=1 i=1 i=1 n (x i x)(y i ȳ) i=1 = n n (x i x) 2 (y i ȳ) 2 i=1 i=1 n n x i y i n n x i y i i=1 i=1 i=1 ( n n ( n ) 2 ( x 2 i x i ) n n ( n ) 2 ) yi 2 y i i=1 i=1 oraz Biostatystyka p. 9

Determinacja i indeterminacja r 2 współczynnik determinacji pokazuje jaka część zmienności cechy jest wyjaśnona ukształtowaniem się drugiej cechy φ 2 = 1 r 2 współczynnik indeterminacji pokazuje jaka część zmienności cechy nie może być wyjaśnona ukształtowaniem się drugiej cechy oraz Biostatystyka p. 10

Współczynnik Pearsona. Przykład ceny działek budowlanych w zależności od odległości od centrum miasta odległość (km) 0 1 2 3 4 5 6 cena (zł/m 2 ) 1000 900 500 500 270 300 100 r = 0,959 r 2 = 0,920 oraz Biostatystyka p. 11

Współczynnik korelacji rang Spearmana wartości cech zastępujemy rangami (od 1 do n) jeżeli kilka cech maja te same rangi, zastępujemy liczba średnia zgodność uporzadkować cech przyjmuje wartości w przedziale [ 1,1] znak + oznacza uporzadkowanie zgodne znak oznacza uporzadkowanie przeciwne im bliższy do ±1, tym zwiazek jest silniejszy r s = 1 6 n d 2 i i=1 n(n 2 1), gdzie d i jest różnica między rangami oraz Biostatystyka p. 12

Współczynnik Spearmana. Przykład 1 tura wyborów 1995 roku r s = 0,542 kandydat odsetek głosów miast wsi A. Kwaśniewski 31,4 33,4 L. Wałęsa 33,4 33,4 J. Kuroń 13,3 6,3 J. Olszewski 7,0 7,2 W. Pawlak 0,5 9,5 T. Zieliński 4,6 2,5 H. Gronkiewicz-Waltz 3,5 2,7 J. Korwin-Mikke 4,3 1,4 oraz Biostatystyka p. 13

Współczynnik zbieżności T Czuprowa dowolne dwie cechy, przedstawione w postaci tablicy (zazwyczaj jakościowe) przyjmuje wartości w przedziale [0,1] im bliżej 1, tym silniejsza jest współzależność tablica korelacyjna k wierszy, dotyczacych wariantów cechy X l kolumn, dotyczacych wariantów cechy Y n ij jest liczba jednostek, posiadajacych i-ty wariant cechy X i j-ty wariant cechy Y oraz Biostatystyka p. 14

Obliczenie współczynnika T Czuprowa 1. dla każdego pola oblicza się liczebności teoretyczne ˆn ij = n i n j n, gdzie n i jest suma wiersza, n j suma kolumny 2. statystyka chi-kwadrat χ 2 = (n ij ˆn ij ) 2 ˆn ij = i j i j χ 3. współczynnik zbieżności T Czuprowa T = 2, n (k 1)(l 1) gdzie k jest ilościa wierszy, l kolumn n 2 ij ˆn ij n oraz Biostatystyka p. 15

Współczynnik T Czuprowa. Przykład czy opinia o pracy służby zdrowia zależy do płci? T = 0,10 (nie zależy) opinia M K negatywna 120 240 pozytywna 280 360 oraz Biostatystyka p. 16

Model regresji liniowej funkcja regresji opisuje wpływ, jaki wywiera przyczyna na skutku: ŷ i = f(x i ) funkcja regresji jest funkcja matematyczna określonego typu, która jest przybliżeniem faktycznej zależnośći postać funkcji ustala się na podstawie zaobserowanych wartośći (x i,y i ) zaobserwowane wartości będa się odchylały od funkcji po wpływem cech nie uwzględnionych w badaniu oraz na skutek czynników losowych: y i = ŷ i +e i e i nazywaja się resztami oraz Biostatystyka p. 17

Model regresji liniowej, cd funkcja regresji może przybrać postać liniowa lub krzywoliniowa linowa postać oznacza, że jednakowym przyrostom zmiennej niezależnej odpowiadaja jednakowe co do siły i kierunku zmiany zmiennej zależnej regresja krzywoliniowa (kwadratowa, sześcienna, wykładnicza, etc) oznacza, że jednakowym przyrostom zmiennej niezależnej odpowiadaja różne co do siły i kierunku zmiany zmiennej zależnej postać określa się na podstawie wykresu korelacyjnego oraz względów merytorycznych oraz Biostatystyka p. 18

Metoda najmniejszych kwadratów parametry odpowiedzniej funkcji regresja określa się za pomoca metody najmniejszych kwadratów: suma kwadratów odchyleń odległości zaobserowanych wartości y i od wartości teoretycznych ŷ i jest najmniejsza i (y i ŷ i ) 2 min oraz Biostatystyka p. 19

Obliczanie parametrów regresji liniowej ŷ = a+bx b jest współczynnikiem regresji wartości a i b obliczane na posdtawie wyników obserwacji: x 1, x 2, x 3,..., x n y 1, y 2, y 3,..., y n b = n x i y i x i yj n x 2 i ( x i ) 2 a = yi b x i n oraz Biostatystyka p. 20

Regresja liniowa. Przykład ceny działek budowlanych w zależności od odległości od centrum miasta odległość (km) 0 1 2 3 4 5 6 cena (zł/m 2 ) 1000 900 500 500 270 300 100 ŷ i = 952,5 147,5x i oraz Biostatystyka p. 21

Regresja liniowa jeżeli wcześniej zostały obliczone współczynnik korelacji oraz średnie i odchylenia stadardowe, to współczynniki regresji można obliczyć ze wzorów: b = r s y s x a = ȳ b x oraz Biostatystyka p. 22

Ocena dopasowania regresji sporzadzenie wykresu oraz Biostatystyka p. 23

Wariancja resztowa reszty: e i = y i ŷ i wariancja resztowa: Se 2 = (yi ŷ i ) 2 n 2 odchylenie standardowe składnika resztowego: (yi ŷ i ) 2 Se = Se 2 = n 2 pokazuje rozrzut rzeczywistych reszt w stosunku do funkcji regresji oraz Biostatystyka p. 24

Współczynnik zmienności przypadkowej Ve = Se ȳ 100 pokazuje natężenie wahań przypadkowych oraz Biostatystyka p. 25

Oszacowanie warości cech zależnych przypusza się, że zmiany w poziomie cechy zależnej sa wynikiem oddziaływania zmiennej niezależnej działania czynników losowych dobroć dopasowywania regresji do danych rzeczywistych pokazuje współczynnik deternimacji: jaka część cechy zależnej jest wyjaśniona kształtowaniem się cechy niezależnej współczynnik zbieżności (indeternimacji): jaka część cechy zależnej jest wywołana działaniem czynników losowych oraz Biostatystyka p. 26

Współczynnik zbieżnośći ϕ 2 = (yi ŷ i ) 2 (yi ȳ i ) 2 przyjmuje wartości od 0 do 1 informuje, jaka część zmienności cechy zależnej Y nie jest wyjaśniona zmianami cechy zależnej X im bliższy 0, tym funkcja jest lepiej dopasowana do danych empirycznych oraz Biostatystyka p. 27

Współczynnik determinacji R 2 = 1 ϕ 2 indeks korelacji R = R 2 w przypdaku regresji liniowej jest równy współczynnikowi korelacji Pearsona R = 1 ϕ 2 = r oraz Biostatystyka p. 28

Przykład z działkami Se = 102,98 zł/m 2 ϕ 2 = 0,08 (8%) R 2 = 0,92 r = ± R = 0,959 oraz Biostatystyka p. 29