STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Podobne dokumenty
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 3) Dariusz Gozdowski

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

PDF created with FinePrint pdffactory Pro trial version

Statystyczna analiza danych w programie STATISTICA. Dariusz Gozdowski. Katedra Doświadczalnictwa i Bioinformatyki Wydział Rolnictwa i Biologii SGGW

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

KORELACJE I REGRESJA LINIOWA

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

STATYSTYKA MATEMATYCZNA

Wprowadzenie do analizy korelacji i regresji

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Statystyka matematyczna dla kierunku Rolnictwo w SGGW. BADANIE WSPÓŁZALEśNOŚCI DWÓCH CECH. ANALIZA KORELACJI PROSTEJ.

ĆWICZENIE 11 ANALIZA KORELACJI I REGRESJI

Temat: Badanie niezależności dwóch cech jakościowych test chi-kwadrat

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Analiza korelacji

Rozdział 8. Regresja. Definiowanie modelu

Temat: BADANIE NIEZALEśNOŚCI DWÓCH CECH JAKOŚCIOWYCH TEST CHI KWADRAT. Anna Rajfura 1

Regresja i Korelacja

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Metodologia badań psychologicznych. Wykład 12. Korelacje

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Testowanie hipotez statystycznych

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

X WYKŁAD STATYSTYKA. 14/05/2014 B8 sala 0.10B Godz. 15:15

Testowanie hipotez statystycznych

Statystyka. Wykład 9. Magdalena Alama-Bućko. 7 maja Magdalena Alama-Bućko Statystyka 7 maja / 40

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

BADANIE ZALEśNOŚCI CECHY Y OD CECHY X - ANALIZA REGRESJI PROSTEJ

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

POLITECHNIKA OPOLSKA

Ekonometria. Zajęcia

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

MODELE LINIOWE. Dr Wioleta Drobik

STATYSTYKA MATEMATYCZNA

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Stosowana Analiza Regresji

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Analiza współzależności zjawisk

ĆWICZENIE 11 NIEPARAMETRYCZNE TESTY ISTOTNOŚCI

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady

Analiza współzależności dwóch cech I

Statystyczna analiza danych

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Statystyka, Ekonometria

Testowanie hipotez statystycznych

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Analiza zależności zmiennych ilościowych regresja

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Zmienna losowa dwuwymiarowa i korelacja

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Statystyka i Analiza Danych

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

Metody Ilościowe w Socjologii

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Analiza autokorelacji

WYKŁAD 8 ANALIZA REGRESJI

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Statystyka. Wykład 7. Magdalena Alama-Bućko. 3 kwietnia Magdalena Alama-Bućko Statystyka 3 kwietnia / 36

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

STATYSTYKA MATEMATYCZNA, LISTA 3

STATYSTYKA MATEMATYCZNA

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Elementarna statystyka Wnioskowanie o regresji (Inference 2 czerwca for regression) / 13

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Badanie zależności pomiędzy zmiennymi

Matematyka i statystyka matematyczna dla rolników w SGGW WYKŁAD 9. TESTOWANIE HIPOTEZ STATYSTYCZNYCH cd.

Statystyka matematyczna dla leśników

Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego

Spis treści 3 SPIS TREŚCI

Weryfikacja hipotez statystycznych

Transkrypt:

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y ) s x s y gdzie, wartość kowariancji (cov) na podstawie próby liczymy wg następującego wzoru: cov(x,y ) = 1 n 1 n i= 1 (Xi X )(Yi Y ) natomiast s x i s y są odchyleniami standardowymi dla zmiennych: X i Y

Współczynnik korelacji liniowej przyjmuje zawsze wartości w zakresie [ -1,1]. Im większa wartość bezwzględna współczynnika, tym silniejsza jest zależność liniowa między zmiennymi. r xy = 0 oznacza brak korelacji, r xy = 1 oznacza silną korelację dodatnią, jeżeli jedna zmienna (X) rośnie to również rośnie druga zmienna (Y), r xy = -1 oznacza korelację ujemną (jeżeli zmienna X rośnie, to Y maleje i na odwrót).

14 12 10 r =0,007 8 6 4 2 0 0 1 2 3 4 5 6 7 8 9 Zależność nieliniowa

Testowanie istotności korelacji Testowanie jest tylko wtedy uzasadnione, gdy obydwie zmienne mają rozkład normalny lub zbliżony do normalnego Hipoteza zerowa: H 0 :ρ=0 ρ- wartość współczynnika korelacji dla całej populacji Jeżeli r emp >r α,2,n-2 to H 0 odrzucamy. r α,2,n-2 jest wartością krytyczną współczynnika korelacji prostej Pearsona Podobnie jak w przypadku innych hipotez w programach statystycznych (wnioskowanie o istotności współzależności dwóch zmiennych odbywa się na podstawie wartości p (p<α oznacza istotna współzależność) Należy pamiętać również, że współczynnik korelacji liniowej Pearsona dobrze opisuje jedynie zależności liniowe. W przypadku, gdy zależność istnieje ale jest nieliniowa (np. punkty są położone na paraboli) wartość współczynnika korelacji może być bliska 0.

Wartości krytyczne współczynnika korelacji prostej dla poziomu α równego 0,1; 0,05; 0,02 i 0,01 df liczba stopni swobody (df=n-2)

Współczynnik korelacji rang Spearmana (r s )służy do oceny współzależności między dwiema zmiennymi. W odróżnieniu od współczynnika korelacji Pearsona można przy pomocy współczynnika korelacji Spearmana oceniać zależności nieliniowe. Przy testowaniu nie jest wymagana normalność rozkładu zmiennych, tak więc możliwe jest stosowanie tego współczynnika korelacji wtedy gdy nie możemy stosować współczynnika korelacji Persona. Wartości współczynnika korelacji rang Spearmana są z zakresu [-1, 1] a ich interpretacja jest podobna jak w przypadku współczynnika korelacji Pearsona, czyli czym wartość r s jest bliższa 1 tym zależność jest silniejsza, dodatnia, czym bliższa jest -1 tym zależność silniejsza, ujemna, a jeśli wartość r s jest bliska 0 to oznacza brak zależności lub bardzo słabą zależność. r=0,64 r s =1,00 3000 2500 2000 1500 1000 500 0 0 2 4 6 8 10 12

Regresja prosta liniowa Regresja prosta jest metodą statystyczną, w której określamy zależność jednej zmiennej (Y) od drugiej (X), czyli zależność ta jest między tylko dwiema zmiennymi. Regresja prosta liniowa Regresja liniowa to metoda szacowania wartości oczekiwanej jednej zmiennej (Y) znając wartości innej zmiennej (X) na podstawie funkcji liniowej. Szukana zmienna, Y, jest nazywana zmienną zależną, zmienna X nazywa się zmienną niezależną.

Model regresji prostej liniowej Y=a+bX+e i gdzie: b współczynnik regresji a stała regresji e i błędy losowe o rozkładzie N(0;σ e2 ) Stała regresji (a) jest zatem szacowaną średnią wartością zmiennej Y w przypadku gdy X=0, natomiast wartość współczynnika regresji (b) oznacza średnią zmianę wartości Y w przypadku gdy X zwiększymy o jedną jednostkę. Ujemna wartość współczynnika regresji (b) świadczy o ujemnej zależności, a dodatnia wartość wskazuje na dodatnią zależność

Estymację (szacowanie wartości) współczynników równania regresji prowadzi się zwykle metodą najmniejszych kwadratów, która polega na minimalizacji następującej sumy kwadratów: n i= 1 ( yi a bxi ) 2 Estymatory wartości współczynników a i b oblicza się ze wzorów: b = s xy 2 x s a = y bx

R 2 współczynnik determinacji Określa stosunek zmienności wyjaśnianej przez model regresji do zmienności całkowitej. W przypadku regresji prostej liniowej R 2 =r 2 xy Czym wartość R 2 jest bliższa 100 % (czyli 1) to zależność Y od X jest silniejsza, i na odwrót gdy wartość R 2 jest bliższa 0 % (czyli 0) to zależność Y od X jest słabsza. Wartość współczynnika determinacji jest równa w przypadku regresji ( r ) prostej liniowej kwadratowi współczynnika korelacji prostej Pearsona Testowanie hipotezy H 0 : β=0 (współczynnik regresji dla całej populacji jest równy 0) pozwala na ocenę, czy występuje istotna zależność Y od X. Jeśli tę hipotezę odrzucimy to uznajemy, że Y istotnie zależy od X. ( p<α (powyższą hipotezę odrzucamy jeśli

Y -plon (t/ha) 8 7 6 5 4 3 2 1 0 y = 0,0439x + 0,7413 R 2 = 0,8299 (82,99%) 0 20 40 60 80 100 120 140 X -nawożenie N (kg/ha)

Regresja prosta nieliniowa Nie wszystkie zależności między dwiema zmiennymi są liniowe, dlatego też czasami uzasadnione jest stosowanie innego niż liniowy modelu regresji. Stosowane są w tym celu różne inne modele regresji np. zamiast funkcji liniowej można użyć: -funkcji kwadratowej - pierwiastkowej -logarytmicznej lub innych. Dobór modelu regresji dokonuje się najczęściej na podstawie wartości współczynnika determinacji (R 2 ), większa wartość R 2 oznacza lepiej dopasowany model regresji, a tym samym lepiej opisujący zmiany Y w zależności od X. Szczególnym przykładem regresji prostej jest regresja prosta wielomianowa, czyli wykorzystanie funkcji wielomianowej, w której zmienna niezależna (X) występuje w kolejnych potęgach. Najprostszym modelem regresji wielomianowej jest funkcja kwadratowa (X występuje w pierwszej i drugiej potędze)

9 8 7 Y -plon (t/ha) 6 5 4 3 y = -0,0001x 2 + 0,0587x + 0,4438 R 2 = 0,8995 2 1 0 0 50 100 150 200 250 300 X -nawożenie N (kg/ha)