STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Podobne dokumenty
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 3) Dariusz Gozdowski

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

Statystyczna analiza danych w programie STATISTICA. Dariusz Gozdowski. Katedra Doświadczalnictwa i Bioinformatyki Wydział Rolnictwa i Biologii SGGW

PDF created with FinePrint pdffactory Pro trial version

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

KORELACJE I REGRESJA LINIOWA

STATYSTYKA MATEMATYCZNA

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

MODELE LINIOWE. Dr Wioleta Drobik

Metodologia badań psychologicznych. Wykład 12. Korelacje

Wprowadzenie do analizy korelacji i regresji

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Rozdział 8. Regresja. Definiowanie modelu

Statystyka matematyczna dla kierunku Rolnictwo w SGGW. BADANIE WSPÓŁZALEśNOŚCI DWÓCH CECH. ANALIZA KORELACJI PROSTEJ.

Regresja i Korelacja

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

STATYSTYKA MATEMATYCZNA

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Analiza korelacji

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Analiza współzależności dwóch cech I

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Analiza współzależności zjawisk

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

ĆWICZENIE 11 ANALIZA KORELACJI I REGRESJI

Wprowadzenie do technik analitycznych Metoda najmniejszych kwadratów

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Testowanie hipotez statystycznych

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

POLITECHNIKA OPOLSKA

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Testowanie hipotez statystycznych

X WYKŁAD STATYSTYKA. 14/05/2014 B8 sala 0.10B Godz. 15:15

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

ANALIZA REGRESJI SPSS

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyka. Wykład 9. Magdalena Alama-Bućko. 7 maja Magdalena Alama-Bućko Statystyka 7 maja / 40

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Statystyczna analiza danych

Statystyka i Analiza Danych

WYKŁAD 8 ANALIZA REGRESJI

Stosowana Analiza Regresji

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Ekonometria. Zajęcia

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Stanisław Cichocki. Natalia Nehrebecka

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Statystyka, Ekonometria

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Korelacja krzywoliniowa i współzależność cech niemierzalnych

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Zmienna losowa dwuwymiarowa i korelacja

Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Statystyka. Wykład 7. Magdalena Alama-Bućko. 3 kwietnia Magdalena Alama-Bućko Statystyka 3 kwietnia / 36

Temat: BADANIE NIEZALEśNOŚCI DWÓCH CECH JAKOŚCIOWYCH TEST CHI KWADRAT. Anna Rajfura 1

Zmienne zależne i niezależne

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

Analiza Współzależności

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

STATYSTYKA MATEMATYCZNA

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

BADANIE ZALEśNOŚCI CECHY Y OD CECHY X - ANALIZA REGRESJI PROSTEJ

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Egzamin z ekonometrii wersja IiE, MSEMAT

Pojęcie korelacji. Korelacja (współzależność cech) określa wzajemne powiązania pomiędzy wybranymi zmiennymi.

Metody Ilościowe w Socjologii

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Pobieranie prób i rozkład z próby

Analiza zależności zmiennych ilościowych regresja

ĆWICZENIE 11 NIEPARAMETRYCZNE TESTY ISTOTNOŚCI

Transkrypt:

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y ) s x s y gdzie, wartość kowariancji (cov) na podstawie próby liczymy wg następującego wzoru: cov(x,y ) = 1 n 1 n i= 1 (Xi X )(Yi Y ) natomiast s x i s y są odchyleniami standardowymi dla zmiennych: X i Y

Współczynnik korelacji liniowej przyjmuje zawsze wartości w zakresie [ -1,1]. Im większa wartość bezwzględna współczynnika, tym silniejsza jest zależność liniowa między zmiennymi. r xy = 0 oznacza brak korelacji, r xy = 1 oznacza silną korelację dodatnią, jeżeli jedna zmienna (X) rośnie to również rośnie druga zmienna (Y), r xy = -1 oznacza korelację ujemną (jeżeli zmienna X rośnie, to Y maleje i na odwrót).

14 12 10 r =0,007 8 6 4 2 0 0 1 2 3 4 5 6 7 8 9 Zależność nieliniowa

Testowanie istotności korelacji Testowanie jest tylko wtedy uzasadnione, gdy obydwie zmienne mają rozkład normalny lub zbliżony do normalnego Hipoteza zerowa: H 0 :ρ=0 ρ- wartość współczynnika korelacji dla całej populacji Jeżeli remp >r α,2,n-2 to H 0 odrzucamy. r α,2,n-2 jest wartością krytyczną współczynnika korelacji prostej Pearsona Podobnie jak w przypadku innych hipotez w programach statystycznych (wnioskowanie o istotności współzależności dwóch zmiennych odbywa się na podstawie wartości p (p<α oznacza istotna współzależność) Należy pamiętać również, że współczynnik korelacji liniowej Pearsona dobrze opisuje jedynie zależności liniowe. W przypadku, gdy zależność istnieje ale jest nieliniowa (np. punkty są położone na paraboli) wartość współczynnika korelacji może być bliska 0.

Współczynnik korelacji rang Spearmana (r s )służy do oceny współzależności między dwiema zmiennymi. W odróżnieniu od współczynnika korelacji Pearsona można przy pomocy współczynnika korelacji Spearmana oceniać zależności nieliniowe. Przy testowaniu nie jest wymagana normalność rozkładu zmiennych, tak więc możliwe jest stosowanie tego współczynnika korelacji wtedy gdy nie możemy stosować współczynnika korelacji Persona. Wartości współczynnika korelacji rang Spearmana są z zakresu [-1, 1] a ich interpretacja jest podobna jak w przypadku współczynnika korelacji Pearsona, czyli czym wartość r s jest bliższa 1 tym zależność jest silniejsza, dodatnia, czym bliższa jest -1 tym zależność silniejsza, ujemna, a jeśli wartość r s jest bliska 0 to oznacza brak zależności lub bardzo słabą zależność. r=0,64 r s =1,00 3000 2500 2000 1500 1000 500 0 0 2 4 6 8 10 12

Regresja prosta liniowa Regresja prosta jest metodą statystyczną, w której określamy zależność jednej zmiennej (Y) od drugiej (X), czyli zależność ta jest między tylko dwiema zmiennymi. Regresja prosta liniowa Regresja liniowa to metoda szacowania wartości oczekiwanej jednej zmiennej (Y) znając wartości innej zmiennej (X) na podstawie funkcji liniowej. Szukana zmienna, Y, jest nazywana zmienną zależną, zmienna X nazywa się zmienną niezależną.

Model regresji prostej liniowej Y=a+bX+e i gdzie: b współczynnik regresji a stała regresji e i błędy losowe o rozkładzie N(0;σ e2 ) Stała regresji (a) jest zatem szacowaną średnią wartością zmiennej Y w przypadku gdy X=0, natomiast wartość współczynnika regresji (b) oznacza średnią zmianę wartości Y w przypadku gdy X zwiększymy o jedną jednostkę. Ujemna wartość współczynnika regresji (b) świadczy o ujemnej zależności, a dodatnia wartość wskazuje na dodatnią zależność

Estymację (szacowanie wartości) współczynników równania regresji prowadzi się zwykle metodą najmniejszych kwadratów, która polega na minimalizacji następującej sumy kwadratów: n i= 1 ( yi a bxi ) 2 Estymatory wartości współczynników a i b oblicza się ze wzorów: b = s xy 2 x s a = y bx

R 2 współczynnik determinacji Określa stosunek zmienności wyjaśnianej przez model regresji do zmienności całkowitej. W przypadku regresji prostej liniowej R 2 =r 2 xy Czym wartość R 2 jest bliższa 100 % (czyli 1) to zależność Y od X jest silniejsza, i na odwrót gdy wartość R 2 jest bliższa 0 % (czyli 0) to zależność Y od X jest słabsza. Wartość współczynnika determinacji jest równa w przypadku regresji ( r ) prostej liniowej kwadratowi współczynnika korelacji prostej Pearsona Testowanie hipotezy H 0 : β=0 (współczynnik regresji dla całej populacji jest równy 0) pozwala na ocenę, czy występuje istotna zależność Y od X. Jeśli tę hipotezę odrzucimy to uznajemy, że Y istotnie zależy od X. ( p<α (powyższą hipotezę odrzucamy jeśli

Y -plon (t/ha) 8 7 6 5 4 3 2 1 0 y = 0,0439x + 0,7413 R 2 = 0,8299 (82,99%) 0 20 40 60 80 100 120 140 X -nawożenie N (kg/ha)

Regresja prosta nieliniowa Nie wszystkie zależności między dwiema zmiennymi są liniowe, dlatego też czasami uzasadnione jest stosowanie innego niż liniowy modelu regresji. Stosowane są w tym celu różne inne modele regresji np. zamiast funkcji liniowej można użyć: -funkcji kwadratowej - pierwiastkowej -logarytmicznej lub innych. Dobór modelu regresji dokonuje się najczęściej na podstawie wartości współczynnika determinacji (R 2 ), większa wartość R 2 oznacza lepiej dopasowany model regresji, a tym samym lepiej opisujący zmiany Y w zależności od X. Szczególnym przykładem regresji prostej jest regresja prosta wielomianowa, czyli wykorzystanie funkcji wielomianowej, w której zmienna niezależna (X) występuje w kolejnych potęgach. Najprostszym modelem regresji wielomianowej jest funkcja kwadratowa (X występuje w pierwszej i drugiej potędze)

9 8 7 Y -plon (t/ha) 6 5 4 3 y = -0,0001x 2 + 0,0587x + 0,4438 R 2 = 0,8995 2 1 0 0 50 100 150 200 250 300 X -nawożenie N (kg/ha)

Regresja wielokrotna Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X 1, X 2, X 3,...) na zmienną zależną (Y). Najprostszym modelem regresji wielokrotnej, a jednocześnie najczęściej stosowanym w praktyce jest regresja wielokrotna liniowa.

Regresja wielokrotna liniowa Jeżeli zmienna zależna (Y) jest determinowana przez więcej niż jedną zmienną niezależną (X i ) to estymowany model regresji możemy zapisać równaniem: Y = a + b 1 X 1 + b 2 X 2 +... + b k X k Gdzie a- stała regresji, b 1, b 2,... cząstkowe współczynniki regresji Interpretacja wartości stałej regresji i cząstkowych współczynników regresji jest podobna jak w przypadku regresji prostej. Stała regresji jest to szacowana średnia wartość Y, gdy wszystkie zmienne niezależne (X i ) są równe 0. Wartość każdego cząstkowego współczynnika regresji oznacza szacowaną średnią zmianę wartości Y, gdy dana wartość zmiennej niezależnej (X i ) zwiększy się o jedną jednostkę. W przypadku regresji wielokrotnej zastosowanie metody najmniejszych kwadratów to minimalizowanie sumy: n i= 1 (yi a b xi b xi... bkxik ) 1 1 2 2 2

Graficzne przedstawienie regresji z 2 zmiennymi niezależnymi (X 1, X 2 )

Dobór modelu regresji Nie wszystkie zmienne niezależne (X i ) które bierzemy do analizy regresji wielokrotnej mają wpływ na zmienna zależną (Y), a więc uzasadnione jest usunięcie tych zmiennych i pozostawienie tylko tych zmiennych niezależnych, które mają istotny wpływ. W tym celu stosuje się różne metody pozwalające na usunięcie z modelu regresji nieistotnie wpływających zmiennych niezależnych i pozostawienie tylko tych, których wpływ udowodnimy. Jedną z metod, które są dość często stosowane jest regresja krokowa, która pozwala na dobór modelu z pominięciem zmiennych słabo lub nie wpływających na zmienną zależną.