ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Podobne dokumenty
ρ siła związku korelacyjnego brak słaba średnia silna bardzo silna

Ćwiczenie 5 PROGNOZOWANIE

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

ĆWICZENIE 11 ANALIZA KORELACJI I REGRESJI

PDF created with FinePrint pdffactory Pro trial version

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

KORELACJE I REGRESJA LINIOWA

Wykład 12 Testowanie hipotez dla współczynnika korelacji

ĆWICZENIE 11 NIEPARAMETRYCZNE TESTY ISTOTNOŚCI

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Wykład 3 Hipotezy statystyczne

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Wprowadzenie do analizy korelacji i regresji

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Statystyka matematyczna dla kierunku Rolnictwo w SGGW. BADANIE WSPÓŁZALEśNOŚCI DWÓCH CECH. ANALIZA KORELACJI PROSTEJ.

Analiza autokorelacji

X WYKŁAD STATYSTYKA. 14/05/2014 B8 sala 0.10B Godz. 15:15

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

POLITECHNIKA OPOLSKA

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

Zadanie 1 Odp. Zadanie 2 Odp. Zadanie 3 Odp. Zadanie 4 Odp. Zadanie 5 Odp.

Testowanie hipotez statystycznych.

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

KURS STATYSTYKA. Lekcja 5 Analiza współzależności ZADANIE DOMOWE. Strona 1

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

STATYSTYKA MATEMATYCZNA

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Testowanie hipotez statystycznych.

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 3) Dariusz Gozdowski

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Analiza korelacji

Regresja i Korelacja

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

Rozdział 8. Regresja. Definiowanie modelu

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Testowanie hipotez statystycznych

Spis treści 3 SPIS TREŚCI

Wielkość dziennego obrotu w tys. zł. (y) Liczba ekspedientek (x) ,5 6,6

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

ĆWICZENIE 1 Statystyka opisowa. Testowanie zgodności STATYSTYKA OPISOWA wstępna analiza danych I. Miary położenia: Mediana Moda

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

Statystyka matematyczna

Analiza współzależności zjawisk

Weryfikacja hipotez statystycznych

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Zmienna losowa dwuwymiarowa i korelacja

Statystyka matematyczna dla leśników

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

Statystyka, Ekonometria

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

Hipotezy statystyczne

Porównanie dwóch rozkładów normalnych

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

Hipotezy statystyczne

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Elementarne metody statystyczne 9

STATYSTYKA MATEMATYCZNA, LISTA 3

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Analiza współzależności dwóch cech I

STATYSTYKA wykład 8. Wnioskowanie. Weryfikacja hipotez. Wanda Olech

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Testy nieparametryczne

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Elementy statystyki wielowymiarowej

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Zadanie 1. Analiza Analiza rozkładu

LISTA 4. 7.Przy sporządzaniu skali magnetometru dokonano 10 niezależnych pomiarów

RACHUNEK PRAWDOPODOBIEŃSTWA I STATYSTYKA MATEMATYCZNA

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

LABORATORIUM 9 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Wykład 9 Testy rangowe w problemie dwóch prób

WERYFIKACJA HIPOTEZ STATYSTYCZNYCH

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Transkrypt:

ZJAZD 4 KORELACJA, BADANIE NIEZALEŻNOŚCI, ANALIZA REGRESJI Analiza korelacji i regresji jest działem statystyki zajmującym się badaniem zależności i związków pomiędzy rozkładami dwu lub więcej badanych cech w populacji generalnej. KORELACJA I BADANIE NIEZALEŻNOŚCI Korelacja między dwiema zmiennymi losowymi X i Y oznacza zależność między tymi zmiennymi. Miarą siły związku między zmiennymi jest m. in. współczynnik korelacji Pearsona ρ(x, Y), dany wzorem: E( X Y ) E ( X ) E ( Y ) ( X, Y ) gdzie E(x) jest wartością oczekiwaną x X Y W programie Statgraph współczynnik ten wyznaczany jest za pomocą odpowiedniego narzędzia. Wartość współczynnika ρ określa stopień zależności liniowej między dwiema badanymi zmiennymi. Ma on następujące własności: przyjmuje wartości od do +. jeżeli zmienne są niezależne, to ρ = 0. jeżeli istnieje zależność liniowa między zmiennymi, to ρ = lub ρ = -. Znak współczynnika korelacji mówi o kierunku związku: "+" oznacza związek dodatni, tj. wzrost (spadek) wartości jednej cechy powoduje wzrost (spadek) wartości drugiej (związek wprost proporcjonalny). "-" oznacza kierunek ujemny, tj. wzrost (spadek) wartości cechy powoduje spadek (wzrost) wartości drugiej (związek odwrotnie proporcjonalny). Przyjmuje się następujące oceny siły związku: r siła związku korelacyjnego 0.0-0. brak 0. - 0.4 słaba 0.4-0.7 średnia 0.7-0.9 silna 0.9 -.0 bardzo silna Czasem w badaniach mamy do czynienia z cechami niemierzalnymi, które można jednak uporządkować. W takim przypadku do badania zależności można wykorzystywać współczynnik korelacji rangowej Spearmana r s (rangowanie jest ponumerowaniem

od do n ciągu n-elementowego ustawionego w kolejności rosnącej) o następujących własnościach: wartość współczynnika korelacji rangowej należy do przedziału [-, ]. jeżeli r s = występuje idealna zgodność rang obu zmiennych jeżeli r s = - występuje idealna niezgodność rang jeżeli r s jest bliskie zeru brak jest zależności między zmiennymi. Testowanie niezależności na podstawie współczynnika korelacji. Współczynnik korelacji Pearsona Rozpatrujemy hipotezę o braku skorelowania między dwiema cechami X i Y, czyli hipotezę: H : ρ = 0 Hipotezę tę można testować wobec jednej z hipotez alternatywnych: K : ρ 0 K : ρ < 0 K 3 : ρ > 0 Do weryfikacji hipotezy H wykorzystuje się statystykę testującą t R R n gdzie R jest współczynnikiem korelacji Persona obliczonym na podstawie wartości próbkowych. Zbiory krytyczne tej statystyki są odpowiednio postaci: W, t 3 W, t W t n n n n, t, UWAGA: Jeżeli rozkład (X, Y) jest dwuwymiarowym rozkładem normalnym, to hipoteza H jest równoważna hipotezie o niezależności cech X i Y. Wówczas hipotezą alternatywną jest hipoteza o zależności cech (hipoteza K ). Współczynnik korelacji rangowej Spearmana Jeżeli badana próbka nie pochodzi z populacji o dwuwymiarowym rozkładzie normalnym, wówczas do badania niezależności cech X i Y wykorzystuje się współczynnik korelacji rangowej Spearmana.

Weryfikujemy hipotezę H : cechy X i Y są niezależne Wobec hipotezy alternatywnej K : cechy X i Y są zależne a) Jeżeli liczność próbki n 30 to statystyką testującą testu jest r s czyli obliczony na podstawie elementów próby współczynnik korelacji rangowej, natomiast zbiorem krytycznym jest zbiór W, u u, n n b) Dla próbek o liczności 8 < n < 30 statystykę testową oblicza się ze wzoru r t s n r s Dla tej statystyki zbiorem krytycznym jest zbiór W, t t n n, Procedury programu Statgraphic W celu obliczenia współczynników korelacji dla dwóch zmiennych korzystamy z narzędzia Describe/Numeric Data/Multiple-Variable Analysis a następnie spośród opcji tekstowych wyświetlonego okna wybieramy Correlations dla wyznaczenia współczynnika korelacji liniowej Persona lub Rank Correlations dla wyznaczenia współczynnika korelacji rangowej Spearmana. W oknie wyświetlają się następujące wielkości: wartość współczynnika korekacji, liczność badanej próbki i poziom krytyczny p-value. Jeżeli badane cechy mają dwuwymiarowy rozkład normalny, to wówczas do zbadania niezależności tych cech możemy skorzystać z poziomu krytycznego. 3

ANALIZA REGRESJI Termin regresja oznacza zależność funkcyjną pomiędzy cechami. Będziemy szukać zależności postaci: Y = f(x) + ε lub Y = f(x, X,... X n ) + ε gdzie ε jest błędem losowym o rozkładzie normalnym o wartości oczekiwanej E(ε) = 0 i nieznanej wariancji N(0, σ). Regresja liniowa prosta opisuje zależność między cechami X i Y w postaci funkcji liniowej: Y = a + bx + ε Istnieją metody umożliwiające oszacowanie nieznanych parametrów a i b oraz nieznanej wariancji σ losowego błędu ε. W ramach zajęć wykorzystuje się program Statgraphic w celu określenia funkcji regresji. Model regresji liniowej może posłużyć do znajdowania dowolnej zależności nieliniowej typu: G(Y) = a + bh(x) + ε gdzie G i H są funkcjami znanymi. Wybrane modele nieliniowe oparte na powyższej zależności: model wykładniczy (exponential) Y e a bx model odwrotnościowy Y (reciprocal Y) Y a bx model potęgowy (multiplicative) Y ax b model logarytmiczny (logarithmic) Y a bln( X ) model pierwiastkowy X (square root X) Y a b X model pierwiastkowy Y (square root Y) Y a b X Procedury programu Statgraphic Aby wyznaczyć model regresji prostej dla zmiennej niezależnej X i zmiennej zależnej Y należy wybrać narzędzie Relate/Simple Regression, wskazać zmienną niezależną i zmienną zależną. W oknie analizy domyślnym modelem jest model liniowy. Aby znaleźć model najlepiej dopasowany dla zmiennych należy spośród opcji tekstowych wybrać Comparison of Alternative Models. Najlepszym model dla badanych cech jest model o największej wartości R kwadrat (pierwszy model z listy). Aby wykonać analizę dla wybranego modelu należy zaznaczyć jego nazwę o opcjach okna Regression Analysis. Opcja 4

tekstowa Forecasts umożliwia wyznaczenie nieznanych wartości zmiennej zależnej Y na podstawie podanych (w opcjach okna) wartości zmiennej niezależnej X. ZADANIA Zadanie Obliczyć i zinterpretować współczynniki kowariancji i korelacji Pearsona dla zmiennych numerycznych ze zbioru danych CARDATA (zbiór ten zawiera zestaw parametrów charakteryzujących różne modele samochodów, np. średnie zużycie paliwa, moc, przyspieszenie, waga, cena). Użyć m.in. zmiennej mpg (mile na galon paliwa) do utworzenia nowej zmiennej kml zawierającej wartości zmiennej mpg w jednostkach: kilometry na litr; wskazówka: mila =.609 km oraz galon = 3.785 l. Zadanie Grupę złożona z studentów poddano ocenie dwóch profesorów pod względem ich zdolności. W tabeli podano oceny względne (od oceny najwyższej do oceny najniższej ) Student A B C D E F G H I J K Ocena prof. X 7 8 3 6 0 9 4 5 Ocena prof Y 4 8 0 5 9 3 7 6 Czy można twierdzić, że oceny obu profesorów są zbieżne? Zweryfikować odpowiednią hipotezę statystyczną. Przyjąć a = 0.05. Zadanie 3 Na wylosowanej grupie 0 uczniów przeprowadzono testy oceniające stopień zręczności oraz agresywności, uzyskując wyniki (liczby punktów): Uczeń 3 4 5 6 7 8 9 0 Zręczność 3 9 45 36 49 4 30 5 4 38 Agresja 45 48 6 8 38 36 8 3 37 Ocenić stopień zależności badanych cech. Zweryfikować hipotezę o ich niezależności na poziomie istotności 0.05. Zadanie 4 Badano wpływ dawki pewnego leku na puls pacjenta. Oto wyniki uzyskane dla 0 osób: Dawka leku 4 4 8 8 6 6 3 3 Puls 60 58 63 6 67 65 70 70 74 73 Dopasować właściwy model regresji do tych danych. Korzystając z wyznaczonego modelu obliczyć prognozowane wartości pulsu przy dawkach leku równych 0 oraz 40. 5