Powtórzenie do kolokwium

Podobne dokumenty
NIEZALEŻNOŚĆ i ZALEŻNOŚĆ między cechami Test chi-kwadrat, OR, RR

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

PDF created with FinePrint pdffactory Pro trial version

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

Zadanie 1 Odp. Zadanie 2 Odp. Zadanie 3 Odp. Zadanie 4 Odp. Zadanie 5 Odp.

Wykład 3 Hipotezy statystyczne

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

Kolokwium ze statystyki matematycznej

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Wnioskowanie statystyczne. Statystyka w 5

Estymacja parametrów rozkładu cechy

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Rozdział 8. Regresja. Definiowanie modelu

Testowanie hipotez statystycznych

Statystyka matematyczna

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Wprowadzenie do analizy korelacji i regresji

KORELACJE I REGRESJA LINIOWA

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

Testowanie hipotez statystycznych.

Z poprzedniego wykładu

STATYSTYKA MATEMATYCZNA, LISTA 3

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Testowanie hipotez statystycznych.

Statystyka matematyczna dla leśników

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

1.1 Wstęp Literatura... 1

Weryfikacja hipotez statystycznych

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

LISTA 4. 7.Przy sporządzaniu skali magnetometru dokonano 10 niezależnych pomiarów

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Rozkłady statystyk z próby

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

ρ siła związku korelacyjnego brak słaba średnia silna bardzo silna

POLITECHNIKA OPOLSKA

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Wykład 10 ( ). Testowanie hipotez w rodzinie rozkładów normalnych przypadek nieznanego odchylenia standardowego

Rozkłady prawdopodobieństwa zmiennych losowych

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Testowanie hipotez statystycznych.

STATYSTYKA MATEMATYCZNA

Temat: BADANIE NIEZALEśNOŚCI DWÓCH CECH JAKOŚCIOWYCH TEST CHI KWADRAT. Anna Rajfura 1

RACHUNEK PRAWDOPODOBIEŃSTWA I STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA

Własności statystyczne regresji liniowej. Wykład 4

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

WNIOSKOWANIE STATYSTYCZNE

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Elektrotechnika II [ Laboratorium Grupa 1 ] 2016/2017 Zimowy. [ Laboratorium Grupa 2 ] 2016/2017 Zimowy

Estymacja punktowa i przedziałowa

STATYSTYKA MATEMATYCZNA

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa

Wydział Matematyki. Testy zgodności. Wykład 03

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Rozkłady statystyk z próby. Statystyka

Problem dwóch prób: porównywanie średnich i wariancji z populacji o rozkładach normalnych. Wrocław, 23 marca 2015

Zwiększenie wartości zmiennej losowej o wartość stałą: Y=X+a EY=EX+a D 2 Y=D 2 X

Prawdopodobieństwo Odp. Odp. 6 Odp. 1/6 Odp. 1/3. Odp. 0, 75.

X WYKŁAD STATYSTYKA. 14/05/2014 B8 sala 0.10B Godz. 15:15

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

Powtórzenie wiadomości z rachunku prawdopodobieństwa i statystyki.

Opis przedmiotu. Karta przedmiotu - Probabilistyka I Katalog ECTS Politechniki Warszawskiej

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

ANALIZA STATYSTYCZNA WYNIKÓW BADAŃ

Gdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k 1).

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

dr Jerzy Pusz, st. wykładowca, Wydział Matematyki i Nauk Informacyjnych Politechniki Warszawskiej B. Ogólna charakterystyka przedmiotu

Weryfikacja hipotez statystycznych

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA

Statystyka matematyczna dla kierunku Rolnictwo w SGGW. BADANIE WSPÓŁZALEśNOŚCI DWÓCH CECH. ANALIZA KORELACJI PROSTEJ.

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Porównanie modeli statystycznych. Monika Wawrzyniak Katarzyna Kociałkowska

Statystyka matematyczna. Wykład VI. Zesty zgodności

Transkrypt:

Powtórzenie do kolokwium

Zakres materiału: Rozkład dwumianowy Rozkład normalny Przedziały ufności dla frakcji oraz średniej przy nieznanej wariancji Testy istotności: frakcji, próbkowy i dwupróbkowy test t-studenta Test niezależności chi-kwadrat Regresja liniowa i zależność cech: współczynnik korelacji Pearsona i Spermana, prosta regresji.

Rozkład dwumianowy Rozkład prawdopodobieństwa Wykres słupkowy Dystrybuanta Parametry rozkładu Wartość oczekiwana (przeciętna, średnia) Wariancja Przybliżenie rozkładem normalnym

Rozkład dwumianowy-przykład Obliczyć wartość przeciętną (oczekiwaną) zmiennej losowej dyskretnej X oznaczającej liczbę orłów w 3 niezależnych rzutach monetą.

Rozkład prawdopodobieństwa Mamy 3 próby Bernoulliego z p=0.5 P(X=0)=choose(3,0)*0.5^0*0.5^3 #[1] 0.125 P(X=1)=choose(3,1)*0.5^1*0.5^2 #[1] 0.375 P(X=2)=choose(3,2)*0.5^2*0.5^1 #[1] 0.375 P(X=3)=choose(3,3)*0.5^3*0.5^0 #[1] 0.125

Dystrybuanta

Dystrybuanta Narysuj dystrybuantę zmiennej X (liczby orłów w 3 rzutach) Aby narysować dystrybuantę użyj następujących komend: x=c(0,1,2,3) y=c(0, 0.125, 0.5, 0.875, 1) a=stepfun(x,y) plot.stepfun(a,verticals=false,main="wykr es dystrybuanty")

Wartość oczekiwana i wariancja EX=0*0.125+1*0.375+2*0.375+3*0.125 EX 1.5 EX=n*p=3*0.5=1.5 Var(X)= n*p*(1-p)=3*0.5*0.5=0.75

Rozkład normalny Typ zmiennej losowej Rozkład prawdopodobieństwa Parametry rozkładu Przykłady rozkładów normalnych Standaryzacja Odczyt z tablic

Rozkłady prawdopodobieństwa

Rozkład normalny-przykład Podaj w przybliżeniu ile osób z grupy 200 osób waży od 65 do 75 kilogramów, jeśli wiadomo, że rozkład wagi tej grupy osób ma rozkład normalny o średniej 70 kg i odchyleniu 5 kg. Rozwiązanie: X-waga losowo wybranej osoby P(65<X<75)=P(X<75)-P(X<65) Dokonujemy standaryzacji zmiennej Z=(X-70)/5

czyli P(65<X<75)=P(Z<(75-70)/5)-P(Z<(65-70)/5) =P(Z<1)-P(Z<-1)=2P(Z<1)-1=0.68 Stąd w przybliżeniu około 200*0.68=136 osób z tej grupy waży między 65 a 75 kg.

Przybliżenie rozkładu dwumianowego rozkładem normalnym Przybliżony przedział ufności dla frakcji elementów wyróżnionych w populacji Test dla frakcji elementów wyróżnionych w populacji

Przedział ufności dla frakcji wyróżnionej w populacji- przykład Podaj 95% przedział ufności dla frakcji osób chorych na ropniaka płuc wśród wszystkich chorych na choroby płuc, jeśli na podstawie próby reprezentacyjnej 1000 osób ustalono, że na ropniaka płuc chorowało 10% pacjentów poradni chorób płuc.

Korzystamy ze wzoru: Rozwiązanie: pˆ(1 pˆ) pˆ(1 pˆ) pˆ * z, pˆ * z n n k=100 # ilość osób z ropniakiem wśród 1000 chorych poradni chorób płuc. n=1000 # rozmiar próby p ˆ k / n = 100/1000=0.1 # oszacowana częstość występowania ropniaka wśród chorób płuc

z=z(1-alfa/2) # kwantyl odpowiedniego rzędu z rozkładu normalnego N(0,1), alfa=0.05, z=z(0.975)=1.96 n=1000, phat=0.1, z=1.96 Podstawiając do wzoru otrzymujemy: L=phat-sqrt(phat*(1-phat)/n)*z= 0.0814058 P=phat+sqrt(phat*(1-phat)/n)*z= 0.1185942 Stąd z 95 % ufnością możemy ocenić, że chorzy na ropniaka płuc stanowią od 8.14% do 11.86% wszystkich chorób płuc.

Przedział ufności dla średniej w populacji normalnej o nieznanej wariancji Czas wykonania pewnej analizy możemy traktować jako zmienną losową o rozkładzie normalnym. Podać 90% przedział ufności dla średniego czasu pewnej analizy na podstawie poniższej próby (w sek.) x=c(10.3, 15.1, 13.8, 16.4, 13, 15.2, 14.8, 16.4, 16.1, 15.1)

Korzystamy ze wzoru: X S ttab ( ; n 1), X ttab( ; n 1) n S n

n=10 x=c(10.3, 15.1, 13.8, 16.4, 13, 15.2, 14.8, 16.4, 16.1, 15.1) srednia=mean(x)=14.62 odchylenie=sd(x)=1.86 alfa=0.1 t=qt(1-alfa/2,n-1)=1.83 # odpowiedni kwantyl z rozkładu t-studenta o n-1 stopniach swobody

Obliczamy końce przedziału: L=mean(x)-t*odchylenie/sqrt(n)=13.54 P=mean(x)+t*odchylenie/sqrt(n)=15.70 Z 90% ufnością możemy twierdzić, że średni czas analizy wynosi od 13.54 do 15.70 sekund.

Testowanie hipotez statystycznych Test dla frakcji (proporcji, odsetka) elementów wyróżnionych w populacji Jednopróbkowy test t-studenta Test t-studenta dla par powiązanych Test t-studenta dla par niepowiązanych (jednakowe wariancje) Test niezależności chi-kwadrat

Test dla frakcji - przykład Czy można twierdzić (na poziomie istotności 0.05) na podstawie danych o ropniaku płuc, że występuje u 10% pacjentów chorych na płuca? Rozwiązanie: Dane: n=1000, k=100, phat=k/n=0.1 Weryfikujemy H 0 : p=0.1 przeciw H 1 : p jest różne od 0.1

Statystyka testowa jest postaci Z n pˆ p 0 p 0 (1 p 0 ) gdzie p 0 jest hipotetyczną wielkością frakcji, u nas wynosi 0.1

U nas Z=0, alfa=0.05, więc odpowiedni kwantyl z rozkładu normalnego wynosi z(1-alfa/2)=1.96, zbiorem krytycznym dla H 0 jest suma przedziałów:, 1.961.96, Nie ma podstaw do odrzucenia H 0. Można twierdzić, że chorzy na ropniaka stanowią 10% populacji chorych na płuca.

Jednopróbkowy test t-studenta Zważono 81 chomików uzyskując następujące wyniki (w gramach): średnia 54 oraz odchylenie standardowe 15.4. Czy na poziomie istotności 0.05 można twierdzić, że średnia waga chomika wynosi więcej od 50 gram?

Testujemy hipotezę H 0 : Rozwiązanie: przeciw hipotezie H 1 : 50 Statystyka testowa jest postaci gdzie S=15, Stąd T=2.4 X 54 T 50 S Odpowiedni kwantyl z rozkładu t-studenta o n-1 stopniach swobody wynosi t=1.66. n 50 X

Zbiór krytyczny dla H 0 jest postaci: t ( 2, n 1), 1.66, odrzucamy hipotezę H 0 (na poziomie istotności 0.05) waga chomików wynosi więcej niż 50 gram.

Test t-studenta dla par powiązanych Badano skuteczność diety odchudzającej na 7 pacjentkach. Wyniki wagi ciała (w kg) były następujące: Przed dietą: 78, 84, 68, 74, 94, 78, 79 Po diecie: 73, 75, 68, 70, 92, 80, 68 Czy na poziomie istotności 0.05 można sądzić, że dieta była skuteczna? Przyjąć, że waga ciała ma rozkład normalny.

Rozwiązanie: Weryfikujemy hipotezę H 0 : wobec hipotezy H 1 : x=c(78, 84, 68, 74, 94, 78, 79) y=c(73, 75, 68, 70, 92, 80, 68) d=x-y 5 9 0 4 2-2 11 mean(d)=4.14, sd(d)=4.67 n=7 1 2 1 2

Statystyka testowa ma postać: T=sqrt(n)*mean(d)/sd(d)=2.35 Odrzucamy H 0 gdy T>t, gdzie t=t(2alfa,n-1) # odpowiedni kwantyl. Z tablic t=qt(0.95,6)=1.94, więc T>t czyli należy odrzucić H0. Można uznać, że dieta jest skuteczna.

Test t-studenta dla par niepowiązanych (jednakowe wariancje) Na terenie Puszczy Niepołomickiej odłowiono po 9 samców i 9 samic nornicy rudej. Po przeniesieniu do laboratorium u każdego osobnika zmierzono masę ciała: samce: 35 30 26 29 22 31 25 19 31 samice: 21 27 18 24 21 23 34 16 28 Czy samce różniły się od samic średnią masą ciała (przy poziomie istotności 0,05)?

Rozwiązanie: Weryfikujemy hipotezy: H 0 : wobec hipotezy H 1 : 1 2 Statystyka testowa jest postaci: T ( n 1 2 1) S1 ( n2 1) S n n 2 1 2 1 n x=c(35, 30, 26, 29, 22, 31, 25, 19, 31) y=c(21, 27, 18, 24, 21, 23, 34, 16, 28) 1 2 x 1 x 2 2 2 1 1 n 2

Odrzucamy H 0 gdy gdzie t jest kwantylem rzędu 1-alfa/2 z rozkładu t-studenta o n 1 +n 2-2 stopniach swobody. n 1 =n 2 =9 mean(x)=27.5 mean(y)=23.5 sd(x)=5 sd(y)=5.05 T t

T =(27.5-23.5)/sqrt((8*5^2+8*5.5^2)*(1/9+1/9)/(9+9-2))= 1.614 t=qt(0.975,16)=2.12, więc nie ma podstaw do odrzucenia H 0. Samice i samce średnio tyle samo ważą.

Przykład: chi-kwadrat niezależniości H 0 : brak zależności między cechami X i Y przeciw hipotezie alternatywnej H 1 : cechy są zależne Statystyka testowa jest postaci:

Przykład: chi-kwadrat niezależniości 2 k l n ij n i n j / n 2 n n i1 j1 i j / n

Rozkład chi-kwadrat qchisq((1-alfa),(k-1)) Wartości statystyki > qchisq(0.95,(k-1)*(l-1)) świadczą przeciw Ho

Przykład W trzech szpitalach zastosowano nowa metodę leczenia pewnej choroby. W szpitalu A na n 1 =100 leczonych zaobserwowano 80 przypadków poprawy, w szpitalu B na n 2 =50 leczonych - 30 przypadków poprawy, a w szpitalu C na n 3 =80 leczonych - 60. Czy szansa wyleczenia zależy od szpitala? Przyjąć poziom istotności równy 0.05.

A B C suma Wartości obserwowane (empiryczne) Brak_p 20 20 20 60 popr 80 30 60 170 suma 100 50 80 230 obliczamy wartości brzegowe obliczamy wartości oczekiwane Brak_p 26,08696 13,04348 20,86957 popr 73,91304 36,95652 59,13043 kwadraty reszt jako składniki Chi kwadrat 60*100/230 26.08696 ((20-26.08696)^2)/26.08696 1.420291 Brak_p 1,42029 3,710145 0,036232 popr 0,501279 1,309463 0,012788 chi-kwadrat obliczona statystyka 6,990196 Suma kwadratów reszt

chi-kwadrat z tablic 5.99 df= (w-1)*(k-1)=(2-1)*(3-1)=2 alfa=0.05 zbiór krytyczny [5.99,+niesk) Ho: wiersze i kolumny niezależne (nie ma zalenożności miedzy stanem pacjenta a szpitalami) Decyzja: statystyka obliczona 6.99 wpada do zbioru krytycznego [5.99,+niesk) odrzucamy Ho na korzyść H1: wykryto zależność (miedzy szpitalami a stanem zdrowia pacjenta) na poziomie istotności 0.05 Pearson's Chi-squared test data: rbind(niepopr, popr) X-squared = 6.9902, df = 2, p-value = 0.03035 p-value <0.05 Decyzja: p-value <0.05 odrzucamy H 0

W przypadku, gdy test niezależności chi kwadrat odrzuci hipotezę o niezależności cech o sile i kierunku zależności między cechami możemy dowiedzieć z współczynników korelacji. Własności i interpretacja współczynników korelacji Spearmana i Pearsona. Kiedy je stosujemy.

Współczynnik korelacji Spermana Ustalić natężenie współzależności między opiniami o nauczycielach dyrektora szkoły i wizytatora. Opinie te zostały wydane na podstawie kontroli całokształtu pracy zawodowej i kwalifikacji nauczycieli. Wyniki kontroli ujęto w punktach: Dyrektora: 81, 65, 75, 73, 65, 87, 78, 93, 83, 75 Wizytatora: 78, 64, 74, 69, 67, 87, 83, 92, 79, 71

Rozwiązanie: x=c(81, 65, 75, 73, 65, 87, 78, 93, 83, 75) y=c(78, 64, 74, 69, 67, 87, 83, 92, 79, 71) rank(x) 7.0 1.5 4.5 3.0 1.5 9.0 6.0 10.0 8.0 4.5 rank(y) 6 1 5 3 2 9 8 10 7 4 d=rank(x)-rank(y) 1.0 0.5-0.5 0.0-0.5 0.0-2.0 0.0 1.0 0.5

d^2 1.00 0.25 0.25 0.00 0.25 0.00 4.00 0.00 1.00 0.25 n=10 rsperm=1-6*sum(d^2)/(n*(n^2-1))=0.96 Otrzymany wynik wskazuje, że współzależność opinii dyrektora i wizytatora jest bardzo silna. Oceniając nauczycieli, zarówno dyrektor, jak i wizytator kierowali się podobnymi kryteriami.

Współczynnik korelacji Pearsona n i i n i i n i i i ny y nx x nxy y x r 1 2 2 1 2 2 1

Współczynnik korelacji Pearsona Wartość r zawiera się zawsze w przedziale <-1,+1>, Pozwala ocenić kierunek i siłę współzależności liniowej między dwiema cechami, Kierunek współzależności: r >0 wtedy większej wartości jednej cechy odpowiada większa wartość drugiej. Mówi się, że cechy korelują dodatnio. r<0 wtedy większej wartości jednej cechy odpowiada mniejsza wartość drugiej. Mówi się, że cechy korelują ujemnie. Siła współzależności: Im bardziej r różni się od zera tym większa jest współzależność liniowa badanych cech. Wartość r = 0 oznacza brak zależności liniowej między cechami. Wartość r = 1 lub r = -1 oznacza, że między cechami zachodzi zależność liniowa. Każdą wartość jednej cechy można obliczyć mając wartość drugiej cechy wg równania y=a+bx. r jest miarą przybliżenia wykresu punktów indywidualnych linią prostą (im bardziej r jest bliskie 1 tym bardziej wykres punktów indywidualnych jest bliski linii prostej.

Regresja liniowa Badano zależność między dawką preparatu X (w mg) a poziomem stężenia we krwi pewnego hormonu Y (w mg). Otrzymano następujące wyniki: x=c(10, 15, 20, 25, 30, 35, 40) y=c(5, 7, 6, 11, 15, 14, 20) Oblicz współczynnik korelacji Pearsona i podaj prostą regresji y=a+bx

n=7 w1=sum(x*y)-n*mean(x)*mean(y) w2=sqrt(sum(x^2)-n*mean(x)^2)* sqrt*(sum(y^2)-n*mean(y)^2) r=w1/w2=0.95 # bardzo silna korelacja dodatnia

y=a+bx r=0.95 b=r*sd(y)/sd(x)=0.48 a=mean(y)-b*mean(x)=-1 Prosta regresji: y=-1+0.48*x

Prosta regresji i wykres rozproszenia danych

Oszacuj jakiego poziomu hormonu Y możemy się spodziewać stosując 22 mg substancji X. Rozwiązanie: y*=-1+0.48*22= 9.56 Odp. 9.56 mg.