Spis treści. LaboratoriumV: Podstawy korelacji i regresji. Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

Podobne dokumenty
Spis treści. Laboratorium III: Testy statystyczne. Inżynieria biomedyczna, I rok, semestr letni 2013/2014 Analiza danych pomiarowych

Wprowadzenie do analizy korelacji i regresji

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

KORELACJE I REGRESJA LINIOWA

POLITECHNIKA OPOLSKA

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium VIII: Analiza kanoniczna

Wprowadzenie do analizy dyskryminacyjnej

X WYKŁAD STATYSTYKA. 14/05/2014 B8 sala 0.10B Godz. 15:15

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Stochastyczne Metody Analizy Danych. PROJEKT: Analiza kluczowych parametrów turbin wiatrowych

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

ANALIZA KORELACJI Korelacja między zmiennymi X i Y jest miarą siły liniowego związku między tymi zmiennymi.

W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

ĆWICZENIE 11 ANALIZA KORELACJI I REGRESJI

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

Sposoby prezentacji problemów w statystyce

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Ekonometria. Zajęcia

ĆWICZENIE 11 NIEPARAMETRYCZNE TESTY ISTOTNOŚCI

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

Rozdział 8. Regresja. Definiowanie modelu

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

(x j x)(y j ȳ) r xy =

Analiza Statystyczna

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Satysfakcja z życia rodziców dzieci niepełnosprawnych intelektualnie

PDF created with FinePrint pdffactory Pro trial version

Analiza zależności liniowych

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Analiza korelacji

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Wykład 3 Hipotezy statystyczne

Analiza regresji - weryfikacja założeń

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 3) Dariusz Gozdowski

Wykład 12 Testowanie hipotez dla współczynnika korelacji

WYKŁAD 8 ANALIZA REGRESJI

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna

Analiza współzależności dwóch cech I

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

1. Wprowadzenie do oprogramowania gretl. Wprowadzanie danych.

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Zmienne zależne i niezależne

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Spis treści. Laboratorium II: Analiza opisowa. Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

ρ siła związku korelacyjnego brak słaba średnia silna bardzo silna

Regresja i Korelacja

MODELE LINIOWE. Dr Wioleta Drobik

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Analiza współzależności zjawisk

Statystyka. Wykład 9. Magdalena Alama-Bućko. 7 maja Magdalena Alama-Bućko Statystyka 7 maja / 40

Weryfikacja hipotez statystycznych

Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne)

Metodologia badań psychologicznych. Wykład 12. Korelacje

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Jak sprawdzić normalność rozkładu w teście dla prób zależnych?

Spis treści 3 SPIS TREŚCI

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

2. Wprowadzenie do oprogramowania gretl. Podstawowe operacje na danych.

Zadania ze statystyki, cz.6

TABELE WIELODZIELCZE

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota

Wykład 4: Statystyki opisowe (część 1)

Testy nieparametryczne

1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Testowanie hipotez statystycznych.

REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym.

STATYSTYKA MATEMATYCZNA

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Transkrypt:

1 LaboratoriumV: Podstawy korelacji i regresji Spis treści Laboratorium V: Podstawy korelacji i regresji...1 Wiadomości ogólne...2 1. Wstęp teoretyczny....2 1.1 Korelacja....2 1.2 Funkcja regresji....5 2. Korelacja i regresja w STATISTICE...6 2.1 Macierz korelacji wszystkich zmiennych....6 2.2 Macierz korelacji dla wybranych zmiennych....8 2.3 Test istotności związku pomiędzy zmiennymi....9 2.4 Kolorowa mapa korelacji... 10 2.5 Wykresy rozrzutu dla korelacji liniowej.... 10 2.6 Dopasowanie krzywej regresji do zależności liniowych i nieliniowych.... 11 Ćwiczenia... 13 Częśd I... 13 Częśd II... 14

2 Wiadomości ogólne 1. Wstęp teoretyczny. 1.1 Korelacja. Korelacja to narzędzie matematyczne służące do dokładnego określenia stopnia, w jakim dwie zmienne są ze sobą powiązane. W badaniach korelacji określa się siłę, kształt oraz kierunek takiego powiązania. Jeśli chodzi o postad, można mówid o dwóch rodzajach zależności (rys.1): Liniowej; Krzywoliniowej; Rys.1 Wykresy rozrzutu obrazujące zależności pomiędzy zmiennymi X i Y: liniową i przykładową krzywoliniową. Istnieją też dwa rodzaje związku pomiędzy zmiennymi: funkcyjny i statystyczny. Funkcyjny ma miejsce wtedy, gdy każdej wartości zmiennej niezależnej X odpowiada dokładnie jedna wartośd zmiennej zależnej Y. Związek statystyczny polega na tym, że określonym wartościom jednej zmiennej odpowiadają ściśle określone wartości drugiej zmiennej. Można zatem obliczyd wartośd zmiennej zależnej Y w zależności od wartości zmiennej niezależnej X. Na rys.1 związki pomiędzy zmiennymi mają charaktery statystyczny. Wykresy ilustrujące związki pomiędzy zmiennymi to wykresy rozrzutu. Na osi pionowej zaznacza się zmienną zależną, natomiast na poziomej niezależną. Najczęściej punkty odpowiadające poszczególnym wartościom cech leżą mniej więcej wzdłuż linii korelacji. Korelacja dodatnia występuje wtedy, gdy wraz ze wzrostem wartości jednej cechy, wzrastają wartości drugiej. Korelacja ujemna gdy wraz ze wzrostem wartości jednej cechy maleją wartości drugiej.

3 Rys.2 Od lewej: korelacja dodatnia, korelacja ujemna, brak korelacji pomiędzy zmiennymi. Siłę związku pomiędzy zmiennymi określa się przy pomocy wielu parametrów liczbowych. Pierwszym z nich jest kowariancja. Załóżmy, że w wyniku pewnego doświadczenia uzyskano pary liczb, gdzie Tak przedstawioną zmienną nazywamy dwuwymiarową zmienną losową i oznaczamy jako. Kowariancję dla takiej próby wyliczamy wg wzoru: Gdzie oraz to średnie obu zmiennych. Wyliczona w ten sposób na podstawie próby kowariancja jest oczywiście estymatorem kowariancji populacji. Jeżeli małym wartościom zmiennej X odpowiadają małe wartości zmiennej Y, natomiast dużym wartościom X duże wartości Y, to kowariancja przyjmuje wartośd dodatnią obydwa iloczyny są w większości dodatnie. Dodatnia wartośd kowariancji oznacza, że przy wzroście wartości zmiennej X wzrastają także wartości zmiennej Y, a więc mamy do czynienia z korelacją dodatnią. Jeśli ze wzrostem wartości zmiennej X, wartości zmiennej Y maleją korelacja ujemna. Gdy zmienne nie są skorelowane, wówczas. Wadą kowariancji jest fakt, że jej wartośd zależy od jednostek pomiaru cech nie można zatem oceniad siły zależności. Okazuje się jednak, że wystarczy kowariancję podzielid przez iloczyn odchyleo standardowych, aby otrzymad miarę siły powiązania niezależną od jednostki pomiarowej, przyjmującą wartości z przedziału. Jest to współczynnik korelacji liniowej Pearsona: Gdzie oraz to średnie obu zmiennych, natomiast oraz to odchylenia standardowe. Znak współczynnika informuje o kierunku korelacji ( + oznacza korelację dodatnią, natomiast - ujemną), natomiast wartośd bezwzględna mówi o sile związku (patrz Tab.1). Współczynnik stosuje się, gdy zależnośd pomiędzy zmiennymi jest liniowa.

4 Tab.1 Siła związku na podstawie współczynnika korelacji liniowej Pearsona. r xy = 0 zmienne nie są skorelowane; 0 < r xy <0,1 korelacja nikła; 0,1 r xy <0,3 korelacja słaba; 0,3 r xy <0,5 korelacja przeciętna; 0,5 r xy <0,7 korelacja wysoka; 0,7 r xy <0,9 korelacja bardzo wysoka; 0,9 r xy <1 korelacja prawie pełna. Podobnie jak w przypadku innych parametrów statystycznych, współczynnik korelacji liniowej Pearsona dla populacji generalnej nie jest znany. Należy go oszacowad na podstawie danych z próby. Wyznaczony w ten sposób parametr jest estymatorem współczynnika korelacji w populacji generalnej, oznaczanego jako ρ. Na podstawie wartości r xy wyznaczonej dla danych z próby można wnioskowad na temat występowania związku i jego siły pomiędzy cechami dla całej populacji. Do sprawdzenia, czy w populacji również występuje związek pomiędzy zmiennymi, wykorzystuje się odpowiednie testy statystyczne. Test istotności współczynnika korelacji Pearsona. Założenia testu: zmienne X i Y mają dwuwymiarowy rozkład normalny o nieznanym współczynniku korelacji liniowej. Z populacji wylosowano n-elementową próbę, na podstawie której wyliczono parametr r xy. Hipotezy wyglądają następująco: H 0 : ρ = 0 H 1 : ρ 0 (lub ρ <0, lub ρ >0) Do zweryfikowania tak sformułowanej hipotezy zerowej wykorzystujemy statystykę testową: Test z o rozkładzie normalnym Dla Test t o rozkładzie t-studenta o (n-1) stopniach swobody Dla Przeprowadzenie testu istotności dla współczynnika korelacji pozwala stwierdzid, czy zależnośd pomiędzy zmiennymi X i Y widoczna dla danych z próby jest tylko przypadkowa, czy jest prawidłowością dla całej populacji. Podsumowując rozważania na temat korelacji, przy interpretacji współczynnika należy pamiętad: Najważniejsza jest istotnośd korelacji nie interesują nas korelacja, która jest bardzo wysoka, ale nie jest istotna; Wartośd współczynnika korelacji linowej bliska 0, nie zawsze oznacza brak jakiejkolwiek korelacji, jedynie brak korelacji liniowej. Na wartośd współczynnika duży wpływ mają wartości odstające.

5 1.2 Funkcja regresji. Funkcja regresji jest z kolei narzędziem do badania mechanizmu powiązania pomiędzy zmiennymi. Wybór postaci funkcji regresji dokonuje się po wstępnej analizie materiału statystycznego, na podstawie wykresu rozrzutu lub źródeł literaturowych opisujących zależności, jakich dla danych zmiennych można się spodziewad. Najprostszymi, a jednocześnie najczęściej spotykanymi zależnościami są te, które mają postad liniową. Krzywe regresji dla postaci liniowej to proste regresji, mające następującą postad: y = ax +b Gdzie: x oraz y to wartości cech odpowiednio dla zmiennej X oraz Y. Parametry równania dla prostej regresji szacuje się metodą najmniejszych kwadratów. Parametr a nosi nazwę parametru regresji, natomiast parametr b to wyraz wolny równania regresji. Parametr jest estymatorem współczynnika regresji liniowej. Określa o ile jednostek zmieni się (wzrośnie lub zmaleje) wartośd zmiennej zależnej, podczas gdy wartośd zmiennej niezależnej zmieni się (wzrośnie lub zmaleje) o jedną jednostkę. Współczynnik ten ma duże znaczenie przy interpretacji zależności. Na wykresach rozrzutu sporządzanych w STATISTICE obok prostej zaznaczane są przerywane linie określające 95% przedział ufności dla prostej. Daje to pełniejszą informację o linii regresji. Wyznaczone granice ufności są różne dla różnych wartości zmiennej X, ulegają rozszerzeniu wraz z oddalaniem się od wartości średniej dla tej zmiennej. Obszar pomiędzy tymi krzywymi to przedział ufności. Rys.3 Prosta regresji wraz z 95% przedziałem ufności, którego granice wyznaczają przerywane linie. W wyniku dopasowywania prostej regresji pakiet STATISTICA wylicza również współczynnik determinacji R 2. Współczynnik ten jest jedną z podstawowych miar jakości dopasowania modelu. Współczynnik determinacji wyliczamy jako iloraz:

6 Współczynnik ten określa jaka częśd zmienności całkowitej zmiennej losowej Y została wyjaśniona regresją liniową względem zmiennej X. Gdzie sumy kwadratów odchyleo spełniają równanie: Równośd ta wyraża podział całkowitej sumy kwadratów odchyleo dla zmiennej Y na dwa składniki: sumę kwadratów odchyleo wyjaśnioną efektem regresji oraz resztową sumę kwadratów odchyleo nie wyjaśnioną regresją. Czyli biorąc pod uwagę odchylenia od średniej wszystkich punktów zmiennej Y: 2. Korelacja i regresja w STATISTICE 2.1 Macierz korelacji wszystkich zmiennych. Z poziomu menu głównego można też wejśd do okna służącego do analizy regresji: Statystyka/Regresja wieloraka: Rys.4 Okno regresji wielorakiej. W oknie tym naciskając na przycisk Zmienne, dokonuje się wyboru zmiennych do analizy. Jako zmienną niezależną należy wskazad Czas, natomiast jako zmienne zależne, pozostałe zmienne. W tym samym oknie, ale w zakładce Więcej można zaznaczyd dodatkowo opcję Przeglądaj statystyki opisowe, macierze korelacji. Można tu wybrad także działanie dla sytuacji, w której brakuje danych najczęściej zaznacza się usuwanie przypadkami. Po wciśnięciu przycisku OK pojawia się okno:

7 Rys.5. Przegląd statystyk opisowych. W oknie tym w poszczególnych zakładkach znajdują się różne przyciski, najwięcej w zakładce Więcej. Aby uzyskad wykresy rozrzutu dla wszystkich poszczególnych zmiennych ze sobą należy kliknąd na przycisk Macierzowy wykres korelacji. Rys.6 Macierz korelacji dla wszystkich zmiennych. Analiza tych wykresów, pozwala stwierdzid pomiędzy którymi zmiennymi będzie występowała korelacja, jaka jest też jej postad. W dwiczeniu najbardziej interesuje nas wpływ Czasu na rozwój komórek w poszczególnych środowiskach (wykresy rozrzutu, w których czas jest na osi poziomej). Na podstawie analizy Macierzowego wykresu korelacji można stwierdzid w których środowiskach komórki mają sprzyjające warunki wzrostu, w których nie.

8 2.2 Macierz korelacji dla wybranych zmiennych. W celu zgromadzenia na jednym wykresie macierzowym tylko tych zmiennych, które charakteryzują się np. korelacją ujemną należy wejśd w menu głównym w Statystyki/Statystyki podstawowe i tabele, a następnie wybrad Macierze korelacji: Rys.7 Statystyki podstawowe i tabele. Po wejściu do Macierzy korelacji pojawia się okno: Rys.8 Okno korelacji, po lewej zakładka Podstawowe, po prawej zakładka Więcej. Przycisk Macierz wykresów rozrzutu dla wybranych zmiennych pozwala sporządzid taki macierzowy wykres jedynie dla wybranych zmiennych. W przypadku dwiczenia należy pamiętad, że zmienna czas

9 będzie odpowiadad osi x. Na rys. 9 przedstawiono wykresy rozrzutu dla wszystkich zmiennych, które wykazują ujemną korelację utworzony za pomocą przycisku Macierz wykresów rozrzutu: Rys.9 Macierzowy wykres korelacji dla danych wykazujących ujemna korelację. 2.3 Test istotności związku pomiędzy zmiennymi. Następnie w zakładce Opcje w oknie z rys. 10 można przeprowadzid test statystyczny istotności korelacji. Hipoteza zerowa domyślnie zakłada brak korelacji pomiędzy zmiennymi, alternatywna natomiast mówi o tym, że korelacja występuje (zobacz jak wyglądają hipotezy w teście istotności współczynnika korelacji liniowej w rozdz.1.1). W odpowiednim miejscu można wybrad wartośd poziomu istotności, dla którego test zostanie przeprowadzony. Rys.10 Wybór parametrów testu korelacji.

10 Aby przeprowadzid test, należy wcisnąd przycisk Podsumowanie dostępny w prawym górnym rogu okna, a następnie wskazad zmienne dla których zostaną jednocześnie wyliczone współczynniki korelacji liniowej Pearsona oraz zostanie przeprowadzony test. W jednej liście zmiennych należy wskazad wszystkie zmienne zależne, a w osobnej zmienną niezależną. W wyniku tego działania wyświetli się tabela zawierająca wartości współczynnika korelacji liniowej Pearsona wszystkich wybranych zmiennych zależnych ze zmienną niezależną. Rys.11 Wynik testu, współczynniki korelacji. Podświetlone na czerwono wartości wskazują, gdzie na zadanym poziomie istotności (jeśli został ustawiony dla podświetlenia) należy odrzucid hipotezę zerową mówiąca o braku korelacji między zmiennymi. Na podstawie znaku oraz wartości tego parametru można określid siłę związku. 2.4 Kolorowa mapa korelacji W zakładce Kolory można jeszcze wybrad, jakie parametry zostaną wyświetlone w macierzy korelacji najlepiej wybrad Prostą macierz (wartości r). Dostępny w tej zakładce przycisk mapa kolorowa pozwala uzyskad macierz korelacji pokolorowaną w zależności od wielkości i znaku współczynnika r. Rys.12 Kolorowa mapa korelacji. 2.5 Wykresy rozrzutu dla korelacji liniowej. Przy pozostawieniu takiego samego wyboru zmiennych, zmieniając zakładkę w oknie Korelacji (rys.13) na zakładkę Więcej, można sporządzid osobne wykresy rozrzutu dla każdej zmiennej względem czasu.

11 Rys.13 Okno korelacji, zakładka Więcej. Wystarczy kliknąd przycisk 2W Rozrzutu i w skoroszycie pojawią się wszystkie potrzebne wykresy. Nad każdym wykresem widoczne jest również równanie prostej regresji. 2.6 Dopasowanie krzywej regresji do zależności liniowych i nieliniowych. W przypadku widocznego związku nieliniowego do rozrzutu punktów można dopasowad odpowiednią krzywą wchodząc przez menu główne Wykresy/Wykresy 2W/Wykresy rozrzutu. Rys.14 Dostęp do ogólnych modeli regresji. W oknie które pojawi się na ekranie w wyniku tego działania należy wybrad zakładkę Więcej, a w niej odpowiednią krzywą do dopasowania:

12 Rys.15 Wykresy rozrzutu 2W. Dopasowując w tym samym oknie prostą regresji dla zależności liniowej, można wyliczyd także parametry: R 2, współczynnik korelacji liniowej oraz wyznaczyd równanie prostej regresji. Rys.16 Wykresy rozrzutu 2W. Dopasowanie funkcji liniowej z wyliczeniem statystyk i pasem ufności.

13 Ćwiczenia Część I Dwie osoby przeprowadziły pomiary wzrostu dzieci w różnym wieku. Każda z osób dokonała pomiarów wzrostu tej samej grupy dzieci, wyniki pomiarów przedstawiają poniższe tabele: Pomiary osoby 1: i Wiek (X) Wzrost (Y) 1 12 142-2,5-10 25 2 13 145-1,5-7 10,5 3 14 150-0,5-2 1 4 15 154 0,5 2 1 5 16 159 1,5 7 10,5 6 17 162 2,5 10 25 wiek:, wzrost:, Pomiary osoby 2: (średni wiek: średni wzrost: ): i Wiek (X) Wzrost (Y) 1 12 1,42-2,5-0,01 0,25 2 13 1,45-1,5-0,007 0,105 3 14 1,50-0,5-0,002 0,01 4 15 1,54 0,5 0,002 0,01 5 16 1,59 1,5 0,007 0,105 6 17 1,62 2,5 0,01 0,25 wiek:, wzrost:, 1) Na podstawie powyższych wyników oblicz wartości parametrów kowariancji oraz współczynnika korelacji liniowej Pearsona dla pomiarów wykonanych przez każdą z osób: Kto wykonał pomiary? Osoba 1 Osoba 2 2) Co można powiedzied na podstawie porównania wartości parametrów wyliczonych dla każdej z osób? 3) Przeprowadź test istotności dla współczynnika korelacji liniowej Pearsona w oparciu o pomiary wykonane przez osobę 1. Test wykonaj na poziomie istotności. Zanotuj hipotezę zerową oraz alternatywną i kolejne kroki weryfikacji. Do odczytania wartości krytycznej wykorzystaj Kalkulator prawdopodobieństwa.

14 Część II Dane znajdują się w pliku dane5.sta. Zawierają informację na temat ilości komórek na jednostkę powierzchni, hodowanych w różnych warunkach, w środowiskach, które zawierały różne czynniki wpływające na szybkośd namnażania (litery od A do I). W czasie zerowym można przyjąd, że ilośd komórek na jednostkę powierzchni dla każdej zmiennej była taka sama. 1. Wczytaj plik z danymi. Wskazówka: W kolejnych punktach przyjmuj zmienną Czas za zmienną niezależną, a pozostałe zmienne jako zależne. 2. Sporządź macierz korelacji dla wszystkich zmiennych (patrz rozdz. 2.1). Na podstawie macierzy wyznacz te zmienne, które charakteryzują się korelacją liniową dodatnią, korelacją liniową ujemną i brakiem korelacji liniowej ze zmienną Czas. Korelacja liniowa dodatnia Korelacja liniowa ujemna Brak korelacji liniowej Zmienne 3. Sporządź macierz korelacji tylko dla tych zmiennych, które charakteryzują się dodatnią korelacją ze zmienną Czas. (patrz rozdz. 2.2). 4. Zweryfikuj hipotezy zerowe mówiące o istnieniu związku pomiędzy poszczególnymi zmiennymi i zmienną Czas na poziomie istotności 0,05. Wykorzystaj informacje z rozdz. 2.3. Które ze zmiennych wykazują istotne związki ze zmienną Czas? Wskazówka: przy wyborze zmiennych wybierz dwie listy zmiennych w pierwszej wprowadź Czas, a w drugiej pozostałe zmienne, w zakładce Opcje zaznacz opcję, aby macierz korelacji wyświetlała r, p i N. 5. Wykorzystując Tab.1 określ siłę związku każdej ze zmiennych ze zmienną Czas. W celu zilustrowania siły związków sporządź kolorową mapę korelacji dla wszystkich zmiennych (rozdz. 2.4). 6. Dla zmiennych, dla których test wskazał występowanie istotnego związku ze zmienną czas sporządź wykresy rozrzutu z 95% przedziałem ufności. Skorzystaj z rozdz.2.5. a. Zapisz równania dla prostych regresji dla tych przypadków. Wskazówka: równania wyświetlają się nad każdym wykresem rozrzutu. b. Który z nich odpowiada najsilniejszej korelacji dodatniej, a który najsilniejszej ujemnej? c. O ile jednostek zmieni się (wzrośnie lub zmaleje) wartośd zmiennej zależnej dla przypadków z podpunktu b), podczas gdy wartośd zmiennej Czas zmieni się o jedną jednostkę? 7. Na podstawie macierzy korelacji sporządzonej w punkcie 2 wskaż zmienną która charakteryzuje się korelacją nieliniową. Dopasuj do niej odpowiednią krzywą regresji i wykonaj wykres rozrzutu z 95% pasem ufności. Skorzystaj z informacji z rozdz. 2.6 8. Wykorzystując wykresy rozrzutu dostępne z menu Wykresy/Wykresy2D/Wykresyrozrzutu sporządź wykres rozrzutu dla zmiennej I z 95% pasem ufności, dopasowując funkcję liniową, zaznaczając statystyki:

15 a. Zanotuj równanie prostej regresji, wartośd współczynnika korelacji liniowej oraz współczynnika determinacji. Na podstawie równania wylicz ile komórek na jednostkę powierzchni będzie przypadad po 100, a ile po 200 godzinach. b. Klikając prawym klawiszem na sporządzonym w ten sposób wykresie rozrzutu na obserwację odstającą, z podręcznego menu wybierz Włącz/Wyłącz. W wyniku tego działania zaznaczony punkt zostaje usunięty z analizy. Zanotuj nowe równanie regresji i wartośd współczynnika korelacji liniowej. Na podstawie tego równania wylicz ile komórek na jednostkę powierzchni będzie przypadad po 100, a ile po 200 godzinach. c. Co można powiedzied o wpływie obserwacji odstającej na wyniki analizy z podpunktu a?