Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Podobne dokumenty
Rozdział 8. Regresja. Definiowanie modelu

Prognoza sprawozdania finansowego Bilans

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Przykład 2. Stopa bezrobocia

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Przykład 1 ceny mieszkań

Ekonometria. Zajęcia

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Testowanie hipotez statystycznych

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp

PDF created with FinePrint pdffactory Pro trial version

Statystyka matematyczna dla leśników

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Wprowadzenie do analizy korelacji i regresji

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

Kilka uwag o testowaniu istotności współczynnika korelacji

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

MODELE LINIOWE. Dr Wioleta Drobik

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

Egzamin z ekonometrii wersja IiE, MSEMAT

Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

t y x y'y x'x y'x x-x śr (x-x śr)^2

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Testowanie hipotez statystycznych

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Projekt zaliczeniowy z Ekonometrii i prognozowania Wyższa Szkoła Bankowa w Toruniu 2017/2018

Wstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński

KORELACJE I REGRESJA LINIOWA

POLITECHNIKA OPOLSKA

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Nieliniowe. Liniowe. Nieliniowe. Liniowe. względem parametrów. Linearyzowane. sensu stricto

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Regresja logistyczna (LOGISTIC)

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

Statystyka Matematyczna Anna Janicka

Projekt zaliczeniowy z Ekonometrii i prognozowania Wyższa Szkoła Bankowa w Toruniu 2014/2015

Ekonometria Ćwiczenia 19/01/05

Hipotezy statystyczne

Własności statystyczne regresji liniowej. Wykład 4

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1

Niestacjonarne zmienne czasowe własności i testowanie

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 3

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Hipotezy statystyczne

WNIOSKOWANIE STATYSTYCZNE

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Zaawansowana eksploracja danych - sprawozdanie nr 1 Rafał Kwiatkowski 89777, Poznań

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Statystyka matematyczna i ekonometria

166 Wstęp do statystyki matematycznej

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

Budowa modelu i testowanie hipotez

Statystyka matematyczna i ekonometria

Badanie zależności skala nominalna

Ruch jednostajnie przyspieszony wyznaczenie przyspieszenia

12/30/2018. Biostatystyka, 2018/2019 dla Fizyki Medycznej, studia magisterskie. Estymacja Testowanie hipotez

5. Model sezonowości i autoregresji zmiennej prognozowanej

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

Metodologia badań psychologicznych. Wykład 12. Korelacje

3. Analiza własności szeregu czasowego i wybór typu modelu

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Metody statystyki medycznej stosowane w badaniach klinicznych

Analiza korelacyjna i regresyjna

Analiza autokorelacji

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Szkice rozwiązań z R:

Transkrypt:

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817 Zadanie 1: wiek 7 8 9 1 11 11,5 12 13 14 14 15 16 17 18 18,5 19 wzrost 12 122 125 131 135 14 142 145 15 1 154 159 162 164 168 17 Wykres rozrzutu z dodaną linią trendu: wiek wzrost 18 16 y = 4,1475x + 87,723 R 2 =,6188 14 12 1 8 6 4 2 2 4 6 8 1 12 14 16 18 2 1

PODSUMOWANIE WYJŚCIE Statystyki regresji Wielokrotność R,7866589 R kwadrat,6188322 Dopasowany R kwadrat 1,1428571 Błąd standardowy 12,72451 Obserwacje 1 ANALIZA WARIANCJI df SS MS F Istotność F Regresja 16 368,156 23,98 22,729 #LICZBA! Resztkowy 14 2266,781 161,9129 Razem 3 5946,938 Przecięcie wiek Współczynniki Błąd standardowy t Stat Wartośćp Górne 95,% 4E36 4E249 7 1,3E37 8 9,6E222 9 1 4,2E38 11 2266,781 11,5 368,156 12,843756,843751 1,3343,965916 2,6534,96592 13 3,8E148 14 14 1,425 15 4E282 16 4,25E+92 17 3,7E6 18 87,723488 12,124 7,3459 4E6 61,96465 113,48 61,9647 18,5 4,1475314,869956 4,767518,3 2,2816596 6,134 2,28166 Równanie regresji: y = 4,1475314x + 87,723488 Wyznaczone błędy standardowe można przyjąć jako dopuszczalne (nie są porównywalne z obliczonymi współczynnikami równania). Test istotności parametrów modelu H współczynniki jest równy zero (nieistotny) H 1 współczynnik różny od zera (istotny) Poziom istotności: α =,5 2

Prawdopodobieństwo, że współczynnik przy wyrazie x jest równe wynosi,3, a prawdopodobieństwo, że wyraz wolny jest równy wynosi 4 * 1 6. Ponieważ,3 < α i 4 * 1 6 < α, zatem przy założeniu prawdziwości hipotezy H zaszło zdarzenie bardzo mało prawdopodobne. Należy zatem odrzucić hipotezę H i przyjąć hipotezę alternatywną. Uzyskane współczynniki są istotne. Globalny test istotności: H model nieistotny statystycznie H 1 model istotny statystycznie Poziom istotności: α =,5 Wartość Istotność F, zatem < α. Przy założeniu prawdziwości hipotezy H zaszło zdarzenie mało prawdopodobne, więc należy odrzucić hipotezę H i przyjąć hipotezę alternatywną. Model jest istotny statystycznie. Przy tak założonym modelu wysokość człowieka w wieku 14,5 roku wynosiłaby 147,86269 cm. Współczynnik korelacji wynosi (zaledwie),7866589, a wartość współczynnika determinacji R 2 jedynie,6188322. Współczynniki te mogłyby zostać poprawione, gdyby z danych usunięto wartości odstające (outliers). W powyższych danych jest to wpis (14, 1). Wyniki po usunięciu samotnika : 18 16 y = 4,349x + 88,689 R 2 =,9937 14 12 1 8 6 4 2 2 4 6 8 1 12 14 16 18 2 3

Statystyki regresji Wielokrotność R,9968424 R kwadrat,99369478 Dopasowany R kwadrat 1,15384615 Błąd standardowy 1,38944643 Obserwacje 1 ANALIZA WARIANCJI df SS MS F Istotność F Regresja 15 3955,327 263,6868 248,7837 ####### Resztkowy 13 25,972981 1,93561 Razem 28 398,4 Współczynniki Błąd standardowy t Stat Wartośćp Górne 95,% Przecięcie x,954195,24,9998119 8544 8545,86 8544,96 7 2,9E+25 8 9 97,78581 1 25,97298 11 3955,327 11,5,93757,93757 1,3355613,188,29628,18785 12 2,9E+147 13 14 12,9118 15 1,3E296 16 5,69E+86 17 6,5E+32 18 88,6888958 1,31175882 67,6167 6,2E18 85,855 91,5228 85,85514 18,5 4,348571,951661 45,26349 1,86E15 4,9939 4,5132 4,993918 Jak widać wartość współczynnika korelacji liniowej Pearsona uległa znacznej poprawie i wynosi,9968424. Prawdopodobieństwo popełnienia błędu pierwszego rodzaju podczas weryfikacji współczynników również zostało zredukowane i wynosi odpowiednio: 6,2*1 18 dla wyrazu wolnego i 1,86*1 15 dla współczynnika przy zmiennej x (wiek). Model naturalnie jest istotny statystycznie. Równanie regresji przyjmuje postać: y = 4,348571x + 88,6888958 Warto zauważyć, iż przy stosowaniu równania regresji należy przyjąć sensowny zakres jego stosowalności. Powyższy wzór na pewno nie może być zastosowany do oszacowania wzrostu sześćdziesięciolatka (ok. 347 cm) Proponuję więc zakres od do 21 lat (czyli mniej więcej do zakończenia procesu wzrostu kośćca człowieka). 4

Zadanie 2: x y,2 1,69,3 1,24,5,693 1 3 1,99 5 1,69 6 1,792 7 1,946 9 2,197 1 2,394 14 2,693 18 2,89 22 3,91 3 3,41 38 3,638 45 3,87 49 3,892 54 3,989 58 4,6 62 4,127 5 4 y = 1,6Ln(x) +,6 R 2 =,9998 3 2 1 1 2 3 4 5 6 7 1 2 Wykres jednoznacznie wskazuje, iż w danych występuje bardzo silna zależność. Nie jest ona jednak liniowa. W celu przeprowadzenia analizy korelacji liniowej postanowiłem logarytmować wartości zmiennych x w celu uzyskania zależności liniowej. 5

y ln(x) 1,69 1,6943791 1,24 1,239728,693,69314718 1,99 1,98612289 1,69 1,69437912 1,792 1,791759469 1,946 1,94591149 2,197 2,197224577 2,394 2,3258593 2,693 2,6395733 2,89 2,89371758 3,91 3,9142453 3,41 3,41197382 3,638 3,63758616 3,87 3,8666249 3,892 3,89182298 3,989 3,98898447 4,6 4,644311 4,127 4,127134385 5 4 y =,9992x,56 R 2 =,9998 3 2 1 2 1 1 2 3 4 5 1 2 Między zmiennymi y i ln(x) istnieje bardzo silna zależność liniowa. 6

Statystyki regresji Wielokrotność R,999917798 R kwadrat,99983562 Dopasowany R kwadrat,999826469 Błąd standardowy,23767796 Obserwacje 2 ANALIZA WARIANCJI df SS MS F Istotność F Regresja 1 61,8418932 61,84189 19472,48 1,63E35 Resztkowy 18,116835,565 Razem 19 61,852615 Współczynniki Błąd standardowy t Stat Wartośćp Górne 95,% Przecięcie,564754,84467,666862,5133186,23262,1253,2326 Zmienna X 1,999219972,321 33,8663 1,627E35,992875 1,5565,992875 Zarówno współczynnik korelacji Pearsona jak i wartość R 2 są bardzo bliskie wartości 1. Równanie: y =,999219972 * ln(x),564754 Test istotności parametrów modelu: H współczynnik jest zerowy (jest zatem nieistotny) H 1 współczynnik jest niezerowy (jest zatem istotny) poziom istotności: α =,5 Ponieważ 1,627 * 1 35 (prawdopodobieństwo zdarzenia, że współczynnik przy zmiennej x będzie równy ) < α, zatem odrzucam hipotezę H i przyjmuję hipotezę alternatywną. W przypadku testowania istotności wyrazu wolnego, nie ma podstaw do odrzucenia hipotezy H. Nie można więc uznać, że wyraz wolny jest istotny. Z uwagi na wielkości błędu standardowego, który jest porównywalny z wyrazem wolnym, oraz na prawdopodobieństwo osiągnięcia przez wyraz wolny wartości, można przyjąć, że równanie regresji liniowej przyjmie postać: y = ln(x). Globalny test istotności modelu: H model jest nieistotny statystycznie H 1 model jest istotny statystycznie poziom istotności: α =,5 Ponieważ 1,63*1 35 < α zatem odrzucam hipotezę H model jest istotny statystycznie. 7

Zadanie 3: lp amino amoniak 1 43 31 2 47 33 3 52 36 4 57 39 5 63 42 6 69 47 7 74 51 8 77 54 9 8 55 1 78 57 6 y =,698x,185 R 2 =,9826 5 4 3 2 1 1 2 3 4 5 6 7 8 9 8

Statystyki regresji Wielokrotność R,99127 R kwadrat,98263 Dopasowany R kwadrat,9845 Błąd standardowy 1,34139 Obserwacje 1 ANALIZA WARIANCJI df SS MS F Istotność F Regresja 1 814,15 814,154 452,451 2,5E8 Resztkowy 8 14,3946 1,799326 Razem 9 828,5 Współczynniki Błąd standardowy t Stat Wartośćp Górne 95,% Przecięcie,1853 2,14316,8634,933322 5,1272 4,75711 5,12717 amino,6982,328 21,2787 2,51E8,6225,7739,6225 Zarówno współczynnik korelacji Pearsona jak i współczynnik determinacji są bardzo bliskie 1, zatem istnieje niemalże liniowa zależność pomiędzy zmiennymi. Test istotności parametrów modelu: H współczynnik jest zerowy (nieistotny) H 1 współczynnik jest niezerowy (istotny) Poziom istotności α =,5. Dla zmiennej amino: Ponieważ 2,51*1 8 < α, zatem przy założeniu prawdziwości hipotezy H zaszło zdarzenie bardzo mało prawdopodobne. Należy odrzucić hipotezę H i przyjąć hipotezę alternatywną (współczynnik przy zmiennej amino jest zatem istotny) Dla zmiennej Przecięcie (wyraz wolny):,933 > α nie ma zatem podstaw do odrzucenia hipotezy H współczynnik jest nieistotny. Globalny test istotności modelu: H model nieistotny statystycznie H 1 model istotny statystycznie Poziom ufności α =,5. Ponieważ F = 2,5*1 8 < α, zatem przy założeniu prawdziwości hipotezy H zaszło zdarzenie bardzo mało prawdopodobne. Należy odrzucić hipotezę H i przyjąć hipotezę alternatywną (model jest istotny statystycznie) Amoniak =,6982 * amino 9

Zadanie 4: BUDŻET CENA SPRZEDAŻ 35 88 16523 173 11 635 11825 85 1769 3355 28 357 372 11 7698 554 71 9554 55565 7 54154 6651 82 5445 71 62 478 8217 24 74598 831 91 25257 9496 4 868 1 45 48 121 21 632 132222 4 69675 136297 8 98715 139114 63 75886 165575 5 8336 BUDZETCENA 12 1 8 6 BUDZETCENA 4 2 2 4 6 8 1 12 14 16 18 CENASPRZEDAZ 12 1 8 6 Serie1 4 2 2 4 6 8 1 12 BUDZET SPRZEDAZ 12 1 8 6 Serie1 4 2 2 4 6 8 1 12 14 16 18 1

Z wykresów jednoznacznie wynika, iż w danych nie ma prostej zależności między pojedynczymi zmiennymi. Należy zatem szukać zależności między kombinacjami dwie zmienne jedna zmienna. Statystyki regresji Wielokrotność R,8987621! R kwadrat,865487! Dopasowany R kwadrat,7874632 Błąd standardowy 14348,6222 Obserwacje 18 ANALIZA WARIANCJI df SS MS F Istotność F Regresja 2 1287546967 6,44E+9 31,26788 4,469E6 Resztkowy 15 388244387 2,6E+8 Razem 17 15963291354 Współczynniki Błąd standardowy t Stat Wartośćp Górne 95,% Przecięcie 36779,4926 13165,54282 2,793618,13634 8717,7855 64841,2 8717,8 BUDŻET,3828415,93439712 4,9723,952,18367934,5824,1837 CENA 358,1413 129,6571733 2,762217,14525 634,49919 81,7834 634,5 Uzyskane wartości współczynnika korelacji Pearsona oraz współczynnika determinacji należy w tym przypadku (regresja wielowymiarowa) uznać za znaczące. Można zatem wnioskować o istnieniu związku pomiędzy zmiennymi. Test istotności parametrów modelu: H współczynnik jest równy (nieistotny) H 1 współczynnik nie jest równy (jest zatem istotny) Poziom istotności: α =,5 Ponieważ dla każdego parametru (BUDŻET, CENA, WYRAZ WOLNY) prawdopodobieństwo zajścia zdarzenia jest mniejsze niż α, dlatego za każdym razem należy odrzucić hipotezę H (jako bardzo mało prawdopodobną) i przyjąć hipotezę alternatywną H 1. Wszystkie współczynniki są istotne. Uzyskane błędy standardowe są znaczące, ale mogą zostać zaakceptowane (+/ ok. 3%). Globalny test istotności: H model jest nieistotny statystycznie H 1 model jest istotny statystycznie Poziom istotności: α =,5 11

Ponieważ 4,469*1 6 < α, zatem przy założeniu prawdziwości hipotezy H zaszło zdarzenie bardzo mało prawdopodobne. Należy odrzucić hipotezę H i przyjąć hipotezę alternatywną (model jest istotny statystycznie). SPRZEDAŻ = 358,1413 * CENA +,3828415 * BUDŻET + 36779,4926 Zadanie 5: Osoba WIEK WZROST WAGA 1 8 57 64 2 1 59 71 3 6 49 53 4 11 62 67 5 8 51 55 6 7 5 58 7 1 55 77 8 9 48 57 9 1 42 56 1 6 42 51 11 12 61 76 12 9 57 68 Wykresy rozrzutu: y = 2,259x + 33,265 R 2 =,3768 wiek wzrost 7 6 5 4 3 2 1 2 4 6 8 1 12 14 12

y = 3,6429x + 3,571 R 2 =,5926 9 8 7 6 5 4 3 2 1 w iek w aga 2 4 6 8 1 12 14 y = 1,722x + 6,1898 R 2 =,663 wzrost w aga 9 8 7 6 5 4 3 2 1 1 2 3 4 5 6 7 Przyglądając się wykresom, można od razu zauważyć, iż wartości współczynników determinacji są względnie niskie. Wynika to najprawdopodobniej z wystąpienia znacznego szumu w danych. 13

Analiza regresji wielowymiarowej: Statystyki regresji Wielokrotność R,88317 R kwadrat,77999 Dopasowany R kwadrat,7319,5 Błąd standardowy 4,65984 Obserwacje 12 ANALIZA WARIANCJI df SS MS F Istotność F Regresja 2 692,82261 346,411 15,95325,199 Resztkowy 9 195,42739 21,7142 Razem 11 888,25 Błąd standardowy Wartośćp Górne 95,% Współczynniki t Stat Przecięcie 6,5535 1,944827,59873,564113 18,2589 31,311986 18,2589 WIEK 2,513,9372256 2,18744,56485,727 4,172796,7269 WZROST,7224,26851 2,7685,2187,13255 1,31224,132555 Test istotności parametrów modelu: H współczynnik jest równy (nieistotny) H 1 współczynnik nie jest równy (jest zatem istotny) Poziom istotności: α =,5 Dla atrybutu WZROST prawdopodobieństwo zajścia zdarzenia przy założeniu prawdziwości hipotezy H jest mniejsze niż poziom istotności. Odrzucam zatem hipotezę H i przyjmuję hipotezę alternatywną H 1. Dla atrybutu WIEK oraz dla wyrazu wolnego nie ma podstaw do odrzucenia hipotezy H (,56 >,5 oraz,598 >,5). Nie można zatem metodami statystycznymi uzasadnić wpływu zmiennej WIEK na zmienną WZROST. Globalny test istotności: H model jest nieistotny statystycznie H 1 model jest istotny statystycznie Poziom istotności: α =,5 Ponieważ,1 <,5, zatem przy założeniu prawdziwości hipotezy H zaszło zdarzenie bardzo mało prawdopodobne. Odrzucam zatem hipotezę H i jako prawdziwą przyjmuję hipotezę alternatywną H 1. Wyznaczony model jest zatem istotny statystycznie. Zarówno współczynnik korelacji jak i współczynnik determinacji są dość wysokie. 14

Statystyki regresji Wielokrotność R,7714 R kwadrat,59312 Dopasowany R kwadrat,527 Błąd standardowy 1,33914 Obserwacje 12 ANALIZA WARIANCJI df SS MS F Istotność F Regresja 2 23,5274 11,7635 6,559735,17483 Resztkowy 9 16,139627 1,79329 Razem 11 39,666667 Współczynniki Błąd standardowy Przecięcie 1,22518 3,1812289 Wartośćp t Stat,38513,7987 WAGA,16931,7742 2,18744,56485 WZROST,173,119246,1524,918491 Górne 8,421623 5,9712678,5783,34448,241296,2198427 95,% 8,4216228,57833,2412964 Test istotności parametrów modelu: H współczynnik jest równy (nieistotny) H 1 współczynnik nie jest równy (jest zatem istotny) Poziom istotności: α =,5 Przy założonym poziomie istotności nie ma podstaw do odrzucenia hipotezy zerowej dla żadnej ze zmiennych. Nie można więc metodami statystycznymi uzasadnić wpływu zmiennych WAGA i WZROST na zmienną wiek (co jest zgodne z intuicją). Globalny test istotności: H model jest nieistotny statystycznie H 1 model jest istotny statystycznie Poziom istotności: α =,5 Ponieważ,17 <,5, zatem przy założeniu prawdziwości hipotezy H zaszło zdarzenie bardzo mało prawdopodobne. Odrzucam zatem hipotezę H i jako prawdziwą przyjmuję hipotezę alternatywną H 1. Wyznaczony model jest zatem istotny statystycznie. Wartości współczynnika korelacji jak i współczynnika determinacji wskazują iż nie istnieje silna zależność liniowa w danych. 15

Statystyki regresji Wielokrotność R,81451 R kwadrat,66343 Dopasowany R kwadrat,58863 Błąd standardowy 4,37682 Obserwacje 12 ANALIZA WARIANCJI df SS MS F Istotność F Regresja 2 339,84129 169,921 8,8712,7445 Resztkowy 9 172,4871 19,1565 Razem 11 512,25 Błąd standardowy Wartośćp Górne 95,% Współczynniki t Stat Przecięcie 13,791 9,421823 1,46384,17727 7,52126 35,1294 7,52126 WIEK,11459 1,88791,1524,918491 2,57766 2,348431 2,57766 WAGA,63699,23858 2,7685,2187,11651 1,157482,11651 G 9 Test istotności parametrów modelu: H współczynnik jest równy (nieistotny) H 1 współczynnik nie jest równy (jest zatem istotny) Poziom istotności: α =,5 Ponieważ,2 <,5 zatem dla zmiennej WAGA odrzucam hipotezę H jako mało prawdopodobną i przyjmuję hipotezę alternatywną H 1. Dla zmiennej WIEK oraz dla wyrazu wolnego nie ma podstaw do odrzucenia hipotezy H. Globalny test istotności: H model jest nieistotny statystycznie H 1 model jest istotny statystycznie Poziom istotności: α =,5 Ponieważ,7 <,5, zatem przy założeniu prawdziwości hipotezy H zaszło zdarzenie bardzo mało prawdopodobne. Odrzucam zatem hipotezę H i jako prawdziwą przyjmuję hipotezę alternatywną H 1. Wyznaczony model jest zatem istotny statystycznie. Jako znaczące należy uznać uzyskane wartości błędów standardowych. Uzyskany model sprawia wrażenie nieczystego. 16

Trudności w analizie uzyskanych modeli wynikają ze specyfiki badanych danych. Mimo iż widoczne (zarówno na wykresach jak i we współczynnikach: korelacji liniowej Pearsona i determinacji) są zależności w danych, to szum w nich występujący (duża odległość niektórych pomiarów od linii trendu) zaburzają czystości budowanych modeli regresji liniowej. Wynika to z faktu, iż metoda najmniejszych kwadratów (wykorzystywana do budowania modelu regresji przez środowisko Microsoft Excel) jest wrażliwa na wartości odstające i przesuwa prostą regresji (interpretowaną jako linia trendu na wykresie rozrzutu) w kierunku samotników (outliers). Na zbiorze danych należałoby przeprowadzić procedurę usuwania osobliwości (outlier treatment) i powtórnie zbudować modele. Uzyskane rezultaty byłyby na pewno znacznie bardziej jednoznaczne. 17