Statystyka Opsowa 014 część 3 Katarzya Lubauer
Lteratura: 1. Statystyka w Zarządzau Admr D. Aczel. Statystyka Opsowa od Podstaw Ewa Waslewska 3. Statystyka, Lucja Kowalsk. 4. Statystyka opsowa, Meczysław Sobczyk Są trzy rodzaje kłamstw: kłamstwa, przeklęte kłamstwa statystyk. Bejam Dsrael - premer Welkej Bryta (w latach 1868 1874-1880) Katarzya Lubauer
Cecha Y Cecha y Regresja lowa Zajmowalśmy sę korelacją, czyl marą zależośc mędzy dwema cecham merzalym (a czasem emerzalym, porządkowym), teraz zastaowmy sę jak dodatkowo moża scharakteryzować opsać taką zależość. 6 5 4 3 1 0 0 4 6 8 10 1 Cecha X Lczymy współczyk korelacj Pearsoa, który wychodz blsk 0. Ozacza to prawe brak korelacj, ale a wykrese wdzmy zależość fukcyją. r 0,15901 r 0,95033 Sla korelacja, prawe lowa, ale jak ją dodatkowo opsać? 6 5 4 3 1 0 0 4 6 8 10 1 Cecha X Katarzya Lubauer 3
Cecha Y Cecha Y 6 5 4 3 1 0 0 4 6 8 10 1 r 0,95033 Cecha X Sla korelacja, prawe lowa, Prosta dobrze przyblża zależość. 6 5 4 3 1 0 Mamy dwe róże fukcje, które próbują oddać zależość, wdzmy, że prosta e sprawdza sę, ale krzywa welomaowa dobrze przyblża zależość cech X Y. r 0,15901 0 4 6 8 10 1 Cecha X Katarzya Lubauer 4
Zależość mędzy dwema cecham często możemy opsać rówaem: Y f X Jeżel jesteśmy w stae zaleźć fukcję, która speła tę zależość z pewym błędem E to możemy mówć o fukcj regresj. Wyróżamy węc: Regresję lową gdy ajlepej dopasowaą do puktów empryczych jest la prosta Regresję krzywolową gdy ajlepej dopasowaą do puktów empryczych jest pewa la krzywa(ajczęścej fukcja wykładcza, logarytmcza czy welomaowa) Nas będze teresować tylko regresja lowa, ale Excel daje Państwu możlwość szukaa bardzej zaawasowaych fukcj regresj. Katarzya Lubauer 5
6 5 4 3 1 Sere1 Log. (Sere1) Welob. (Sere1) Lowy (Sere1) Róże krzywe regresj z wykorzystaem Excela. 0-1 0 10 0 30 40 1000 35 800 30 600 5 400 00 0-00 -400 0 4 6 8 10 Sere1 Potęg. (Sere1) Lowy (Sere1) 0 15 10 5 0 0 10 0 30 Sere1 Lowy (Sere1) Katarzya Lubauer 6
Lowa fukcja regresj Jeżel wemy, że asze zmee są sle skorelowae, to możemy wyzaczyć prostą, która obrazuje, przyblża tę zależość. Katarzya Lubauer 7
Regresja lowa w statystyce, metoda estymowaa wartośc cechy Y przy zaych wartoścach ej cechy X. Szukaa cecha Y jest tradycyje azywaa zmeą objaśaą lub zależą. Cechę X azywa sę cechą objaśającą lub ezależą. Fukcja regresj jest to aaltycze przyporządkowae średch wartośc zmeej zależej kokretym ustaloym wartoścom zmeej ezależej Nas teresuje regresja lowa, czyl asza fukcja ma meć postać: y x Naszym celem będze przyblżee parametrów tej fukcj za pomocą wartośc przyblżoych a b. Katarzya Lubauer 8
Przykładowe populacje dwucechowe, które przyblżoe są tą samą, lową fukcją regresj. Katarzya Lubauer 9
Tak zachowuje sę asza populacja dwucechowa, x waraty cechy X (ezależej, objaśającej), y waraty cechy Y (zależej, objaśaej) y x ŷ a bx Fukcję powyższą azywamy teoretyczą fukcją regresj. Do wyzaczea współczyków a, b stosujemy metodę ajmejszych kwadratów. Katarzya Lubauer 10
Metoda ajmejszych kwadratów polega a takm oszacowau parametrów a, b, żeby zmmalzować wartość wyrażea: 1 y yˆ m Gdze: y yˆ Lczba obserwacj Waraty cechy Y Wartośc teoretycze cechy Y wyzaczoe a podstawe rówaa: ŷ a bx Katarzya Lubauer 11
Jak zaleźć take a, b, żeby wyrażee 1 y yˆ było ajmejsze? Zauważmy, że po wstaweu z wzoru: ŷ a bx Do powyższego wyrażea, mamy fukcję dwóch zmeych: 1 dla której chcemy zaleźć mmum. f ( a, b) y a bx Katarzya Lubauer 1
Jeżel polczymy pochode cząstkowe po a po b, oraz przyrówamy je do zera, to otrzymamy astępujące rówośc: y a b x 1 1 x y a x b x 1 1 1 Z powyższego układu rówań możemy wyzaczyć wzory a współczyk a, b rówaa fukcj lowej regresj. Katarzya Lubauer 13
Otrzymujemy astępujące wzory a współczyk a, b rówaa fukcj lowej regresj: b 1 1 1 1 x y x x y x a y b x Parametr b w teoretyczej l regresj os azwę współczyka regresj. Katarzya Lubauer 14
Przykład: Mamy astępujące wyk badaa wzrostu (w cm) wag (w kg) dzesęcorga oworodków: (5, 3.), (51,.9), (54, 4.5), (63, 4.6), (55, 3.), (58, 3.9), (50, 3.7), (6, 4.3), (50,.8), (47,.4) 5 4,5 4 3,5 3,5 45 46 47 48 49 50 51 5 53 54 55 56 57 58 59 60 61 6 63 64 Katarzya Lubauer 15
Podstawamy dae do wzorów otrzymujemy wartośc a b: b 1 1 1 1 x y x x y x 0,1158 a y b x,767 Otrzymujemy w wyku tego wzór teoretyczej fukcj regresj lowej. yˆ,767 0,1158x Katarzya Lubauer 16
Cecha Y Wykres teoretyczej fukcj lowej regresj: yˆ,767 0,1158 x 5 4,5 y = 0,1158x -,767 4 3,5 3,5 45 46 47 48 49 50 51 5 53 54 55 56 57 58 59 60 61 6 63 64 Cecha X Katarzya Lubauer 17
Wzór a parametr b moża przedstawć w prostszej postac: b cov XY, s X Gdze: cov XY, S X - kowaracja cech X Y. - Odchylee stadardowe cechy X. Katarzya Lubauer 18
Jak terpretujemy współczyk regresj? Jeżel współczyk b jest dodat, to mówmy, że wzrost o jedostkę cechy X skutkuje wzrostem cechy Y o b jedostek. Jeżel współczyk b jest ujemy, to mówmy, że wzrost o jedostkę cechy X skutkuje spadkem cechy Y o b jedostek. 100 90 80 y = 15,074x + 5,6644 70 60 50 40 30 0 10 0 1,5,5 3 3,5 4 4,5 5 5,5 30 5 0 15 10 5 0 y = -4,3818x + 7,88 0 0,5 1 1,5,5 3 3,5 4 4,5 5 5,5 6 6,5 Katarzya Lubauer 19
Uwaga: Mając wyzaczoą wartość współczyka b oraz odchylea stadardowe cech X Y możemy wyzaczyć współczyk Pearsoa ze wzoru: r cov XY, s b X s s s X Y Y bo: b cov XY, s X Katarzya Lubauer 0
Zauważmy, że są różce mędzy puktam empryczym, a teoretyczą lą regresj, różce te azywamy resztam modelu. e y yˆ Katarzya Lubauer 1
Iy przykład z zazaczoym resztam modelu: Zauważmy, że część puktów empryczych jest pod, a część ad teoretyczą lą regresj. Te pukty, które są ad lą mają reszty dodate, a te które są pod - ujeme. Katarzya Lubauer
Gdy pukty emprycze odchylają sę od teoretyczej prostej regresj, to jak zauważylśmy, część reszt jest dodata, a część ujema. Jeśl la regresj jest przeprowadzoa prawdłowo, to: 1 e 0 Czyl wyka z tego, że 1 y yˆ 0 Katarzya Lubauer 3
Ważym zagadeem zwązaym z badaem regresj lowej ( e tylko lowej) jest wyzaczee błędu modelu. Naturalym kadydatem do wyzaczaa błędu modelu są reszty, jedak jak wdzelśmy z poprzedego slajdu, suma reszt e adaje sę do tego, bo zawsze jest rówa 0. Dlatego, błąd modelu lczymy jako warację z reszt: S 1 e y yˆ Jedak ze względu a to, że waracja ma mao rówe kwadratow maa cechy Y, węc lepej korzystać z jej perwastka. Katarzya Lubauer 4
Odchyleem stadardowym reszt azywamy perwastek z waracj reszt: S e 1 y yˆ Ie azwy odchylea stadardowego, to śred błąd dopasowaa, stadardowy błąd dopasowaa, przecęta reszta. Katarzya Lubauer 5
CechaY waga oworodka Przykład: Mamy astępujące wyk badaa wzrostu (w cm) wag (w kg) dzesęcorga oworodków: (5, 3.), (51,.9), (54, 4.5), (63, 4.6), (55, 3.), (58, 3.9), (50, 3.7), (6, 4.3), (50,.8), (47,.4) Melśmy dla ego polczoy wzór a prostą regresj lowej: 5 4,5 4 yˆ,767 0,1158 x 3,5 3,5 45 46 47 48 49 50 51 5 53 54 55 56 57 58 59 60 61 6 63 64 Cecha X wzrost oworodka Teraz aszym celem będze wyzaczee odchylea stadardowego reszt. Katarzya Lubauer 6
CechaY waga oworodka Aby polczyć odchylee stadardowe reszt, potrzebujemy wartośc: y a bx ˆ Wzrost oworodka x Waga oworodka Wartość teoretycza y yˆ,767 0,1158x 47,4,7156 50,8 3,063 51,9 3,1788 5 3, 3,946 55 3, 3,64 50 3,7 3,063 58 3,9 3,9894 6 4,3 4,456 54 4,5 3,56 63 4,6 4,5684 5 4,5 4 3,5 3,5 45 46 47 48 49 50 51 5 53 54 55 56 57 58 59 60 61 6 63 64 Cecha X wzrost oworodka Katarzya Lubauer 7
Wzrost oworodka x Waga oworodka y yˆ y yˆ 47,4,7156 0,099603 50,8 3,063 0,069169 51,9 3,1788 0,07779 5 3, 3,946 0,008949 55 3, 3,64 0,195364 50 3,7 3,063 0,405769 58 3,9 3,9894 0,00799 6 4,3 4,456 0,0387 54 4,5 3,56 0,94886 63 4,6 4,5684 0,000999 Waracja 0,1837 Gdze yˆ,767 0,1158 x S e 0,49 1 y yˆ Czyl śred błąd dopasowaa, stadardowy błąd dopasowaa, przecęta reszta wyósł 0,49 Katarzya Lubauer 8
Marą dopasowaa wyzaczoej l regresj do puktów empryczych jest współczyk determacj: R W przypadku regresj lowej jedej zmeej współczyk determacj rówy jest kwadratow współczyka korelacj lowej Pearsoa. R 1 1 r, 0 R 1 Tą wartość zajdzemy też w opse l tredu uzyskaej w programe Excel. Jeżel wartość tę podamy w procetach, to formację tę możemy zterpretować, jako pozom wpływu zmeej X a zmeą Y. Współczyk te określa jaka część całkowtej zmeośc cechy objaśaej została wyjaśoa przez model regresj lowej. yˆ y SSR y y SST Katarzya Lubauer 9
Cecha Y Przykład: Mamy astępujące wyk badaa wzrostu (w cm) wag (w kg) dzesęcorga oworodków: (5, 3.), (51,.9), (54, 4.5), (63, 4.6), (55, 3.), (58, 3.9), (50, 3.7), (6, 4.3), (50,.8), (47,.4) 5 4,5 y = 0,1158x -,767 R² = 0,6511 R 0,65 4 3,5 3 R 65%,5 45464748495051553545556575859606166364 Cecha X Możemy w tym przypadku powedzeć, że w 65% wzrost oworodka ma wpływ a jego wagę, w pozostałych 35% to e czyk, take jak geetyka, deta matk tp. Katarzya Lubauer 30