Metody predykcji analiza regresji



Podobne dokumenty
Analiza zależności zmiennych ilościowych korelacja i regresja

Badanie współzależności dwóch cech ilościowych X i Y. Analiza korelacji prostej


STATYSTYKA MATEMATYCZNA WYKŁAD 5 WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH

Weryfikacja hipotez dla wielu populacji

Natalia Nehrebecka. Zajęcia 3

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 4

) będą niezależnymi zmiennymi losowymi o tym samym rozkładzie normalnym z następującymi parametrami: nieznaną wartością 1 4

Stanisław Cichocki. Natalia Nehrebecka Katarzyna Rosiak-Lada. Zajęcia 3

Dobór zmiennych objaśniających

KURS STATYSTYKA. Lekcja 6 Regresja i linie regresji ZADANIE DOMOWE. Strona 1

W praktyce często zdarza się, że wyniki obu prób możemy traktować jako. wyniki pomiarów na tym samym elemencie populacji np.

Natalia Nehrebecka. Wykład 2

Plan wykładu: Typowe dane. Jednoczynnikowa Analiza wariancji. Zasada: porównać zmienność pomiędzy i wewnątrz grup

Natalia Nehrebecka. Zajęcia 4

Stanisław Cichocki. Natalia Nehrebecka. Wykład 11

Badanie współzaleŝności dwóch cech ilościowych X i Y. Analiza korelacji prostej. Badanie zaleŝności dwóch cech ilościowych. Analiza regresji prostej

KURS STATYSTYKA. Lekcja 1 Statystyka opisowa ZADANIE DOMOWE. Strona 1

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Hipotezy o istotności oszacowao parametrów zmiennych objaśniających ˆ ) ˆ

Analiza regresji modele ekonometryczne

Stanisław Cichocki. Natalia Nehrebecka. Wykład 7

Statystyka Opisowa 2014 część 2. Katarzyna Lubnauer

Analiza korelacji i regresji

Rachunek prawdopodobieństwa i statystyka W 11: Analizy zależnościpomiędzy zmiennymi losowymi Model regresji wielokrotnej

dy dx stąd w przybliżeniu: y

Natalia Nehrebecka. Dariusz Szymański

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

EKONOMETRIA I Spotkanie 1, dn

65120/ / / /200

Egzamin ze statystyki/ Studia Licencjackie Stacjonarne/ Termin I /czerwiec 2010

Analiza zależności zmiennych ilościowych regresja

Analiza danych. Analiza danych wielowymiarowych. Regresja liniowa. Dyskryminacja liniowa. PARA ZMIENNYCH LOSOWYCH

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Modele wieloczynnikowe. Modele wieloczynnikowe. Modele wieloczynnikowe ogólne. α β β β ε. Analiza i Zarządzanie Portfelem cz. 4.

Statystyka. Zmienne losowe

Zaawansowane metody numeryczne Komputerowa analiza zagadnień różniczkowych 1. Układy równań liniowych

Definicje ogólne

( ) ( ) 2. Zadanie 1. są niezależnymi zmiennymi losowymi o. oraz. rozkładach normalnych, przy czym EX. i σ są nieznane. 1 Niech X

Badania sondażowe. Braki danych Konstrukcja wag. Agnieszka Zięba. Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa

Rozdział 8. Regresja. Definiowanie modelu

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

STATYSTYKA MATEMATYCZNA

Proces narodzin i śmierci

PROSTO O DOPASOWANIU PROSTYCH, CZYLI ANALIZA REGRESJI LINIOWEJ W PRAKTYCE

SZACOWANIE NIEPEWNOŚCI POMIARU METODĄ PROPAGACJI ROZKŁADÓW

ANALIZA KORELACJI WYDATKÓW NA KULTURĘ Z BUDŻETU GMIN ORAZ WYKSZTAŁCENIA RADNYCH

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Problemy jednoczesnego testowania wielu hipotez statystycznych i ich zastosowania w analizie mikromacierzy DNA

Stosowana Analiza Regresji

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Analiza regresji elementy zaawansowane (cz. 2)

± Δ. Podstawowe pojęcia procesu pomiarowego. x rzeczywiste. Określenie jakości poznania rzeczywistości

Krzywa wieża w Pizie. SAS Data Step. Przykład (2) Wykład 13 Regresja liniowa

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Wykłady Jacka Osiewalskiego. z Ekonometrii. CZĘŚĆ PIERWSZA: Modele Regresji. zebrane ku pouczeniu i przestrodze

MATEMATYKA POZIOM ROZSZERZONY Kryteria oceniania odpowiedzi. Arkusz A II. Strona 1 z 5

Procedura normalizacji

Sprawozdanie powinno zawierać:


System Przeciwdziałania Powstawaniu Bezrobocia na Terenach Słabo Zurbanizowanych SPRAWOZDANIE Z BADAŃ Autor: Joanna Wójcik

Regresja liniowa i nieliniowa

Zestaw zadań 4: Przestrzenie wektorowe i podprzestrzenie. Liniowa niezależność. Sumy i sumy proste podprzestrzeni.

Parametry zmiennej losowej

Wprowadzenie do analizy korelacji i regresji

WPROWADZENIE DO ANALIZY KORELACJI I REGRESJI

Stanisław Cichocki. Natalia Nehrebecka. Wykład 7

Markowa. ZałoŜenia schematu Gaussa-

Analiza rodzajów skutków i krytyczności uszkodzeń FMECA/FMEA według MIL STD A

L.Kowalski zadania ze statystyki opisowej-zestaw 5. ZADANIA Zestaw 5

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Stanisław Cichocki. Natalia Nehrebecka. Wykład 7

IID = 2. i i i i. x nx nx nx

Rozwiązywanie zadań optymalizacji w środowisku programu MATLAB

Statystyka Inżynierska

MATERIAŁY I STUDIA. Zeszyt nr 286. Analiza dyskryminacyjna i regresja logistyczna w procesie oceny zdolności kredytowej przedsiębiorstw

3. Modele tendencji czasowej w prognozowaniu

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

0 0,2 0, p 0,1 0,2 0,5 0, p 0,3 0,1 0,2 0,4

PROGNOZOWANIE SPRZEDAŻY Z ZASTOSOWANIEM ROZKŁADU GAMMA Z KOREKCJĄ ZE WZGLĘDU NA WAHANIA SEZONOWE

CZĘŚĆ 6. MODEL REGRESJI, TREND LINIOWY ESTYMACJA, WNIOSKOWANIE

Weryfikacja hipotez statystycznych testy dla dwóch zbiorowości

Prawdopodobieństwo i statystyka r.

MECHANIKA 2 MOMENT BEZWŁADNOŚCI. Wykład Nr 10. Prowadzący: dr Krzysztof Polko

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Analiza danych OGÓLNY SCHEMAT. Dane treningowe (znana decyzja) Klasyfikator. Dane testowe (znana decyzja)

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Teoria niepewności pomiaru (Rachunek niepewności pomiaru) Rodzaje błędów pomiaru

Ekonometria. Zajęcia

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Rozkład dwupunktowy. Rozkład dwupunktowy. Rozkład dwupunktowy x i p i 0 1-p 1 p suma 1

MODELE LINIOWE. Dr Wioleta Drobik

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

I. Elementy analizy matematycznej

Zaawansowane metody numeryczne

SYSTEMY UCZĄCE SIĘ WYKŁAD 7. KLASYFIKATORY BAYESA. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

= σ σ. 5. CML Capital Market Line, Rynkowa Linia Kapitału

Zapis informacji, systemy pozycyjne 1. Literatura Jerzy Grębosz, Symfonia C++ standard. Harvey M. Deitl, Paul J. Deitl, Arkana C++. Programowanie.

Transkrypt:

Metody predykcj analza regresj TPD 008/009 JERZY STEFANOWSKI Instytut Informatyk Poltechnka Poznańska Przebeg wykładu. Predykcja z wykorzystanem analzy regresj.. Przypomnene wadomośc z poprzednch przedmotów.. Ocena poprawnośc modelu regresj lnowej.. Regresja welowymarowa. 4. Regresja nelnowa.. Selekcja zmennych. Uwag: proszę odwołać sę do przedmotu Statystyka analza danych studa nżynerske.

Modelowane regresj Metoda szacowana wartośc lczbowej zmennej zależnej (objaśnanej, wynkowej) y na podstawe wartośc zmennych nezależnych x. Badamy zależność warunkową Formalne poszukujemy modelu y = f ( x, β ) y x Modele lokalne locally weghted regresson p y = α + j = f j ( x, β ) Przykład ceny domów przykład z R W zborze danych homedata (z paketu R) ceny 684 domów Maplewood (New Jersey) z lat: 970 000. Interesuje nas zależność pomędzy cenam domów z tych lat.

Regresja model lnowy Analtyczny sposób przyporządkowana wartośc zmennej zależnej konkretnym wartoścom zmennych nezależnych. Lnowa regresja prosta najprostszy rodzaj regresj, w których zależność zmennych można opsać za pomocą ln prostej. yˆ β x + β + ε = 0 gdze β jest współczynnkem kerunkowym, β 0 wyraz wolny (punkt przecęca z osą rzędnych); x zmenna nezależna, y zmenna zależna (objaśnana, przewdywana), ε -błąd losowy. Intucja poszukwana regresj lnowej Przykład z wykładu z Ekonometr (UCI Berkley): Do hgh ncome households consume more or less electrcty than lower ncome households? Take a sample of households. Observe the energy consumpton and ncome of each household. Która lna podsumowująca ogólny trend w danych jest najlepsza?

Lnowa prosta regresj - MNK Rzeczywste dane ( x, y ),...,( x n, y n). Wartość teoretyczna funkcj regresj y ˆ = f ( x) Błąd oszacowana y yˆ tzw. wartość resztowa lub rezyduum. Lnowa regresja prosta wartośc rezyduów pownny być jak najmnejsze dla wszystkch =,,n. Wskaźnk rozproszena suma kwadratów rezyduów. S = n = ( y yˆ ) Dla lnowego wykresu dużych rezyduów ne ma być zbyt wele metoda najmnejszych kwadratów! daje ona najlepsze lnowe neobcążone estymatory parametrów regresj Przykład MNK Które resdua (suma kwadratów) są najmnejsza? Proste sumowane: I -++=0; II -+-=0; III -++0 MNK: I +4+9=8; II: +4+=6; III 4+4=8

Własnośc oszacowana MNK Lna przechodz przez wartośc średne: ˆ 0 β y = β x + β = β x + ( y x) = y Wartość oczekwana resduów jest zerowa n = = e n e = ( y yˆ ) = ( + 0) = ( + 0) = 0 = y x y x y β β β β n n n n y = Dobra własność: lna jest średno właścwa. Przykład lustracyjny (samochody) W frme produkującej samochody przeprowadzono analzę sprzedaży samochodów z ostatnego mesąca. Zebrano dane od dealerów zajmujących sę sprzedażą samochodów tej frmy o welkośc sprzedaży za ostatn mesąc (zmenna zależna Y) oraz czase wykuponej reklamy w ostatnm mesęcy (zmenna nezależna X). Nr dealera y x 9 8 9 9 4 48 7 6 0 6 7 6 8 74 6 9 4 0 0 6 4 4 9

Samochody Wykres XY 8 6 4 0 8 6 4 0 0 0 40 4 0 60 6 70 7 80 Oblczene współczynnka korelacj: r xy = 0.946. (statyst st.) Model lnowy z oszacowanym parametram: y =.84 + 4.468 x Wartość a oznacza, że wzrost (spadek) czasu wykuponej reklamy radowej o jedną mnutę spowoduje wzrost (spadek) sprzedaży w przyblżenu o 4.468 sztuk samochodów. Samochody Model y^ =.84 + 4.468 x 8 Wykres rozrzutu (samochody.sta 0v*c) y=.8+4.468*x+eps 7 6 Y 4 4 6 8 0 4 6 8 X Nr dealera x y y^=f(x) 8 9,0 9 8,60 9 49,88 4 48 4, 7 7,4 6 6 0,07 7 6 6,8 8 6 74 67,7 9 0 4 40,94 0 4 6 8,8 9 4 6,48 6,8

Równane stochastyczne vs. determnstyczne Statystyczny model opsuje lczbowo zależność pomędzy zmenną nezależną (x) oraz zmenną zależną (y) y = β 0 + βx + ε gdze β0, β neznane parametry f.regresj, które należy oszacować; ε -składnk losowy. Parametry funkcj regresj ne są znane (obserwowane), podobne jak składnk losowy, dlatego jest to równane stochastyczne. Równane determnstyczne po zastosowanu MNK ˆ + y = b0 b x Gdze b0, b oceny estymatorów parametrów funkcj regresj numer obserwacj. Defncje zadana analzy regresj Wyjaśnene w sposób analtyczny kształtowana sę wartośc jednej zmennej losowej (zmennej zależnej lub objaśnanej) pod wpływam nnej zmennej (nezależnej lub objaśnającej) lub nnych zmennych. Jeżel zmenna losowa Y składa sę z dwóch składowych: pewnej zmennej losowej ε oraz elementu systematycznego f(x) zależnego od zmennej X, to regresją zmennej losowej Y względem X jest równane E(Y X) = f(x), przy czym zakłada sę, że E(ε)=0 Defncja [Słownk statystyczny. Kendall, Buckland] Regresja prosta Y = Yˆ + ε gdze Y ˆ = f ( X ) oznacza teoretyczne pozomy zmennej odczytane z funkcj regresj Funkcje kształt lnowy lub nelnowy

Zaps wektorowy Ogólna postać Rozwązane MNK X b y = ˆ y X X X b T T ) ( = = = = = = = = = n n n n n n n y x y n x x x x x n b b 0 ) ( Przykład W celu zbadana zależnośc mędzy zyskam pewnej frmy a wydatkam na szkolena handlowców, dokonano porównana wynków dla kwartałów (x - wydatk na szkolena handlowców w tys. zł, y zysk frmy w tys. zł): x 4 y 00 00 00 0 0

400 0 y = 6x + R = 0,989 00 0 00 0 00 0 0 0 4 6 y= 00 00 00 0 0 X= 4 X T = 4 X T X= detx T X= 0 (X T X) - =, -0, -0, 0, X T y= 000 60 b= 6 y = + 6x

y= 70 00 6 0 0-0 - 0 e T e= 70 S e = 97 (X T X) - = S( b 0 ) S( b ) = =,7 9,8 e= e T =, -0, -0, 0, 0-0 - 0 S = 0, S y = 9,74 9 e S y = R 70 = * 9000 = 0, 06 = 0, 94 = 94% Co zrobmy w Excelu? Funkcje stat. REGLINP lub dodatek Analza Danych X 4 6 7 Y 4 4 Tak przy okazj jak nterpretować wynk?

Przykład wzrost = f(wek) / Statstca (Statsoft) Weryfkacja modelu regresj Ocena dopasowana funkcj regresj do danych emprycznych. Składnk resztowy e = y yˆ tym wększy, m wększy jest składnk losowy ε, może także wynkać z błędnego przyjęca danej funkcj regresj. Rozkład całkowtej zmennośc zmennej objaśnanej Ocenamy za pomocą warancj S y lub całkowtej sumy kwadratów różnc SST SST = n = ( y y)

Ocena modelu regresj Całkowtą sumę kwadratów odchyleń (SST) w analze regresj dzel sę na dwe częśc: SST = SSR + SSE ( y y) = ( yˆ y) + ( y yˆ) gdze SSR regresyjna suma kwadratów odchyleń (część wyjaśnona przez zbudowany model), SSE resztowa suma kwadratów odchyleń (część ne wyjaśnona przez zbudowany model). Na le dobra jest regresja? Współczynnk determnacj jest opsową marą sły lnowego zwązku mędzy zmennym, czyl marą dopasowana ln regresj do danych. współczynnk determnacj --- przyjmuje wartośc z przedzału [0,] wskazuje jaka część zmennośc zmennej y jest wyjaśnana przez znalezony model. Na przykład dla R =0.69 znalezony model wyjaśna około 6% zmennośc y. Przy okazj: pomyśl o zwązku współczynnka R oraz współczynnka korelacj r.

Mary dopasowana modelu regresj do danych Współczynnk determnacj: R SSR = = SST SSE SST Najważnejsza mara dopasowana funkcj regresj do danych emprycznych; Jest to stosunek zmennośc wyjaśnanej przez model do zmennośc całkowtej. Średn błąd kwadratowy: SSE MSE = n Warancja resztowa (k lczba zmennych) S = e n k + e ( ) Błędy standardowe parametrów b : S( b ) T ( ) T j = Se X X jj = Se ( X X) jj S( b ) = S( b ) = S 0 n = ( x x) + n odchylene standardowe składnka resztowego standardowy błąd oszacowana SSE S = n S x n = ( x x) Samochody 4 R = 0.898, S = 6.8 R ozn., że 89.8% zmennośc zmennej y zostało wyjaśnone przez zbudowany model. S przecętne odchylene wartośc emprycznych od wartośc teoretycznych (wynkających ze zbudowanego modelu) wynos 6.8 sztuk samochodów.

Założena modelu regresj Zwązek mędzy x y jest lnowy. Wartośc zmennej nezależnej ne są losowe. Losowość wartośc y pochodz wyłączne ze składnka losowego. Składnk (błędy) losowe mają rozkład normalny o średnej 0 o stałej warancj σ Cekawa dyskusja założeń w A.Aczel Statystyka w zarządzanu. Weryfkacja uwag ogólne Statystyczna dotyczy przede wszystkm weryfkacj przyjętych założeń o stochastycznej strukturze modelu oraz założeń o stotnym wpływe zmennych objaśnających na zmenną objaśnaną za pomocą znanych testów statystycznych. Merytoryczna wąże sę z odpowedzą na pytane, czy oszacowane oceny parametrów równana zgodne są z przyjętym założenam, a także czy stneje możlwość "sensownej" nterpretacj otrzymanych wartośc ocen parametrów.

Weryfkacja modelu regresj Zbadaj czy stneje zwązek mędzy średną wydajnoścą (merzoną lczbą wykonanych detal określonego typu) a stażem pracy (merzonym w mesącach). n 4 6 7 Wydajność y 8 4 7 Staż pr. X 4 6 7 Załóżmy model lnowy: y = β 0 + β x + ε Wynk oblczeń (Statstca) Hpotezy dotyczące poszczególnych parametrów modelu Ocena poszczególnych parametrów β w modelu (ocena zachodzena zwązku lnowego mędzy zmenną x a y). Test statystyczny Statystyka testowa: Intucja H H 0 : : β = 0 β 0 β t = S β ) ( Badamy dla każdego parametru strukturalnego osobno, czy stotne różn sę on od zera. Jeśl ne uda nam sę odrzucć hpotezy zerowej, będze to oznaczało, że zmenna objaśnająca przy której sto dany parametr ne wpływa na zmenną objaśnaną, węc można ją usunąć z modelu (jednakże to wymaga powtórnego oszacowana modelu, z już z aktualnym zestawem zmennych objaśnających).

Testy stotnośc Istotność modelu regresj dla przykładu samochodowego. Model y =.84 + 4.468 x Źródło zmennośc Model (część wyjaśnona) Błąd (część newyjaśnona) Lczba stopn swobody (k=) (n k = n-) 0 Suma kwadratów odchyleń SSR 7.4 SSE 7. Całkowta (n-) SST 60.67 Przecętna suma kwadratów odchyleń (MSR=SSR/) 7.4 (MSE=SSE/(n-)) 7. R = 0.898, S = 6.8, F = 86.0067 Wartość krytyczna statystyk z tablc rozkładu F przy pozome stotnośc α = 0.0 wynos 4.96 Podsumujmy wynk: Model jest statystyczne stotny.

Przykład Amercan Express Rozważmy przykład posadaczy kart kredytowych Amercan Express frma jest przekonana, że posadacze jej kart podróżują węcej nż nn ludze. W badanach marketngowych podjęto próbę ustalene zwązków mędzy długoścą tras podróży a obcążenem karty kredytowej jej posadacza w danym okrese czasu. Węcej w Aczel: Statystyka w zarządzanu, str. 468. Analza regresj Amercan Express

Weryfkacja równana regresj SSE=86, MME=SSE/(n-) = 04,4 Standardowy błąd s = MSE = 8,8 Błędy estymacj S(b 0 ) = 70,8 S(b ) = 0.00497 Współczynnk determnacj R = 0.96 Prognoza punktowa w regresj Łatwa na podstawe równana regresj. Np. oceń obcążene kart wśród posadaczy kart, których trasa podróży osągne 4000 ml, w okrese o takej długośc jak okres badany: yˆ = 74,8 +,66 x = 74,8 +,66 4000 = 96,0

Przedzały predykcj (-α) 00% przedzał predykcj zmennej Y yˆ ± tα / s + + n ( x x) ( x ) n = x Rozpętość przedzału predykcj zależy od odległośc wartośc x od średnej x! Przykład: posadacz, który przebył 4000 ml 9% przedzał ufnośc. Z analzy danych hstorycznych: x = 79448/=77,9; SSx = 409477,84 a s = 8,6 Ponadto t przy stopnach swobody wynos,069 Stąd przedzał 96,0±676,6 = [469,4; 97,67] Oznacza to, że w oparcu o wynk badań można meć 9% zaufana do prognozy, że posadacz karty, który przebył trasę 4000 ml w okrese o danej długośc obcąży swoją kartę kredytową sumą od 469.4 do 97,67$. Przedzały predykcj Ogranczene prognoz punktowych błędu pochodzące zarówno z nepewnośc szacunków, jak losowej zmennośc położena punktów w stosunku do ln regresj. Stosuj wtedy tzw. przedzały predykcj (tzw. prognozy przedzałowe).

Przewdywane w regresj Wartośc prognozowane ne pownny wykraczać poza zakres wartośc wykorzystywanych w procedurze szacowana parametrów równana regresj. Rozkłady reszt Sposób szybkej oceny (jakość reszt). Założena modelu lnowego: Składnk (błędy) losowe mają rozkład normalny o średnej 0 o stałej warancj czyl reszty pownny meć charakterystyczny rozrzut; najlepej obserwować to na wykresach rozrzutu reszt.

Wykresy rozkładu reszt (przykład zależnośc cen wna od weku wna) = dane za A.Snarska: Statystyka, ekonometra, prognozowane.

Wykres rozkładu reszt Wna / Składnk resztowe w zależnośc od weku Wek Rozkład reszt Składnk resztowe 0 0-0 0 0 Wek Reszty przypuszczalne spełnają założena modelu regresj. Rozproszene neregularne ale w pase o pewnej szerokośc. Brak korelacj wzajemnej kolejnych składnków. Wykres rozkładu reszt zestaw Inny przykład wykresu składnków resztowych. t Rozkład reszt 0 0 0 0 40 60 80 00 0-0 -0 Układ ln wykresu wskazuje, że reszty następne zależą od poprzednch rozbegają sę poza ogranczony pas.

Wykresy reszt różne nterpretacje Oceń ponższe sytuacje Sprawdzene wykresu kwantylowego Datamner 7 (Normalty Probablty Plot of Resduals)

Inny przykład nny baseball Amercan League 00 Zależność mędzy średną uderzeń gracza a lczba uderzeń, które pozwolły na zalczene baz zdobyce punktu. [larose 08,.0 Naruszone założena Punkty oddalone - outlers Przykład płatk śnadanowe [Larose 08] dwe obserwacje są zdecydowane bardzej odlegle od ln regresj nż pozostałe analza reszt

Punkty oddalone (reszty standaryzowane) Raw Resduals Case -s.. 0.. +s.....*...... *....... *... 4... *........ *... 6... *.... 7... *.... 8... *... 9..*..... 0... *....... *....... *..... *.... 4... *........*... 6.... *... 7.. *..... 8.. *..... 9.... *... 0. *...... * Raw Resdual (Baseball.sta) Dependent varable: WIN Observed Predcted Resdual Standard Standard S Value Value Pred. v. Resdual P 0,99000 0,406 0,0867 0,7804,7 0 0,86000 0,6848 0,074,784 0,96 0 0,6000 0,9486 0,064 0,7044 0,70 0 0,49000 0,708-0,08,99-0,48968 0 0,000 0,49746 0,044-0,0466 0,7067 0 0,8000 0,487-0,007 0,8698-0,46 0 0,497000 0,489-0,0789 0,649-0,4047 0 0,444000 0,447966-0,00966-0,966-0,08899 0 0,40000 0,480-0,080-0,9 -,8877 0 0,09000 0,06-0,007 -,9796-0,74 0 0,86000 0,8908-0,0008,8876-0,0744 0 0,78000 0,6489 0,04,94 0,6 0 0,68000 0,64-0,04740,08 -,0647 0 0,7000 0,706-0,04706 0,998-0,998 0 0,000 0,06 0,004864 0,8 0,094 0 0,000 0,48097 0,0690-0,6 0,6066 0 0,47000 0,766-0,0666 0,6689 -,4089 0 0,444000 0,09-0,0769 0,68 -,749 0 0,40000 0,88088 0,09 -,99087 0,4968 0 0,64000 0,4780-0,0880-0,488 -,448 0 0 67000 0 4884 0 086 0 78068 86499 0 Regresja welokrotna (welowymarowa, weloraka) Zmenna objaśnana zależy od węcej nż jednej zmennej (sytuacja częsta w praktyce). Model regresj zmennej y względem zboru m- zmennych nezależnych x, x, K, x m jest określony równanem: y b + b x + b x + K + b m x = 0 m Analza welowymarowa x x = X K xn x = x x K x n K L K K xm x m K xnm [ x x K x ] T m

Analza welowymarowa Wybrane wskaźnk x = [ x x K ] x m Mara rozproszena macerz kowarancj c c = C K cn c c K c n K L K K cm c m K cnm Model lnowy regresj welokrotnej Założene: wpływ każdej rozpatrywanej zmennej objaśnającej na zmenną y jest lnowy ne zależy od wartośc nnych zmennych y = 0 m m β + β x + β x + K+ β x + ε Zaps macerzowy: xm odpowada y; wyraz wolny dodatkowa zmenna x 0 = Y Rozwązane MNK b = = X β + ε ' ' ( X X ) X Y

Regresja welokrotna Dane są nformacje o budżece reklamowym pewnego produktu, jego cena jednostkowa oraz fnalna sprzedaż jednostkowa. BUDŻET CENA SPRZEDAZ 00 88 6 007 0 60 8 8 769 4 0 8 070 700 0 7698 6 400 7 94 7 6 7 44 8 660 8 440 9 7000 6 47800 0 807 4 7498 800 9 7 90496 40 80608 00000 4 40800 4 000 600 40 6967 6 697 8 987 7 94 6 7886 8 67 860 Założena poprawnośc stosowana modelu regresj Zmenne nezależne x ne są ze sobą slne skorelowane. Żadna ze zmennych nezależnych ne pownna być kombnacją lnową nnych zmennych nezależnych. Lczba obserwacj n mus być wększa od lczby parametrów do oszacowana Zakłada sę stnene modelu lnowego względem parametrów. Jeśl wele z założeń jest nespełnony ne korzystaj z przedstawonych metod weryfkacj Bardzej adekwatny skorygowany współczynnk determnacj (także stosowalny gdy ne ma wyrazu wolnego).

Regresja nelnowa transformacje do modelu lnowego Mędzy zmenną objaśnaną a zmennym objaśnającym mogą zachodzć zwązk nelnowe. W welu przypadkach można dokonać transformacj do modelu lnowego poprzez odpowedne przekształcena zmennych. Model Y = f(x,b) jest lnowy względem parametrów, jeśl można go przedstawć jako lnową funkcję jednoznacznych przekształceń X, przy czym współczynnk tych przekształceń musza być znane. Y = k = b k z k Z k = h k (X ) Przykład regresj nelnowej Punkty żywenowe w latach 98-99 Rok 98 98 98 984 98 986 987 988 989 990 99 99 99 994 99 Punkty 00 0 0 0 4 6 7 6 6 08 97 96 80 7 t 4 6 7 8 9 0 4

Punkty żywenowe c.d Rok 98 98 98 984 98 986 987 988 989 990 99 99 99 994 99 y 00 0 0 0 4 6 7 6 6 08 97 96 80 7 Z 4 6 7 8 9 0 4 Z 4 9 6 6 49 64 8 00 44 69 96 Zakładamy, że kształt równana jest y = a0 + a t + a t Wprowadzamy zmenne zastępcze z = t z = t Rozwązane a0=88 a=,0 a=-0,84 Weryfkacja R=0.996 s=,7 Obe wartośc statystyk t < 0.0 y = 88 +.0 t 0.84 t Przykład regresj nelnowej cz.a Opsać kształtowana sę depozytów złotowych w oddzale banku w kolejnych kwartałach lat 994-996 Kwartał DEP t I 94 4 DEP / t II 94 III 94 IV 94 I 9 II 9 III 9 IV 9 I 96 II 96 III 96 4 69 90 98 8 40 0 0 70 4 6 7 8 9 0 400 7 0 00 7 0 00 7 0 00 0 4 6 7 8 9 0 Hpoteza wykładnczy przebeg b t DEP = a e

Przykład regresj nelnowej cz.b Opsać kształtowana sę depozytów złotowych w oddzale banku w kolejnych kwartałach lat 994-996 t DEP Ln(DEP) 4 4.80 4,87 ln(dep) / t 4 4 69 4,977,0,8 6 90 98,47,88,4 7 8 8 40,47,48 9 0 0 0,74,768 4,6 0 4 6 7 8 9 0 70,94 Rozpatrujemy formę ln( DEP) = (ln a) + b t Depozyty - rozwązane Rozwązane modelu przekształconego ln(dep)=4.67+0. t, R=0.989, współczynnk stotne. Przekształcene odwrotne 4.67+ 0. t DEP = e 0. t = 06.6 e

Metody doboru zmennych do modelu Zmenne wybera sę na podstawe wedzy dzedznowej. Wymagana nt. własnośc zmennych nezależnych: Są slne skorelowanych ze zmenną, którą objaśnają. Są neskorelowane lub co najwyżej słabo skorelowane ze sobą. Charakteryzują sę dużą zmennoścą. Jak wykorzystać współczynnk korelacj? r = tα, n n + tα, n Ocena zmennych objaśnających Przykład doboru zmennych do modelu opsującego mesęczne spożyce ryb (w kg na osobę) w zależnośc od: spożyca męsa x, warzyw x, owoców x, tłuszczów x 4 oraz wydatków na lekarstwa x. nr y X X X X4 x 0,6 0,6 0, 4,,07,07 0,4,77 0,44 0,44 0, 4 0,6 0,6 0,04 44 0 0 0,0 0,0 0,0 60 6 0 0 0,0 0,0 0,0 66 7 0 0 0,0 0,0 0,0 8 4 0,09 0,09 0,0 60 9 4 0,6 0,6 0,9 0 0, 0, 0,0 7 7,46,46 0,4,, 0.4 0,, 0,6 0 4 0, 0, 0,0 9 0,4 0,9 0,0 6

Dobór zmennych do modelu Współczynnk zmennośc y x x x x4 X 0,6 0,74 0,97,0 0,944 0,6 Macerz współczynnków korelacj y x x x x4 X y x 0,90 x 0,70 0,84 x 0,748 0,8 0,99 x4 0,8 0,860 0,946 0,9 x -0,44-0,9-0,477-0,0-0,9 Trochę oblczeń Wartość krytyczna Słaba korelacja? r = 4,666 + 4,666 = 0.6407 = 0.9 r(y,x) =-0.44 odrzucamy x Wyberamy najslnejszą zmenną r(y,x)=r=0.90 wyberamy x Co z pozostałym zmennym?

Regresja krokowa Postępująca (forward) Zakłada kolejne dołączane do lsty zmennych objaśnających tych zmennych, które mają najstotnejszy wpływ na zmenną zależną. Wsteczna (backward) Usuwamy ze zboru zmennych, ta które mają najmnejszy wpływ na zmenną zależną. Stosując R lub testy stotnośc współczynnków modelu (F). Regresja welokrotna - Statstca

Regresja krokowa

Lteratura Statystyka dla studentów kerunków techncznych przyrodnczych, Koronack Jacek, Melnczuk Jan, WNT, 00. Statystyka w zarządzanu, A.Aczel, PWN 000. Statystyka praktyczna. W.Starzyńska, Statystyka. Ekonometra. Prognozowane. Ćwczena z Excelem. A. Snarska, Wydawnctwo Placet 00. Przystępny kurs statystyk, Stansz A., 997. Tom pośwęcony wyłączne analze regresj! I wele nnych