Metody predykcji analiza regresji wielokrotnej, nieliniowej i wybór zmiennych

Podobne dokumenty

Analiza regresji elementy zaawansowane (cz. 2)

STATYSTYKA OD PODSTAW Z SYSTEMEM SAS. wersja 9.2 i 9.3. Szkoła Główna Handlowa w Warszawie

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Weryfikacja hipotez statystycznych testy dla dwóch zbiorowości

Regresja nieparametryczna series estimator

Weryfikacja hipotez statystycznych testy t Studenta

Wprowadzenie do analizy korelacji i regresji

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Budowa modelu i testowanie hipotez

KORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y. 2. Współczynnik korelacji Pearsona

STATYSTYKA MATEMATYCZNA

5. Model sezonowości i autoregresji zmiennej prognozowanej

Sieci neuronowe w Statistica. Agnieszka Nowak - Brzezioska

WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO

Analiza regresji - weryfikacja założeń

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

RBF sieci neuronowe o radialnych funkcjach bazowych

Sieci neuronowe w Statistica

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Ćwiczenie 5 PROGNOZOWANIE

KARTA PRZEDMIOTU / SYLABUS

KARTA PRZEDMIOTU / SYLABUS

Metody Ilościowe w Socjologii

3. Modele tendencji czasowej w prognozowaniu

Opis efektów kształcenia dla modułu zajęć

Uniwersytet w Białymstoku Wydział Ekonomiczno-Informatyczny w Wilnie SYLLABUS na rok akademicki 2010/2011

Imię, nazwisko i tytuł/stopień KOORDYNATORA przedmiotu zatwierdzającego protokoły w systemie USOS Jacek Marcinkiewicz, dr

MODELE LINIOWE. Dr Wioleta Drobik

4. Średnia i autoregresja zmiennej prognozowanej

Uczelnia Łazarskiego Wydział Medyczny Kierunek Lekarski

Statystyka matematyczna i ekonometria

KARTA PRZEDMIOTU / SYLABUS Wydział Nauk o Zdrowiu Zdrowie Publiczne ogólnoakademicki praktyczny inny jaki. Zakład Statystyki i Informatyki Medycznej

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

KARTA PRZEDMIOTU / SYLABUS

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Agnieszka Nowak Brzezińska Wykład III

Nazwa przedmiotu: Informatyczne systemy statystycznej obróbki danych. Informatics systems for the statistical treatment of data Kierunek:

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

tum.de/fall2018/ in2357

Model regresji wielokrotnej Wykład 14 ( ) Przykład ceny domów w Chicago

Karta (sylabus) modułu/przedmiotu Inżynieria Materiałowa Studia II stopnia Specjalność: Inżynieria Powierzchni

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

KARTA KURSU. Kod Punktacja ECTS* 1

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Predictive modeling - regression

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

Rozpoznawanie twarzy metodą PCA Michał Bereta 1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów

(LMP-Liniowy model prawdopodobieństwa)

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Ćwiczenie 12. Metody eksploracji danych

Wykład 12 Testowanie hipotez dla współczynnika korelacji

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie

Opisy przedmiotów do wyboru

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Kierunek i poziom studiów: Biologia, poziom drugi Sylabus modułu: Metody statystyczne w naukach przyrodniczych

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Agnieszka Nowak Brzezińska Wykład III

Testy własności składnika losowego Testy formy funkcyjnej. Diagnostyka modelu. Część 2. Diagnostyka modelu

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Spis treści 3 SPIS TREŚCI

Analiza autokorelacji

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

KARTA PRZEDMIOTU / SYLABUS

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

KARTA PRZEDMIOTU / SYLABUS

Testowanie hipotez statystycznych.

KARTA PRZEDMIOTU / SYLABUS. Zakład Statystyki i Informatyki Medycznej. tel./fax (85) dr Robert Milewski

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Testy dla dwóch prób w rodzinie rozkładów normalnych

Wykład 12 ( ): Testy dla dwóch prób w rodzinie rozkładów normalnych

KARTA PRZEDMIOTU. 12. PRZEDMIOTOWE EFEKTY KSZTAŁCENIA Odniesienie do kierunkowych efektów kształcenia (symbol)

Przykład 1. (A. Łomnicki)

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

przedmiotu Nazwa Pierwsza studia drugiego stopnia

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

MODELOWANIE KOSZTÓW USŁUG ZDROWOTNYCH PRZY

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

POLITECHNIKA OPOLSKA

Agnieszka Nowak Brzezińska

KARTA PRZEDMIOTU / SYLABUS Wydział Nauk o Zdrowiu ELEKTROLADIOLOGIA ogólnoakademicki praktyczny inny jaki. Zakład Statystyki i Informatyki Medycznej

Modelowanie glikemii w procesie insulinoterapii

Dopasowywanie modelu do danych

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Testowanie modeli predykcyjnych

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

Transkrypt:

Metody predykcji analiza regresji wielokrotnej, nieliniowej i wybór zmiennych TPD 2009/2010 Aktualizacja w 2010 JERZY STEFANOWSKI Instytut Informatyki Politechnika Poznańska

Przebieg wykładu Poprzednie wykłady 1. Predykcja z wykorzystaniem analizy regresji 2. Ocena poprawności modelu regresji liniowej 3. Regresja wielowymiarowa 4. Ocena modeli predykcyjnych 5. Regresja nieliniowa 6. Selekcja zmiennych. 7. Inne podejścia do predykcji

Przypomnijmy. Spróbujmy wspólnie powtórzyć co wiemy na temat tworzenia i diagnostyki modelu regresji! Także dla regresji wielowymiarowej Patrz klasyczne środki prezentacji

Ogólny schemat postępowania Ustalenie założeń i postaci modelu Szacowanie parametrów strukturalnych modelu na podstawie wyników próby Weryfikacja modelu: czy parametry są istotne? ocena założeń modelu (reszty) czy zależność jest liniowa? TAK NIE Wykorzystanie modelu: 1. Predykcja zmiennej Y 2. Opis zależności między zmiennymi

Trudne przypadki w modelach regresji

Prognoza punktowa w regresji Łatwa na podstawie równania regresji. Np. oceń obciążenie kart wśród posiadaczy kart, których trasa podróży osiągnie 4000 mil, w okresie o takiej długości jak okres badany: yˆ = 274,85 + 1,2663 x = 274,85 + 1,2663 4000 = 5296,05

Przedziały predykcji (1-α) 100% przedział predykcji zmiennej Y yˆ ± t s 1 1+ n Rozpiętość przedziału predykcji zależy od odległości wartości x od średniej! Przykład: posiadacz, który przebył 4000 mil i 95% przedział ufności. Z analizy danych historycznych: x x α / 2 2 ( x x) ( x ) n i = 1 i x = 79448/25=3177,92; SSx = 40947557,84 a s = 318,16 Ponadto t przy 23 stopniach swobody wynosi 2,069 Stąd przedział 5296,05±676,62 = [4619,43; 5972,67] + Oznacza to, że w oparciu o wyniki badań można mieć 95% zaufania do prognozy, że posiadacz karty, który przebył trasę 4000 mil w okresie o danej długości obciąży swoją kartę kredytową sumą od 4619.43 do 5972,67$. 2

Niepewność w predykcji Ograniczenie prognoz punktowych błędu pochodzące zarówno z niepewności szacunków, jak i losowej zmienności położenia punktów w stosunku do linii regresji. Stosuj wtedy tzw. przedziały predykcji (tzw. prognozy przedziałowe).

Zakres przewidywania Wartości prognozowane nie powinny zbyt wykraczać poza zakres wartości wykorzystywanych w procedurze szacowania parametrów równania regresji.

Inne spojrzenie na ocenę predykcji Przypomnijmy metody oceny klasyfikatorów Podejście empiryczne Podział danych na części ucząca vs. testowa Training Set zbiór uczący Skonstruuj model regresji Testing Set Oszacuj zdolność predykcji

Podobne schematy podziału danych Results Known + + -- Training set Data + Model Builder Evaluate Testing set Y N + - + - 1-1.2 0.3 0.7 Predictions W odróżnieniu od klasyfikacji nie ma etykiet dyskretnych klas, lecz wynik - wartość liczbową zmiennej zależnej

Ocena predykcji Predictor Error Measures Pomiar wielkości różnicy między wartością rzeczywistą a przewidywaną Loss function: measures the error betw. y i and the predicted value y i^ Absolute error: y i y i^ Squared error: (y i y i^) 2 Test error (generalization error): the average loss over the test set (n) Mean absolute error: Mean squared error: Relative absolute error: Relative squared error: The mean squared-error exaggerates the presence of outliers Popularly use (square) root mean-square error, similarly, root relative squared error n y y n i i i = 1 ˆ n y y n i i i = 1 2 ) ˆ ( = = n i i n i i i y y y y 1 1 ˆ = = n i i n i i i y y y y 1 2 1 2 ) ( ) ˆ (

Predykcja w danych zmiennych czasowo szeregi czasowe Co to jest szereg czasowy? Ciąg obserwacji pewnego zjawiska w kolejnych jednostkach czasu. Tzw. funkcja trendu Predykcja Przesuwane okna Wykr. zmiennej: SZEREG_G Miesięczna liczba pasażerów (w tysiącach) 700 600 500 400 300 200 SZEREG_G 100 0 Nazwy obs. 700 600 500 400 300 200 100 0 Sty-1949 Kwi-1949 Lip-1949 Paź-1949 Sty-1950 Kwi-1950 Lip-1950 Paź-1950 Sty-1951 Kwi-1951 Lip-1951 Paź-1951 Sty-1952 Kwi-1952 Lip-1952 Paź-1952 Sty-1953 Kwi-1953 Lip-1953 Paź-1953 Sty-1954 Kwi-1954 Lip-1954 Paź-1954 Sty-1955 Kwi-1955 Lip-1955 Paź-1955 Sty-1956 Kwi-1956 Lip-1956 Paź-1956 Sty-1957 Kwi-1957 Lip-1957 Paź-1957 Sty-1958 Kwi-1958 Lip-1958 Paź-1958 Sty-1959 Kwi-1959 Lip-1959 Paź-1959 Sty-1960 Kwi-1960 Lip-1960 Paź-1960

Inne przykłady regresji wielokrotnej Warto przeanalizować przykład 4.3. analizy samochodów podany przez Koronacki, Mielniczuk Statystyka rozdział 4.3.4 Przedstawiony opis obejmuje: Tworzenie modelu regresji liniowej, Diagnostykę modelu Identyfikację obserwacji samotnicznych Selekcje zmiennych

Założenia poprawności stosowania modelu regresji Zmienne niezależne x nie są ze sobą silnie skorelowane. Żadna ze zmiennych niezależnych nie powinna być kombinacją liniową innych zmiennych niezależnych. Liczba obserwacji n musi być większa od liczby parametrów do oszacowania Zakłada się istnienie modelu liniowego względem parametrów. Jeśli wiele z założeń jest niespełniony nie korzystaj z przedstawionych metod weryfikacji Bardziej adekwatny skorygowany współczynnik determinacji (także stosowalny gdy nie ma wyrazu wolnego).

Regresja nieliniowa

Regresja nieliniowa i transformacje do modelu liniowego Między zmienną objaśnianą a zmiennymi objaśniającymi mogą zachodzić związki nieliniowe. W wielu przypadkach można dokonać transformacji do modelu liniowego poprzez odpowiednie przekształcenia zmiennych. Model Y = f(x,b) jest liniowy względem parametrów, jeśli można go przedstawić jako liniową funkcję jednoznacznych przekształceń X, przy czym współczynniki tych przekształceń musza być znane. Y = i k = 1 b k zk Z k = h k (X )

Przykłady prostej transformacji

Przykład regresji nieliniowej Punkty żywieniowe w latach 1981-1995 Rok 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 Punkty 200 205 210 220 224 226 227 226 226 215 208 197 196 180 175 t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Punkty żywieniowe c.d Rok 1981 1982 1983 1984 y 200 205 210 220 Z1 1 2 3 4 Z2 1 4 9 16 Zakładamy, że kształt równania 2 jest y = a + a t + a 0 1 2 t Wprowadzamy zmienne zastępcze z 1 = t 2 z 2 = t 1985 1986 1987 224 226 227 5 6 7 25 36 49 Rozwiązanie a0=188 1988 1989 1990 1991 1992 1993 1994 1995 226 226 215 208 197 196 180 175 8 9 10 11 12 13 14 15 64 81 100 121 144 169 196 225 a1=11,031 a2=-0,814 Weryfikacja R2=0.996 s=3,37 Obie wartości statystyk t < 0.05 y = 188 + 11.031 t 0.814 t 2

Przykład regresji nieliniowej cz.2a Opisać kształtowania się depozytów złotowych w oddziale banku w kolejnych kwartałach lat 1994-1996 Kwartał DEP t I 94 124 1 DEP / t II 94 III 94 IV 94 131 145 169 2 3 4 400 375 350 325 I 95 II 95 190 198 5 6 300 275 250 III 95 IV 95 I 96 238 240 303 7 8 9 225 200 175 150 125 II 96 III 96 320 370 10 11 100 0 1 2 3 4 5 6 7 8 9 10 11 12 Hipoteza wykładniczy przebieg b t DEP = a e

Przykład regresji nieliniowej cz.2b Opisać kształtowania się depozytów złotowych w oddziale banku w kolejnych kwartałach lat 1994-1996 t DEP Ln(DEP) 1 2 124 131 4.820 4,875 ln(dep) / t 3 4 145 169 4,977 5,130 5,8 5 6 190 198 5,247 5,288 5,4 7 8 238 240 5,472 5,481 5 9 10 303 320 5,714 5,768 4,6 0 1 2 3 4 5 6 7 8 9 10 11 12 11 370 5,914 Rozpatrujemy formę ln( DEP) = (ln a) + b t

Depozyty - rozwiązanie Rozwiązanie modelu przekształconego ln(dep)=4.671+0.111 t, R2=0.989, współczynniki istotne. Przekształcenie odwrotne DEP = e 4.671+ 0.111 t = 106.6 e 0.111 t

Inny przykład dla Statistica patrz ćwiczenia laboratoryjne Dane nt. polskiego rybołówstwa dalekomorskiego (lata 90te).

Statistica poszukaj modeli nieliniowych Dwie opcje na laboratorium sprawdź to?

Możliwości interakcji z użytkownikiem User defined quadratic function

Regresja nieliniowa cd. Model funkcji kwadratowej (a co z innymi?) y = 0,25071 x + 30,7079 x 2 581,49

Statistica inna opcja Fitting fixed nonlinear basic functions

Różne wskazówki co do transformacji J.Koronacki, J.Mielniczuk: Statystyka rozdział 4.2 Spójrz ogólne zasady doboru transformacji dla różnych typów zależności między zmiennymi. Także inne pozycje: M.Walesiak: Metody analizy danych marketingowych Rozdział 3.5 ogólne zasady transformacji liniowej dla typowych funkcji nieliniowych (dla kontekstu badań marketingowych)

Inne spojrzenie na nieliniowość Nie wszystkie modele są tak proste; funkcje nieliniowe mogą być bardziej złożone nie nadają się do omówionych linearyzacji przykład funkcji nieliniowej Produkcja cementu (tysiące ton) t 1,5 1 0,5 0-0,5-1 -1,5 1 3 5 7 9 1113151719212325272931 x 2000 1500 1000 500 0 lis-94 maj-95 gru-95 lip-96 sty-97 sie-97 lut-98 Regresja nieparametryczna przybliżona postać nie jest znana badaczowi z dokładnością do wybranych parametrów Przeczytaj więcej w rozdziale 5tym książki Koronacki, Ćwiek Statystyczne systemy uczące się wyd. 2

Różne funkcje Przykład trudniejszych funkcje regresja nieparametryczna

Funkcje składane / sklejane Estymując funkcję regresji staramy się uwzględnić w modelu własności lokalne Składanie funkcji bazowych zdolnych lokalnie przybliżyć własności pewnych podobszarów dziedziny Regresyjne funkcje sklejane z węzłami Locally weighted regression p y = α + j = f 1 j ( x, β )

Zajrzyj do prac nt. zaawansowanych modeli Rozdział przeglądowy w The Data Mining and Knowledge Discovery Handbook O.Maimon, L. Rokach (eds), Springer 2005. Także J.Koronacki, Ćwik Statystyczne systemy uczące 2 wydanie rozdział 5ty.

Aproksymacja radialnymi funkcjami kołowymi RBF Zadanie aproksymacji f ( xi ) = di i = 1, K, N Przyjmijmy funkcje liniową względem parametrów w wykorzystującą funkcje o symetrii kołowej RBF m i = f ( x) = w i ϕ( x c ) 1 Radialna funkcja bazowa funkcja ϕ o postaci ϕ(x,c)= ϕ(r(x,c)), gdzie r jest odległością między punktami x i c. Punkt c nazywamy centrum Związek funkcji radialnym z funkcjami jądrowymi (kernals), z parametrem σ szerokością jądra i

Przykład aproksymacji funkcji sinsus Za wykład prof. A.Bartkowiak Uniw. Wrocławski

Metody doboru zmiennych do modelu Zmienne wybiera się na podstawie wiedzy dziedzinowej. Wymagania nt. własności zmiennych niezależnych: Są silnie skorelowanych ze zmienną, którą objaśniają. Są nieskorelowane lub co najwyżej słabo skorelowane ze sobą. Charakteryzują się dużą zmiennością. Jak wykorzystać współczynniki korelacji? r = 2 tα, n 2 2 n 2 + tα, n 2

Ocena zmiennych objaśniających Przykład doboru zmiennych do modelu opisującego miesięczne spożycie ryb (w kg na osobę) w zależności od: spożycia mięsa x 1, warzyw x 2, owoców x 3, tłuszczów x 4 oraz wydatków na lekarstwa x 5. nr y X1 X2 X3 X4 x5 1 3 3 0,63 0,63 0,12 14,1 2 3 3 1,07 1,07 0,14 12,77 3 3 3 0,44 0,44 0,1 11 4 3 2 0,26 0,26 0,04 44 5 0 0 0,01 0,0 0,0 60 6 0 0 0,02 0,01 0,0 66 7 0 0 0,02 0,01 0,01 53 8 5 4 0,09 0,09 0,03 60 9 4 2 0,56 0,56 0,19 3 10 3 2 0,11 0,11 0,05 3 11 7 7 1,46 1,46 0,34 23 12 5 5 1,22 1,22 0.24 30 13 5 5 1,22 1,22 0,26 30 14 2 1 0,31 0,13 0,05 39 15 3 2 0,4 0,19 0,05 56

Dobór zmiennych do modelu Współczynniki zmienności y x1 x2 x3 x4 X5 0,635 0,754 0,917 1,0 0,944 0,632 Macierz współczynników korelacji y x1 x2 x3 x4 X5 y 1 x1 0,950 1 x2 0,750 0,843 1 x3 0,748 0,851 0,991 1 x4 0,813 0,860 0,946 0,951 1 x5-0,442-0,395-0,477-0,503-0,539 1

Trochę obliczeń Wartość krytyczna r = 4,6656 13 + 4,6656 = 0.264107 = 0.5139 Słaba korelacja? r(y,x5) =-0.442 odrzucamy x5 Wybieramy najsilniejszą zmienną r(y,x1)=r1=0.950 wybieramy x1 Co z pozostałymi zmiennymi?

Regresja krokowa Postępująca (forward) Zakłada kolejne dołączanie do listy zmiennych objaśniających tych zmiennych, które mają najistotniejszy wpływ na zmienną zależną. Wsteczna (backward) Usuwamy ze zbioru zmiennych, ta które mają najmniejszy wpływ na zmienną zależną. Stosując R2 lub testy istotności współczynników modelu (F).

Regresja wielokrotna - Statistica

Regresja krokowa

Inne zaawansowane modele regresji Generalized linear model: Foundation on which linear regression can be applied to modeling categorical response variables Variance of y is a function of the mean value of y, not a constant Logistic regression: models the prob. of some event occurring as a linear function of a set of predictor variables Poisson regression: models the data that exhibit a Poisson distribution Log-linear models: (for categorical data) Approximate discrete multidimensional prob. distributions Also useful for data compression and smoothing Regression trees and model trees Trees to predict continuous values rather than class labels

Regression Trees and Model Trees Regression tree: proposed in CART system (Breiman et al. 1984) CART: Classification And Regression Trees Each leaf stores a continuous-valued prediction It is the average value of the predicted attribute for the training tuples that reach the leaf Model tree: proposed by Quinlan (1992) Each leaf holds a regression model a multivariate linear equation for the predicted attribute A more general case than regression tree Regression and model trees tend to be more accurate than linear regression when the data are not represented well by a simple linear model

An example regression tree {V1,V3} A3 {V2,V4} 17.5 <0.5 A2 A7 0.5 A4 {V1,V3} V2 3.4 2.1A4-0.1A6+6.7 3A6-4.2 11.5-5.5A1+30.2

Sztuczne sieci neuronowe - predykcja Training ANN means learning the weights of the neurons

Stosowanie sieci neuronowych do predykcji Wybór rodzaju sieci: warstwowa MLP albo RBF MLP Topologia sieci (ile neuronów w warstwie ukrytej) Rodzaj neuronów (dobór funkcji aktywacji i parametrów) Algorytm uczenia (BP) i warunki zatrzymania Unikaj przeuczenia! Konieczność posiadania właściwego i odpowiednio licznego zbioru uczącego. y y x x

Logistic regression Problem: some assumptions violated when linear regression is applied to classification problems Logistic regression: alternative to linear regression Designed for classification problems Tries to estimate class probabilities directly Does this using the maximum likelihood method Uses this linear model: log 1 P P = w a 0 0 + w a 1 1 + w a 2 2 + K+ w k a k P= Class probability witten&eibe

Modele predykcji zmiennej liczbowej w WEKA

Wczytywanie danych

Regresja wielokrotna liniowa

Inne metody

Zastosowania bardzo dużo Finance Marketing Economical sciences Biology and Medical Science Behavioral and social sciences Psychology Environmental science Agriculture

Applications few words more Finance: The capital asset pricing model uses linear regression as well as the other predictive models for analyzing and quantifying the systematic risk of an investment. Marketing Analysis of sales, demands for products, Economical sciences Macro-economical models for countries, etc. Biology and Medical Science The scale of illness depeneding on epidemiology indicaters Behavioral and social sciences Psychology Environmental science E.g. to measure the effects of pulp mill or metal mine effluent on the aquatic ecosystem

Literatura Statystyka dla studentów kierunków technicznych i przyrodniczych, Koronacki Jacek, Mielniczuk Jan, WNT, 2001. Statystyczne systemy uczące się, Koronacki, Ćwik, WNT 2009 (2 wydanie) Statystyka w zarządzaniu, A.Aczel, PWN 2000. Metody i modele eksploracji danych. D. Larose, PWN 2008. Przystępny kurs statystyki, Stanisz A., 1997 (kol. wyd.) Tom 2 poświęcony wyłącznie analizie regresji! Statystyka. Ekonometria. Prognozowanie. Ćwiczenia z Excelem. A. Snarska, Wydawnictwo Placet 2005. I wiele innych Przykłady zastosowań także czytelnia firmy Statsoft