Dane dotyczą parametrów wydolnościowych mężczyzn zmierzonych podczas biegu na 1,5 mili. Zmienną objaśnianą jest Oxygen (pobór tlenu podczas biegu).

Transkrypt

1 Zbiór fitness Przedmiotem zainteresowania będzie zbiór fitness. Dane dotyczą parametrów wydolnościowych mężczyzn zmierzonych podczas biegu na 1,5 mili. Zmienną objaśnianą jest Oxygen (pobór tlenu podczas biegu). Dla zbioru danych wykonaj następujące czynności: Dane dotyczą parametrów wydolnościowych mężczyzn zmierzonych podczas biegu na 1,5 mili Zmienną objaśnianą jest Oxygen (pobór tlenu podczas biegu)

2 DRZEWO REGRESYJNE Wywołanie komendy Spowoduje otworzenie w oknie przeglądarki strony z dokumentacją pakietu rpart. co oznacza parametr cp? jaka jest jego wartość domyślna? co oznacza parametr minsplit? jaka jest jego wartość domyślna? Następnie wywołujemy funkcję rysowania drzewa (tekstowo):

3 Jeśli chcemy rysować graficznie: plot(fitness.rpart,uniform=t,margin=0.1) Jego graficzna reprezentacja:

4 Jak widać drzewo nie ma żadnej zawartości opisowej, dzięki czemu jest w zasadzie bezużyteczne w analizie. Dopiero wywołanie dodatkowo funkcji: text(fitness.rpart) Sprawi, ze wyrysujemy pełne drzewo: Z kolei wywołanie funkcji:?plot Sprawi ze w oknie przeglądarki otworzy się dokumentacja funkcji plot. Z kolei wywołanie funkcji:?plot.rpart Wyświetli dokumentację funkcji plot.rpart co oznaczają parametry uniform i margin? To pozwala rozszerzyć swoją wiedzę w tym zakresie.

5 dlaczego uruchamiamy teoretycznie funkcję plot() a szukamy pomocy przez?plot.rpart? Czym są węzły (ang. node)? Jak są numerowane węzły? Jak się nazywają pierwszy i ostatnie węzły? Czym się charakteryzują węzły nie będące liśćmi? Gdy warunek podziału w danym węźle jest spełniony to przechodzimy do lewego czy prawego potomka? Odp.: do lewego Czym się charakteryzuje węzeł będący liściem? Powróćmy do wydruku tekstowego drzewa: fitness.rpart Czym są kolumny wydruku: node, split, n, deviance oraz yval? node), - posługując się graficzną reprezentacją zwróć uwagę na sposób numeracji split - czy korzeń ma warunek n - zauważ, że suma elementów u dzieci jest równa liczbie elementów u rodzica, np. n2+n3=n1 deviance - zauważ, że SSE u dzieci jest mniejsza niż SSE u rodzica, np. SSE2+SSE3 < SSE1 yval - za wartość teoretyczną bierze się średnią, ale można też próbować w liściach budować regresję Czym są gwiazdki? Predykcja Zechcemy dokonać predykcji na "przeciętnego Kowalskiego", posługując się medianą cech, a w przypadku średnich taki punkt nazywałby się centroidem oraz Wtedy By odpowiedzieć na następujące pytania: Ile jest niepowtarzalnych wartości predykcji Oxygen? Podpowiedź: Ile jest liści w drzewie? Czy reszty mają rozkład normalny? Oraz czy dla MNK mamy to samo? Można wywołać następujący ciąg instrukcji R:

6 par(mfrow=c(2,2)) plot(predict(fitness.rpart),residuals(fitness.rpart), xlab="predykcja Oxygen", ylab="rezydua") qqnorm(residuals(fitness.rpart)) lines(c(-3,3),c(-3,3)) gg=lm(oxygen ~., data=fitness) plot(gg$fitted.values, residuals(gg)) qqnorm(residuals(gg)) Efekt będzie następujący: Teraz Przejdź "palcem" po wydruku graficznym drzewa i upewnij się, że predykcja jest poprawna. Ile jest niepowtarzalnych wartości predykcji Oxygen? Podpowiedź: Ile jest liści w drzewie? Czy reszty mają rozkład normalny? Czy reszty mają rozkład normalny? qqnorm(residuals(fitness.rpart)) lines(c(-3,3),c(-3,3)) to samo dla MNK... gg=lm(oxygen ~., data=fitness) plot(gg$fitted.values, residuals(gg)) Teraz wywołaj komendę: > summary(fitness.rpart)

7 Call: rpart(formula = Oxygen ~., data = fitness, cp = 0.01, minsplit = 2) n= 31 CP nsplit rel error xerror xstd Node number 1: 31 observations, complexity param= mean= , MSE= left son=2 (27 obs) right son=3 (4 obs) Primary splits: RunTime < to the right, improve= , (0 missing) RestPulse < 55.5 to the right, improve= , (0 missing) RunPulse < 171 to the right, improve= , (0 missing) Age < 42.5 to the right, improve= , (0 missing) MaxPulse < 190 to the right, improve= , (0 missing) Node number 2: 27 observations, complexity param= mean= , MSE= left son=4 (4 obs) right son=5 (23 obs) Primary splits: RunTime < to the right, improve= , (0 missing) MaxPulse < 171 to the right, improve= , (0 missing) RestPulse < 55.5 to the right, improve= , (0 missing) RunPulse < 167 to the right, improve= , (0 missing) Weight < to the right, improve= , (0 missing) Node number 3: 4 observations, complexity param= mean=57.137, MSE= left son=6 (2 obs) right son=7 (2 obs) Primary splits: Age < 43 to the right, improve= , (0 missing) RunTime < 8.64 to the right, improve= , (0 missing) RunPulse < 161 to the left, improve= , (0 missing) MaxPulse < 170 to the left, improve= , (0 missing) Weight < to the right, improve= , (0 missing) Surrogate splits: RunTime < 8.64 to the right, agree=1, adj=1, (0 split) RunPulse < 161 to the left, agree=1, adj=1, (0 split) MaxPulse < 170 to the left, agree=1, adj=1, (0 split) Node number 4: 4 observations mean=38.86, MSE= Node number 5: 23 observations, complexity param= mean= , MSE= left son=10 (8 obs) right son=11 (15 obs) Primary splits: RunTime < 10.9 to the right, improve= , (0 missing) MaxPulse < 171 to the right, improve= , (0 missing)

8 RestPulse < 56.5 to the right, improve= , (0 missing) Age < 53 to the left, improve= , (0 missing) Weight < to the left, improve= , (0 missing) Surrogate splits: Weight < to the left, agree=0.783, adj=0.375, (0 split) RestPulse < 56.5 to the right, agree=0.696, adj=0.125, (0 split) MaxPulse < 171 to the right, agree=0.696, adj=0.125, (0 split) Node number 6: 2 observations mean=54.461, MSE= Node number 7: 2 observations mean=59.813, MSE= Node number 10: 8 observations, complexity param= mean= , MSE= left son=20 (1 obs) right son=21 (7 obs) Primary splits: RunTime < to the left, improve= , (0 missing) Weight < to the right, improve= , (0 missing) RunPulse < 169 to the left, improve= , (0 missing) Age < 49.5 to the right, improve= , (0 missing) MaxPulse < 174 to the left, improve= , (0 missing) Node number 11: 15 observations, complexity param= mean= , MSE= left son=22 (13 obs) right son=23 (2 obs) Primary splits: Age < 53 to the left, improve= , (0 missing) Weight < to the right, improve= , (0 missing) RunPulse < to the right, improve= , (0 missing) MaxPulse < to the right, improve= , (0 missing) RestPulse < 46 to the right, improve= , (0 missing) Node number 20: 1 observations mean=40.836, MSE=0 Node number 21: 7 observations mean= , MSE= Node number 22: 13 observations, complexity param= mean=47.881, MSE= left son=44 (11 obs) right son=45 (2 obs) Primary splits: Weight < to the right, improve= , (0 missing) Age < 50 to the right, improve= , (0 missing) RestPulse < 46 to the right, improve= , (0 missing) MaxPulse < 167 to the left, improve= , (0 missing) RunTime < to the right, improve= , (0 missing) Node number 23: 2 observations mean=51.2, MSE= Node number 44: 11 observations, complexity param= mean= , MSE= left son=88 (8 obs) right son=89 (3 obs) Primary splits: RunTime < to the right, improve= , (0 missing)

9 Weight < to the left, improve= , (0 missing) Age < 50 to the right, improve= , (0 missing) MaxPulse < 169 to the left, improve= , (0 missing) RestPulse < 45.5 to the right, improve= , (0 missing) Surrogate splits: RunPulse < 174 to the left, agree=0.818, adj=0.333, (0 split) MaxPulse < 176 to the left, agree=0.818, adj=0.333, (0 split) Node number 45: 2 observations mean= , MSE= Node number 88: 8 observations mean= , MSE= Node number 89: 3 observations mean= , MSE= plot(fitness.rpart,uniform=true,margin=0.1) text(fitness.rpart) Zagadnienie braków danych (ang. missing values) załóżmy, że brakuje nam informacji o zmiennej Age.Czy predykcji MNK jest możliwa? co wtedy można zrobić? czy predykcja przy pomocy drzewa jest możliwa? Sprawdźmy... summary(fitness.rpart) co oznaczają zmienne 'surrogate' w węzłach? predict(fitness.rpart,newdata=data.frame(age=nan, Weight=69, RunTime=NaN, RestPulse=57,RunPulse=168, MaxPulse=172)) plot(fitness.rpart,uniform=true,margin=0.1) text(fitness.rpart)

10 OPTYMALNA WIELKOŚĆ DRZEWA Uzasadnienie: Dysponujemy niewielką liczbą obserwacji (n=31), a zbudowaliśmy relatywnie duże drzewo, w których mamy 16 kryteriów podziału (a więc 16 parametrów), stąd istnieje duże ryzyko przeuczenia modelu, a więc nadmiernego dopasowania do tych konkretnych danych i zgubieniu z oczu prawdziwego procesu generowania danych (ang. DGP), które za tym stoi. Ponieważ będziemy się posługiwać metodą CV, ustawmy wspólną wartość ziarna > set.seed(289) > fitness2.rpart <- rpart(oxygen ~., data=fitness,cp=0.001, minsplit=2) > printcp(fitness2.rpart) Regression tree: rpart(formula = Oxygen ~., data = fitness, cp = 0.001, minsplit = 2) Variables actually used in tree construction: [1] Age RunPulse RunTime Weight Root node error: /31 = n= 31 CP nsplit rel error xerror xstd > Wywołaj teraz komendę printcp printcp(fitness.rpart) Regression tree: rpart(formula = Oxygen ~., data = fitness, cp = 0.01, minsplit = 2) Variables actually used in tree construction: [1] Age RunTime Weight Root node error: /31 = n= 31 CP nsplit rel error xerror xstd

11 > jaka jest interpretacja parameteru cp w odniesieniu do SSE? Węzły (i towarzyszące im splity) są uporządkowane zgodnie z malejącym "potencjałem" redukcji relatywnego SSE, a więc z malejącą wartością parametru regularyzacji cp. co oznacza kolumna rel error? ile wynosi redukcja rel terror między sąsiednimi wierszami? czy zależy nam na minimalizacji rel error? co oznacza kolumna xerror? jaka jest optymalna wartość parametru regularyzacji CP? co oznacza kolumna xstd? > plotcp(fitness2.rpart) co jest na osiach? co oznacza pojedyńczy punkt na wykresie? co oznaczają pionowe "wąsy" przy punktach? co oznacza pionowa przerywana kreska? jaka jest jego wartość? jaka jest optymalna wartość CP przy zastosowaniu reguły jednego odchylenia standardowego 1SE? optymalne CP zgodnie z 1SE: jest to taka maksymalna wartość CP, której błąd nie jest większy niż minimalny błąd plus jego odchylenie standardowe. Budujemy optymalne drzewo: fitness3.rpart <- prune(fitness2.rpart, cp=0.03) > print(fitness3.rpart) n= 31 node), split, n, deviance, yval

12 * denotes terminal node 1) root ) RunTime>= ) RunTime>= * 5) RunTime< ) RunTime>= * 11) RunTime< * 3) RunTime< ) Age>= * 7) Age< * > posługujemy się cp niewiele mniejszą niż optymalne cp, czy to dobrze? co by było gdybyśmy użyli cp=0.0337? Porównanie różnych modeli na zbiorze treningowym: Porównanie różnych modeli na zbiorze treningowym:

13 Graficzna reprezentacja predykcji drzewa regresyjnego Aby móc to zilustrować, posłużymy się tylko dwie "najważniejszymi" zmiennymi > fitness5.rpart <- rpart(oxygen ~ RunTime + Age, data=fitness,cp= , minsplit=2) > print(fitness5.rpart) n= 31 node), split, n, deviance, yval * denotes terminal node 1) root ) RunTime>= ) RunTime>= ) RunTime>= * 9) RunTime< ) Age>= ) RunTime>= * 37) RunTime< * 19) Age< * 5) RunTime< ) RunTime>= ) RunTime< * 21) RunTime>= ) Age< ) RunTime< ) Age< * 169) Age>= * 85) RunTime>= * 43) Age>= ) RunTime< ) RunTime< * 173) RunTime>= * 87) RunTime>= * 11) RunTime< ) Age< ) Age>= ) RunTime< ) RunTime< * 177) RunTime>= ) RunTime>= * 355) RunTime< * 89) RunTime>= * 45) Age< ) RunTime>= ) RunTime< ) RunTime< * 361) RunTime>= * 181) RunTime>= * 91) RunTime< ) RunTime< ) RunTime>= * 365) RunTime< ) Age>= ) RunTime>= * 1461) RunTime< * 731) Age< * 183) RunTime>=

14 366) RunTime< * 367) RunTime>= * 23) Age>= ) RunTime< * 47) RunTime>= * 3) RunTime< ) RunTime>= ) RunTime< * 13) RunTime>= * 7) RunTime< ) RunTime< * 15) RunTime>= * plot(fitness5.rpart, uniform=true, margin=0.1) text(fitness5.rpart)

15 Obszary różnicące się predykcją plot(fitness$runtime, fitness$age, xlim=c(8.0,14.0), ylim=c(37,58), xlab="runtime", ylab="age") lines(c(8.935,8.935), c(37,58)) lines(c(12.29,12.29), c(37,58)) lines(c(8.64,8.64), c(37,58)) lines(c(12.29,12.29), c(37,58)) lines(c(10.9,10.9), c(37,58)) lines(c(11.015,11.015), c(37,58)) lines(c(8.935,10.9), c(53,53)) Aby wykres był do końca czytelny, powinniśmy jeszcze w pola wprowadzić wartość teoretyczną poszczególnego liścia len=60 xp <- seq(8.0, 15.0, length=len) yp <- seq(35, 60, length=len)

16 siatka <- expand.grid(runtime=xp, Age=yp) zp <- predict(fitness5.rpart, siatka) persp(xp, yp, matrix(zp, len), theta = 150, phi = 30, col = "lightblue", zlim=c(37,60), xlab = "RunTime", ylab = "Age", zlab = "Oxygen") # Wykres 3D Drzewa klasyfikacyjne: dane Cars93 library(mass) data(cars93) dim(cars93) names(cars93) Stosując funkcje dim oraz names poznaj licznościowo zbiór Cars93 I nazwy kolumn opisujących dane. Będziemy modelować zmienną kategoryczną "typ samochodu" table(cars93$type)

17 Zechcemy połączyć pewne kategorie samochodów do tego samego "koszyka", w ten sposób aby mieć cztery kategorie: # D - duży: Large, Van # SR - średni: Midsize, Compact # M - mały: small # SP - sportowy: sporty typ <- ifelse(cars93$type=="large" Cars93$Type=="Van", "D", "SR") typ2 <- ifelse(cars93$type=="small", "M", typ) typ3 <- ifelse(cars93$type=="sporty", "SP", typ2) typ3 <- ifelse(cars93$type=="sporty", "SP", ifelse(cars93$type=="small","m", ifelse(cars93$type=="large" Cars93$Type=="Van", "D", "SR"))) table(typ3) Cars93 = data.frame(cars93, typ=typ3) dim(cars93) names(cars93) ponieważ posłużymy się CV użyjmy wspólnego ziarna set.seed(222) Z wielu potencjalnych zmiennych objaśniających wybierzmy tylko 5 cars.tree <- rpart(typ ~ Length + Weight + EngineSize + Horsepower + RPM, data=cars93, cp=0.0001, minsplit=5) niewielka wartość cp i minsplit, powoduje, że mamy "duże" drzewo

18 par(mfrow=c(1,1), mar=c(0,0,0,0), pty="m") plot(cars.tree,compress=t,uniform=true, branch=0.4, margin=0.2) text(cars.tree, use.n=t, cex=0.7) co oznaczają liczby w liściach? Wydruk tekstowy drzewa? print(summary(cars.tree), digits=4)

19 co oznacza wartość loss? co oznacza wartość loss przy jednostkowej macierzy kosztu? co oznacza yprob? co oznacza yval? i jaką przyjęto regułę decyzyjną przy jego wyborze?

20 Optymalne drzewo klasyfikacyjne printcp(cars.tree) jakie jest optymalne drzewo, kierując się minimalizacją błędu kroswalidacyjnego? jakie jest optymalne drzewo, kierując się regułą 1SE? plotcp(cars.tree) Z czego wynika brak monotoniczności tej funkcji błędu? Jak jest uzasadniania reguła 1SE? Wizualizacja drzewa klasyfikacyjnego w tym celu wybierzemy tylko dwie zmienne par(mfrow=c(1,1), mar=c(0,0,0,0), pty="m") plot(cars2zmienne.tree,compress=t,uniform=true,branch=0.4,margin=0.2) text(cars2zmienne.tree, use.n=true, cex=0.7) print(summary(cars2zmienne.tree), digits=4)

21 Rysujemy obszary klasyfikacji: plot(c(1,5.70), c(1695,4105), type="p", xlab="weight", ylab="enginesize") text(cars93$enginesize, Cars93$Weight, Cars93$typ, cex=0.6) lines(c(1.95,1.95), c(1695,4105)) lines(c(1.95,5.70), c(3460,3460)) lines(c(3.2,3.2), c(1695,3460)) lines(c(1.95,5.70), c(3700,3700)) lines(c(3.25,3.25), c(3460,3700)) lines(c(3.25,5.70), c(3630,3630))

22 Metody łączenia klasyfikatorów Uzasadnienie: Załóżmy, że dysponujemy n (np. n=1000) niezależnymi klasyfikatorami. Każdy z nich charakteryzuje się prawdopodobieństwem p (np. p = 60%) poprawnej klasyfikacji. Załóżmy bardzo słaby klasyfikator p=0.51 dysponujemy 1000 niezależnych klasyfikatorów n=1000 Ile klasyfiaktorów na 1000 wskaże poprawną odpowiedź rbinom(1,n,p) rbinom(1,n,p) rbinom(1,n,p) rbinom(1,n,p) rbinom(1,n,p) Jeśli będziemy się posługiwali głosowaniem, tj. klasyfikowali do tej kategorie,do której większość klasyfikatorów z 1000 klasyfikowało, to jak często będziemy poprawnie klasyfikować? rbinom(1,n,p)>500 rbinom(1,n,p)>500 rbinom(1,n,p)>500 rbinom(1,n,p)>500 rbinom(1,n,p)>500 prop.table(table(rbinom( ,n,p)>500))?rbinom Wniosek: z poprawności 51% awansowaliśmy na 72%