Dane dotyczą parametrów wydolnościowych mężczyzn zmierzonych podczas biegu na 1,5 mili. Zmienną objaśnianą jest Oxygen (pobór tlenu podczas biegu).

Wielkość: px
Rozpocząć pokaz od strony:

Download "Dane dotyczą parametrów wydolnościowych mężczyzn zmierzonych podczas biegu na 1,5 mili. Zmienną objaśnianą jest Oxygen (pobór tlenu podczas biegu)."

Transkrypt

1 Zbiór fitness Przedmiotem zainteresowania będzie zbiór fitness. Dane dotyczą parametrów wydolnościowych mężczyzn zmierzonych podczas biegu na 1,5 mili. Zmienną objaśnianą jest Oxygen (pobór tlenu podczas biegu). Dla zbioru danych wykonaj następujące czynności: Dane dotyczą parametrów wydolnościowych mężczyzn zmierzonych podczas biegu na 1,5 mili Zmienną objaśnianą jest Oxygen (pobór tlenu podczas biegu)

2 DRZEWO REGRESYJNE Wywołanie komendy Spowoduje otworzenie w oknie przeglądarki strony z dokumentacją pakietu rpart. co oznacza parametr cp? jaka jest jego wartość domyślna? co oznacza parametr minsplit? jaka jest jego wartość domyślna? Następnie wywołujemy funkcję rysowania drzewa (tekstowo):

3 Jeśli chcemy rysować graficznie: plot(fitness.rpart,uniform=t,margin=0.1) Jego graficzna reprezentacja:

4 Jak widać drzewo nie ma żadnej zawartości opisowej, dzięki czemu jest w zasadzie bezużyteczne w analizie. Dopiero wywołanie dodatkowo funkcji: text(fitness.rpart) Sprawi, ze wyrysujemy pełne drzewo: Z kolei wywołanie funkcji:?plot Sprawi ze w oknie przeglądarki otworzy się dokumentacja funkcji plot. Z kolei wywołanie funkcji:?plot.rpart Wyświetli dokumentację funkcji plot.rpart co oznaczają parametry uniform i margin? To pozwala rozszerzyć swoją wiedzę w tym zakresie.

5 dlaczego uruchamiamy teoretycznie funkcję plot() a szukamy pomocy przez?plot.rpart? Czym są węzły (ang. node)? Jak są numerowane węzły? Jak się nazywają pierwszy i ostatnie węzły? Czym się charakteryzują węzły nie będące liśćmi? Gdy warunek podziału w danym węźle jest spełniony to przechodzimy do lewego czy prawego potomka? Odp.: do lewego Czym się charakteryzuje węzeł będący liściem? Powróćmy do wydruku tekstowego drzewa: fitness.rpart Czym są kolumny wydruku: node, split, n, deviance oraz yval? node), - posługując się graficzną reprezentacją zwróć uwagę na sposób numeracji split - czy korzeń ma warunek n - zauważ, że suma elementów u dzieci jest równa liczbie elementów u rodzica, np. n2+n3=n1 deviance - zauważ, że SSE u dzieci jest mniejsza niż SSE u rodzica, np. SSE2+SSE3 < SSE1 yval - za wartość teoretyczną bierze się średnią, ale można też próbować w liściach budować regresję Czym są gwiazdki? Predykcja Zechcemy dokonać predykcji na "przeciętnego Kowalskiego", posługując się medianą cech, a w przypadku średnich taki punkt nazywałby się centroidem oraz Wtedy By odpowiedzieć na następujące pytania: Ile jest niepowtarzalnych wartości predykcji Oxygen? Podpowiedź: Ile jest liści w drzewie? Czy reszty mają rozkład normalny? Oraz czy dla MNK mamy to samo? Można wywołać następujący ciąg instrukcji R:

6 par(mfrow=c(2,2)) plot(predict(fitness.rpart),residuals(fitness.rpart), xlab="predykcja Oxygen", ylab="rezydua") qqnorm(residuals(fitness.rpart)) lines(c(-3,3),c(-3,3)) gg=lm(oxygen ~., data=fitness) plot(gg$fitted.values, residuals(gg)) qqnorm(residuals(gg)) Efekt będzie następujący: Teraz Przejdź "palcem" po wydruku graficznym drzewa i upewnij się, że predykcja jest poprawna. Ile jest niepowtarzalnych wartości predykcji Oxygen? Podpowiedź: Ile jest liści w drzewie? Czy reszty mają rozkład normalny? Czy reszty mają rozkład normalny? qqnorm(residuals(fitness.rpart)) lines(c(-3,3),c(-3,3)) to samo dla MNK... gg=lm(oxygen ~., data=fitness) plot(gg$fitted.values, residuals(gg)) Teraz wywołaj komendę: > summary(fitness.rpart)

7 Call: rpart(formula = Oxygen ~., data = fitness, cp = 0.01, minsplit = 2) n= 31 CP nsplit rel error xerror xstd Node number 1: 31 observations, complexity param= mean= , MSE= left son=2 (27 obs) right son=3 (4 obs) Primary splits: RunTime < to the right, improve= , (0 missing) RestPulse < 55.5 to the right, improve= , (0 missing) RunPulse < 171 to the right, improve= , (0 missing) Age < 42.5 to the right, improve= , (0 missing) MaxPulse < 190 to the right, improve= , (0 missing) Node number 2: 27 observations, complexity param= mean= , MSE= left son=4 (4 obs) right son=5 (23 obs) Primary splits: RunTime < to the right, improve= , (0 missing) MaxPulse < 171 to the right, improve= , (0 missing) RestPulse < 55.5 to the right, improve= , (0 missing) RunPulse < 167 to the right, improve= , (0 missing) Weight < to the right, improve= , (0 missing) Node number 3: 4 observations, complexity param= mean=57.137, MSE= left son=6 (2 obs) right son=7 (2 obs) Primary splits: Age < 43 to the right, improve= , (0 missing) RunTime < 8.64 to the right, improve= , (0 missing) RunPulse < 161 to the left, improve= , (0 missing) MaxPulse < 170 to the left, improve= , (0 missing) Weight < to the right, improve= , (0 missing) Surrogate splits: RunTime < 8.64 to the right, agree=1, adj=1, (0 split) RunPulse < 161 to the left, agree=1, adj=1, (0 split) MaxPulse < 170 to the left, agree=1, adj=1, (0 split) Node number 4: 4 observations mean=38.86, MSE= Node number 5: 23 observations, complexity param= mean= , MSE= left son=10 (8 obs) right son=11 (15 obs) Primary splits: RunTime < 10.9 to the right, improve= , (0 missing) MaxPulse < 171 to the right, improve= , (0 missing)

8 RestPulse < 56.5 to the right, improve= , (0 missing) Age < 53 to the left, improve= , (0 missing) Weight < to the left, improve= , (0 missing) Surrogate splits: Weight < to the left, agree=0.783, adj=0.375, (0 split) RestPulse < 56.5 to the right, agree=0.696, adj=0.125, (0 split) MaxPulse < 171 to the right, agree=0.696, adj=0.125, (0 split) Node number 6: 2 observations mean=54.461, MSE= Node number 7: 2 observations mean=59.813, MSE= Node number 10: 8 observations, complexity param= mean= , MSE= left son=20 (1 obs) right son=21 (7 obs) Primary splits: RunTime < to the left, improve= , (0 missing) Weight < to the right, improve= , (0 missing) RunPulse < 169 to the left, improve= , (0 missing) Age < 49.5 to the right, improve= , (0 missing) MaxPulse < 174 to the left, improve= , (0 missing) Node number 11: 15 observations, complexity param= mean= , MSE= left son=22 (13 obs) right son=23 (2 obs) Primary splits: Age < 53 to the left, improve= , (0 missing) Weight < to the right, improve= , (0 missing) RunPulse < to the right, improve= , (0 missing) MaxPulse < to the right, improve= , (0 missing) RestPulse < 46 to the right, improve= , (0 missing) Node number 20: 1 observations mean=40.836, MSE=0 Node number 21: 7 observations mean= , MSE= Node number 22: 13 observations, complexity param= mean=47.881, MSE= left son=44 (11 obs) right son=45 (2 obs) Primary splits: Weight < to the right, improve= , (0 missing) Age < 50 to the right, improve= , (0 missing) RestPulse < 46 to the right, improve= , (0 missing) MaxPulse < 167 to the left, improve= , (0 missing) RunTime < to the right, improve= , (0 missing) Node number 23: 2 observations mean=51.2, MSE= Node number 44: 11 observations, complexity param= mean= , MSE= left son=88 (8 obs) right son=89 (3 obs) Primary splits: RunTime < to the right, improve= , (0 missing)

9 Weight < to the left, improve= , (0 missing) Age < 50 to the right, improve= , (0 missing) MaxPulse < 169 to the left, improve= , (0 missing) RestPulse < 45.5 to the right, improve= , (0 missing) Surrogate splits: RunPulse < 174 to the left, agree=0.818, adj=0.333, (0 split) MaxPulse < 176 to the left, agree=0.818, adj=0.333, (0 split) Node number 45: 2 observations mean= , MSE= Node number 88: 8 observations mean= , MSE= Node number 89: 3 observations mean= , MSE= plot(fitness.rpart,uniform=true,margin=0.1) text(fitness.rpart) Zagadnienie braków danych (ang. missing values) załóżmy, że brakuje nam informacji o zmiennej Age.Czy predykcji MNK jest możliwa? co wtedy można zrobić? czy predykcja przy pomocy drzewa jest możliwa? Sprawdźmy... summary(fitness.rpart) co oznaczają zmienne 'surrogate' w węzłach? predict(fitness.rpart,newdata=data.frame(age=nan, Weight=69, RunTime=NaN, RestPulse=57,RunPulse=168, MaxPulse=172)) plot(fitness.rpart,uniform=true,margin=0.1) text(fitness.rpart)

10 OPTYMALNA WIELKOŚĆ DRZEWA Uzasadnienie: Dysponujemy niewielką liczbą obserwacji (n=31), a zbudowaliśmy relatywnie duże drzewo, w których mamy 16 kryteriów podziału (a więc 16 parametrów), stąd istnieje duże ryzyko przeuczenia modelu, a więc nadmiernego dopasowania do tych konkretnych danych i zgubieniu z oczu prawdziwego procesu generowania danych (ang. DGP), które za tym stoi. Ponieważ będziemy się posługiwać metodą CV, ustawmy wspólną wartość ziarna > set.seed(289) > fitness2.rpart <- rpart(oxygen ~., data=fitness,cp=0.001, minsplit=2) > printcp(fitness2.rpart) Regression tree: rpart(formula = Oxygen ~., data = fitness, cp = 0.001, minsplit = 2) Variables actually used in tree construction: [1] Age RunPulse RunTime Weight Root node error: /31 = n= 31 CP nsplit rel error xerror xstd > Wywołaj teraz komendę printcp printcp(fitness.rpart) Regression tree: rpart(formula = Oxygen ~., data = fitness, cp = 0.01, minsplit = 2) Variables actually used in tree construction: [1] Age RunTime Weight Root node error: /31 = n= 31 CP nsplit rel error xerror xstd

11 > jaka jest interpretacja parameteru cp w odniesieniu do SSE? Węzły (i towarzyszące im splity) są uporządkowane zgodnie z malejącym "potencjałem" redukcji relatywnego SSE, a więc z malejącą wartością parametru regularyzacji cp. co oznacza kolumna rel error? ile wynosi redukcja rel terror między sąsiednimi wierszami? czy zależy nam na minimalizacji rel error? co oznacza kolumna xerror? jaka jest optymalna wartość parametru regularyzacji CP? co oznacza kolumna xstd? > plotcp(fitness2.rpart) co jest na osiach? co oznacza pojedyńczy punkt na wykresie? co oznaczają pionowe "wąsy" przy punktach? co oznacza pionowa przerywana kreska? jaka jest jego wartość? jaka jest optymalna wartość CP przy zastosowaniu reguły jednego odchylenia standardowego 1SE? optymalne CP zgodnie z 1SE: jest to taka maksymalna wartość CP, której błąd nie jest większy niż minimalny błąd plus jego odchylenie standardowe. Budujemy optymalne drzewo: fitness3.rpart <- prune(fitness2.rpart, cp=0.03) > print(fitness3.rpart) n= 31 node), split, n, deviance, yval

12 * denotes terminal node 1) root ) RunTime>= ) RunTime>= * 5) RunTime< ) RunTime>= * 11) RunTime< * 3) RunTime< ) Age>= * 7) Age< * > posługujemy się cp niewiele mniejszą niż optymalne cp, czy to dobrze? co by było gdybyśmy użyli cp=0.0337? Porównanie różnych modeli na zbiorze treningowym: Porównanie różnych modeli na zbiorze treningowym:

13 Graficzna reprezentacja predykcji drzewa regresyjnego Aby móc to zilustrować, posłużymy się tylko dwie "najważniejszymi" zmiennymi > fitness5.rpart <- rpart(oxygen ~ RunTime + Age, data=fitness,cp= , minsplit=2) > print(fitness5.rpart) n= 31 node), split, n, deviance, yval * denotes terminal node 1) root ) RunTime>= ) RunTime>= ) RunTime>= * 9) RunTime< ) Age>= ) RunTime>= * 37) RunTime< * 19) Age< * 5) RunTime< ) RunTime>= ) RunTime< * 21) RunTime>= ) Age< ) RunTime< ) Age< * 169) Age>= * 85) RunTime>= * 43) Age>= ) RunTime< ) RunTime< * 173) RunTime>= * 87) RunTime>= * 11) RunTime< ) Age< ) Age>= ) RunTime< ) RunTime< * 177) RunTime>= ) RunTime>= * 355) RunTime< * 89) RunTime>= * 45) Age< ) RunTime>= ) RunTime< ) RunTime< * 361) RunTime>= * 181) RunTime>= * 91) RunTime< ) RunTime< ) RunTime>= * 365) RunTime< ) Age>= ) RunTime>= * 1461) RunTime< * 731) Age< * 183) RunTime>=

14 366) RunTime< * 367) RunTime>= * 23) Age>= ) RunTime< * 47) RunTime>= * 3) RunTime< ) RunTime>= ) RunTime< * 13) RunTime>= * 7) RunTime< ) RunTime< * 15) RunTime>= * plot(fitness5.rpart, uniform=true, margin=0.1) text(fitness5.rpart)

15 Obszary różnicące się predykcją plot(fitness$runtime, fitness$age, xlim=c(8.0,14.0), ylim=c(37,58), xlab="runtime", ylab="age") lines(c(8.935,8.935), c(37,58)) lines(c(12.29,12.29), c(37,58)) lines(c(8.64,8.64), c(37,58)) lines(c(12.29,12.29), c(37,58)) lines(c(10.9,10.9), c(37,58)) lines(c(11.015,11.015), c(37,58)) lines(c(8.935,10.9), c(53,53)) Aby wykres był do końca czytelny, powinniśmy jeszcze w pola wprowadzić wartość teoretyczną poszczególnego liścia len=60 xp <- seq(8.0, 15.0, length=len) yp <- seq(35, 60, length=len)

16 siatka <- expand.grid(runtime=xp, Age=yp) zp <- predict(fitness5.rpart, siatka) persp(xp, yp, matrix(zp, len), theta = 150, phi = 30, col = "lightblue", zlim=c(37,60), xlab = "RunTime", ylab = "Age", zlab = "Oxygen") # Wykres 3D Drzewa klasyfikacyjne: dane Cars93 library(mass) data(cars93) dim(cars93) names(cars93) Stosując funkcje dim oraz names poznaj licznościowo zbiór Cars93 I nazwy kolumn opisujących dane. Będziemy modelować zmienną kategoryczną "typ samochodu" table(cars93$type)

17 Zechcemy połączyć pewne kategorie samochodów do tego samego "koszyka", w ten sposób aby mieć cztery kategorie: # D - duży: Large, Van # SR - średni: Midsize, Compact # M - mały: small # SP - sportowy: sporty typ <- ifelse(cars93$type=="large" Cars93$Type=="Van", "D", "SR") typ2 <- ifelse(cars93$type=="small", "M", typ) typ3 <- ifelse(cars93$type=="sporty", "SP", typ2) typ3 <- ifelse(cars93$type=="sporty", "SP", ifelse(cars93$type=="small","m", ifelse(cars93$type=="large" Cars93$Type=="Van", "D", "SR"))) table(typ3) Cars93 = data.frame(cars93, typ=typ3) dim(cars93) names(cars93) ponieważ posłużymy się CV użyjmy wspólnego ziarna set.seed(222) Z wielu potencjalnych zmiennych objaśniających wybierzmy tylko 5 cars.tree <- rpart(typ ~ Length + Weight + EngineSize + Horsepower + RPM, data=cars93, cp=0.0001, minsplit=5) niewielka wartość cp i minsplit, powoduje, że mamy "duże" drzewo

18 par(mfrow=c(1,1), mar=c(0,0,0,0), pty="m") plot(cars.tree,compress=t,uniform=true, branch=0.4, margin=0.2) text(cars.tree, use.n=t, cex=0.7) co oznaczają liczby w liściach? Wydruk tekstowy drzewa? print(summary(cars.tree), digits=4)

19 co oznacza wartość loss? co oznacza wartość loss przy jednostkowej macierzy kosztu? co oznacza yprob? co oznacza yval? i jaką przyjęto regułę decyzyjną przy jego wyborze?

20 Optymalne drzewo klasyfikacyjne printcp(cars.tree) jakie jest optymalne drzewo, kierując się minimalizacją błędu kroswalidacyjnego? jakie jest optymalne drzewo, kierując się regułą 1SE? plotcp(cars.tree) Z czego wynika brak monotoniczności tej funkcji błędu? Jak jest uzasadniania reguła 1SE? Wizualizacja drzewa klasyfikacyjnego w tym celu wybierzemy tylko dwie zmienne par(mfrow=c(1,1), mar=c(0,0,0,0), pty="m") plot(cars2zmienne.tree,compress=t,uniform=true,branch=0.4,margin=0.2) text(cars2zmienne.tree, use.n=true, cex=0.7) print(summary(cars2zmienne.tree), digits=4)

21 Rysujemy obszary klasyfikacji: plot(c(1,5.70), c(1695,4105), type="p", xlab="weight", ylab="enginesize") text(cars93$enginesize, Cars93$Weight, Cars93$typ, cex=0.6) lines(c(1.95,1.95), c(1695,4105)) lines(c(1.95,5.70), c(3460,3460)) lines(c(3.2,3.2), c(1695,3460)) lines(c(1.95,5.70), c(3700,3700)) lines(c(3.25,3.25), c(3460,3700)) lines(c(3.25,5.70), c(3630,3630))

22 Metody łączenia klasyfikatorów Uzasadnienie: Załóżmy, że dysponujemy n (np. n=1000) niezależnymi klasyfikatorami. Każdy z nich charakteryzuje się prawdopodobieństwem p (np. p = 60%) poprawnej klasyfikacji. Załóżmy bardzo słaby klasyfikator p=0.51 dysponujemy 1000 niezależnych klasyfikatorów n=1000 Ile klasyfiaktorów na 1000 wskaże poprawną odpowiedź rbinom(1,n,p) rbinom(1,n,p) rbinom(1,n,p) rbinom(1,n,p) rbinom(1,n,p) Jeśli będziemy się posługiwali głosowaniem, tj. klasyfikowali do tej kategorie,do której większość klasyfikatorów z 1000 klasyfikowało, to jak często będziemy poprawnie klasyfikować? rbinom(1,n,p)>500 rbinom(1,n,p)>500 rbinom(1,n,p)>500 rbinom(1,n,p)>500 rbinom(1,n,p)>500 prop.table(table(rbinom( ,n,p)>500))?rbinom Wniosek: z poprawności 51% awansowaliśmy na 72%

Konspekt do zajęć: Statystyczne metody analizy danych. Agnieszka Nowak-Brzezińska 14 maja 2012

Konspekt do zajęć: Statystyczne metody analizy danych. Agnieszka Nowak-Brzezińska 14 maja 2012 Drzewa klasyfikacyjne Konspekt do zajęć: Statystyczne metody analizy danych Agnieszka Nowak-Brzezińska 14 maja 2012 1 Wprowadzenie Drzewa klasyfikacyjne 1 jako reprezentacja wiedzy o klasyfikacji są dość

Bardziej szczegółowo

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. Metoda CART. MiNI PW

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. Metoda CART. MiNI PW WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. Metoda CART MiNI PW Drzewa służą do konstrukcji klasyfikatorów prognozujących Y {1, 2,..., g} na podstawie p-wymiarowego wektora atrybutów (dowolne atrybuty:

Bardziej szczegółowo

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew.

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew. PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew. Wprowadzenie Drzewo klasyfikacyjne Wprowadzenie Formalnie : drzewo

Bardziej szczegółowo

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. METODA CART. Zaawansowane Metody Uczenia Maszynowego

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. METODA CART. Zaawansowane Metody Uczenia Maszynowego WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. METODA CART Zaawansowane Metody Uczenia Maszynowego Drzewa służą do konstrukcji klasyfikatorów prognozujących Y {1, 2,..., g} na podstawie p-wymiarowego wektora

Bardziej szczegółowo

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. METODA CART. Zaawansowane Metody Uczenia Maszynowego

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. METODA CART. Zaawansowane Metody Uczenia Maszynowego WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. METODA CART Zaawansowane Metody Uczenia Maszynowego Drzewa służą do konstrukcji klasyfikatorów prognozujących Y {1, 2,..., g} na podstawie p-wymiarowego wektora

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

Temat zajęć: ANALIZA DANYCH ZBIORU EKSPORT. Część I: analiza regresji

Temat zajęć: ANALIZA DANYCH ZBIORU EKSPORT. Część I: analiza regresji Temat zajęć: ANALIZA DANYCH ZBIORU EKSPORT Część I: analiza regresji Krok 1. Pod adresem http://zsi.tech.us.edu.pl/~nowak/adb/eksport.txt znajdziesz zbiór danych do analizy. Zapisz plik na dysku w dowolnej

Bardziej szczegółowo

Wprowadzenie do analizy dyskryminacyjnej

Wprowadzenie do analizy dyskryminacyjnej Wprowadzenie do analizy dyskryminacyjnej Analiza dyskryminacyjna to zespół metod statystycznych używanych w celu znalezienia funkcji dyskryminacyjnej, która możliwie najlepiej charakteryzuje bądź rozdziela

Bardziej szczegółowo

Algorytmy klasyfikacji

Algorytmy klasyfikacji Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe

Bardziej szczegółowo

Drzewa decyzyjne w SAS Enterprise Miner

Drzewa decyzyjne w SAS Enterprise Miner Drzewa decyzyjne w SAS Enterprise Miner Aneta Ptak-Chmielewska Instytut Statystyki i Demografii Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych www.sgh.waw.pl/zaklady/zahziaw 1 struktura ćwiczeń

Bardziej szczegółowo

Drzewa klasykacyjne Konspekt do zaj : Statystyczne metody analizy danych

Drzewa klasykacyjne Konspekt do zaj : Statystyczne metody analizy danych Drzewa klasykacyjne Konspekt do zaj : Statystyczne metody analizy danych Agnieszka Nowak-Brzezi«ska 11 stycznia 2010 1 Wprowadzenie Drzewa klasykacyjne 1 jako reprezentacja wiedzy o klasykacji s do± atrakcyjne

Bardziej szczegółowo

Ćwiczenia IV

Ćwiczenia IV Ćwiczenia IV - 17.10.2007 1. Spośród podanych macierzy X wskaż te, których nie można wykorzystać do estymacji MNK parametrów modelu ekonometrycznego postaci y = β 0 + β 1 x 1 + β 2 x 2 + ε 2. Na podstawie

Bardziej szczegółowo

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość Dwie metody Klasyczna metoda histogramu jako narzędzie do postawienia hipotezy, jaki rozkład prawdopodobieństwa pasuje do danych Indukcja drzewa decyzyjnego jako metoda wykrycia klasyfikatora ukrytego

Bardziej szczegółowo

Generowanie ciągów pseudolosowych o zadanych rozkładach przykładowy raport

Generowanie ciągów pseudolosowych o zadanych rozkładach przykładowy raport Generowanie ciągów pseudolosowych o zadanych rozkładach przykładowy raport Michał Krzemiński Streszczenie Projekt dotyczy metod generowania oraz badania własności statystycznych ciągów liczb pseudolosowych.

Bardziej szczegółowo

MODELE LINIOWE. Dr Wioleta Drobik

MODELE LINIOWE. Dr Wioleta Drobik MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą

Bardziej szczegółowo

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej Ekonometria Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Wykład 4 Prognozowanie, stabilność 1 / 17 Agenda

Bardziej szczegółowo

Data Mining Wykład 4. Plan wykładu

Data Mining Wykład 4. Plan wykładu Data Mining Wykład 4 Klasyfikacja danych Klasyfikacja poprzez indukcje drzew decyzyjnych Plan wykładu Sformułowanie problemu Kryteria oceny metod klasyfikacji Metody klasyfikacji Klasyfikacja poprzez indukcje

Bardziej szczegółowo

Rozdział 8. Regresja. Definiowanie modelu

Rozdział 8. Regresja. Definiowanie modelu Rozdział 8 Regresja Definiowanie modelu Analizę korelacji można traktować jako wstęp do analizy regresji. Jeżeli wykresy rozrzutu oraz wartości współczynników korelacji wskazują na istniejąca współzmienność

Bardziej szczegółowo

Wysokość drzewa Głębokość węzła

Wysokość drzewa Głębokość węzła Drzewa Drzewa Drzewo (ang. tree) zbiór węzłów powiązanych wskaźnikami, spójny i bez cykli. Drzewo posiada wyróżniony węzeł początkowy nazywany korzeniem (ang. root). Drzewo ukorzenione jest strukturą hierarchiczną.

Bardziej szczegółowo

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie Wprowadzenie Konstrukcja binarnych drzew klasyfikacyjnych polega na sekwencyjnym dzieleniu podzbiorów przestrzeni próby X na dwa rozłączne i dopełniające się podzbiory, rozpoczynając od całego zbioru X.

Bardziej szczegółowo

PAKIETY STATYSTYCZNE

PAKIETY STATYSTYCZNE . Wykład wstępny PAKIETY STATYSTYCZNE 2. SAS, wprowadzenie - środowisko Windows, Linux 3. SAS, elementy analizy danych edycja danych 4. SAS, elementy analizy danych regresja liniowa, regresja nieliniowa

Bardziej szczegółowo

Drzewa decyzyjne i lasy losowe

Drzewa decyzyjne i lasy losowe Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka. Wykład 4

Stanisław Cichocki. Natalia Nehrebecka. Wykład 4 Stanisław Cichocki Natalia Nehrebecka Wykład 4 1 1. Własności hiperpłaszczyzny regresji 2. Dobroć dopasowania równania regresji. Współczynnik determinacji R 2 Dekompozycja wariancji zmiennej zależnej Współczynnik

Bardziej szczegółowo

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Michał Witczak Data Mining 20 maja 2012 r. 1. Wstęp Dostarczone zostały nam 4 pliki, z których dwa stanowiły zbiory uczące

Bardziej szczegółowo

Indukowane Reguły Decyzyjne I. Wykład 8

Indukowane Reguły Decyzyjne I. Wykład 8 Indukowane Reguły Decyzyjne I Wykład 8 IRD Wykład 8 Plan Powtórka Krzywa ROC = Receiver Operating Characteristic Wybór modelu Statystyka AUC ROC = pole pod krzywą ROC Wybór punktu odcięcia Reguły decyzyjne

Bardziej szczegółowo

Drzewa klasyfikacyjne algorytm podstawowy

Drzewa klasyfikacyjne algorytm podstawowy DRZEWA DECYZYJNE Drzewa klasyfikacyjne algorytm podstawowy buduj_drzewo(s przykłady treningowe, A zbiór atrybutów) { utwórz węzeł t (korzeń przy pierwszym wywołaniu); if (wszystkie przykłady w S należą

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9 Stanisław Cichocki Natalia Nehrebecka Wykład 9 1 1. Dodatkowe założenie KMRL 2. Testowanie hipotez prostych Rozkład estymatora b Testowanie hipotez prostych przy użyciu statystyki t 3. Przedziały ufności

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska DRZEWO REGRESYJNE Sposób konstrukcji i przycinania

Bardziej szczegółowo

Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta

Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta www.michalbereta.pl W tej części: Zachowanie wytrenowanego modelu w celu późniejszego użytku Filtrowanie danych (brakujące etykiety

Bardziej szczegółowo

Regresja liniowa wprowadzenie

Regresja liniowa wprowadzenie Regresja liniowa wprowadzenie a) Model regresji liniowej ma postać: gdzie jest zmienną objaśnianą (zależną); są zmiennymi objaśniającymi (niezależnymi); natomiast są parametrami modelu. jest składnikiem

Bardziej szczegółowo

Wykład 4: Statystyki opisowe (część 1)

Wykład 4: Statystyki opisowe (część 1) Wykład 4: Statystyki opisowe (część 1) Wprowadzenie W przypadku danych mających charakter liczbowy do ich charakterystyki można wykorzystać tak zwane STATYSTYKI OPISOWE. Za pomocą statystyk opisowych można

Bardziej szczegółowo

Drzewa decyzyjne z użyciem pakietu R. Zastosowanie w badaniach występowania nawrotu choroby u pacjentek z nowotworem piersi.

Drzewa decyzyjne z użyciem pakietu R. Zastosowanie w badaniach występowania nawrotu choroby u pacjentek z nowotworem piersi. Uniwersytet Warszawski Wydział Matematyki, Informatyki i Mechaniki Marta Tyce Nr albumu: 277952 Drzewa decyzyjne z użyciem pakietu R. Zastosowa w badaniach występowania nawrotu choroby u pacjentek z nowotworem

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12 Stanisław Cichocki Natalia Nehrebecka Wykład 12 1 1.Problemy z danymi Zmienne pominięte Zmienne nieistotne 2. Autokorelacja o Testowanie autokorelacji 1.Problemy z danymi Zmienne pominięte Zmienne nieistotne

Bardziej szczegółowo

Klasyfikator liniowy Wstęp Klasyfikator liniowy jest najprostszym możliwym klasyfikatorem. Zakłada on liniową separację liniowy podział dwóch klas między sobą. Przedstawia to poniższy rysunek: 5 4 3 2

Bardziej szczegółowo

1 Modele ADL - interpretacja współczynników

1 Modele ADL - interpretacja współczynników 1 Modele ADL - interpretacja współczynników ZADANIE 1.1 Dany jest proces DL następującej postaci: y t = µ + β 0 x t + β 1 x t 1 + ε t. 1. Wyjaśnić, jaka jest intepretacja współczynników β 0 i β 1. 2. Pokazać

Bardziej szczegółowo

Metoda najmniejszych kwadratów

Metoda najmniejszych kwadratów Własności algebraiczne Model liniowy Zapis modelu zarobki = β 0 + β 1 plec + β 2 wiek + ε Oszacowania wartości współczynników zarobki = b 0 + b 1 plec + b 2 wiek + e Model liniowy Tabela: Oszacowania współczynników

Bardziej szczegółowo

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1 Zadanie 1 a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1 b) W naszym przypadku populacja są inżynierowie w Tajlandii. Czy można jednak przypuszczać, że na zarobki kobiet-inżynierów

Bardziej szczegółowo

Rozpoznawanie obrazów

Rozpoznawanie obrazów Rozpoznawanie obrazów Laboratorium Python Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest implementacja liniowego zadania

Bardziej szczegółowo

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej Paweł Cibis pawel@cibis.pl 23 lutego 2007 1 Regresja liniowa 2 wzory funkcje 3 Korelacja liniowa

Bardziej szczegółowo

Metody wypełniania braków w danych ang. Missing values in data

Metody wypełniania braków w danych ang. Missing values in data Analiza danych wydobywanie wiedzy z danych III Metody wypełniania braków w danych ang. Missing values in data W rzeczywistych zbiorach danych dane są często nieczyste: - niekompletne (brakujące ważne atrybuty,

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Kompresja danych Streszczenie Studia Dzienne Wykład 10, 1 Kwantyzacja wektorowa Kompresja danych Streszczenie Studia Dzienne Wykład 10, 28.04.2006 Kwantyzacja wektorowa: dane dzielone na bloki (wektory), każdy blok kwantyzowany jako jeden element danych. Ogólny

Bardziej szczegółowo

Indukowane Reguły Decyzyjne I. Wykład 3

Indukowane Reguły Decyzyjne I. Wykład 3 Indukowane Reguły Decyzyjne I Wykład 3 IRD Wykład 3 Plan Powtórka Grafy Drzewa klasyfikacyjne Testy wstęp Klasyfikacja obiektów z wykorzystaniem drzewa Reguły decyzyjne generowane przez drzewo 2 Powtórzenie

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska BUDOWA DRZEW DECYZYJNYCH Drzewa decyzyjne są metodą indukcyjnego

Bardziej szczegółowo

Metody Eksploracji Danych. Klasyfikacja

Metody Eksploracji Danych. Klasyfikacja Metody Eksploracji Danych Klasyfikacja w wykładzie wykorzystano: 1. materiały dydaktyczne przygotowane w ramach projektu Opracowanie programów nauczania na odległość na kierunku studiów wyższych Informatyka

Bardziej szczegółowo

Laboratorium 11. Regresja SVM.

Laboratorium 11. Regresja SVM. Laboratorium 11 Regresja SVM. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk Dalej>. 3. Z

Bardziej szczegółowo

Statystyka i Analiza Danych

Statystyka i Analiza Danych Warsztaty Statystyka i Analiza Danych Gdańsk, 20-22 lutego 2014 Zastosowania wybranych technik regresyjnych do modelowania współzależności zjawisk Janusz Wątroba StatSoft Polska Centrum Zastosowań Matematyki

Bardziej szczegółowo

Analiza składowych głównych. Wprowadzenie

Analiza składowych głównych. Wprowadzenie Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących

Bardziej szczegółowo

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno WERYFIKACJA MODELI MODELE LINIOWE Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno ANALIZA KORELACJI LINIOWEJ to NIE JEST badanie związku przyczynowo-skutkowego, Badanie współwystępowania cech (czy istnieje

Bardziej szczegółowo

Ekonometria Ćwiczenia 19/01/05

Ekonometria Ćwiczenia 19/01/05 Oszacowano regresję stopy bezrobocia (unemp) na wzroście realnego PKB (pkb) i stopie inflacji (cpi) oraz na zmiennych zero-jedynkowych związanymi z kwartałami (season). Regresję przeprowadzono na danych

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z liniowym zadaniem najmniejszych

Bardziej szczegółowo

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną

Bardziej szczegółowo

PodejÊcie regresyjne w budowie drzew klasyfikacyjnych CART

PodejÊcie regresyjne w budowie drzew klasyfikacyjnych CART Zeszyty Naukowe nr 680 Akademii Ekonomicznej w Krakowie 2005 Mariusz apczyƒski Katedra Analizy Rynku i Badaƒ Marketingowych PodejÊcie regresyjne w budowie drzew klasyfikacyjnych CART 1. Wprowadzenie Drzewa

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14 Stanisław Cichocki Natalia Nehrebecka Wykład 14 1 1.Problemy z danymi Współliniowość 2. Heteroskedastyczność i autokorelacja Konsekwencje heteroskedastyczności i autokorelacji Metody radzenia sobie z heteroskedastycznością

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14 Stanisław Cichocki Natalia Nehrebecka Wykład 14 1 1.Problemy z danymi Zmienne pominięte Zmienne nieistotne Obserwacje nietypowe i błędne Współliniowość - Mamy 2 modele: y X u 1 1 (1) y X X 1 1 2 2 (2)

Bardziej szczegółowo

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Analiza zależności cech ilościowych regresja liniowa (Wykład 13) Analiza zależności cech ilościowych regresja liniowa (Wykład 13) dr Mariusz Grządziel semestr letni 2012 Przykład wprowadzajacy W zbiorze danych homedata (z pakietu R-owskiego UsingR) można znaleźć ceny

Bardziej szczegółowo

Porządek symetryczny: right(x)

Porządek symetryczny: right(x) Porządek symetryczny: x lef t(x) right(x) Własność drzewa BST: W drzewach BST mamy porządek symetryczny. Dla każdego węzła x spełniony jest warunek: jeżeli węzeł y leży w lewym poddrzewie x, to key(y)

Bardziej szczegółowo

> x <-seq(-2*pi, 2*pi, by=0.5) > plot(x, sin(x), type="b",main="wykres funkcji sin(x) i cos(x)", col="blue") > lines(x, cos(x), type="l",col="red")

> x <-seq(-2*pi, 2*pi, by=0.5) > plot(x, sin(x), type=b,main=wykres funkcji sin(x) i cos(x), col=blue) > lines(x, cos(x), type=l,col=red) Rachunek Prawdopodobieństwa i Statystyka lab 4. Kaja Gutowska (Kaja.Gutowska@cs.put.poznan.pl) 1. Wprowadzenie do grafiki: - Program R ma szerokie możliwości w zakresie graficznego prezentowania danych.

Bardziej szczegółowo

Sieci neuronowe w Statistica

Sieci neuronowe w Statistica http://usnet.us.edu.pl/uslugi-sieciowe/oprogramowanie-w-usk-usnet/oprogramowaniestatystyczne/ Sieci neuronowe w Statistica Agnieszka Nowak - Brzezińska Podstawowym elementem składowym sztucznej sieci neuronowej

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12 Stanisław Cichocki Natalia Nehrebecka Wykład 1 1 1. Testy diagnostyczne Testowanie stabilności parametrów modelu: test Chowa. Heteroskedastyczność Konsekwencje Testowanie heteroskedastyczności 1. Testy

Bardziej szczegółowo

ALGORYTMY SZTUCZNEJ INTELIGENCJI

ALGORYTMY SZTUCZNEJ INTELIGENCJI ALGORYTMY SZTUCZNEJ INTELIGENCJI Sieci neuronowe 06.12.2014 Krzysztof Salamon 1 Wstęp Sprawozdanie to dotyczy ćwiczeń z zakresu sieci neuronowych realizowanym na przedmiocie: Algorytmy Sztucznej Inteligencji.

Bardziej szczegółowo

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA Jan Mielniczuk Wisła, grudzień 2009 PLAN Błędy predykcji i ich podstawowe estymatory Estymacja błędu predykcji w modelu liniowym. Funkcje kryterialne Własności

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1. tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1

Bardziej szczegółowo

Ekonometria egzamin 07/03/2018

Ekonometria egzamin 07/03/2018 imię, nazwisko, nr indeksu: Ekonometria egzamin 07/03/2018 1. Egzamin trwa 90 minut. 2. Rozwiązywanie zadań należy rozpocząć po ogłoszeniu początku egzaminu a skończyć wraz z ogłoszeniem końca egzaminu.

Bardziej szczegółowo

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne Przypominajka: 152 drzewo filogenetyczne to drzewo, którego liśćmi są istniejące gatunki, a węzły wewnętrzne mają stopień większy niż jeden i reprezentują

Bardziej szczegółowo

Statystyka opisowa- cd.

Statystyka opisowa- cd. 12.03.2017 Wydział Inżynierii Produkcji I Logistyki Statystyka opisowa- cd. Wykład 4 Dr inż. Adam Deptuła HISTOGRAM UNORMOWANY Pole słupka = wysokość słupka x długość przedziału Pole słupka = n i n h h,

Bardziej szczegółowo

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015 Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner rok akademicki 2014/2015 Sieci neuronowe Sieci neuronowe w SAS Enterprise Miner Węzeł Neural Network Do

Bardziej szczegółowo

Narzędzia metody i techniki modelowania procesów społecznogospodarczych. Mariusz Dacko

Narzędzia metody i techniki modelowania procesów społecznogospodarczych. Mariusz Dacko Narzędzia metody i techniki modelowania procesów społecznogospodarczych Mariusz Dacko Dlaczego modelowanie procesów społecznogospodarczych jest procesem trudnym do przeprowadzenia? Brak jednolitego spójnego

Bardziej szczegółowo

Zajęcia nr VII poznajemy Rattle i pakiet R.

Zajęcia nr VII poznajemy Rattle i pakiet R. Okno główne Rattle wygląda następująco: Zajęcia nr VII poznajemy Rattle i pakiet R. Widzimy główne zakładki: Data pozwala odczytad dane z różnych źródeł danych (pliki TXT, CSV) i inne bazy danych. Jak

Bardziej szczegółowo

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek Cel projektu Celem projektu jest przygotowanie systemu wnioskowania, wykorzystującego wybrane algorytmy sztucznej inteligencji; Nabycie

Bardziej szczegółowo

Stochastyczne Metody Analizy Danych. PROJEKT: Analiza kluczowych parametrów turbin wiatrowych

Stochastyczne Metody Analizy Danych. PROJEKT: Analiza kluczowych parametrów turbin wiatrowych PROJEKT: Analiza kluczowych parametrów turbin wiatrowych Projekt jest wykonywany z wykorzystaniem pakietu statystycznego STATISTICA. Praca odbywa się w grupach 2-3 osobowych. Aby zaliczyć projekt, należy

Bardziej szczegółowo

Wykład 5: Statystyki opisowe (część 2)

Wykład 5: Statystyki opisowe (część 2) Wykład 5: Statystyki opisowe (część 2) Wprowadzenie Na poprzednim wykładzie wprowadzone zostały statystyki opisowe nazywane miarami położenia (średnia, mediana, kwartyle, minimum i maksimum, modalna oraz

Bardziej szczegółowo

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora. imię, nazwisko, nr indeksu: Ekonometria egzamin 0/0/0. Egzamin trwa 90 minut.. Rozwiązywanie zadań należy rozpocząć po ogłoszeniu początku egzaminu a skończyć wraz z ogłoszeniem końca egzaminu. Złamanie

Bardziej szczegółowo

KORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y. 2. Współczynnik korelacji Pearsona

KORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y. 2. Współczynnik korelacji Pearsona KORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y 2. Współczynnik korelacji Pearsona 3. Siła i kierunek związku między zmiennymi 4. Korelacja ma sens, tylko wtedy, gdy związek między zmiennymi

Bardziej szczegółowo

Regresja logistyczna. Regresja logistyczna. Przykłady DV. Wymagania

Regresja logistyczna. Regresja logistyczna. Przykłady DV. Wymagania Regresja logistyczna analiza relacji między zbiorem zmiennych niezależnych (ilościowych i dychotomicznych) a dychotomiczną zmienną zależną wyniki wyrażone są w prawdopodobieństwie przynależności do danej

Bardziej szczegółowo

Regresja liniowa w R Piotr J. Sobczyk

Regresja liniowa w R Piotr J. Sobczyk Regresja liniowa w R Piotr J. Sobczyk Uwaga Poniższe notatki mają charakter roboczy. Mogą zawierać błędy. Za przesłanie mi informacji zwrotnej o zauważonych usterkach serdecznie dziękuję. Weźmy dane dotyczące

Bardziej szczegółowo

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

8. Drzewa decyzyjne, bagging, boosting i lasy losowe Algorytmy rozpoznawania obrazów 8. Drzewa decyzyjne, bagging, boosting i lasy losowe dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Drzewa decyzyjne Drzewa decyzyjne (ang. decision trees), zwane

Bardziej szczegółowo

Materiał dotyczy generowania różnego typu wykresów w środowisku R.

Materiał dotyczy generowania różnego typu wykresów w środowisku R. Materiał dotyczy generowania różnego typu wykresów w środowisku R. Pamiętajmy, że niektóre typy wykresów są dedykowane do pewnych typów danych. Na potrzeby ćwiczeń początkowych załadujemy sobie zbiór danych

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10 Stanisław Cichocki Natalia Nehrebecka Wykład 10 1 1. Testy diagnostyczne Testowanie prawidłowości formy funkcyjnej: test RESET Testowanie normalności składników losowych: test Jarque-Berra Testowanie stabilności

Bardziej szczegółowo

Wstęp 7 Rozdział 1. OpenOffice.ux.pl Writer środowisko pracy 9

Wstęp 7 Rozdział 1. OpenOffice.ux.pl Writer środowisko pracy 9 Wstęp 7 Rozdział 1. OpenOffice.ux.pl Writer środowisko pracy 9 Uruchamianie edytora OpenOffice.ux.pl Writer 9 Dostosowywanie środowiska pracy 11 Menu Widok 14 Ustawienia dokumentu 16 Rozdział 2. OpenOffice

Bardziej szczegółowo

Co to są drzewa decyzji

Co to są drzewa decyzji Drzewa decyzji Co to są drzewa decyzji Drzewa decyzji to skierowane grafy acykliczne Pozwalają na zapis reguł w postaci strukturalnej Przyspieszają działanie systemów regułowych poprzez zawężanie przestrzeni

Bardziej szczegółowo

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota Ekonometria ćwiczenia 3 Prowadzący: Sebastian Czarnota Strona - niezbędnik http://sebastianczarnota.com/sgh/ Normalność rozkładu składnika losowego Brak normalności rozkładu nie odbija się na jakości otrzymywanych

Bardziej szczegółowo

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe Typy zmiennych Graficzne reprezentacje danych Statystyki opisowe Jakościowe charakterystyka przyjmuje kilka możliwych wartości, które definiują klasy Porządkowe: odpowiedzi na pytania w ankiecie ; nigdy,

Bardziej szczegółowo

Eksploracja danych w środowisku R

Eksploracja danych w środowisku R Eksploracja danych w środowisku R Moi drodzy, niniejszy konspekt nie omawia eksploracji danych samej w sobie. Nie dowiecie się tutaj o co chodzi w generowaniu drzew decyzyjnych czy grupowaniu danych. Te

Bardziej szczegółowo

Regresja logistyczna

Regresja logistyczna Regresja logistyczna Zacznijmy od danych dotyczących tego czy studenci zostali przyjęci na studia. admissions

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka

Stanisław Cichocki. Natalia Nehrebecka Stanisław Cichocki Natalia Nehrebecka 1 1. Wstęp a) Binarne zmienne zależne b) Interpretacja ekonomiczna c) Interpretacja współczynników 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników

Bardziej szczegółowo

Klasyfikacja. Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji. Eksploracja danych. Klasyfikacja wykład 1

Klasyfikacja. Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji. Eksploracja danych. Klasyfikacja wykład 1 Klasyfikacja Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji Klasyfikacja wykład 1 Niniejszy wykład poświęcimy kolejnej metodzie eksploracji danych klasyfikacji. Na początek

Bardziej szczegółowo

Ekonometria egzamin 01/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Ekonometria egzamin 01/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora. imię, nazwisko, nr indeksu: Ekonometria egzamin 01/02/2019 1. Egzamin trwa 90 minut. 2. Rozwiązywanie zadań należy rozpocząć po ogłoszeniu początku egzaminu a skończyć wraz z ogłoszeniem końca egzaminu.

Bardziej szczegółowo

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno WSTĘP DO REGRESJI LOGISTYCZNEJ Dr Wioleta Drobik-Czwarno REGRESJA LOGISTYCZNA Zmienna zależna jest zmienną dychotomiczną (dwustanową) przyjmuje dwie wartości, najczęściej 0 i 1 Zmienną zależną może być:

Bardziej szczegółowo

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Natalia Nehrebecka Stanisław Cichocki. Wykład 10 Natalia Nehrebecka Stanisław Cichocki Wykład 10 1 1. Testy diagnostyczne 2. Testowanie prawidłowości formy funkcyjnej modelu 3. Testowanie normalności składników losowych 4. Testowanie stabilności parametrów

Bardziej szczegółowo

Analiza Statystyczna

Analiza Statystyczna Lekcja 5. Strona 1 z 12 Analiza Statystyczna Do analizy statystycznej wykorzystać można wbudowany w MS Excel pakiet Analysis Toolpak. Jest on instalowany w programie Excel jako pakiet dodatkowy. Oznacza

Bardziej szczegółowo

Laboratorium - Monitorowanie i zarządzanie zasobami systemu Windows XP

Laboratorium - Monitorowanie i zarządzanie zasobami systemu Windows XP 5.0 5.3.3.7 Laboratorium - Monitorowanie i zarządzanie zasobami systemu Windows XP Wprowadzenie Wydrukuj i uzupełnij to laboratorium. W tym laboratorium, będziesz korzystać z narzędzi administracyjnych

Bardziej szczegółowo

Diagnostyka w Pakiecie Stata

Diagnostyka w Pakiecie Stata Karol Kuhl Zgodnie z twierdzeniem Gaussa-Markowa, estymator MNK w KMRL jest liniowym estymatorem efektywnym i nieobciążonym, co po angielsku opisuje się za pomocą wyrażenia BLUE Best Linear Unbiased Estimator.

Bardziej szczegółowo

LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU

LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU Tomasz Demski, StatSoft Polska Sp. z o.o. Wprowadzenie Jednym z elementów walidacji metod pomiarowych jest sprawdzenie liniowości

Bardziej szczegółowo

Diagnostyka w Pakiecie Stata

Diagnostyka w Pakiecie Stata Karol Kuhl Zgodnie z twierdzeniem Gaussa-Markowa, estymator MNK w KMRL jest liniowym estymatorem efektywnym i nieobciążonym, co po angielsku opisuje się za pomocą wyrażenia BLUE Best Linear Unbiased Estimator.

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13 Stanisław Cichocki Natalia Nehrebecka Wykład 13 1 1. Testowanie autokorelacji 2. Heteroskedastyczność i autokorelacja Konsekwencje heteroskedastyczności i autokorelacji 3.Problemy z danymi Zmienne pominięte

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo