Dane dotyczą parametrów wydolnościowych mężczyzn zmierzonych podczas biegu na 1,5 mili. Zmienną objaśnianą jest Oxygen (pobór tlenu podczas biegu).
|
|
- Elżbieta Żurawska
- 5 lat temu
- Przeglądów:
Transkrypt
1 Zbiór fitness Przedmiotem zainteresowania będzie zbiór fitness. Dane dotyczą parametrów wydolnościowych mężczyzn zmierzonych podczas biegu na 1,5 mili. Zmienną objaśnianą jest Oxygen (pobór tlenu podczas biegu). Dla zbioru danych wykonaj następujące czynności: Dane dotyczą parametrów wydolnościowych mężczyzn zmierzonych podczas biegu na 1,5 mili Zmienną objaśnianą jest Oxygen (pobór tlenu podczas biegu)
2 DRZEWO REGRESYJNE Wywołanie komendy Spowoduje otworzenie w oknie przeglądarki strony z dokumentacją pakietu rpart. co oznacza parametr cp? jaka jest jego wartość domyślna? co oznacza parametr minsplit? jaka jest jego wartość domyślna? Następnie wywołujemy funkcję rysowania drzewa (tekstowo):
3 Jeśli chcemy rysować graficznie: plot(fitness.rpart,uniform=t,margin=0.1) Jego graficzna reprezentacja:
4 Jak widać drzewo nie ma żadnej zawartości opisowej, dzięki czemu jest w zasadzie bezużyteczne w analizie. Dopiero wywołanie dodatkowo funkcji: text(fitness.rpart) Sprawi, ze wyrysujemy pełne drzewo: Z kolei wywołanie funkcji:?plot Sprawi ze w oknie przeglądarki otworzy się dokumentacja funkcji plot. Z kolei wywołanie funkcji:?plot.rpart Wyświetli dokumentację funkcji plot.rpart co oznaczają parametry uniform i margin? To pozwala rozszerzyć swoją wiedzę w tym zakresie.
5 dlaczego uruchamiamy teoretycznie funkcję plot() a szukamy pomocy przez?plot.rpart? Czym są węzły (ang. node)? Jak są numerowane węzły? Jak się nazywają pierwszy i ostatnie węzły? Czym się charakteryzują węzły nie będące liśćmi? Gdy warunek podziału w danym węźle jest spełniony to przechodzimy do lewego czy prawego potomka? Odp.: do lewego Czym się charakteryzuje węzeł będący liściem? Powróćmy do wydruku tekstowego drzewa: fitness.rpart Czym są kolumny wydruku: node, split, n, deviance oraz yval? node), - posługując się graficzną reprezentacją zwróć uwagę na sposób numeracji split - czy korzeń ma warunek n - zauważ, że suma elementów u dzieci jest równa liczbie elementów u rodzica, np. n2+n3=n1 deviance - zauważ, że SSE u dzieci jest mniejsza niż SSE u rodzica, np. SSE2+SSE3 < SSE1 yval - za wartość teoretyczną bierze się średnią, ale można też próbować w liściach budować regresję Czym są gwiazdki? Predykcja Zechcemy dokonać predykcji na "przeciętnego Kowalskiego", posługując się medianą cech, a w przypadku średnich taki punkt nazywałby się centroidem oraz Wtedy By odpowiedzieć na następujące pytania: Ile jest niepowtarzalnych wartości predykcji Oxygen? Podpowiedź: Ile jest liści w drzewie? Czy reszty mają rozkład normalny? Oraz czy dla MNK mamy to samo? Można wywołać następujący ciąg instrukcji R:
6 par(mfrow=c(2,2)) plot(predict(fitness.rpart),residuals(fitness.rpart), xlab="predykcja Oxygen", ylab="rezydua") qqnorm(residuals(fitness.rpart)) lines(c(-3,3),c(-3,3)) gg=lm(oxygen ~., data=fitness) plot(gg$fitted.values, residuals(gg)) qqnorm(residuals(gg)) Efekt będzie następujący: Teraz Przejdź "palcem" po wydruku graficznym drzewa i upewnij się, że predykcja jest poprawna. Ile jest niepowtarzalnych wartości predykcji Oxygen? Podpowiedź: Ile jest liści w drzewie? Czy reszty mają rozkład normalny? Czy reszty mają rozkład normalny? qqnorm(residuals(fitness.rpart)) lines(c(-3,3),c(-3,3)) to samo dla MNK... gg=lm(oxygen ~., data=fitness) plot(gg$fitted.values, residuals(gg)) Teraz wywołaj komendę: > summary(fitness.rpart)
7 Call: rpart(formula = Oxygen ~., data = fitness, cp = 0.01, minsplit = 2) n= 31 CP nsplit rel error xerror xstd Node number 1: 31 observations, complexity param= mean= , MSE= left son=2 (27 obs) right son=3 (4 obs) Primary splits: RunTime < to the right, improve= , (0 missing) RestPulse < 55.5 to the right, improve= , (0 missing) RunPulse < 171 to the right, improve= , (0 missing) Age < 42.5 to the right, improve= , (0 missing) MaxPulse < 190 to the right, improve= , (0 missing) Node number 2: 27 observations, complexity param= mean= , MSE= left son=4 (4 obs) right son=5 (23 obs) Primary splits: RunTime < to the right, improve= , (0 missing) MaxPulse < 171 to the right, improve= , (0 missing) RestPulse < 55.5 to the right, improve= , (0 missing) RunPulse < 167 to the right, improve= , (0 missing) Weight < to the right, improve= , (0 missing) Node number 3: 4 observations, complexity param= mean=57.137, MSE= left son=6 (2 obs) right son=7 (2 obs) Primary splits: Age < 43 to the right, improve= , (0 missing) RunTime < 8.64 to the right, improve= , (0 missing) RunPulse < 161 to the left, improve= , (0 missing) MaxPulse < 170 to the left, improve= , (0 missing) Weight < to the right, improve= , (0 missing) Surrogate splits: RunTime < 8.64 to the right, agree=1, adj=1, (0 split) RunPulse < 161 to the left, agree=1, adj=1, (0 split) MaxPulse < 170 to the left, agree=1, adj=1, (0 split) Node number 4: 4 observations mean=38.86, MSE= Node number 5: 23 observations, complexity param= mean= , MSE= left son=10 (8 obs) right son=11 (15 obs) Primary splits: RunTime < 10.9 to the right, improve= , (0 missing) MaxPulse < 171 to the right, improve= , (0 missing)
8 RestPulse < 56.5 to the right, improve= , (0 missing) Age < 53 to the left, improve= , (0 missing) Weight < to the left, improve= , (0 missing) Surrogate splits: Weight < to the left, agree=0.783, adj=0.375, (0 split) RestPulse < 56.5 to the right, agree=0.696, adj=0.125, (0 split) MaxPulse < 171 to the right, agree=0.696, adj=0.125, (0 split) Node number 6: 2 observations mean=54.461, MSE= Node number 7: 2 observations mean=59.813, MSE= Node number 10: 8 observations, complexity param= mean= , MSE= left son=20 (1 obs) right son=21 (7 obs) Primary splits: RunTime < to the left, improve= , (0 missing) Weight < to the right, improve= , (0 missing) RunPulse < 169 to the left, improve= , (0 missing) Age < 49.5 to the right, improve= , (0 missing) MaxPulse < 174 to the left, improve= , (0 missing) Node number 11: 15 observations, complexity param= mean= , MSE= left son=22 (13 obs) right son=23 (2 obs) Primary splits: Age < 53 to the left, improve= , (0 missing) Weight < to the right, improve= , (0 missing) RunPulse < to the right, improve= , (0 missing) MaxPulse < to the right, improve= , (0 missing) RestPulse < 46 to the right, improve= , (0 missing) Node number 20: 1 observations mean=40.836, MSE=0 Node number 21: 7 observations mean= , MSE= Node number 22: 13 observations, complexity param= mean=47.881, MSE= left son=44 (11 obs) right son=45 (2 obs) Primary splits: Weight < to the right, improve= , (0 missing) Age < 50 to the right, improve= , (0 missing) RestPulse < 46 to the right, improve= , (0 missing) MaxPulse < 167 to the left, improve= , (0 missing) RunTime < to the right, improve= , (0 missing) Node number 23: 2 observations mean=51.2, MSE= Node number 44: 11 observations, complexity param= mean= , MSE= left son=88 (8 obs) right son=89 (3 obs) Primary splits: RunTime < to the right, improve= , (0 missing)
9 Weight < to the left, improve= , (0 missing) Age < 50 to the right, improve= , (0 missing) MaxPulse < 169 to the left, improve= , (0 missing) RestPulse < 45.5 to the right, improve= , (0 missing) Surrogate splits: RunPulse < 174 to the left, agree=0.818, adj=0.333, (0 split) MaxPulse < 176 to the left, agree=0.818, adj=0.333, (0 split) Node number 45: 2 observations mean= , MSE= Node number 88: 8 observations mean= , MSE= Node number 89: 3 observations mean= , MSE= plot(fitness.rpart,uniform=true,margin=0.1) text(fitness.rpart) Zagadnienie braków danych (ang. missing values) załóżmy, że brakuje nam informacji o zmiennej Age.Czy predykcji MNK jest możliwa? co wtedy można zrobić? czy predykcja przy pomocy drzewa jest możliwa? Sprawdźmy... summary(fitness.rpart) co oznaczają zmienne 'surrogate' w węzłach? predict(fitness.rpart,newdata=data.frame(age=nan, Weight=69, RunTime=NaN, RestPulse=57,RunPulse=168, MaxPulse=172)) plot(fitness.rpart,uniform=true,margin=0.1) text(fitness.rpart)
10 OPTYMALNA WIELKOŚĆ DRZEWA Uzasadnienie: Dysponujemy niewielką liczbą obserwacji (n=31), a zbudowaliśmy relatywnie duże drzewo, w których mamy 16 kryteriów podziału (a więc 16 parametrów), stąd istnieje duże ryzyko przeuczenia modelu, a więc nadmiernego dopasowania do tych konkretnych danych i zgubieniu z oczu prawdziwego procesu generowania danych (ang. DGP), które za tym stoi. Ponieważ będziemy się posługiwać metodą CV, ustawmy wspólną wartość ziarna > set.seed(289) > fitness2.rpart <- rpart(oxygen ~., data=fitness,cp=0.001, minsplit=2) > printcp(fitness2.rpart) Regression tree: rpart(formula = Oxygen ~., data = fitness, cp = 0.001, minsplit = 2) Variables actually used in tree construction: [1] Age RunPulse RunTime Weight Root node error: /31 = n= 31 CP nsplit rel error xerror xstd > Wywołaj teraz komendę printcp printcp(fitness.rpart) Regression tree: rpart(formula = Oxygen ~., data = fitness, cp = 0.01, minsplit = 2) Variables actually used in tree construction: [1] Age RunTime Weight Root node error: /31 = n= 31 CP nsplit rel error xerror xstd
11 > jaka jest interpretacja parameteru cp w odniesieniu do SSE? Węzły (i towarzyszące im splity) są uporządkowane zgodnie z malejącym "potencjałem" redukcji relatywnego SSE, a więc z malejącą wartością parametru regularyzacji cp. co oznacza kolumna rel error? ile wynosi redukcja rel terror między sąsiednimi wierszami? czy zależy nam na minimalizacji rel error? co oznacza kolumna xerror? jaka jest optymalna wartość parametru regularyzacji CP? co oznacza kolumna xstd? > plotcp(fitness2.rpart) co jest na osiach? co oznacza pojedyńczy punkt na wykresie? co oznaczają pionowe "wąsy" przy punktach? co oznacza pionowa przerywana kreska? jaka jest jego wartość? jaka jest optymalna wartość CP przy zastosowaniu reguły jednego odchylenia standardowego 1SE? optymalne CP zgodnie z 1SE: jest to taka maksymalna wartość CP, której błąd nie jest większy niż minimalny błąd plus jego odchylenie standardowe. Budujemy optymalne drzewo: fitness3.rpart <- prune(fitness2.rpart, cp=0.03) > print(fitness3.rpart) n= 31 node), split, n, deviance, yval
12 * denotes terminal node 1) root ) RunTime>= ) RunTime>= * 5) RunTime< ) RunTime>= * 11) RunTime< * 3) RunTime< ) Age>= * 7) Age< * > posługujemy się cp niewiele mniejszą niż optymalne cp, czy to dobrze? co by było gdybyśmy użyli cp=0.0337? Porównanie różnych modeli na zbiorze treningowym: Porównanie różnych modeli na zbiorze treningowym:
13 Graficzna reprezentacja predykcji drzewa regresyjnego Aby móc to zilustrować, posłużymy się tylko dwie "najważniejszymi" zmiennymi > fitness5.rpart <- rpart(oxygen ~ RunTime + Age, data=fitness,cp= , minsplit=2) > print(fitness5.rpart) n= 31 node), split, n, deviance, yval * denotes terminal node 1) root ) RunTime>= ) RunTime>= ) RunTime>= * 9) RunTime< ) Age>= ) RunTime>= * 37) RunTime< * 19) Age< * 5) RunTime< ) RunTime>= ) RunTime< * 21) RunTime>= ) Age< ) RunTime< ) Age< * 169) Age>= * 85) RunTime>= * 43) Age>= ) RunTime< ) RunTime< * 173) RunTime>= * 87) RunTime>= * 11) RunTime< ) Age< ) Age>= ) RunTime< ) RunTime< * 177) RunTime>= ) RunTime>= * 355) RunTime< * 89) RunTime>= * 45) Age< ) RunTime>= ) RunTime< ) RunTime< * 361) RunTime>= * 181) RunTime>= * 91) RunTime< ) RunTime< ) RunTime>= * 365) RunTime< ) Age>= ) RunTime>= * 1461) RunTime< * 731) Age< * 183) RunTime>=
14 366) RunTime< * 367) RunTime>= * 23) Age>= ) RunTime< * 47) RunTime>= * 3) RunTime< ) RunTime>= ) RunTime< * 13) RunTime>= * 7) RunTime< ) RunTime< * 15) RunTime>= * plot(fitness5.rpart, uniform=true, margin=0.1) text(fitness5.rpart)
15 Obszary różnicące się predykcją plot(fitness$runtime, fitness$age, xlim=c(8.0,14.0), ylim=c(37,58), xlab="runtime", ylab="age") lines(c(8.935,8.935), c(37,58)) lines(c(12.29,12.29), c(37,58)) lines(c(8.64,8.64), c(37,58)) lines(c(12.29,12.29), c(37,58)) lines(c(10.9,10.9), c(37,58)) lines(c(11.015,11.015), c(37,58)) lines(c(8.935,10.9), c(53,53)) Aby wykres był do końca czytelny, powinniśmy jeszcze w pola wprowadzić wartość teoretyczną poszczególnego liścia len=60 xp <- seq(8.0, 15.0, length=len) yp <- seq(35, 60, length=len)
16 siatka <- expand.grid(runtime=xp, Age=yp) zp <- predict(fitness5.rpart, siatka) persp(xp, yp, matrix(zp, len), theta = 150, phi = 30, col = "lightblue", zlim=c(37,60), xlab = "RunTime", ylab = "Age", zlab = "Oxygen") # Wykres 3D Drzewa klasyfikacyjne: dane Cars93 library(mass) data(cars93) dim(cars93) names(cars93) Stosując funkcje dim oraz names poznaj licznościowo zbiór Cars93 I nazwy kolumn opisujących dane. Będziemy modelować zmienną kategoryczną "typ samochodu" table(cars93$type)
17 Zechcemy połączyć pewne kategorie samochodów do tego samego "koszyka", w ten sposób aby mieć cztery kategorie: # D - duży: Large, Van # SR - średni: Midsize, Compact # M - mały: small # SP - sportowy: sporty typ <- ifelse(cars93$type=="large" Cars93$Type=="Van", "D", "SR") typ2 <- ifelse(cars93$type=="small", "M", typ) typ3 <- ifelse(cars93$type=="sporty", "SP", typ2) typ3 <- ifelse(cars93$type=="sporty", "SP", ifelse(cars93$type=="small","m", ifelse(cars93$type=="large" Cars93$Type=="Van", "D", "SR"))) table(typ3) Cars93 = data.frame(cars93, typ=typ3) dim(cars93) names(cars93) ponieważ posłużymy się CV użyjmy wspólnego ziarna set.seed(222) Z wielu potencjalnych zmiennych objaśniających wybierzmy tylko 5 cars.tree <- rpart(typ ~ Length + Weight + EngineSize + Horsepower + RPM, data=cars93, cp=0.0001, minsplit=5) niewielka wartość cp i minsplit, powoduje, że mamy "duże" drzewo
18 par(mfrow=c(1,1), mar=c(0,0,0,0), pty="m") plot(cars.tree,compress=t,uniform=true, branch=0.4, margin=0.2) text(cars.tree, use.n=t, cex=0.7) co oznaczają liczby w liściach? Wydruk tekstowy drzewa? print(summary(cars.tree), digits=4)
19 co oznacza wartość loss? co oznacza wartość loss przy jednostkowej macierzy kosztu? co oznacza yprob? co oznacza yval? i jaką przyjęto regułę decyzyjną przy jego wyborze?
20 Optymalne drzewo klasyfikacyjne printcp(cars.tree) jakie jest optymalne drzewo, kierując się minimalizacją błędu kroswalidacyjnego? jakie jest optymalne drzewo, kierując się regułą 1SE? plotcp(cars.tree) Z czego wynika brak monotoniczności tej funkcji błędu? Jak jest uzasadniania reguła 1SE? Wizualizacja drzewa klasyfikacyjnego w tym celu wybierzemy tylko dwie zmienne par(mfrow=c(1,1), mar=c(0,0,0,0), pty="m") plot(cars2zmienne.tree,compress=t,uniform=true,branch=0.4,margin=0.2) text(cars2zmienne.tree, use.n=true, cex=0.7) print(summary(cars2zmienne.tree), digits=4)
21 Rysujemy obszary klasyfikacji: plot(c(1,5.70), c(1695,4105), type="p", xlab="weight", ylab="enginesize") text(cars93$enginesize, Cars93$Weight, Cars93$typ, cex=0.6) lines(c(1.95,1.95), c(1695,4105)) lines(c(1.95,5.70), c(3460,3460)) lines(c(3.2,3.2), c(1695,3460)) lines(c(1.95,5.70), c(3700,3700)) lines(c(3.25,3.25), c(3460,3700)) lines(c(3.25,5.70), c(3630,3630))
22 Metody łączenia klasyfikatorów Uzasadnienie: Załóżmy, że dysponujemy n (np. n=1000) niezależnymi klasyfikatorami. Każdy z nich charakteryzuje się prawdopodobieństwem p (np. p = 60%) poprawnej klasyfikacji. Załóżmy bardzo słaby klasyfikator p=0.51 dysponujemy 1000 niezależnych klasyfikatorów n=1000 Ile klasyfiaktorów na 1000 wskaże poprawną odpowiedź rbinom(1,n,p) rbinom(1,n,p) rbinom(1,n,p) rbinom(1,n,p) rbinom(1,n,p) Jeśli będziemy się posługiwali głosowaniem, tj. klasyfikowali do tej kategorie,do której większość klasyfikatorów z 1000 klasyfikowało, to jak często będziemy poprawnie klasyfikować? rbinom(1,n,p)>500 rbinom(1,n,p)>500 rbinom(1,n,p)>500 rbinom(1,n,p)>500 rbinom(1,n,p)>500 prop.table(table(rbinom( ,n,p)>500))?rbinom Wniosek: z poprawności 51% awansowaliśmy na 72%
Konspekt do zajęć: Statystyczne metody analizy danych. Agnieszka Nowak-Brzezińska 14 maja 2012
Drzewa klasyfikacyjne Konspekt do zajęć: Statystyczne metody analizy danych Agnieszka Nowak-Brzezińska 14 maja 2012 1 Wprowadzenie Drzewa klasyfikacyjne 1 jako reprezentacja wiedzy o klasyfikacji są dość
Bardziej szczegółowoWYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. Metoda CART. MiNI PW
WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. Metoda CART MiNI PW Drzewa służą do konstrukcji klasyfikatorów prognozujących Y {1, 2,..., g} na podstawie p-wymiarowego wektora atrybutów (dowolne atrybuty:
Bardziej szczegółowoPODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew.
PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew. Wprowadzenie Drzewo klasyfikacyjne Wprowadzenie Formalnie : drzewo
Bardziej szczegółowoWYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. METODA CART. Zaawansowane Metody Uczenia Maszynowego
WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. METODA CART Zaawansowane Metody Uczenia Maszynowego Drzewa służą do konstrukcji klasyfikatorów prognozujących Y {1, 2,..., g} na podstawie p-wymiarowego wektora
Bardziej szczegółowoWYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. METODA CART. Zaawansowane Metody Uczenia Maszynowego
WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. METODA CART Zaawansowane Metody Uczenia Maszynowego Drzewa służą do konstrukcji klasyfikatorów prognozujących Y {1, 2,..., g} na podstawie p-wymiarowego wektora
Bardziej szczegółowoALGORYTM RANDOM FOREST
SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM
Bardziej szczegółowoTemat zajęć: ANALIZA DANYCH ZBIORU EKSPORT. Część I: analiza regresji
Temat zajęć: ANALIZA DANYCH ZBIORU EKSPORT Część I: analiza regresji Krok 1. Pod adresem http://zsi.tech.us.edu.pl/~nowak/adb/eksport.txt znajdziesz zbiór danych do analizy. Zapisz plik na dysku w dowolnej
Bardziej szczegółowoWprowadzenie do analizy dyskryminacyjnej
Wprowadzenie do analizy dyskryminacyjnej Analiza dyskryminacyjna to zespół metod statystycznych używanych w celu znalezienia funkcji dyskryminacyjnej, która możliwie najlepiej charakteryzuje bądź rozdziela
Bardziej szczegółowoAlgorytmy klasyfikacji
Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe
Bardziej szczegółowoDrzewa decyzyjne w SAS Enterprise Miner
Drzewa decyzyjne w SAS Enterprise Miner Aneta Ptak-Chmielewska Instytut Statystyki i Demografii Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych www.sgh.waw.pl/zaklady/zahziaw 1 struktura ćwiczeń
Bardziej szczegółowoDrzewa klasykacyjne Konspekt do zaj : Statystyczne metody analizy danych
Drzewa klasykacyjne Konspekt do zaj : Statystyczne metody analizy danych Agnieszka Nowak-Brzezi«ska 11 stycznia 2010 1 Wprowadzenie Drzewa klasykacyjne 1 jako reprezentacja wiedzy o klasykacji s do± atrakcyjne
Bardziej szczegółowoĆwiczenia IV
Ćwiczenia IV - 17.10.2007 1. Spośród podanych macierzy X wskaż te, których nie można wykorzystać do estymacji MNK parametrów modelu ekonometrycznego postaci y = β 0 + β 1 x 1 + β 2 x 2 + ε 2. Na podstawie
Bardziej szczegółowoPrzykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość
Dwie metody Klasyczna metoda histogramu jako narzędzie do postawienia hipotezy, jaki rozkład prawdopodobieństwa pasuje do danych Indukcja drzewa decyzyjnego jako metoda wykrycia klasyfikatora ukrytego
Bardziej szczegółowoGenerowanie ciągów pseudolosowych o zadanych rozkładach przykładowy raport
Generowanie ciągów pseudolosowych o zadanych rozkładach przykładowy raport Michał Krzemiński Streszczenie Projekt dotyczy metod generowania oraz badania własności statystycznych ciągów liczb pseudolosowych.
Bardziej szczegółowoMODELE LINIOWE. Dr Wioleta Drobik
MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą
Bardziej szczegółowoEkonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej
Ekonometria Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Wykład 4 Prognozowanie, stabilność 1 / 17 Agenda
Bardziej szczegółowoData Mining Wykład 4. Plan wykładu
Data Mining Wykład 4 Klasyfikacja danych Klasyfikacja poprzez indukcje drzew decyzyjnych Plan wykładu Sformułowanie problemu Kryteria oceny metod klasyfikacji Metody klasyfikacji Klasyfikacja poprzez indukcje
Bardziej szczegółowoRozdział 8. Regresja. Definiowanie modelu
Rozdział 8 Regresja Definiowanie modelu Analizę korelacji można traktować jako wstęp do analizy regresji. Jeżeli wykresy rozrzutu oraz wartości współczynników korelacji wskazują na istniejąca współzmienność
Bardziej szczegółowoWysokość drzewa Głębokość węzła
Drzewa Drzewa Drzewo (ang. tree) zbiór węzłów powiązanych wskaźnikami, spójny i bez cykli. Drzewo posiada wyróżniony węzeł początkowy nazywany korzeniem (ang. root). Drzewo ukorzenione jest strukturą hierarchiczną.
Bardziej szczegółowoDrzewa klasyfikacyjne Lasy losowe. Wprowadzenie
Wprowadzenie Konstrukcja binarnych drzew klasyfikacyjnych polega na sekwencyjnym dzieleniu podzbiorów przestrzeni próby X na dwa rozłączne i dopełniające się podzbiory, rozpoczynając od całego zbioru X.
Bardziej szczegółowoPAKIETY STATYSTYCZNE
. Wykład wstępny PAKIETY STATYSTYCZNE 2. SAS, wprowadzenie - środowisko Windows, Linux 3. SAS, elementy analizy danych edycja danych 4. SAS, elementy analizy danych regresja liniowa, regresja nieliniowa
Bardziej szczegółowoDrzewa decyzyjne i lasy losowe
Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM
Bardziej szczegółowoStanisław Cichocki. Natalia Nehrebecka. Wykład 4
Stanisław Cichocki Natalia Nehrebecka Wykład 4 1 1. Własności hiperpłaszczyzny regresji 2. Dobroć dopasowania równania regresji. Współczynnik determinacji R 2 Dekompozycja wariancji zmiennej zależnej Współczynnik
Bardziej szczegółowoKonkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji
Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Michał Witczak Data Mining 20 maja 2012 r. 1. Wstęp Dostarczone zostały nam 4 pliki, z których dwa stanowiły zbiory uczące
Bardziej szczegółowoIndukowane Reguły Decyzyjne I. Wykład 8
Indukowane Reguły Decyzyjne I Wykład 8 IRD Wykład 8 Plan Powtórka Krzywa ROC = Receiver Operating Characteristic Wybór modelu Statystyka AUC ROC = pole pod krzywą ROC Wybór punktu odcięcia Reguły decyzyjne
Bardziej szczegółowoDrzewa klasyfikacyjne algorytm podstawowy
DRZEWA DECYZYJNE Drzewa klasyfikacyjne algorytm podstawowy buduj_drzewo(s przykłady treningowe, A zbiór atrybutów) { utwórz węzeł t (korzeń przy pierwszym wywołaniu); if (wszystkie przykłady w S należą
Bardziej szczegółowoStanisław Cichocki. Natalia Nehrebecka. Wykład 9
Stanisław Cichocki Natalia Nehrebecka Wykład 9 1 1. Dodatkowe założenie KMRL 2. Testowanie hipotez prostych Rozkład estymatora b Testowanie hipotez prostych przy użyciu statystyki t 3. Przedziały ufności
Bardziej szczegółowoSYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska DRZEWO REGRESYJNE Sposób konstrukcji i przycinania
Bardziej szczegółowoWprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta
Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta www.michalbereta.pl W tej części: Zachowanie wytrenowanego modelu w celu późniejszego użytku Filtrowanie danych (brakujące etykiety
Bardziej szczegółowoRegresja liniowa wprowadzenie
Regresja liniowa wprowadzenie a) Model regresji liniowej ma postać: gdzie jest zmienną objaśnianą (zależną); są zmiennymi objaśniającymi (niezależnymi); natomiast są parametrami modelu. jest składnikiem
Bardziej szczegółowoWykład 4: Statystyki opisowe (część 1)
Wykład 4: Statystyki opisowe (część 1) Wprowadzenie W przypadku danych mających charakter liczbowy do ich charakterystyki można wykorzystać tak zwane STATYSTYKI OPISOWE. Za pomocą statystyk opisowych można
Bardziej szczegółowoDrzewa decyzyjne z użyciem pakietu R. Zastosowanie w badaniach występowania nawrotu choroby u pacjentek z nowotworem piersi.
Uniwersytet Warszawski Wydział Matematyki, Informatyki i Mechaniki Marta Tyce Nr albumu: 277952 Drzewa decyzyjne z użyciem pakietu R. Zastosowa w badaniach występowania nawrotu choroby u pacjentek z nowotworem
Bardziej szczegółowoStanisław Cichocki. Natalia Nehrebecka. Wykład 12
Stanisław Cichocki Natalia Nehrebecka Wykład 12 1 1.Problemy z danymi Zmienne pominięte Zmienne nieistotne 2. Autokorelacja o Testowanie autokorelacji 1.Problemy z danymi Zmienne pominięte Zmienne nieistotne
Bardziej szczegółowoKlasyfikator liniowy Wstęp Klasyfikator liniowy jest najprostszym możliwym klasyfikatorem. Zakłada on liniową separację liniowy podział dwóch klas między sobą. Przedstawia to poniższy rysunek: 5 4 3 2
Bardziej szczegółowo1 Modele ADL - interpretacja współczynników
1 Modele ADL - interpretacja współczynników ZADANIE 1.1 Dany jest proces DL następującej postaci: y t = µ + β 0 x t + β 1 x t 1 + ε t. 1. Wyjaśnić, jaka jest intepretacja współczynników β 0 i β 1. 2. Pokazać
Bardziej szczegółowoMetoda najmniejszych kwadratów
Własności algebraiczne Model liniowy Zapis modelu zarobki = β 0 + β 1 plec + β 2 wiek + ε Oszacowania wartości współczynników zarobki = b 0 + b 1 plec + b 2 wiek + e Model liniowy Tabela: Oszacowania współczynników
Bardziej szczegółowoZadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1
Zadanie 1 a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1 b) W naszym przypadku populacja są inżynierowie w Tajlandii. Czy można jednak przypuszczać, że na zarobki kobiet-inżynierów
Bardziej szczegółowoRozpoznawanie obrazów
Rozpoznawanie obrazów Laboratorium Python Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest implementacja liniowego zadania
Bardziej szczegółowoEkonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej
Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej Paweł Cibis pawel@cibis.pl 23 lutego 2007 1 Regresja liniowa 2 wzory funkcje 3 Korelacja liniowa
Bardziej szczegółowoMetody wypełniania braków w danych ang. Missing values in data
Analiza danych wydobywanie wiedzy z danych III Metody wypełniania braków w danych ang. Missing values in data W rzeczywistych zbiorach danych dane są często nieczyste: - niekompletne (brakujące ważne atrybuty,
Bardziej szczegółowoAgnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Bardziej szczegółowoKompresja danych Streszczenie Studia Dzienne Wykład 10,
1 Kwantyzacja wektorowa Kompresja danych Streszczenie Studia Dzienne Wykład 10, 28.04.2006 Kwantyzacja wektorowa: dane dzielone na bloki (wektory), każdy blok kwantyzowany jako jeden element danych. Ogólny
Bardziej szczegółowoIndukowane Reguły Decyzyjne I. Wykład 3
Indukowane Reguły Decyzyjne I Wykład 3 IRD Wykład 3 Plan Powtórka Grafy Drzewa klasyfikacyjne Testy wstęp Klasyfikacja obiektów z wykorzystaniem drzewa Reguły decyzyjne generowane przez drzewo 2 Powtórzenie
Bardziej szczegółowoSYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska BUDOWA DRZEW DECYZYJNYCH Drzewa decyzyjne są metodą indukcyjnego
Bardziej szczegółowoMetody Eksploracji Danych. Klasyfikacja
Metody Eksploracji Danych Klasyfikacja w wykładzie wykorzystano: 1. materiały dydaktyczne przygotowane w ramach projektu Opracowanie programów nauczania na odległość na kierunku studiów wyższych Informatyka
Bardziej szczegółowoLaboratorium 11. Regresja SVM.
Laboratorium 11 Regresja SVM. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk Dalej>. 3. Z
Bardziej szczegółowoStatystyka i Analiza Danych
Warsztaty Statystyka i Analiza Danych Gdańsk, 20-22 lutego 2014 Zastosowania wybranych technik regresyjnych do modelowania współzależności zjawisk Janusz Wątroba StatSoft Polska Centrum Zastosowań Matematyki
Bardziej szczegółowoAnaliza składowych głównych. Wprowadzenie
Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących
Bardziej szczegółowoWERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno
WERYFIKACJA MODELI MODELE LINIOWE Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno ANALIZA KORELACJI LINIOWEJ to NIE JEST badanie związku przyczynowo-skutkowego, Badanie współwystępowania cech (czy istnieje
Bardziej szczegółowoEkonometria Ćwiczenia 19/01/05
Oszacowano regresję stopy bezrobocia (unemp) na wzroście realnego PKB (pkb) i stopie inflacji (cpi) oraz na zmiennych zero-jedynkowych związanymi z kwartałami (season). Regresję przeprowadzono na danych
Bardziej szczegółowoMetody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z liniowym zadaniem najmniejszych
Bardziej szczegółowoKlasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną
Bardziej szczegółowoPodejÊcie regresyjne w budowie drzew klasyfikacyjnych CART
Zeszyty Naukowe nr 680 Akademii Ekonomicznej w Krakowie 2005 Mariusz apczyƒski Katedra Analizy Rynku i Badaƒ Marketingowych PodejÊcie regresyjne w budowie drzew klasyfikacyjnych CART 1. Wprowadzenie Drzewa
Bardziej szczegółowoStanisław Cichocki. Natalia Nehrebecka. Wykład 14
Stanisław Cichocki Natalia Nehrebecka Wykład 14 1 1.Problemy z danymi Współliniowość 2. Heteroskedastyczność i autokorelacja Konsekwencje heteroskedastyczności i autokorelacji Metody radzenia sobie z heteroskedastycznością
Bardziej szczegółowoStanisław Cichocki. Natalia Nehrebecka. Wykład 14
Stanisław Cichocki Natalia Nehrebecka Wykład 14 1 1.Problemy z danymi Zmienne pominięte Zmienne nieistotne Obserwacje nietypowe i błędne Współliniowość - Mamy 2 modele: y X u 1 1 (1) y X X 1 1 2 2 (2)
Bardziej szczegółowoAnaliza zależności cech ilościowych regresja liniowa (Wykład 13)
Analiza zależności cech ilościowych regresja liniowa (Wykład 13) dr Mariusz Grządziel semestr letni 2012 Przykład wprowadzajacy W zbiorze danych homedata (z pakietu R-owskiego UsingR) można znaleźć ceny
Bardziej szczegółowoPorządek symetryczny: right(x)
Porządek symetryczny: x lef t(x) right(x) Własność drzewa BST: W drzewach BST mamy porządek symetryczny. Dla każdego węzła x spełniony jest warunek: jeżeli węzeł y leży w lewym poddrzewie x, to key(y)
Bardziej szczegółowo> x <-seq(-2*pi, 2*pi, by=0.5) > plot(x, sin(x), type="b",main="wykres funkcji sin(x) i cos(x)", col="blue") > lines(x, cos(x), type="l",col="red")
Rachunek Prawdopodobieństwa i Statystyka lab 4. Kaja Gutowska (Kaja.Gutowska@cs.put.poznan.pl) 1. Wprowadzenie do grafiki: - Program R ma szerokie możliwości w zakresie graficznego prezentowania danych.
Bardziej szczegółowoSieci neuronowe w Statistica
http://usnet.us.edu.pl/uslugi-sieciowe/oprogramowanie-w-usk-usnet/oprogramowaniestatystyczne/ Sieci neuronowe w Statistica Agnieszka Nowak - Brzezińska Podstawowym elementem składowym sztucznej sieci neuronowej
Bardziej szczegółowoStanisław Cichocki. Natalia Nehrebecka. Wykład 12
Stanisław Cichocki Natalia Nehrebecka Wykład 1 1 1. Testy diagnostyczne Testowanie stabilności parametrów modelu: test Chowa. Heteroskedastyczność Konsekwencje Testowanie heteroskedastyczności 1. Testy
Bardziej szczegółowoALGORYTMY SZTUCZNEJ INTELIGENCJI
ALGORYTMY SZTUCZNEJ INTELIGENCJI Sieci neuronowe 06.12.2014 Krzysztof Salamon 1 Wstęp Sprawozdanie to dotyczy ćwiczeń z zakresu sieci neuronowych realizowanym na przedmiocie: Algorytmy Sztucznej Inteligencji.
Bardziej szczegółowoESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA
ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA Jan Mielniczuk Wisła, grudzień 2009 PLAN Błędy predykcji i ich podstawowe estymatory Estymacja błędu predykcji w modelu liniowym. Funkcje kryterialne Własności
Bardziej szczegółowoAgnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Bardziej szczegółowoZadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.
tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1
Bardziej szczegółowoEkonometria egzamin 07/03/2018
imię, nazwisko, nr indeksu: Ekonometria egzamin 07/03/2018 1. Egzamin trwa 90 minut. 2. Rozwiązywanie zadań należy rozpocząć po ogłoszeniu początku egzaminu a skończyć wraz z ogłoszeniem końca egzaminu.
Bardziej szczegółowoE: Rekonstrukcja ewolucji. Algorytmy filogenetyczne
E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne Przypominajka: 152 drzewo filogenetyczne to drzewo, którego liśćmi są istniejące gatunki, a węzły wewnętrzne mają stopień większy niż jeden i reprezentują
Bardziej szczegółowoStatystyka opisowa- cd.
12.03.2017 Wydział Inżynierii Produkcji I Logistyki Statystyka opisowa- cd. Wykład 4 Dr inż. Adam Deptuła HISTOGRAM UNORMOWANY Pole słupka = wysokość słupka x długość przedziału Pole słupka = n i n h h,
Bardziej szczegółowoZastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner rok akademicki 2014/2015 Sieci neuronowe Sieci neuronowe w SAS Enterprise Miner Węzeł Neural Network Do
Bardziej szczegółowoNarzędzia metody i techniki modelowania procesów społecznogospodarczych. Mariusz Dacko
Narzędzia metody i techniki modelowania procesów społecznogospodarczych Mariusz Dacko Dlaczego modelowanie procesów społecznogospodarczych jest procesem trudnym do przeprowadzenia? Brak jednolitego spójnego
Bardziej szczegółowoZajęcia nr VII poznajemy Rattle i pakiet R.
Okno główne Rattle wygląda następująco: Zajęcia nr VII poznajemy Rattle i pakiet R. Widzimy główne zakładki: Data pozwala odczytad dane z różnych źródeł danych (pliki TXT, CSV) i inne bazy danych. Jak
Bardziej szczegółowoSztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek
Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek Cel projektu Celem projektu jest przygotowanie systemu wnioskowania, wykorzystującego wybrane algorytmy sztucznej inteligencji; Nabycie
Bardziej szczegółowoStochastyczne Metody Analizy Danych. PROJEKT: Analiza kluczowych parametrów turbin wiatrowych
PROJEKT: Analiza kluczowych parametrów turbin wiatrowych Projekt jest wykonywany z wykorzystaniem pakietu statystycznego STATISTICA. Praca odbywa się w grupach 2-3 osobowych. Aby zaliczyć projekt, należy
Bardziej szczegółowoWykład 5: Statystyki opisowe (część 2)
Wykład 5: Statystyki opisowe (część 2) Wprowadzenie Na poprzednim wykładzie wprowadzone zostały statystyki opisowe nazywane miarami położenia (średnia, mediana, kwartyle, minimum i maksimum, modalna oraz
Bardziej szczegółowoEkonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.
imię, nazwisko, nr indeksu: Ekonometria egzamin 0/0/0. Egzamin trwa 90 minut.. Rozwiązywanie zadań należy rozpocząć po ogłoszeniu początku egzaminu a skończyć wraz z ogłoszeniem końca egzaminu. Złamanie
Bardziej szczegółowoKORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y. 2. Współczynnik korelacji Pearsona
KORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y 2. Współczynnik korelacji Pearsona 3. Siła i kierunek związku między zmiennymi 4. Korelacja ma sens, tylko wtedy, gdy związek między zmiennymi
Bardziej szczegółowoRegresja logistyczna. Regresja logistyczna. Przykłady DV. Wymagania
Regresja logistyczna analiza relacji między zbiorem zmiennych niezależnych (ilościowych i dychotomicznych) a dychotomiczną zmienną zależną wyniki wyrażone są w prawdopodobieństwie przynależności do danej
Bardziej szczegółowoRegresja liniowa w R Piotr J. Sobczyk
Regresja liniowa w R Piotr J. Sobczyk Uwaga Poniższe notatki mają charakter roboczy. Mogą zawierać błędy. Za przesłanie mi informacji zwrotnej o zauważonych usterkach serdecznie dziękuję. Weźmy dane dotyczące
Bardziej szczegółowo8. Drzewa decyzyjne, bagging, boosting i lasy losowe
Algorytmy rozpoznawania obrazów 8. Drzewa decyzyjne, bagging, boosting i lasy losowe dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Drzewa decyzyjne Drzewa decyzyjne (ang. decision trees), zwane
Bardziej szczegółowoMateriał dotyczy generowania różnego typu wykresów w środowisku R.
Materiał dotyczy generowania różnego typu wykresów w środowisku R. Pamiętajmy, że niektóre typy wykresów są dedykowane do pewnych typów danych. Na potrzeby ćwiczeń początkowych załadujemy sobie zbiór danych
Bardziej szczegółowoStanisław Cichocki. Natalia Nehrebecka. Wykład 10
Stanisław Cichocki Natalia Nehrebecka Wykład 10 1 1. Testy diagnostyczne Testowanie prawidłowości formy funkcyjnej: test RESET Testowanie normalności składników losowych: test Jarque-Berra Testowanie stabilności
Bardziej szczegółowoWstęp 7 Rozdział 1. OpenOffice.ux.pl Writer środowisko pracy 9
Wstęp 7 Rozdział 1. OpenOffice.ux.pl Writer środowisko pracy 9 Uruchamianie edytora OpenOffice.ux.pl Writer 9 Dostosowywanie środowiska pracy 11 Menu Widok 14 Ustawienia dokumentu 16 Rozdział 2. OpenOffice
Bardziej szczegółowoCo to są drzewa decyzji
Drzewa decyzji Co to są drzewa decyzji Drzewa decyzji to skierowane grafy acykliczne Pozwalają na zapis reguł w postaci strukturalnej Przyspieszają działanie systemów regułowych poprzez zawężanie przestrzeni
Bardziej szczegółowoEkonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota
Ekonometria ćwiczenia 3 Prowadzący: Sebastian Czarnota Strona - niezbędnik http://sebastianczarnota.com/sgh/ Normalność rozkładu składnika losowego Brak normalności rozkładu nie odbija się na jakości otrzymywanych
Bardziej szczegółowoTypy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe
Typy zmiennych Graficzne reprezentacje danych Statystyki opisowe Jakościowe charakterystyka przyjmuje kilka możliwych wartości, które definiują klasy Porządkowe: odpowiedzi na pytania w ankiecie ; nigdy,
Bardziej szczegółowoEksploracja danych w środowisku R
Eksploracja danych w środowisku R Moi drodzy, niniejszy konspekt nie omawia eksploracji danych samej w sobie. Nie dowiecie się tutaj o co chodzi w generowaniu drzew decyzyjnych czy grupowaniu danych. Te
Bardziej szczegółowoRegresja logistyczna
Regresja logistyczna Zacznijmy od danych dotyczących tego czy studenci zostali przyjęci na studia. admissions
Bardziej szczegółowoStanisław Cichocki. Natalia Nehrebecka
Stanisław Cichocki Natalia Nehrebecka 1 1. Wstęp a) Binarne zmienne zależne b) Interpretacja ekonomiczna c) Interpretacja współczynników 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników
Bardziej szczegółowoKlasyfikacja. Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji. Eksploracja danych. Klasyfikacja wykład 1
Klasyfikacja Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji Klasyfikacja wykład 1 Niniejszy wykład poświęcimy kolejnej metodzie eksploracji danych klasyfikacji. Na początek
Bardziej szczegółowoEkonometria egzamin 01/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.
imię, nazwisko, nr indeksu: Ekonometria egzamin 01/02/2019 1. Egzamin trwa 90 minut. 2. Rozwiązywanie zadań należy rozpocząć po ogłoszeniu początku egzaminu a skończyć wraz z ogłoszeniem końca egzaminu.
Bardziej szczegółowoWSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno
WSTĘP DO REGRESJI LOGISTYCZNEJ Dr Wioleta Drobik-Czwarno REGRESJA LOGISTYCZNA Zmienna zależna jest zmienną dychotomiczną (dwustanową) przyjmuje dwie wartości, najczęściej 0 i 1 Zmienną zależną może być:
Bardziej szczegółowoNatalia Nehrebecka Stanisław Cichocki. Wykład 10
Natalia Nehrebecka Stanisław Cichocki Wykład 10 1 1. Testy diagnostyczne 2. Testowanie prawidłowości formy funkcyjnej modelu 3. Testowanie normalności składników losowych 4. Testowanie stabilności parametrów
Bardziej szczegółowoAnaliza Statystyczna
Lekcja 5. Strona 1 z 12 Analiza Statystyczna Do analizy statystycznej wykorzystać można wbudowany w MS Excel pakiet Analysis Toolpak. Jest on instalowany w programie Excel jako pakiet dodatkowy. Oznacza
Bardziej szczegółowoLaboratorium - Monitorowanie i zarządzanie zasobami systemu Windows XP
5.0 5.3.3.7 Laboratorium - Monitorowanie i zarządzanie zasobami systemu Windows XP Wprowadzenie Wydrukuj i uzupełnij to laboratorium. W tym laboratorium, będziesz korzystać z narzędzi administracyjnych
Bardziej szczegółowoDiagnostyka w Pakiecie Stata
Karol Kuhl Zgodnie z twierdzeniem Gaussa-Markowa, estymator MNK w KMRL jest liniowym estymatorem efektywnym i nieobciążonym, co po angielsku opisuje się za pomocą wyrażenia BLUE Best Linear Unbiased Estimator.
Bardziej szczegółowoLINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU
LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU Tomasz Demski, StatSoft Polska Sp. z o.o. Wprowadzenie Jednym z elementów walidacji metod pomiarowych jest sprawdzenie liniowości
Bardziej szczegółowoDiagnostyka w Pakiecie Stata
Karol Kuhl Zgodnie z twierdzeniem Gaussa-Markowa, estymator MNK w KMRL jest liniowym estymatorem efektywnym i nieobciążonym, co po angielsku opisuje się za pomocą wyrażenia BLUE Best Linear Unbiased Estimator.
Bardziej szczegółowoStanisław Cichocki. Natalia Nehrebecka. Wykład 13
Stanisław Cichocki Natalia Nehrebecka Wykład 13 1 1. Testowanie autokorelacji 2. Heteroskedastyczność i autokorelacja Konsekwencje heteroskedastyczności i autokorelacji 3.Problemy z danymi Zmienne pominięte
Bardziej szczegółowoAnaliza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU
Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów
Bardziej szczegółowo