Zmienne zastępcze i konkurencyjne w interpretacji drzew klasyfikacyjnych CART

Wielkość: px
Rozpocząć pokaz od strony:

Download "Zmienne zastępcze i konkurencyjne w interpretacji drzew klasyfikacyjnych CART"

Transkrypt

1 Zeszyty Naukowe nr 800 Uniwersytet Ekonomiczny w Krakowie 2009 Katedra Analizy Rynku i Badań Marketingowych Zmienne zastępcze i konkurencyjne w interpretacji drzew klasyfikacyjnych CART 1. Wprowadzenie w procedurę algorytmu CART Drzewa klasyfikacyjne CART 1 to narzędzie analityczne data mining, które jest uznawane za najbardziej zaawansowaną metodę podziału rekurencyjnego. Mimo że metoda ta powstała na początku lat 80. ubiegłego wieku, doczekała się tylko nieznacznych modyfikacji. Próbowano wprawdzie stworzyć bayesowski CART 2, dokonywano jego modyfikacji w NASA (pakiet IND) 3, usiłowano także udoskonalić podział drzew (FACT) 4 poprzez połączenie właściwości CART i liniowej analizy dyskryminacyjnej, podejmowano próby zastąpienia wielokrotnej walidacji krzyżowej metodą Monte Carlo 5, jednak rdzeń metody z jego nowatorskimi rozwiązaniami do dziś pozostał niezmieniony. Celem artykułu jest wskazanie roli zmiennych zastępczych i konkurencyjnych w budowie i interpretacji drzew klasyfikacyjnych CART interpretacji wykraczającej poza standardowy zestaw zdań warunkowych typu jeśli, to, a także rankingu ważności predyktorów oraz macierzy błędnych klasyfikacji. 1 Pierwsza praca poświęcona algorytmowi CART to pozycja: L. Breiman i in., Classification and Regression Trees, Chapman and Hall, H.A. Chapman, E.I. George, R.E. McCulloch, Bayesian CART Model Search, Journal of the American Statistical Association 1998, September, vol. 93, nr 443, s W. Buntine, Tree Classification Software, Technology 2002, Baltimore, December W.-Y. Loh, N. Vanichsetakul, Tree-structured Classification via Generalized Discriminant Analysis, Journal of the American Statistical Association 1988, September, vol. 83, nr 403, s S.L. Crawford, Extension to the CART Algorithm, International Journal Man-Machine Studies 1989, vol. 31, s

2 100 W algorytmie CART występują dwie reguły podziału: indeks Giniego oraz metoda podziału na 2 części (twoing criterion). Pierwszą z nich można wyrazić wzorem 6 : 2 IG = 1 p ( j t), (1) gdzie: IG indeks Giniego, t liczebność węzła drzewa, j liczba klas (wariantów zmiennej zależnej) w węźle, p(j t) prawdopodobieństwo pojawienia się przypadków z danej klasy w tym węźle. Łatwiej zrozumieć zasadę działania indeksu Giniego, kiedy spojrzy się na dane zamieszczone w tabeli 1. Wskaźnik ten przyjmuje wartość 0, jeśli w węźle znajdują się przypadki należące wyłącznie do jednej klasy (jednego wariantu zmiennej zależnej), i wartość największą, gdy wszystkie klasy występują w tym węźle równolicznie. Dla dwóch klas maksimum wynosi 0,5; dla trzech klas jest to wartość 0,66(7), a dla czterech klas wartość 0,75 itd. Zatem im mniejsza jest wartość indeksu Giniego, tym lepszy podział danego węzła. Tabela 1. Wskaźnik Giniego dla 3-wariantowej zmiennej zależnej dane przykładowe P(A) P(B) P(C) Indeks Giniego , , , , , ,0001 0,0001 0,9998 0, ,001 0,001 0,998 0, ,01 0,01 0,98 0,0394 0,1 0,1 0,8 0,34 0,1 0,2 0,7 0,46 0,1 0,3 0,6 0,54 0,1 0,4 0,5 0,58 0,2 0,2 0,6 0,56 0,2 0,3 0,5 0,62 0,2 0,4 0,4 0,64 0,3 0,3 0,4 0,66 0, , , ,66667 Źródło: opracowanie własne. j 6 L. Breiman i in., op. cit., s. 103.

3 Zmienne zastępcze i konkurencyjne Aby zaprezentować, w jaki sposób indeks Giniego znajduje zastosowanie w podziale drzewa klasyfikacyjnego, dobrze jest posłużyć się przykładem (tabela 2). Tabela 2. Przykładowe dane do obliczeń Wiek Miejsce zamieszkania Wykształcenie Marka lat miasto <= 100 tys. mieszkańców średnie BMW lat miasto <= 100 tys. mieszkańców średnie Mercedes lat miasto > 100 tys. mieszkańców wyższe Jaguar lat miasto > 100 tys. mieszkańców wyższe Jaguar lat wieś wyższe BMW lat wieś wyższe Mercedes lat wieś wyższe Mercedes 51 lub więcej miasto <= 100 tys. mieszkańców średnie Mercedes 51 lub więcej miasto <= 100 tys. mieszkańców średnie Mercedes 51 lub więcej miasto <= 100 tys. mieszkańców wyższe Mercedes 51 lub więcej miasto > 100 tys. mieszkańców wyższe BMW 51 lub więcej miasto > 100 tys. mieszkańców wyższe BMW 51 lub więcej wieś średnie BMW 51 lub więcej wieś średnie Mercedes 51 lub więcej wieś wyższe Mercedes do 30 lat miasto <= 100 tys. mieszkańców wyższe Jaguar do 30 lat miasto <= 100 tys. mieszkańców wyższe Jaguar do 30 lat miasto <= 100 tys. mieszkańców wyższe Jaguar do 30 lat miasto > 100 tys. mieszkańców wyższe Mercedes do 30 lat wieś średnie Jaguar Źródło: opracowanie własne. Jeśli zadanie polegałoby na predykcji preferencji w oparciu o dany zestaw zmiennych niezależnych, to pierwszym krokiem będzie oszacowanie indeksu Giniego dla całego zbioru obserwacji. Znając prawdopodobieństwa występowania poszczególnych klas (tu: marek samochodów): P(BMW) = 0,25, P(Jaguar) = 0,30 i P(Mercedes) = 0,45, łatwo obliczyć, że wskaźnik Giniego wynosi 0,645. Kolejnym krokiem jest podział całego zbioru obserwacji w oparciu o jeden z trzech predyktorów. Aby wybrać najlepszy z nich, trzeba przeanalizować trzy potencjalne fragmenty drzewa (rys. 1, 2 i 3). Dla każdej zmiennej niezależnej należy obliczyć wskaźnik Giniego oraz tzw. wskaźnik poprawy (improvement). Indeksy Giniego dla poszczególnych wariantów zmiennych niezależnych są następujące:

4 102 wiek do 50 lat i(do 50) = 0,612, wiek 51+ i(51+) = 0,466, miejsce zamieszkania wieś i(wieś) = 0,571, miejsce zamieszkania miasto i(miasto) = 0,654, wykształcenie średnie i(średnie) = 0,571, wykształcenie wyższe i(wyższe) = 0, przypadków P(BMW) = 0,25 P(Jaguar) = 0,35 P(Mercedes) = 0,40 WIEK do 50 lat P(BMW) = 0,17 P(Jaguar) = 0,50 P(Mercedes) = 0, lat P(BMW) = 0,37 P(Jaguar) = 0,00 P(Mercedes) = 0,63 12 przypadków 8 przypadków Rys. 1. Podział w oparciu o zmienną niezależną wiek Źródło: opracowanie własne. 20 przypadków P(BMW) = 0,25 P(Jaguar) = 0,35 P(Mercedes) = 0,40 MIEJSCE ZAMIESZKANIA wieś P(BMW) = 0,29 P(Jaguar) = 0,14 P(Mercedes) = 0,57 miasto P(BMW) = 0,24 P(Jaguar) = 0,38 P(Mercedes) = 0,38 7 przypadków 13 przypadków Rys. 2. Podział w oparciu o zmienną niezależną miejsce zamieszkania Źródło: opracowanie własne. Prawdopodobieństwo trafienia przypadku do poszczególnych węzłów drzewa jest równe odpowiednio: P(wiek do 50 lat) = 0,6; P(wiek 51+) = 0,4; P(miejsce zamieszkania wieś) = 0,35; P(miejsce zamieszkania miasto) = 0,65; P(wykształcenie średnie) = 0,35; P(wykształcenie wyższe) = 0,65.

5 Zmienne zastępcze i konkurencyjne przypadków P(BMW) = 0,25 P(Jaguar) = 0,35 P(Mercedes) = 0,40 średnie WYKSZTAŁCENIE wyższe P(BMW) = 0,29 P(Jaguar) = 0,14 P(Mercedes) = 0,57 P(BMW) = 0,24 P(Jaguar) = 0,38 P(Mercedes) = 0,38 7 przypadków 13 przypadków Rys. 3. Podział w oparciu o zmienną niezależną wykształcenie Źródło: opracowanie własne. Pozwala to obliczyć ważone średnie indeksy Giniego dla każdej zmiennej: wiek: i(wiek) = P(do 50) i(do 50) + P(51+) i(51+) = 0,5536, miejsce zamieszkania: i(miejsce_zam) = P(wieś) i(wieś) + P(miasto) i(miasto) = 0,6249, wykształcenie: i(wykształcenie) = P(średnie) i(średnie) + P(wyższe) i(wyższe) = 0,6249, co z kolei umożliwia oszacowanie wskaźnika poprawy (improvement): wiek = 0,0914, miejsce zamieszkania = 0,0201, wykształcenie = 0,0201. Im wyższa jest wartość wskaźnika poprawy, tym lepszy podział zapewniony przez daną zmienną niezależną. W powyższym przykładzie najlepszym predyktorem okazała się zmienna wiek, choć należy tu podkreślić, że są to tylko szacunki poglądowe (brakuje np. podziału wiek do 30 wiek 31+ albo wieś i miasto <=100 miasto >100 ). Alternatywnym sposobem oceny jakości wydzielonych węzłów jest reguła podziału na dwie części (twoing criterion), którą wyraża się wzorem 7 : 2 plpr TC = p( j tl) p( jtr), (2) 4 j gdzie: TC reguła podziału na dwie części, p L prawdopodobieństwo trafienia przypadków do lewego węzła, p R prawdopodobieństwo trafienia przypadków do prawego węzła, 7 L. Breiman i in., op. cit., s. 108.

6 104 j liczba przypadków z danej klasy (z danego wariantu zmiennej zależnej) w węźle, t L liczba wszystkich przypadków w lewym węźle, t R liczba wszystkich przypadków w prawym węźle. Cechą charakterystyczną reguły podziału na dwie części jest dychotomizowanie zmiennych wielowariantowych (dlatego w indeksach dolnych znajdują się litery L i R oznaczające węzeł lewy i węzeł prawy drzewa). Im wyższa wartość TC, tym lepszy jest podział drzewa, co znaczy, że miara ta preferuje podzbiory równoliczne iloczyn p L p R przyjmuje maksimum (0,25) dla prawdopodobieństw 0,5 i 0,5. Posługując się danymi z tabeli 2 oraz przykładowymi podziałami drzewa (rys. 1, 2 i 3), można oszacować wartości TC dla poszczególnych zmiennych niezależnych: TC wiek = 0,0600; TC miejsce_zamieszkania = 0,0133; TC wykształcenie = 0,0133. Również w tym przypadku najlepszym predyktorem okazała się zmienna wiek. Dla binarnej zmiennej zależnej obie miary (IG i TC) dają identyczne rozwiązanie. Inaczej rzecz ma się w przypadku zmiennych wielowariantowych, w wypadku których indeks Giniego preferuje wydzielanie węzłów znacznie różniących się liczebnością (jeden mniej liczny, ale bardziej homogeniczny, a drugi bardziej liczny, ale równocześnie bardziej heterogeniczny), a reguła podziału na dwie części preferuje równoliczne węzły potomne. Ogólnie rzecz ujmując, autorzy algorytmu zalecają stosowanie wskaźnika Giniego, który ich zdaniem częściej zapewnia wyższą jakość modelu. 2. Zmienne zastępcze i zmienne konkurencyjne Interesującą i przydatną innowacją metody CART jest występowanie zmiennych konkurencyjnych (competitors) i zmiennych zastępczych (surrogates). Na każdym etapie podziału drzewa zestawiany jest ranking zmiennych niezależnych, które zapewniają najlepszy podział danego węzła. Pozycja w tym rankingu zależy od trafności predykcji zmiennej zależnej w wydzielanych węzłach potomnych. Najlepszy z predyktorów wykorzystywany jest do budowy modelu, a pozostałe pełnią funkcję bądź to zmiennych konkurencyjnych, bądź zmiennych zastępczych (lub obie te role jednocześnie). Kolejność w tych lokalnych rankingach zależy od wartości omówionego wcześniej wskaźnika poprawy (improvement). Zmienna niezależna, dla której wartość ta jest najwyższa, zostaje uznana za najlepszy predyktor pierwotny, który dzieli dany węzeł. Kolejność pozostałych predyktorów jest determinowana posortowanymi malejąco wartościami wskaźnika poprawy. Różnica między zmiennymi konkurencyjnymi a zmiennymi zastępczymi sprowadza się do tego, że te pierwsze zapewniają zbliżoną redukcję heterogeniczności węzła, te drugie zaś oprócz redukcji nieczystości węzła naśladują najlep-

7 Zmienne zastępcze i konkurencyjne szy predyktor, rozdzielając konkretne przypadki ze zbioru obserwacji w sposób jak najbardziej zbliżony do podziału pierwotnego (case-by-case). Zmienna zastępcza to zazwyczaj predyktor, który w danym miejscu drzewa zajmuje drugą pozycję i jednocześnie dzieli dany węzeł w sposób zbliżony do tego, jaki daje zmienna niezależna z pierwszej pozycji. O jakości predyktorów decyduje współczynnik asocjacji (association), którego maksymalna wartość może być równa 1 (najmniejsze mogą być ujemne), co oznacza, że zmienna zastępcza zapewnia równie skuteczny podział co zmienna pierwotna (z pierwszej pozycji). Należy przy tym podkreślić, że niska wartość tej miary nie oznacza słabej zastępowalności. Mogłoby się bowiem zdarzyć, że współczynnik o wysokości 0,25 daje podział zastępczy w 96% zgodny z podziałem pierwotnym. Wprowadzenie zmiennych zastępczych niesie ze sobą następujące korzyści: ułatwia analizę danych z brakującymi obserwacjami, pozwala zestawić ranking ważności predyktorów, umożliwia lepsze zrozumienie badanego zjawiska. Jeśli przypadki posiadają braki danych w zmiennych niezależnych, a zmienne te są najlepszymi na danym etapie podziału predyktorami, to algorytm zastępuje je wartościami zmiennych zastępczych. Jest to podejście, które nie występuje w żadnym innym algorytmie drzew klasyfikacyjnych, choć należy dodać, że bywają podziały, w których nie ma możliwości wyselekcjonowania sensownych zmiennych zastępczych. Ranking zmiennych zastępczych pozwala również sporządzić ostateczny ranking ważności predyktorów, czyli oszacować, w jakim stopniu zmienne niezależne wpływają na zmienną zależną. Ogólną ideę przedstawiono na schemacie (rys. 4). Co znamienne, predyktor, który wcale nie uczestniczył w podziale drzewa, może mieć wysoką pozycję w ostatecznym rankingu. Wynika to z faktu, że za każdym razem jego współczynnik asocjacji przyjmował wysokie wartości (był najlepszą zmienną zastępczą). Zmienne zastępcze pozwalają również na lepsze poznanie badanej dziedziny. Badacz może przyjrzeć się dokładnie strukturze drzewa i sprawdzić, jakie inne zmienne mogły być potencjalnymi predyktorami na poszczególnych etapach podziału. Niektóre programy (np. STATISTICA Data Miner, CART wersja 6.0) pozwalają na ingerencję analityka w strukturę modelu. Możliwe jest usuwanie (dodawanie) dowolnych gałęzi i wprowadzanie własnych podziałów. Jednym z celów algorytmu CART jest dostarczenie względnie prostego modelu z niewielką liczbą węzłów końcowych i o niezbyt dużej głębokości. Powoduje to, że w strukturze drzewa pojawiają się tylko te zmienne niezależne, które uznane są za najlepsze predyktory na danym etapie podziału drzewa. Może się jednakże zdarzyć, że część zmiennych objaśniających ma wysoką (chociaż nie najwyższą) wartość wskaźnika poprawy i mimo dużej przydatności w redukcji nieczystości

8 106 węzłów nigdy ich nie dzieli, a tym samym nie trafia do żadnego zdania warunkowego opisującego model. Jest to tzw. problem maskowania zmiennych (masking problem), w wypadku którego podziały pierwotne przesłaniają inne czasami tylko nieznacznie gorsze alternatywne podziały drzewa. Problem ten może być zidentyfikowany i rozwiązany na dwa sposoby: poprzez interpretację rankingu ważności predyktorów oraz przez wykorzystanie zmiennych konkurencyjnych w tworzeniu alternatywnych reguł. Rys. 4. Rankingi zmiennych zastępczych a ostateczny ranking ważności predyktorów Źródło: opracowanie własne. Ranking ważności predyktorów powstaje, co przedstawiono na schemacie (rys. 4), względnie prosto. Na każdym etapie podziału drzewa tworzy się rankingi zmiennych zastępczych i oblicza dla każdej z nich wartość wskaźnika poprawy. Po zbudowaniu modelu drzewa sumuje się te wartości dla wszystkich zmiennych niezależnych ze wszystkich etapów podziału i to jest podstawą do stworzenia ostatecznego rankingu. Jeśli część zmiennych z pierwszych pozycji tego rankingu nie występuje w podziale drzewa, wówczas mamy do czynienia z problemem maskowania. Co istotne, interpretując rankingi ważności, trzeba mieć na uwadze, że odnoszą się one wyłącznie do konkretnego modelu drzewa, a najmniejsza zmiana polegająca przykładowo na usunięciu jednej zmiennej objaśniającej może spowodować znaczące zmiany w kolejności tego rankingu. Drugi sposób radzenia sobie z problemem maskowania zmiennych polega na wykorzystaniu w interpretacji modelu najlepszych zmiennych konkurencyjnych znajdujących się blisko wierzchołka drzewa. Predyktory te mogą być wykorzystane przy formułowaniu alternatywnego zestawu reguł, co przedstawiono na rys. 5. Jak łatwo zauważyć, najlepszą zmienną konkurencyjną znajdującą się w węźle blisko wierzchołka drzewa (tutaj B) wstawiono w miejsce predyktora

9 Zmienne zastępcze i konkurencyjne Klasyczna reguła wykorzystująca podziały pierwotne A BC Jeżeli A i C i A, to rezultat A A BC ABC Alternatywna reguła wykorzystująca zmienną konkurencyjną z wierzchołka drzewa Jeżeli B i C i A, to rezultat Rys. 5. Tworzenie alternatywnych reguł z wykorzystaniem zmiennych konkurencyjnych Źródło: opracowanie własne. pierwotnego (tutaj A), co wzbogaciło opis modelu o dodatkowe zdanie warunkowe typu jeżeli, to. 3. Przykład pogłębionej interpretacji drzewa klasyfikacyjnego Przykład pogłębionej interpretacji drzewa klasyfikacyjnych opiera się na zbiorze danych zebranych w trakcie badań ankietowych realizowanych w czerwcu i lipcu 2005 r. Celem tych badań była próba modelowania preferencji konsumentów na rynku samochodów osobowych 8. Rozważania zawężono do tzw. deklarowanych preferencji (stated preferences), które w odróżnieniu od preferencji ujawnionych (revealed preferences) nie są rzeczywistymi aktami zakupu, a jedynie wyrażeniem gotowości do nabycia danej kategorii lub marki produktu przez respondentów. Budując model drzewa klasyfikacyjnego, wykorzystano zaawansowane opcje, tj. przycinanie oraz szacowanie błędu klasyfikacji za pomocą 10-krotnej walidacji krzyżowej. Ogólną jakość rozwiązania wyrażoną odsetkiem poprawnych klasyfikacji przedstawiono w macierzy błędnych klasyfikacji (tabela 3). Jak łatwo zauważyć, trafność predykcji całego modelu wynosi 69,05%, podczas gdy traf- 8 Opisane w dalszej części pracy wyniki badań dotyczą nowych i używanych samochodów osobowych, których cena wynosi w przybliżeniu 40 tys. zł. Używane w pracy zwroty rynek samochodów osobowych czy rynek motoryzacyjny powinny być tu traktowane jako synonimy.

10 108 ność predykcji klasy samochód nowy wynosi blisko 75%, a trafność predykcji dla klasy samochód używany 65% 9. Tabela 3. Macierz błędnych klasyfikacji dla modelu z przycinaniem po 10-krotnej walidacji krzyżowej Ogólna poprawność klasyfikacji 69,05% Klasa obserwowana Liczba przypadków Procent poprawnych klasyfikacji Klasa przewidywana auto nowe Klasa przewidywana auto używane Auto nowe 90 74, Auto używane , Źródło: opracowanie własne z wykorzystaniem programu CART. Struktura drzewa nie jest rozbudowana (rys. 6), na co wpływ miało przycinanie modelu, czyli w dużym uogólnieniu redukcja liczby liści połączona z nieznacznym pogorszeniem się jakości rozwiązania. Na rysunku zamieszczono szczegóły dotyczące liczebności węzłów oraz nazwy predyktorów uczestniczących w podziale drzewa. Node 1 P2COPIER N = 210 Terminal Node 1 N = 73 Node 2 P19FAZA N = 137 Terminal Node 2 N = 36 Terminal Node 3 N = 101 Rys. 6. Struktura drzewa model z przycinaniem po 10-krotnej walidacji krzyżowej Źródło: opracowanie własne z wykorzystaniem programu CART. Drzewo ma tylko trzy liście, więc cały model można opisać za pomocą trzech zdań warunkowych (tabela 4). Poprawność klasyfikacji poszczególnych reguł zamieszczono w kolumnie odsetek badanych. 9 Zmienna zależna miała dwa warianty: 1) respondent preferuje samochód nowy oraz 2) respondent preferuje samochód używany.

11 Zmienne zastępcze i konkurencyjne Tabela 4. Zestaw zdań warunkowych opisujących model z przycinaniem po 10-krotnej walidacji krzyżowej (reguły dotyczą obu klas) Nr węzła Poprzednik nr 1 Jeżeli cechy brane pod uwagę przy zakupie auta = kraj pochodzenia marki albo pojemność silnika albo liczba drzwi Jeżeli cechy brane pod uwagę przy zakupie auta = typ silnika albo marka Jeżeli cechy brane pod uwagę przy zakupie auta = typ silnika albo marka Poprzednik nr 2 faza cyklu życia rodziny = 4 albo 5 albo 6 faza cyklu życia rodziny = 1 albo 2 albo 3 Odsetek badanych 63% przypadków spełniających tę regułę preferuje NOWY samochód 58% przypadków spełniających tę regułę preferuje NOWY samochód 77% przypadków spełniających tę regułę preferuje UŻYWANY samochód Źródło: opracowanie własne. Ranking ważności predyktorów dla tego modelu przedstawiono w tabeli 5. Ponieważ dokonano tylko dwóch podziałów, zdecydowana większość zmiennych niezależnych nie mogła być brana pod uwagę w podziale ani jako najlepszy predyktor, ani jako jedna ze zmiennych zastępczych. Tabela 5. Ranking ważności predyktorów model z przycinaniem po 10-krotnej walidacji krzyżowej Zmienna Liczba punktów Cecha auta brana pod uwagę przy zakupie jako pierwsza 100,00 Faza cyklu życia rodziny badanego 67,62 Korzyści nacisk na zabezpieczenia samochodu przed kradzieżą 19,13 Wartość bycie poważanym 18,81 Wartość poczucie spełnienia 16,11 Status zatrudnienia badanego 1,20 Źródło: opracowanie własne z wykorzystaniem programu CART. Największy wpływ na preferencje respondentów miały dwie zmienne: cecha auta brana pod uwagę przy zakupie jako pierwsza oraz faza cyklu życia rodziny badanego. Obie te zmienne z początku rankingu uczestniczą w podziale drzewa (są predyktorami pierwotnymi), a zatem w tym konkretnym przypadku nie występuje problem maskowania zmiennych.

12 110 Jeśli badacz uzna, że model jest zbytnim uproszczeniem rzeczywistości, może zdecydować się na ręczne zwiększenie liczby liści, a tym samym liczby reguł. W tym celu najłatwiej posłużyć się tabelą, w której zestawiono błąd klasyfikacji dla sekwencji drzew (tabela 6). Drzewo oznaczone dwiema gwiazdkami zostało wybrane w sposób automatyczny z uwzględnieniem reguły jednego błędu standardowego. Badacz ma jednak możliwość wyboru innego modelu (np. modelu nr 10), godząc się przy tym na wzrost błędu klasyfikacji (z 63% do 71%) i na wzrost liczby reguł (z 3 do 7). Błąd jest stosunkowo wysoki, jednak należy pamiętać, że dotyczy całego zbioru obserwacji. Może się także zdarzyć, że szczegółowa analiza zawartości węzłów i trafności predykcji poszczególnych klas sprawią, iż drzewo o niższej ogólnej jakości będzie mieć większą wartość poznawczą. Tabela 6. Sekwencja drzew model z przycinaniem po 10-krotnej walidacji krzyżowej Numer modelu Liczba liści Błąd po 10-krotnej walidacji krzyżowej Koszt resubstytucji Parametr złożoności ,747 +/ 0,067 0,242 0, ,772 +/ 0,068 0,300 0, ,772 +/ 0,068 0,336 0, ,761 +/ 0,068 0,361 0, ,728 +/ 0,067 0,389 0, ,719 +/ 0,066 0,406 0, ,711 +/ 0,066 0,511 0, ,750 +/ 0,067 0,578 0,011 12** 3 0,633 +/ 0,065 0,606 0, ,750 +/ 0,066 0,714 0, ,000 +/ 0,610352E-04 1,000 0,143 Źródło: opracowanie własne z wykorzystaniem programu CART. Reasumując, o preferencjach respondentów decydują przede wszystkim: cecha auta brana pod uwagę przy zakupie jako pierwsza, faza cyklu życia rodziny badanego 10, oraz w mniejszym stopniu: korzyści nacisk na zabezpieczenia samochodu przed kradzieżą, wartość ze skali LOV bycie poważanym, 10 Zmienna faza cyklu życia rodziny przyjęła następujące warianty: 1) młode osoby stanu wolnego (kawalerowie, panny do 49. roku życia), 2) młode małżeństwa bez dzieci, 3) małżeństwa z dziećmi na utrzymaniu (wiek dzieci nie przekracza 18 lat), 4) małżeństwa z dorosłymi dziećmi na utrzymaniu (wiek dzieci to 18 lat i więcej), 5) małżeństwa bez dzieci na utrzymaniu tzw. puste gniazda, 6) starsze osoby stanu wolnego (od 50. roku życia wzwyż).

13 Zmienne zastępcze i konkurencyjne wartość ze skali LOV poczucie spełnienia, status zatrudnienia badanego. Upraszczając interpretację, można stwierdzić, że autami nowymi są zainteresowane osoby znajdujące się w fazie czwartej, piątej albo szóstej cyklu życia rodziny, które zwracają uwagę na typ silnika (benzynowy-diesel) i markę samochodu. Faza czwarta cyklu życia rodziny to małżeństwa z dorosłymi dziećmi na utrzymaniu, faza piąta to puste gniazda, faza szósta zaś to starsze osoby stanu wolnego. Wynika stąd, że respondenci, którzy wybrali nowy samochód, są osobami w średnim i starszym wieku, które samochodu potrzebują na własny użytek (można tu przyjąć, że dorosłe dzieci będące na utrzymaniu podróżują samodzielnie). Drugą grupę badanych preferujących nowe samochody stanowią osoby żonate (zamężne), które przy zakupie samochodu biorą w pierwszej kolejności pod uwagę: kraj pochodzenia marki, pojemność silnika albo liczbę drzwi. Na rys. 7 przedstawiono rozkłady obu klas (osób preferujących auta nowe i osób preferujących auta używane) w węźle macierzystym i węzłach potomnych. Jak widać, podziału dokonano w oparciu o zmienną P2COPIER (cecha auta brana pod uwagę przy zakupie jako pierwsza), przy czym do lewego potomka trafiły kategorie 1, 2 i 5 (kraj pochodzenia marki, pojemność silnika i liczba drzwi), do prawego zaś kategorie 3 i 4 (typ silnika i marka). Rys. 7. Przykład rozkładów procentowych klas w węźle macierzystym i węzłach potomnych Źródło: opracowanie własne z wykorzystaniem programu CART. Rysunek 8 przedstawia ranking zmiennych konkurencyjnych (po lewej stronie) oraz ranking zmiennych zastępczych (po prawej stronie) dla tego samego

14 112 węzła macierzystego. Zmienna konkurencyjna, dla której wskaźnik poprawy jest nieznacznie niższy od wartości 0,0517 (tyle wynosi wskaźnik poprawy dla predyktora P2COPIER), to faza cyklu życia rodziny. Trzy kategorie tej zmiennej trafiłyby do węzła lewego (aut nowych), a zatem można mówić, że dotyczy to osób z czwartej, piątej albo szóstej fazy. Druga zmienna konkurencyjna to P8OTPLUS (korzyści nacisk na wysokie osiągi techniczne), dla której wskaźnik poprawy wynosi 0,0256. Do węzła lewego (osób preferujących nowe samochody) trafiliby wówczas respondenci, którzy nie przywiązują wagi do wysokich osiągów technicznych samochodu (P8OTPLUS = 2). Jeśli chodzi o zmienne zastępcze, mają one za zadanie głównie zastępować braki danych. Gdyby w dowolnym przypadku zaobserwowano brak danych w zmiennej P2COPIER, to CART zastąpi tę brakującą wartość wariantem zmiennej P10ZPLUS (korzyści nacisk na zabezpieczenia samochodu przed kradzieżą). Rys. 8. Ranking zmiennych konkurencyjnych (competitors) i zmiennych zastępczych (surrogates) Źródło: opracowanie własne z wykorzystaniem programu CART. Reasumując, szczegółowa analiza zmiennych konkurencyjnych pozwala uzupełnić merytoryczną interpretację modelu. Jest to bardzo cenna i ważna zaleta algorytmu CART. O nabywcach nowych samochodów można dodatkowo powiedzieć, że są to osoby, które nie przywiązują wagi do wysokich osiągów technicznych samochodu i które nie kierują się wartościami: życie pełne wrażeń oraz przyjemność i radość z życia. Czynnikami psychologicznymi charakteryzującymi respondentów z tego segmentu są natomiast wartości: poczucie spełnienia i bycie poważanym.

15 Zmienne zastępcze i konkurencyjne Podsumowanie Klasyczna interpretacja drzew klasyfikacyjnych opiera się najczęściej na zestawie zdań warunkowych opisujących model, na rankingu ważności predyktorów oraz macierzy błędnych klasyfikacji, w której podaje się odsetek poprawnie sklasyfikowanych przypadków. Algorytm CART jako jedyne narzędzie do budowy drzew klasyfikacyjnych umożliwia badaczowi wykorzystanie tzw. zmiennych konkurencyjnych i zmiennych zastępczych. Dzięki wglądowi w głąb struktury modelu możliwe jest wówczas eliminowanie problemu maskowania zmiennych. Część zmiennych (zastępcze) jest bowiem wykorzystywana do tworzenia globalnego rankingu ważności predyktorów, natomiast inna część zmiennych (konkurencyjne) jest używana przy tworzeniu alternatywnego zestawu reguł. Ta cecha metody CART nie zostanie zapewne doceniona przez analityków dokonujących obliczenia na potrzeby CRM, jednak z całą pewnością warto zwrócić na nią uwagę, stosując to narzędzie w analizie danych ankietowych. Literatura Breiman L. i in., Classification and Regression Trees, Chapman and Hall, New York Buntine W., Tree Classification Software, Technology 2002, Baltimore, December Chapman H.A., George E.I., McCulloch R.E., Bayesian CART Model Search, Journal of the American Statistical Association 1998, September, vol. 93, nr 443. Crawford S.L., Extension to the CART algorithm, International Journal Man-Machine Studies 1989, vol. 31. Gatnar E. Nieparametryczna metoda dyskryminacji i regresji, PWN, Warszawa Loh W.-Y., Vanichsetakul N., Tree-structured Classification Via Generalized Discriminant Analysis, Journal of the American Statistical Association 1988, September, vol. 83, nr 403. Łapczyński M., Understanding Consumers Stated Preferences using CART s Surrogate and Competitor Splits, niepublikowany recenzowany referat wygłoszony w trakcie The 31st Annual Conference of the German Classification Society on Data Analysis, Machine Learning, and Applications, Freiburg, 7 9 marca Steinberg D., Colla P., CART. Interface and Documentation, Salford Systems 1997,

16 114 Competitors and Surrogates in the Interpretation of Classification and Regression Trees The aim of this article is to indicate the role of surrogates and competitors in the creation and interpretation of classification and regression trees interpretation that goes beyond the standard set of conditional statements of the if, then... type, the significance ranking of predictors, and the confusion matrix. In the introduction, the author describes the classical methods for dividing classification and regression trees the Gini criterion and the twoing criterion. Next, he describes the differences between competitors and surrogates, with particular emphasis on the construction of a significance ranking of predictors, the masking problem, and the creation of alternative rules to describe the tree model. The article is supplemented with an example of how to construct a consumer preference model on the motor car market using CART software.

DRZEWA KLASYFIKACYJNE W BADANIACH SATYSFAKCJI

DRZEWA KLASYFIKACYJNE W BADANIACH SATYSFAKCJI StatSoft Polska, tel. (1) 48400, (601) 414151, info@statsoft.pl, www.statsoft.pl DRZEWA KLASYFIKACYJNE W BADANIACH SATYSFAKCJI I LOJALNOŚCI KLIENTÓW Mariusz Łapczyński Akademia Ekonomiczna w Krakowie,

Bardziej szczegółowo

Projektowanie, ocena i wykorzystanie danych rynkowych

Projektowanie, ocena i wykorzystanie danych rynkowych Nr 51 Projektowanie, ocena i wykorzystanie danych rynkowych Redaktor naukowy Józef Dziechciarz Spis treści Wstęp.............................................................. 7 Sylwester Białowąs, Kolejność

Bardziej szczegółowo

ANALIZA DANYCH ANKIETOWYCH PRZEGLĄD WYBRANYCH TECHNIK NA PRZYKŁADZIE RYNKU MOTORYZACYJNEGO. Poznanie odpowiedzi na pytania wstępna analiza przekrojowa

ANALIZA DANYCH ANKIETOWYCH PRZEGLĄD WYBRANYCH TECHNIK NA PRZYKŁADZIE RYNKU MOTORYZACYJNEGO. Poznanie odpowiedzi na pytania wstępna analiza przekrojowa ANALIZA DANYCH ANKIETOWYCH PRZEGLĄD WYBRANYCH TECHNIK NA PRZYKŁADZIE RYNKU MOTORYZACYJNEGO Mariusz Łapczyński, Uniwersytet Ekonomiczny w Krakowie, Katedra Analizy Rynku i Badań Marketingowych Poznanie

Bardziej szczegółowo

PodejÊcie regresyjne w budowie drzew klasyfikacyjnych CART

PodejÊcie regresyjne w budowie drzew klasyfikacyjnych CART Zeszyty Naukowe nr 680 Akademii Ekonomicznej w Krakowie 2005 Mariusz apczyƒski Katedra Analizy Rynku i Badaƒ Marketingowych PodejÊcie regresyjne w budowie drzew klasyfikacyjnych CART 1. Wprowadzenie Drzewa

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

Metoda Automatycznej Detekcji Interakcji CHAID

Metoda Automatycznej Detekcji Interakcji CHAID Metoda Automatycznej Detekcji Interakcji CHAID Metoda ta pozwala wybrać z konkretnego, dużego zbioru zmiennych te z nich, które najsilniej wpływają na wskazaną zmienną (objaśnianą) zmienne porządkowane

Bardziej szczegółowo

Drzewa decyzyjne i lasy losowe

Drzewa decyzyjne i lasy losowe Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM

Bardziej szczegółowo

Szkolenie Analiza dyskryminacyjna

Szkolenie Analiza dyskryminacyjna Szkolenie Analiza dyskryminacyjna program i cennik Łukasz Deryło Analizy statystyczne, szkolenia www.statystyka.c0.pl Szkolenie Analiza dyskryminacyjna Co to jest analiza dyskryminacyjna? Inną nazwą analizy

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Kompresja danych Streszczenie Studia Dzienne Wykład 10, 1 Kwantyzacja wektorowa Kompresja danych Streszczenie Studia Dzienne Wykład 10, 28.04.2006 Kwantyzacja wektorowa: dane dzielone na bloki (wektory), każdy blok kwantyzowany jako jeden element danych. Ogólny

Bardziej szczegółowo

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład Data Mining Wykład 5 Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny Indeks Gini Popularnym kryterium podziału, stosowanym w wielu produktach komercyjnych, jest indeks Gini Algorytm SPRINT

Bardziej szczegółowo

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006 SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu

Bardziej szczegółowo

Drzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber

Drzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber Drzewa decyzyjne Inteligentne Obliczenia Wydział Mechatroniki Politechniki Warszawskiej Anna Sztyber INO (IAiR PW) Drzewa decyzyjne Anna Sztyber / Drzewa decyzyjne w podstawowej wersji algorytm klasyfikacji

Bardziej szczegółowo

Wnioskowanie bayesowskie

Wnioskowanie bayesowskie Wnioskowanie bayesowskie W podejściu klasycznym wnioskowanie statystyczne oparte jest wyłącznie na podstawie pobranej próby losowej. Możemy np. estymować punktowo lub przedziałowo nieznane parametry rozkładów,

Bardziej szczegółowo

ANALIZA PORÓWNAWCZA JAKOŚCI MODELI PROGNOZOWANIA KONDYCJI EKONOMICZNO- FINANSOWEJ PRZEDSIĘBIORSTW WOJ. LUBELSKIEGO I PODKARPACKIEGO

ANALIZA PORÓWNAWCZA JAKOŚCI MODELI PROGNOZOWANIA KONDYCJI EKONOMICZNO- FINANSOWEJ PRZEDSIĘBIORSTW WOJ. LUBELSKIEGO I PODKARPACKIEGO 115 ANALIZA PORÓWNAWCZA JAKOŚCI MODELI PROGNOZOWANIA KONDYCJI EKONOMICZNO- FINANSOWEJ PRZEDSIĘBIORSTW WOJ. LUBELSKIEGO I PODKARPACKIEGO Zbigniew Omiotek Wyższa Szkoła Zarządzania i Administracji w Zamościu

Bardziej szczegółowo

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Michał Witczak Data Mining 20 maja 2012 r. 1. Wstęp Dostarczone zostały nam 4 pliki, z których dwa stanowiły zbiory uczące

Bardziej szczegółowo

Metody klasyfikacji danych - część 1 p.1/24

Metody klasyfikacji danych - część 1 p.1/24 Metody klasyfikacji danych - część 1 Inteligentne Usługi Informacyjne Jerzy Dembski Metody klasyfikacji danych - część 1 p.1/24 Plan wykładu - Zadanie klasyfikacji danych - Przeglad problemów klasyfikacji

Bardziej szczegółowo

Podstawy programowania 2. Temat: Drzewa binarne. Przygotował: mgr inż. Tomasz Michno

Podstawy programowania 2. Temat: Drzewa binarne. Przygotował: mgr inż. Tomasz Michno Instrukcja laboratoryjna 5 Podstawy programowania 2 Temat: Drzewa binarne Przygotował: mgr inż. Tomasz Michno 1 Wstęp teoretyczny Drzewa są jedną z częściej wykorzystywanych struktur danych. Reprezentują

Bardziej szczegółowo

5. Wprowadzenie do prawdopodobieństwa Wprowadzenie Wyniki i zdarzenia Różne podejścia do prawdopodobieństwa Zdarzenia wzajemnie wykluczające się i

5. Wprowadzenie do prawdopodobieństwa Wprowadzenie Wyniki i zdarzenia Różne podejścia do prawdopodobieństwa Zdarzenia wzajemnie wykluczające się i Spis treści Przedmowa do wydania polskiego - Tadeusz Tyszka Słowo wstępne - Lawrence D. Phillips Przedmowa 1. : rola i zastosowanie analizy decyzyjnej Decyzje złożone Rola analizy decyzyjnej Zastosowanie

Bardziej szczegółowo

Drzewa BST i AVL. Drzewa poszukiwań binarnych (BST)

Drzewa BST i AVL. Drzewa poszukiwań binarnych (BST) Drzewa ST i VL Drzewa poszukiwań binarnych (ST) Drzewo ST to dynamiczna struktura danych (w formie drzewa binarnego), która ma tą właściwość, że dla każdego elementu wszystkie elementy w jego prawym poddrzewie

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska BUDOWA DRZEW DECYZYJNYCH Drzewa decyzyjne są metodą indukcyjnego

Bardziej szczegółowo

Regresja logistyczna (LOGISTIC)

Regresja logistyczna (LOGISTIC) Zmienna zależna: Wybór opcji zachodniej w polityce zagranicznej (kodowana jako tak, 0 nie) Zmienne niezależne: wiedza o Unii Europejskiej (WIEDZA), zamieszkiwanie w regionie zachodnim (ZACH) lub wschodnim

Bardziej szczegółowo

PROBLEM ROZMIESZCZENIA MASZYN LICZĄCYCH W DUŻYCH SYSTEMACH PRZEMYSŁOWYCH AUTOMATYCZNIE STEROWANYCH

PROBLEM ROZMIESZCZENIA MASZYN LICZĄCYCH W DUŻYCH SYSTEMACH PRZEMYSŁOWYCH AUTOMATYCZNIE STEROWANYCH CZESŁAW KULIK PROBLEM ROZMIESZCZENIA MASZYN LICZĄCYCH W DUŻYCH SYSTEMACH PRZEMYSŁOWYCH AUTOMATYCZNIE STEROWANYCH Duże systemy przemysłowe, jak kopalnie, kombinaty metalurgiczne, chemiczne itp., mają złożoną

Bardziej szczegółowo

Algorytmy i struktury danych. Co dziś? Tytułem przypomnienia metoda dziel i zwyciężaj. Wykład VIII Elementarne techniki algorytmiczne

Algorytmy i struktury danych. Co dziś? Tytułem przypomnienia metoda dziel i zwyciężaj. Wykład VIII Elementarne techniki algorytmiczne Algorytmy i struktury danych Wykład VIII Elementarne techniki algorytmiczne Co dziś? Algorytmy zachłanne (greedyalgorithms) 2 Tytułem przypomnienia metoda dziel i zwyciężaj. Problem można podzielić na

Bardziej szczegółowo

Analiza składowych głównych. Wprowadzenie

Analiza składowych głównych. Wprowadzenie Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących

Bardziej szczegółowo

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L, Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której

Bardziej szczegółowo

Przygotowanie danych

Przygotowanie danych 2 Przygotowanie danych 2 Przygotowanie danych Przed opracowaniem statystycznym należy uporządkować dane. Czynność ta ułatwia opracowywanie danych. Od czasu, kiedy pojawiły się komputery, procedury porządkowania

Bardziej szczegółowo

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość Dwie metody Klasyczna metoda histogramu jako narzędzie do postawienia hipotezy, jaki rozkład prawdopodobieństwa pasuje do danych Indukcja drzewa decyzyjnego jako metoda wykrycia klasyfikatora ukrytego

Bardziej szczegółowo

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów. ANALIZA SKUPIEŃ Metoda k-means I. Cel zadania Zadaniem jest analiza zbioru danych, gdzie zmiennymi są poziomy ekspresji genów. Podczas badań pobrano próbki DNA od 36 różnych pacjentów z chorobą nowotworową.

Bardziej szczegółowo

Algorytmy klasyfikacji

Algorytmy klasyfikacji Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe

Bardziej szczegółowo

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe? 2 Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia czy pomiędzy zmiennymi istnieje związek/zależność. Stosujemy go w sytuacji, kiedy zmienna zależna mierzona jest na skali

Bardziej szczegółowo

ANALIZA CZYNNIKÓW ROKOWNICZYCH I METOD LECZENIA U CHORYCH NA ZIARNICĘ ZŁOŚLIWĄ

ANALIZA CZYNNIKÓW ROKOWNICZYCH I METOD LECZENIA U CHORYCH NA ZIARNICĘ ZŁOŚLIWĄ ANALIZA CZYNNIKÓW ROKOWNICZYCH I METOD LECZENIA U CHORYCH NA ZIARNICĘ ZŁOŚLIWĄ prof. dr hab. Andrzej Sokołowski, dr Adam Sagan Jednym z ważniejszych obszarów zastosowań programu STATISTICA w badaniach

Bardziej szczegółowo

Temat zajęć: ANALIZA DANYCH ZBIORU EKSPORT. Część I: analiza regresji

Temat zajęć: ANALIZA DANYCH ZBIORU EKSPORT. Część I: analiza regresji Temat zajęć: ANALIZA DANYCH ZBIORU EKSPORT Część I: analiza regresji Krok 1. Pod adresem http://zsi.tech.us.edu.pl/~nowak/adb/eksport.txt znajdziesz zbiór danych do analizy. Zapisz plik na dysku w dowolnej

Bardziej szczegółowo

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania

Bardziej szczegółowo

ANALIZA ZDOLNOŚCI PROCESU O ZALEŻNYCH CHARAKTERYSTYKACH

ANALIZA ZDOLNOŚCI PROCESU O ZALEŻNYCH CHARAKTERYSTYKACH Małgorzata Szerszunowicz Uniwersytet Ekonomiczny w Katowicach ANALIZA ZDOLNOŚCI PROCESU O ZALEŻNYCH CHARAKTERYSTYKACH Wprowadzenie Statystyczna kontrola jakości ma na celu doskonalenie procesu produkcyjnego

Bardziej szczegółowo

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH 1. Czym jest eksploracja danych Eksploracja danych definiowana jest jako zbiór technik odkrywania nietrywialnych zależności i schematów w dużych

Bardziej szczegółowo

Statystyka i Analiza Danych

Statystyka i Analiza Danych Warsztaty Statystyka i Analiza Danych Gdańsk, 20-22 lutego 2014 Zastosowania wybranych technik regresyjnych do modelowania współzależności zjawisk Janusz Wątroba StatSoft Polska Centrum Zastosowań Matematyki

Bardziej szczegółowo

Algorytmy genetyczne

Algorytmy genetyczne Algorytmy genetyczne Motto: Zamiast pracowicie poszukiwać najlepszego rozwiązania problemu informatycznego lepiej pozwolić, żeby komputer sam sobie to rozwiązanie wyhodował! Algorytmy genetyczne służą

Bardziej szczegółowo

ALGORYTMY SZTUCZNEJ INTELIGENCJI

ALGORYTMY SZTUCZNEJ INTELIGENCJI ALGORYTMY SZTUCZNEJ INTELIGENCJI Sieci neuronowe 06.12.2014 Krzysztof Salamon 1 Wstęp Sprawozdanie to dotyczy ćwiczeń z zakresu sieci neuronowych realizowanym na przedmiocie: Algorytmy Sztucznej Inteligencji.

Bardziej szczegółowo

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

8. Drzewa decyzyjne, bagging, boosting i lasy losowe Algorytmy rozpoznawania obrazów 8. Drzewa decyzyjne, bagging, boosting i lasy losowe dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Drzewa decyzyjne Drzewa decyzyjne (ang. decision trees), zwane

Bardziej szczegółowo

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny

Bardziej szczegółowo

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd. Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru

Bardziej szczegółowo

Wprowadzenie. Data Science Uczenie się pod nadzorem

Wprowadzenie. Data Science Uczenie się pod nadzorem Wprowadzenie Wprowadzenie Wprowadzenie Wprowadzenie Machine Learning Mind Map Historia Wstęp lub uczenie się z przykładów jest procesem budowy, na bazie dostępnych danych wejściowych X i oraz wyjściowych

Bardziej szczegółowo

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej) Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej) 1 Podział ze względu na zakres danych użytych do wyznaczenia miary Miary opisujące

Bardziej szczegółowo

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy. Hipotezy dzielimy na parametryczne i nieparametryczne.

Bardziej szczegółowo

Szkolenie Regresja liniowa

Szkolenie Regresja liniowa Szkolenie Regresja liniowa program i cennik Łukasz Deryło Analizy statystyczne, szkolenia www.statystyka.c0.pl Szkolenie Regresja liniowa Co to jest regresja liniowa? Regresja liniowa jest podstawową metodą

Bardziej szczegółowo

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb Współzależność Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb (x i, y i ). Geometrycznie taką parę

Bardziej szczegółowo

Drzewa binarne. Drzewo binarne to dowolny obiekt powstały zgodnie z regułami: jest drzewem binarnym Jeśli T 0. jest drzewem binarnym Np.

Drzewa binarne. Drzewo binarne to dowolny obiekt powstały zgodnie z regułami: jest drzewem binarnym Jeśli T 0. jest drzewem binarnym Np. Drzewa binarne Drzewo binarne to dowolny obiekt powstały zgodnie z regułami: jest drzewem binarnym Jeśli T 0 i T 1 są drzewami binarnymi to T 0 T 1 jest drzewem binarnym Np. ( ) ( ( )) Wielkość drzewa

Bardziej szczegółowo

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie Wprowadzenie Konstrukcja binarnych drzew klasyfikacyjnych polega na sekwencyjnym dzieleniu podzbiorów przestrzeni próby X na dwa rozłączne i dopełniające się podzbiory, rozpoczynając od całego zbioru X.

Bardziej szczegółowo

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa Diagnostyka i niezawodność robotów Laboratorium nr 6 Model matematyczny elementu naprawialnego Prowadzący: mgr inż. Marcel Luzar Cele ćwiczenia:

Bardziej szczegółowo

Programowanie celowe #1

Programowanie celowe #1 Programowanie celowe #1 Problem programowania celowego (PC) jest przykładem problemu programowania matematycznego nieliniowego, który można skutecznie zlinearyzować, tzn. zapisać (i rozwiązać) jako problem

Bardziej szczegółowo

R-PEARSONA Zależność liniowa

R-PEARSONA Zależność liniowa R-PEARSONA Zależność liniowa Interpretacja wyników: wraz ze wzrostem wartości jednej zmiennej (np. zarobków) liniowo rosną wartości drugiej zmiennej (np. kwoty przeznaczanej na wakacje) czyli np. im wyższe

Bardziej szczegółowo

Wybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora.

Wybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora. Wprowadzenie do programu RapidMiner Studio 7.6, część 7 Podstawy metod wyboru atrybutów w problemach klasyfikacyjnych, c.d. Michał Bereta www.michalbereta.pl Wybór / ocena atrybutów na podstawie oceny

Bardziej szczegółowo

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp. Sprawdzian 2. Zadanie 1. Za pomocą KMNK oszacowano następującą funkcję produkcji: Gdzie: P wartość produkcji, w tys. jp (jednostek pieniężnych) K wartość kapitału zaangażowanego w proces produkcji, w tys.

Bardziej szczegółowo

Data Mining Wykład 4. Plan wykładu

Data Mining Wykład 4. Plan wykładu Data Mining Wykład 4 Klasyfikacja danych Klasyfikacja poprzez indukcje drzew decyzyjnych Plan wykładu Sformułowanie problemu Kryteria oceny metod klasyfikacji Metody klasyfikacji Klasyfikacja poprzez indukcje

Bardziej szczegółowo

Ćwiczenie 12. Metody eksploracji danych

Ćwiczenie 12. Metody eksploracji danych Ćwiczenie 12. Metody eksploracji danych Modelowanie regresji (Regression modeling) 1. Zadanie regresji Modelowanie regresji jest metodą szacowania wartości ciągłej zmiennej celu. Do najczęściej stosowanych

Bardziej szczegółowo

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy. TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy. Hipotezy dzielimy na parametryczne i nieparametryczne. Zajmiemy

Bardziej szczegółowo

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,

Bardziej szczegółowo

Struktury danych: stos, kolejka, lista, drzewo

Struktury danych: stos, kolejka, lista, drzewo Struktury danych: stos, kolejka, lista, drzewo Wykład: dane w strukturze, funkcje i rodzaje struktur, LIFO, last in first out, kolejka FIFO, first in first out, push, pop, size, empty, głowa, ogon, implementacja

Bardziej szczegółowo

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych; STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych; - badanie skuteczności nowego leku; - badanie stopnia zanieczyszczenia gleb metalami

Bardziej szczegółowo

Aproksymacja funkcji a regresja symboliczna

Aproksymacja funkcji a regresja symboliczna Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą

Bardziej szczegółowo

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. Metoda CART. MiNI PW

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. Metoda CART. MiNI PW WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. Metoda CART MiNI PW Drzewa służą do konstrukcji klasyfikatorów prognozujących Y {1, 2,..., g} na podstawie p-wymiarowego wektora atrybutów (dowolne atrybuty:

Bardziej szczegółowo

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Jacek Szcześniak Jerzy Błaszczyński Roman Słowiński Poznań, 5.XI.2013r. Konspekt Wstęp Wprowadzenie Metody typu wrapper Nowe metody

Bardziej szczegółowo

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Zadanie 1 Eksploracja (EXAMINE) Informacja o analizowanych danych Obserwacje Uwzględnione Wykluczone Ogółem

Bardziej szczegółowo

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska Anna Stankiewicz Izabela Słomska Wstęp- statystyka w politologii Rzadkie stosowanie narzędzi statystycznych Pisma Karla Poppera

Bardziej szczegółowo

Algorytmy równoległe: ocena efektywności prostych algorytmów dla systemów wielokomputerowych

Algorytmy równoległe: ocena efektywności prostych algorytmów dla systemów wielokomputerowych Algorytmy równoległe: ocena efektywności prostych algorytmów dla systemów wielokomputerowych Rafał Walkowiak Politechnika Poznańska Studia inżynierskie Informatyka 2014/15 Znajdowanie maksimum w zbiorze

Bardziej szczegółowo

Stanisław Cichocki. Natalia Neherebecka. Zajęcia 15-17

Stanisław Cichocki. Natalia Neherebecka. Zajęcia 15-17 Stanisław Cichocki Natalia Neherebecka Zajęcia 15-17 1 1. Binarne zmienne zależne 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników 3. Probit a) Interpretacja współczynników b) Miary

Bardziej szczegółowo

Wysokość drzewa Głębokość węzła

Wysokość drzewa Głębokość węzła Drzewa Drzewa Drzewo (ang. tree) zbiór węzłów powiązanych wskaźnikami, spójny i bez cykli. Drzewo posiada wyróżniony węzeł początkowy nazywany korzeniem (ang. root). Drzewo ukorzenione jest strukturą hierarchiczną.

Bardziej szczegółowo

TYTUŁ PRACY LICENCJACKIEJ/MAGISTERSKIEJ

TYTUŁ PRACY LICENCJACKIEJ/MAGISTERSKIEJ UNIWERSYTET EKONOMICZNY W KATOWICACH NAZWA WYDZIAŁU NAZWA KIERUNKU IMIĘ I NAZWISKO AUTORA TYTUŁ PRACY LICENCJACKIEJ/MAGISTERSKIEJ (W JĘZYKU POLSKIM) TYTUŁ PRACY LICENCJACKIEJ/MAGISTERSKIEJ (W JĘZYKU ANGIELSKIM)

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

Analiza regresji - weryfikacja założeń

Analiza regresji - weryfikacja założeń Medycyna Praktyczna - portal dla lekarzy Analiza regresji - weryfikacja założeń mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof.

Bardziej szczegółowo

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2 Klasyfikacja Indeks Gini Zysk informacyjny Klasyfikacja wykład 2 Kontynuujemy prezentacje metod klasyfikacji. Na wykładzie zostaną przedstawione dwa podstawowe algorytmy klasyfikacji oparte o indukcję

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka

Stanisław Cichocki. Natalia Nehrebecka Stanisław Cichocki Natalia Nehrebecka 1 1. Binarne zmienne zależne 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników 3. Probit a) Interpretacja współczynników b) Miary dopasowania 4.

Bardziej szczegółowo

Niestandardowa tabela częstości

Niestandardowa tabela częstości raportowanie Niestandardowa tabela częstości Przemysław Budzewski Predictive Solutions Do czego dążymy W Generalnym Sondażu Społecznym USA w 1991 roku badaniu poddano respondentów należących do szeregu

Bardziej szczegółowo

Drzewa czerwono-czarne.

Drzewa czerwono-czarne. Binboy at Sphere http://binboy.sphere.p l Drzewa czerwono-czarne. Autor: Jacek Zacharek Wstęp. Pojęcie drzewa czerwono-czarnego (red-black tree) zapoczątkował Rudolf Bayer w książce z 1972 r. pt. Symmetric

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia

Bardziej szczegółowo

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA Wykład 4: Wnioskowanie statystyczne Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA Idea wnioskowania statystycznego Celem analizy statystycznej nie jest zwykle tylko

Bardziej szczegółowo

Jak przekształcać zmienne jakościowe?

Jak przekształcać zmienne jakościowe? Data Preparation Jak przekształcać zmienne jakościowe? Marta Płonka Predictive Solutions W ostatnim artykule zobaczyliśmy, jak sprawdzić, czy między wybranymi przez nas predyktorami a zmienną przewidywaną

Bardziej szczegółowo

Zadania ze statystyki, cz.6

Zadania ze statystyki, cz.6 Zadania ze statystyki, cz.6 Zad.1 Proszę wskazać, jaką część pola pod krzywą normalną wyznaczają wartości Z rozkładu dystrybuanty rozkładu normalnego: - Z > 1,25 - Z > 2,23 - Z < -1,23 - Z > -1,16 - Z

Bardziej szczegółowo

ZASADY PROGRAMOWANIA KOMPUTERÓW ZAP zima 2014/2015. Drzewa BST c.d., równoważenie drzew, kopce.

ZASADY PROGRAMOWANIA KOMPUTERÓW ZAP zima 2014/2015. Drzewa BST c.d., równoważenie drzew, kopce. POLITECHNIKA WARSZAWSKA Instytut Automatyki i Robotyki ZASADY PROGRAMOWANIA KOMPUTERÓW ZAP zima 204/205 Język programowania: Środowisko programistyczne: C/C++ Qt Wykład 2 : Drzewa BST c.d., równoważenie

Bardziej szczegółowo

Automatyczne wyodrębnianie reguł

Automatyczne wyodrębnianie reguł Automatyczne wyodrębnianie reguł Jedną z form reprezentacji wiedzy jest jej zapis w postaci zestawu reguł. Ta forma ma szereg korzyści: daje się łatwo interpretować, można zrozumieć sposób działania zbudowanego

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Średnie. Średnie. Kinga Kolczyńska - Przybycień

Średnie. Średnie. Kinga Kolczyńska - Przybycień Czym jest średnia? W wielu zagadnieniach praktycznych, kiedy mamy do czynienia z jakimiś danymi, poszukujemy liczb, które w pewnym sensie charakteryzują te dane. Na przykład kiedy chcielibyśmy sklasyfikować,

Bardziej szczegółowo

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego Współczynnik korelacji opisuje siłę i kierunek związku. Jest miarą symetryczną. Im wyższa korelacja tym lepiej potrafimy

Bardziej szczegółowo

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ Celem ćwiczenia jest zapoznanie się ze sposobem działania sieci neuronowych typu MLP (multi-layer perceptron) uczonych nadzorowaną (z nauczycielem,

Bardziej szczegółowo

Co to są drzewa decyzji

Co to są drzewa decyzji Drzewa decyzji Co to są drzewa decyzji Drzewa decyzji to skierowane grafy acykliczne Pozwalają na zapis reguł w postaci strukturalnej Przyspieszają działanie systemów regułowych poprzez zawężanie przestrzeni

Bardziej szczegółowo

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Spis treści Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis treści Spis treści 1 Wstęp Bardzo często interesujący

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

Testowanie modeli predykcyjnych

Testowanie modeli predykcyjnych Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności

Bardziej szczegółowo

Jak statystyka może pomóc w odczytaniu wyników sprawdzianu

Jak statystyka może pomóc w odczytaniu wyników sprawdzianu 16 Jak statystyka może pomóc w odczytaniu wyników sprawdzianu Wyniki pierwszego ważnego egzaminu sprawdzianu w klasie szóstej szkoły podstawowej mogą w niebagatelny sposób wpływać na losy pojedynczych

Bardziej szczegółowo

Jak korzystać z arkusza kalkulacyjnego?

Jak korzystać z arkusza kalkulacyjnego? Jak korzystać z arkusza kalkulacyjnego? Arkusz kalkulacyjny do ankiety Warunki Pracy opracowany jest w formie arkusza programu Microsoft Office Excel. Budowa arkusza pozwala na generowanie zestawień i

Bardziej szczegółowo

Zależność cech (wersja 1.01)

Zależność cech (wersja 1.01) KRZYSZTOF SZYMANEK Zależność cech (wersja 1.01) 1. Wprowadzenie Często na podstawie wiedzy, że jakiś przedmiot posiada określoną cechę A możemy wnioskować, że z całą pewnością posiada on też pewną inną

Bardziej szczegółowo

Sieci neuronowe w Statistica

Sieci neuronowe w Statistica http://usnet.us.edu.pl/uslugi-sieciowe/oprogramowanie-w-usk-usnet/oprogramowaniestatystyczne/ Sieci neuronowe w Statistica Agnieszka Nowak - Brzezińska Podstawowym elementem składowym sztucznej sieci neuronowej

Bardziej szczegółowo

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie. SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:

Bardziej szczegółowo

PRZYKŁADY BUDOWY MODELI REGRESYJNYCH I KLASYFIKACYJNYCH. Wprowadzenie do problematyki modelowania statystycznego

PRZYKŁADY BUDOWY MODELI REGRESYJNYCH I KLASYFIKACYJNYCH. Wprowadzenie do problematyki modelowania statystycznego PRZYKŁADY BUDOWY MODELI REGRESYJNYCH I KLASYFIKACYJNYCH Janusz Wątroba, StatSoft Polska Sp. z o.o. Tematyka artykułu obejmuje wprowadzenie do problematyki modelowania statystycznego i jego roli w badaniu

Bardziej szczegółowo

Agnieszka Nowak Brzezińska

Agnieszka Nowak Brzezińska Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia

Bardziej szczegółowo

Regresyjne metody łączenia klasyfikatorów

Regresyjne metody łączenia klasyfikatorów Regresyjne metody łączenia klasyfikatorów Tomasz Górecki, Mirosław Krzyśko Wydział Matematyki i Informatyki Uniwersytet im. Adama Mickiewicza XXXV Konferencja Statystyka Matematyczna Wisła 7-11.12.2009

Bardziej szczegółowo