Zmienne zastępcze i konkurencyjne w interpretacji drzew klasyfikacyjnych CART
|
|
- Stanisław Barański
- 8 lat temu
- Przeglądów:
Transkrypt
1 Zeszyty Naukowe nr 800 Uniwersytet Ekonomiczny w Krakowie 2009 Katedra Analizy Rynku i Badań Marketingowych Zmienne zastępcze i konkurencyjne w interpretacji drzew klasyfikacyjnych CART 1. Wprowadzenie w procedurę algorytmu CART Drzewa klasyfikacyjne CART 1 to narzędzie analityczne data mining, które jest uznawane za najbardziej zaawansowaną metodę podziału rekurencyjnego. Mimo że metoda ta powstała na początku lat 80. ubiegłego wieku, doczekała się tylko nieznacznych modyfikacji. Próbowano wprawdzie stworzyć bayesowski CART 2, dokonywano jego modyfikacji w NASA (pakiet IND) 3, usiłowano także udoskonalić podział drzew (FACT) 4 poprzez połączenie właściwości CART i liniowej analizy dyskryminacyjnej, podejmowano próby zastąpienia wielokrotnej walidacji krzyżowej metodą Monte Carlo 5, jednak rdzeń metody z jego nowatorskimi rozwiązaniami do dziś pozostał niezmieniony. Celem artykułu jest wskazanie roli zmiennych zastępczych i konkurencyjnych w budowie i interpretacji drzew klasyfikacyjnych CART interpretacji wykraczającej poza standardowy zestaw zdań warunkowych typu jeśli, to, a także rankingu ważności predyktorów oraz macierzy błędnych klasyfikacji. 1 Pierwsza praca poświęcona algorytmowi CART to pozycja: L. Breiman i in., Classification and Regression Trees, Chapman and Hall, H.A. Chapman, E.I. George, R.E. McCulloch, Bayesian CART Model Search, Journal of the American Statistical Association 1998, September, vol. 93, nr 443, s W. Buntine, Tree Classification Software, Technology 2002, Baltimore, December W.-Y. Loh, N. Vanichsetakul, Tree-structured Classification via Generalized Discriminant Analysis, Journal of the American Statistical Association 1988, September, vol. 83, nr 403, s S.L. Crawford, Extension to the CART Algorithm, International Journal Man-Machine Studies 1989, vol. 31, s
2 100 W algorytmie CART występują dwie reguły podziału: indeks Giniego oraz metoda podziału na 2 części (twoing criterion). Pierwszą z nich można wyrazić wzorem 6 : 2 IG = 1 p ( j t), (1) gdzie: IG indeks Giniego, t liczebność węzła drzewa, j liczba klas (wariantów zmiennej zależnej) w węźle, p(j t) prawdopodobieństwo pojawienia się przypadków z danej klasy w tym węźle. Łatwiej zrozumieć zasadę działania indeksu Giniego, kiedy spojrzy się na dane zamieszczone w tabeli 1. Wskaźnik ten przyjmuje wartość 0, jeśli w węźle znajdują się przypadki należące wyłącznie do jednej klasy (jednego wariantu zmiennej zależnej), i wartość największą, gdy wszystkie klasy występują w tym węźle równolicznie. Dla dwóch klas maksimum wynosi 0,5; dla trzech klas jest to wartość 0,66(7), a dla czterech klas wartość 0,75 itd. Zatem im mniejsza jest wartość indeksu Giniego, tym lepszy podział danego węzła. Tabela 1. Wskaźnik Giniego dla 3-wariantowej zmiennej zależnej dane przykładowe P(A) P(B) P(C) Indeks Giniego , , , , , ,0001 0,0001 0,9998 0, ,001 0,001 0,998 0, ,01 0,01 0,98 0,0394 0,1 0,1 0,8 0,34 0,1 0,2 0,7 0,46 0,1 0,3 0,6 0,54 0,1 0,4 0,5 0,58 0,2 0,2 0,6 0,56 0,2 0,3 0,5 0,62 0,2 0,4 0,4 0,64 0,3 0,3 0,4 0,66 0, , , ,66667 Źródło: opracowanie własne. j 6 L. Breiman i in., op. cit., s. 103.
3 Zmienne zastępcze i konkurencyjne Aby zaprezentować, w jaki sposób indeks Giniego znajduje zastosowanie w podziale drzewa klasyfikacyjnego, dobrze jest posłużyć się przykładem (tabela 2). Tabela 2. Przykładowe dane do obliczeń Wiek Miejsce zamieszkania Wykształcenie Marka lat miasto <= 100 tys. mieszkańców średnie BMW lat miasto <= 100 tys. mieszkańców średnie Mercedes lat miasto > 100 tys. mieszkańców wyższe Jaguar lat miasto > 100 tys. mieszkańców wyższe Jaguar lat wieś wyższe BMW lat wieś wyższe Mercedes lat wieś wyższe Mercedes 51 lub więcej miasto <= 100 tys. mieszkańców średnie Mercedes 51 lub więcej miasto <= 100 tys. mieszkańców średnie Mercedes 51 lub więcej miasto <= 100 tys. mieszkańców wyższe Mercedes 51 lub więcej miasto > 100 tys. mieszkańców wyższe BMW 51 lub więcej miasto > 100 tys. mieszkańców wyższe BMW 51 lub więcej wieś średnie BMW 51 lub więcej wieś średnie Mercedes 51 lub więcej wieś wyższe Mercedes do 30 lat miasto <= 100 tys. mieszkańców wyższe Jaguar do 30 lat miasto <= 100 tys. mieszkańców wyższe Jaguar do 30 lat miasto <= 100 tys. mieszkańców wyższe Jaguar do 30 lat miasto > 100 tys. mieszkańców wyższe Mercedes do 30 lat wieś średnie Jaguar Źródło: opracowanie własne. Jeśli zadanie polegałoby na predykcji preferencji w oparciu o dany zestaw zmiennych niezależnych, to pierwszym krokiem będzie oszacowanie indeksu Giniego dla całego zbioru obserwacji. Znając prawdopodobieństwa występowania poszczególnych klas (tu: marek samochodów): P(BMW) = 0,25, P(Jaguar) = 0,30 i P(Mercedes) = 0,45, łatwo obliczyć, że wskaźnik Giniego wynosi 0,645. Kolejnym krokiem jest podział całego zbioru obserwacji w oparciu o jeden z trzech predyktorów. Aby wybrać najlepszy z nich, trzeba przeanalizować trzy potencjalne fragmenty drzewa (rys. 1, 2 i 3). Dla każdej zmiennej niezależnej należy obliczyć wskaźnik Giniego oraz tzw. wskaźnik poprawy (improvement). Indeksy Giniego dla poszczególnych wariantów zmiennych niezależnych są następujące:
4 102 wiek do 50 lat i(do 50) = 0,612, wiek 51+ i(51+) = 0,466, miejsce zamieszkania wieś i(wieś) = 0,571, miejsce zamieszkania miasto i(miasto) = 0,654, wykształcenie średnie i(średnie) = 0,571, wykształcenie wyższe i(wyższe) = 0, przypadków P(BMW) = 0,25 P(Jaguar) = 0,35 P(Mercedes) = 0,40 WIEK do 50 lat P(BMW) = 0,17 P(Jaguar) = 0,50 P(Mercedes) = 0, lat P(BMW) = 0,37 P(Jaguar) = 0,00 P(Mercedes) = 0,63 12 przypadków 8 przypadków Rys. 1. Podział w oparciu o zmienną niezależną wiek Źródło: opracowanie własne. 20 przypadków P(BMW) = 0,25 P(Jaguar) = 0,35 P(Mercedes) = 0,40 MIEJSCE ZAMIESZKANIA wieś P(BMW) = 0,29 P(Jaguar) = 0,14 P(Mercedes) = 0,57 miasto P(BMW) = 0,24 P(Jaguar) = 0,38 P(Mercedes) = 0,38 7 przypadków 13 przypadków Rys. 2. Podział w oparciu o zmienną niezależną miejsce zamieszkania Źródło: opracowanie własne. Prawdopodobieństwo trafienia przypadku do poszczególnych węzłów drzewa jest równe odpowiednio: P(wiek do 50 lat) = 0,6; P(wiek 51+) = 0,4; P(miejsce zamieszkania wieś) = 0,35; P(miejsce zamieszkania miasto) = 0,65; P(wykształcenie średnie) = 0,35; P(wykształcenie wyższe) = 0,65.
5 Zmienne zastępcze i konkurencyjne przypadków P(BMW) = 0,25 P(Jaguar) = 0,35 P(Mercedes) = 0,40 średnie WYKSZTAŁCENIE wyższe P(BMW) = 0,29 P(Jaguar) = 0,14 P(Mercedes) = 0,57 P(BMW) = 0,24 P(Jaguar) = 0,38 P(Mercedes) = 0,38 7 przypadków 13 przypadków Rys. 3. Podział w oparciu o zmienną niezależną wykształcenie Źródło: opracowanie własne. Pozwala to obliczyć ważone średnie indeksy Giniego dla każdej zmiennej: wiek: i(wiek) = P(do 50) i(do 50) + P(51+) i(51+) = 0,5536, miejsce zamieszkania: i(miejsce_zam) = P(wieś) i(wieś) + P(miasto) i(miasto) = 0,6249, wykształcenie: i(wykształcenie) = P(średnie) i(średnie) + P(wyższe) i(wyższe) = 0,6249, co z kolei umożliwia oszacowanie wskaźnika poprawy (improvement): wiek = 0,0914, miejsce zamieszkania = 0,0201, wykształcenie = 0,0201. Im wyższa jest wartość wskaźnika poprawy, tym lepszy podział zapewniony przez daną zmienną niezależną. W powyższym przykładzie najlepszym predyktorem okazała się zmienna wiek, choć należy tu podkreślić, że są to tylko szacunki poglądowe (brakuje np. podziału wiek do 30 wiek 31+ albo wieś i miasto <=100 miasto >100 ). Alternatywnym sposobem oceny jakości wydzielonych węzłów jest reguła podziału na dwie części (twoing criterion), którą wyraża się wzorem 7 : 2 plpr TC = p( j tl) p( jtr), (2) 4 j gdzie: TC reguła podziału na dwie części, p L prawdopodobieństwo trafienia przypadków do lewego węzła, p R prawdopodobieństwo trafienia przypadków do prawego węzła, 7 L. Breiman i in., op. cit., s. 108.
6 104 j liczba przypadków z danej klasy (z danego wariantu zmiennej zależnej) w węźle, t L liczba wszystkich przypadków w lewym węźle, t R liczba wszystkich przypadków w prawym węźle. Cechą charakterystyczną reguły podziału na dwie części jest dychotomizowanie zmiennych wielowariantowych (dlatego w indeksach dolnych znajdują się litery L i R oznaczające węzeł lewy i węzeł prawy drzewa). Im wyższa wartość TC, tym lepszy jest podział drzewa, co znaczy, że miara ta preferuje podzbiory równoliczne iloczyn p L p R przyjmuje maksimum (0,25) dla prawdopodobieństw 0,5 i 0,5. Posługując się danymi z tabeli 2 oraz przykładowymi podziałami drzewa (rys. 1, 2 i 3), można oszacować wartości TC dla poszczególnych zmiennych niezależnych: TC wiek = 0,0600; TC miejsce_zamieszkania = 0,0133; TC wykształcenie = 0,0133. Również w tym przypadku najlepszym predyktorem okazała się zmienna wiek. Dla binarnej zmiennej zależnej obie miary (IG i TC) dają identyczne rozwiązanie. Inaczej rzecz ma się w przypadku zmiennych wielowariantowych, w wypadku których indeks Giniego preferuje wydzielanie węzłów znacznie różniących się liczebnością (jeden mniej liczny, ale bardziej homogeniczny, a drugi bardziej liczny, ale równocześnie bardziej heterogeniczny), a reguła podziału na dwie części preferuje równoliczne węzły potomne. Ogólnie rzecz ujmując, autorzy algorytmu zalecają stosowanie wskaźnika Giniego, który ich zdaniem częściej zapewnia wyższą jakość modelu. 2. Zmienne zastępcze i zmienne konkurencyjne Interesującą i przydatną innowacją metody CART jest występowanie zmiennych konkurencyjnych (competitors) i zmiennych zastępczych (surrogates). Na każdym etapie podziału drzewa zestawiany jest ranking zmiennych niezależnych, które zapewniają najlepszy podział danego węzła. Pozycja w tym rankingu zależy od trafności predykcji zmiennej zależnej w wydzielanych węzłach potomnych. Najlepszy z predyktorów wykorzystywany jest do budowy modelu, a pozostałe pełnią funkcję bądź to zmiennych konkurencyjnych, bądź zmiennych zastępczych (lub obie te role jednocześnie). Kolejność w tych lokalnych rankingach zależy od wartości omówionego wcześniej wskaźnika poprawy (improvement). Zmienna niezależna, dla której wartość ta jest najwyższa, zostaje uznana za najlepszy predyktor pierwotny, który dzieli dany węzeł. Kolejność pozostałych predyktorów jest determinowana posortowanymi malejąco wartościami wskaźnika poprawy. Różnica między zmiennymi konkurencyjnymi a zmiennymi zastępczymi sprowadza się do tego, że te pierwsze zapewniają zbliżoną redukcję heterogeniczności węzła, te drugie zaś oprócz redukcji nieczystości węzła naśladują najlep-
7 Zmienne zastępcze i konkurencyjne szy predyktor, rozdzielając konkretne przypadki ze zbioru obserwacji w sposób jak najbardziej zbliżony do podziału pierwotnego (case-by-case). Zmienna zastępcza to zazwyczaj predyktor, który w danym miejscu drzewa zajmuje drugą pozycję i jednocześnie dzieli dany węzeł w sposób zbliżony do tego, jaki daje zmienna niezależna z pierwszej pozycji. O jakości predyktorów decyduje współczynnik asocjacji (association), którego maksymalna wartość może być równa 1 (najmniejsze mogą być ujemne), co oznacza, że zmienna zastępcza zapewnia równie skuteczny podział co zmienna pierwotna (z pierwszej pozycji). Należy przy tym podkreślić, że niska wartość tej miary nie oznacza słabej zastępowalności. Mogłoby się bowiem zdarzyć, że współczynnik o wysokości 0,25 daje podział zastępczy w 96% zgodny z podziałem pierwotnym. Wprowadzenie zmiennych zastępczych niesie ze sobą następujące korzyści: ułatwia analizę danych z brakującymi obserwacjami, pozwala zestawić ranking ważności predyktorów, umożliwia lepsze zrozumienie badanego zjawiska. Jeśli przypadki posiadają braki danych w zmiennych niezależnych, a zmienne te są najlepszymi na danym etapie podziału predyktorami, to algorytm zastępuje je wartościami zmiennych zastępczych. Jest to podejście, które nie występuje w żadnym innym algorytmie drzew klasyfikacyjnych, choć należy dodać, że bywają podziały, w których nie ma możliwości wyselekcjonowania sensownych zmiennych zastępczych. Ranking zmiennych zastępczych pozwala również sporządzić ostateczny ranking ważności predyktorów, czyli oszacować, w jakim stopniu zmienne niezależne wpływają na zmienną zależną. Ogólną ideę przedstawiono na schemacie (rys. 4). Co znamienne, predyktor, który wcale nie uczestniczył w podziale drzewa, może mieć wysoką pozycję w ostatecznym rankingu. Wynika to z faktu, że za każdym razem jego współczynnik asocjacji przyjmował wysokie wartości (był najlepszą zmienną zastępczą). Zmienne zastępcze pozwalają również na lepsze poznanie badanej dziedziny. Badacz może przyjrzeć się dokładnie strukturze drzewa i sprawdzić, jakie inne zmienne mogły być potencjalnymi predyktorami na poszczególnych etapach podziału. Niektóre programy (np. STATISTICA Data Miner, CART wersja 6.0) pozwalają na ingerencję analityka w strukturę modelu. Możliwe jest usuwanie (dodawanie) dowolnych gałęzi i wprowadzanie własnych podziałów. Jednym z celów algorytmu CART jest dostarczenie względnie prostego modelu z niewielką liczbą węzłów końcowych i o niezbyt dużej głębokości. Powoduje to, że w strukturze drzewa pojawiają się tylko te zmienne niezależne, które uznane są za najlepsze predyktory na danym etapie podziału drzewa. Może się jednakże zdarzyć, że część zmiennych objaśniających ma wysoką (chociaż nie najwyższą) wartość wskaźnika poprawy i mimo dużej przydatności w redukcji nieczystości
8 106 węzłów nigdy ich nie dzieli, a tym samym nie trafia do żadnego zdania warunkowego opisującego model. Jest to tzw. problem maskowania zmiennych (masking problem), w wypadku którego podziały pierwotne przesłaniają inne czasami tylko nieznacznie gorsze alternatywne podziały drzewa. Problem ten może być zidentyfikowany i rozwiązany na dwa sposoby: poprzez interpretację rankingu ważności predyktorów oraz przez wykorzystanie zmiennych konkurencyjnych w tworzeniu alternatywnych reguł. Rys. 4. Rankingi zmiennych zastępczych a ostateczny ranking ważności predyktorów Źródło: opracowanie własne. Ranking ważności predyktorów powstaje, co przedstawiono na schemacie (rys. 4), względnie prosto. Na każdym etapie podziału drzewa tworzy się rankingi zmiennych zastępczych i oblicza dla każdej z nich wartość wskaźnika poprawy. Po zbudowaniu modelu drzewa sumuje się te wartości dla wszystkich zmiennych niezależnych ze wszystkich etapów podziału i to jest podstawą do stworzenia ostatecznego rankingu. Jeśli część zmiennych z pierwszych pozycji tego rankingu nie występuje w podziale drzewa, wówczas mamy do czynienia z problemem maskowania. Co istotne, interpretując rankingi ważności, trzeba mieć na uwadze, że odnoszą się one wyłącznie do konkretnego modelu drzewa, a najmniejsza zmiana polegająca przykładowo na usunięciu jednej zmiennej objaśniającej może spowodować znaczące zmiany w kolejności tego rankingu. Drugi sposób radzenia sobie z problemem maskowania zmiennych polega na wykorzystaniu w interpretacji modelu najlepszych zmiennych konkurencyjnych znajdujących się blisko wierzchołka drzewa. Predyktory te mogą być wykorzystane przy formułowaniu alternatywnego zestawu reguł, co przedstawiono na rys. 5. Jak łatwo zauważyć, najlepszą zmienną konkurencyjną znajdującą się w węźle blisko wierzchołka drzewa (tutaj B) wstawiono w miejsce predyktora
9 Zmienne zastępcze i konkurencyjne Klasyczna reguła wykorzystująca podziały pierwotne A BC Jeżeli A i C i A, to rezultat A A BC ABC Alternatywna reguła wykorzystująca zmienną konkurencyjną z wierzchołka drzewa Jeżeli B i C i A, to rezultat Rys. 5. Tworzenie alternatywnych reguł z wykorzystaniem zmiennych konkurencyjnych Źródło: opracowanie własne. pierwotnego (tutaj A), co wzbogaciło opis modelu o dodatkowe zdanie warunkowe typu jeżeli, to. 3. Przykład pogłębionej interpretacji drzewa klasyfikacyjnego Przykład pogłębionej interpretacji drzewa klasyfikacyjnych opiera się na zbiorze danych zebranych w trakcie badań ankietowych realizowanych w czerwcu i lipcu 2005 r. Celem tych badań była próba modelowania preferencji konsumentów na rynku samochodów osobowych 8. Rozważania zawężono do tzw. deklarowanych preferencji (stated preferences), które w odróżnieniu od preferencji ujawnionych (revealed preferences) nie są rzeczywistymi aktami zakupu, a jedynie wyrażeniem gotowości do nabycia danej kategorii lub marki produktu przez respondentów. Budując model drzewa klasyfikacyjnego, wykorzystano zaawansowane opcje, tj. przycinanie oraz szacowanie błędu klasyfikacji za pomocą 10-krotnej walidacji krzyżowej. Ogólną jakość rozwiązania wyrażoną odsetkiem poprawnych klasyfikacji przedstawiono w macierzy błędnych klasyfikacji (tabela 3). Jak łatwo zauważyć, trafność predykcji całego modelu wynosi 69,05%, podczas gdy traf- 8 Opisane w dalszej części pracy wyniki badań dotyczą nowych i używanych samochodów osobowych, których cena wynosi w przybliżeniu 40 tys. zł. Używane w pracy zwroty rynek samochodów osobowych czy rynek motoryzacyjny powinny być tu traktowane jako synonimy.
10 108 ność predykcji klasy samochód nowy wynosi blisko 75%, a trafność predykcji dla klasy samochód używany 65% 9. Tabela 3. Macierz błędnych klasyfikacji dla modelu z przycinaniem po 10-krotnej walidacji krzyżowej Ogólna poprawność klasyfikacji 69,05% Klasa obserwowana Liczba przypadków Procent poprawnych klasyfikacji Klasa przewidywana auto nowe Klasa przewidywana auto używane Auto nowe 90 74, Auto używane , Źródło: opracowanie własne z wykorzystaniem programu CART. Struktura drzewa nie jest rozbudowana (rys. 6), na co wpływ miało przycinanie modelu, czyli w dużym uogólnieniu redukcja liczby liści połączona z nieznacznym pogorszeniem się jakości rozwiązania. Na rysunku zamieszczono szczegóły dotyczące liczebności węzłów oraz nazwy predyktorów uczestniczących w podziale drzewa. Node 1 P2COPIER N = 210 Terminal Node 1 N = 73 Node 2 P19FAZA N = 137 Terminal Node 2 N = 36 Terminal Node 3 N = 101 Rys. 6. Struktura drzewa model z przycinaniem po 10-krotnej walidacji krzyżowej Źródło: opracowanie własne z wykorzystaniem programu CART. Drzewo ma tylko trzy liście, więc cały model można opisać za pomocą trzech zdań warunkowych (tabela 4). Poprawność klasyfikacji poszczególnych reguł zamieszczono w kolumnie odsetek badanych. 9 Zmienna zależna miała dwa warianty: 1) respondent preferuje samochód nowy oraz 2) respondent preferuje samochód używany.
11 Zmienne zastępcze i konkurencyjne Tabela 4. Zestaw zdań warunkowych opisujących model z przycinaniem po 10-krotnej walidacji krzyżowej (reguły dotyczą obu klas) Nr węzła Poprzednik nr 1 Jeżeli cechy brane pod uwagę przy zakupie auta = kraj pochodzenia marki albo pojemność silnika albo liczba drzwi Jeżeli cechy brane pod uwagę przy zakupie auta = typ silnika albo marka Jeżeli cechy brane pod uwagę przy zakupie auta = typ silnika albo marka Poprzednik nr 2 faza cyklu życia rodziny = 4 albo 5 albo 6 faza cyklu życia rodziny = 1 albo 2 albo 3 Odsetek badanych 63% przypadków spełniających tę regułę preferuje NOWY samochód 58% przypadków spełniających tę regułę preferuje NOWY samochód 77% przypadków spełniających tę regułę preferuje UŻYWANY samochód Źródło: opracowanie własne. Ranking ważności predyktorów dla tego modelu przedstawiono w tabeli 5. Ponieważ dokonano tylko dwóch podziałów, zdecydowana większość zmiennych niezależnych nie mogła być brana pod uwagę w podziale ani jako najlepszy predyktor, ani jako jedna ze zmiennych zastępczych. Tabela 5. Ranking ważności predyktorów model z przycinaniem po 10-krotnej walidacji krzyżowej Zmienna Liczba punktów Cecha auta brana pod uwagę przy zakupie jako pierwsza 100,00 Faza cyklu życia rodziny badanego 67,62 Korzyści nacisk na zabezpieczenia samochodu przed kradzieżą 19,13 Wartość bycie poważanym 18,81 Wartość poczucie spełnienia 16,11 Status zatrudnienia badanego 1,20 Źródło: opracowanie własne z wykorzystaniem programu CART. Największy wpływ na preferencje respondentów miały dwie zmienne: cecha auta brana pod uwagę przy zakupie jako pierwsza oraz faza cyklu życia rodziny badanego. Obie te zmienne z początku rankingu uczestniczą w podziale drzewa (są predyktorami pierwotnymi), a zatem w tym konkretnym przypadku nie występuje problem maskowania zmiennych.
12 110 Jeśli badacz uzna, że model jest zbytnim uproszczeniem rzeczywistości, może zdecydować się na ręczne zwiększenie liczby liści, a tym samym liczby reguł. W tym celu najłatwiej posłużyć się tabelą, w której zestawiono błąd klasyfikacji dla sekwencji drzew (tabela 6). Drzewo oznaczone dwiema gwiazdkami zostało wybrane w sposób automatyczny z uwzględnieniem reguły jednego błędu standardowego. Badacz ma jednak możliwość wyboru innego modelu (np. modelu nr 10), godząc się przy tym na wzrost błędu klasyfikacji (z 63% do 71%) i na wzrost liczby reguł (z 3 do 7). Błąd jest stosunkowo wysoki, jednak należy pamiętać, że dotyczy całego zbioru obserwacji. Może się także zdarzyć, że szczegółowa analiza zawartości węzłów i trafności predykcji poszczególnych klas sprawią, iż drzewo o niższej ogólnej jakości będzie mieć większą wartość poznawczą. Tabela 6. Sekwencja drzew model z przycinaniem po 10-krotnej walidacji krzyżowej Numer modelu Liczba liści Błąd po 10-krotnej walidacji krzyżowej Koszt resubstytucji Parametr złożoności ,747 +/ 0,067 0,242 0, ,772 +/ 0,068 0,300 0, ,772 +/ 0,068 0,336 0, ,761 +/ 0,068 0,361 0, ,728 +/ 0,067 0,389 0, ,719 +/ 0,066 0,406 0, ,711 +/ 0,066 0,511 0, ,750 +/ 0,067 0,578 0,011 12** 3 0,633 +/ 0,065 0,606 0, ,750 +/ 0,066 0,714 0, ,000 +/ 0,610352E-04 1,000 0,143 Źródło: opracowanie własne z wykorzystaniem programu CART. Reasumując, o preferencjach respondentów decydują przede wszystkim: cecha auta brana pod uwagę przy zakupie jako pierwsza, faza cyklu życia rodziny badanego 10, oraz w mniejszym stopniu: korzyści nacisk na zabezpieczenia samochodu przed kradzieżą, wartość ze skali LOV bycie poważanym, 10 Zmienna faza cyklu życia rodziny przyjęła następujące warianty: 1) młode osoby stanu wolnego (kawalerowie, panny do 49. roku życia), 2) młode małżeństwa bez dzieci, 3) małżeństwa z dziećmi na utrzymaniu (wiek dzieci nie przekracza 18 lat), 4) małżeństwa z dorosłymi dziećmi na utrzymaniu (wiek dzieci to 18 lat i więcej), 5) małżeństwa bez dzieci na utrzymaniu tzw. puste gniazda, 6) starsze osoby stanu wolnego (od 50. roku życia wzwyż).
13 Zmienne zastępcze i konkurencyjne wartość ze skali LOV poczucie spełnienia, status zatrudnienia badanego. Upraszczając interpretację, można stwierdzić, że autami nowymi są zainteresowane osoby znajdujące się w fazie czwartej, piątej albo szóstej cyklu życia rodziny, które zwracają uwagę na typ silnika (benzynowy-diesel) i markę samochodu. Faza czwarta cyklu życia rodziny to małżeństwa z dorosłymi dziećmi na utrzymaniu, faza piąta to puste gniazda, faza szósta zaś to starsze osoby stanu wolnego. Wynika stąd, że respondenci, którzy wybrali nowy samochód, są osobami w średnim i starszym wieku, które samochodu potrzebują na własny użytek (można tu przyjąć, że dorosłe dzieci będące na utrzymaniu podróżują samodzielnie). Drugą grupę badanych preferujących nowe samochody stanowią osoby żonate (zamężne), które przy zakupie samochodu biorą w pierwszej kolejności pod uwagę: kraj pochodzenia marki, pojemność silnika albo liczbę drzwi. Na rys. 7 przedstawiono rozkłady obu klas (osób preferujących auta nowe i osób preferujących auta używane) w węźle macierzystym i węzłach potomnych. Jak widać, podziału dokonano w oparciu o zmienną P2COPIER (cecha auta brana pod uwagę przy zakupie jako pierwsza), przy czym do lewego potomka trafiły kategorie 1, 2 i 5 (kraj pochodzenia marki, pojemność silnika i liczba drzwi), do prawego zaś kategorie 3 i 4 (typ silnika i marka). Rys. 7. Przykład rozkładów procentowych klas w węźle macierzystym i węzłach potomnych Źródło: opracowanie własne z wykorzystaniem programu CART. Rysunek 8 przedstawia ranking zmiennych konkurencyjnych (po lewej stronie) oraz ranking zmiennych zastępczych (po prawej stronie) dla tego samego
14 112 węzła macierzystego. Zmienna konkurencyjna, dla której wskaźnik poprawy jest nieznacznie niższy od wartości 0,0517 (tyle wynosi wskaźnik poprawy dla predyktora P2COPIER), to faza cyklu życia rodziny. Trzy kategorie tej zmiennej trafiłyby do węzła lewego (aut nowych), a zatem można mówić, że dotyczy to osób z czwartej, piątej albo szóstej fazy. Druga zmienna konkurencyjna to P8OTPLUS (korzyści nacisk na wysokie osiągi techniczne), dla której wskaźnik poprawy wynosi 0,0256. Do węzła lewego (osób preferujących nowe samochody) trafiliby wówczas respondenci, którzy nie przywiązują wagi do wysokich osiągów technicznych samochodu (P8OTPLUS = 2). Jeśli chodzi o zmienne zastępcze, mają one za zadanie głównie zastępować braki danych. Gdyby w dowolnym przypadku zaobserwowano brak danych w zmiennej P2COPIER, to CART zastąpi tę brakującą wartość wariantem zmiennej P10ZPLUS (korzyści nacisk na zabezpieczenia samochodu przed kradzieżą). Rys. 8. Ranking zmiennych konkurencyjnych (competitors) i zmiennych zastępczych (surrogates) Źródło: opracowanie własne z wykorzystaniem programu CART. Reasumując, szczegółowa analiza zmiennych konkurencyjnych pozwala uzupełnić merytoryczną interpretację modelu. Jest to bardzo cenna i ważna zaleta algorytmu CART. O nabywcach nowych samochodów można dodatkowo powiedzieć, że są to osoby, które nie przywiązują wagi do wysokich osiągów technicznych samochodu i które nie kierują się wartościami: życie pełne wrażeń oraz przyjemność i radość z życia. Czynnikami psychologicznymi charakteryzującymi respondentów z tego segmentu są natomiast wartości: poczucie spełnienia i bycie poważanym.
15 Zmienne zastępcze i konkurencyjne Podsumowanie Klasyczna interpretacja drzew klasyfikacyjnych opiera się najczęściej na zestawie zdań warunkowych opisujących model, na rankingu ważności predyktorów oraz macierzy błędnych klasyfikacji, w której podaje się odsetek poprawnie sklasyfikowanych przypadków. Algorytm CART jako jedyne narzędzie do budowy drzew klasyfikacyjnych umożliwia badaczowi wykorzystanie tzw. zmiennych konkurencyjnych i zmiennych zastępczych. Dzięki wglądowi w głąb struktury modelu możliwe jest wówczas eliminowanie problemu maskowania zmiennych. Część zmiennych (zastępcze) jest bowiem wykorzystywana do tworzenia globalnego rankingu ważności predyktorów, natomiast inna część zmiennych (konkurencyjne) jest używana przy tworzeniu alternatywnego zestawu reguł. Ta cecha metody CART nie zostanie zapewne doceniona przez analityków dokonujących obliczenia na potrzeby CRM, jednak z całą pewnością warto zwrócić na nią uwagę, stosując to narzędzie w analizie danych ankietowych. Literatura Breiman L. i in., Classification and Regression Trees, Chapman and Hall, New York Buntine W., Tree Classification Software, Technology 2002, Baltimore, December Chapman H.A., George E.I., McCulloch R.E., Bayesian CART Model Search, Journal of the American Statistical Association 1998, September, vol. 93, nr 443. Crawford S.L., Extension to the CART algorithm, International Journal Man-Machine Studies 1989, vol. 31. Gatnar E. Nieparametryczna metoda dyskryminacji i regresji, PWN, Warszawa Loh W.-Y., Vanichsetakul N., Tree-structured Classification Via Generalized Discriminant Analysis, Journal of the American Statistical Association 1988, September, vol. 83, nr 403. Łapczyński M., Understanding Consumers Stated Preferences using CART s Surrogate and Competitor Splits, niepublikowany recenzowany referat wygłoszony w trakcie The 31st Annual Conference of the German Classification Society on Data Analysis, Machine Learning, and Applications, Freiburg, 7 9 marca Steinberg D., Colla P., CART. Interface and Documentation, Salford Systems 1997,
16 114 Competitors and Surrogates in the Interpretation of Classification and Regression Trees The aim of this article is to indicate the role of surrogates and competitors in the creation and interpretation of classification and regression trees interpretation that goes beyond the standard set of conditional statements of the if, then... type, the significance ranking of predictors, and the confusion matrix. In the introduction, the author describes the classical methods for dividing classification and regression trees the Gini criterion and the twoing criterion. Next, he describes the differences between competitors and surrogates, with particular emphasis on the construction of a significance ranking of predictors, the masking problem, and the creation of alternative rules to describe the tree model. The article is supplemented with an example of how to construct a consumer preference model on the motor car market using CART software.
DRZEWA KLASYFIKACYJNE W BADANIACH SATYSFAKCJI
StatSoft Polska, tel. (1) 48400, (601) 414151, info@statsoft.pl, www.statsoft.pl DRZEWA KLASYFIKACYJNE W BADANIACH SATYSFAKCJI I LOJALNOŚCI KLIENTÓW Mariusz Łapczyński Akademia Ekonomiczna w Krakowie,
Bardziej szczegółowoProjektowanie, ocena i wykorzystanie danych rynkowych
Nr 51 Projektowanie, ocena i wykorzystanie danych rynkowych Redaktor naukowy Józef Dziechciarz Spis treści Wstęp.............................................................. 7 Sylwester Białowąs, Kolejność
Bardziej szczegółowoANALIZA DANYCH ANKIETOWYCH PRZEGLĄD WYBRANYCH TECHNIK NA PRZYKŁADZIE RYNKU MOTORYZACYJNEGO. Poznanie odpowiedzi na pytania wstępna analiza przekrojowa
ANALIZA DANYCH ANKIETOWYCH PRZEGLĄD WYBRANYCH TECHNIK NA PRZYKŁADZIE RYNKU MOTORYZACYJNEGO Mariusz Łapczyński, Uniwersytet Ekonomiczny w Krakowie, Katedra Analizy Rynku i Badań Marketingowych Poznanie
Bardziej szczegółowoPodejÊcie regresyjne w budowie drzew klasyfikacyjnych CART
Zeszyty Naukowe nr 680 Akademii Ekonomicznej w Krakowie 2005 Mariusz apczyƒski Katedra Analizy Rynku i Badaƒ Marketingowych PodejÊcie regresyjne w budowie drzew klasyfikacyjnych CART 1. Wprowadzenie Drzewa
Bardziej szczegółowoALGORYTM RANDOM FOREST
SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM
Bardziej szczegółowoMetoda Automatycznej Detekcji Interakcji CHAID
Metoda Automatycznej Detekcji Interakcji CHAID Metoda ta pozwala wybrać z konkretnego, dużego zbioru zmiennych te z nich, które najsilniej wpływają na wskazaną zmienną (objaśnianą) zmienne porządkowane
Bardziej szczegółowoDrzewa decyzyjne i lasy losowe
Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM
Bardziej szczegółowoSzkolenie Analiza dyskryminacyjna
Szkolenie Analiza dyskryminacyjna program i cennik Łukasz Deryło Analizy statystyczne, szkolenia www.statystyka.c0.pl Szkolenie Analiza dyskryminacyjna Co to jest analiza dyskryminacyjna? Inną nazwą analizy
Bardziej szczegółowoWprowadzenie do analizy korelacji i regresji
Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących
Bardziej szczegółowoKompresja danych Streszczenie Studia Dzienne Wykład 10,
1 Kwantyzacja wektorowa Kompresja danych Streszczenie Studia Dzienne Wykład 10, 28.04.2006 Kwantyzacja wektorowa: dane dzielone na bloki (wektory), każdy blok kwantyzowany jako jeden element danych. Ogólny
Bardziej szczegółowoData Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład
Data Mining Wykład 5 Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny Indeks Gini Popularnym kryterium podziału, stosowanym w wielu produktach komercyjnych, jest indeks Gini Algorytm SPRINT
Bardziej szczegółowoSAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006
SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu
Bardziej szczegółowoDrzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber
Drzewa decyzyjne Inteligentne Obliczenia Wydział Mechatroniki Politechniki Warszawskiej Anna Sztyber INO (IAiR PW) Drzewa decyzyjne Anna Sztyber / Drzewa decyzyjne w podstawowej wersji algorytm klasyfikacji
Bardziej szczegółowoWnioskowanie bayesowskie
Wnioskowanie bayesowskie W podejściu klasycznym wnioskowanie statystyczne oparte jest wyłącznie na podstawie pobranej próby losowej. Możemy np. estymować punktowo lub przedziałowo nieznane parametry rozkładów,
Bardziej szczegółowoANALIZA PORÓWNAWCZA JAKOŚCI MODELI PROGNOZOWANIA KONDYCJI EKONOMICZNO- FINANSOWEJ PRZEDSIĘBIORSTW WOJ. LUBELSKIEGO I PODKARPACKIEGO
115 ANALIZA PORÓWNAWCZA JAKOŚCI MODELI PROGNOZOWANIA KONDYCJI EKONOMICZNO- FINANSOWEJ PRZEDSIĘBIORSTW WOJ. LUBELSKIEGO I PODKARPACKIEGO Zbigniew Omiotek Wyższa Szkoła Zarządzania i Administracji w Zamościu
Bardziej szczegółowoKonkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji
Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Michał Witczak Data Mining 20 maja 2012 r. 1. Wstęp Dostarczone zostały nam 4 pliki, z których dwa stanowiły zbiory uczące
Bardziej szczegółowoMetody klasyfikacji danych - część 1 p.1/24
Metody klasyfikacji danych - część 1 Inteligentne Usługi Informacyjne Jerzy Dembski Metody klasyfikacji danych - część 1 p.1/24 Plan wykładu - Zadanie klasyfikacji danych - Przeglad problemów klasyfikacji
Bardziej szczegółowoPodstawy programowania 2. Temat: Drzewa binarne. Przygotował: mgr inż. Tomasz Michno
Instrukcja laboratoryjna 5 Podstawy programowania 2 Temat: Drzewa binarne Przygotował: mgr inż. Tomasz Michno 1 Wstęp teoretyczny Drzewa są jedną z częściej wykorzystywanych struktur danych. Reprezentują
Bardziej szczegółowo5. Wprowadzenie do prawdopodobieństwa Wprowadzenie Wyniki i zdarzenia Różne podejścia do prawdopodobieństwa Zdarzenia wzajemnie wykluczające się i
Spis treści Przedmowa do wydania polskiego - Tadeusz Tyszka Słowo wstępne - Lawrence D. Phillips Przedmowa 1. : rola i zastosowanie analizy decyzyjnej Decyzje złożone Rola analizy decyzyjnej Zastosowanie
Bardziej szczegółowoDrzewa BST i AVL. Drzewa poszukiwań binarnych (BST)
Drzewa ST i VL Drzewa poszukiwań binarnych (ST) Drzewo ST to dynamiczna struktura danych (w formie drzewa binarnego), która ma tą właściwość, że dla każdego elementu wszystkie elementy w jego prawym poddrzewie
Bardziej szczegółowoSYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska BUDOWA DRZEW DECYZYJNYCH Drzewa decyzyjne są metodą indukcyjnego
Bardziej szczegółowoRegresja logistyczna (LOGISTIC)
Zmienna zależna: Wybór opcji zachodniej w polityce zagranicznej (kodowana jako tak, 0 nie) Zmienne niezależne: wiedza o Unii Europejskiej (WIEDZA), zamieszkiwanie w regionie zachodnim (ZACH) lub wschodnim
Bardziej szczegółowoPROBLEM ROZMIESZCZENIA MASZYN LICZĄCYCH W DUŻYCH SYSTEMACH PRZEMYSŁOWYCH AUTOMATYCZNIE STEROWANYCH
CZESŁAW KULIK PROBLEM ROZMIESZCZENIA MASZYN LICZĄCYCH W DUŻYCH SYSTEMACH PRZEMYSŁOWYCH AUTOMATYCZNIE STEROWANYCH Duże systemy przemysłowe, jak kopalnie, kombinaty metalurgiczne, chemiczne itp., mają złożoną
Bardziej szczegółowoAlgorytmy i struktury danych. Co dziś? Tytułem przypomnienia metoda dziel i zwyciężaj. Wykład VIII Elementarne techniki algorytmiczne
Algorytmy i struktury danych Wykład VIII Elementarne techniki algorytmiczne Co dziś? Algorytmy zachłanne (greedyalgorithms) 2 Tytułem przypomnienia metoda dziel i zwyciężaj. Problem można podzielić na
Bardziej szczegółowoAnaliza składowych głównych. Wprowadzenie
Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących
Bardziej szczegółowoKlasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,
Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której
Bardziej szczegółowoPrzygotowanie danych
2 Przygotowanie danych 2 Przygotowanie danych Przed opracowaniem statystycznym należy uporządkować dane. Czynność ta ułatwia opracowywanie danych. Od czasu, kiedy pojawiły się komputery, procedury porządkowania
Bardziej szczegółowoPrzykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość
Dwie metody Klasyczna metoda histogramu jako narzędzie do postawienia hipotezy, jaki rozkład prawdopodobieństwa pasuje do danych Indukcja drzewa decyzyjnego jako metoda wykrycia klasyfikatora ukrytego
Bardziej szczegółowoNaszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.
ANALIZA SKUPIEŃ Metoda k-means I. Cel zadania Zadaniem jest analiza zbioru danych, gdzie zmiennymi są poziomy ekspresji genów. Podczas badań pobrano próbki DNA od 36 różnych pacjentów z chorobą nowotworową.
Bardziej szczegółowoAlgorytmy klasyfikacji
Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe
Bardziej szczegółowoP: Czy studiujący i niestudiujący preferują inne sklepy internetowe?
2 Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia czy pomiędzy zmiennymi istnieje związek/zależność. Stosujemy go w sytuacji, kiedy zmienna zależna mierzona jest na skali
Bardziej szczegółowoANALIZA CZYNNIKÓW ROKOWNICZYCH I METOD LECZENIA U CHORYCH NA ZIARNICĘ ZŁOŚLIWĄ
ANALIZA CZYNNIKÓW ROKOWNICZYCH I METOD LECZENIA U CHORYCH NA ZIARNICĘ ZŁOŚLIWĄ prof. dr hab. Andrzej Sokołowski, dr Adam Sagan Jednym z ważniejszych obszarów zastosowań programu STATISTICA w badaniach
Bardziej szczegółowoTemat zajęć: ANALIZA DANYCH ZBIORU EKSPORT. Część I: analiza regresji
Temat zajęć: ANALIZA DANYCH ZBIORU EKSPORT Część I: analiza regresji Krok 1. Pod adresem http://zsi.tech.us.edu.pl/~nowak/adb/eksport.txt znajdziesz zbiór danych do analizy. Zapisz plik na dysku w dowolnej
Bardziej szczegółowoKlasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)
Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania
Bardziej szczegółowoANALIZA ZDOLNOŚCI PROCESU O ZALEŻNYCH CHARAKTERYSTYKACH
Małgorzata Szerszunowicz Uniwersytet Ekonomiczny w Katowicach ANALIZA ZDOLNOŚCI PROCESU O ZALEŻNYCH CHARAKTERYSTYKACH Wprowadzenie Statystyczna kontrola jakości ma na celu doskonalenie procesu produkcyjnego
Bardziej szczegółowoINDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH
INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH 1. Czym jest eksploracja danych Eksploracja danych definiowana jest jako zbiór technik odkrywania nietrywialnych zależności i schematów w dużych
Bardziej szczegółowoStatystyka i Analiza Danych
Warsztaty Statystyka i Analiza Danych Gdańsk, 20-22 lutego 2014 Zastosowania wybranych technik regresyjnych do modelowania współzależności zjawisk Janusz Wątroba StatSoft Polska Centrum Zastosowań Matematyki
Bardziej szczegółowoAlgorytmy genetyczne
Algorytmy genetyczne Motto: Zamiast pracowicie poszukiwać najlepszego rozwiązania problemu informatycznego lepiej pozwolić, żeby komputer sam sobie to rozwiązanie wyhodował! Algorytmy genetyczne służą
Bardziej szczegółowoALGORYTMY SZTUCZNEJ INTELIGENCJI
ALGORYTMY SZTUCZNEJ INTELIGENCJI Sieci neuronowe 06.12.2014 Krzysztof Salamon 1 Wstęp Sprawozdanie to dotyczy ćwiczeń z zakresu sieci neuronowych realizowanym na przedmiocie: Algorytmy Sztucznej Inteligencji.
Bardziej szczegółowo8. Drzewa decyzyjne, bagging, boosting i lasy losowe
Algorytmy rozpoznawania obrazów 8. Drzewa decyzyjne, bagging, boosting i lasy losowe dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Drzewa decyzyjne Drzewa decyzyjne (ang. decision trees), zwane
Bardziej szczegółowoAlgorytmy decyzyjne będące alternatywą dla sieci neuronowych
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny
Bardziej szczegółowoStatystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.
Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru
Bardziej szczegółowoWprowadzenie. Data Science Uczenie się pod nadzorem
Wprowadzenie Wprowadzenie Wprowadzenie Wprowadzenie Machine Learning Mind Map Historia Wstęp lub uczenie się z przykładów jest procesem budowy, na bazie dostępnych danych wejściowych X i oraz wyjściowych
Bardziej szczegółowoCharakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)
Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej) 1 Podział ze względu na zakres danych użytych do wyznaczenia miary Miary opisujące
Bardziej szczegółowoTESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas
TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy. Hipotezy dzielimy na parametryczne i nieparametryczne.
Bardziej szczegółowoSzkolenie Regresja liniowa
Szkolenie Regresja liniowa program i cennik Łukasz Deryło Analizy statystyczne, szkolenia www.statystyka.c0.pl Szkolenie Regresja liniowa Co to jest regresja liniowa? Regresja liniowa jest podstawową metodą
Bardziej szczegółowoZałóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb
Współzależność Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb (x i, y i ). Geometrycznie taką parę
Bardziej szczegółowoDrzewa binarne. Drzewo binarne to dowolny obiekt powstały zgodnie z regułami: jest drzewem binarnym Jeśli T 0. jest drzewem binarnym Np.
Drzewa binarne Drzewo binarne to dowolny obiekt powstały zgodnie z regułami: jest drzewem binarnym Jeśli T 0 i T 1 są drzewami binarnymi to T 0 T 1 jest drzewem binarnym Np. ( ) ( ( )) Wielkość drzewa
Bardziej szczegółowoDrzewa klasyfikacyjne Lasy losowe. Wprowadzenie
Wprowadzenie Konstrukcja binarnych drzew klasyfikacyjnych polega na sekwencyjnym dzieleniu podzbiorów przestrzeni próby X na dwa rozłączne i dopełniające się podzbiory, rozpoczynając od całego zbioru X.
Bardziej szczegółowoInstytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów
Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa Diagnostyka i niezawodność robotów Laboratorium nr 6 Model matematyczny elementu naprawialnego Prowadzący: mgr inż. Marcel Luzar Cele ćwiczenia:
Bardziej szczegółowoProgramowanie celowe #1
Programowanie celowe #1 Problem programowania celowego (PC) jest przykładem problemu programowania matematycznego nieliniowego, który można skutecznie zlinearyzować, tzn. zapisać (i rozwiązać) jako problem
Bardziej szczegółowoR-PEARSONA Zależność liniowa
R-PEARSONA Zależność liniowa Interpretacja wyników: wraz ze wzrostem wartości jednej zmiennej (np. zarobków) liniowo rosną wartości drugiej zmiennej (np. kwoty przeznaczanej na wakacje) czyli np. im wyższe
Bardziej szczegółowoWybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora.
Wprowadzenie do programu RapidMiner Studio 7.6, część 7 Podstawy metod wyboru atrybutów w problemach klasyfikacyjnych, c.d. Michał Bereta www.michalbereta.pl Wybór / ocena atrybutów na podstawie oceny
Bardziej szczegółowoK wartość kapitału zaangażowanego w proces produkcji, w tys. jp.
Sprawdzian 2. Zadanie 1. Za pomocą KMNK oszacowano następującą funkcję produkcji: Gdzie: P wartość produkcji, w tys. jp (jednostek pieniężnych) K wartość kapitału zaangażowanego w proces produkcji, w tys.
Bardziej szczegółowoData Mining Wykład 4. Plan wykładu
Data Mining Wykład 4 Klasyfikacja danych Klasyfikacja poprzez indukcje drzew decyzyjnych Plan wykładu Sformułowanie problemu Kryteria oceny metod klasyfikacji Metody klasyfikacji Klasyfikacja poprzez indukcje
Bardziej szczegółowoĆwiczenie 12. Metody eksploracji danych
Ćwiczenie 12. Metody eksploracji danych Modelowanie regresji (Regression modeling) 1. Zadanie regresji Modelowanie regresji jest metodą szacowania wartości ciągłej zmiennej celu. Do najczęściej stosowanych
Bardziej szczegółowoTESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.
TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy. Hipotezy dzielimy na parametryczne i nieparametryczne. Zajmiemy
Bardziej szczegółowoRozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów
Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,
Bardziej szczegółowoStruktury danych: stos, kolejka, lista, drzewo
Struktury danych: stos, kolejka, lista, drzewo Wykład: dane w strukturze, funkcje i rodzaje struktur, LIFO, last in first out, kolejka FIFO, first in first out, push, pop, size, empty, głowa, ogon, implementacja
Bardziej szczegółowoSTATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;
STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych; - badanie skuteczności nowego leku; - badanie stopnia zanieczyszczenia gleb metalami
Bardziej szczegółowoAproksymacja funkcji a regresja symboliczna
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą
Bardziej szczegółowoWYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. Metoda CART. MiNI PW
WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. Metoda CART MiNI PW Drzewa służą do konstrukcji klasyfikatorów prognozujących Y {1, 2,..., g} na podstawie p-wymiarowego wektora atrybutów (dowolne atrybuty:
Bardziej szczegółowoIdentyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji
Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Jacek Szcześniak Jerzy Błaszczyński Roman Słowiński Poznań, 5.XI.2013r. Konspekt Wstęp Wprowadzenie Metody typu wrapper Nowe metody
Bardziej szczegółowoProjekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski
Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Zadanie 1 Eksploracja (EXAMINE) Informacja o analizowanych danych Obserwacje Uwzględnione Wykluczone Ogółem
Bardziej szczegółowoAdam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska
Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska Anna Stankiewicz Izabela Słomska Wstęp- statystyka w politologii Rzadkie stosowanie narzędzi statystycznych Pisma Karla Poppera
Bardziej szczegółowoAlgorytmy równoległe: ocena efektywności prostych algorytmów dla systemów wielokomputerowych
Algorytmy równoległe: ocena efektywności prostych algorytmów dla systemów wielokomputerowych Rafał Walkowiak Politechnika Poznańska Studia inżynierskie Informatyka 2014/15 Znajdowanie maksimum w zbiorze
Bardziej szczegółowoStanisław Cichocki. Natalia Neherebecka. Zajęcia 15-17
Stanisław Cichocki Natalia Neherebecka Zajęcia 15-17 1 1. Binarne zmienne zależne 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników 3. Probit a) Interpretacja współczynników b) Miary
Bardziej szczegółowoWysokość drzewa Głębokość węzła
Drzewa Drzewa Drzewo (ang. tree) zbiór węzłów powiązanych wskaźnikami, spójny i bez cykli. Drzewo posiada wyróżniony węzeł początkowy nazywany korzeniem (ang. root). Drzewo ukorzenione jest strukturą hierarchiczną.
Bardziej szczegółowoTYTUŁ PRACY LICENCJACKIEJ/MAGISTERSKIEJ
UNIWERSYTET EKONOMICZNY W KATOWICACH NAZWA WYDZIAŁU NAZWA KIERUNKU IMIĘ I NAZWISKO AUTORA TYTUŁ PRACY LICENCJACKIEJ/MAGISTERSKIEJ (W JĘZYKU POLSKIM) TYTUŁ PRACY LICENCJACKIEJ/MAGISTERSKIEJ (W JĘZYKU ANGIELSKIM)
Bardziej szczegółowoSzczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
Bardziej szczegółowoAnaliza regresji - weryfikacja założeń
Medycyna Praktyczna - portal dla lekarzy Analiza regresji - weryfikacja założeń mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof.
Bardziej szczegółowoKlasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2
Klasyfikacja Indeks Gini Zysk informacyjny Klasyfikacja wykład 2 Kontynuujemy prezentacje metod klasyfikacji. Na wykładzie zostaną przedstawione dwa podstawowe algorytmy klasyfikacji oparte o indukcję
Bardziej szczegółowoStanisław Cichocki. Natalia Nehrebecka
Stanisław Cichocki Natalia Nehrebecka 1 1. Binarne zmienne zależne 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników 3. Probit a) Interpretacja współczynników b) Miary dopasowania 4.
Bardziej szczegółowoNiestandardowa tabela częstości
raportowanie Niestandardowa tabela częstości Przemysław Budzewski Predictive Solutions Do czego dążymy W Generalnym Sondażu Społecznym USA w 1991 roku badaniu poddano respondentów należących do szeregu
Bardziej szczegółowoDrzewa czerwono-czarne.
Binboy at Sphere http://binboy.sphere.p l Drzewa czerwono-czarne. Autor: Jacek Zacharek Wstęp. Pojęcie drzewa czerwono-czarnego (red-black tree) zapoczątkował Rudolf Bayer w książce z 1972 r. pt. Symmetric
Bardziej szczegółowoSYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
Bardziej szczegółowoWykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA
Wykład 4: Wnioskowanie statystyczne Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA Idea wnioskowania statystycznego Celem analizy statystycznej nie jest zwykle tylko
Bardziej szczegółowoJak przekształcać zmienne jakościowe?
Data Preparation Jak przekształcać zmienne jakościowe? Marta Płonka Predictive Solutions W ostatnim artykule zobaczyliśmy, jak sprawdzić, czy między wybranymi przez nas predyktorami a zmienną przewidywaną
Bardziej szczegółowoZadania ze statystyki, cz.6
Zadania ze statystyki, cz.6 Zad.1 Proszę wskazać, jaką część pola pod krzywą normalną wyznaczają wartości Z rozkładu dystrybuanty rozkładu normalnego: - Z > 1,25 - Z > 2,23 - Z < -1,23 - Z > -1,16 - Z
Bardziej szczegółowoZASADY PROGRAMOWANIA KOMPUTERÓW ZAP zima 2014/2015. Drzewa BST c.d., równoważenie drzew, kopce.
POLITECHNIKA WARSZAWSKA Instytut Automatyki i Robotyki ZASADY PROGRAMOWANIA KOMPUTERÓW ZAP zima 204/205 Język programowania: Środowisko programistyczne: C/C++ Qt Wykład 2 : Drzewa BST c.d., równoważenie
Bardziej szczegółowoAutomatyczne wyodrębnianie reguł
Automatyczne wyodrębnianie reguł Jedną z form reprezentacji wiedzy jest jej zapis w postaci zestawu reguł. Ta forma ma szereg korzyści: daje się łatwo interpretować, można zrozumieć sposób działania zbudowanego
Bardziej szczegółowoAgnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Bardziej szczegółowoAgnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Bardziej szczegółowoŚrednie. Średnie. Kinga Kolczyńska - Przybycień
Czym jest średnia? W wielu zagadnieniach praktycznych, kiedy mamy do czynienia z jakimiś danymi, poszukujemy liczb, które w pewnym sensie charakteryzują te dane. Na przykład kiedy chcielibyśmy sklasyfikować,
Bardziej szczegółowoKorelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego
Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego Współczynnik korelacji opisuje siłę i kierunek związku. Jest miarą symetryczną. Im wyższa korelacja tym lepiej potrafimy
Bardziej szczegółowoIMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ
IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ Celem ćwiczenia jest zapoznanie się ze sposobem działania sieci neuronowych typu MLP (multi-layer perceptron) uczonych nadzorowaną (z nauczycielem,
Bardziej szczegółowoCo to są drzewa decyzji
Drzewa decyzji Co to są drzewa decyzji Drzewa decyzji to skierowane grafy acykliczne Pozwalają na zapis reguł w postaci strukturalnej Przyspieszają działanie systemów regułowych poprzez zawężanie przestrzeni
Bardziej szczegółowoElementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa
Spis treści Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis treści Spis treści 1 Wstęp Bardzo często interesujący
Bardziej szczegółowoSzczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
Bardziej szczegółowoTestowanie modeli predykcyjnych
Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności
Bardziej szczegółowoJak statystyka może pomóc w odczytaniu wyników sprawdzianu
16 Jak statystyka może pomóc w odczytaniu wyników sprawdzianu Wyniki pierwszego ważnego egzaminu sprawdzianu w klasie szóstej szkoły podstawowej mogą w niebagatelny sposób wpływać na losy pojedynczych
Bardziej szczegółowoJak korzystać z arkusza kalkulacyjnego?
Jak korzystać z arkusza kalkulacyjnego? Arkusz kalkulacyjny do ankiety Warunki Pracy opracowany jest w formie arkusza programu Microsoft Office Excel. Budowa arkusza pozwala na generowanie zestawień i
Bardziej szczegółowoZależność cech (wersja 1.01)
KRZYSZTOF SZYMANEK Zależność cech (wersja 1.01) 1. Wprowadzenie Często na podstawie wiedzy, że jakiś przedmiot posiada określoną cechę A możemy wnioskować, że z całą pewnością posiada on też pewną inną
Bardziej szczegółowoSieci neuronowe w Statistica
http://usnet.us.edu.pl/uslugi-sieciowe/oprogramowanie-w-usk-usnet/oprogramowaniestatystyczne/ Sieci neuronowe w Statistica Agnieszka Nowak - Brzezińska Podstawowym elementem składowym sztucznej sieci neuronowej
Bardziej szczegółowoSCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.
SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:
Bardziej szczegółowoPRZYKŁADY BUDOWY MODELI REGRESYJNYCH I KLASYFIKACYJNYCH. Wprowadzenie do problematyki modelowania statystycznego
PRZYKŁADY BUDOWY MODELI REGRESYJNYCH I KLASYFIKACYJNYCH Janusz Wątroba, StatSoft Polska Sp. z o.o. Tematyka artykułu obejmuje wprowadzenie do problematyki modelowania statystycznego i jego roli w badaniu
Bardziej szczegółowoAgnieszka Nowak Brzezińska
Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia
Bardziej szczegółowoRegresyjne metody łączenia klasyfikatorów
Regresyjne metody łączenia klasyfikatorów Tomasz Górecki, Mirosław Krzyśko Wydział Matematyki i Informatyki Uniwersytet im. Adama Mickiewicza XXXV Konferencja Statystyka Matematyczna Wisła 7-11.12.2009
Bardziej szczegółowo