Metody Eksploracji Danych. Klasyfikacja

Podobne dokumenty
Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Wprowadzenie do analizy korelacji i regresji

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Klasyfikacja. Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji. Eksploracja danych. Klasyfikacja wykład 1

Algorytmy klasyfikacji

ALGORYTM RANDOM FOREST

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Mail: Pokój 214, II piętro

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Data Mining Wykład 4. Plan wykładu

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

Klasyfikacja metodą Bayesa

Analiza składowych głównych. Wprowadzenie

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Drzewa decyzyjne i lasy losowe

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka i Analiza Danych

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

MODELE LINIOWE. Dr Wioleta Drobik

Elementy modelowania matematycznego

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

KORELACJE I REGRESJA LINIOWA

STATYSTYKA MATEMATYCZNA

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Elementy statystyki wielowymiarowej

Opis efektów kształcenia dla modułu zajęć

KLASYFIKACJA. Słownik języka polskiego


WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Systemy uczące się wykład 2

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Własności statystyczne regresji liniowej. Wykład 4

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

data mining machine learning data science

Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować?

Prawdopodobieństwo czerwonych = = 0.33

WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO

Indukowane Reguły Decyzyjne I. Wykład 8

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Data Mining Wykład 6. Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa.

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Sztuczna inteligencja : Algorytm KNN

Analiza danych. TEMATYKA PRZEDMIOTU

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Zmienne zależne i niezależne

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

DRZEWA KLASYFIKACYJNE W BADANIACH SATYSFAKCJI

Statystyczne Metody Opracowania Wyników Pomiarów

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

Weryfikacja hipotez statystycznych

Metody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania

PDF created with FinePrint pdffactory Pro trial version

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Klasyfikacja LDA + walidacja

Co to są drzewa decyzji

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Kontekstowe wskaźniki efektywności nauczania - warsztaty

Widzenie komputerowe (computer vision)

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

Metody klasyfikacji danych - część 1 p.1/24

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

STATYSTYKA MATEMATYCZNA

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.

STATYSTYKA MATEMATYCZNA

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Metody probabilistyczne klasyfikatory bayesowskie

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

Metoda Automatycznej Detekcji Interakcji CHAID

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017

Laboratorium 11. Regresja SVM.

Metody scoringowe w regresji logistycznej

Transkrypt:

Metody Eksploracji Danych Klasyfikacja w wykładzie wykorzystano: 1. materiały dydaktyczne przygotowane w ramach projektu Opracowanie programów nauczania na odległość na kierunku studiów wyższych Informatyka http://wazniak.mimuw.edu.pl 2. Internetowy Podręcznik Statystyki http://www.statsoft.pl/textbook/stathome.html Krzysztof Regulski, WIMiIP, KISiM, regulski@agh.edu.pl B5, pok. 408

Klasyfikacja Klasyfikacja jest metodą analizy danych, której celem jest predykcja wartości określonego atrybutu w oparciu o pewien zbiór danych treningowych. Obejmuje metody odkrywania modeli (tak zwanych klasyfikatorów) lub funkcji opisujących zależności pomiędzy charakterystyką obiektów a ich zadaną klasyfikacją. Odkryte modele klasyfikacji są wykorzystywane do klasyfikacji nowych obiektów o nieznanej klasyfikacji. Wiele technik: statystyka, drzewa decyzyjne, sieci neuronowe, etc. 2

Klasyfikacja algorytm Atrybut Ryzyko związany z informacją, że dany kierowca spowodował wcześniej wypadki czy nie powodował wcześniej wypadku. Jeżeli jest autorem kilku wypadków wartość atrybutu Ryzyko przyjmuje wartość High, w przypadku gdy nie spowodował żadnego wypadku atrybut Ryzyko przyjmuje wartość Low. Atrybut Ryzyko jest atrybutem decyzyjnym. W naszym przykładzie wynikiem działania algorytmu klasyfikacji jest klasyfikator w postaci pojedynczej reguły decyzyjnej: Jeżeli wiek kierowcy jest mniejszy niż 31 lub typ samochodu sportowy to Ryzyko jest wysokie". 3

Wynik klasyfikacji: Klasyfikacja wynik» Reguły klasyfikacyjne postaci IF - THEN» Formuły logiczne» Drzewa decyzyjne Istotną sprawą z punktu widzenia poprawności i efektywności modelu jest tzw. dokładność modelu. dla przykładów testowych, dla których znane są wartości atrybutu decyzyjnego, wartości te są porównywane z wartościami atrybutu decyzyjnego generowanymi dla tych przykładów przez klasyfikator. Miarą, która weryfikuje poprawność modelu jest współczynnik dokładności. 4

Klasyfikacja wynik Jeżeli dokładność klasyfikatora jest akceptowalna, wówczas możemy wykorzystać klasyfikator do klasyfikacji nowych danych. Celem klasyfikacji, jak pamiętamy jest przyporządkowanie nowych danych dla których wartość atrybutu decyzyjnego nie jest znana do odpowiedniej klasy. 5

Rodzaje modeli klasyfikacyjnych:» k-nn - k-najbliższe sąsiedztwo» Klasyfikatory Bayes'owskie» Klasyfikacja poprzez indukcję drzew decyzyjnych» Sieci Neuronowe» Analiza statystyczna» Metaheurystyki (np. algorytmy genetyczne)» SVM Support Vector Machine Metoda wektorów nośnych» Zbiory przybliżone 6

Klasyfikatory knn 1. Klasyfikator knn - klasyfikator k-najbliższych sąsiadów (k-nearest neighbor classifier) 2. Klasyfikacja nowych przypadków jest realizowana na bieżąco", tj. wtedy, gdy pojawia się potrzeba. 3. Należy do grupy algorytmów opartych o analizę przypadku. Algorytmy te prezentują swoją wiedzę o świecie w postaci zbioru przypadków lub doświadczeń. 4. Idea klasyfikacji polega na metodach wyszukiwania tych zgromadzonych przypadków, które mogą być zastosowane do klasyfikacji nowych sytuacji. 7

knn - przykład Mamy przypadki dodatnie i ujemne oraz nowy punkt, oznaczony na czerwono. Zadanie polega na zaklasyfikowaniu nowego obiektu do plusów lub minusów, na bazie tego, z kim sąsiaduje. 1. Zacznijmy od rozpatrzenia przypadku jednego, najbliższego sąsiada. Widać, że najbliżej czerwonego punktu jest plus, tak więc nowy przypadek zostanie zaklasyfikowany do plusów. 2. Zwiększmy teraz liczbę najbliższych sąsiadów do dwóch. Niestety, jest kłopot, drugi sąsiad to minus, więc plusy i minusy występują w tej samej ilości, nikt nie ma przewagi. 3. Zwiększmy dalej liczbę najbliższych sąsiadów, do pięciu. Są to przypadki znajdujące się wewnątrz kółka na rysunku. Jest tam przewaga minusów, więc nowy przypadek oceniamy jako minus. 8

Regresja i knn Mamy danych kilka "przykładowych" punktów, a podać musimy wartość y dla dowolnego x. dla pojedynczego najbliższego sąsiada: Najbliżej nowego X znajduje się punkt o odciętej x 4. Tak więc, jako wartość dla nowego X przyjęta będzie wartość (rzędna) odpowiadająca x 4, czyli y 4. Oznacza to, że dla jednego najbliższego sąsiada wynikiem jest Y = y 4 dwóch najbliższych sąsiadów: szukamy dwóch punktów mających najbliżej do X. Są to punkty o wartościach rzędnych y 3 i y 4. Biorąc średnią z dwóch wartości, otrzymujemy: W podobny sposób postępujemy przy dowolnej liczbie K najbliższych sąsiadów. Wartość Y zmiennej zależnej otrzymujemy jako średnią z wartości zmiennej zależnej dla K punktów o wartościach zmiennych niezależnych X najbliższych nowemu X-owi. 9

Klasyfikacja w oparciu o Naiwny klasyfikator Bayesa Zadaniem klasyfikatora Bayes'a jest przyporządkowanie nowego przypadku do jednej z klas decyzyjnych, przy czym zbiór klas decyzyjnych musi być skończony i zdefiniowany a priori. Naiwny klasyfikator Bayes'a jest statystycznym klasyfikatorem, opartym na twierdzeniu Bayesa. P(C X) prawdopodobieństwo a posteriori, że przykład X należy do klasy C Naiwny klasyfikator Bayes'a różni się od zwykłego klasyfikatora tym, że konstruując go zakładamy wzajemną niezależność atrybutów opisujących każdy przykład. 10

Naiwny klasyfikator Bayesa 11

Przykład Chcemy dokonać predykcji klasy, do której należy nowy przypadek C 1 (kupi_komputer ='tak') C 2 (kupi_komputer ='nie') Nowy przypadek: X = (wiek='<=30', dochód='średni', student = 'tak', status='kawaler') Maksymalizujemy wartość P(X/C i )*P(C i ), dla i=1,2 12

Indukcja drzew decyzyjnych Drzewo decyzyjne jest grafem o strukturze drzewiastej, gdzie» każdy wierzchołek wewnętrzny reprezentuje test na atrybucie (atrybutach),» każdy łuk reprezentuje wynik testu,» każdy liść reprezentuje pojedynczą klasę lub rozkład wartości klas Drzewo decyzyjne dzieli zbiór treningowy na partycje do momentu, w którym każda partycja zawiera dane należące do jednej klasy, lub, gdy w ramach partycji dominują dane należące do jednej klasy Każdy wierzchołek wewnętrzny drzewa zawiera tzw. punkt podziału (ang. split point), którym jest test na atrybucie (atrybutach), który dzieli zbiór danych na partycje 13

Ekstrakcja reguł klasyfikacyjnych z drzew decyzyjnych Drzewo decyzyjne można przedstawić w postaci zbioru tzw. reguł klasyfikacyjnych postaci IF-THEN Dla każdej ścieżki drzewa decyzyjnego, łączącej korzeń drzewa z liściem drzewa tworzymy regułę klasyfikacyjną 14

Klasyfikacja / Regresja Zmienne niezależne (objaśniające, predykatory) zm. wejściowe Zmienna zależna - objaśniana KLASYFIKACYJNE REGRESYJNE 15

CART (C&RT) i CHAID Classification & Regression Trees C&RT Chi-square Automatic Interaction Detection 16

Drzewa klasyfikacyjne Krok 1: Szukamy zmiennej, która najsilniej wpływa na ostateczną klasyfikację krajowy zagraniczny KRAJ POCHODZENIA żółty fioletowy KOLOR 17

Przykład: segmentacja pod kątem dochodów Cel: segmentacja ze względu na dochód, charakterystyka segmentów Dane zawierają 32 561 przypadków Każdy przypadek reprezentuje jedną osobę Każda osoba opisana jest przez 14 cech oraz zmienną dochód 18

Dochód skategoryzowany do 2 klas: <=50K poniżej 50 000 >50K powyżej 50 000 19

STATISTICA - przykład drzewa C&RT 1 2 3 4 20

4 5 21

22

23

24

25

Reguły Jeżeli osoba pozostaje w związku małżeńskim i jej liczba lat edukacji przekracza 12,5 roku, wtedy jej dochód prawdopodobnie przekracza 50 000 $ (węzeł ID5) (z prawdopodobieństwem 72%) Jeżeli osoba pozostaje w związku małżeńskim, jej liczba lat edukacji nie przekracza 12,5 roku, wykonuje zawód oraz ma ponad 33,5 lat wtedy jej dochód prawdopodobnie przekracza 50 000 $ (węzeł ID9) (z prawdopodobieństwem 53%) Jeżeli osoba ma ponad 33,5 lat, pozostaje w związku małżeńskim, liczba lat jej edukacji mieści się w przedziale 9,5 do 12,5 lat, wykonuje zawód wtedy jej dochód prawdopodobnie przekracza 50 000 $ (węzeł ID11) (z prawdopodobieństwem 60%) 26

Pewność reguł (ufność reguły, dokładność) wsparcie reguły stopień magistra daje mężczyznom 70,38% szans na zarobki pow.50tys ufność reguły studia podyplomowe i doktorat podnosi szansę na zarobki pow.50tys o ponad 8 punktów procentowych 27

Wsparcie i Ufność Wsparcie = 217/9950 = 2,2% jest bardzo mało kobiet wysoko wykształconych większość kobiet, nawet bardzo dobrze wykształconych, nie zarabia pow. 50 tys. Ufność = 41,01% kobiety ze stopniem magistra (i wyżej) mają jedynie 41% szans na zarobki >50K 28

Wsparcie (pokrycie) reguły / ufność (dokładność) ID11: 997/1633 = 0,5995 ufność reguły N konkluzji /N węzła wsparcie reguły: N węzła / N zbioru ID11: 1633/32561=5% 29

Macierz klasyfikacji Ile razy model się pomylił? Pojęcie kosztu FN FP 30

CHAID Algorytm drzew klasyfikacyjnych Zmienne ilościowe dzielone są na 10 kategorii, zmienne jakościowe obsługiwane w sposób naturalny Wyszukiwanie par kategorii podobnych do siebie ze względu na zmienną zależną Test Chi^2 31

STATISTICA - przykład drzewa CHAID 1 2 32

Przykład: badanie intencji zakupowych studentów Co wpływa na skłonność zakupu samochodu nowego bądź używanego? Wybór jednego z 12 profili aut o porównywalnej cenie (połowa z nich używane, połowa nowe) 1200 ankietowanych, dane demograficzne + wybór 33

34

Zmienną decyzyjną najsilniej różnicuje płeć 35

STATISTICA - inny przykład drzewa CHAID 1 2 36

1,1 Wykres ważności Zmienna zależna: Income Model: CHAID 1,0 0,9 0,8 0,7 Ważność 0,6 0,5 0,4 0,3 0,2 0,1 0,0 Age hours-per-week education-num education marital-status occupation relationship 37

FN 1 FP 2 38

39

Jeżeli osoba pozostaje w związku małżeńskim skończyła szkołę z grupy, ale jest profesjonalistą w swoim zawodzie, wtedy jej dochód prawdopodobnie przekracza 50 000 $ (węzeł ID17) (z prawdopodobieństwem 73%) Jeżeli osoba pozostaje w związku małżeńskim i skończyła studia magisterskie, wtedy jej dochód prawdopodobnie przekracza 50 000 $ (węzeł ID14) (z prawdopodobieństwem 77%) 40

Drzewa regresyjne Dla drzew klasyfikacyjnych stosuje się różne miary niejednorodności: Indeks Giniego, Chi-kwadrat lub G-kwadrat. Podział węzłów w drzewach regresyjnych, następuje na podstawie odchylenia najmniejszych kwadratów (LSD - Least Significant Difference). gdzie N w (t) - ważona liczba przypadków w węźle t, w i - wartość zmiennej ważącej dla przypadku i, f i - wartość zmiennej częstotliwości, y i - wartość zmiennej odpowiedzi, y(t) jest średnią ważoną w węźle t. Źródło: dla wzorów wykorzystywanych przez model C&RT zaimplementowany w STATISTICA wykorzystano fragmenty z Internetowego Podręcznika Statystyki, StatSoft, Inc., 1984-2005, jest to oficjalny podręcznik wydany przez dystrybutora oprogramowania. 41

Drzewo dla parametru: umowna granica plastyczności R 0,2 ID=2 N=16 ID=1 N=46 Śr=246,623913 Var=2171,095611 przesycanie = H3... = Inne ID=3 N=30 Śr=203,915625 Var=839,212725 temperatura starzenia = 700 o C = inna ID=4 N=8 ID=5 N=8 Śr=269,401667 Var=1389,808227 temperatura starzenia = 500 o C = inna ID=10 N=14 ID=11 N=16 Śr=180,216250 Var=128,315623 Śr=227,615000 Var=426,789075 Śr=291,008571 Var=903,037598 Śr=250,495625 Var=1049,793075 prędkość starzenia prędkość starzenia = na powietrzu = inna ID=12 N=7 ID=13 N=7 = na powietrzu = inna ID=18 N=8 ID=19 N=8 Śr=272,751429 Var=1002,184555 Śr=309,265714 Var=137,244110 Śr=229,548750 Var=895,573761 Śr=271,442500 Var=326,469244 Klasy dla poszczególnych parametrów R m, R 0,2, A zostały wyznaczone za pomocą modeli drzew regresyjnych w oparciu o zmienne predykcyjne jakimi były:» Rodzaj modyfikatora» Przesycanie prędkość chłodzenia» Temperatura starzenia» Starzenie prędkość studzenia rodszaj modyfikatora = F = inny ID=20 N=2 ID=21 N=6 Śr=272,290000 Var=1024,640100 Śr=215,301667 Var=40,634114 42

1,1 1,0 0,9 0,8 0,7 Ważność 0,6 0,5 0,4 0,3 0,2 0,1 0,0 rodzaj modyfikatora temperatura starzenia przesycanie - prędkość chłodzenia starzenie - prędkosc studzenia 43

Ocena drzewa Dla potrzeb oceny modeli wprowadzono pojecie kosztu. Koszt określony jest poprzez wariancję. Konieczność minimalizacji kosztów wynika z tego, że niektóre błędy mogą mieć bardziej katastrofalne skutki niż inne. Jakość modelu regresyjnego oceniamy również poprzez współczynnik determinacji. 44

Współczynnik determinacji r 2 (R 2 ) współczynnik determinacji (wielkość ta oznacza kwadrat współczynnika korelacji) przyjmuje wartości z przedziału [0,1] jest miarą stopnia w jakim model wyjaśnia kształtowanie się zmiennej Y. Jeśli wartość R 2 jest duża, to oznacza to, że błędy dla tego modelu są stosunkowo małe i w związku z tym model jest dobrze dopasowany do rzeczywistych danych. Im jego wartość jest bliższa 1, tym lepsze dopasowanie modelu do danych empirycznych 45

Dobroć dopasowania (1) 46

Dobroć dopasowania (2) współczynnik determinacji to kwadrat współczynnika korelacji 47

Koszt Korzystamy z dwóch rodzajów kosztów: kosztu sprawdzianu krzyżowego (SK) oraz kosztu resubstytucji. Wybiera się drzewo o minimalnym koszcie SK, lub drzewo najmniej złożone, którego koszty SK nie różnią się znacznie od minimalnych 48

Koszt resubstytucji Narzędziem pomocniczym jest koszt resubstytucji. Oblicza się tu oczekiwany błąd kwadratowy dla próby uczącej. gdzie próba ucząca Z składa się z punktów (x i,y i ), i = 1,2,...,N. Miara ta obliczana jest dla tego samego zbioru danych, na bazie którego zbudowano model (partycję) d. niski koszt resubstytucji = wartości zmiennej zależnej bliskie średniej w danym liściu 49

Wybór drzewa przycinanie drzewa (1) Jedną z metod doboru drzewa jest wybranie takiego, dla którego koszty resubstytucji i koszt sprawdzianu krzyżowego (SK) się przecinają. 3500 3000 2500 2000 Koszt 1500 1000 500 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Drzew o numer Koszt resubst. Koszt SK 50

Wybór drzewa przycinanie drzewa (2) 51

Efekt? na podstawie drzewa nr 9 dla R m można określić reguły: Jeśli próbka poddana została przesycaniu H3 i starzeniu w 500 C, wtedy wytrzymałość będzie miała rozkład o średniej E(X)=476[Mpa] i wariancji D 2 (X)=793 Jeśli próbka poddana została przesycaniu H3 i starzeniu w 700 C lub bez starzenia, wtedy wytrzymałość będzie miała rozkład o średniej E(X)=530[Mpa] i wariancji D 2 (X)=33 Jeśli próbka modyfikowana borem (K) poddana została przesycaniu (H2) wtedy wytrzymałość będzie miała rozkład o średniej E(X)=577[Mpa] i wariancji D 2 (X)=43 Jeśli próbka modyfikowana borem (K) poddana została przesycaniu (H1) wtedy wytrzymałość będzie miała rozkład o średniej E(X)=546[Mpa] i wariancji D 2 (X)=2187 Jeśli próbka pochodząca z innego wytopu niż K poddana została przesycaniu (H2 lub H1) wtedy wytrzymałość będzie miała rozkład o średniej E(X)=600 [Mpa] i wariancji D 2 (X)=325 52

Własności drzew Naturalna obsługa zmiennych mierzonych na różnych skalach pomiarowych Związki pomiędzy zmiennymi nie muszą być liniowe Rozkłady zmiennych nie muszą być normalne Jeśli spełnione są wymogi regresji wielorakiej to lepszy model daje regresja Drzewa nazywane białą skrzynką dobrze rozpoznany model i interpretacja 53

Własności drzew Niewrażliwość na zmienne bez znaczenia mają niską ocenę ważności predyktorów Niewrażliwość na nadmierną korelację jeśli dwie zmienne ze sobą skorelowane, jeden z predykatów nie wchodzi do drzewa Niewrażliwość na wartości odstające podział w punkcie, nawet jeśli jakieś zmienne osiągają bardzo wysokie/niskie wartości Radzenie sobie z brakami danych podziały zastępcze Naturalna interpretacja w postaci reguł Zastosowania: predykcja, budowa reguł, segmentacja rynku 54