Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 1. Wojciech Waloszek. Teresa Zawadzka.

Podobne dokumenty
Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 2. Wojciech Waloszek. Teresa Zawadzka.

Analiza danych DRZEWA DECYZYJNE. Drzewa decyzyjne. Entropia. test 1 dopełnienie testu 1

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Eksploracja danych OCENA KLASYFIKATORÓW. Wojciech Waloszek. Teresa Zawadzka.

Dendrochronologia Tworzenie chronologii

Algorytmy klasyfikacji

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

DYNAMIKA KONSTRUKCJI

WYKORZYSTANIE STATISTICA DATA MINER DO PROGNOZOWANIA W KRAJOWYM DEPOZYCIE PAPIERÓW WARTOŚCIOWYCH

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew.

Politechnika Częstochowska Wydział Inżynierii Mechanicznej i Informatyki. Sprawozdanie #2 z przedmiotu: Prognozowanie w systemach multimedialnych

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Agnieszka Nowak Brzezińska

POZYCJONOWANIE I NADĄŻANIE MINIROBOTA MOBILNEGO M.R.K

Tadeusz Pankowski

Złożoność i zagadnienia implementacyjne. Wybierz najlepszy atrybut i ustaw jako test w korzeniu. Stwórz gałąź dla każdej wartości atrybutu.

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Całka nieoznaczona Andrzej Musielak Str 1. Całka nieoznaczona

Co to są drzewa decyzji

ESTYMACJA KRZYWEJ DOCHODOWOŚCI STÓP PROCENTOWYCH DLA POLSKI

WENTYLACJA i KLIMATYZACJA 2. Ćwiczenia nr 1

Chemia Analityczna. Autor: prof. dr hab. inż Marek Biziuk

ALGORYTMY I STRUKTURY DANYCH

Algorytmy i str ruktury danych. Metody algorytmiczne. Bartman Jacek

Indukcja drzew decyzyjnych

Algorytmy klasyfikacji

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Drzewa decyzyjne i lasy losowe

Kombinowanie prognoz. - dlaczego należy kombinować prognozy? - obejmowanie prognoz. - podstawowe metody kombinowania prognoz

Równania różniczkowe. Lista nr 2. Literatura: N.M. Matwiejew, Metody całkowania równań różniczkowych zwyczajnych.

Grafy (3): drzewa. Wykłady z matematyki dyskretnej dla informatyków i teleinformatyków. UTP Bydgoszcz

RÓWNANIA RÓŻNICZKOWE WYKŁAD 13

PROJEKT nr 1 Projekt spawanego węzła kratownicy. Sporządził: Andrzej Wölk

ĆWICZENIE NR 43 U R I (1)

specyfikacji i estymacji modelu regresji progowej (ang. threshold regression).

Witold Orzeszko Uniwersytet Mikołaja Kopernika w Toruniu. Własności procesów STUR w świetle metod z teorii chaosu 1


Optymalizacja przy pomocy roju cząstek bazy reguł klasyfikatora rozmytego

Matematyka ubezpieczeń majątkowych r. ma złożony rozkład Poissona. W tabeli poniżej podano rozkład prawdopodobieństwa ( )

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

Wprowadzenie do uczenia maszynowego

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Stanisław Cichocki Natalia Nehrebecka. Wykład 4

Politechnika Gdańska Wydział Elektrotechniki i Automatyki Katedra Inżynierii Systemów Sterowania. Podstawy Automatyki

E k o n o m e t r i a S t r o n a 1. Nieliniowy model ekonometryczny

Poprawność semantyczna

KURS EKONOMETRIA. Lekcja 1 Wprowadzenie do modelowania ekonometrycznego ZADANIE DOMOWE. Strona 1

Zostałeś delegowany do pracy za granicą w UE, EOG lub Szwajcarii? Sprawdź, gdzie jesteś ubezpieczony

2.1 Zagadnienie Cauchy ego dla równania jednorodnego. = f(x, t) dla x R, t > 0, (2.1)

Ocena efektywności procedury Congruent Specyfication dla małych prób

Data Mining Wykład 4. Plan wykładu

MAKROEKONOMIA 2. Wykład 3. Dynamiczny model DAD/DAS, część 2. Dagmara Mycielska Joanna Siwińska - Gorzelak

PROGNOZOWANIE I SYMULACJE EXCEL 2 PROGNOZOWANIE I SYMULACJE EXCEL AUTOR: ŻANETA PRUSKA

LABORATORIUM PODSTAWY ELEKTRONIKI Badanie Bramki X-OR

PLAN WYKŁADU BAZY DANYCH INDEKSY - DEFINICJE. Indeksy jednopoziomowe Indeksy wielopoziomowe Indeksy z użyciem B-drzew i B + -drzew

prowadzący dr ADRIAN HORZYK /~horzyk tel.: Konsultacje paw. D-13/325

WSPOMAGANIE DECYZJI - MIŁOSZ KADZIŃSKI LAB X - ELECTRE TRI

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2

Cyfrowe przetwarzanie sygnału przetwornika obrotowo-impulsowego

A C T A U N I V E R S I T A T I S N I C O L A I C O P E R N I C I EKONOMIA XLIII nr 2 (2012)

Wysokość drzewa Głębokość węzła

Metody klasyfikacji danych - część 1 p.1/24

WYKORZYSTANIE TESTU OSTERBERGA DO STATYCZNYCH OBCIĄŻEŃ PRÓBNYCH PALI

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Ocena płynności wybranymi metodami szacowania osadu 1

Analiza rynku projekt

Badanie funktorów logicznych TTL - ćwiczenie 1

EFEKT DŹWIGNI NA GPW W WARSZAWIE WPROWADZENIE

PROGNOZOWANIE I SYMULACJE EXCEL 2 AUTOR: MARTYNA MALAK PROGNOZOWANIE I SYMULACJE EXCEL 2 AUTOR: MARTYNA MALAK

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH







Urządzenia i Układów Automatyki Instrukcja Wykonania Projektu

4.2. Obliczanie przewodów grzejnych metodą dopuszczalnego obciążenia powierzchniowego

Prognozowanie średniego miesięcznego kursu kupna USD

PROGNOZOWANIE. Ćwiczenia 2. mgr Dawid Doliński

Metoda Automatycznej Detekcji Interakcji CHAID

AMD. Wykład Elektrotechnika z elektroniką

Agnieszka Nowak Brzezińska Wykład III

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Struktury Danych i Złożoność Obliczeniowa

Ewa Dziawgo Uniwersytet Mikołaja Kopernika w Toruniu. Analiza wrażliwości modelu wyceny opcji złożonych

Podział metod przeszukiwania

Wybrane zagadnienia uczenia maszynowego. Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec

Wykład 2. Drzewa zbalansowane AVL i 2-3-4

Analiza popytu. Ekonometria. Metody i analiza problemów ekonomicznych. (pod red. Krzysztofa Jajugi), Wydawnictwo AE Wrocław, 1999.

PROPOZYCJA NOWEJ METODY OKREŚLANIA ZUŻYCIA TECHNICZNEGO BUDYNKÓW

Wojewódzki Konkurs Matematyczny dla uczniów gimnazjów. Etap szkolny 5 listopada 2013 Czas 90 minut

Sprawozdanie z zadania Modele predykcyjne (2)

DYNAMICZNE MODELE EKONOMETRYCZNE

Pulpitu sterowniczego KP-108

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

REGULAMIN FUNDUSZU ROZLICZENIOWEGO

D:\materialy\Matematyka na GISIP I rok DOC\07 Pochodne\8A.DOC 2004-wrz-15, 17: Obliczanie granic funkcji w punkcie przy pomocy wzoru Taylora.

Drzewa BST i AVL. Drzewa poszukiwań binarnych (BST)

Transkrypt:

Eksploracja danych KLASYFIKACJA I REGRESJA cz. 1 Wojciech Waloszek wowal@ei.pg.gda.pl Teresa Zawadzka egra@ei.pg.gda.pl Kaedra Inżyrii Oprogramowania Wydział Elekroniki, Telekomunikacji i Informayki Poliechnika Gdańska - 1 - W.Waloszek

Budowa drzew decyzyjnych Drzewa decyzyjne o najpopularjsza forma klasyfikaorów, Najczęściej budowane są meodą zsępującą, na zasadzie podejścia nauralnego dla drzew podejścia divide-and-conquer - 2 - W.Waloszek

Przykład drzewa decyzyjnego wyższe Wykszałce śred podsawowe D.O.R. <=800 >800 Sam. ak Wiek ak <=45 ak >45-3 - W.Waloszek

Budowa drzewa S.C. D.O.R. Wiek Wykszałce Sam. Z.K. S 800 32 wyższe ak ak S 1200 35 śred ak ak S 700 26 podsawowe M 600 45 wyższe ak M 650 38 śred ak ak S 900 28 wyższe S 1100 65 śred ak M 500 22 śred S 800 43 podsawowe ak 1. Mamy wyróżniony arybu decyzyjny, wyznaczający klasy 2. Na każdym poziomie drzewa wybieramy jeden z pozosałych arybuów, najlepszy pod kąem dyskryminowania klas 3. Rozpoczynamy od pusego drzewa wyznaczając korzeń - 4 - W.Waloszek

Dobór arybuu 4 x ak 5 x S.C. S M 2 x ak 4 x 2 x ak 1 x Czy podział pod względem warości arybuu S.C. jes korzysny? I w jakiej mierze? - 5 - W.Waloszek

Miara jakości podziału Jedną z miar jakości podziału jes przyros zawarości informacji Przyros zawarości informacji jes określony jako różnica zawarości informacji w dzielonym zbiorze przykładów a enropią zasosowanego podziału (esu). - 6 - W.Waloszek

Miara jakości podziału wzory d P IP ( ) log 2 P dc P d P I(P) zawarość informacyjna zbioru przykładów P C zbiór klas wyznaczony przez arybu decyzyjny P d podzbiór ych przykładów ze zbioru P, kóre należą do klasy d Pr E ( P) I( Pr ) P rr E (P) enropia esu dla zbioru przykładów P R zbiór możliwych wyników esu P r podzbiór ych przykładów ze zbioru P, kóre dają dla esu wynik r - 7 - W.Waloszek

Dobór arybuu - przykład 4 x ak 5 x 4 4 5 5 IP ( ) log 2 log 2 0,99 9 9 9 9 S S.C. M " S. C.?" R S, M 2 x ak 4 x 2 x ak 1 x 2 2 4 4 6 6 6 6 2 2 1 1 IP ( ) log log 0,92 3 3 3 3 IP ( S. C. S ) log 2 log 2 0,92 S. C. M 2 2 6 3 E ( P) 0,92 0,92 0,92 9 9 g ( P) 0,99 0,92 0, 07-8 - W.Waloszek

Dobór arybuu przykład (2) 4 4 5 5 4 x ak 5 x IP ( ) log 2 log 2 0,99 9 9 9 9 wyższe Wykszałce śred R podsawowe " Wykszace?" wyższe, śred, podsawowe 2 x ak 1 x 2 x ak 2 x 0 x ak 2 x IP ( Wykszałce wyższe ) 0,92 IP ( Wykszałce śred ) 1 IP ( Wykszałce podsawowe ) 0 3 4 2 E ( P) 0,92 1 0 0, 75 9 9 9 g ( P) 0,99 0, 75 0, 24-9 - W.Waloszek

Dobór arybuu przykład (3) 4 x ak 5 x 4 4 5 5 IP ( ) log 2 log 2 0,99 9 9 9 9 ak Sam. " Sam.?" R ak, 3 x ak 2 x 1 x ak 3 x IP ( ) 0,97 Sam. ak IP ( ) 0,81 Sam. 5 4 E ( P) 0,97 0,81 0,90 9 9 g ( P) 0,99 0,90 0,1-10 - W.Waloszek

Dobór arybuu przykład (4) Najwyższy zysk informacji (0,24) osiągnął arybu Wykszałce i on zosaje zapisany w korzeniu drzewa decyzyjnego wyższe Wykszałce śred podsawowe 2 x ak 1 x 2 x ak 2 x 0 x ak 2 x - 11 - W.Waloszek

Divide-and-conquer S.C. D.O.R. Wiek Wykszałce Sam. Z.K. S 800 32 wyższe ak ak S 1200 35 śred ak ak S 700 26 podsawowe M 600 45 wyższe ak M 650 38 śred ak ak S 900 28 wyższe S 1100 65 śred ak M 500 22 śred S 800 43 podsawowe ak 1. Zbiór przykładów zosał podzielony na rzy części 2. Dla każdej z części może zosać zasosowany en sam algorym dalszego działania - 12 - W.Waloszek

Dalsza budowa drzewa Wzdłuż prawej gałęzi drzewa rzeba już rozbudowywać wyższe Wykszałce śred podsawowe 2 x ak 1 x 2 x ak 2 x 0 x ak 2 x - 13 - W.Waloszek

Dalsza budowa drzewa (2) śred 2 x ak 2 x IP ( ) 1 ak Sam. " Sam.?" R ak, 2 x ak 1 x 0 x ak 1 x IP ( ) 0,92 Sam. ak IP ( ) 0 Sam. 3 1 E ( P) 0,92 0 0, 69 4 4 g ( P) 10, 69 0,31-14 - W.Waloszek

Arybuy numeryczne Do ej pory zakładaliśmy użycie ylko arybuów nominalnych, W rakcie budowy drzewa wykorzysywane mogą być eż arybuy numeryczne, Tuaj przedsawimy zasadę podziału binarnego minimalizującego enropię - 15 - W.Waloszek

Arybuy numeryczne (2) S.C. D.O.R. Wiek Wykszałce Sam. Z.K. S 800 32 wyższe ak ak S 1200 35 śred ak ak S 700 26 podsawowe M 600 45 wyższe ak M 650 38 śred ak ak S 900 28 wyższe S 1100 65 śred ak M 500 22 śred S 800 43 podsawowe ak 1. W rakcie budowy drzewa doszliśmy do wydzielenia 3 przykładów 2. W ym miejscu drzewa najlepiej zasosować podział względem warości arybuu numerycznego (wcześj oczywiście akie podziały eż były rozważane ale odrzucane) - 16 - W.Waloszek

Dalsza budowa drzewa (2) ak 2 x ak 1 x IP ( ) 0,92 Wiek: 35 38 65 Z.K.: ak ak " Wiek x" R x, x IP ( ) 0 Wiek x IP ( Wiek x) 1 1 2 E ( P) 0 1 0,67 3 3 g ( P) 0,92 0, 67 0, 25-17 - W.Waloszek

Dalsza budowa drzewa (3) ak 2 x ak 1 x IP ( ) 0,92 Wiek: 35 38 65 Z.K.: ak ak " Wiek x" R x, x IP ( ) 0 Wiek x IP ( Wiek x) 0 1 2 E ( P) 0 0 0 3 3 g ( P) 0,92 0 0,92-18 - W.Waloszek

Algorym budowy drzew decyzyjnych Budowa drzewa polega na doborze najlepszego arybuu nominalnego lub najlepszego podziału binarnego arybuu numerycznego, powarzanym ieracyj, Rozszerzenia: Obsługa brakujących warości arybuów, Przycina drzew generalizacja. - 19 - W.Waloszek

Brakujące warości arybuów S.C. D.O.R. Wiek Wykszałce Sam. Z.K. S 800 32 wyższe ak ak S 1200 35 śred ak ak S 700 26 podsawowe M 600 45 wyższe ak M 650 38 śred ak ak S 900 28 wyższe S 1100 65 śred ak M 500 22 śred S 800 43 podsawowe ak M 750 47? Zakładamy, że mamy dodakowy przykład o znanej warości arybuu Wykszałce - 20 - W.Waloszek

Brakujące warości arybuów (2) 4 x ak 6 x IP ( ) 0,92 wyższe Wykszałce śred R podsawowe " Wykszace?" wyższe, śred, podsawowe 2 x ak (1 + 3/9) x 2 x ak (2 + 4/9) x 0 x ak (2 + 2/9) x IP ( Wykszałce wyższe ) 0,97 IP ( Wykszałce śred ) 0,99 IP ( Wykszałce podsawowe ) 0 3 3 9 4 4 9 2 2 9 E ( P) 0,97 0,99 0 0, 76 10 10 10 g ( P) 0,92 0, 76 0,16-21 - W.Waloszek

Przycina drzewa decyzyjnego wyższe Wykszałce śred podsawowe D.O.R. ak <=800 >800 Sam. ak Wiek ak <=45 ak >45-22 - W.Waloszek

Przycina Przycina polega na zasąpieniu poddrzewa liściem, Przycina ma na celu uogól wyników i zapobieże błędowi nadmiernego dopasowania, Sosuje się różne kryeria przycinania: przycina apriori (w rakcie pracy zasadniczego algorymu), gdy węzeł drzewa pokrywa zby małą liczbę przykładów, przycina aposeriori (po pracy zasadniczego algorymu), najczęściej wsępująca w wyniku badania rezulaów klasyfikacji na zbiorze esującym, W wyniku przycinania liście sają się węzłami probabilisycznymi - 23 - W.Waloszek

Redukcjonisyczne podejście do opisu algorymów Algorym budowy drzew decyzyjnych (~C4.5): 1. Zada: predykcja (klasyfikacja) 2. Srukura modelu: drzewo 3. Funkcja oceny jakości: przyros zawarości informacyjnej 4. Meody przeszukiwania: zachłanna, divide-and-conquer 5. Dodakowe założenia: Obsługa brakujących warości arybuów meodą podziału przykładu Obsługa arybuów numerycznych meodą podziału binarnego minimalizującego enropię Przycina drzewa meodą wsępującą aposeriori (walidacja krzyżowa) - 24 - W.Waloszek

Dziękujemy za uwagę Zapraszamy na wykład: KLASYFIKACJA I REGRESJA cz. 2-25 - W.Waloszek