Drzewa decyzyjne, metody budowania, zastosowania

Podobne dokumenty
Bazy danych. Andrzej Łachwa, UJ, /15

Zarządzanie projektami. wykład 1 dr inż. Agata Klaus-Rosińska

Ogólna charakterystyka kontraktów terminowych

Zapisy na kursy B i C

Politechnika Warszawska Wydział Matematyki i Nauk Informacyjnych ul. Koszykowa 75, Warszawa

PRAWA ZACHOWANIA. Podstawowe terminy. Cia a tworz ce uk ad mechaniczny oddzia ywuj mi dzy sob i z cia ami nie nale cymi do uk adu za pomoc

Podstawowe pojęcia: Populacja. Populacja skończona zawiera skończoną liczbę jednostek statystycznych

INSTRUKCJA DLA UCZESTNIKÓW ZAWODÓW ZADANIA

POMOC PSYCHOLOGICZNO-PEDAGOGICZNA Z OPERONEM. Vademecum doradztwa edukacyjno-zawodowego. Akademia

Akademickie Centrum Informatyki PS. Wydział Informatyki PS

Przypomnienie najważniejszych pojęć z baz danych. Co to jest baza danych?

Jak usprawnić procesy controllingowe w Firmie? Jak nadać im szerszy kontekst? Nowe zastosowania naszych rozwiązań na przykładach.

Program szkoleniowy Efektywni50+ Moduł III Standardy wymiany danych

Harmonogramowanie projektów Zarządzanie czasem

PROCEDURA OCENY RYZYKA ZAWODOWEGO. w Urzędzie Gminy Mściwojów

Instalacja. Zawartość. Wyszukiwarka. Instalacja Konfiguracja Uruchomienie i praca z raportem Metody wyszukiwania...

Wiedza niepewna i wnioskowanie (c.d.)

DE-WZP JJ.3 Warszawa,

III. GOSPODARSTWA DOMOWE, RODZINY I GOSPODARSTWA ZBIOROWE

Projektowanie bazy danych

Statystyczna analiza danych w programie STATISTICA. Dariusz Gozdowski. Katedra Doświadczalnictwa i Bioinformatyki Wydział Rolnictwa i Biologii SGGW

Podejmowanie decyzji. Piotr Wachowiak

2) Drugim Roku Programu rozumie się przez to okres od 1 stycznia 2017 roku do 31 grudnia 2017 roku.

Kratownice Wieża Eiffel a

Szkoła Podstawowa nr 1 w Sanoku. Raport z ewaluacji wewnętrznej

Nowe funkcjonalności

Twierdzenie Bayesa. Indukowane Reguły Decyzyjne Jakub Kuliński Nr albumu: 53623

INSTRUKCJA OBSŁUGI WD2250A. WATOMIERZ 0.3W-2250W firmy MCP

UCHWAŁA NR XIV/ /16 RADY GMINY STARE BABICE. z dnia 28 stycznia 2016 r.

- o zmianie o Krajowym Rejestrze Sądowym

ZASADY WYPEŁNIANIA ANKIETY 2. ZATRUDNIENIE NA CZĘŚĆ ETATU LUB PRZEZ CZĘŚĆ OKRESU OCENY

oraz nowego średniego samochodu ratowniczo-gaśniczego ze sprzętem ratowniczogaśniczym

Waldemar Szuchta Naczelnik Urzędu Skarbowego Wrocław Fabryczna we Wrocławiu

Koszty jakości. Definiowanie kosztów jakości oraz ich modele strukturalne

Postanowienia ogólne. Usługodawcy oraz prawa do Witryn internetowych lub Aplikacji internetowych

SYSTEMY TRANSAKCYJNE (TraderTeam.pl: Rafa Jaworski, Marek Matuszek) Lekcja XVI

7. REZONANS W OBWODACH ELEKTRYCZNYCH

Regulamin konkursu na Logo Stowarzyszenia Wszechnica Zawodowa Nasza Szkoła

Audyt SEO. Elementy oraz proces przygotowania audytu. strona

Dokonamy analizy mającej na celu pokazanie czy płeć jest istotnym czynnikiem

Eksperyment,,efekt przełomu roku

Regulamin konkursu Konkurs z Lokatą HAPPY II edycja

Komentarz technik dróg i mostów kolejowych 311[06]-01 Czerwiec 2009

KLAUZULE ARBITRAŻOWE

Załącznik nr 4 WZÓR - UMOWA NR...

LABORATORIUM PRZYRZĄDÓW PÓŁPRZEWODNIKOWYCH

Komentarz do prac egzaminacyjnych w zawodzie technik administracji 343[01] ETAP PRAKTYCZNY EGZAMINU POTWIERDZAJĄCEGO KWALIFIKACJE ZAWODOWE

Wniosek o ustalenie warunków zabudowy

Umowa o pracę zawarta na czas nieokreślony

POLITECHNIKA WARSZAWSKA Wydział Chemiczny LABORATORIUM PROCESÓW TECHNOLOGICZNYCH PROJEKTOWANIE PROCESÓW TECHNOLOGICZNYCH

USTAWA. z dnia 26 czerwca 1974 r. Kodeks pracy. 1) (tekst jednolity)

Środowiskowe Laboratorium Ciężkich Jonów Uniwersytet Warszawski

Strategia rozwoju kariery zawodowej - Twój scenariusz (program nagrania).

KOMISJA WSPÓLNOT EUROPEJSKICH. Wniosek DECYZJA RADY

Temat: Czy świetlówki energooszczędne są oszczędne i sprzyjają ochronie środowiska? Imię i nazwisko

Bioinformatyka Laboratorium, 30h. Michał Bereta

1. Od kiedy i gdzie należy złożyć wniosek?

Podstawowe działania w rachunku macierzowym

Konspekt lekcji otwartej

Edycja geometrii w Solid Edge ST

Udoskonalona wentylacja komory suszenia

Zaproszenie do składania oferty cenowej

ASTORIA CAPITAL SA Rejestracja w KRS zmian Statutu Spółki

NUMER IDENTYFIKATORA:

Opis programu do wizualizacji algorytmów z zakresu arytmetyki komputerowej

Zaawansowana adresacja IPv4

PODSTAWY METROLOGII ĆWICZENIE 4 PRZETWORNIKI AC/CA Międzywydziałowa Szkoła Inżynierii Biomedycznej 2009/2010 SEMESTR 3

dr inż. Cezary Wiśniewski Płock, 2006

TAJEMNICA BANKOWA I OCHRONA DANYCH OSOBOWYCH W PRAKTYCE BANKOWEJ

Załącznik. do Zarządzenia Nr 8/09 Burmistrza Miasta i GminyBłonie z dnia r. Ogłoszenie

Reguła Życia. spotkanie rejonu C Domowego Kościoła w Chicago JOM

JAK INWESTOWAĆ W ROPĘ?

Odpowiedzi na pytania zadane do zapytania ofertowego nr EFS/2012/05/01

Ewelina Chmielewicz ZASIŁEK RODZINNY

Dziedziczenie : Dziedziczenie to nic innego jak definiowanie nowych klas w oparciu o już istniejące.

Od redakcji. Symbolem oznaczono zadania wykraczające poza zakres materiału omówionego w podręczniku Fizyka z plusem cz. 2.

z dnia Rozdział 1 Przepisy ogólne

Uchwały podjęte przez Nadzwyczajne Walne Zgromadzenie Zakładów Lentex S.A. z dnia 11 lutego 2014 roku

Warunki Oferty PrOmOcyjnej usługi z ulgą

Lekcja 173, 174. Temat: Silniki indukcyjne i pierścieniowe.

Niezależnie od rodzaju materiału dźwiękowego ocenie podlegały następujące elementy pracy egzaminacyjnej:

UCHWAŁA... Rady Miejskiej w Słupsku z dnia...

Wybrane programy profilaktyczne

Rodzaje i metody kalkulacji

Złącza wysokoprądowe rodzaje i zastosowanie

Materiał pomocniczy dla nauczycieli kształcących w zawodzie:

System kształcenia dualnego w Niemczech

CENTRUM BADANIA OPINII SPOŁECZNEJ

Stanowisko Rzecznika Finansowego i Prezesa Urzędu Ochrony Konkurencji i Konsumentów w sprawie interpretacji art. 49 ustawy o kredycie konsumenckim

Uchwała nr 21 /2015 Walnego Zebrania Członków z dnia w sprawie przyjęcia Regulaminu Pracy Zarządu.

Wskazówki dotyczące przygotowania danych do wydruku suplementu

INSTRUKCJA Panel administracyjny

ZP Obsługa bankowa budżetu Miasta Rzeszowa i jednostek organizacyjnych

Elektryczne ogrzewanie podłogowe fakty i mity

WYMAGANIA EDUKACYJNE SPOSOBY SPRAWDZANIA POSTĘPÓW UCZNIÓW WARUNKI I TRYB UZYSKANIA WYŻSZEJ NIŻ PRZEWIDYWANA OCENY ŚRÓDROCZNEJ I ROCZNEJ

Zagospodarowanie magazynu


Objaśnienia do Wieloletniej Prognozy Finansowej na lata

JĘZYK UML JAKO NARZĘDZIE MODELOWANIA PROCESU PROJEKTOWO-KONSTRUKCYJNEGO

Transkrypt:

Wydzia Elektroniki Politechniki Wroc awskiej Kierunek: Informatyka Specjalno : In ynieria Systemów Informatycznych Praca zaliczeniowa do kursu Informatyka systemów autonomicznych Drzewa decyzyjne, metody budowania, zastosowania Opracowanie: Damian Przywara Prowadz cy: Dr Marek Piasecki Wroc aw 5 czerwca 2007

1. Wprowadzenie Drzewa decyzyjne s graficzn metod wspomagania procesu decyzyjnego. Jest to jedna z najcz ciej wykorzystywanych technik analizy danych. Drzewo sk ada si z korzenia oraz ga zi prowadz cych z korzenia do kolejnych wierzcho ków. Wierzcho ki, z których wychodzi co najmniej jedna kraw, s nazywane w ami, a pozosta e wierzcho ki li mi. W ka dym w le sprawdzany jest pewien warunek dotycz cy danej obserwacji, i na jego podstawie wybierana jest jedna z ga zi prowadz ca do kolejnego wierzcho ka. Klasyfikacja danej obserwacji polega na przej ciu od korzenia do li cia i przypisaniu do tej obserwacji klasy zapisanej w danym li ciu. W przypadku uczenia maszynowego drzewa decyzyjne s do wyodr bniania wiedzy z zestawu przyk adów. Przyk adem mo e by drzewo decyzyjne stanów pogody: Rysunek 1. Przyk adowe drzewo decyzyjne dla stanów pogody 2. Konstruowanie drzewa decyzyjnego Ogólny schemat Budowa drzewa rozpoczyna si od podj cia decyzji, czy ma ono by li ciem czy w em, oraz odpowiednio wyboru dla niego etykiety kategorii w pierwszym przypadku lub testu w drugim przypadku. Je li zosta utworzony w ze, to poszczególnym wynikom testów odpowiadaj ga zie prowadz ce z tego w a do poddrzew skonstruowanych zgodnie z tym samym schematem. Konkretne algorytmy ró ni si kryteriami podejmowania wspomnianych wy ej dwóch decyzji: o utworzeniu li cia lub w a oraz o wyborze testu dla w a. Schemat konstruowania drzewa decyzyjnego zosta przedstawiony poni ej:

Funkcja buduj-drzewo(p, d, S) argumenty wej ciowe: P zbiór przyk adów etykietowanych poj cia c, d domy lna etykieta kategorii, S zbiór mo liwych testów; je li kryterium-stopu(p, S) to utwórz li l; d 1 := kategoria(p, d); zwró l; koniec je li utwórz w ze n; t n := wybierz-test(p, S); d := kategoria(p, d); dla wszystkich r R tn wykonaj n[r] := buduj-drzewo(p tnr, d, S {t n }); koniec dla zwró n Algorytm 1. Schemat zst puj cego konstruowania drzewa decyzyjnego Kryterium stopu Kryterium stopu okre la, kiedy ma by zatrzymany proces rozrostu drzewa, czyli kiedy dla pewnego zbioru przyk adów nie powstanie kolejny w ze wewn trzny, lecz li. Sytuacja taka nast pi gdy: aktualny zbiór przyk adów P jest pusty, wszystkie przyk ady ze zbioru P nale do tej samej kategorii poj cia c, zbiór mo liwych do u ycia testów S jest pusty. Kryterium wyboru testu Kryterium wyboru testu decyduje o z ono ci drzewa decyzyjnego. Przy wyborze testu nale y si kierowa zasad, aby zbudowa mo liwie jak najprostsze drzewo. Najbardziej popularne jest wykorzystanie entropii do pomiaru nierównomierno ci rozk adu kategorii. Oparta na niej funkcja oceny testu, nazywana przyrostem informacji, jest obliczana

w nast puj cy sposób: g t (P) = I(P) E t (P), gdzie E t (P) entropi zbiorów przyk adów P a I(P) jest informacja zawart w zbiorze etykietowanych przyk adów P. Entropia jest pewn miar informacji zawartej w zjawisku, które w przypadkowy sposób mo e przyjmowa n stanów. Oznacza wi c tak e warto redni ilo ci informacji niezb dnej do zapami tania faktu, e dane zjawisko przyjmuje jeden spo ród n dost pnych stanów. Preferowane s testy maksymalizuj ce przyrost informacji, co jest równoznaczne z minimalizacj entropii. W niektórych praktycznych zastosowaniach drzew decyzyjnych istotnym kryterium wyboru testów podczas konstrukcji drzewa, oprócz ich jako ci, mo e by koszt. Je li nasz dziedzin dzie zbiór pacjentów, a atrybuty reprezentuj wyniki ró nego rodzaju bada diagnostycznych, to ich warto ci s dost pne dopiero po przeprowadzeniu tych bada. Koszt testów mo e w tym przypadku oznacza nie tylko pieni dze, lecz tak e czas potrzebny na ich przeprowadzenie i dolegliwo lub niebezpiecze stwo dla pacjenta. Powstaje potrzeba ciwego po czenia kryteriów jako ci i kosztu przy ocenie testów, tak aby tanie testy by y stosowane zawsze, kiedy jest to mo liwe, a drogie tylko kiedy jest to konieczne. Przycinanie drzew Przycinanie drzewa polega na zast pieniu jego wybranych poddrzew przez li cie, którym przypisuje si etykiet kategorii najcz ciej wyst puj cej w ród zwi zanych z nim przyk adów. Tego typu uproszczenie spowoduje na ogó pogorszenie dok adno ci klasyfikacji dla zbioru trenuj cego, ale mo e dawa lepsze efekty dla danych spoza tego zbioru. Uzyskane po przyci ciu drzewo b dzie mniejsze i prostsze, co daje lepsz czytelno dla cz owieka, oszcz dno pami ci i wi ksz efektywno obliczeniow procesu przez skrócenie cie ek cz cych korze drzewa z li mi. Implementacj algorytmów przycinania drzew decyzyjnych mo na przeprowadzi na kilka sposobów: przycinanie w trakcie wzrostu jest to przycinanie podczas konstrukcji drzewa, jednak znalezienie kryterium stopu realizuj cego przycinanie w trakcie wzrostu z dobrymi efektami okazuje si trudne, przycinanie od rodka jest to zast powanie przyci tego w a jednym z jego w ów potomnych, nie jest wówczas usuwane ca e drzewo, a jedynie jego korze, przycinanie proste jest to zast powanie przyci tego w a w em zawieraj cym

etykiet klasy-decyzji; jest to stosunkowo prosty mechanizm i bardzo cz sto stosowany. Oprócz odpowiedniego algorytmu modyfikacji drzewa, nale y jeszcze zdecydowa w jaki sposób szacowany b dzie wspó czynnik b du rzeczywistego drzewa, na podstawie którego podejmuje si decyzj o przyci ciu poddrzewa. Mo na wyró ni dwa g ówne podej cia: Przycinanie z oddzielnym zbiorem przycinania podej cie to stosuje si, je li dost pna jest dostatecznie du a ilo danych, które dzieli si na zbiór trenuj cy i testuj cy (np. w stosunku 1/2). Poddrzewo jest przycinane, je li po zast pieniu go li ciem nie zwi kszy si b d próbki na zbiorze testuj cym. Przycinanie na podstawie przyk adów trenuj cych podej cie musi by stosowane, je li nie mo na sobie pozwoli na podzielenie niewielkiej ilo ci dost pnych danych na zbiór trenuj cy i testuj cy. Wówczas decyzja o przyci ciu mo e by podejmowana w oparciu o ró ne heurystyczne oszacowania bazuj ce wy cznie na zbiorze trenuj cym. Okienkowanie Drzewa cz sto s konstruowane na bardzo du ym zbiorze przyk adów (tysi ce, setki tysi cy), zachodzi wi c potrzeba z agodzenia kosztów, jakie niesie za sob analizowanie du ej liczby danych. W takich przypadkach stosuje si min. algorytmy okienkowania. Polegaj one na wybraniu losowo niewielkiej grupy danych, przy pomocy których buduje si drzewo decyzyjne, nast pnie inna, wi ksza grupa danych (te wybierana losowo) s y do testowania i ewentualnie uaktualnienia powstaj cego drzewa. Takie rozwi zanie w wi kszo ci przypadków zwraca drzewo w du ym stopniu spójne z ca ym zbiorem przyk adów ucz cych. Czasami mo na spotka algorytmy oparte na okienkowaniu, ale dokonuj ce wyboru nie na drodze losowanie, ale wybieraj c próbk najbardziej reprezentatywn. Problem brakuj cych warto ci Cz sto zdarza si, e dla niektórych przyk adów warto ci niektórych atrybutów nie s znane. Wyró niamy nast puj ce rozwi zania tego problemu: Pomijanie ze zbioru P s usuwane przyk ady, dla których warto atrybutu a jest nieznana.

Redukcja warto funkcji oceny dla rozwa anego testu, obliczona z pomini ciem przyk adów z brakuj cymi warto ciami atrybutu a, jest mno ona przez wspó czynnik redukcji. Wype nienie brakuj ce warto ci atrybutu s wype niane warto ciami z jego przeciwdziedziny, wybranymi zgodnie z pewn strategi. Podzia zast pienie ka dego przyk adu z nieznan warto ci atrybutu a przyk adami amkowymi dla ró nych warto ci tego atrybutu wyst puj cych w zbiorze P, w proporcji zgodnej z cz sto ci ich wyst powania. 3. Zastosowanie drzew decyzyjnych Drzewa decyzyjne znajduj praktyczne zastosowanie w ró nego rodzaju problemach decyzyjnych, szczególnie takich gdzie wyst puje du o rozga ziaj cych si wariantów a tak e w warunkach ryzyka. Wiele algorytmów uczenia si poj wykorzystuje drzewa decyzyjne do reprezentacji hipotez. Zgodnie z ogólnym celem uczenia si indukcyjnego, d one do uzyskania drzewa decyzyjnego klasyfikuj cego przyk ady trenuj ce z niewielkim b dem próbki i o mo liwie niewielkim rozmiarze, w nadziei, e takie drzewo b dzie mia o równie niewielki b d rzeczywisty. Drzewa decyzyjne znajduj szerokie zastosowanie w problemach zwi zanych z klasyfikacj i predykcj poj typu: diagnostyka medyczna, przewidywanie wydajno ci, akceptacja i udzielanie kredytów. Proces klasyfikacji z wykorzystaniem drzew decyzyjnych jest efektywny obliczeniowo, wyznaczenie kategorii przyk adu wymaga w najgorszym razie przetestowania raz wszystkich jego atrybutów. Przyk adem zastosowania drzew decyzyjnych w klasyfikacji mo e by planowanie czasu i miejsca spotka. Przyk ad takiego drzewa zosta przedstawiony na rysunku 2.

Rysunek 2. Przyk adowe drzewo decyzyjne dla planowania czasu i miejsca spotka 4. Podsumowanie Zalety Drzewa decyzyjne mog reprezentowa dowolnie z one poj cia pojedyncze lub wielokrotne, je li tylko ich definicje da si wyrazi w zale no ci od atrybutów. Efektywno pami ciowa reprezentacji drzewiastej. Czas decyzyjny ograniczony liniowo przez liczb atrybutów (maksymalna g boko drzewa). Forma reprezentacji czytelna dla cz owieka. atwo przej cia od reprezentacji drzewiastej do reprezentacji regu owej. Wady Testuje si warto jednego atrybutu na raz, co powoduje niepotrzebny rozrost drzewa dla danych gdzie poszczególne atrybuty zale od siebie (inne metody reprezentacji mog by w tym przypadku o wiele mniej z one). Kosztowna reprezentacja alternatyw pomi dzy atrybutami znaczny rozrost drzewa (w przeciwie stwie do reprezentacji koniunkcji, która jest zapisywana jako pojedyncza cie ka, czyli droga od korzenia do li cia). Drzewa decyzyjne nie stwarzaj atwej mo liwo ci do ich inkrementacyjnego aktualizowania, algorytmy udoskonalaj ce gotowe ju drzewa poprzez zestaw nowych przyk adów s bardzo z one i zazwyczaj wynikiem jest drzewo gorszej jako ci ni drzewo budowane od pocz tku z kompletnym zestawem przyk adów.

Literatura [1] Cichosz P. Systemy ucz ce si Warszawa: Wydawnictwo Naukowo Techniczne, 2000 [2] Mulawka J. Systemy ekspertowe Warszawa: Wydawnictwo Naukowo-Techniczne, 1996 [3] http://wazniak.mimuw.edu.pl/index.php?title=sztuczna_inteligencja/ [4] http://aragorn.pb.bialystok.pl/~radev/ai/sosn/drozda.htm [5] http://www.ise.pw.edu.pl/~cichosz/um/wyklad/wyklad4/wyklad4.html [6] http://pl.wikipedia.org/