Drzewa decyzyjne i lasy losowe

Podobne dokumenty
8. Drzewa decyzyjne, bagging, boosting i lasy losowe

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. Metoda CART. MiNI PW

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew.

ALGORYTM RANDOM FOREST

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. METODA CART. Zaawansowane Metody Uczenia Maszynowego

Algorytmy klasyfikacji

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. METODA CART. Zaawansowane Metody Uczenia Maszynowego

Drzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber

Metody konstrukcji oraz symulacyjne badanie właściwości jednorodnych i niejednorodnych komitetów klasyfikatorów

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Metody klasyfikacji danych - część 1 p.1/24

Rozmyte drzewa decyzyjne. Łukasz Ryniewicz Metody inteligencji obliczeniowej

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

DRZEWA REGRESYJNE I LASY LOSOWE JAKO

Machine learning Lecture 2

Algorytmy klasyfikacji

Klasteryzacja i klasyfikacja danych spektrometrycznych

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

ED Laboratorium 3. Drzewa decyzyjne

Indukowane Reguły Decyzyjne I. Wykład 8

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Uczenie maszyn. Projekt: Porównanie algorytmów tworzenia drzew decyzyjnych. Politechnika Wrocławska. Michał Płodowski Michał Suszko

Uczenie maszynowe w zastosowaniu do fizyki cząstek

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Złożoność i zagadnienia implementacyjne. Wybierz najlepszy atrybut i ustaw jako test w korzeniu. Stwórz gałąź dla każdej wartości atrybutu.

Co to są drzewa decyzji

Wybrane zagadnienia uczenia maszynowego. Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec

Grafy (3): drzewa. Wykłady z matematyki dyskretnej dla informatyków i teleinformatyków. UTP Bydgoszcz

Wojciech Skwirz

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Indukowane Reguły Decyzyjne I. Wykład 3

Drzewa klasyfikacyjne algorytm podstawowy

Sprawozdanie z zadania Modele predykcyjne (2)

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Metody klasyfikacji dla nielicznej próbki wektorów o wielkim wymiarze

Wprowadzenie do klasyfikacji

Systemy uczące się wykład 2

WSPOMAGANIE PROJEKTOWANIA PROCESU TECHNOLOGICZNEGO PRZY UŻYCIU DRZEW KLASYFIKACYJNYCH

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

PRZEWIDYWANIE WŁAŚCIWOŚCI PRODUKTU Z WYKORZYSTANIEM UCZENIA MASZYN

Metody Eksploracji Danych. Klasyfikacja

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2

ZASTOSOWANIE TECHNIK DATA MINING W BADANIACH NAUKOWYCH

Multiklasyfikatory z funkcją kompetencji

Optymalizacja a uczenie się

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Indukcja drzew decyzyjnych

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

Optymalizacja ciągła

Algorytmy i struktury danych. Drzewa: BST, kopce. Letnie Warsztaty Matematyczno-Informatyczne

Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II

Uczenie się maszyn. Dariusz Banasiak. Katedra Informatyki Technicznej Wydział Elektroniki

Wprowadzenie do uczenia maszynowego

Zofia Kruczkiewicz, Algorytmu i struktury danych, Wykład 14, 1

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Klasyfikacja. Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji. Eksploracja danych. Klasyfikacja wykład 1

Szkolenie Analiza dyskryminacyjna

Agnieszka Nowak Brzezińska Wykład III

DOŚWIADCZENIA WIELOETAPOWE

Opis efektów kształcenia dla modułu zajęć

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

A Zadanie

OD POJEDYNCZYCH DRZEW DO LOSOWEGO LASU

Politechnika Warszawska Wydział Matematyki i Nauk Informacyjnych METODY ŁĄCZENIA KLASYFIKATORÓW W ANALIZIE DYSKRYMINACYJNEJ

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

KODY SYMBOLI. Kod Shannona-Fano. Algorytm S-F. Przykład S-F

Politechnika Warszawska Wydział Matematyki i Nauk Informacyjnych DRZEWA KLASYFIKACYJNE ICH BUDOWA, PROBLEMY ZŁOŻONOŚCI I SKALOWALNOŚCI

Drzewa Decyzyjne, cz.2

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Quick Launch Manual:

Obliczanie prawdopodobieństwa za pomocą metody drzew metoda drzew. Drzewem Reguła iloczynów. Reguła sum.

Wprowadzenie do uczenia maszynowego

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

Kwantyle. Kwantyl rzędu p rozkładu prawdopodobieństwa to taka liczba x p. , że. Możemy go obliczyć z dystrybuanty: P(X x p.

Wprowadzenie. Metody bayesowskie Drzewa klasyfikacyjne i lasy losowe Sieci neuronowe SVM. Klasyfikacja. Wstęp

METODY INŻYNIERII WIEDZY

ZeroR. Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F

Analiza składowych głównych. Wprowadzenie

Laboratorium 6. Indukcja drzew decyzyjnych.

DRZEWA KLASYFIKACYJNE W BADANIACH SATYSFAKCJI

Współczesne zmiany narzędzi badań statystycznych

Agnieszka Nowak Brzezińska Wykład III

SYSTEMY UCZĄCE SIĘ WYKŁAD 1. INFORMACJE WSTĘPNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Metody klasyfikacji i rozpoznawania wzorców. Najważniejsze rodzaje klasyfikatorów

51. Wykorzystywanie sumy, iloczynu i różnicy zdarzeń do obliczania prawdopodobieństw zdarzeń.

9. Praktyczna ocena jakości klasyfikacji

Pobieranie prób i rozkład z próby

Projekt Sieci neuronowe

Digraf. 13 maja 2017

ALGORYTMY SZTUCZNEJ INTELIGENCJI

Transkrypt:

Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING

CZYM JEST DRZEWO? Skierowany spójny graf acykliczny Pierwszy wierzchołek korzeń Krawędzie gałęzie Węzły końcowe - liście Droga przejście od korzenia wzdłuż kolejnych gałęzi (do liścia) Źródło: https://blogs.msdn.microsoft.com/chrsmith/2009/11/02/awesome-f-decision-trees-part-ii/

ZADANIA DLA DRZEWA Zadania klasyfikacji Zadania regresji Uczenie na podstawie zbioru, czego nie ma w zbiorze tego nie wiemy... Źródło: http://www.saedsayad.com/decision_tree.htm

PODZIAŁ DRZEWA Podział ma być przeprowadzony tak aby różnorodność próbek docierających do wezłów dzieci była możliwie najmniejsza podział lokalnie optymalny Miary różnorodności klas Proporcja błędnych klasyfikacji Indeks Giniego Entropia Miarę różnorodności klas w dzieciach węzła obliczamy jako ważoną sumę Indeks Giniego i Entropia są bardziej czułe na zmiany rozkładów klas

PRZYKŁAD Źródło: https://www.analyticsvidhya.com/blog/2016/04/complete-tutorial-tree-based-modeling-scratch-in-python/

PRZYCINANIE DRZEWA Drzewo odzwierciedli tylko nasz zbiór przeuczy się, trzeba je przyciąć! Budujemy pełne drzewo (w węzłach obserwacje z tej samej klasy) Sposoby: 1. Heurystyka 5 elementów w liściu i nie idziemy dalej 2. Heurystyka Ograniczenie wysokości drzewa 3. Ucinamy po liściu, tak aby zmniejszyć błąd na zbiorze walidacyjnym 4. Kryterium kosztu złożoności R α T = R T + α T, zadanie znalezienia minimum 5. Algorytm Breimana wybór optymalnego Alfa (współczynnika złożoności), 1SE

ZADANIE REGRESJI DLA DRZEWA Źródło: An introduction to statistical learning G. James, D. Witten, T. Hastie, R. Tibshirani

ZADANIE REGRESJI DLA DRZEWA Źródło: An introduction to statistical learning G. James, D. Witten, T. Hastie, R. Tibshirani

DRZEWA PLUSY I MINUSY Łatwe do wytłumaczenia i zrozumienia prezentacja dla managerów ;) Odwzorowują ludzkie podejście Zadanie klasyfikacji możliwe do realizacji bez tworzenia dummy variables łatwo je zastosować bez inżynierii danych Duża niestabilność mała zmiana danych, duża zmiana drzewa Podatne na przeuczenie

BAGGING Mamy dane C lichych klasyfikatorów (problem z dwiema klasami) słabi uczniowie, niewiele lepsi niż rzut monetą (0,55) Jeżeli C jest duże, to większość klasyfikatorów dokona poprawnej klasyfikacji Wytrenujmy pełne drzewa na pseudopróbach, o liczności n < N (Breinman) Losowanie z rokładu 1/n z zwracaniem Drzewa głosują zwykłą większością

BOOSTING Zaproponowana w 1990 przez Schapire a Losowanie pseudoprób (ze zwracaniem), rozkład jednostajny do pierwszej pseudopróby Kolejne, rozkład zmienia się, zwiększamy prawdopodobieństwa wylosowania próby, która została niepoprawnie zaklasyfikowana przez poprzedni klasyfikator (META)Algorytm AdaBoost dyskretny adaptacyjny boosting, bez losowania

Źródło: https://quantdare.com/what-is-the-difference-between-bagging-and-boosting/

LASY LOSOWE 1. Wylosuj ze zwracaniem n-elementową pseudopróbę 2. W każdym węźle (!) wylosuj m spośród p atrybutów (bez zwracania) i zastosuj wybraną metodę podziału, b. często m<<p np. m=sqrt(p) 3. Zbuduj drzewo bez przycinania, aż do otrzymania liści z elementami z jednej klasy 4. Zbuduj C takich drzew 5. Drzewa głosują nad rozwiązaniem, wybór zwykłą większością głosów Lasy losowe to uogólnienie bagging, gdzie m<>p

LASY LOSOWE - UŻYCIE Źródło (1): https://databricks.com/blog/2015/01/21/random-forests-and-boosting-in-mllib.html Źródło (2): http://www.iis.ee.ic.ac.uk/icvl/iccv09_tutorial.html

LASY LOSOWE PLUSY DODATNIE I PLUSY UJEMNE + Dobre wyniki! + Odpowiednie dla dużych zbiorów m<<p + Dają oszacowanie, które zmienne są ważne (zwiększone prawdopodobieństwo) - Czasem niestety się przeuczają (dane zaszumione)

LITERATURA Statystyczne systemy uczące się J. Koronacki, J. Ćwik An introduction to statistical learning G. James, D. Witten, T. Hastie, R. Tibshirani The elements of statistical learning T. Hastie, R. Tibshirani, J. Friedman

DZIĘKUJĘ ZA UWAGĘ!