Algorytmy klasyfikacji

Podobne dokumenty
Algorytmy klasyfikacji

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

Drzewa decyzyjne i lasy losowe

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

ALGORYTM RANDOM FOREST

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Elementy modelowania matematycznego

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Co to są drzewa decyzji

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew.

Złożoność i zagadnienia implementacyjne. Wybierz najlepszy atrybut i ustaw jako test w korzeniu. Stwórz gałąź dla każdej wartości atrybutu.

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

Drzewa decyzyjne. Nguyen Hung Son. Nguyen Hung Son () DT 1 / 34

Indukcja drzew decyzyjnych

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Systemy uczące się wykład 2

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Klasyfikacja metodą Bayesa

Drzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber

Drzewa klasyfikacyjne algorytm podstawowy

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Systemy decyzyjne Wyk lad 4: Drzewa decyzyjne

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. Metoda CART. MiNI PW

Metody klasyfikacji danych - część 1 p.1/24

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Metody probabilistyczne klasyfikatory bayesowskie

Indukowane Reguły Decyzyjne I. Wykład 8

Politechnika Warszawska Wydział Matematyki i Nauk Informacyjnych DRZEWA KLASYFIKACYJNE ICH BUDOWA, PROBLEMY ZŁOŻONOŚCI I SKALOWALNOŚCI

Indukowane Reguły Decyzyjne I. Wykład 3

Uczenie się maszyn. Dariusz Banasiak. Katedra Informatyki Technicznej Wydział Elektroniki

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Sprawozdanie z zadania Modele predykcyjne (2)

Podstawy. Prawdopodobieństwo. Witold Andrzejewski & Paweł Boiński, Politechnika Poznańska, Wydział Informatyki 218/633

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. METODA CART. Zaawansowane Metody Uczenia Maszynowego

Metody klasyfikacji i rozpoznawania wzorców. Najważniejsze rodzaje klasyfikatorów

Klasyfikacja. Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji. Eksploracja danych. Klasyfikacja wykład 1

Symulacyjne metody wyceny opcji amerykańskich

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Wykład 2. Drzewa zbalansowane AVL i 2-3-4

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Podstawy Informatyki. Metody dostępu do danych

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. METODA CART. Zaawansowane Metody Uczenia Maszynowego

prowadzący dr ADRIAN HORZYK /~horzyk tel.: Konsultacje paw. D-13/325

Sztuczna inteligencja : Algorytm KNN

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Systemy uczące się wykład 1

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

ED Laboratorium 3. Drzewa decyzyjne

Temat: Algorytm kompresji plików metodą Huffmana

Pobieranie prób i rozkład z próby

Metody Eksploracji Danych. Klasyfikacja

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Analiza danych. TEMATYKA PRZEDMIOTU

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2

CLUSTERING. Metody grupowania danych

Rozmyte drzewa decyzyjne. Łukasz Ryniewicz Metody inteligencji obliczeniowej

Data Mining Wykład 6. Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa.

SZTUCZNA INTELIGENCJA

ZeroR. Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 2. Wojciech Waloszek. Teresa Zawadzka.

InTrees: Modularne podejście do Drzew Decyzyjnych

Metody systemowe i decyzyjne w informatyce

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Uczenie maszyn. Projekt: Porównanie algorytmów tworzenia drzew decyzyjnych. Politechnika Wrocławska. Michał Płodowski Michał Suszko

ALGORYTMY I STRUKTURY DANYCH

WYKŁAD 3. Klasyfikacja: modele probabilistyczne

Wprowadzenie do uczenia maszynowego

PLAN WYKŁADU BAZY DANYCH INDEKSY - DEFINICJE. Indeksy jednopoziomowe Indeksy wielopoziomowe Indeksy z użyciem B-drzew i B + -drzew

INDUKCJA DRZEW DECYZYJNYCH

Metody systemowe i decyzyjne w informatyce

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Podstawowe modele probabilistyczne

Grafy (3): drzewa. Wykłady z matematyki dyskretnej dla informatyków i teleinformatyków. UTP Bydgoszcz

Metoda Tablic Semantycznych

Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 1. Wojciech Waloszek. Teresa Zawadzka.

Drzewa Decyzyjne, cz.2

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Testowanie hipotez statystycznych

Algorytmy i Struktury Danych, 9. ćwiczenia

Klasyfikacja. Obcinanie drzewa Naiwny klasyfikator Bayes a knn Dokładność klasyfikacji. Eksploracja danych. Klasyfikacja wykład 3

Eksploracja danych OCENA KLASYFIKATORÓW. Wojciech Waloszek. Teresa Zawadzka.

Określanie ważności atrybutów. RapidMiner

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

Klasyfikacja LDA + walidacja

Wprowadzenie do klasyfikacji

Uniwersytet w Białymstoku Wydział Ekonomiczno-Informatyczny w Wilnie SYLLABUS na rok akademicki 2012/2013

Algorytmy i Struktury Danych

Transkrypt:

Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015

1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe 5 Metoda najbliższych sasiadów 6 Naiwny klasyfikator Bayesa

Wnioskowanie

Wnioskowanie Dziedzina (populacja) zbiór danych (podzbiór dziedziny) przykłady atrybuty (funkcja, która każdemu przykładowi z dziedziny przyporzadkowuje wartość) ciagłe dyskretne atrybut docelowy (!)

Wnioskowanie Dane wnioskowanie indukcyjne Wiedza - pozwala nam coś powiedzieć o nowych przykładach z tej samej dziedziny Model - wiedza w reprezentacji obliczeniowej Predykcja, wnioskowanie dedukcyjne Dane

Klasyfikacja Klasyfikacja Wiedza o tym jak przynależność do pewnych kategorii (klas) zależy od atrybutów. Model postaci h : X C - skonstruowany na podstawie podzbioru gdzie c C jest znane. pozwala wyznaczyć c dla całej dziedziny X. W praktyce wybrany atrybut reprezentuje kategorie.

Zastosowania Zastosowania Automatyczne diagnozowanie pacjentów. Segmentacja klientów. Wspomaganie decyzji kredytowych. Filtrowanie spamu.

Drzewo decyzyjne Węzły (podziały) korzeń Liście (klasy docelowe) Konstrukcja drzewa Kryterium stopu (węzeł czy liść) Wybór testu (podziału)

Ostateczne kryterium stopu (na pewno liść): Zbiór zawiera przykłady tylko jednej klasy Brak możliwości podziału (np. takie same atrybuty, a różne klasy) Zbiór pusty (w przypadku podziałów niebinarnych)

Zadane kryteria stopu: Minimalna liczba przykładów w węźle Minimalna liczba przykładów w liściu Maksymalna głębokość drzewa Maksymalna czystość klas w liściu Minimalny przyrost informacji po podziale

Rodzaje testów: testy tożsamościowe, t(x) = a(x) atrybut jest testem - tyle podziałów ile możliwych wartości atrybutu testy równościowe 1 a(x) = v t(x) = 0 a(x) v

Rodzaje testów: testy przynależnościowe 1 a(x) V t(x) = 0 a(x) / V testy podziałowe t(x) = 1 a(x) V 1 2 a(x) V 2... k a(x) V k

Rodzaje testów: testy nierównościowe 1 a(x) < v t(x) = 0 a(x) v

Wybór podziału: Entropia - miara ilości informacji E = C i X log C i X C i - przykłady danej klasy X - Wszystkie przykłady w węźle Przyrost informacji E = E E T, E T - średnia ważona entropii po podziale minimalizujac E T maksymalizujemy E

Wybór podziału: Indeks Giniego gini(x) = 1 ( C i X )2 przyjmuje wartości [0, 1] gini = 0 oznacza, że wszystkie obiekty należa do tej samej klasy przyrost informacji - analogicznie do entropii

Ocena jakości drzewa rozmiar (preferujemy mniejsze drzewa) mała liczba węzłów mała liczba liści lub mała wysokość drzewa dokładność klasyfikacji (odsetek błędów) na zbiorze trenujacym na zbiorze testowym (!)

Nadmierne dopasowanie Model h 1 jest nadmiernie dopasowany do zbioru trenujacego T jeśli istnieje takie h 2, że h 1 jest lepszy niż h 2 na zbiorze T h 2 jest lepszy niż h 1 na zbiorze rzeczywistym mniejsze drzewa maja mniejsze ryzyko nadmiernego dopasowania

Przycinanie poddanie drzewa zabiegowi redukcji już po jego zbudowaniu zastapienie poddrzewa liściem

Przycinanie Co musimy wiedzieć? kolejność przycinanie od dołu pozwala nanosić łagodne zmiany Kryterium przycinania

Kryteria przycianiania redukcja błędu (ang. Reduced Error Pruning) zastępujemy poddrzewo liściem, kiedy bład po przycięciu jest taki sam albo mniejszy: e(l) e(w) wymagany osobny zbiór przykładów do przycinania minimalizacja błędu (ang. Minimal Error Pruning) m-estymacja błędów w liściu ê = 1 C i +m p X +m propagacja w górę (średnia ważona)

Kryteria przycianiania Przycinanie z parametrem złożoności (ang. Cost-complexity Pruning) warunek: e(l) e(w)+α w α - parametr złożoności w - liczba podziałów w węźle w Płynnie przesuwajac parametr α otrzymujemy ciag drzew, w którym każde kolejne jest naddrzewem poprzedniego. reguła 1 odchylenia standardowego

Lasy losowe Lasy losowe: przykład modelowania zespołowego pewna liczba drzew decyzyjnych losowe zaburzenie algorytmu bagging przykładów (nieobciażony estymator błędu klasyfikacji) generowanie podziałów na podstawie jednego z wcześniej wylosowanych atrybutów predykcja przez głosowanie większa stabilność i jakość klasyfikacji

Metoda najbliższych sasiadów Metoda najbliższych sasiadów leniwe podejście do klasyfikacji bardzo prosta klasa decyzyjna taka jak wśród k najbliższych przykładów wymaga określenia miary niepodobieństwa

Naiwny klasyfikator Bayesa Twierdzenie Bayesa: P(h D) = P(h)P(D h) P(D) niech h c = d otrzymujemy D a 1 = v 1, a 2 = v 2,..., a k = v k P(c = d a 1 = v 1, a 2 = v 2,..., a k = v k ) = = P(c = d)p(a 1 = v 1, a 2 = v 2,..., a k = v k c = d) P(a 1 = v 1, a 2 = v 2,..., a k = v k ) = ( )

Naiwny klasyfikator Bayesa Zauważmy, że mianownik nie zależy od atrybutu docelowego, pozbadźmy się go dla uproszczenia: ( ) P(c = d)p(a 1 = v 1, a 2 = v 2,..., a k = v k c = d) = ( ) Przyjmijmy jeszcze, że a i i a j sa niezależne dla i j, wtedy: i j P(a i = v i, a j = v j ) = P(a i = v i ) P(a j = v j ) k ( ) = P(c = d) P(a i = v i c = d) i=1

Naiwny klasyfikator Bayesa Predykcja k Pr(x) = argmax d C [P(c = d) P(a i = a i (x) c = d)] Naiwne założenie o niezależności atrybutów. Mimo wszystko wszystko całkiem niezłe wyniki klasyfikacji. Po przeskalowaniu możliwość predykcji prawdopodobieństw atrybutu docelowego. i=1

Literatura Daniel T. Larose, Discovering knowledge in data Tadeusz Morzy, Eksploracja danych: metody i algorytmy Paweł Cichosz, Systemy uczace się

Dziękuję za uwagę.