Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 2. Wojciech Waloszek. Teresa Zawadzka.

Podobne dokumenty
Eksploracja danych OCENA KLASYFIKATORÓW. Wojciech Waloszek. Teresa Zawadzka.

Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 1. Wojciech Waloszek. Teresa Zawadzka.

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

B jest globalnym pokryciem zbioru {d} wtedy i tylko wtedy, gdy {d} zależy od B i nie istnieje B T takie, że {d} zależy od B ;

Sztuczna Inteligencja Projekt

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Sztuczna Inteligencja Projekt

Wprowadzenie do klasyfikacji

WSPOMAGANIE DECYZJI - MIŁOSZ KADZIŃSKI LAB IV ZBIORY PRZYBLIŻONE I ODKRYWANIE REGUŁ DECYZYJNYCH

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Laboratorium 11. Regresja SVM.

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Złożoność i zagadnienia implementacyjne. Wybierz najlepszy atrybut i ustaw jako test w korzeniu. Stwórz gałąź dla każdej wartości atrybutu.

Wprowadzenie do uczenia maszynowego

Programowanie w VB Proste algorytmy sortowania

WYKŁAD 6. Reguły decyzyjne

Data Mining Wykład 4. Plan wykładu

Algorytmy klasyfikacji

mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.

Algorytmy metaheurystyczne Wykład 11. Piotr Syga


INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

Sortowanie przez scalanie

Wybrane zadania przygotowujące do egzaminu z ISO- cz. 2. dr Piotr Wąsiewicz

Klasyfikacja. Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji. Eksploracja danych. Klasyfikacja wykład 1

Zastosowanie bisymulacji do. Non-Interference XVI FIT, Karpacz 2002

Indukcja drzew decyzyjnych

RILL - przyrostowy klasyfikator regułowy uczący się ze zmiennych środowisk

Systemy uczące się Lab 4

Systemy uczące się wykład 2

Podstawowe algorytmy i ich implementacje w C. Wykład 9

Projekt Sieci neuronowe

Agnieszka Nowak Brzezińska

Niezawodność i Diagnostyka

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Jak przekształcać zmienne jakościowe?

Wykład 2. Poprawność algorytmów

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Systemy uczące się wykład 1

Określanie ważności atrybutów. RapidMiner

operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je.

Algorytmy komputerowe. dr inŝ. Jarosław Forenc

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Laboratorium 6. Indukcja drzew decyzyjnych.

Laboratorium 4. Naiwny klasyfikator Bayesa.

Wykład 3. Metoda dziel i zwyciężaj

Odkrywanie wiedzy w danych

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

11. Blok ten jest blokiem: a. decyzyjnym b. końcowym c. operacyjnym

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Sortowanie danych. Jolanta Bachan. Podstawy programowania

KORPORACYJNE SYSTEMY ZARZĄDZANIA INFORMACJĄ

Wstęp do programowania

Elementy modelowania matematycznego

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

WHILE (wyrażenie) instrukcja;

Klasyfikacja i regresja Wstęp do środowiska Weka

Metody systemowe i decyzyjne w informatyce

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

Kognitywistyka: odkrywanie labiryntu umysłu z różnymi nićmi Ariadny w ręku

Sztuczna inteligencja

SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA

Drzewa Decyzyjne, cz.2

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Metody systemowe i decyzyjne w informatyce

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

Agnieszka Nowak Brzezińska Wykład III

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

ALGORYTM RANDOM FOREST

Metody probabilistyczne klasyfikatory bayesowskie

Algorytmy i złożoności. Wykład 3. Listy jednokierunkowe

FUNKCJA REKURENCYJNA. function s(n:integer):integer; begin if (n>1) then s:=n*s(n-1); else s:=1; end;

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2

Zadanie 1 Przygotuj algorytm programu - sortowanie przez wstawianie.

Hurtownie danych. Wprowadzenie do systemów typu Business Intelligence

Optymalizacja ciągła

Reguły asocjacyjne. 1. Uruchom system weka i wybierz aplikację Knowledge Flow.

Analiza leksykalna 1. Języki formalne i automaty. Dr inż. Janusz Majewski Katedra Informatyki

Politechnika Gdańska Wydział Elektrotechniki i Automatyki Katedra Inżynierii Systemów Sterowania

WHILE (wyrażenie) instrukcja;

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

Metody numeryczne Wykład 4

Drzewa klasyfikacyjne algorytm podstawowy

Analiza algorytmów zadania podstawowe

Hurtownie danych. Rola hurtowni danych w systemach typu Business Intelligence

Struktury Danych i Złożoność Obliczeniowa

Proces ETL. Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska {kris,

Algorytm. Krótka historia algorytmów


Systemy ekspertowe. Wnioskowanie w systemach regułowych. Część piąta. Autor Roman Simiński.

1 Wprowadzenie do algorytmiki

POLITECHNIKA LUBELSKA. Walidacja Modeli Xtext

Agnieszka Nowak Brzezińska Wykład III

ZeroR. Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F

- - Ocena wykonaniu zad3. Brak zad3

Transkrypt:

Eksploracja danych KLASYFIKACJA I REGRESJA cz. 2 Wojciech Waloszek wowal@eti.pg.gda.pl Teresa Zawadzka tegra@eti.pg.gda.pl Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska - 1 - W.Waloszek

Budowa reguł decyzyjnych Reguły decyzyjne są bardzo popularną formą wyrażania zasad klasyfikacji, Budowane są różnymi metodami, jedną z nich jest metoda oparta na podejściu separate-andconquer - 2 - W.Waloszek

Pokrycie i poprawność reguły S.C. D.O.R. Wiek Wykształcenie Sam. Z.K. S 800 32 wyższe tak tak S 1200 35 średnie tak tak S 700 26 podstawowe nie nie M 600 45 wyższe nie tak M 650 38 średnie tak tak S 900 28 wyższe nie nie S 1100 65 średnie tak nie M 500 22 średnie nie nie S 800 43 podstawowe tak nie if Sam.=nie then Z.K.=nie Pokrycie: s = 4 Poprawność: a = 3 / 4-3 - W.Waloszek

Pokrycie i poprawność reguły (2) Pokrycie (ang. coverage, support) to liczba przykładów, dla których zadziała reguła (które spełniają część testową reguły). Poprawność (ang. accuracy, confidence) to liczba przykładów poprawnie klasyfikowanych przez regułę. - 4 - W.Waloszek

Budowa reguł S.C. D.O.R. Wiek Wykształcenie Sam. Z.K. S 800 32 wyższe tak tak S 1200 35 średnie tak tak S 700 26 podstawowe nie nie M 600 45 wyższe nie tak M 650 38 średnie tak tak S 900 28 wyższe nie nie S 1100 65 średnie tak nie M 500 22 średnie nie nie S 800 43 podstawowe tak nie 1. Mamy wyróżniony atrybut decyzyjny, wyznaczający klasy 2. Budujemy regułę pod kątem najlepszej poprawności i, w drugim rzędzie, największego pokrycia. 3. Rozpoczynamy od pustej reguły wyznaczając kolejne testy. - 5 - W.Waloszek

Do reguły pustej: Budowa reguły decyzyjnej if? then Z.K.=? wstawiamy na próbę wszystkie możliwe testy proste (z rezultatem): S.C.=S S.C.=M Wykształcenie=podstawowe Wykształcenie=średnie Wykształcenie=wyższe Sam.=tak Sam.=nie - 6 - W.Waloszek

Budowa reguły decyzyjnej (2) S.C. D.O.R. Wiek Wykształcenie Sam. Z.K. S 800 32 wyższe tak tak S 1200 35 średnie tak tak S 700 26 podstawowe nie nie M 600 45 wyższe nie tak M 650 38 średnie tak tak S 900 28 wyższe nie nie S 1100 65 średnie tak nie M 500 22 średnie nie nie S 800 43 podstawowe tak nie if S.C.=S then Z.K.=? if S.C.=S then Z.K.=nie Pokrycie: s = 6 Poprawność: a = 4 / 6-7 - W.Waloszek

Budowa reguły decyzyjnej (3) Po zbadaniu wszystkich testów otrzymujemy: a s S.C.=S 4/6 6 S.C.=M 2/3 3 Wykształcenie=podstawowe 2/2 2 Wykształcenie=średnie 2/4 4 Wykształcenie=wyższe 2/3 3 Sam.=tak 3/5 5 Sam.=nie 3/4 4 Wybieramy test o największej poprawności - 8 - W.Waloszek

Budowa reguły decyzyjnej (4) Ponieważ osiągnięta poprawność wynosi 100%, pierwsza reguła jest gotowa: if Wykształcenie=podstawowe then Z.K.=nie Następne reguły budowane są analogicznie po zastosowaniu zasady separate-and-conquer - 9 - W.Waloszek

Separate-and-conquer S.C. D.O.R. Wiek Wykształcenie Sam. Z.K. S 800 32 wyższe tak tak S 1200 35 średnie tak tak S 700 26 podstawowe nie nie M 600 45 wyższe nie tak M 650 38 średnie tak tak S 900 28 wyższe nie nie S 1100 65 średnie tak nie M 500 22 średnie nie nie S 800 43 podstawowe tak nie 1. W zbiorze przykładów wyróżniliśmy dwa pokrywane przez regułę 2. Usuwamy te przykłady z naszego zbioru trenującego, a dla pozostałej jego części stosujemy ponownie procedurę budowy najlepszej reguły - 10 - W.Waloszek

Budowa kolejnych reguł Ponownie rozpoczynamy od reguły pustej, rozważając pozostałe testy: S.C.=S S.C.=M Wykształcenie=średnie Wykształcenie=wyższe Sam.=tak Sam.=nie - 11 - W.Waloszek

Budowa kolejnych reguł (2) Po zbadaniu wszystkich testów otrzymujemy: S.C.=S 2/4 4 S.C.=M 2/3 3 Wykształcenie=średnie 2/4 4 Wykształcenie=wyższe 2/3 3 Sam.=tak 3/4 4 Sam.=nie 2/3 3 a s Wybieramy test o największej poprawności - 12 - W.Waloszek

Budowa kolejnych reguł (3) Ponieważ osiągnięta poprawność wynosi 75%, regułę można jeszcze poprawić: if Sam.=tak then Z.K.=tak Regułę możemy rozbudowywać, wybierając kolejne testy: if Sam.=tak and? then Z.K.=? - 13 - W.Waloszek

Rozbudowa reguły S.C. D.O.R. Wiek Wykształcenie Sam. Z.K. S 800 32 wyższe tak tak S 1200 35 średnie tak tak S 700 26 podstawowe nie nie M 600 45 wyższe nie tak M 650 38 średnie tak tak S 900 28 wyższe nie nie S 1100 65 średnie tak nie M 500 22 średnie nie nie S 800 43 podstawowe tak nie Przy rozbudowywaniu reguły ograniczmy się do rozpatrywania przykładów pokrywanych przez pierwszy test niepokrywanych przez poprzednie reguły. if Sam.=tak and? then Z.K.=? - 14 - W.Waloszek

Rozbudowa reguły (2) W miejsce? moglibyśmy wstawić jeden z testów wartości atrybutów nominalnych: S.C.=S S.C.=M Wykształcenie=średnie Wykształcenie=wyższe Pokrycie i poprawność tak wygenerowanej reguły sprawdzamy analogicznie jak poprzednio - 15 - W.Waloszek

Rozbudowa reguły (3) S.C. D.O.R. Wiek Wykształcenie Sam. Z.K. S 800 32 wyższe tak tak S 1200 35 średnie tak tak S 700 26 podstawowe nie nie M 600 45 wyższe nie tak M 650 38 średnie tak tak S 900 28 wyższe nie nie S 1100 65 średnie tak nie M 500 22 średnie nie nie S 800 43 podstawowe tak nie if Sam.=tak and S.C.=S then Z.K.=? Pokrycie: s = 3 Poprawność: a = 2 / 3-16 - W.Waloszek

Rozbudowa reguły (4) Po zbadaniu testów otrzymujemy: S.C.=S 2/3 3 S.C.=M 1/1 1 Wykształcenie=średnie 2/3 3 Wykształcenie=wyższe 1/1 1 Moglibyśmy na tym poprzestać, wybierając test o największej poprawności, ale tutaj włączymy do rozważań atrybuty numeryczne a s - 17 - W.Waloszek

Obsługa atrybutów numerycznych Testy dla atrybutów numerycznych mogą być wyznaczane na różne sposoby również omówioną metodą podziału binarnego minimalizującego entropię: Wiek: 32 35 38 65 Z.K.: tak tak tak nie Co daje nam dwa dodatkowe testy do rozpatrzenia: Wiek<=45 Wiek>45-18 - W.Waloszek

Rola pokrycia Tym razem otrzymujemy wynik: a s S.C.=S 2/3 3 S.C.=M 1/1 1 Wykształcenie=średnie 2/3 3 Wykształcenie=wyższe 1/1 1 Wiek<=45 3/3 3 Wiek>45 1/1 1 D.O.R.<=900 2/2 2 D.O.R.>900 1/2 2 Wybieramy test o największej poprawności i największym pokryciu - 19 - W.Waloszek

Kolejne kroki Ponieważ osiągnięta poprawność wynosi 100%, druga reguła jest gotowa: if Sam.=tak and Wiek<=45 then Z.K.=tak Cały proces jest powtarzany (następna iteracja) po kolejnym zastosowaniu zasady separate-andconquer - 20 - W.Waloszek

Kolejne kroki (2) S.C. D.O.R. Wiek Wykształcenie Sam. Z.K. S 800 32 wyższe tak tak S 1200 35 średnie tak tak S 700 26 podstawowe nie nie M 600 45 wyższe nie tak M 650 38 średnie tak tak S 900 28 wyższe nie nie S 1100 65 średnie tak nie M 500 22 średnie nie nie S 800 43 podstawowe tak nie if Wykształcenie=podstawowe then Z.K.=nie if Sam.=tak and Wiek<=45 then Z.K.=tak if S.C.=S then Z.K.=nie if D.O.R.<=500 then Z.K.=nie else Z.K.=tak - 21 - W.Waloszek

Budowa reguł komentarz Zastosowanie zasady separate-and-conquer sprawia, że wygenerowane reguły muszą być rozpatrywane łącznie i w kolejności, Metoda w sposób naturalny radzi sobie z brakującymi wartościami atrybutów (są one spychane do następnej iteracji), Metodę można rozszerzyć o pewne mechanizmy uogólniające, przycinające reguły według pewnych zależności statystycznych - 22 - W.Waloszek

Budowa reguł podsumowanie Algorytm budowy reguł decyzyjnych: 1. Zadanie: predykcja (klasyfikacja) 2. Struktura modelu: reguły rozpatrywane w kolejności 3. Funkcja oceny jakości: poprawność (1) i pokrycie (2) 4. Metody przeszukiwania: zachłanna, separate-and-conquer 5. Dodatkowe założenia: Obsługa atrybutów numerycznych metodą podziału binarnego minimalizującego entropię - 23 - W.Waloszek

Dziękujemy za uwagę Zapraszamy na wykład: KLASYFIKACJA I REGRESJA cz. 3-24 - W.Waloszek