Eksploracja danych OCENA KLASYFIKATORÓW. Wojciech Waloszek. Teresa Zawadzka.

Podobne dokumenty
Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 2. Wojciech Waloszek. Teresa Zawadzka.

Testowanie modeli predykcyjnych

9. Praktyczna ocena jakości klasyfikacji

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

METODY INŻYNIERII WIEDZY

Jakość uczenia i generalizacja

SZTUCZNA INTELIGENCJA

Wprowadzenie do klasyfikacji

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - zastosowanie na sztucznym zbiorze danych

Klasyfikacja LDA + walidacja

Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 1. Wojciech Waloszek. Teresa Zawadzka.

Systemy uczące się wykład 2

Metody klasyfikacji danych - część 1 p.1/24

WYKŁAD 7. Testowanie jakości modeli klasyfikacyjnych metodyka i kryteria

Elementy modelowania matematycznego

ALGORYTM RANDOM FOREST

Wybór modelu i ocena jakości klasyfikatora

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Algorytmy klasyfikacji

Prognozowanie zanieczyszczeń atmosferycznych przy użyciu sieci neuronowych

Wstęp do sieci neuronowych, wykład 09, Walidacja jakości uczenia. Metody statystyczne.

Metody eksploracji danych 3. Ocena modeli. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017


SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Wstęp do sieci neuronowych, wykład 13-14, Walidacja jakości uczenia. Metody statystyczne.

Wprowadzenie do uczenia maszynowego

Proces ETL. Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska {kris,

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

WYKŁAD 6. Reguły decyzyjne

SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU)

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki

Nasz region we współczesnym świecie

Metody eksploracji danych Laboratorium 2. Weka + Python + regresja

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Hurtownie danych. Wprowadzenie do systemów typu Business Intelligence

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Uczenie sieci typu MLP

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Analiza statystyczna trudności tekstu

Wyniki egzaminu gimnazjalnego 2014/2015 część humanistyczna język polski

RILL - przyrostowy klasyfikator regułowy uczący się ze zmiennych środowisk

Opis efektów kształcenia dla modułu zajęć

Hurtownie danych. Rola hurtowni danych w systemach typu Business Intelligence

4.3 Grupowanie według podobieństwa

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

WSTĘP I TAKSONOMIA METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

Konwersatorium Matematyczne Metody Ekonomii narzędzia matematyczne w eksploracji danych. Podstawowe pojęcia

SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy

SZTUCZNA INTELIGENCJA

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU)

Wprowadzenie do programu RapidMiner, część 2 Michał Bereta 1. Wykorzystanie wykresu ROC do porównania modeli klasyfikatorów

ANALIZA SYSTEMU POMIAROWEGO (MSA)

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

Walidacja metod analitycznych Raport z walidacji

METODY STATYSTYCZNE W BIOLOGII

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Statystyczna analiza danych

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Wstęp do sieci neuronowych, wykład 8 Uczenie nienadzorowane.

Data Mining Wykład 4. Plan wykładu

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 5 Kwadratowa analiza dyskryminacyjna QDA. Metody klasyfikacji oparte na rozkładach prawdopodobieństwa.

Uczenie się maszyn. Dariusz Banasiak. Katedra Informatyki Technicznej Wydział Elektroniki

KREATOR REGRESJI LOGISTYCZNEJ

WYKŁAD ĆWICZENIA LABORATORIUM PROJEKT SEMINARIUM

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek

mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Wprowadzenie do teorii prognozowania

Optymalizacja ciągła

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.

STATYSTYKA OPISOWA. Przykłady problemów: - badanie opinii publicznej na temat preferencji wyborczych;

Zaawansowane programowanie w C++ (PCP)

Metody statystyczne kontroli jakości i niezawodności Lekcja II: Karty kontrolne.

Statystyczne Metody Opracowania Wyników Pomiarów

Maciej Oleksy Zenon Matuszyk

Podstawy sztucznej inteligencji

ALGORYTMY SZTUCZNEJ INTELIGENCJI

System wspomagania harmonogramowania przedsięwzięć budowlanych

Indukowane Reguły Decyzyjne I. Wykład 8

Systemy uczące się wykład 1

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych

JAK WYZNACZA SIĘ PARAMETRY WALIDACYJNE

Matlab podstawy + testowanie dokładności modeli inteligencji obliczeniowej

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

Ćwiczenie 3 Temat: Oznaczenia mierników, sposób podłączania i obliczanie błędów Cel ćwiczenia

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Złożoność i zagadnienia implementacyjne. Wybierz najlepszy atrybut i ustaw jako test w korzeniu. Stwórz gałąź dla każdej wartości atrybutu.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Modelowanie interakcji helis transmembranowych

REPREZENTACJA LICZBY, BŁĘDY, ALGORYTMY W OBLICZENIACH

Systemy uczące się Lab 4

Cyfrowe algorytmy sterowania AR S1 semestr 4 Projekt 4

Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu liniowym, scenariusz p bliskie lub większe od n

Zastosowania sieci neuronowych - automatyka identyfikacja sterowanie

Transkrypt:

Eksploracja danych OCENA KLASYFIKATORÓW Wojciech Waloszek wowal@eti.pg.gda.pl Teresa Zawadzka tegra@eti.pg.gda.pl Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska - 1 - W.Waloszek

Ocena wyjścia Omówione metody budują klasyfikatory, które osiągają bardzo dobre wyniki na zbiorze uczącym, Często okazuje się, że klasyfikator osiągający dobry wynik na zbiorze uczącym ma bardzo słabe właściwości predykcyjne, Zjawisko to nazywamy błędem nadmiernego dopasowania. - 2 - W.Waloszek

Błąd nadmiernego dopasowania Nazwisko Wiek Wykształcenie Sam. Z.K. Abacki 32 wyższe tak tak Babacka 35 średnie tak tak Cabacki 26 podstawowe nie nie Dabacka 45 wyższe nie tak Ebacki 38 średnie tak tak Fabacki 28 wyższe nie nie Gabacka 65 średnie tak nie Habacka 22 średnie nie nie Ibacki 43 podstawowe tak nie if Nazwisko=Abacki then Z.K.=tak if Nazwisko=Babacka then Z.K.=tak if Nazwisko=Cabacki then Z.K.=nie... - 3 - W.Waloszek

Zbiór uczący i weryfikujący Standardowe podejście do oceny klasyfikatora to podział zbioru przykładów (zbioru uczącego) na trenujący i testujący - 4 - W.Waloszek

Zbiór uczący i weryfikujący (2) Klasyfikator budujemy na podstawie zbioru trenującego, a następnie badamy jego skuteczność na zbiorze testującym - 5 - W.Waloszek

Zbiór uczący i weryfikujący (3) Podejście to najczęściej stosujemy tylko do oceny siły predykcyjnej, a właściwy klasyfikator budujemy używając całego zbioru przykładów. - 6 - W.Waloszek

Stratyfikacja Przy wyborze zbioru trenującego istnieje niebezpieczeństwo nierównomiernej reprezentacji niektórych klas, Temu efektowi zapobiega stratyfikacja. - 7 - W.Waloszek

Efekt stratyfikacji Stratyfikacja polega na dokonywaniu takich podziałów zbioru przykładów, aby klasy były równomiernie reprezentowane w każdej jego części - 8 - W.Waloszek

Podział zbioru na n części Pomimo dokonania stratyfikacji, wciąż możemy mieć wątpliwości co do wyboru zbioru testującego, Odpowiedzią może być podział zbioru na n części - 9 - W.Waloszek

Podział zbioru na n części (2) Przy zastosowaniu tego podejścia proces uczenia powtarzamy n razy, Przy każdym powtórzeniu jedną część zbioru (tu: ¼) przyjmujemy za zbiór testujący, resztę jako trenujący (tu: ¾) - 10 - W.Waloszek

Podział zbioru na n części (2) Przy zastosowaniu tego podejścia proces uczenia powtarzamy n razy, Przy każdym powtórzeniu jedną część zbioru (tu: ¼) przyjmujemy za zbiór testujący, resztę jako trenujący (tu: ¾) - 11 - W.Waloszek

Podział zbioru na n części (2) Przy zastosowaniu tego podejścia proces uczenia powtarzamy n razy, Przy każdym powtórzeniu jedną część zbioru (tu: ¼) przyjmujemy za zbiór testujący, resztę jako trenujący (tu: ¾) - 12 - W.Waloszek

Podział zbioru na n części (2) Przy zastosowaniu tego podejścia proces uczenia powtarzamy n razy, Przy każdym powtórzeniu jedną część zbioru (tu: ¼) przyjmujemy za zbiór testujący, resztę jako trenujący (tu: ¾) - 13 - W.Waloszek

m-krotne dokonanie podziału Można jednak wskazać same granice podziału jako potencjalne źródło błędów, Rozwiązanie może być m-krotne powtórzenie podziału na n części, Proces uczenia powtarzamy wówczas m n razy - 14 - W.Waloszek

m-krotne dokonanie podziału Można jednak wskazać same granice podziału jako potencjalne źródło błędów, Rozwiązanie może być m-krotne powtórzenie podziału na n części, Proces uczenia powtarzamy wówczas m n razy - 15 - W.Waloszek

Ocena jakości klasyfikatora Opisana metoda jest jedną z najpopularniejszych metod oceny klasyfikatorów: m n-fold cross-validation with stratification Najczęściej przyjmujemy m=n=10 otrzymując: 10 10-fold cross-validation with stratification Walidacja krzyżowa Walidacja skrośna Kroswalidacja Metoda ta wymaga jednak wielu powtórzeń procesu uczenia i dlatego czasem stosowane są metody mniej zasobochłonne - 16 - W.Waloszek

0.632 bootstrap 8 4 2 13 9 1 3 7 6 5 10 11 12 14 17 16 18 15 9 10 4 16 8 1 11 9 10 6 11 17 18 6 15 15 1 15 k razy wybieramy losowo przykład, który umieszczamy w zbiorze trenującym (k moc zbioru przykładów, tu: 18) Przykłady niewybrane ani razu stają się naszym zbiorem testującym Liczba przykładów niewybranych stanowi statystycznie 0.368 k (wybranych 0.632) - 17 - W.Waloszek

Leave-one-out Tutaj za zbiór testujący przyjmujemy jeden przykład, Proces uczenia powtarzamy k razy, ale nie musimy m razy dokonywać podziału ani wykonywać kosztownego procesu stratyfikacji - 18 - W.Waloszek

Leave-one-out Tutaj za zbiór testujący przyjmujemy jeden przykład, Proces uczenia powtarzamy k razy, ale nie musimy m razy dokonywać podziału ani wykonywać kosztownego procesu stratyfikacji - 19 - W.Waloszek

Leave-one-out itd. Tutaj za zbiór testujący przyjmujemy jeden przykład, Proces uczenia powtarzamy k razy, ale nie musimy m razy dokonywać podziału ani wykonywać kosztownego procesu stratyfikacji - 20 - W.Waloszek

Prezentacja efektów oceny Analiza wyników: Macierze błędu, Wykres wzrostu (przyrostu), Krzywe ROC - 21 - W.Waloszek

Macierz błędów tak (rzeczywista) nie (rzeczywista) tak (przewidywana) nie (przewidywana) 1053 229 283 682 Uwaga 1: Niektóre klasyfikatory można ukierunkować na popełnianie konkretnych (mniej kosztownych) rodzajów błędów (np. NKB). Uwaga 2: Część klasyfikatorów udziela odpowiedzi niepewnej (p j dla j-tej klasy). Jakość takich odpowiedzi możemy mierzyć bardziej skomplikowaną funkcją, np. j (p j a j ), przy czym a j = 1 wtwg. przykład faktycznie należy do j-tej klasy. - 22 - W.Waloszek

Wykres wzrostu 2000 wyrocznia rzeczywisty klasyfikator chybił-trafił 1000 2000 5000 10000-23 - W.Waloszek

dobrze odgadnięte tak Krzywa ROC 100% 50% 50% 100% źle odgadnięte tak - 24 - W.Waloszek

UWAGA: p i to odpowiedź dla i-tego przykładu a i to wartość rzeczywista dla i-tego przykładu a to wartość średnia dla danego atrybutu n to liczba przykładów w zbiorze Ocena jakości predykcji numerycznej błąd średni błąd średniokwadratowy błąd średni bezwzględny względny błąd średni względny błąd średniokwadratowy względny błąd bezwzględny 1 1 2 2 n n ( p a )... ( p a ) 1 1 n 2 2 n n ( p a )... ( p a ) 1 1 n p a... p a 1 1 1 n n n 2 2 n n 2 2 n ( p a )... ( p a ) ( a a)... ( a a) 1 1 1 2 2 n n 2 2 n ( p a )... ( p a ) ( a a)... ( a a) p a... p a 1 1 a a... a a 1 n n n - 25 - W.Waloszek

Dziękujemy za uwagę Zapraszamy na wykład: ELEMENTY INŻYNIERII WEJŚCIA I WYJŚCIA - 26 - W.Waloszek