Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Podobne dokumenty
Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III

Elementy modelowania matematycznego

Data Mining Wykład 6. Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa.

Prawdopodobieństwo czerwonych = = 0.33

Sztuczna inteligencja : Algorytm KNN

Klasyfikacja metodą Bayesa

Metody probabilistyczne klasyfikatory bayesowskie

Klasyfikacja. Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji. Eksploracja danych. Klasyfikacja wykład 1

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Mail: Pokój 214, II piętro

Agnieszka Nowak Brzezińska

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

Uwaga: szarych kropek po pokolorowaniu nie uwzględniaj w klasyfikowaniu kolejnych szarych.

Klasyfikacja. Obcinanie drzewa Naiwny klasyfikator Bayes a knn Dokładność klasyfikacji. Eksploracja danych. Klasyfikacja wykład 3

Data Mining Wykład 4. Plan wykładu

Algorytmy klasyfikacji

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

WYKŁAD 3. Klasyfikacja: modele probabilistyczne

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

Hierarchiczna analiza skupień


Metody systemowe i decyzyjne w informatyce

Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować?

ALGORYTM RANDOM FOREST

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Wprowadzenie. Data Science Uczenie się pod nadzorem

Rozpoznawanie obrazów

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2

Systemy uczące się wykład 2

Testowanie hipotez statystycznych.

Rozpoznawanie obrazów

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce

Wnioskowanie bayesowskie

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Metody klasyfikacji danych - część 1 p.1/24

Analiza danych. TEMATYKA PRZEDMIOTU

Rozpoznawanie obrazów

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

2. Empiryczna wersja klasyfikatora bayesowskiego

Metody systemowe i decyzyjne w informatyce

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

KLASYFIKACJA. Słownik języka polskiego

Fuzja sygnałów i filtry bayesowskie

Testowanie modeli predykcyjnych

Wybrane zagadnienia uczenia maszynowego. Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

Statystyczna analiza Danych

Własności statystyczne regresji liniowej. Wykład 4

Centralne twierdzenie graniczne

Rozkłady statystyk z próby

Uczenie sieci neuronowych i bayesowskich

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska

Wykład 9 Wnioskowanie o średnich

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Metody systemowe i decyzyjne w informatyce

Klasyfikacja LDA + walidacja

Metody systemowe i decyzyjne w informatyce

Rachunek prawdopodobieństwa Rozdział 5. Rozkłady łączne

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Testowanie hipotez statystycznych.

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

Algorytmy stochastyczne, wykład 08 Sieci bayesowskie

Laboratorium 4. Naiwny klasyfikator Bayesa.

Prawdopodobieństwo i statystyka r.

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Weryfikacja hipotez statystycznych

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Adrian Horzyk

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Wprowadzenie. Metody bayesowskie Drzewa klasyfikacyjne i lasy losowe Sieci neuronowe SVM. Klasyfikacja. Wstęp

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

P(F=1) F P(C1 = 1 F = 1) P(C1 = 1 F = 0) P(C2 = 1 F = 1) P(C2 = 1 F = 0) P(R = 1 C2 = 1) P(R = 1 C2 = 0)

Metody systemowe i decyzyjne w informatyce

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

Drzewa Decyzyjne, cz.1

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH

STATYSTYKA MATEMATYCZNA

1 Klasyfikator bayesowski

Testowanie hipotez statystycznych.

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Rozpoznawanie obrazów

Optymalizacja systemów

Statystyka i eksploracja danych

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Transkrypt:

Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18

Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza) metoda analizy i eksploracji danych. Cel Znalezienie ogólnego modelu klasyfikacyjnego pewnego zbioru predefiniowanych klas obiektów na podstawie pewnego zbioru danych historycznych a następnie zastosowanie tego modelu do nowych obiektów w których klasa jest nieznana. Przykład 1: Firma ubezpieczeniowa - automatyczna klasyfikacja na kierowców powodujących i niepowodujących wypadki co pozwala ustalić składkę ubezpieczenia. Model 1 : Kierowcy prowadzący czerwone pojazdy o pojemności 650cm 3 powodują wypadki. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 2 / 18

Obszary zastosowania Zastosowanie metod klasyfikacyjnych: medycyna, bankowość - udzielanie kredytów, ubezpieczenia biologia, marketing, informatyka - programy antyspamowe.... Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 3 / 18

Podstawowe pojęcia C - oznacza zbiór atrybutów decyzyjnych (klasy). D - zbiór rekordów (danych wejściowych) dla procesu klasyfikacyjnego (inaczej zwane: dane, obiekty, przykłady, obserwacje, próbki, wektory cech). d - każdy rekord = zbiór atrybutów warunkowych A 1, A 2,..., A n (ciągłe lub kategoryczne). d = (A 1 = x 1, A 2 = x 2,..., A n = x n, C = C i ) Dyskretne wartości atrybutu decyzyjnego C = (C 1, C 2,..., C m ) nazywamy etykietami klas. Zbiór C dzieli zbiór D na rozłączne klasy składające się z rekordów o tej samej wartości C i. s i = ilość d C = C i Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 4 / 18

Klasyfikacja - pojęcia podstawowe Klasyfikacja - znalezienie dla zbioru D funkcji klasyfikacyjnej (modelu klasyfikacyjnego, klasyfikatora) f, która każdemu rekordowi X = (A 1, A 2,..., A n ) odwzorowuje etykietę C i C. Modelem może być: drzewo decyzyjne zbiór reguł klasyfikacyjnych formuły logiczne hiperpłaszczyzna Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 5 / 18

Etapy konstrukcji modelu klasyfikacyjnego Klasyfikacja jest procesem dwuetapowym. 1 Budowa modelu klasyfikacyjnego Podział zbioru D na rozłączne zbiory: treningowy i testowy trening, uczenie się modelu na zbiorze treningowym z wykorzystaniem algorytmu uczącego się. Tzw. uczenie z nadzorem. 2 Krok testowania, na zbiorze testowym. Jeśli jakość modelu jest odpowiednia można wykorzystać go do nowych rekordów dla których wartości zmiennej celu nie są znane. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 6 / 18

Metody oceny algorytmów klasyfikacyjnych Do oceny i porównania modeli klasyfikacyjnych poza miarą trafności klasyfikacji (lub miarą błędu klasyfikacji) stosuje się kryteria : Efektywność (speed) - oznacza koszt obliczeniowy związany z wygenerowaniem i zastosowaniem klasyfikatora do predykcji nowego rekordu. np w systemie automatycznego pakowania produktów dostarczanych na taśmie czas na rozpoznanie danego przedmiotu przez robota, jego pobranie i włożenie do odpowiedniego opakowania jest ograniczony technologicznie. Odporność modelu (robustness) - określa zdolność do poprawnej predykcji w przypadku braku części danych. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 7 / 18

Metody oceny algorytmów klasyfikacyjnych Skalowalności (scalability) - określa zdolność metody do konstrukcji klasyfikatora dla dowolnie dużych wolumenów danych. Interpretowalnośći - odnosi się do stopnia w jakim konstrukcja klasyfikatora pozwala na zrozumienie mechanizmu klasyfikacji danych np. diagnostyka medyczna. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 8 / 18

Naiwny klasyfikator Bayesa Naiwny klasyfikator Bayesowski jest prostym klasyfikatorem statystycznym modelującym relacje prawdopodobieństwa między zbiorem atrybutów a atrybutem decyzyjnym. Cel: Predykcja prawdopodobieństwa, że dany rekord należy do określonej klasy. Jego podstawą jest twierdzenie Bayesa. Niech X i Y oznaczają parę zmiennych losowych. P(X, Y ) - prawdopodobieństwo łączne zmiennych X i Y. P(X = x, Y = y) - prawdopodobieństwo, że zmienna X wynosi x i zmienna Y wynosi y. Dla zmiennych niezależnych P(X, Y ) = P(X ) P(Y ) Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 9 / 18

Klasyfikator Bayesowski Prawdopodobieństwo warunkowe P(X = x Y = y) - prawdopodobieństwo, że zmienna X przyjmie wartość x gdy wartość zmiennej Y wynosi y. P(X Y ) = P(X, Y ) P(Y ) W naszym przypadku chcemy określić: = P(Y X )P(X ) P(Y ) P(C = C i X ) = P(X C = C i) P(C = C i ) P(X ) gdzie X = (A 1, A 2,..., A n ) oznacza krotkę dla której klasa nie jest znana. CEL wyznacz prawdopodobieństwo a posteriori P(C = C i X ) klasy C i przy znajomości klasy X. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 10 / 18

Klasyfikator Bayesowski Rozpatrzmy zbiór treningowy rekordów D o ilości n. Każdy rekord d to n + 1 wymiarowy wektor. Jeśli s i to liczba rekordów zbioru D należących do C i. Niech X to zbiór rekordów, którego klasa nie jest znana. Cel Opracowanie modelu klasyfikacyjnego do predykcji atrybutu decyzyjnego rekordu X. Jeśli wartości atrybutu decyzyjnego niedeterministycznie zależą od wartości atrybutów warunkowych, to możemy rozważać zbiór A i C jako zmienne losowe a zależność między nimi opisać za pomocą prawdopodobieństwa warunkowego P(C A). P(C = C i X ) = P(X C = C i) P(C = C i ) P(X ) Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 11 / 18

Klasyfikator Bayesowski P(C = C i X ) - prawdopodobieństwo a posteriori że C = C i przy znajomości wartości atrybutów warunkowych A rekordu X. P(C = C i ) - prawdopodobieństwo a piori że C = C i bez wiedzy o wartościach z A zastępowane estymatorem P(C = C i ) = s i /n. Ponieważ P(X ) jest stałe dla wszystkich X interesuje nas tylko licznik. Jak oszacować P(X C = C i )?? P(X C = C i ) P(C = C i ) Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 12 / 18

Naiwny Bayes Podstawowym założeniem, przyjmowanym dla Naiwnego Bayesa jest założenie o warunkowej niezależności wartości poszczególnych atrybutów względem danej klasy C = C i. czyli : n P(X C = C i ) = P(A i = x i C = C i ) i=1 Przyjęcie założenia o warunkowej niezależności atrybutów uwalnia naiwny klasyfikator bayesowski od kosztownego obliczania prawdopodobieństwa P(X C = C i ) dla wszystkich kombinacji wartości atrybutów warunkowych A. Obliczenia te zastępujemy oszacowaniem warunkowego prawdopodobieństwa wystąpienia wartości x i atrybutu A i dla klasy C i. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 13 / 18

Naiwny Bayes Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 14 / 18

Przykład Atrybut decyzyjny ryzyko. Prawdopodobieństwo a piori P(ryzyko = wysokie) = 6/14, P(ryzyko = niskie) = 8/14 Dla zmiennej status: P(status = kawaler ryzyko = wysokie) = 2/6, P(status = zonaty ryzyko = wysokie) = 1/6, P(status = kawaler ryzyko = wysokie) = 3/6. Dla atrybutów ciągłych np wiek można wybrać jedną z dwóch metod: Podziel ciągłą zmienną na przedziały i sprawdź częstości warunkowe z poszczególnych przedziałów. P(wiek = 36 ryzyko = wysokie) = 3/6 (20-34, 35-49,50-64) Załóż rozkład np. N(µ, σ) policz estymatory i na podstawie funkcji rozkładu oblicz prawdopodobieństwo. Zadanie : X = (36, rozwiedziony, redni, 2) wyznacz ryzyko. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 15 / 18

Naiwny Bayes Odporny na występowanie punktów osobliwych i zaszumienie danych - nie mają one istotnego wpływu na klasyfikację przy obliczaniu prawdopodobieństw warunkowych. Mały koszt obliczeniowy przy naiwności. W przypadku gdy założenie to nie jest spełnione można użyć tzw. sieci Bayesowskich. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 16 / 18

Klasyfikator najbliższego sąsiada Klasyfikatory najbliższego sąsiedztwa należą do grupy klasyfikatorów opartych na analizie przypadku - nie konstruuje się w nich modelu klasyfikacyjnego a analiza dokonywana jest on-line. Metody te nazywane są często leniwymi metodami uczącymi. Podstawowe wersje algorytmów przeznaczone są do klasyfikacji danych liczbowych. Każdy rekord zbioru treningowego to element n-wymiarowej przestrzeni wzorców. Zakładamy, że zbiór treningowy jest nie tylko zbiorem danych ale przedstawia on model klasyfikacyjny. Podstawowa wersja oznaczana jako 1NN przy klasyfikacji nowego rekordu X wybiera obiekt Y najbliższy obiektowi X i przydziela mu wartość atrybutu decyzyjnego obiektu Y. Duże błędy dla punktów zaszumionych i osobliwych. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 17 / 18

Klasyfikator najbliższego sąsiada Rozszerzeniem algorytmu 1NN jest algorytm knn - k najbliższego sąsiedztwa. knn W przypadku nowego rekordu X wyszukiwane jest k obiektów w przestrzeni wzorców (ze zbioru treningowego) najbliższych dla X. Następnie wykorzystując algorytm głosowania większościowego wybierana jest klasa która dominuje w zbiorze najbliższych sąsiadów. Często też korzysta się z algorytmu ważonego knn gdzie głosy sąsiadów mają swoje wagi. W tej klasie algorytmów największe znaczenie ma przyjęta miara odległości. Jeśli wszystkie atrybuty są numeryczne to przestrzeń wzorców jest przestrzenią Euklidesową. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 18 / 18