Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18
Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza) metoda analizy i eksploracji danych. Cel Znalezienie ogólnego modelu klasyfikacyjnego pewnego zbioru predefiniowanych klas obiektów na podstawie pewnego zbioru danych historycznych a następnie zastosowanie tego modelu do nowych obiektów w których klasa jest nieznana. Przykład 1: Firma ubezpieczeniowa - automatyczna klasyfikacja na kierowców powodujących i niepowodujących wypadki co pozwala ustalić składkę ubezpieczenia. Model 1 : Kierowcy prowadzący czerwone pojazdy o pojemności 650cm 3 powodują wypadki. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 2 / 18
Obszary zastosowania Zastosowanie metod klasyfikacyjnych: medycyna, bankowość - udzielanie kredytów, ubezpieczenia biologia, marketing, informatyka - programy antyspamowe.... Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 3 / 18
Podstawowe pojęcia C - oznacza zbiór atrybutów decyzyjnych (klasy). D - zbiór rekordów (danych wejściowych) dla procesu klasyfikacyjnego (inaczej zwane: dane, obiekty, przykłady, obserwacje, próbki, wektory cech). d - każdy rekord = zbiór atrybutów warunkowych A 1, A 2,..., A n (ciągłe lub kategoryczne). d = (A 1 = x 1, A 2 = x 2,..., A n = x n, C = C i ) Dyskretne wartości atrybutu decyzyjnego C = (C 1, C 2,..., C m ) nazywamy etykietami klas. Zbiór C dzieli zbiór D na rozłączne klasy składające się z rekordów o tej samej wartości C i. s i = ilość d C = C i Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 4 / 18
Klasyfikacja - pojęcia podstawowe Klasyfikacja - znalezienie dla zbioru D funkcji klasyfikacyjnej (modelu klasyfikacyjnego, klasyfikatora) f, która każdemu rekordowi X = (A 1, A 2,..., A n ) odwzorowuje etykietę C i C. Modelem może być: drzewo decyzyjne zbiór reguł klasyfikacyjnych formuły logiczne hiperpłaszczyzna Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 5 / 18
Etapy konstrukcji modelu klasyfikacyjnego Klasyfikacja jest procesem dwuetapowym. 1 Budowa modelu klasyfikacyjnego Podział zbioru D na rozłączne zbiory: treningowy i testowy trening, uczenie się modelu na zbiorze treningowym z wykorzystaniem algorytmu uczącego się. Tzw. uczenie z nadzorem. 2 Krok testowania, na zbiorze testowym. Jeśli jakość modelu jest odpowiednia można wykorzystać go do nowych rekordów dla których wartości zmiennej celu nie są znane. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 6 / 18
Metody oceny algorytmów klasyfikacyjnych Do oceny i porównania modeli klasyfikacyjnych poza miarą trafności klasyfikacji (lub miarą błędu klasyfikacji) stosuje się kryteria : Efektywność (speed) - oznacza koszt obliczeniowy związany z wygenerowaniem i zastosowaniem klasyfikatora do predykcji nowego rekordu. np w systemie automatycznego pakowania produktów dostarczanych na taśmie czas na rozpoznanie danego przedmiotu przez robota, jego pobranie i włożenie do odpowiedniego opakowania jest ograniczony technologicznie. Odporność modelu (robustness) - określa zdolność do poprawnej predykcji w przypadku braku części danych. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 7 / 18
Metody oceny algorytmów klasyfikacyjnych Skalowalności (scalability) - określa zdolność metody do konstrukcji klasyfikatora dla dowolnie dużych wolumenów danych. Interpretowalnośći - odnosi się do stopnia w jakim konstrukcja klasyfikatora pozwala na zrozumienie mechanizmu klasyfikacji danych np. diagnostyka medyczna. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 8 / 18
Naiwny klasyfikator Bayesa Naiwny klasyfikator Bayesowski jest prostym klasyfikatorem statystycznym modelującym relacje prawdopodobieństwa między zbiorem atrybutów a atrybutem decyzyjnym. Cel: Predykcja prawdopodobieństwa, że dany rekord należy do określonej klasy. Jego podstawą jest twierdzenie Bayesa. Niech X i Y oznaczają parę zmiennych losowych. P(X, Y ) - prawdopodobieństwo łączne zmiennych X i Y. P(X = x, Y = y) - prawdopodobieństwo, że zmienna X wynosi x i zmienna Y wynosi y. Dla zmiennych niezależnych P(X, Y ) = P(X ) P(Y ) Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 9 / 18
Klasyfikator Bayesowski Prawdopodobieństwo warunkowe P(X = x Y = y) - prawdopodobieństwo, że zmienna X przyjmie wartość x gdy wartość zmiennej Y wynosi y. P(X Y ) = P(X, Y ) P(Y ) W naszym przypadku chcemy określić: = P(Y X )P(X ) P(Y ) P(C = C i X ) = P(X C = C i) P(C = C i ) P(X ) gdzie X = (A 1, A 2,..., A n ) oznacza krotkę dla której klasa nie jest znana. CEL wyznacz prawdopodobieństwo a posteriori P(C = C i X ) klasy C i przy znajomości klasy X. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 10 / 18
Klasyfikator Bayesowski Rozpatrzmy zbiór treningowy rekordów D o ilości n. Każdy rekord d to n + 1 wymiarowy wektor. Jeśli s i to liczba rekordów zbioru D należących do C i. Niech X to zbiór rekordów, którego klasa nie jest znana. Cel Opracowanie modelu klasyfikacyjnego do predykcji atrybutu decyzyjnego rekordu X. Jeśli wartości atrybutu decyzyjnego niedeterministycznie zależą od wartości atrybutów warunkowych, to możemy rozważać zbiór A i C jako zmienne losowe a zależność między nimi opisać za pomocą prawdopodobieństwa warunkowego P(C A). P(C = C i X ) = P(X C = C i) P(C = C i ) P(X ) Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 11 / 18
Klasyfikator Bayesowski P(C = C i X ) - prawdopodobieństwo a posteriori że C = C i przy znajomości wartości atrybutów warunkowych A rekordu X. P(C = C i ) - prawdopodobieństwo a piori że C = C i bez wiedzy o wartościach z A zastępowane estymatorem P(C = C i ) = s i /n. Ponieważ P(X ) jest stałe dla wszystkich X interesuje nas tylko licznik. Jak oszacować P(X C = C i )?? P(X C = C i ) P(C = C i ) Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 12 / 18
Naiwny Bayes Podstawowym założeniem, przyjmowanym dla Naiwnego Bayesa jest założenie o warunkowej niezależności wartości poszczególnych atrybutów względem danej klasy C = C i. czyli : n P(X C = C i ) = P(A i = x i C = C i ) i=1 Przyjęcie założenia o warunkowej niezależności atrybutów uwalnia naiwny klasyfikator bayesowski od kosztownego obliczania prawdopodobieństwa P(X C = C i ) dla wszystkich kombinacji wartości atrybutów warunkowych A. Obliczenia te zastępujemy oszacowaniem warunkowego prawdopodobieństwa wystąpienia wartości x i atrybutu A i dla klasy C i. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 13 / 18
Naiwny Bayes Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 14 / 18
Przykład Atrybut decyzyjny ryzyko. Prawdopodobieństwo a piori P(ryzyko = wysokie) = 6/14, P(ryzyko = niskie) = 8/14 Dla zmiennej status: P(status = kawaler ryzyko = wysokie) = 2/6, P(status = zonaty ryzyko = wysokie) = 1/6, P(status = kawaler ryzyko = wysokie) = 3/6. Dla atrybutów ciągłych np wiek można wybrać jedną z dwóch metod: Podziel ciągłą zmienną na przedziały i sprawdź częstości warunkowe z poszczególnych przedziałów. P(wiek = 36 ryzyko = wysokie) = 3/6 (20-34, 35-49,50-64) Załóż rozkład np. N(µ, σ) policz estymatory i na podstawie funkcji rozkładu oblicz prawdopodobieństwo. Zadanie : X = (36, rozwiedziony, redni, 2) wyznacz ryzyko. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 15 / 18
Naiwny Bayes Odporny na występowanie punktów osobliwych i zaszumienie danych - nie mają one istotnego wpływu na klasyfikację przy obliczaniu prawdopodobieństw warunkowych. Mały koszt obliczeniowy przy naiwności. W przypadku gdy założenie to nie jest spełnione można użyć tzw. sieci Bayesowskich. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 16 / 18
Klasyfikator najbliższego sąsiada Klasyfikatory najbliższego sąsiedztwa należą do grupy klasyfikatorów opartych na analizie przypadku - nie konstruuje się w nich modelu klasyfikacyjnego a analiza dokonywana jest on-line. Metody te nazywane są często leniwymi metodami uczącymi. Podstawowe wersje algorytmów przeznaczone są do klasyfikacji danych liczbowych. Każdy rekord zbioru treningowego to element n-wymiarowej przestrzeni wzorców. Zakładamy, że zbiór treningowy jest nie tylko zbiorem danych ale przedstawia on model klasyfikacyjny. Podstawowa wersja oznaczana jako 1NN przy klasyfikacji nowego rekordu X wybiera obiekt Y najbliższy obiektowi X i przydziela mu wartość atrybutu decyzyjnego obiektu Y. Duże błędy dla punktów zaszumionych i osobliwych. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 17 / 18
Klasyfikator najbliższego sąsiada Rozszerzeniem algorytmu 1NN jest algorytm knn - k najbliższego sąsiedztwa. knn W przypadku nowego rekordu X wyszukiwane jest k obiektów w przestrzeni wzorców (ze zbioru treningowego) najbliższych dla X. Następnie wykorzystując algorytm głosowania większościowego wybierana jest klasa która dominuje w zbiorze najbliższych sąsiadów. Często też korzysta się z algorytmu ważonego knn gdzie głosy sąsiadów mają swoje wagi. W tej klasie algorytmów największe znaczenie ma przyjęta miara odległości. Jeśli wszystkie atrybuty są numeryczne to przestrzeń wzorców jest przestrzenią Euklidesową. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 18 / 18