Metody eksploracji danych 4. Klasyfikacja
|
|
- Piotr Bielecki
- 6 lat temu
- Przeglądów:
Transkrypt
1 Metody eksploracji danych 4. Klasyfikacja Piotr Szwed Katedra Informatyki Stosowanej AGH 2017 Wprowadzenie Ocena klasyfiaktorów Regresja Logistyczna
2 Zagadnienie klasyfikacji Dane: Zbiór uczący: D = {(x i, y i )} i=1,m (x i, y i ) obserwacje, instancje x i - obserwacje (wartości atrybutów różnego typu) y i c 1,, c k - etykiety klas Celem jest znalezienie modelu c x : x {c 1,, c k } pozwalającego na przypisanie etykiety klasy nieznanym wektorom x Klasyfikacja binarna k = 2 wówczas c x : x c 1, c 2 Efektywność otrzymanego modelu powinna być oceniana z użyciem odrębnego zbioru danych Podział (test split) oryginalnego zbioru danych na D train i D test Zastosowanie walidacji krzyżowej (CV, cross validation) P. Szwed: Metody eksploracji danych (2017) 2
3 Przykłady zagadnień klasyfikacji Klasyfikacja transakcji kartami płatniczymi (autoryzowane czy oszustwa) Klasyfikacja wniosków kredytowych (udzielić/odrzucić) Klasyfikacja roszczeń ubezpieczeniowych (uzasadnione czy próba wyłudzenia) Przewidywanie odejścia klientów firm telekomunikacyjnych (ang. churn) Kategoryzacja tekstów (np. wiadomości, artykułów) jako: finanse, pogoda, rozrywka, sport Filtrowanie spamu Detekcja twarzy, postaci, obiektów na obrazach Określanie, czy zmiany rakowe w komórkach są łagodne lub złośliwe Klasyfikacja struktury białek P. Szwed: Metody eksploracji danych (2017) 3
4 Porównanie klasyfikacji i regresji Podobieństwa Model ma postać funkcji X Y W obu zagadnieniach problemem jest wymiar X (tzw. klątwa wymiarowości). Jeżeli wymiar X wynosi n, aby równomiernie pokryć X k obserwacjami w kierunku każdego wymiaru potrzeba k n obserwacji. W obu przypadkach istotne są zdolności generalizacji modelu: wyznaczanie błędu testowego w zależności od złożoności, zjawisko nadmiernego dopasowania (overfitting) Część modeli może być użyta zarówno do regresji, jak i klasyfikacji: drzewa regresji/decyzyjne, sieci neuronowe Różnice W zagadnieniach klasyfikacji wartości wyjściowe są kategoryczne (dyskretne, skończony zbiór wartości): 0/1, tak/nie Możliwa jest klasyfikacja wielowartościowa (multilabel), wówczas Y = 2 C, gdzie C jest zbiorem etykiet, np. kategoryzacja tekstów Stosowane są inne funkcje oceny P. Szwed: Metody eksploracji danych (2017) 4
5 Regiony decyzyjne i granice klas Region y=0 Granica klas (decision boundary) Region y=1 Region decyzyjny dla danej klasy c i to podzbiór obserwacji X(c i ) = {x X c(x) = c i }, którym klasyfikator przypisze klasę (decyzję) c i. Granica klas to brzeg regionu P. Szwed: Metody eksploracji danych (2017) 5
6 Regiony decyzyjne i granice klas Regiony decyzyjne na ogół nie są wyznaczane analitycznie, ale są pochodną parametrów wyznaczonego modelu. Dla modeli nieparametrycznych mogą być określone wyłącznie przez testowanie wartości wejściowych. Kształty regionów mocno zależą od przyjętego modelu i jego złożoności Naive Bayes SVM + RBF kernel P. Szwed: Metody eksploracji danych (2017) 6
7 Regiony decyzyjne i granice klas: inne przykłady W zależności od metody granice regionów mogą być krzywymi separującymi dane, mieć postać łamanych, zawierać wyspy. Nie wszystkie obserwacje zbioru uczącego muszą być przypisane do regionu zgodnego z etykietą klasy. Złożone kształty regionów decyzyjnych najczęściej są oznaką nadmiernego dopasowania do danych uczących (dużej wariancji) Wizualizacje 2D mają raczej charakter poglądowy, niż znaczenie praktyczne k-nn (k=3) Drzewo decyzyjne P. Szwed: Metody eksploracji danych (2017) 7
8 Perspektywa probabilistyczna Niech C = {c 1,, c k } p(c i ) to prawdopodobieństwo wystąpienia klasy c i w pewnym zbiorze obserwacji. Jeżeli zbiorem tym jest zbiór danych uczących D i dla pewnej klasy c j, p(c j ) jest małe, wówczas zbiór ten nazywany jest niezrównoważonym (niezbalansowanym, ang. unbalanced). p(c i x) to prawdopodobieństwo, przypisania do obserwacji x klasy c i. Zakładając, że klasyfikator jest w stanie wyznaczyć p(c i x), dla i = 1,, k, wówczas optymalną decyzją jest wybór klasy: c m = arg max {p c i x : i = 1, k} P. Szwed: Metody eksploracji danych (2017) 8
9 Jednowymiarowy przypadek klasyfikacji binarnej Regiony decyzyjne dla danej klasy : wartości, gdzie klasa jest bardziej prawdopodobna, czyli p c 1 x > p c 2 x Granica klas: p c 1 x = p c 2 x = 0.5 Sigmoidalna funkcja prawdopodobieństwa: dowolny zakres x może zostać odwzorowany w przedział [0,1] p 1 p(c 1 x) p(c 2 x) granica klas 0.5 Źródło błędów 0 x P. Szwed: Metody eksploracji danych (2017) 9
10 Przykład: regresja logistyczna Binarne zagadnienie klasyfikacji Granica klas jest hiperpłaszczyzną (linią w przypadku dwuwymiarowym) Prawdopodobieństwo jednej z klasy rośnie, a drugiej maleje wraz z oddalaniem się od granicy klas Na granicy: p c 1 x = p c 2 x = 1 2 P. Szwed: Metody eksploracji danych (2017) 10
11 Modele Bayesowskie Modele Bayesowskie wykorzystują prawdopodobieństwo wystąpienia obserwacji x dla klasy c i, czyli prawdopodobieństwa warunkowe: p(x c i ), i = 1,, k Następnie p(c i x) jest wyznaczane za pomocą reguły Bayesa: p c i x = p x c i p c i p x, Prawdpodobieństwo p x jest obliczane jako: p x = p x c i p c i Ponieważ celem jest wyznaczenie arg max {p c i x : i = 1, k}, prawdopodobieństwo p(x) jako wspólny czynnik skalujący może zostać pominięte. Rozkład p c i x wyznaczony przez naiwny klasyfikator Bayesa P. Szwed: Metody eksploracji danych (2017) 11
12 Inne metody Wiele metod nie korzysta z modeli probabilistycznych. Regiony decyzyjne i granice klas są wyznaczane na podstawie różnych parametrów: SVM: margines pomiędzy obserwacjami drzewa: zysk informacyjny knn: klasa przeważająca w sąsiedztwie Dla części z nich prawdopodobieństwa p c i x mogą zostać przypisane do obserwacji x po wyznaczeniu modelu. SVM z kernelem RBF knn (k=3) P. Szwed: Metody eksploracji danych (2017) 12
13 Podział klasyfikatorów Generatywne (obserwacje uwarunkowane etykietami klas) Wyznaczają pełny model p(x c i ) Używają reguły Bayesa do określenia granic klas Przykłady: naiwny model Bayesa, Gaussian mixture model Granice klas są zazwyczaj funkcjami kwadratowymi Dyskryminatywne Oparte na regresji: Modelują p(c i x) bezpośrednio Przykłady: regresja logistyczna, sieci neuronowe Nie wykorzystujące bezpośrednio prawdopodobieństw, skupione na wyznaczaniu optymalnych granic klas: SVM (support vector machines): liniowe i nieliniowe regiony decyzyjne Najbliższych sąsiadów (nearest neighbor) - granice klas w postaci łamanych Drzewa decyzyjne granice klas wzdłuż osi atrybutów P. Szwed: Metody eksploracji danych (2017) 13
14 Ocena klasyfikatorów P. Szwed: Metody eksploracji danych (2017) 14
15 Funkcje oceny klasyfikatora Podstawową funkcją oceny klasyfikatora jest trafność klasyfikacji. Oznaczmy przez L i, j koszt błędnej klasyfikacji: 1 gdy i j L i, j = 0 gdy i = j accuracy = 1 L(y m i, c x i ) i=1 Jednakże algorytmy uczące nie minimalizują bezpośrednio tej funkcji, raczej posługują się różnymi funkcjami zastępczymi, które są optymalizowane m P. Szwed: Metody eksploracji danych (2017) 15
16 Macierz pomyłek (błędów) Macierz pomyłek (błędów) Macierz pomyłek (ang. confussion matrix, także contigency table) zestawia dane dotyczące prawidłowo/nieprawidłowo sklasyfikowanych przypadków Przykład Klasyfikacja binarna, np. detekcja choroby za pomocą badania diagnostycznego. Testy przeprowadzone na grupie 50 pacjentów chorych i 50 pacjentów zdrowych Sklasyfikowany jako chory Sklasyfikowany jako zdrowy Pacjent chory Pacjent zdrowy 7 43 nieprawidłowo sklasyfikowane prawidłowo sklasyfikowane P. Szwed: Metody eksploracji danych (2017) 16
17 Macierz pomyłek dla binarnej klasyfikacji Sklasyfikowany jako chory Sklasyfikowany jako zdrowy Pacjent chory TP (true positive) FN (false negative) Pacjent zdrowy FP (false positive) TN (true negative) P (przypadki pozytywne) P = TP + FN N (przypadki negatywne) N = FP + TN P. Szwed: Metody eksploracji danych (2017) 17
18 Trafność (accuracy) Sklasyfikowany jako chory Sklasyfikowany jako zdrowy Pacjent chory TP (true positive) FN (false negative) Pacjent zdrowy FP (false positive) TN (true negative) accuracy = TP + TN P + N = TP + TN TP + FN + FP + TN TP = 34 FN = 16 FP = 7 TN = 43 acc = = TP = 8 FN = 2 FP = 3 TN = 987 TP = 0 FN = 10 FP = 0 TN = 990 acc = = acc = = Wyniki niemal identyczne, ale w ostatnim przypadku badanie (klasyfikator) nigdy nie wykryje choroby P. Szwed: Metody eksploracji danych (2017) 18
19 Czułość W przypadku niezrównoważonych danych trafność jest złą miarą. Oczekujemy jednak, że badanie wskaże chorobę w przypadku, kiedy pacjent jest rzeczywiście chory. Czułość (ang. sensitivity), także TPR (true positive rate ), także przywołanie (ang. recall) sensitivity = TPR = TP TP + FN Sklasyfikowany jako chory Sklasyfikowany jako zdrowy Pacjent chory TP (true positive) FN (false negative) Pacjent zdrowy FP (false positive) TN (true negative) Czułość wyznaczana dla dużej liczby instancji może być traktowana jako prawdopodobieństwo wykrycia choroby przez badanie (klasyfikator). sensitivity = P(Sklasyfikowany jako chory Pacjent chory) P. Szwed: Metody eksploracji danych (2017) 19
20 Recall Przy ocenie klasyfikatorów częściej używanym terminem jest przywołanie (ang. recall). Wyobraźmy sobie, że zadaniem klasyfikatora jest wybranie dokumentów na temat sportu w zbiorze milionów dokumentów. Interesuje nas, aby znalazł ich jak najwięcej. recall = znalezione dokumenty {dokumenty na temat sportu} {dokumenty na temat sportu} Licznik liczba zwróconych dokumentów na temat sportu (czyli TP) Mianownik liczba wszystkich dokumentów na temat sportu w całym zbiorze (czyli P = TP + FN) Sklasyfikowany jako sport Sklasyfikowany jako inne sport TP (true positive) FN (false negative) inne FP (false positive) TN (true negative) P. Szwed: Metody eksploracji danych (2017) 20
21 Obliczmy czułość Sklasyfikowany jako chory Sklasyfikowany jako zdrowy Pacjent chory TP (true positive) FN (false negative) Pacjent zdrowy FP (false positive) TN (true negative) sensitivity = recall = TPR = TP TP + FN TP = 34 FN = 16 FP = 7 TN = 43 TP = 8 FN = 2 FP = 3 TN = 987 TP = 0 FN = 10 FP = 0 TN = 990 TPR = = TPR = 8 10 = TPR = 0 10 = 0 P. Szwed: Metody eksploracji danych (2017) 21
22 Specyficzność Specyficzność (ang. specificity) jest analogiczną miarą dla przypadków negatywnych. specificity = TNR = Sklasyfikowany jako chory TN TN + FP Sklasyfikowany jako zdrowy Pacjent chory TP (true positive) FN (false negative) Pacjent zdrowy FP (false positive) TN (true negative) Specyficzność (swoistość) wyznaczana dla dużej liczby instancji może być w tym przypadku interpretowana jako prawdopodobieństwo odrzucenia diagnozy choroby w przypadku zdrowych pacjentów: specificity = P(Sklasyfikowany jako zdrowy Pacjent zdrowy) P. Szwed: Metody eksploracji danych (2017) 22
23 Specyficzność specificity = TNR = TN TN + FP Sklasyfikowany jako chory Sklasyfikowany jako zdrowy Pacjent chory TP (true positive) FN (false negative) Pacjent zdrowy FP (false positive) TN (true negative) TP = 34 FN = 16 FP = 7 TN = 43 TP = 8 FN = 2 FP = 3 TN = 987 TP = 0 FN = 10 FP = 0 TN = 990 TNR = = TNR = = TNR = = 1 P. Szwed: Metody eksploracji danych (2017) 23
24 ROC (Receiver Operating Characteristic) Miara rozwinięta podczas II Wojny Światowej na potrzeby oceny efektywności operatorów radaru. Operator ma ustalić czy punkt na ekranie to: samolot wroga (przypadek pozytywny) samolot własny lub stado ptaków (przypadek negatywny) Przestrzeń ROC pokazuje zależność pomiędzy FP 1. FPR = = 1 specificity TN+FP 2. TPR = TP TP+FP = sensitivity Najlepszy klasyfikator jest w punkcie 0,1 Klasyfikator losowy leży na ukośnej linii Zły klasyfikator jest poniżej linii (ale wtedy wystarczy zanegować wyniki i będzie dobrym klasyfikatorem) Źródło: P. Szwed: Metody eksploracji danych (2017) 24
25 Krzywa ROC Niektóre klasyfikatory poza etykietą klasy wyjściowej zwracają liczbową miarę oceny klasyfikacji, np. prawdopodobieństwo. Ocena C Data Ocena CPP Klasa Prawdop. nie_zdal nie_zdal nie_zdal nie_zdal zdal zdal zdal nie_zdal nie_zdal zdal zdal zdal zdal nie_zdal nie_zdal zdal zdal zdal zdal nie_zdal Dla prawdopodobieństw progiem klasyfikacji jest 0.5. Jakie byłyby wyniki gdybyśmy zmienili próg? Na przykład przyjęli : itd P. Szwed: Metody eksploracji danych (2017) 25
26 Krzywa ROC Posortujmy wyniki klasyfikacji według prawdopodobieństw Przyjmijmy kolejno rosnące prawdopodobieństwa jako progi i obliczmy punkty (FPR, TPR) Ocena C Data Ocena CPP Klasa Prawdop. nie_zdal zdal zdal zdal zdal zdal zdal zdal zdal zdal zdal zdal zdal zdal zdal zdal zdal zdal zdal zdal P. Szwed: Metody eksploracji danych (2017) 26
27 Wynikiem będzie krzywa ROC Krzywa ROC Najlepszy punkt (i próg odcięcia) Jednym ze wskaźników oceny klasyfikatorów jest AUC (AUROC) area under ROC, czyli pole pod krzywą ROC. Przyjmuje on wartości: 1 dla idealnego klasyfikatora, 0.5 dla losowego, 0 dla najgorszego klasyfikatora, P. Szwed: Metody eksploracji danych (2017) 27
28 Dokładność (precision) Sklasyfikowany jako chory Sklasyfikowany jako zdrowy Pacjent chory TP (true positive) FN (false negative) Pacjent zdrowy FP (false positive) TN (true negative) Dokładność (ang. precision) zdefiniowana jest jako: precision = TP TP + FP Miara ta pozwala określić w ilu przypadkach (procentowo) klasyfikator zwrócił poprawny wynik. TP = 34 FN = 16 FP = 7 TN = 43 TP = 50 FN = 50 FP = 50 TN = 850 precision = precision = = = 0.5 P. Szwed: Metody eksploracji danych (2017) 28
29 Dokładność i czułość - precision vs. recall Dokładność (precision) i czułość (recall) często mogą zwracać rozbieżne wyniki, co świadczy o niskiej jakości klasyfikatora TP = 50 FN = 0 FP = 950 TN = 0 precision = = 0.05 recall = = 1.0 TP = 3 FN = 47 FP = 0 TN = 950 precision = = 1.0 recall = = 0.06 P. Szwed: Metody eksploracji danych (2017) 29
30 Miara F1 Miara F 1 (lub po prostu F) jest średnią harmoniczną precision i recall precision recall F 1 = 2 precison + recall TP = 50 FN = 0 FP = 950 TN = 0 precision = 0.05 recall = 1.0 F 1 = 0.05 TP = 3 FN = 47 FP = 0 TN = 950 precision = 1.0 recall = 0.06 F 1 = 0.06 TP = 34 FN = 16 FP = 7 TN = 43 precision = 0.83 recall = 0.68 F 1 = 0.74 P. Szwed: Metody eksploracji danych (2017) 30
31 Macierz pomyłek dla wielu klas precision c i True\predicted c 1 c 2 c 3 c c c nieprawidłowo sklasyfikowane recall c i prawidłowo sklasyfikowane k i=1 k k i=1 j=1 e[i, i] accuracy = e[i, k] Wartości precision i recall mogą być wyznaczone dla poszczególnych klas: e[i, i] precision c i = k j=1 e[j, i] e[i, i] recall c i = e[i, j] k j=1 P. Szwed: Metody eksploracji danych (2017) 31
32 Miara F1 dla wielu klas Obliczenie miary F1 wymaga uśrednienia wyników. Może to być zrealizowane na dwa sposoby: mikro i makro Mikro 1. Dla każdej klasy c i oblicz TP(c i ), FP(c i ) oraz FN(c i ) 2. Oblicz precision = c i TP(c i ) c i (TP c i +FP(c i )) 3. Oblicz recall = c i TP(c i ) c i (TP c i +FN(c i )) 4. Oblicz F 1 = 2 precision recall precison+recall P. Szwed: Metody eksploracji danych (2017) 32
33 Miara F1 dla wielu klas Makro 1. Dla każdej klasy c i 1. oblicz TP(c i ), FP(c i ) oraz FN c i 2. Wyznacz prec(c i ) = 3. Wyznacz recall c i = 2. Oblicz średnie wartości TP(c i ) TP c i +FP(c i ) TP c i TP c i +FN c i 1. precision = prec(c i ) c i {c i } 2. recall = recall(c i ) c i {c i } 3. Oblicz F 1 = 2 precision recall precison+recall P. Szwed: Metody eksploracji danych (2017) 33
34 F1 mikro vs makro True\predicted c 1 c 2 c 3 c c c Micro Precision 0.6 Micro Recall 0.6 Micro F1 0.6 Macro Precision Macro Recall Macro F True\predicted c 1 c 2 c 3 c c c Silne niezrównoważenie Micro Precision Micro Recall Micro F Macro Precision Macro Recall Macro F P. Szwed: Metody eksploracji danych (2017) 34
35 Współczynnik Kappa Współczynnik Kappa Cohena pozwala określić stopień zgodności etykiet w zbiorze uczącym oraz zwróconych przez klasyfikator. Wyobraźmy sobie, że mamy dwóch oceniających opisanych dwiema funkcjami: f 1 x : X {c 1,, c k } f 2 x : X {c 1,, c k } Pierwszym jest prawdziwe przypisanie etykiet (ground truth) Drugim jest zbudowany klasyfikator Zgodność ocen może mieć dwa źródła: 1. Rzeczywiście obaj oceniający uważają, że obserwacji powinna być przypisana ta sama etykieta 2. Zbieżność ma charakter losowy, czyli pierwszy oceniający wybiera etykietę c i dla obserwacji x z prawdopodobieństwem p 1 (f 1 x = c i x), drugi z prawdopodobieństwem p 2 (f 2 x = c i x). Oba zdarzenia wyboru są niezależne, więc p(f 1 x = f 2 x = c i x) = p 1 f 1 x = c i x p 2 (f 2 x = c i x) P. Szwed: Metody eksploracji danych (2017) 35
36 Współczynnik Kappa Współczynnik Kappa jest obliczany jako: κ = p 0 p e 1 p e p 0 to zaobserwowane prawdopodobieństwo zgodności p e to korekta przypadkowej zgodności dla niezależnych losowych wyborów etykiet Dla macierzy pomyłek E oznaczmy przez m = p e = p 0 = k i=1 k i=1 e[i, i] m k j=1 m e i, j = accuracy k j=1 m e j, i k i=1 k j=1 e[i, k] P. Szwed: Metody eksploracji danych (2017) 36
37 Współczynnik Kappa - przykład True\predicted c 1 c 2 c 3 c c c Dzielimy przez sumę elementów (zamieniamy na prawdopodobieństwa) c 1 c 2 c 3 c c c P. Szwed: Metody eksploracji danych (2017) 37
38 Współczynnik Kappa - przykład Wyznaczamy P 1 (c i ) i P 2 (c i ) jako sumy elementów w wierszach i kolumnach. Czyli np. P 2 c 1 opisuje prawdopodobieństwo, że klasyfikator przypisze etykietę c 1. c 1 c 2 c 3 c P 1 (c 1 ) =0.28 c P 1 (c 2 ) =0.40 c P 1 (c 3 ) =0.32 P 2 (c 1 ) =0.28 P 2 (c 2 ) =0.44 P 2 (c 3 )=0.28 k p 0 = p ii = = 0.6 i=1 k p e = p 1 c i p 2 c i = = i=1 Stąd κ = 0.39 P. Szwed: Metody eksploracji danych (2017) 38
39 Współczynnik Kappa - interpretacja True\predicted c 1 c 2 c 3 c c κ = 0.65 c Ocena zgodności dla różnych wartości κ (0, 0.2) nieistotna (0.21,0.40) słaba (0.41,0.60) średnia (0.61,0.80) zasadnicza (0.81,1.0) -- doskonała zgodność P. Szwed: Metody eksploracji danych (2017) 39
40 Regresja logistyczna P. Szwed: Metody eksploracji danych (2017) 40
41 Regresja logistyczna Regresja logistyczna jest zagadnieniem klasyfikacji binarnej: Wartości x są wektorami n-wymiarowymi: x R n Zbiór decyzji (klas) Y zawiera dwa elementy, np. Y = {0,1} Granica klas jest n-1 wymiarową hiperpłaszczyzną, czyli np. prostą w przypadku 2D P. Szwed: Metody eksploracji danych (2017) 41
42 Regresja logistyczna: hiperpłaszczyzna Równanie hiperpłaszczyzny (x i oznacza i-ty element wektora): w 0 + w 1 x w n x n = 0 Wektor normalny: z = w 1,, w n Norma z (długość) : z = w i 2 Odległość punktu x k od hiperpłaszczyzny: d(x k ) = w n 0 + i=1 w i x ki z Przekształcając X do R n+1 : x [1: x] możemy zapisać: równanie hiperpłaszczyzny: w T x = 0 odległość punktu od hiperpłaszyzny: d x k = wt x k z P. Szwed: Metody eksploracji danych (2017) 42
43 Regresja logistyczna: funkcja klasyfikacji Najprostszą formą wyboru funkcji klasyfikacji c(x) jest przypisanie klasy na podstawie wartości w T x c(x) = 0 gdy wt x < 0 1 gdy w T x 0 w T x < 0 w T x > 0 P. Szwed: Metody eksploracji danych (2017) 43
44 Jak dobrać granicę klas? 4 sklasyfikowane błędnie 2 sklasyfikowane błędnie 2 sklasyfikowane błędnie 1 sklasyfikowany błędnie Może warto wziąć pod uwagę odległość od prostej? Jeżeli prosta leży blisko punktów, wówczas model wykazuje wrażliwość na drobne zmiany w ich położeniu. P. Szwed: Metody eksploracji danych (2017) 44
45 Regresja logistyczna: model W modelu regresji logistycznej prawdopodobieństwo p(c x) jest wyznaczane bezpośrednio. Ogólna idea: dla x w pobliżu granicy klas (w T x = 0) prawdopodobieństwa dla obu klas wynoszą w przybliżeniu 1 2 wraz z oddalaniem się od granicy klas: w T x prawdopodobieństwo p(c 1 x) jednej z klas rośnie do 1, a drugiej maleje do 0. p y = 1 w T x 0 p y = 1 w T x 1 P. Szwed: Metody eksploracji danych (2017) 45
46 Uogólniony model liniowy Regresja logistyczna jest jednym z przypadków uogólnionego modelu liniowego (GLM, generalized linear model): L(E[y x]) = w T x E[y] wartość oczekiwana zmiennej wyjściowej L x - funkcja wiążąca (ang. link function) GLM stosuje się w przypadku, kiedy np. zmienna wyjściowa ma wartości dyskretne lub należy zamodelować inne rozkłady statystyczne niż normalny Zakładając, że mamy dwie klasy oznaczone przez 1 i 0, wartość oczekiwana wynosi: E y x = y y p y x = 1 p y = 1 x + 0 p y = 1 x = p y = 1 x Dla binarnych problemów klasyfikacji wystarczające jest aproksymowane prawdopodobieństwo wystąpienia wybranej klasy: p(y = 0 x) = 1 p(y = 1 x) P. Szwed: Metody eksploracji danych (2017) 46
47 Szansa Rozważmy wyrażenie: odds = p 1 p Jest to iloraz prawdopodobieństwa wystąpienia zdarzenia do zdarzenia przeciwnego, np. jeśli prawdopodobieństwo wygranej kandydata w wyborach wynosi 0.8, to szansa odds = 0.8 = 4: Szansa przypisania x etykiety klasy 1: p y = 1 x odds y = 1 x = 1 p y = 1 x Szanasa odds przybiera wartości z przedziału [0, ] P. Szwed: Metody eksploracji danych (2017) 47
48 Logit Rozważamy uogólniony model liniowy L E y x = L p = w T x, gdzie L funkcja wiążąca (ang. link function) Załóżmy, że funkcją wiążącą jest funkcja logit p p logit(p) = ln 1 p Dla p 0,1, wartości logit p,. Funkcja logit(p) pozwala więc na powiązanie zakresu wartości prawdopodobieństw [0,1] z zakresem zmienności modelu liniowego w T x, Równanie uogólnionego modelu liniowego dla regresji logistycznej ma postać: p y = 1 x logit p y = 1 x = ln = w T x 1 p y = 1 x P. Szwed: Metody eksploracji danych (2017) 48
49 Interpretacja logit Zestawienie wyników egzaminu wykl na ilu wykładach student był obecny zal ocena z zaliczenia (min 3.0) zdal czy po przystąpieniu zdał egzamin w pierwszym terminie (1/0) Współczynniki regresji: logit(p) = wykl zal Dodatkowa obecność na jednym wykładzie: zwiększa logit(p) o 0.24 zwiększa szanse zdania razy e 0.24 = 1.27 (czyli o 27%) Ocena z zaliczenie o stopień wyższa: zwiększa logit(p) o 2.7 zwiększa szanse zdania razy e 2.7 = (czyli o 1387%) wykl zal zdal P. Szwed: Metody eksploracji danych (2017) 49
50 Przekształcając równanie: Prawdopodobieństwo p(y x) ln p y = 1 x 1 p y = 1 x = w T x otrzymujemy równoważną postać: 1 p y = 1 x = 1 + exp ( w T x) = exp (wt x) 1 + exp (w T x) W równaniu występuje funkcja sigmoidalna: sigm v = 1 1+exp ( mv) Wektor w jest celowo nieznormalizowany. Małe wartości wag (małe m) powodują, że krzywa p(y = 1 x) jest płaska Duże wartości krzywa coraz bardziej przypomina funkcję skokową P. Szwed: Metody eksploracji danych (2017) 50
51 Przykład w T x = x x 2 Po lewej: obserwacje i granica klas: biały obszar p y = blue x p y = red x 0.5 brązowy: p y = red x 1 granatowy: p y = blue x 1 Po prawej: wykres gęstości prawdopodobieństwa p(y = blue x) P. Szwed: Metody eksploracji danych (2017) 51
52 Dobór parametrów hiperpłaszczyzny Dobór parametrów hiperpłaszczyzny jest problemem optymalizacyjnym: definiujemy funkcję kosztu przeprowadzamy optymalizację Dany jest zbiór uczący: D = {(x i, y i )} i=1,m Dla jakich parametrów regresji w obserwacje ze zbioru D są najbardziej prawdopodobne? p(y i = 1 w, x i ) określone na podstawie poszukiwanego modelu prawdopodobieństwo, że y i = 1 p(y i = 0 w, x i ) prawdopodobieństwo, że y i = 0 Niezależnie od wartości y i prawdopodobieństwo wystąpienia tej wartości dla x i wynosi: p y i = 1 w, x i y i p y i = 0 w, x i (1 y i ) = p y i = 1 w, x i y i (1 p y i = 1 w, x i ) (1 y i) Jeżeli y i = 1, to drugi czynnik ma wartość p 0 = 1 Jeżeli y i = 0, to pierwszy czynnik ma wartość 1 P. Szwed: Metody eksploracji danych (2017) 52
53 Estymacja największej wiarygodności Prawdopodobieństwo wystąpienia zbioru obserwacji: m L w = p y i = 1 w, x i y i (1 p y i = 1 w, x i ) (1 y i) i=1 Estymacja największej wiarygodności (ang. MLE, Maximum likelihood estimation) Wybierane są parametry w, dla których prawdopodobieństwo zaobserwowania zbioru uczącego L w przybiera wartość maksymalną: w = arg max L(w) Podstawiając: 1 p y i = 1 x i, w = 1 + exp ( w T x i ) otrzymujemy: L w = m i= exp ( w T x i ) y i exp w T x i 1 + exp w T x i (1 y i ) P. Szwed: Metody eksploracji danych (2017) 53
54 Przebieg L(w) x y x y W jednowymiarowym zagadnieniu powinny być optymalizowane dwa parametry: w 0 i w 1. Wykresy sporządzono dla optymalnej wartości w 0 Po lewej dane są liniowo separowalne, więc prawdopodobieństwo L(w) osiąga wartość 1 Po prawej nie są i musi być przyjęty kompromis. Stąd max L(w) 0.1 P. Szwed: Metody eksploracji danych (2017) 54
55 Przebieg L(w) x y Szczególny przebieg granica klas dla wartości 0 Praktycznie wszystkie wartości w 1 powyżej 15 są dobre Funkcja L(w) jest na ogół funkcją wklęsłą Jej maksimum istnieje lub można wyznaczyć wartości bliskie optymalnym. Brak rozwiązania analitycznego P. Szwed: Metody eksploracji danych (2017) 55
56 Logarytm L(w) Dla dużych m iloczyn prawdopodobieństw wchodzących w skład L(w) byłby bardzo mały problem niestabilny numerycznie Z tego powodu wyznaczany jest logarytm L w - iloczyn czynników zastąpiony jest sumą ich logarytmów Dla jednego punktu: ll i w = ln exp ( w T x i ) y i exp w T x i 1 + exp w T x i (1 y i ) Stąd: ll i w = ln 1 y i y i ln 1 + exp w T x i 1 y i w T x i 1 y i ln (1 + exp w T x i ) ll i w = 1 y i w T x i ln 1 + exp w T x i m LL(w) = ll i w i=1 P. Szwed: Metody eksploracji danych (2017) 56
57 Porównanie przebiegów L(w) i LL(w) P. Szwed: Metody eksploracji danych (2017) 57
58 Gradient LL(w) Miejsce maksimum LL(w) wyznaczane jest za pomocą metod gradientowych (brak rozwiązania analitycznego) Dla pojedynczego punktu x i : ll i w = 1 y i w T x i ln 1 + exp w T x i d exp w T x i ll dw i w = x ij y i x ij x ij j 1 + exp w T x i d ll dw i w = x ij y i 1 exp wt x i j 1 + exp w T x i d 1 ll dw i w = x ij y i j 1 + exp w T x i d ll dw i w = x ij y i p(y i = 1 x i, w) j Jeżeli y i i p(y i = 1 x i, w) są zgodne: wkład punktu x i do gradientu wynosi 0 W przeciwnym przypadku gradient w kierunku w j jest proporcjonalny do j-tej składowej wektora x i P. Szwed: Metody eksploracji danych (2017) 58
59 Podsumowując: Dla każdego wymiaru Gradient LL(w) m d LL w = x dw ij y i p(y i = 1 x i, w) j i=1 Suma po obserwacjach LL w = [ d d d LL w, LL w,, LL w, ] dw 0 dw 1 dw n Algorytm gradientu prostego (gradient ascent) ma postać: wybierz wartości początkowe w(0) while!stop(): w(t + 1) = w(t) + η LL w Zazwyczaj η jest małą stała lub maleje wraz z numerem iteracji t Warunek końca: liczba iteracji, LL w 0 lub brak poprawy funkcji celu P. Szwed: Metody eksploracji danych (2017) 59
60 Cechy W bardziej ogólnym przypadku, zamiast wektorów x R n rozważany jest wektor cech (ang. features) h x = h 1 x,, h N x Równanie regresji liniowej przybiera postać: p y = 1 x ln = w T h x 1 p y = 1 x 1 p y i = 1 x i, w = 1 + exp ( w T h(x i )) Po uwzględnieniu cech, wzór służący do obliczenia pochodnej względem w j przyjmuje postać: m d LL w = h dw j (x i ) y i p(y i = 1 x i, w) j i=1 Dzięki zastosowaniu transformacji danych wejściowych do postaci cech możliwe jest uzyskanie bardziej złożonych przebiegów granic klas P. Szwed: Metody eksploracji danych (2017) 60
61 Przykład Błękitne punkty (klasa y=1) otoczone są punktami czerwonymi (y=0). Prawdopodobnie źle? Pożądany kształt Raczej overfitting P. Szwed: Metody eksploracji danych (2017) 61
62 Przykład Wybór prostej jako granicy klas nie daje dobrych rezultatów Brak wyraźnego przejścia w funkcji gęstości prawdopodobieństwa P. Szwed: Metody eksploracji danych (2017) 62
63 Definiujemy cechy pochodne h 0 x = 1 (bias) h 1 x = x 1 (czytaj x[1]) h 2 x = x 2 h 3 x 2 = x 1 h 4 x = x 2 2 Przykład h 5 x = x 1 x 2 Zestaw jest wystarczający, aby zdefiniować region decyzyjny w postaci krzywej stożkowej: Ax 2 + Bxy + Cy 2 + Dx + Ey + F = 0 W przypadku elipsy współczynnik B odpowiada za obrót [Rysunek: P. Szwed: Metody eksploracji danych (2017) 63
64 Wyniki Wektor wag: w= [38.35, 0.05, 1.09, ] obecne współczynniki wyższego stopnia, w tym obrót Bardzo strome przejścia gęstości prawdopodobieństwa na granicy klas (dobre dopasowanie modelu) Nie zapominajmy jednak, że celem są dobre własności generalizacji P. Szwed: Metody eksploracji danych (2017) 64
65 Konwersje danych do postaci numerycznej Zarówno regresja zwykła, jak i logistyczna używa wyłącznie danych (cech) numerycznych. W zbiorze źródłowym mogą występować zmienne kategoryczne i tekstowe, które muszą zostać przekonwertowane do postaci cech numerycznych. Dane kategoryczne binarne można zastąpić wartościami ze zbioru {0,1} YES, NO 0,1 Dane kategoryczne porządkowe o k wartościach można przekonwertować na zbiór liczb całkowitych z zakresu 0 k 1: {low, medium, high}: low 0, medium 1, high 2 Dane nominalne o k wartościach zamienia się na k-zmiennych o wartościach 0/1. Konwersja ta nazywa się one-hot (jedna linia danych gorąca ) Color=blue red green blue P. Szwed: Metody eksploracji danych (2017) 65
66 Przykład Weka zapewnia odpowiednie filtry, np.. RenameNominalValues P. Szwed: Metody eksploracji danych (2017) 66
67 Konwersje danych tekstowych Dla danych tekstowych typową reprezentacją jest bag-of-words, czyli przypisanie string N zawody#1 lekkoatletyczny#1 odbyć#1 się#1 w#1 Kraków#1 Zawody lekkoatletyczne odbyły się w Krakowie w#1 zawody#1 Polak#1 zająć#1 drugie#1 miejsce#1 W zawodach Polak zajął drugie miejsce Następnie tworzone są wektory słów ich elementami są liczby wystąpień słów w dokumencie (czasem znormalizowane lub pomnożone przez wagi, np. reprezentujące znaczenie słów TF-IDF ) Na ogół wektory te są bardzo rzadkie Jest to również konwersja typu one-hot: każde słowo staje się atrybutem P. Szwed: Metody eksploracji danych (2017) 67
68 Przykład - Titanic W zbiorze danych Titanic występuje pole tekstowe name (nazwisko, imiona, forma grzecznościowa, itd.) Po konwersji filtrem Weka: StringToWordVector pojawiło się 1950 dodatkowych atrybutów, w tym a, the, von, van, of, Mr, Mrs, itd. Z analizy zbioru podobno wynika, że większe szanse na przeżycie katastrofy mieli członkowie kilkuosobowych rodzin. P. Szwed: Metody eksploracji danych (2017) 68
Indukowane Reguły Decyzyjne I. Wykład 8
Indukowane Reguły Decyzyjne I Wykład 8 IRD Wykład 8 Plan Powtórka Krzywa ROC = Receiver Operating Characteristic Wybór modelu Statystyka AUC ROC = pole pod krzywą ROC Wybór punktu odcięcia Reguły decyzyjne
Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018
Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład II bogumil.konopka@pwr.edu.pl 2017/2018 Określenie rzeczywistej dokładności modelu Zbiór treningowym vs zbiór testowy Zbiór treningowy
Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta
Stan dotychczasowy OCENA KLASYFIKACJI w diagnostyce Wybraliśmy metodę uczenia maszynowego (np. sieć neuronowa lub drzewo decyzyjne), która będzie klasyfikować nieznane przypadki Na podzbiorze dostępnych
Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek
Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek Cel projektu Celem projektu jest przygotowanie systemu wnioskowania, wykorzystującego wybrane algorytmy sztucznej inteligencji; Nabycie
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Wprowadzenie do uczenia maszynowego
Wprowadzenie do uczenia maszynowego Agnieszka Ławrynowicz 12 stycznia 2017 Co to jest uczenie maszynowe? dziedzina nauki, która zajmuje się sprawianiem aby komputery mogły uczyć się bez ich zaprogramowania
Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18
Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Systemy uczące się wykład 2
Systemy uczące się wykład 2 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 19 X 2018 Podstawowe definicje Fakt; Przesłanka; Konkluzja; Reguła; Wnioskowanie. Typy wnioskowania
9. Praktyczna ocena jakości klasyfikacji
Algorytmy rozpoznawania obrazów 9. Praktyczna ocena jakości klasyfikacji dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Zbiór uczacy i zbiór testowy 1. Zbiór uczacy służy do konstrukcji (treningu)
Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną
Elementy modelowania matematycznego
Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski
Optymalizacja ciągła
Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej
Metody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017
Metody eksploracji danych 2. Metody regresji Piotr Szwed Katedra Informatyki Stosowanej AGH 2017 Zagadnienie regresji Dane: Zbiór uczący: D = {(x i, y i )} i=1,m Obserwacje: (x i, y i ), wektor cech x
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 2 Detekcja twarzy autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się algorytmem gradientu prostego
Rozpoznawanie obrazów
Rozpoznawanie obrazów Laboratorium Python Zadanie nr 3 Regresja logistyczna autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest zaimplementowanie modelu
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 3 Detekcja twarzy autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba Cel zadania Celem zadania jest zaimplementowanie algorytmów
Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów
Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,
Data Mining Wykład 4. Plan wykładu
Data Mining Wykład 4 Klasyfikacja danych Klasyfikacja poprzez indukcje drzew decyzyjnych Plan wykładu Sformułowanie problemu Kryteria oceny metod klasyfikacji Metody klasyfikacji Klasyfikacja poprzez indukcje
Optymalizacja systemów
Optymalizacja systemów Laboratorium - problem detekcji twarzy autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, P. Klukowski Cel zadania Celem zadania jest zapoznanie się z gradientowymi algorytmami optymalizacji
WYKŁAD 3. Klasyfikacja: modele probabilistyczne
Wrocław University of Technology WYKŁAD 3 Klasyfikacja: modele probabilistyczne Maciej Zięba Politechnika Wrocławska Klasyfikacja Klasyfikacja (ang. Classification): Dysponujemy obserwacjami z etykietami
Krzywe ROC i inne techniki oceny jakości klasyfikatorów
Krzywe ROC i inne techniki oceny jakości klasyfikatorów Wydział Matematyki, Informatyki i Mechaniki Uniwersytetu Warszawskiego 20 maja 2009 1 2 Przykład krzywej ROC 3 4 Pakiet ROCR Dostępne metryki Krzywe
WYKŁAD 7. Testowanie jakości modeli klasyfikacyjnych metodyka i kryteria
Wrocław University of Technology WYKŁAD 7 Testowanie jakości modeli klasyfikacyjnych metodyka i kryteria autor: Maciej Zięba Politechnika Wrocławska Testowanie modeli klasyfikacyjnych Dobór odpowiedniego
Data Mining Wykład 6. Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa.
GLM (Generalized Linear Models) Data Mining Wykład 6 Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa Naiwny klasyfikator Bayesa jest klasyfikatorem statystycznym -
WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno
WSTĘP DO REGRESJI LOGISTYCZNEJ Dr Wioleta Drobik-Czwarno REGRESJA LOGISTYCZNA Zmienna zależna jest zmienną dychotomiczną (dwustanową) przyjmuje dwie wartości, najczęściej 0 i 1 Zmienną zależną może być:
Ocena dokładności diagnozy
Ocena dokładności diagnozy Diagnoza medyczna, w wielu przypadkach może być interpretowana jako działanie polegające na podjęciu jednej z dwóch decyzji odnośnie stanu zdrowotnego pacjenta: 0 pacjent zdrowy
1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie
Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny
WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska
Wrocław University of Technology WYKŁAD 4 Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie autor: Maciej Zięba Politechnika Wrocławska Klasyfikacja Klasyfikacja (ang. Classification):
Rozpoznawanie obrazów
Rozpoznawanie obrazów Ćwiczenia lista zadań nr 7 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji
Metody iteracyjne rozwiązywania układów równań liniowych (5.3) Normy wektorów i macierzy (5.3.1) Niech. x i. i =1
Normy wektorów i macierzy (5.3.1) Niech 1 X =[x x Y y =[y1 x n], oznaczają wektory przestrzeni R n, a yn] niech oznacza liczbę rzeczywistą. Wyrażenie x i p 5.3.1.a X p = p n i =1 nosi nazwę p-tej normy
Laboratorium 4. Naiwny klasyfikator Bayesa.
Laboratorium 4 Naiwny klasyfikator Bayesa. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk
Ćwiczenie 12. Metody eksploracji danych
Ćwiczenie 12. Metody eksploracji danych Modelowanie regresji (Regression modeling) 1. Zadanie regresji Modelowanie regresji jest metodą szacowania wartości ciągłej zmiennej celu. Do najczęściej stosowanych
Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.
Spis treści 1 Wstęp: generatywne algorytmy uczące 2 Gaussowska analiza dyskryminacyjna 2.1 Gaussowska analiza dyskryminacyjna a regresja logistyczna 3 Naiwny Klasyfikator Bayesa 3.1 Wygładzanie Laplace'a
Agnieszka Nowak Brzezińska
Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia
Klasyfikator liniowy Wstęp Klasyfikator liniowy jest najprostszym możliwym klasyfikatorem. Zakłada on liniową separację liniowy podział dwóch klas między sobą. Przedstawia to poniższy rysunek: 5 4 3 2
Popularne klasyfikatory w pakietach komputerowych
Popularne klasyfikatory w pakietach komputerowych Klasyfikator liniowy Uogólniony klasyfikator liniowy SVM aiwny klasyfikator bayesowski Ocena klasyfikatora ROC Lista popularnych pakietów Klasyfikator
Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb
Współzależność Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb (x i, y i ). Geometrycznie taką parę
Metody eksploracji danych Laboratorium 2. Weka + Python + regresja
Metody eksploracji danych Laboratorium 2 Weka + Python + regresja KnowledgeFlow KnowledgeFlow pozwala na zdefiniowanie procesu przetwarzania danych Komponenty realizujące poszczególne czynności można konfigurować,
Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I
Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I Wojciech Kotłowski Instytut Informatyki Politechniki Poznańskiej email: imię.nazwisko@cs.put.poznan.pl pok. 2 (CW) tel. (61)665-2936 konsultacje:
Wprowadzenie do klasyfikacji
Wprowadzenie do klasyfikacji ZeroR Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F Tutaj jest więcej obiektów klasy T, więc klasyfikator
Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak
Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak 1 Wprowadzenie. Zmienne losowe Podczas kursu interesować nas będzie wnioskowanie o rozpatrywanym zjawisku. Poprzez wnioskowanie rozumiemy
Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH
Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego Łukasz Kończyk WMS AGH Plan prezentacji Model regresji liniowej Uogólniony model liniowy (GLM) Ryzyko ubezpieczeniowe Przykład
Metody klasyfikacji danych - część 1 p.1/24
Metody klasyfikacji danych - część 1 Inteligentne Usługi Informacyjne Jerzy Dembski Metody klasyfikacji danych - część 1 p.1/24 Plan wykładu - Zadanie klasyfikacji danych - Przeglad problemów klasyfikacji
Algorytmy metaheurystyczne Wykład 11. Piotr Syga
Algorytmy metaheurystyczne Wykład 11 Piotr Syga 22.05.2017 Drzewa decyzyjne Idea Cel Na podstawie przesłanek (typowo zbiory rozmyte) oraz zbioru wartości w danych testowych, w oparciu o wybrane miary,
8. Neuron z ciągłą funkcją aktywacji.
8. Neuron z ciągłą funkcją aktywacji. W tym ćwiczeniu zapoznamy się z modelem sztucznego neuronu oraz przykładem jego wykorzystania do rozwiązywanie prostego zadania klasyfikacji. Neuron biologiczny i
SZTUCZNA INTELIGENCJA
SZTUCZNA INTELIGENCJA WYKŁAD 4. UCZENIE SIĘ INDUKCYJNE Częstochowa 24 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska WSTĘP Wiedza pozyskana przez ucznia ma charakter odwzorowania
4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74
3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15
Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować?
Algorytm k-nn Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować? Jak daleko są położone obiekty od siebie? knn k nearest neighbours jest
Weryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta
ZeroR. Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F
ZeroR Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 5 T 7 T 5 T 5 F 2 7 F Tutaj jest więcej obiektów klasy T, więc klasyfikator ZeroR będzie zawsze odpowiadał T niezależnie
Klasyfikacja LDA + walidacja
Klasyfikacja LDA + walidacja Dr hab. Izabela Rejer Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Plan wykładu 1. Klasyfikator 2. LDA 3. Klasyfikacja wieloklasowa 4. Walidacja
Wprowadzenie do uczenia maszynowego
Wprowadzenie do uczenia maszynowego Agnieszka Ławrynowicz 16 listopada 2017 Co to jest uczenie maszynowe? dziedzina nauki, która zajmuje się sprawianiem aby komputery mogły uczyć się bez ich zaprogramowania
Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe
Wprowadzenie do teorii ekonometrii Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Zajęcia Wykład Laboratorium komputerowe 2 Zaliczenie EGZAMIN (50%) Na egzaminie obowiązują wszystkie informacje
Analiza składowych głównych. Wprowadzenie
Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących
Wprowadzenie. Data Science Uczenie się pod nadzorem
Wprowadzenie Wprowadzenie Wprowadzenie Wprowadzenie Machine Learning Mind Map Historia Wstęp lub uczenie się z przykładów jest procesem budowy, na bazie dostępnych danych wejściowych X i oraz wyjściowych
Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016
Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład I dr inż. Bogumil.Konopka@pwr.edu.pl 2015/2016 1 Wykład I - plan Sprawy organizacyjne Uczenie maszynowe podstawowe pojęcia Proces modelowania
Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.
Wstęp do sieci neuronowych, wykład 3 Warstwy, jednostka Adaline. Maja Czoków, Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 211-1-18 1 Pomysł Przykłady Zastosowanie 2
WYKŁAD 9 METODY ZMIENNEJ METRYKI
WYKŁAD 9 METODY ZMIENNEJ METRYKI Kierunki sprzężone. Metoda Newtona Raphsona daje dobre przybliżenie najlepszego kierunku poszukiwań, lecz jest to okupione znacznym kosztem obliczeniowym zwykle postać
18. Obliczyć. 9. Obliczyć iloczyn macierzy i. 10. Transponować macierz. 11. Transponować macierz. A następnie podać wymiar powstałej macierzy.
1 Czy iloczyn macierzy, które nie są kwadratowe może być macierzą kwadratową? Podaj przykład 2 Czy każde dwie macierze jednostkowe są równe? Podaj przykład 3 Czy mnożenie macierzy przez macierz jednostkową
Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.
Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Maja Czoków, Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2011-10-11 1 Modelowanie funkcji logicznych
Elementy inteligencji obliczeniowej
Elementy inteligencji obliczeniowej Paweł Liskowski Institute of Computing Science, Poznań University of Technology 9 October 2018 1 / 19 Perceptron Perceptron (Rosenblatt, 1957) to najprostsza forma sztucznego
Klasyfikacja metodą Bayesa
Klasyfikacja metodą Bayesa Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski warunkowe i bezwarunkowe 1. Klasyfikacja Bayesowska jest klasyfikacją statystyczną. Pozwala przewidzieć prawdopodobieństwo
Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS
Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów
Podstawowe modele probabilistyczne
Wrocław University of Technology Podstawowe modele probabilistyczne Maciej Zięba maciej.zieba@pwr.edu.pl Rozpoznawanie Obrazów, Lato 2018/2019 Pojęcie prawdopodobieństwa Prawdopodobieństwo reprezentuje
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska DRZEWO REGRESYJNE Sposób konstrukcji i przycinania
Wstęp do sieci neuronowych, wykład 09, Walidacja jakości uczenia. Metody statystyczne.
Wstęp do sieci neuronowych, wykład 09, Walidacja jakości uczenia. Metody statystyczne. Maja Czoków, Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2011-12-06 1 Przykład
Wstęp. Regresja logistyczna. Spis treści. Hipoteza. powrót
powrót Spis treści 1 Wstęp 2 Regresja logistyczna 2.1 Hipoteza 2.2 Estymacja parametrów 2.2.1 Funkcja wiarygodności 3 Uogólnione modele liniowe 3.1 Rodzina wykładnicza 3.1.1 Rozkład Bernouliego 3.1.2 Rozkład
Laboratorium 6. Indukcja drzew decyzyjnych.
Laboratorium 6 Indukcja drzew decyzyjnych. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk
KADD Minimalizacja funkcji
Minimalizacja funkcji n-wymiarowych Forma kwadratowa w n wymiarach Procedury minimalizacji Minimalizacja wzdłuż prostej w n-wymiarowej przestrzeni Metody minimalizacji wzdłuż osi współrzędnych wzdłuż kierunków
Metody probabilistyczne klasyfikatory bayesowskie
Konwersatorium Matematyczne Metody Ekonomii narzędzia matematyczne w eksploracji danych First Prev Next Last Go Back Full Screen Close Quit Metody probabilistyczne klasyfikatory bayesowskie Wykład 8 Marcin
SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization
Wrocław University of Technology SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization Jakub M. Tomczak Studenckie Koło Naukowe Estymator jakub.tomczak@pwr.wroc.pl 4.1.213 Klasteryzacja Zmienne
Analiza składowych głównych
Analiza składowych głównych Wprowadzenie (1) W przypadku regresji naszym celem jest predykcja wartości zmiennej wyjściowej za pomocą zmiennych wejściowych, wykrycie związku między wielkościami wejściowymi
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 2 κ-nn i Naive Bayes autorzy: M. Zięba, J.M. Tomczak, A. Gonczarek, S. Zaręba Cel zadania Celem zadania jest implementacja klasyfikatorów
Zastosowanie rozmytych map kognitywnych do badania scenariuszy rozwoju jednostek naukowo-dydaktycznych
Konferencja Systemy Czasu Rzeczywistego 2012 Kraków, 10-12 września 2012 Zastosowanie rozmytych map kognitywnych do badania scenariuszy rozwoju jednostek naukowo-dydaktycznych Piotr Szwed AGH University
Uogólniony model liniowy
Uogólniony model liniowy Ogólny model liniowy y = Xb + e Każda obserwacja ma rozkład normalny Każda obserwacja ma tą samą wariancję Dane nienormalne Rozkład binomialny np. liczba chorych krów w stadzie
Metody Sztucznej Inteligencji II
17 marca 2013 Neuron biologiczny Neuron Jest podstawowym budulcem układu nerwowego. Jest komórką, która jest w stanie odbierać i przekazywać sygnały elektryczne. Neuron działanie Jeżeli wartość sygnału
5. Analiza dyskryminacyjna: FLD, LDA, QDA
Algorytmy rozpoznawania obrazów 5. Analiza dyskryminacyjna: FLD, LDA, QDA dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Liniowe funkcje dyskryminacyjne Liniowe funkcje dyskryminacyjne mają ogólną
Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki
Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki Mateusz Kobos, 10.12.2008 Seminarium Metody Inteligencji Obliczeniowej 1/46 Spis treści Działanie algorytmu Uczenie Odtwarzanie/klasyfikacja
Wstęp do sieci neuronowych, wykład 13-14, Walidacja jakości uczenia. Metody statystyczne.
Wstęp do sieci neuronowych, wykład 13-14,. Metody statystyczne. M. Czoków, J. Piersa Faculty of Mathematics and Computer Science, Nicolaus Copernicus University, Toruń, Poland 2011.01.11 1 Przykład Przeuczenie
Laboratorium 11. Regresja SVM.
Laboratorium 11 Regresja SVM. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk Dalej>. 3. Z
Testowanie hipotez statystycznych
9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :
Rozpoznawanie obrazów
Rozpoznawanie obrazów Laboratorium Python Zadanie nr 2 κ-nn i Naive Bayes autorzy: M. Zięba, J.M. Tomczak, A. Gonczarek, S. Zaręba, J. Kaczmar Cel zadania Celem zadania jest implementacja klasyfikatorów
Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta
Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta www.michalbereta.pl Sieci radialne zawsze posiadają jedną warstwę ukrytą, która składa się z neuronów radialnych. Warstwa wyjściowa składa
Statystyka opisowa- cd.
12.03.2017 Wydział Inżynierii Produkcji I Logistyki Statystyka opisowa- cd. Wykład 4 Dr inż. Adam Deptuła HISTOGRAM UNORMOWANY Pole słupka = wysokość słupka x długość przedziału Pole słupka = n i n h h,
Ontogeniczne sieci neuronowe. O sieciach zmieniających swoją strukturę
Norbert Jankowski Ontogeniczne sieci neuronowe O sieciach zmieniających swoją strukturę Warszawa 2003 Opracowanie książki było wspierane stypendium Uniwersytetu Mikołaja Kopernika Spis treści Wprowadzenie
ALGORYTM RANDOM FOREST
SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM
Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.
Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Maja Czoków, Jarosław Piersa, Andrzej Rutkowski Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2018-10-15 Projekt
Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,
Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której
Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU
Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów
10/15/2016. Reguła. Czułość PV(+) Bayesa. Swoistość PV(-)
A=symptom B= choroba Czułość Swoistość A ~ A ~ Reguła Bayesa ~ B ~ A) PV(+) PV(-) 1 / 2016_10_13 PV ( ) A PV ( ) A A ~ ~ sensitivity * PV ( ) sensitivity * (1 specificity)(1- ) specificity *(1- ) specificity
Regresyjne metody łączenia klasyfikatorów
Regresyjne metody łączenia klasyfikatorów Tomasz Górecki, Mirosław Krzyśko Wydział Matematyki i Informatyki Uniwersytet im. Adama Mickiewicza XXXV Konferencja Statystyka Matematyczna Wisła 7-11.12.2009
Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość
Dwie metody Klasyczna metoda histogramu jako narzędzie do postawienia hipotezy, jaki rozkład prawdopodobieństwa pasuje do danych Indukcja drzewa decyzyjnego jako metoda wykrycia klasyfikatora ukrytego
Algorytmy klasyfikacji
Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe
Laboratorium 5. Adaptatywna sieć Bayesa.
Laboratorium 5 Adaptatywna sieć Bayesa. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk Dalej>.
KADD Minimalizacja funkcji
Minimalizacja funkcji Poszukiwanie minimum funkcji Foma kwadratowa Metody przybliżania minimum minimalizacja Minimalizacja w n wymiarach Metody poszukiwania minimum Otaczanie minimum Podział obszaru zawierającego
Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )
Statystyka Rozkład prawdopodobieństwa Testowanie hipotez Wykład III (04.01.2016) Rozkład t-studenta Rozkład T jest rozkładem pomocniczym we wnioskowaniu statystycznym; stosuje się go wyznaczenia przedziału
TEORETYCZNE PODSTAWY INFORMATYKI
1 TEORETYCZNE PODSTAWY INFORMATYKI WFAiS UJ, Informatyka Stosowana I rok studiów, I stopień Wykład 16 2 Data Science: Uczenie maszynowe Uczenie maszynowe: co to znaczy? Metody Regresja Klasyfikacja Klastering
Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11
Modele DSGE Jerzy Mycielski Maj 2008 Jerzy Mycielski () Modele DSGE Maj 2008 1 / 11 Modele DSGE DSGE - Dynamiczne, stochastyczne modele równowagi ogólnej (Dynamic Stochastic General Equilibrium Model)