Wst p 1 Wprowadzenie do systemów decyzyjnych Elementy systemów decyzyjnych Sprawy organizacyjne 2 Problem klasykacji i klasykatory Wprowadzenie Przegl d metod klasykacji 3 Metody oceny klasykatorów Skuteczno± predykcji Przedziaª ufno±ci miar ocen Metody walidacji danych Krzywy Lift i ROC H.S. Nguyen (MIM UW) SYD 30 listopada 2017 3 / 297
Problem uczenia si Kto si uczy? Ograniczymy si do programów komputerowych zwanych algorytmami ucz cymi si. Czego si uczy? poj : np. odró»nienie krzeseª od innych mebli. nieznanych urz dze«np. u»ywanie VCR nieznanych ±rodowisk np. nowe miasto procesów np. pieczenie ciasta rodzin podobnych wzorców np. rozp. mowy, twarzy lub pisma. funkcji: (np. funkcje boolowskie) Wymagania skuteczno±, efektywno±,... H.S. Nguyen (MIM UW) SYD 30 listopada 2017 4 / 297
Model uczenia Ka»dy ucze«powinien mie zdolno± uogólnienia, t.j. zdolno± rozpoznawania ró»nych obiektów tego samego poj cia. Np. je±li uczymy si funkcji, to wa»ne jest aby algorytm uczenia si nie ograniczaª si do jednej konkretnej funkcji. damy aby modele uczenia dziaªaªy skutecznie na klasach funkcji. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 5 / 297
ródªo informacji: Ucze«mo»e pozyska informacje o dziedzinie poprzez: 1 Przykªady: Ucze«dostaje pozytywne i/lub negatywne przykªady. Przykªady mog by zdobywane w sposób: 1 losowy: wedªug pewnego znanego lub nieznanego rozkªadu; 2 arbitralny; 3 zªo±liwy: (np. przez kontrolera, który chciaªby wykry sytuacj, kiedy algorytm zachowuje si najgorzej); 4 specjalny przez»yczliwego nauczyciela: (np., staraj cego uªatwia proces uczenia si ) 2 Zapytania: ucze«zdobywa informacje o dziedzinie przez zadawanie nauczycielowi zapyta«. 3 Eksperymentowanie: aktywne uczenie si. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 6 / 297
Teoria uczenia si Podej±cie indukcyjne: wnioskowanie na podstawie sko«czonego zbioru obserwacji; Np. Pokaza,»e dla ka»dego n N 1 2 + 2 2 +... + n 2 = n(n + 1)(2n + 1) 6 Jakie prawa rz dz w podej±ciu uczenia indukcyjnego? Szukamy teorii pozwalaj cej na oszacowanie Prawdopodobie«stwa wyuczenia si poj ; Liczby niezb dnych przykªadów treningowych; Zªo»ono±ci przestrzeni hipotez; Skuteczno±ci aproksymacji; Jako± reprezentacji danych treningowych; H.S. Nguyen (MIM UW) SYD 30 listopada 2017 7 / 297
Kryteria oceny jako±ci: Sk d wiemy, czy ucze«si nauczyª lub jak dobrze si nauczyª? Miara jako±ci wsadowa (ang. o-line, batch) i miara interaktywna (ang. on-line, interactive). Jako± opisu vs. jako± predykcji Skuteczno± : obliczona na podstawie bª du klasykacji, dokªadno±ci opisu... Efektywno± uczenia: wymagana jest wielomianowa zªo»ono± obliczeniowa. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 8 / 297
Przykªad Zaªó»my,»e chcemy nauczy si poj cia czªowieka o ±redniej budowie ciaªa. Dane czyli osoby s reprezentowane przez punkty (wzrost(cm), waga(kg)) i s etykietowane przez + dla pozytywnych przykªadów i dla negatywnych. Dodatkowa wiedza: szukane poj cie mo»na wyrazi za pomoc PROSTOK TA Na przykªad dany jest etykietowany zbiór: ((84, 184), +), ((70, 170), +), ((75, 163), ), ((80, 180), +), ((81, 195), ), ((63, 191), ), ((77, 187), ), ((68, 168), +) Znajd¹ etykiet ((79, 183,?) H.S. Nguyen (MIM UW) SYD 30 listopada 2017 9 / 297
Problem uczenia si prostok ta Rowa»any problem mo»emy zdeniowa problem nast puj co: Cel: Znale¹ w R 2 prostok t R o bokach równolegªych do osi. Wej±cie: Zbiór zawieraj cy przykªady w postaci punktów ((x, y), +/ ). Punkty z tego zbioru zostaªy wygenerowane losowo. Wyj±cie: Hipotetyczny prostok t R b d cy 'dobr aproksymacj R. Dodatkowe wymagania: Algorytm powinien by efektywny (ze wzgledu na zªo»ono± obliczeniow ) i powinien u»ywa do uczenia jak najmniejszej liczby przykªadów. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 10 / 297
Ogólny model uczenia si Przy ustalonych zbiorach poj C (dotycz cych obiektów ze zbioru X - sko«czonego lub nie) oraz hipotez H rozwa»amy nast pujacy problem Dane: sko«czona próbka D obiektów x 1,..., x m X wraz z warto±ciami pewnej funkcji c ze zbioru C na tych obiektach; Szukane: hipoteza h H b d ca dobr aproksymacj poj cia c. dania: dobra jako± aproksymacji szybki czas dziaªania. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 11 / 297
Inne przykªady Uczenie póªosi (lub dyskretyzacji): X = R; C = H = {[λ, ) : α R} Uczenie hiperpªaszczyzny: X = R n ; H = {f w0,w 1,...,w n : R n {0, 1} } gdzie f w0,...,w n (x 1,..., x n ) = sgn(w 0 + w 1 x 1 +... + w n x n ). Uczenie jednomianów Boolowskich: X = {0, 1} n ; c : {0, 1} n {0, 1}; H = M n = zbiór jednomianów Boolowskich o n zmiennych. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 12 / 297
Bª d hipotezy Niech X zbiór wszystkich obiektów. Ω = (X, µ) przestrze«probabilistyczna okre±lona na X. Bª d hipotezy h H wzgl dem poj cia c (funkcji docelowej): er Ω (h, c) = erω c (h) = µ{x X h(x) c(x)} Pytanie: Dane jest poj cie c, hipoteza h i zbiór przykladów D. Jak oszacowa rzeczywisty bª d hipotezy h na podstawie jej bª du erd c na zbiorze D? Odp.: Je±li przykªady z D s wybrane zgodnie z miar prawdopodobie«stwa µ niezale»nie od tej hipotezy i niezale»nie od siebie nawzajem oraz D 30, to najbardziej prawdopodobn warto±ci er Ω (c, h) jest erd c, z prawdopodobie«stwem (1 ε) erω c er D c s erd c (1 er D c ) ε 2 D H.S. Nguyen (MIM UW) SYD 30 listopada 2017 13 / 297
Teoria zbiorów przybli»onych Teoria zbiorów przybli»onych zostaªa wprowadzona w latach 80-tych przez prof. Zdzisªawa Pawlaka. Gªównym celem jest dostarczanie narz dzi dla problemu aproksymacji poj (zbiorów). Zastosowania w systemach decyzyjnych: Redukcja danych, selekcja wa»nych atrybutów Generowanie reguª decyzyjnych Odkrywanie wzorców z danych: szablony, reguªy asocjacyjne Odkrywanie zale»no±ci w danych H.S. Nguyen (MIM UW) SYD 30 listopada 2017 14 / 297
Systemy informacyjne Przykªad Pacjent Wiek Pªe Chol. ECG Rytm serca Chory? p 1 53 M 203 hyp 155 Tak p 2 60 M 185 hyp 155 Tak p 3 40 M 199 norm 178 Nie p 4 46 K 243 norm 144 Nie p 5 62 F 294 norm 162 Nie p 6 43 M 177 hyp 120 Tak p 7 76 K 197 abnorm 116 Nie p 8 62 M 267 norm 99 Tak p 9 57 M 274 norm 88 Tak p 10 72 M 200 abnorm 100 Nie H.S. Nguyen (MIM UW) SYD 30 listopada 2017 15 / 297
Tablica decyzyjna Tablica decyzyjna Jest to struktura S = (U, A {dec}), gdzie U jest zbiorem obiektów: U = {u 1,..., u n }; A jest zbiorem atrybutów postaci a j : U V j ; dec jest specjalnym atrybutem zwanym decyzj dec : U {1,..., d}. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 16 / 297
Tablica decyzyjna Tablica decyzyjna powstaje ze zwykªych tablic danych poprzez sprecyzowanie: Atrybutów (nazwanych warunkowymi): cechy, których warto±ci na obiektach s dost pne, np. pomiary, parametry, dane osobowe,... Decyzji (atrybut decyzyjny):, t.j. cecha ukryta zwi zana z pewn znan cz ±ciowo wiedz o pewnym poj ciu: Decyzja jest znana tylko dla obiektów z (treningowej) tablicy decyzyjnej; Jest podana przez eksperta (np. lekarza) lub na podstawie pó¹niejszych obserwacji (np. ocena gieªdy); Chcemy poda metod jej wyznaczania dla dowolnych obiektów na podstawie warto±ci atrybutów warunkowych na tych obiektach. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 17 / 297
Przykªad Przedstawiona tablica decyzyjna zawiera: 8 obiektów b d cych opisami pacjentów 3 atrybuty: Headache Muscle pain, Temp. Decyzj stwierdz c czy pacjent jest przezi biony czy te» nie. lub nie Example U Ból gªowy Ból mi ±ni Temp. Grypa p1 Tak Tak N Nie p2 Tak Tak H Tak p3 Tak Tak VH Tak p4 Nie Tak N Nie p5 Nie Nie H Nie p6 Nie Tak VH Tak p7 Nie Tak H Tak p8 Nie Nie VH Nie H.S. Nguyen (MIM UW) SYD 30 listopada 2017 18 / 297
Relacja rozró»nialno±ci Dane s obiekty x, y U i zbiór atrybutów B A, mówimy,»e x, y s rozró»nialne przez B wtw, gdy istnieje a B taki,»e a(x) a(y); x, y s nierozró»nialne przez B, je±li one s identyczne na B, tzn. a(x) = a(y) dla ka»dego a B; [x] B = zbiór obiektów nierozró»nialnych z x przez B. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 19 / 297
Relacja rozró»nialno±ci Dla ka»dych obiektów x, y: albo [x] B = [y] B ; albo [x] B [y] B =. Relacja x IND B y := x, y s nierozró»nialne przez B jest relacj równowa»no±ci. Ka»dy zbiór atrybutów B A wyznacza podziaª zbioru obiektów na klasy nierozró»nialno±ci. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 20 / 297
Przykªad Dla B = {Blgowy, Blmini} obiekty p1, p2, p3 s nierozró»nialne; s 3 klasy nierozró»nialno±ci relacji IND B : [p1] B = {p1, p2, p3} [p4] B = {p4, p6, p7} [p5] B = {p5, p8} Example U Ból gªowy Ból mi ±ni Temp. Grypa p1 Tak Tak N Nie p2 Tak Tak H Tak p3 Tak Tak VH Tak p4 Nie Tak N Nie p5 Nie Nie H Nie p6 Nie Tak VH Tak p7 Nie Tak H Tak p8 Nie Nie VH Nie H.S. Nguyen (MIM UW) SYD 30 listopada 2017 21 / 297
Problemy Aproksymacji Aproksymacja funkcji Sztuczna sie neuronowa; Twierdzenie Kolmogorowa; Modele sieci. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 22 / 297
Problemy Aproksymacji Aproksymacja poj Uczenie indukcyjne; COLT; Metody uczenia si. Wnioskowanie aproksymacyjne Wnioskowanie rozmyte; Wnioskowanie Boolowskie, teoria zbiorów przybli»onych; Inne: wnioskowanie Bayesowskie, sieci przekona«,... H.S. Nguyen (MIM UW) SYD 30 listopada 2017 23 / 297
Omówione tematy Klasykatory (algorytmy klasykuj ce) i metody oceny klasykatorów Metody rozumowania Boolowskiego Teoria zbiorów przybli»onych Reguªy decyzyjne, drzewo decyzyjne i lasy decyzyjne Klasykatory Bayesowskie Sieci neuronowe COLT: Obliczeniowa Teoria Uczenia si Metody przygotowywania danych SVM: Maszyna wektorów podpieraj cych Metody wzmacniania klasykatorów (ang. Boosting) H.S. Nguyen (MIM UW) SYD 30 listopada 2017 24 / 297
O co chodzi w NFL? Znale¹ optimum nieznanej funkcji f : S W (f F), gdzie S, W s sko«czonymi zbiorami. Dziaªanie algorytmu przeszukiwania A dla funkcji f jest identykowane z wektorem: V A (f, t) = (s 1, f (s 1 )), (s 2, f (s 2 )),..., (s t, f (s t )) Ocena algorytmu: M : {V A (f, t) A, f, t} R. Np. M(V A (f, t)) = min {i f (s i) = f max } i {1,..,t} H.S. Nguyen (MIM UW) SYD 30 listopada 2017 25 / 297
Warunek NFL: Dla dowolnej funkcji M, i dla dowolnych algorytmów A, A M(V A (f, S )) f F M(V A (f, S )) = f F F jest zamkni ta wzgl dem permutacji: dla dowolnej funkcji f F i dowolnej permutacji σ Perm(S) mamy σf F Twierdzenie o NFL Zachodzi równowa»no± NFL F jest zamkni ta wzgl dem permutacji. Prawdopodobie«stwo wylosowania niepustej klasy funkcji zamkni tej wzg. permutacji wynosi: 1 ( S + W 2 S ) 1 2 S W 1 H.S. Nguyen (MIM UW) SYD 30 listopada 2017 26 / 297
The No Free Lunch Theorem for learning Algorytm L dobrze si uczy poj cia c je±li erω c jest maªy. Niech P(X ) = {c : X {0, 1}}. Czy mo»na stwierdzi wiedzie,»e algorytm L 1 wyuczy si wszystkich poj z P(X ) lepiej ni» algorytm L 2? No Free Lunch theorem (Wolpert, Schaer) w wersji problemów uczenia si gªosi,»e: aden algorytm nie mo»e by najlepszy w wyuczeniu wszystkich poj. Ka»dy algorytm jest najlepszy dla takiej samej liczby poj Ale interesuje nas tylko pewna klasa problemów czyli klasa poj C P(X ) Wniosek: Nale»y znale¹ odpowiedni algorytm do ka»dego problemu. H.S. Nguyen (MIM UW) SYD 30 listopada 2017 27 / 297