Wprowadzenie. Data Science Uczenie się pod nadzorem

Transkrypt

1 Wprowadzenie

2 Wprowadzenie

3 Wprowadzenie

4 Wprowadzenie

5 Machine Learning Mind Map

6 Historia

7 Wstęp lub uczenie się z przykładów jest procesem budowy, na bazie dostępnych danych wejściowych X i oraz wyjściowych Y i, i = 1, 2,...,n, regułyklasyfikacyjnejzwanej inaczej klasyfikatorem, służącejdopredykcjietykietyy grupy, do której należy obserwacja X.

8 Wstęp Załóżmy, że dysponujemy K niezależnymi, prostymi próbami losowymi o liczebnościach, odpowiednio, n 1, n 2,...,n K,pobranymi z K różnych populacji (klas, grup): X 11, X 12,...,X 1n1 z populacji 1 X 21, X 22,...,X 2n2 z populacji 2 X K1, X K2,...,X KnK z populacji K, gdzie X ij =(X ij1, X ij2,...,x ijp ) jest j-tą obserwacją z i-tej populacji zawierającą p obserwowanych cech, i = 1, 2,...,K, j = 1, 2,...,n i.

9 Wstęp Powyższe dane można wygodniej zapisać w innej postaci, a mianowicie w postaci jednego ciągu n uporządkowanych par losowych (X 1, Y 1 ),...,(X n, Y n ), gdzie X i =(X i1, X i2,...,x ip ) X R p jest i-tą obserwacją, natomiast Y i jest etykietą populacji, do której ta obserwacja należy, przyjmującą wartości w pewnym skończonym zbiorze Y, i = 1, 2,...,n, n = n 1 + n n K. Składowe wektora X i =(X i1, X i2,...,x ip ) nazywać będziemy cechami, zmiennymi lub atrybutami. Próbę L n = {(X 1, Y 1 ),...,(X n, Y n )} nazywać będziemy próbą uczącą.

10 Wstęp Interesuje nas problem predykcji etykiety Y na podstawie wektora cech X. Problem ten nazywany jest klasyfikacją, dyskryminacją, uczeniem się pod nadzorem lub rozpoznawaniem wzorców. Reguła klasyfikacyjna, zwana krótko klasyfikatorem, jestfunkcją d : X Y.GdyobserwujemynowywektorX,toprognozą etykiety Y jest d(x ).

11 Wstęp Na poniższym rysunku pokazanych jest 20 punktów. Wektor cech X =(X 1, X 2 ) jest dwuwymiarowy a etykieta Y Y= {1, 0}. Wartości cechy X dla Y = 0reprezentowanesąprzeztrójkąty,a dla Y = 1przezkwadraty.Liniaprzerywanareprezentujeliniową regułę klasyfikacyjną postaci { 1, jeżeli a + b1 x d(x) = 1 + b 2 x 2 > 0, 0, poza tym. Każdy punkt leżący poniżej tej linii klasyfikowany jest do grupy o etykiecie 0 oraz każdy punkt leżący powyżej tej linii klasyfikowany jest do grupy o etykiecie 1.

12 Wstęp

13 Rzeczywisty poziom błędu Klasyczny problem klasyfikacji polega na predykcji nieznanej etykiety Y Y na podstawie wektora cech X X R p klasyfikowanego obiektu. Naszym celem jest znalezienie takiego klasyfikatora d : X Y,który daje dokładnąpredykcję. Miarą jakości klasyfikatora jest jego rzeczywisty poziom błędu. Definicja Rzeczywisty poziom błędu klasyfikatora d jest równy e(d) =P(d(X ) Y ). (1)

14 Klasyfikator bayesowski Weźmy wpierw pod uwagę przypadek dwóch klas, tj. gdy Y = {1, 0}. Wcelustworzeniamodeluklasyfikacjizałóżmy,że (X, Y ) jest parą losową o wartościach w R p {1, 0} oraz, że jej rozkład prawdopodobieństwa opisuje para (µ, r), gdzie µ jest miarą probabilistyczną wektora X oraz r jest regresją Y względem X. Bardziej precyzyjnie, dla zbioru A R p, oraz dla każdego x R p, µ(a) =P(X A) r(x) =E(Y X = x) =1 P(Y = 1 X = x)+0 P(Y = 0 X = x) = P(Y = 1 X = x) Zatem r(x) jest prawdopodobieństwem warunkowym, że Y = 1, gdy X = x. Rozkładprawdopodobieństwapary(X, Y ) wyznacza para (µ, r). Funkcja r(x) nazywa się prawdopodobieństwem a posteriori.

15 Klasyfikator bayesowski ZtwierdzeniaBayes amamy gdzie r(x) =P(Y = 1 X = x) f (x Y = 1)P(Y = 1) = f (x Y = 1)P(Y = 1)+f (x Y = 0)P(Y = 0) π 1 f 1 (x) = π 1 f 1 (x)+π 0 f 0 (x), π 1 = P(Y = 1), π 0 = P(Y = 0), π 1 + π 0 = 1 są prawdopodobieństwami a priori.

16 Klasyfikator bayesowski Definicja Klasyfikator postaci d B (x) = { 1, jeżeli r(x) > 1 2, 0, poza tym. nazywać będziemy klasyfikatorem bayesowskim

17 Klasyfikator bayesowski Klasyfikator bayesowski zapisać można w innych równoważnych postaciach: { 1, jeżeli P(Y = 1 X = x) > P(Y = 0 X = x), d B (x) = 0, poza tym. lub { 1, jeżeli π1 f d B (x) = 1 (x) >π 0 f 0 (x), 0, poza tym.

18 Klasyfikator bayesowski Twierdzenie Klasyfikator bayesowski jest optymalny, tj. jeżeli d jest jakimkolwiek innym klasyfikatorem, to e(d B ) e(d), gdziee(d) jest rzeczywistym poziomem błędu klasyfikatora d.

19 Aktualny poziom błędu Niestety, klasyfikator bayesowski zależy od rozkładu prawdopodobieństwa pary (X, Y ). Najczęściej rozkład ten nie jest znany i stąd również nie jest znany klasyfikator bayesowski d B. Pojawia się zatem problem skonstruowania klasyfikatora ˆd(x) = ˆd(x; L n ) opartego na próbie uczącej L n = {(X 1, Y 1 ),...,(X n, Y n )} zaobserwowanej w przeszłości. Proces konstruowania klasyfikatora ˆd nazywany jest uczeniem się, uczeniem pod nadzorem lub uczeniem się z nauczycielem. Chcemy znaleźć taki klasyfikator ˆd, dlaktóregoe( ˆd) jest bliskie e(d B ).Jednakżee( ˆd) jest zmienną losową, ponieważ zależy od losowej próby uczącej L n.

20 Aktualny poziom błędu Wnaszymmodeluklasyfikacyjnymzakładamy,żepróbaucząca L n = {(X 1, Y 1 ),...,(X n, Y n )} jest ciągiem niezależnych par losowych o identycznym rozkładzie prawdopodobieństwa takim, jak rozkład pary (X, Y ). Jakośćklasyfikatoraˆd mierzona jest za pomocą warunkowego prawdopodobieństwa błędu e( ˆd) =P( ˆd(X ) Y L n ), gdzie para losowa (X, Y ) jest niezależna od próby uczącej L n. Wielkość e( ˆd) nazywamy aktualnym poziomem błędu klasyfikatora. Chcemy znaleźć taki klasyfikator ˆd, dlaktóregoe( ˆd) jest bliskie e(d B ).Jednakżee( ˆd) jest zmienną losową, ponieważ zależy od losowej próby uczącej L n.

21 Estymacja aktualnego poziomu błędu Niech ˆd(x) = ˆd(x; L n ) oznacza klasyfikator skonstruowany przy pomocy próby uczącej L n.niechê ê( ˆd) oznacza ocenę aktualnego poziomu błędu klasyfikatora ˆd. Ocenętęnazywać będziemy błędem klasyfikacji. Wsytuacjach,kiedynapopulacje nie narzuca się żadnej konkretnej rodziny rozkładów, jedyną drogą oceny prawdopodobieństwa e( ˆd) jest użycie metod estymacji nieparamerycznej.

22 Estymacja aktualnego poziomu błędu Wnajlepszejsytuacjijesteśmywtedy,gdydysponujemy m-elementową próbą testową T m niezależną od próby uczącej L n. Niech zatem T m = {(X t 1, Y t 1 ),...,(X t m, Y t m)}. Wtedyza estymator aktualnego poziomu błędu klasyfikatora ˆd przyjmujemy: ê T = 1 m m j=1 I ( ˆd(X t j ; L n) Y t j ). Wprzypadkugdyniedysponujemyniezależnąpróbątestową,do estymacji używamy jedynie próby uczącej.

23 Estymacja aktualnego poziomu błędu Naturalną oceną aktualnego poziomu błędu jest wtedy wartość estymatora ponownego podstawienia (resubstytucji) ê R = 1 n n I ( ˆd(X j ; L n ) Y j ). j=1 Wartość tego estymatora uzyskuje się poprzez klasyfikację regułą ˆd tych samych obserwacji, które służyły do jej konstrukcji. Oznacza to, iż próba ucząca jest zarazem próbą testową. Estymator ten jest więc obciążonym estymatorem wielkości e( ˆd) i zaniża jej rzeczywistą wartość. Uwidacznia się to szczególnie w przypadku złożonych klasyfikatorów opartych na relatywnie małych próbach uczących. Redukcję obciążenia można uzyskać stosując poniższe metody estymacji.

24 Estymacja aktualnego poziomu błędu Jednym ze sposobów redukcji obciążenia estymatora ê R jest tzw. metoda podziału próby na dwa podzbiory: próbę uczącą ipróbętestową. Wówczasklasyfikatorkonstruujesięzapomocą pierwszego z nich, drugi natomiast służy do konstrukcji estymatora. Wykorzystanie tylko części informacji w celu uzyskania reguły klasyfikacyjnej prowadzi jednak często do zawyżenia wartości estymatora błędu. Rozwiązaniem tego problemu jest metoda sprawdzania krzyżowego. Oznaczmy przez L ( j) n próbę uczącą L n zktórejusunięto obserwację Z j =(X j, Y j ).Klasyfikatorkonstruujesię wykorzystując próbę L ( j) n,anastępnietestujesięgona pojedynczej obserwacji Z j.czynnośćtępowtarzasięn razy, dla każdej obserwacji Z j zosobna.odpowiedniestymatormapostać: ê CV = 1 n n j=1 I ( ˆd(X j ; L ( j) n ) Y j ).

25 Estymacja aktualnego poziomu błędu Procedura ta w każdym z n etapów jest w rzeczywistości metodą podziału próby dla przypadku jednoelementowego zbioru testowego. Każda obserwacja próby jest użyta do konstrukcji klasyfikatora ˆd. Każdaznichjestteż(dokładniejedenraz) elementem testowym. Estymator ten, choć granicznie nieobciążony, ma większą wariancję. Ponadto wymaga on konstrukcji n klasyfikatorów, co dla dużych n oznacza znaczący wzrost obliczeń. Rozwiązaniem pośrednim jest metoda rotacyjna, zwana często v-krokową metodą sprawdzania krzyżowego. Polegaonanalosowympodzialepróby na v podzbiorów, przy czym v 1znichtworzypróbęuczącą, natomiast pozostały próbę testową. Procedurę tę powtarza się v razy, dla każdego podzbioru rozpatrywanego kolejno jako zbiór testowy.

26 Estymacja aktualnego poziomu błędu

27 Estymacja aktualnego poziomu błędu Odpowiedni estymator jest postaci: ê vcv = 1 n v n i=1 j=1 I (Z j L (i) n )I ( ˆd(X j ; L ( i) n ) Y j ), gdzie L (1) n, L (2) n,..., L (v) n jest losowym v-podziałem próby L n na równoliczne podzbiory, a L ( i) n = L n \ L (i) n, i = 1, 2,...,v.

28 Estymacja aktualnego poziomu błędu Metoda ta daje mniejsze obciążenie błędu niż metoda podziału próby i wymaga mniejszej liczby obliczeń w porównaniu ze sprawdzaniem krzyżowym (jeśli tylko v < n). W zagadnieniu estymacji aktualnego poziomu błędu zalecane jest obranie wartości v = 10. Metoda sprawdzania krzyżowego jest powszechnie wykorzystywana w zagadnieniu wyboru modelu. Z rodziny klasyfikatorów opisanej parametrycznie wybieramy wtedy klasyfikator, dla którego błąd klasyfikacji ma wartość najmniejszą.

29 Estymacja aktualnego poziomu błędu Definicja Próbą bootstrapową nazywamy próbę n-elementową pobraną z n-elementowej próby uczącej w procesie n-krotnego losowania pojedynczych obserwacji ze zwracaniem. Niech L 1 n, L 2 n,...,l B n będzie ciągiem kolejno pobranych B prób bootstrapowych. Bootstrapowa ocena aktualnego poziomu błędu ma postać ê B = 1 B B b=1 n j=1 I (Z j L b n )I ( ˆd(X j ; L b n ) Y j ) n j=1 I (Z j L b n ). Widać, że powyższa ocena aktualnego poziomu błędu jest uzyskana metodą sprawdzania krzyżowego zastosowaną do prób bootstrapowych.

30 Estymacja aktualnego poziomu błędu Wceludalszejredukcjiobciążeniategoestymatorazaproponowano estymator postaci: ê.632 = 0,368 ê R + 0,632 ê B. Waga 0,368 jest przybliżoną wartością wielkości e 1 =lim n (1 1/n) n,ijestgranicznąwartością prawdopodobieństwa nie wylosowania obserwacji z próby uczącej do próby bootstrapowej.

31 Macierz pomyłek Sam błąd klasyfikacji nie wystarczy aby stwierdzić, czy klasyfikator działa dobrze. Po zakonczeniu procedury oceny błędu klasyfikacji naszego modelu zostajemy z lista obserwacji testowych, gdzie dla kazdej z nich znamy klasę obserwowaną oraz klasę przewidywaną przez nasz model. Zliczając liczbe przypadkow dla kazdej z kombinacji tych dwóch klas (obserwowanej i przewidywanej) możemy stworzyć tzw. macierz pomyłek (ang. confusion matrix). Możemy na jej podstawie ocenić błąd modelu: musimy zsumować wartości na głównej przekątnej (obserwacje poprawnie rozpoznane) ipodzielićjeprzezliczbęwszystkichobserwacjitestowych.

32 Przeuczenie i niedouczenie modelu

33 ZeroR najprostszy klasyfikator Algorytm ZeroR (Zero Rule) ignoruje wszystkie cechy, oprócz etykiet. Na ich podstawie, sprawdza najczęściej występującą klasę i tworzy klasyfikator który zawsze będzie ją zwracać. Zatem algorytm ZeroR zawsze przypisuje nowe obserwacje do tej samej klasy (klasy większościowej), niezależnie od wartości cech.

34 OneR Algorytm OneR (One Rule) jest tylko nieco bardziej wyrafinowany niz ZeroR. Podczas gdy ZeroR ignoruje wszystkie cechy, OneR wybiera tylko jedną i ignoruje pozostałe. Wybierając najlepszą cechę sprawdza on błąd na danych uczących dla klasyfikatorow zbudowanych na kazdej z cech osobno i wybiera tą z nich, która minimalizuje błąd. Dla każdej cechy dzieli on dane uczące na podzbiory ze względu na wartość tej cechy. Następnie, na każdym znichużywaalgorytmuzeror.pokazano,żepomimoprostotyjest to metoda jedynie nieznacznie ustępująca najlepszym klasyfikatorom. R.C. Holte. (1993). Very simple classification rules perform well on most commonly used datasets. MachineLearning 11(1):63 90.

35 OneR Day Outlook Temperature Humidity PlayTennis D1 sunny hot high NO D2 sunny hot high NO D3 overcast hot high YES D4 overcast hot normal YES D5 rain mild high NO Skonstruujmy klasyfikatory dla różnych atrybutów: Outlook YES NO trafność sunny 0 2 5/5 = 100% overcast 2 0 rain 0 1 Temperature YES NO trafność hot 2 2 3/5 = 60% mild 0 1 Humidity YES NO trafność high 1 3 4/5 = 80% normal 1 0 Jak widzimy, najwyższą trafność osiągamy korzystając z atrybutu Outlook. Algorytm stworzy więc następujący klasyfikator: IF Outlook = sunny THEN PlayTennis = NO IF Outlook = overcast THEN PlayTennis = YES IF Outook = rain THEN PlayTennis = NO