Wst p do uczenia maszynowego. Teoria nauczalno±ci. Robert A. Kªopotek r.klopotek@uksw.edu.pl Wydziaª Matematyczno-Przyrodniczy. Szkoªa Nauk cisªych, UKSW 04.10.2017
O mnie doktor nauk technicznych w zakresie informatyki (Instytut Podstaw informatyki PAN, 2015) uko«czone studia na Wydziale Matematyki i Nauk Informacyjnych Politechniki Warszawskiej w 2011 r. obecnie w rmie mi dzynarodowej jako specjalista analizy danych. 2 / 39
Zainteresowania naukowo-badawcze przewidywaniem rozwoju sieci w czasie (analiza sieci spoªecznych - SNA) wizualizacja grafów zastosowanie GPGPU w wybranych algorytmach uczenia maszynowego (machine learning) rozwi zywanie ukªadów równa«wielomianowych z wykorzystaniem architektury CUDA eksploracja i eksploatacja danych (data mining) analiza prze»ycia (survival analysis) 3 / 39
Zaliczenie przedmiotu udziaª w laboratoriach - 60% oceny ko«cowej (osoby, które na laboratoriach dostan 90% wszystkich punktów lub wi cej s zwolnione z kolokwium z ocen bardzo dobry) kolokwium ko«cowe - 40% oceny ko«cowej ocena ko«cowa: > 90% bardzo dobry > 80% dobry + > 70% dobry > 60% dostateczny + > 50% dostateczny 50% niedostateczny BONUS 1: 10% do oceny ko«cowej za uczestniczenie we wszystkich wykªadach, na których b dzie sprawdzana obecno± BONUS 2: 5% do oceny ko«cowej za rozwi zanie oznaczonych zada«do nast pnego wykªadu (±roda godz. 8.00) 4 / 39
Koncepcje sztucznej inteligencji "Silna" sztuczna inteligencja - system inteligentny, to taki, który jest bezpo±rednim odzwierciedleniem inteligencji czªowieka "Sªaba" sztuczna inteligencja - system inteligentny, to taki, który dziaªa racjonalnie (koncepcja systemowa). 5 / 39
Uczenie si i jego rodzaje Denicja uczenia si Proces poprawy jako±ci dziaªania systemu wedªug pewnego kryterium na podstawie do±wiadcze«z przeszªo±ci. Doskonalenie zdolno±ci do rozwi zywania pewnej klasy zada«na podstawie informacji uzyskanych na podstawie rozwi zania pewnej liczby zada«tej klasy. Zdobywanie wiedzy lub umiej tno±ci, reprezentowanie jej wewn trz systemu i stosowanie jej w wykonywaniu zadania. Wiedza na ogóª nie deniuje si lub deniuje si tylko w kontek±cie wybranej, specycznej metody lub grupy metod uczenia si. Mówi si raczej o reprezentacji wiedzy. Uczenie si a sztuczna inteligencja teoria i praktyka uczenia si maszyn to gªównie tzw. sªaba AI. 6 / 39
Przykªady uczenia si Uczenie si (coraz lepszej) gry w warcaby. Uczenie si rozpoznawania chorób na podstawie symptomów. Uczenie si klasykowania tekstów do grup tematycznych na podstawie przykªadów. Uczenie si aproksymowania nieznanej funkcji na podstawie próbek. Uczenie si kierowania samochodem na podstawie obserwacji i na±ladowania instruktora. Uczenie si odnajdywania drogi w nieznanym ±rodowisku. Uczenie si zale»no±ci funkcyjnych pomi dzy danymi obserwacyjnymi. 7 / 39
Motywacja dla uczenia si Dla naprawd zªo»onych zada«trudno jest sformuªowa wprost gotowe programy dla ich rozwi zywania. Cz sto zbiory dost pnych danych s zbyt du»e i skomplikowane, aby mo»na byªo wyszukiwa w nich zale»no±ci, klasykowa obiekty itd. w sposób niezautomatyzowany. Zªo»one ±rodowiska s trudne do opisu, cz sto nie posiadaj wystarczaj cych modeli teoretycznych albo ich uzyskanie jest bardzo kosztowne. "R cznie" zakodowane programy dla takich ±rodowisk, nawet gdyby udaªo si je stworzy, byªyby maªo wiarygodne. Inteligentne systemy powinny by w maksymalnym stopniu autonomiczne, czyli zdolne do dziaªania bez (zbyt du»ej) ingerencji czªowieka, co nie jest mo»liwe bez adaptacyjno±ci, zdolno±ci do przystosowywania si do zmieniaj cych si ±rodowisk i wymaga«. 8 / 39
Taksonomia metod uczenia si Wiedza deklaratywna a proceduralna (wiedza a umiej tno± ), ich zale»no±ci. Sposób nabywania wiedzy: bezpo±rednia implantacja, przez obserwacj i odkrywanie (bez nadzoru), na podstawie przykªadów (z nadzorem), uczenie si na podstawie zapyta«, uczenie si ze wzmocnieniem. Reprezentacja wiedzy: reguªy, drzewa decyzyjne, klauzule logiki predykatów, grupowania (taksonomie), rozkªady prawdopodobie«stwa, reprezentacje parametryczne, funkcje przej± automatów. 9 / 39
Terminologia i notacja dla indukcyjnego uczenia si zasada ogólna oznacze«: maªe litery pocz tku alfabetu oznaczaj funkcje lub staªe, np. a(x) lub a b maªe litery ko«ca alfabetu oznaczaj elementu zbioru, np. x X maªe pogrubione litery pocz tku i ko«ca alfabetu oznaczaj wektory, np. a x + b = y maªe litery i,j,k oznaczaj indeksy lub i-ty, j-ty, k-ty element wektora DU E litery ko«ca i pocz tku alfabetu oznaczaj zbiory DU E pogrubione ko«ca i pocz tku alfabetu oznaczaj macierze, np. a X + b = y "podwójne" litery oznaczaj przestrze«lub zbiór zbiorów, np. a Z, X R 10 / 39
Terminy podstawowe Dziedzina X : zbiór z którego mog pochodzi przykªady. Przykªad x X : pojedynczy element dziedziny. Atrybut: dowolna funkcja a : X A. Przyjmuje si,»e ka»dy przykªad x X opisany jest przez n atrybutów a i : X A i, i = 1,..., n. Zbiór warto±ci atrybutów a 1 (x),..., a n (x) stanowi peªny opis przykªadu x. Typy atrybutów: nominalne (dyskretne bez relacji porz dku), porz dkowe (dyskretne z relacj porz dku), ci gªe. 11 / 39
Poj cie i zbiór poj Poj cie (docelowe): pewna funkcja c : X {0, 1}. Równowa»ne alternatywne sformuªowanie: podzbiór X c X. Czasem w praktyce uwzgl dnia si poj cie wielokrotne: funkcja c : X C, C > 2. Warto± c(x) nazywa si etykiet, klas lub kategori przykªadu x. Przestrze«(klasa) poj C: zbiór wszystkich poj dla danej dziedziny X. Przyjmuj c denicj poj cia jako podzbioru mamy dla sko«czonej dziedziny C 2 X. 12 / 39
Hipoteza i zbiór hipotez Hipoteza: funkcja h : X {0, 1}, która jest konstruowanym przez ucznia przybli»eniem poj cia docelowego c. W przypadku uczenia si poj wielokrotnych denicja odpowiednio si zmienia. Przestrze«(klasa) hipotez H: zbiór wszystkich hipotez, które ucze«mo»e skonstruowa (zbiór ten zale»y od sposobu reprezentacji hipotez przez ucznia i algorytmu uczenia si ). Najlepiej je±li C H: wtedy mamy gwarancj,»e c H, czyli»e ucze«mo»e nauczy si poj cia docelowego. Niestety, w praktyce cz sto H C. 13 / 39
Przykªady oznacze«przykªad etykietowany poj cia c: para x, c(x), x X. Przykªad negatywny poj cia c: x X, c(x) = 0. Przykªad pozytywny poj cia c: x X, c(x) = 1. Klasa (kategoria) przykªadów z dziedziny x: C i c = {x X c(x) = i}. 14 / 39
Zbiór trenuj cy Zbiór trenuj cy dla uczenia si z nadzorem poj cia c: T c = { x, c(x) x T X }. Dla prostoty, je±li wiadomo o jakie poj cie docelowe chodzi, czasem mówi si o T jako o zbiorze trenuj cym, rozumiej c,»e etykiety s tak»e dane. Zbiór trenuj cy dla uczenia si bez nadzoru: T X. 15 / 39
Bª d próbki i bª d rzeczywisty Bª d próbki hipotezy h wzgl dem poj cia c dla zbioru przykªadów D: e c D (h) = x D δ(h(x), c(x)), D gdzie δ(h(x), c(x)) ma warto± 1 gdy h(x) c(x) i 0 gdy h(x) = c(x). Rzeczywisty bª d hipotezy h wzgl dem poj cia c dla rozkªadu prawdopodobie«stwa Ω na X : e c Ω (h) = Pr x Ω(h(x) c(x)). Metody statystyczne pozwalaj oszacowa bª d rzeczywisty na podstawie bª du prób 16 / 39
Problem indukcyjnego uczenia si Problem indukcyjnego uczenia si z nadzorem: maj c dany zbiór trenuj cy T c znale¹ hipotez h H, która jest najlepszym przybli»eniem poj cia docelowego c wedªug pewnego kryterium. Kryterium to na ogóª uwzgl dnia bª d próbki, ale nie ogranicza si do niego. W przypadku idealnym ( x X )h(x) = c(x). Problem indukcyjnego uczenia si bez nadzoru: maj c dany zbiór trenuj cy T znale¹ hipotez h H, która daje najlepsz klasykacj przykªadów wedªug pewnego kryterium. Indukcyjne obci»enie (inductive bias): preferencje ucznia do wyboru okre±lonych hipotez, zespóª wszystkich czynników, które w poª czeniu ze zbiorem trenuj cym determinuj (w sensie konsekwencji logicznej) wybór konkretnej hipotezy. Zaªo»enie indukcji: hipoteza wybrana jako najlepsza dla dostatecznie du»ego zbioru trenuj cego jest dobra dla caªej dziedziny. 17 / 39
Obliczeniowa teoria uczenia si - Computational Learning Theory (COLT) W ramach COLT algorytmy ucz ce si analizuje si w oparciu o pewne modele uczenia si. Analiza ma na celu zazwyczaj okre±lenie warunków w których wybrane rodzaje algorytmów dla wybranych klas poj s w stanie uzyska hipotez speªniaj c pewne kryteria jako±ci, zwi zany z tym wymagany koszt oblicze«, potrzebn wielko± zbioru trenuj cego i liczb pomyªek, jakie popeªni ucze«. Najbardziej rozpowszechnione s modele PAC (probably approximately correct) i ograniczania pomyªek (mistake-bound). 18 / 39
Szacowanie bª du Zaªó»my,»e dana jest hipoteza h i zbiór przykªadów D wybranych zgodnie z rozkªadem Ω niezale»nie od tej hipotezy i niezale»nie od siebie nawzajem. Istniej rezultaty z teorii prawdopodobie«stwa i statystyki, które przy tym zaªo»eniu pozwalaj oszacowa rzeczywisty bª d hipotezy h na podstawie jej bª du próbki na zbiorze D, je±li D 30, nast puj co: najbardziej prawdopodobn warto±ci e c Ω (h) jest ec D (h), z prawdopodobie«stwem ok. 0.95 eω c (h) ec D (h) 1.96 ed c (h)(1 ec D (h)). D Nale»y podkre±li,»e podej±cie to nadaje si tylko do szacowania dokªadno±ci hipotez za pomoc zbiorów przykªadów od nich niezale»nych 19 / 39
Model PAC Dana jest dziedzina X, klasa poj C i przestrze«hipotez ucznia H. Ucze«uczy si poj cia c C na podstawie przykªadów etykietowanych generowanych wedªug stacjonarnego rozkªadu prawdopodobie«stwa Ω na X. Kolejne przykªady zbioru trenuj cego Tc generuje tzw. wyrocznia zmienna losowa EX(c, Ω) zwracaj ca przykªad x, c(x), gdzie x X jest wylosowane zgodnie z Ω. Celem ucznia jest znalezienie hipotezy minimalizuj cej bª d rzeczywisty wzgl dem c dla rozkªadu Ω, czyli e c Ω (h). Zasadnicza idea modelu PAC polega na okre±leniu warunków, pod jakimi ucze«znajdzie dobr hipotez (o ograniczonym bª dzie rzeczywistym) z du»ym prawdopodobie«stwem (powy»ej okre±lonego progu). 20 / 39
PAC-nauczalno± Denicja 1 Mówimy,»e C jest PAC-nauczalne za pomoc H, je±li istnieje algorytm L taki,»e dla dowolnego c C, dowolnego rozkªadu Ω na X, oraz dowolnych 0 < ɛ < 1 i 0 < δ < 1, uruchomienie L z dost pem do EX(c, Ω) i z parametrami ɛ, δ produkuje z prawdopodobie«stwem co najmniej 1 δ hipotez h H, dla której eω c (h) ɛ. Denicja 2 Mówimy,»e C jest efektywnie PAC-nauczalne za pomoc H, je±li C jest PAC-nauczalne za pomoc H i istnieje algorytm PAC-ucz cy si L dla C, który dziaªa w czasie wielomianowym wzgl dem 1/ɛ, 1/δ, rozmiaru przykªadu z X i rozmiaru poj cia z C. Typowe rezultaty teoretyczne prezentowane w oparciu o model PAC mówi o (efektywnej) PAC-nauczalno±ci lub (cz ±ciej) PAC-nienauczalno±ci pewnych klas poj. 21 / 39
Przykªad: uczenie si prostok tów na pªaszczy¹nie (1) We¹my X = R 2, C przestrze«poj odpowiadaj cych prostok tom na pªaszczy¹nie, H = C, Ω dowolny rozkªad prawdopodobie«stwa na X. Dla prostok ta R oznaczamy przez Pr Ω(R) prawdopodobie«stwo wylosowania wedªug rozkªadu Ω punktu nale» cego do R. Bª d rzeczywisty hipotezy h odpowiadaj cej prostok towi Rh wynosi wówczas PrΩ(R h R c ), gdzie R c jest prostok tem odpowiadaj cym poj ciu docelowemu c (symbol jest u»yty do oznaczenia ró»nicy symetrycznej zbiorów). 22 / 39
Przykªad: uczenie si prostok tów na pªaszczy¹nie (2) Rozwa»my algorytm najcia±niejszego dopasowania, który dla zbioru trenuj cego T c wygenerowanego wedªug rozkªadu Ω produkuje hipotez h odpowiadaj c najmniejszemu prostok towi, który zawiera wszystkie przykªady pozytywne w T c i nie zawiera»adnego przykªadu negatywnego. Oczywi±cie R h R c. Je±li wi c Pr Ω(R c ) ɛ, to tak»e e c Ω (h) = Pr Ω(R h R c ) ɛ. Zaªó»my,»e Pr Ω(R c ) > ɛ. We¹my pod uwag jeden z boków prostok ta Rc i rozwa»my przesuwanie go w kierunku ±rodka prostok ta tak dªugo, a» prawdopodobie«stwo "traenia" w obszar przesuni cia za pomoc Ω wyniesie ɛ 4. 23 / 39
Przykªad: uczenie si prostok tów na pªaszczy¹nie (3) Je±li obszary (podprostok ty) otrzymane w ten sposób dla ka»dego boku prostok ta R c zawieraj przynajmniej po jednym przykªadzie ze zbioru T (oczywi±cie mog to by tylko przykªady pozytywne), to PrΩ(R h R c ) ɛ, czyli bª d rzeczywisty hipotezy h nie przekracza ɛ. Prawdopodobie«stwo tego,»e tak nie jest, wynosi nie wi cej ni» 4(1 ɛ 4 ) T, i na mocy nierówno±ci 1 + α e α (równo± tylko dla α = 0) jest ograniczone przez 4e T ɛ 4. Ostatnie wyra»enie mo»na ograniczy przez δ je±li T 4 ɛ (ln 4 + ln 1 δ ). 24 / 39
Przykªad: uczenie si prostok tów na pªaszczy¹nie (4) Oznacza to,»e rozwa»any przez nas problem jest PAC-nauczalny (efektywnie: algorytm najcia±niejszego dopasowania jest wielomianowy wzgl dem liczby przykªadów, ta za± jest wielomianowa wzgl dem 1 ɛ i 1 δ ). Co by byªo, gdyby pozostawiaj c C bez zmian ograniczy H do kwadratów? Dowód na potwierdzenie hipotezy lub kontrprzykªad za 5% oceny ko«cowej 25 / 39
Spójne algorytmy ucz ce si (1) Denicja 3 Mówi si,»e hipoteza h jest spójna z poj ciem c na zbiorze przykªadów D X je±li ( x D)h(x) = c(x). Denicja 4 Przestrze«wersji poj cia c ze wzgl du na przestrze«hipotez H i zbiór przykªadów D X jest zbiorem wszystkich hipotez przestrzeni H, które s spójne z poj ciem c na zbiorze D: VS c H,D = {h H ( x D)h(x) = c(x)}. Oczywi±cie dla h VS c H,D mamy ec D (h) = 0. Denicja 5 Przestrze«wersji VS c H,D jest ɛ-wyczerpana ze wzgl du na poj cie c i rozkªad prawdopodobie«stwa Ω na X je±li 26 / 39 ( h VS c H,D )ec Ω (h) < ɛ.
Spójne algorytmy ucz ce si (2) Algorytmy ucz ce si, które na podstawie zbioru trenuj cego Tc generuj hipotez h VS c H,T (spójn z poj ciem docelowym na zbiorze trenuj cym), nazywane s spójnymi algorytmami ucz cymi si. Mo»na udowodni,»e dla sko«czonych przestrzeni hipotez H prawdopodobie«stwo tego,»e przestrze«wersji VS c H,D nie jest ɛ-wyczerpana, nie przekracza H e ɛ D, je±li D jest zbiorem niezale»nie wybranych przykªadów.2zatem dla spójnego algorytmu ucz cego si na podstawie zbioru trenuj cego T c mamy nast puj cy warunek PAC-nauczalno±ci: H e ɛ T δ, 27 / 39
Spójne algorytmy ucz ce si (3) Te rozwa»ania daj nast puj ce wymaganie na rozmiar zbioru trenuj cego wystarczaj cy dla dowolnego spójnego algorytmu ucz cego si do nauczenia si hipotezy o bª dzie rzeczywistym nie przekraczaj cym ɛ z prawdopodobie«stwem co najmniej 1 δ: T 1 ɛ (ln H + ln 1 δ ). 28 / 39
Przykªad: boolowskie koniunkcje W przypadku uczenia si koniunkcji boolowskich literaªów dla n zmiennych (atrybutów) mamy H = 3 n (dowolny atrybut wyst puje jako literaª pozytywny, negatywny lub wcale nie wyst puje), co pozwala stwierdzi,»e T 1 ɛ (n ln 3 + ln 1 δ ) zapewnia PAC-nauczenie si dowolnego poj cia. 29 / 39
Przykªad: boolowskie koniunkcje Dla uczenia si k-skªadnikowych wyra»e«logicznych w postaci DNF mamy H < 3 nk (to bardzo zawy»one ograniczenie!), sk d T 1 ɛ (nk ln 3 + ln 1 δ ). Mo»na udowodni,»e problem uczenia si k-skªadnikowych wyra»e«dnf jest NP, a wi c nie jest efektywnie PAC-nauczalny. Jednak u»ycie wi kszej przestrzeni hipotez odpowiadaj cej k-cnf (dowolne wyra»enie w k-skªadnikowym DNF mo»na przeksztaªci do k-cnf, ale nie odwrotnie) daje wielomianow zªo»ono± obliczeniow, czyli gwarantuje efektywn PAC-nauczalno±! 30 / 39
Niespójne algorytmy ucz ce si (1) Nie zawsze mo»na liczy na to,»e ucze«znajdzie hipotez spójn ze zbiorem trenuj cym. W szczególno±ci, je±li c H, mo»e to by niemo»liwe. Wówczas interesuj ce jest okre±lenie, jak mo»na ograniczy rzeczywisty bª d najlepszej hipotezy, jak mo»e znale¹ ucze«(o najmniejszym bª dzie próbki). Je±li ucze«uczy si na podstawie zbioru trenuj cego Tc, gdzie T jest wylosowane zgodnie z rozkªadem Ω, to dla dowolnej hipotezy h z tzw. ogranicze«hoedinga mamy Pr( e c Ω (h) > e c T (h) + ɛ) e 2 T ɛ2, 31 / 39
Niespójne algorytmy ucz ce si (2) Powy»sze ogranicza prawdopodobie«stwo tego,»e dowolnie wybrana hipoteza ma rzeczywisty bª d wi kszy o ponad ɛ od bª du na zbiorze trenuj cym. Zatem prawdopodobie«stwo tego,»e najlepsza hipoteza znaleziona przez ucznia b dzie miaªa tak wªa±ciwo± nie przekracza H e 2 T ɛ2. Aby prawdopodobie«stwo to ograniczy przez δ, wymagana jest nast puj ca liczno± zbioru trenuj cego: T 1 2ɛ 2 (ln H + ln 1 δ ), co jest rozszerzeniem wyniku uzyskanego poprzednio dla spójnych algorytmów. 32 / 39
Wymiar Vapnika-Chervonenkisa (VC) Denicja 6 Wymiar VC przestrzeni hipotez H, VC(H), deniuje si jako maksymaln warto± d tak,»e w dziedzinie X istnieje d ró»nych punktów które mog by oznaczone jako pozytywne lub negatywne przez hipotezy z przestrzeni H na wszystkie 2 d mo»liwych sposobów. Je±li jest to mo»liwe dla dowolnie wielu ró»nych elementów dziedziny, to VC(H) =. Wymiar VC okre±la maksymaln liczb przykªadów z dziedziny, które mo»na podzieli na wszystkie mo»liwe sposoby za pomoc danej przestrzeni hipotez: dla ka»dego z 2 d mo»liwych etykietowa«istnieje h H, które daje takie etykiety. Šatwo sprawdzi,»e dla sko«czonych przestrzeni hipotez VC(H) log 2 H z denicji wymiaru VC (je±li d jest wymiarem VC przestrzeni H, to H 2 d ). 33 / 39
Przykªad: wymiar VC dla hiperpªaszczyzn Niech X = R n, n 1, i niech H b dzie zbiorem wszystkich hipotez, które klasykuj jako pozytywne punkty le» ce po dodatniej stronie pewnej hiperpªaszczyzny w R n 1 oraz jako negatywne punkty le» ce po jej ujemnej stronie. Dla n = 1 mamy przykªady jako punkty na prostej i hipotezy wyznaczaj ce podziaª tej prostej na póªproste. Wówczas VC(H) = 2. Dla n = 2 mamy przykªady jako punkty na pªaszczy¹nie i hipotezy wyznaczaj ce podziaª tej pªaszczyzny na póªpªaszczyzny. Wówczas VC(H) = 3. Ogólnie, dla dowolnego n 1, VC(H) = n + 1. 34 / 39
Przykªad: wymiar VC dla hiperprostopadªo±cianów Niech X = R n, n 1, i niech H b dzie zbiorem wszystkich hipotez, które klasykuj jako pozytywne punkty wewn trz lub na brzegu pewnego hiperprostopadªo±cianu (pudeªka) w R n 1 oraz jako negatywne punkty le» ce na zewn trz tego hiperprostopadªo±cianu. Dla n = 1 mamy przykªady punkty na prostej i hipotezy jako przedziaªy. Wówczas VC(H) = 2. Dla n = 2 mamy przykªady jako punkty na pªaszczy¹nie i hipotezy jako prostok ty. Wówczas VC(H) = 4. Ogólnie, dla dowolnego n 1, VC(H) = 2n. 35 / 39
Wymiar VC a wymagania na liczb przykªadów Za pomoc wymiaru VC mo»na uzyska ograniczenia na liczb przykªadów wymagan do PAC-nauczenia si poj cia równie» dla niesko«czonych przestrzeni hipotez. Dla sko«czonych przestrzeni hipotez ograniczenia te s cz sto ±ci±lejsze, ni» podane wcze±niej zale»ne od rozmiaru tych przestrzeni. Mo»na udowodni,»e do PAC-nauczenia si dowolnego poj cia c za pomoc przestrzeni hipotez H wystarczy liczba przykªadów okre±lona przez nast puj ce górne ograniczenie: T 1 ɛ (4 log 2 2 ɛ + 8VC(H) log 13 2 ɛ ). Wyprowadzono równie» dolne ograniczenie, mówi ce o tym,»e je±li liczba przykªadów nie przekracza pewnej warto±ci, to ucze«(dla niektórych poj i rozkªadów prawdopodobie«stwa na dziedzinie) znajdzie zª hipotez z du»ym prawdopodobie«stwem. 36 / 39
Wprowadzenie do uczenia si Mitchell, T. M. Machine Learning, McGraw-Hill, 1997. Bolc, L., Zaremba, J. Wprowadzenie do uczenia si maszyn. Akademicka Ocyna Wydawnicza RM, 1992. Carbonell, J. G., Michalski, R. S., Mitchell, T. M. An overview of machine learning. W: Michalski, R. S., Carbonell, J. G., Mitchell, T. M. (eds.), Machine Learning: An Articial Intelligence Approach, Volume 1, Tioga (obecnie Morgan Kaufmann), 1983. 37 / 39
Obliczeniowa teoria uczenia si Valiant, L. A theory of the learnable. Communications of the ACM, 27:1134-1142, 1984. Blumer, A., Ehrenfeucht, A., Hausler, D., Warmuth, M. Learnability and the Vapnik-Chervonenkis dimension. Journal of the ACM, 36:929-965, 1989. Mitchell, T. M. Machine Learning. McGraw-Hill, 1997. Rivest, R. L., Singh, M. Notatki do wykªadu Machine Learning (wykªady 1, 2, 4), 1994. Simon, H. U. Tutorial on the PAC-learning model. Materiaª dla uczestników 1997 Dagstuhl Seminar: Theory and Practice of Machine Learning. 38 / 39
39 / 39 Dzi kuj!