Nina Gierasimczuk& Jakub Szymanik Algorytmiczny model uczenia się języka Prezentacja Forum Filozoficzne, Lublin 15 maja 2004 Spis treści 1. Wprowadzenie... 2 1.1. Filozoficznyproblemuczeniasię... 2 1.2. TezaChurcha-Turinga... 2 1.3. HierarchiaChomsky ego... 2 1.4. Językiregularne... 3 1.5. Strukturanawiasowa... 4 2. Algorytmuczącysięjęzyków... 4 2.1. Założeniaalgorytmicznegouczeniasię... 4 2.2. Tablicaobserwacyjna... 5 2.3. Konstrukcjaautomatuskończonegoprzyużyciutablicyobserwacyjnej... 5 2.4. AlgorytmL*... 7 3. Uczeniesięjęzykówbezkontekstowych... 8 4. Dygresjasemantyczna... 9 4.1. Obliczeniaaneurologicznepodłożejęzyka... 10 Literatura... 10 1
1. Wprowadzenie 1.1. Filozoficzny problem uczenia się Noam Chomsky Idee i prawdy są nam wrodzone jako skłonności, dyspozycje, nawyki i naturalne potencjalności. Doświadczenie służy wydobywaniu, a nie formowaniu tych wrodzonych struktur. Twórczy aspekt użycia języka. Abstrakcyjność zasad interpretacji zdań. Uniwersalny charakter struktury językowej. W.vO.Quine: Kiedy pierwotny człowiek zaczął rozwijać język, możliwości komunikowania się wzrastały. Język sam tworzył to, do przekazywania czego służył. Model uczenia się języka przez dziecko. Brak danych empirycznych by orzekać o kompetencji. Zbiór zdań danego języka może być generowany przez wiele alternatywnych kompleksów reguł. 1.2. Teza Churcha-Turinga Teza Churcha-Turinga w wersji psychologicznej Mechanizmy obliczeniowe umysłu ludzkiego nie różnią się istotnie(są wzajemnie wielomianowo redukowalne) od mechanizmów obliczeniowych dostępnych urządzeniom liczącym takim jak maszyny Turinga. Teza Edmondsa Praktycznie obliczalne są problemy klasy PTIME czyli takie, dla których istnieje deterministyczna maszyna Turinga działająca w czasie wielomianowym w zależności od długości wejścia. 1.3. Hierarchia Chomsky ego Definicja1.GramatykaG=(A,Σ,S,P),gdzie: A- afabet(terminalny) Σ- zbiór zmiennych(alfabet nieterminalny) S Σ Pskończonyzbiórparpostaciα i β i dlaα i,β i (A Σ). Definicja2.Dlaγ,γ (A Σ) γ G γ wtwistniejąη 1,η 2 orazi=1,...,n,takie,że γ=η 1 α i η 2 orazγ =η 1 β i η 2 Definicja3.γ G γ wtwistniejeciągγ 1,...,γ n (A Σ) taki,żeγ=γ 1,γ =γ n oraz γ i G γ i+1 dlai=1,...,n 1. 2
Definicja4.L(G)={γ A :S G γ} Hierarchia Chomsky ego Języki klasy 0 to dowolne języki postaci L(G), tzw. języki rekurencyjnie przeliczalne. Języki klasy 1 są postaci L(G), gdzie wszystkie produkcje gramatyki G są postaci: η 1 Yη 2 G η 1 βη 2 dlay Σ,η 1,η 2,β (A Σ) Języki klasy 2 są postaci L(G), gdzie wszystkie produkcje gramatyki G są postaci: Y G βdlay Σ,β (A Σ) Języki klasy 3 są postaci L(G), gdzie wszystkie produkcje gramatyki G są postaci: Y G αzluby G αdlay,z Σ,α A 1.4. Języki regularne Definicja5.Automatskończony(FA)jestto(A,Q,q s,f,δ),gdzie: A jest alfabetem wejściowym; Q jest skończonym zbiorem stanów; q s Qjestwyróżnionymstanempoczątkowym; F Qjestzbioremstanówakceptujących; δ:q A Qjestfunkcjąprzejścia. Język rozpoznawany(akceptowany) przez FA H to zbiór słów nad alfabetem A, które są akceptowane przez H, czyli: L(H)={w A : δ(q s,w) F}. JęzykL A jestregularny,wtedyitylkowtedy,gdyistniejefah,taki,żel=l(h). a,b Rysunek1.FAakceptująceL 1,L 2 orazl 3. a,b q 1s q 2s q 3s a q 31 b 3
Rysunek2.FAakceptującyL 4 ={w A :n a (w) n b (w)(mod2)}. a,b a,b q 4s q 41 1.5. Struktura nawiasowa G=(A,Σ,S,P),gdzie: { } A= (,) Σ={S,T} P={S G λ (S) (T),T G λ ST} Rozważmy zdania: 1.Thecatdied. 2.Thecatthedogchaseddied. 3.Thecatthedogtheratbitchaseddied. 4.Thecatthedogtherattheelephantadmiredbitchaseddied. Powyższe zdania są postaci: (nounphrase) n (transitiveverb) n 1 intransitiveverb 2. Algorytm uczący się języków 2.1. Założenia algorytmicznego uczenia się AlgorytmL korzystawistotnysposóbzewskazóweknauczyciela,odpowiadającegona pytania dwóch kategorii: 1. Zapytania o należenie danej struktury do szukanej gramatyki, formalnie: 1 jeśliα L T(α)= 0 jeśliα/ L 2. Zapytania o równoważność struktury wyjściowej algorytmu i struktury szukanej, formalnie: 1 jeślil(m)=l R(M)= 0,α,α L L(M) jeślil(m) L 4
2.2. Tablica obserwacyjna Definicja6.Tablicaobserwacyjnajestto(S,E,T),gdzie: 1. S- niepusty skończony zbiór ciągów domknięty na prefiksy; 2. E- niepusty skończony zbiór ciągów domknięty na sufiksy; 3.T-skończonafunkcja((S A) E) {0,1},gdzieT(u)=1 u L. (S, E, T) można przedstawić za pomocą dwuwymiarowej tablicy: 1. Wiersze oznaczone elementami zbioru(s A). 2. Kolumny oznaczone elementami zbioru E. 3. Wartośćwkomórceowspółrzędnych(s,e),gdzies (S A),e E,jestrównaT(s e). 4. Niechs (S A),wtedyrow(s)-wektorzłożonyzwartościT(s e),dlawszystkiche E. Tabela 1. Tablica obserwacyjna T e S s 1(=T(s e)). E ((S A)\S) s 1 Definicja7.Tablicaobserwacyjna(S,E,T)jestdomkniętawtedyitylkowtedy,gdy: t S A s S(row(t)=row(s)) Definicja8.Tablicaobserwacyjna(S,E,T)jestspójnawtedyitylkowtedy,gdy: s 1,s 2 S a A[(row(s 1 )=row(s 2 )) (row(s 1 a)=row(s 2 a))] 2.3. Konstrukcja automatu skończonego przy użyciu tablicy obserwacyjnej AlgorytmL uczącysięgramatykregularnychbędzieużywałtablicyobserwacyjnejdostworzenia hipotezy odpowiedniego automatu skończonego. Definicja 9. Niech(S, E, T) domknięta i spójna tablica obserwacyjna. Możemy zdefiniować automatskończonym(s,e,t)nadalfabetemataki,że: 1.Q={row(s):s S} zbiórstanówautomatum; 2.q s =row(λ) stanpoczątkowyautomatum; 3.F={row(s):s S T(s,λ)=1} zbiórstanówakceptujących; 4.δ(row(s),a)=row(s a) funkcjaprzejściaautomatum. 5
Fakt 1. Powyższy automat jest dobrze zdefiniowany. Dowód twierdzenia 1. Stanpoczątkowyq s jestdobrzezdefiniowany,ponieważzbiórs={λ}jestniepusty. 2. ZbiórstanówakceptującychFjestdobrzezdefiniowany,ponieważjeśliistniejąs 1,s 2 S takie,żerow(s 1 )=row(s 2 ),tot(s 1 )=T(s 1 λ)orazt(s 2 )=T(s 2 λ)będąsobierówne. 3. Funkcjaprzejściaδjestdobrzezdefiniowana.Niechs 1,s 2 Stakie,że:row(s 1 )=row(s 2 ). Skoro(S,E,T)jestspójna,todladowolnegoa A,row(s 1 a)=row(s 2 a).ponieważ zaś(s,e,t)jestdomknięta,towartośćtajestrównarow(s)dlapewnegos S. Twierdzenie 1. Jeśli tablica obserwacyjna(s, E, T) jest domknięta i spójna to automat skończonym(s,e,t)skonstruowanyjakwyżejjestzgodnyzeskończonąfunkcjąt.każdyinny automat skończony zgodny z tą funkcją, lecz nierównoważny automatowi M(S, E, T) musi mieć więcj stanów. Lemat1.Niech(S,E,T)-tablicaobserwacyjna,n-liczbaparamiróżnychwektorówrow(s), dlakażdegos S.WtedydowolnyautomatskończonyzgodnyzfunkcjąTmusimiećprzynajmniej n stanów. Z dowodu powyższego lematu wynika, że algorytm kończy obliczenie po najwyżej n zapytaniach o równoważność oraz najpóźniej po n 1. wykonaniu głównej pętli. 6
2.4. Algorytm L* begin S:=λ; E:=λ; Zapytanieonależenieλorazkażdegoa A. Konstrukcja początkowej tablicy obserwacyjnej(s, E, T). repeat while(s,e,t)niejestdomkniętalubniejestspójna; if(s,e,t)niejestspójna thenznajdźs 1,s 2 S,a A,e E takie,że: row(s 1 )=row(s 2 )it(s 1 a e) T(s 2 a e); dodajs 1 adozbiorue; rozszerzt do(s A) E używajączapytańonależenie. if(s,e,t)niejestdomknięta thenznajdźs 1 S ia Atakie,że: dladowolnegos S row(s 1 a) row(s); dodajs 1 adozbiorus; rozszerzt do(s A) E używajączapytańonależenie. M:=M(S,E,T) Zapytanie o poprawność M; ifodpowiedź=tak then output:= M; else dodaj kontrprzykład t i wszystkie jego prefiksy do S; rozszerzt do(s A) E używajączapytańonależenie. until(s,e,t)jestdomkniętaispójna; end Twierdzenie 2. Dla dowolnego tzw. minimalnie adekwatnego nauczyciela prezentującego nieznanyregularnyzbióru,algorytml zatrzymujesięorazpodajenawyjściufahizomorficzny z minimalnym FA akceptującym zbiór U. Co więcej, jeśli n jest liczbą stanów minimalnego dla zbioru U FA zaś m jest górnym ograniczeniem długości kontrprzykładów, to całkowity czas działaniaalgorytmul jestwielomianowywzgledemnim. 7
Przez osłabianie informacji trenującej można osiągnąć efekty mniej imponujące pod względem niskiej złożoności i elegancji, natomiast jeszcze bardziej interesujące poznawczo. Rezygnacjazzapytańorównoważność.ModyfikacjaalgorytmuL umożliwiającanauczenie się automatu docelowego z dowolnie dużym prawdopodobieństwem pod warunkiem poświęcenia na to dostatecznie dużej liczby obliczeń. Rezygnacjazzapytańorównoważnośćinależenie.ModyfikacjaalgorytmuL umożliwiająca uczenie się na podstawie eksperymentów(inteligentny agent). Nauczenie się automatu dokładnie modelującego identyfikowany system nie jest gwarantowane. 3. Uczenie się języków bezkontekstowych Algorytm uczący się gramatyk bezkontekstowych korzysta z danych strukturalnych nieetykietowanych drzew derywacyjnych danej gramatyki bezkontekstowej. 1. Zbiór drzew derywacyjnych danej gramatyki bezkontekstowej jest regularnym zbiorem drzew. 2. Regularny zbiór drzew to zbiór drzew rozpoznawany przez pewien automat drzewiasty. 3. Procedura tworzenia z drzew derywacyjnych ich opisów strukturalnych zachowuje regularność zbioru. 4. Problem uczenia się gramatyki bezkontekstowej z opisów strukturalnych jest więc redukowany do problemu uczenia się pewnego automatu drzewiastego. Ponadto: Cel nauki: gramatyka bezkontekstowa(nie zaś język bezkontekstowy). Struktura algorytmu: analogiczna do tej dla języków regularnych. 8
4. Dygresja semantyczna 1. Każda książka w bibliotece IF UW jest zielona. 2.PewnaksiążkawbiblioteceIFUWjestzielona 3.ConajmniejdwieksiążkiwbiblioteceIFUWsązielone. 4. Większość książek w bibliotece IF UW jest zielona. Rysunek3.M=(U,R 1,R 2 ) RozważmymodelM=(U,R 1,R 2 ),gdzieu={b 1,b 2,b 3,b 4,b 5 }.Modeltenbędziereprezentowałosłowoα M =a 1 a 2 a 4 a 3 a 3 nadalfabetema={a 1,a 2,a 3,a 4 },któremówi,żeelement b 1 S 1 =U (R 1 R 2 ),b 2 S 2 =R 1 R 2,b 3 S 4 =R 1 R 2,ab 4,b 5 S 3 =R 2 R 1. Słowoα M opisujemodelmzdokładnościądoizomorfizmu. Odpowiednialgorytmbędzieakceptowałα M wtedyitylkowtedy,gdywmbędzieprawdziwe zdanie, którego znaczeniem jest ten algorytm. Rysunek4.FAakceptującyL A {a 2 } A a 2 9
Rysunek5.FAakceptującyL A {a 4 } A a 4 Rysunek6.FAakceptującyL 2 A {a 4 } A {a 4 } A a 4 a 4 4.1. Obliczenia a neurologiczne podłoże języka Twierdzenie 3.(M. Mostowski 1998) Kwantyfikator monadyczny Q jest definiowalny w logicepodzielności L Q jestrozpoznawalnyprzezautomatskończony. Hipoteza: Rozumienie zdań z kwantyfikatorami definiowalnymi w logice podzielności(np. każdy, co najmniej dwa, parzyście wiele) nie angażuje ośrodków mózgu związanych z pamięcią operacyjną(bezpośrednią, krótkotrwałą). Podczas, gdy analiza zdań z kwantyfikatorami nie wyrażalnymi w tej logice(np. większość) wymaga skorzystania z zasobów takiej pamięci. Wstępne wyniki badań neurologicznych: Rozumienie zdań z kwantyfikatorami elementarnymi nie angażuje ośrodków pamięci operacyjnej w stopniu uchwytnym dla procedur neuroobrazowania(fmri). Podczas, gdy analiza zdań z bardziej złożonymi kwantyfikatorami wymaga uaktywnienia ośrodków mózgu związanych z pamięcią operacyjną w stopniu obserwowalnym za pomocą neuroobrazowania. Literatura [1] D. ANGLUIN Learning Regular Sets from Queries and Counterexamples, Information andcomputation75(1987),str.87 106. [2] P. CICHOSZ Systemy uczące się, Warszawa 2000. [3] Y. SAKAKIBARA Learning Context-free Grammars from Structural Data in Polynomial Time, Theoretical Computer Science 75(1990), str. 223 242. [4] J. VAN BENTHEM Essays in Logical Semantics, Reidel Publishing Company, Amsterdam 1986. 10
[5] R. CLARK Learning First-Order Quantifiers Denotations. An Essay in Semantic Learnability, IRCS Technical Report 1996, University of Pennsylvania, str. 19 96, zob. też: fttp://babel.ling.upenn.edu/papers/faculty/robin clark/papers/lfoq.ps [6] C. T. MCMILLAN, R. CLARK et al. Frontal and Parietal Contributions to Generalized Quantifiers, Cognitive Neuroscience Society Annual Meeting, San Francisco 2003, zob. też: fttp://www.ling.upenn.edu/facpapers/robin clark/quantifiermri.pdf [7] M. MOSTOWSKI Computational semantics for monadic quantifiers, Journal of Applied Non-Classical Logics Vol. 8(1998) no 1-2. 11