Teoria systemów uczacych się i wymiar Vapnika-Chervonenkisa

Systemy uczace się 2009 1 / 32 Teoria systemów uczacych się i wymiar Vapnika-Chervonenkisa Hung Son Nguyen Wydział Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski email: son@mimuw.edu.pl Grudzień 2009

Plan wykładu Systemy uczace się 2009 2 / 32 1 Wstęp do komputerowego uczenia się pojęć 2 Model PAC (probably approximately correct) 3 Wyuczalność klasy pojęć 4 Wymiar Vapnika Chervonenkisa (VC dimension) 5 Podstawowe twierdzenia teorii uczenia się 6 Appendix: Nie ma nic za darmo czyli Non Free Lunch Theorem

Podejście indukcyjne Systemy uczace się 2009 3 / 32 Np. Pokazać, że dla każdego n N zachodzi Ψ(n) : 1 2 + 2 2 +... + n 2 = n(n + 1)(2n + 1) 6

Podejście indukcyjne Systemy uczace się 2009 3 / 32 Np. Pokazać, że dla każdego n N zachodzi Ψ(n) : 1 2 + 2 2 +... + n 2 = n(n + 1)(2n + 1) 6 Indukcja pełna: Ψ(1) oraz n 1 [Ψ(n) = Ψ(n + 1)]

Podejście indukcyjne Systemy uczace się 2009 3 / 32 Np. Pokazać, że dla każdego n N zachodzi Ψ(n) : 1 2 + 2 2 +... + n 2 = n(n + 1)(2n + 1) 6 Indukcja pełna: Ψ(1) oraz n 1 [Ψ(n) = Ψ(n + 1)] Indukcja niepełna: czy wystarczy sprawdzić, np. Ψ(1), Ψ(2), Ψ(3), Ψ(4)?

Komputerowe uczenie się pojęć Systemy uczace się 2009 4 / 32 Podejście indukcyjne: Wnioskowanie na podstawie skończonego zbioru obserwacji

Komputerowe uczenie się pojęć Systemy uczace się 2009 4 / 32 Podejście indukcyjne: Wnioskowanie na podstawie skończonego zbioru obserwacji Jakie prawa rzadz a procesem indukcyjnego uczenia się pojęć?

Komputerowe uczenie się pojęć Systemy uczace się 2009 4 / 32 Podejście indukcyjne: Wnioskowanie na podstawie skończonego zbioru obserwacji Jakie prawa rzadz a procesem indukcyjnego uczenia się pojęć? Szukamy teorii obejmujacej zagadnienia: Szansy na skuteczne wyuczanie się pojęć;

Komputerowe uczenie się pojęć Systemy uczace się 2009 4 / 32 Podejście indukcyjne: Wnioskowanie na podstawie skończonego zbioru obserwacji Jakie prawa rzadz a procesem indukcyjnego uczenia się pojęć? Szukamy teorii obejmujacej zagadnienia: Szansy na skuteczne wyuczanie się pojęć; Niezbędnej liczby przykładów treningowych;

Komputerowe uczenie się pojęć Systemy uczace się 2009 4 / 32 Podejście indukcyjne: Wnioskowanie na podstawie skończonego zbioru obserwacji Jakie prawa rzadz a procesem indukcyjnego uczenia się pojęć? Szukamy teorii obejmujacej zagadnienia: Szansy na skuteczne wyuczanie się pojęć; Niezbędnej liczby przykładów treningowych; Złożoności przestrzeni hipotez;

Komputerowe uczenie się pojęć Systemy uczace się 2009 4 / 32 Podejście indukcyjne: Wnioskowanie na podstawie skończonego zbioru obserwacji Jakie prawa rzadz a procesem indukcyjnego uczenia się pojęć? Szukamy teorii obejmujacej zagadnienia: Szansy na skuteczne wyuczanie się pojęć; Niezbędnej liczby przykładów treningowych; Złożoności przestrzeni hipotez; Jakości aproksymacji;

Komputerowe uczenie się pojęć Systemy uczace się 2009 4 / 32 Podejście indukcyjne: Wnioskowanie na podstawie skończonego zbioru obserwacji Jakie prawa rzadz a procesem indukcyjnego uczenia się pojęć? Szukamy teorii obejmujacej zagadnienia: Szansy na skuteczne wyuczanie się pojęć; Niezbędnej liczby przykładów treningowych; Złożoności przestrzeni hipotez; Jakości aproksymacji; Metod reprezentacji danych treningowych;

Ogólny model uczenia indukcyjnego Systemy uczace się 2009 5 / 32 Niech

Ogólny model uczenia indukcyjnego Systemy uczace się 2009 5 / 32 Niech X (skończony lub nieskończony) zbiór obiektów;

Ogólny model uczenia indukcyjnego Systemy uczace się 2009 5 / 32 Niech X (skończony lub nieskończony) zbiór obiektów; C klasa pojęć w X, tj. C = {f : X {0, 1}}

Ogólny model uczenia indukcyjnego Systemy uczace się 2009 5 / 32 Niech X (skończony lub nieskończony) zbiór obiektów; C klasa pojęć w X, tj. C = {f : X {0, 1}} c C pojęcie docelowe lub funkcja celu;

Ogólny model uczenia indukcyjnego Systemy uczace się 2009 5 / 32 Niech X (skończony lub nieskończony) zbiór obiektów; C klasa pojęć w X, tj. C = {f : X {0, 1}} c C pojęcie docelowe lub funkcja celu; Dane sa

Ogólny model uczenia indukcyjnego Systemy uczace się 2009 5 / 32 Niech X (skończony lub nieskończony) zbiór obiektów; C klasa pojęć w X, tj. C = {f : X {0, 1}} c C pojęcie docelowe lub funkcja celu; Dane sa skończona próbka etykietowanych obiektów: D = { x 1, c(x 1 ),..., x m, c(x m ) } S(m, c) gdzie x 1,..., x m X.

Ogólny model uczenia indukcyjnego Systemy uczace się 2009 5 / 32 Niech X (skończony lub nieskończony) zbiór obiektów; C klasa pojęć w X, tj. C = {f : X {0, 1}} c C pojęcie docelowe lub funkcja celu; Dane sa skończona próbka etykietowanych obiektów: D = { x 1, c(x 1 ),..., x m, c(x m ) } S(m, c) gdzie x 1,..., x m X. przestrzeń hipotez H = {h : X {0, 1}};

Ogólny model uczenia indukcyjnego Systemy uczace się 2009 5 / 32 Niech X (skończony lub nieskończony) zbiór obiektów; C klasa pojęć w X, tj. C = {f : X {0, 1}} c C pojęcie docelowe lub funkcja celu; Dane sa skończona próbka etykietowanych obiektów: D = { x 1, c(x 1 ),..., x m, c(x m ) } S(m, c) gdzie x 1,..., x m X. przestrzeń hipotez H = {h : X {0, 1}}; Szukana

Ogólny model uczenia indukcyjnego Systemy uczace się 2009 5 / 32 Niech X (skończony lub nieskończony) zbiór obiektów; C klasa pojęć w X, tj. C = {f : X {0, 1}} c C pojęcie docelowe lub funkcja celu; Dane sa skończona próbka etykietowanych obiektów: D = { x 1, c(x 1 ),..., x m, c(x m ) } S(m, c) gdzie x 1,..., x m X. przestrzeń hipotez H = {h : X {0, 1}}; Szukana hipoteza h H będaca dobra aproksymacja pojęcia c.

Ogólny model uczenia indukcyjnego Systemy uczace się 2009 5 / 32 Niech X (skończony lub nieskończony) zbiór obiektów; C klasa pojęć w X, tj. C = {f : X {0, 1}} c C pojęcie docelowe lub funkcja celu; Dane sa skończona próbka etykietowanych obiektów: D = { x 1, c(x 1 ),..., x m, c(x m ) } S(m, c) gdzie x 1,..., x m X. przestrzeń hipotez H = {h : X {0, 1}}; Szukana hipoteza h H będaca dobra aproksymacja pojęcia c. Wymagane

Ogólny model uczenia indukcyjnego Systemy uczace się 2009 5 / 32 Niech X (skończony lub nieskończony) zbiór obiektów; C klasa pojęć w X, tj. C = {f : X {0, 1}} c C pojęcie docelowe lub funkcja celu; Dane sa skończona próbka etykietowanych obiektów: D = { x 1, c(x 1 ),..., x m, c(x m ) } S(m, c) gdzie x 1,..., x m X. przestrzeń hipotez H = {h : X {0, 1}}; Szukana hipoteza h H będaca dobra aproksymacja pojęcia c. Wymagane dobra jakość aproksymacji

Ogólny model uczenia indukcyjnego Systemy uczace się 2009 5 / 32 Niech X (skończony lub nieskończony) zbiór obiektów; C klasa pojęć w X, tj. C = {f : X {0, 1}} c C pojęcie docelowe lub funkcja celu; Dane sa skończona próbka etykietowanych obiektów: D = { x 1, c(x 1 ),..., x m, c(x m ) } S(m, c) gdzie x 1,..., x m X. przestrzeń hipotez H = {h : X {0, 1}}; Szukana hipoteza h H będaca dobra aproksymacja pojęcia c. Wymagane dobra jakość aproksymacji szybki czas wyuczania.

Przykład Systemy uczace się 2009 6 / 32

Przykład Systemy uczace się 2009 6 / 32 Pojęcie: człowieka o średniej budowie ciała.

Przykład Systemy uczace się 2009 6 / 32 Pojęcie: człowieka o średniej budowie ciała. Dane czyli osoby sa reprezentowane przez ich wagę(kg) i wzrost(cm) i sa etykietowane przez + i.

Przykład Systemy uczace się 2009 6 / 32 Pojęcie: człowieka o średniej budowie ciała. Dane czyli osoby sa reprezentowane przez ich wagę(kg) i wzrost(cm) i sa etykietowane przez + i. Dodatkowa wiedza: szukane pojęcie można wyrazić za pomoca PROSTOKATA

Przykład Systemy uczace się 2009 6 / 32 Pojęcie: człowieka o średniej budowie ciała. Dane czyli osoby sa reprezentowane przez ich wagę(kg) i wzrost(cm) i sa etykietowane przez + i. Dodatkowa wiedza: szukane pojęcie można wyrazić za pomoca PROSTOKATA Uczenie prostokata

Przykład Systemy uczace się 2009 6 / 32 Pojęcie: człowieka o średniej budowie ciała. Dane czyli osoby sa reprezentowane przez ich wagę(kg) i wzrost(cm) i sa etykietowane przez + i. Dodatkowa wiedza: szukane pojęcie można wyrazić za pomoca PROSTOKATA Uczenie prostokata X = R 2 ;

Przykład Systemy uczace się 2009 6 / 32 Pojęcie: człowieka o średniej budowie ciała. Dane czyli osoby sa reprezentowane przez ich wagę(kg) i wzrost(cm) i sa etykietowane przez + i. Dodatkowa wiedza: szukane pojęcie można wyrazić za pomoca PROSTOKATA Uczenie prostokata X = R 2 ; C = H = zbiór prostokatów;

Przykład Systemy uczace się 2009 6 / 32 Pojęcie: człowieka o średniej budowie ciała. Dane czyli osoby sa reprezentowane przez ich wagę(kg) i wzrost(cm) i sa etykietowane przez + i. Dodatkowa wiedza: szukane pojęcie można wyrazić za pomoca PROSTOKATA Uczenie prostokata X = R 2 ; C = H = zbiór prostokatów; Przykład zbioru treningowego ((84, 184), +), ((70, 170), +), ((75, 163), ), ((80, 180), +), ((81, 195), ), ((63, 191), ), ((77, 187), ), ((68, 168), +)

Przykład Systemy uczace się 2009 6 / 32 Pojęcie: człowieka o średniej budowie ciała. Dane czyli osoby sa reprezentowane przez ich wagę(kg) i wzrost(cm) i sa etykietowane przez + i. Dodatkowa wiedza: szukane pojęcie można wyrazić za pomoca PROSTOKATA Uczenie prostokata X = R 2 ; C = H = zbiór prostokatów; Przykład zbioru treningowego ((84, 184), +), ((70, 170), +), ((75, 163), ), ((80, 180), +), ((81, 195), ), ((63, 191), ), ((77, 187), ), ((68, 168), +) ((79, 183,?)

Inne przykłady Systemy uczace się 2009 7 / 32 Uczenie półosi (lub dyskretyzacji): X = R; C = H = {[λ, ) : α R}

Inne przykłady Systemy uczace się 2009 7 / 32 Uczenie półosi (lub dyskretyzacji): X = R; C = H = {[λ, ) : α R} Uczenie hiperpłaszczyzny: X = R n ; H = {f w0,w 1,...,w n : R n {0, 1} } gdzie f w0,...,w n (x 1,..., x n ) = sgn(w 0 + w 1 x 1 +... + w n x n ).

Inne przykłady Systemy uczace się 2009 7 / 32 Uczenie półosi (lub dyskretyzacji): X = R; C = H = {[λ, ) : α R} Uczenie hiperpłaszczyzny: X = R n ; H = {f w0,w 1,...,w n : R n {0, 1} } gdzie f w0,...,w n (x 1,..., x n ) = sgn(w 0 + w 1 x 1 +... + w n x n ). Uczenie jednomianów Boolowskich: X = {0, 1} n ; c : {0, 1} n {0, 1}; H = M n = zbiór jednomianów Boolowskich o n zmiennych.

Bład hipotezy Systemy uczace się 2009 8 / 32 Bład rzeczywisty

Bład hipotezy Systemy uczace się 2009 8 / 32 Bład rzeczywisty Ω = (X, µ) przestrzeń probabilistyczna na X ;

Bład hipotezy Systemy uczace się 2009 8 / 32 Bład rzeczywisty Ω = (X, µ) przestrzeń probabilistyczna na X ; Bład hipotezy h H względem funkcji celu c: er Ω (h, c) = er c Ω (h) = µ(x h c) gdzie X h c = {x X : h(x) c(x)}.

Bład hipotezy Systemy uczace się 2009 8 / 32 Bład rzeczywisty Ω = (X, µ) przestrzeń probabilistyczna na X ; Bład hipotezy h H względem funkcji celu c: er Ω (h, c) = er c Ω (h) = µ(x h c) gdzie X h c = {x X : h(x) c(x)}. Statystyka: Jeśli przykłady z D sa wybrane zgodnie z miara prawdopodobieństwa µ w sposób niezależny oraz D 30, to

Bład hipotezy Systemy uczace się 2009 8 / 32 Bład rzeczywisty Ω = (X, µ) przestrzeń probabilistyczna na X ; Bład hipotezy h H względem funkcji celu c: er Ω (h, c) = er c Ω (h) = µ(x h c) gdzie X h c = {x X : h(x) c(x)}. Statystyka: Jeśli przykłady z D sa wybrane zgodnie z miara prawdopodobieństwa µ w sposób niezależny oraz D 30, to er c Ω (h) erc D (h) = D X h c D,

Bład hipotezy Systemy uczace się 2009 8 / 32 Bład rzeczywisty Ω = (X, µ) przestrzeń probabilistyczna na X ; Bład hipotezy h H względem funkcji celu c: er Ω (h, c) = er c Ω (h) = µ(x h c) gdzie X h c = {x X : h(x) c(x)}. Statystyka: Jeśli przykłady z D sa wybrane zgodnie z miara prawdopodobieństwa µ w sposób niezależny oraz D 30, to er c Ω (h) erc D (h) = D X h c D, z prawdopodobieństwem (1 ε) er c Ω erc D s ε er c D (1 erc D ) 2 D

Model uczenia się PAC Systemy uczace się 2009 10 / 32 Idea modelu PAC (Probably Approximately Correct): Określenie warunków, przy których uczeń (algorytm uczenia się) z dużym prawdopodobieństwem znajdzie dobra hipotezę na podstawie danych D.

Model uczenia się PAC Systemy uczace się 2009 10 / 32 Idea modelu PAC (Probably Approximately Correct): Określenie warunków, przy których uczeń (algorytm uczenia się) z dużym prawdopodobieństwem znajdzie dobra hipotezę na podstawie danych D. PAC-owy uczeń Niech L będzie algorytmem uczenia się, jeśli dla każdych 0 < ε, δ < 1, istnieje liczba m 0 = m 0 (ε, δ) taka, że dla dowolnego pojęcia c C, dla dowolnego rozkładu Ω na X i dla m > m 0 mamy µ m {D S(m, c) : er Ω (L(D)) < ε} > 1 δ Wówczas mówimy w skrócie, że L jest PAC dla klasy C ( prawdopodobnie aproksymacyjnie poprawny ). ε = dopuszczalny poziom błędu; (1 δ) = poziom zaufania.

Systemy uczace się 2009 11 / 32 Przykład problemu dyskretyzacji H = C = {f λ : R {0, 1} : f λ (x) = 1 x λ}

Systemy uczace się 2009 11 / 32 Przykład problemu dyskretyzacji H = C = {f λ : R {0, 1} : f λ (x) = 1 x λ} c = f λ0

Systemy uczace się 2009 11 / 32 Przykład problemu dyskretyzacji H = C = {f λ : R {0, 1} : f λ (x) = 1 x λ} c = f λ0 znaleźć λ 0 na podstawie losowo wygenerowanych przykładów D = { x 1, f λ0 (x 1 ),..., x m, f λ0 (x m ) }

Systemy uczace się 2009 11 / 32 Przykład problemu dyskretyzacji H = C = {f λ : R {0, 1} : f λ (x) = 1 x λ} c = f λ0 znaleźć λ 0 na podstawie losowo wygenerowanych przykładów D = { x 1, f λ0 (x 1 ),..., x m, f λ0 (x m ) } Algorytm:

Systemy uczace się 2009 11 / 32 Przykład problemu dyskretyzacji H = C = {f λ : R {0, 1} : f λ (x) = 1 x λ} c = f λ0 znaleźć λ 0 na podstawie losowo wygenerowanych przykładów D = { x 1, f λ0 (x 1 ),..., x m, f λ0 (x m ) } Algorytm: 1 Set λ := min i {1,...,m} {x i : f λ0 (x i ) = 1};

Przykład problemu dyskretyzacji H = C = {f λ : R {0, 1} : f λ (x) = 1 x λ} c = f λ0 znaleźć λ 0 na podstawie losowo wygenerowanych przykładów D = { x 1, f λ0 (x 1 ),..., x m, f λ0 (x m ) } Algorytm: 1 Set λ := min i {1,...,m} {x i : f λ0 (x i ) = 1}; 2 L(D) := f λ ; Systemy uczace się 2009 11 / 32

Przykład problemu dyskretyzacji H = C = {f λ : R {0, 1} : f λ (x) = 1 x λ} c = f λ0 znaleźć λ 0 na podstawie losowo wygenerowanych przykładów D = { x 1, f λ0 (x 1 ),..., x m, f λ0 (x m ) } Algorytm: 1 Set λ := min i {1,...,m} {x i : f λ0 (x i ) = 1}; 2 L(D) := f λ ; Twierdzenie: Powyższy algorytm jest PAC Systemy uczace się 2009 11 / 32

Dowód Systemy uczace się 2009 12 / 32 er c Ω (f λ ) = µ([λ 0, λ )).

Dowód Systemy uczace się 2009 12 / 32 er c Ω (f λ ) = µ([λ 0, λ )). Niech β 0 = sup{β : µ([λ 0, β)) < ε}.

Dowód Systemy uczace się 2009 12 / 32 er c Ω (f λ ) = µ([λ 0, λ )). Niech β 0 = sup{β : µ([λ 0, β)) < ε}. Wówczas er c Ω (f λ ) ε x i D : x i / [λ 0, β 0 ];

Dowód er c Ω (f λ ) = µ([λ 0, λ )). Niech β 0 = sup{β : µ([λ 0, β)) < ε}. Wówczas er c Ω (f λ ) ε x i D : x i / [λ 0, β 0 ]; Stad µ m {(x 1,..., x m ) : xi D : x i / [λ 0, β 0 ]} (1 ε) m µ m {D S(m, f λ0 ) : er Ω (f λ ) ε} 1 (1 ε) m Systemy uczace się 2009 12 / 32

Dowód Systemy uczace się 2009 12 / 32 er c Ω (f λ ) = µ([λ 0, λ )). Niech β 0 = sup{β : µ([λ 0, β)) < ε}. Wówczas er c Ω (f λ ) ε x i D : x i / [λ 0, β 0 ]; Stad µ m {(x 1,..., x m ) : xi D : x i / [λ 0, β 0 ]} (1 ε) m µ m {D S(m, f λ0 ) : er Ω (f λ ) ε} 1 (1 ε) m Aby to prawdopodobieństwo było > 1 δ, wystarczy przyjać m m 0 = 1 ε ln 1 δ

Dokładne uczenie się Systemy uczace się 2009 13 / 32 Niech Ω będzie rozkładem dyskretnym zdefiniowanym przez µ 1 = µ(x 1 ),..., µ n = µ(x n ) dla pewnych x 1,..., x n X takich, że µ 1 +... + µ n = 1. Niech ε min = min i µ i.

Dokładne uczenie się Systemy uczace się 2009 13 / 32 Niech Ω będzie rozkładem dyskretnym zdefiniowanym przez µ 1 = µ(x 1 ),..., µ n = µ(x n ) dla pewnych x 1,..., x n X takich, że µ 1 +... + µ n = 1. Niech ε min = min µ i. i Jeśli L jest PAC, i jeśli ε ε min to warunek er c Ω (L(D)) < ε jest równoważny z erc Ω (L(D)) = 0. St ad dla każdego δ, istnieje m 0 = m 0 (ε min, δ) taka, że dla dowolnego c C i Ω m > m 0 µ m {D S(m, t) er Ω (L(D)) = 0} > 1 δ

Dokładne uczenie się Systemy uczace się 2009 13 / 32 Niech Ω będzie rozkładem dyskretnym zdefiniowanym przez µ 1 = µ(x 1 ),..., µ n = µ(x n ) dla pewnych x 1,..., x n X takich, że µ 1 +... + µ n = 1. Niech ε min = min µ i. i Jeśli L jest PAC, i jeśli ε ε min to warunek er c Ω (L(D)) < ε jest równoważny z erc Ω (L(D)) = 0. St ad dla każdego δ, istnieje m 0 = m 0 (ε min, δ) taka, że dla dowolnego c C i Ω m > m 0 µ m {D S(m, t) er Ω (L(D)) = 0} > 1 δ Wówczas mówimy, że prawdopodobnie L jest dokładnym algorytmem (jest PEC probably exactly correct)

Potencjalna wyuczalność Systemy uczace się 2009 15 / 32 Niech D = { x 1, c(x 1 ),..., x m, c(x m ) } i niech H c (D) = {h H : h D = c D} zbiór hipotez zgodnych z c na próbce D.

Potencjalna wyuczalność Systemy uczace się 2009 15 / 32 Niech D = { x 1, c(x 1 ),..., x m, c(x m ) } i niech H c (D) = {h H : h D = c D} zbiór hipotez zgodnych z c na próbce D. B c ε = {h H : er Ω (h) ε} zbiór ε-złych hipotez

Potencjalna wyuczalność Systemy uczace się 2009 15 / 32 Niech D = { x 1, c(x 1 ),..., x m, c(x m ) } i niech H c (D) = {h H : h D = c D} zbiór hipotez zgodnych z c na próbce D. B c ε = {h H : er Ω (h) ε} zbiór ε-złych hipotez Definicja: Potencjalna wyuczalność Mówimy, że C jest potencjalnie wyuczalna za pomoca H, jeśli dla każdego rozkładu Ω na X i dowolnego pojęcia c C oraz dla dowolnych 0 < ε, δ < 1 istnieje m 0 = m 0 (ε, δ) takie, że m m 0 µ m {D S(m, c) : H c (D) B c ε = } > 1 δ

Potencjalna wyuczalność Systemy uczace się 2009 16 / 32 Algorytm L nazywamy niesprzecznym jeśli L(D) H c (D) dla każdego zbioru D. Twierdzenie W przestrzeni potencjalnie wyuczalnej, każdy wzorowy uczeń (niesprzeczny algorytm) jest PAC-owy.

Potencjalna wyuczalność Systemy uczace się 2009 16 / 32 Algorytm L nazywamy niesprzecznym jeśli L(D) H c (D) dla każdego zbioru D. Twierdzenie W przestrzeni potencjalnie wyuczalnej, każdy wzorowy uczeń (niesprzeczny algorytm) jest PAC-owy. Twierdzenie (Haussler, 1988) Jeśli C = H i C <, to C jest potencjalnie wyuczalna. Dowód: Niech h B ε (tzn. er Ω (h) ε). Wówczas µ m {D S(m, c) : er D (h) = 0} (1 ε) m µ m {D : H c (D) B ε } B ε (1 ε) m H (1 ε) m Aby H (1 ε) m < δ wystarczy wybrać m m 0 = 1 ε ln H δ

Systemy uczace się 2009 18 / 32 Wymiar Vapnika-Chervonenkisa Niech x = x 1,..., x m X m. Niech Π H ( x ) = { h(x 1 ),..., h(x m ) {0, 1} m : h H}

Systemy uczace się 2009 18 / 32 Wymiar Vapnika-Chervonenkisa Niech x = x 1,..., x m X m. Niech Π H ( x ) = { h(x 1 ),..., h(x m ) {0, 1} m : h H} Π H ( x ) jest liczba podziałów zbioru elementów x wyznaczonych przez H. Mamy Π H ( x ) 2 m.

Systemy uczace się 2009 18 / 32 Wymiar Vapnika-Chervonenkisa Niech x = x 1,..., x m X m. Niech Π H ( x ) = { h(x 1 ),..., h(x m ) {0, 1} m : h H} Π H ( x ) jest liczba podziałów zbioru elementów x wyznaczonych przez H. Mamy Π H ( x ) 2 m. Gdy Π H ( x ) = 2 m, mówimy, że H rozbija x.

Systemy uczace się 2009 18 / 32 Wymiar Vapnika-Chervonenkisa Niech x = x 1,..., x m X m. Niech Π H ( x ) = { h(x 1 ),..., h(x m ) {0, 1} m : h H} Π H ( x ) jest liczba podziałów zbioru elementów x wyznaczonych przez H. Mamy Π H ( x ) 2 m. Gdy Π H ( x ) = 2 m, mówimy, że H rozbija x. Niech Π H (m) = max Π H ( x ) x X m

Systemy uczace się 2009 18 / 32 Wymiar Vapnika-Chervonenkisa Niech x = x 1,..., x m X m. Niech Π H ( x ) = { h(x 1 ),..., h(x m ) {0, 1} m : h H} Π H ( x ) jest liczba podziałów zbioru elementów x wyznaczonych przez H. Mamy Π H ( x ) 2 m. Gdy Π H ( x ) = 2 m, mówimy, że H rozbija x. Niech Π H (m) = max Π H ( x ) x X m Na przykład: W przypadku klasy pojęć "półosi"postaci [α, ) mamy Π H (m) = m + 1.

Systemy uczace się 2009 19 / 32 Uwagi: Wymiar Vapnika-Chervonenkisa (c.d.) Jeśli Π H (m) = 2 m, to istnieje pewien zbiór o mocy m taki, że H może definiować każdy jego podzbiór (H rozbija ten zbiór).

Uwagi: Wymiar Vapnika-Chervonenkisa (c.d.) Jeśli Π H (m) = 2 m, to istnieje pewien zbiór o mocy m taki, że H może definiować każdy jego podzbiór (H rozbija ten zbiór). Maksymalna wartość m, dla której Π H (m) = 2 m można uważać za siłę wyrażalności przestrzeni H Systemy uczace się 2009 19 / 32

Uwagi: Wymiar Vapnika-Chervonenkisa (c.d.) Jeśli Π H (m) = 2 m, to istnieje pewien zbiór o mocy m taki, że H może definiować każdy jego podzbiór (H rozbija ten zbiór). Maksymalna wartość m, dla której Π H (m) = 2 m można uważać za siłę wyrażalności przestrzeni H Definicja: wymiar VCdim Wymiarem Vapnika-Chervonenkisa przestrzeni hipotez H nazywamy liczbę VCdim(H) = max{m : Π H (m) = 2 m } gdzie maksimum wynosi jeśli ten zbiór jest nieograniczony. Systemy uczace się 2009 19 / 32

Przykłady wymiarów VCdim Systemy uczace się 2009 20 / 32

Przykłady wymiarów VCdim Systemy uczace się 2009 20 / 32 H = {okręgi... } = VC(H) = 3

Przykłady wymiarów VCdim Systemy uczace się 2009 20 / 32 H = {okręgi... } = VC(H) = 3 H = {prostokaty... } = VC(H) = 4

Przykłady wymiarów VCdim Systemy uczace się 2009 20 / 32 H = {okręgi... } = VC(H) = 3 H = {prostokaty... } = VC(H) = 4 H = {funkcje progowe... } = VC(H) = 1 jeśli + sa zawsze po prawej stronie; VC(H) = 2 jeśli + moga być po obu stronach

Przykłady wymiarów VCdim Systemy uczace się 2009 20 / 32 H = {okręgi... } = VC(H) = 3 H = {prostokaty... } = VC(H) = 4 H = {funkcje progowe... } = VC(H) = 1 jeśli + sa zawsze po prawej stronie; VC(H) = 2 jeśli + moga być po obu stronach H = {przedziały... } = VC(H) = 2 jeśli + sa zawsze w środku VC(H) = 3 jeśli w środku moga być zarówno + i -

Przykłady wymiarów VCdim Systemy uczace się 2009 20 / 32 H = {okręgi... } = VC(H) = 3 H = {prostokaty... } = VC(H) = 4 H = {funkcje progowe... } = VC(H) = 1 jeśli + sa zawsze po prawej stronie; VC(H) = 2 jeśli + moga być po obu stronach H = {przedziały... } = VC(H) = 2 jeśli + sa zawsze w środku VC(H) = 3 jeśli w środku moga być zarówno + i - H = { półpłaszczyzny w R 2... } = VC(H) = 3

Przykłady wymiarów VCdim Systemy uczace się 2009 20 / 32 H = {okręgi... } = VC(H) = 3 H = {prostokaty... } = VC(H) = 4 H = {funkcje progowe... } = VC(H) = 1 jeśli + sa zawsze po prawej stronie; VC(H) = 2 jeśli + moga być po obu stronach H = {przedziały... } = VC(H) = 2 jeśli + sa zawsze w środku VC(H) = 3 jeśli w środku moga być zarówno + i - H = { półpłaszczyzny w R 2... } = VC(H) = 3 czy istnieje H dla której VC(H) =?

Wymiar VCdim dla perceptronu Systemy uczace się 2009 21 / 32 Twierdzenie Dla każdej liczby naturalnej n, niech P n będzie perceptronem o n wejściach rzeczywistych. Wówczas Dowód: VCdim(P n ) = n + 1

Twierdzenie Wymiar VCdim dla perceptronu Dla każdej liczby naturalnej n, niech P n będzie perceptronem o n wejściach rzeczywistych. Wówczas VCdim(P n ) = n + 1 Dowód: VCdim(P n ) n + 1: Wynika z Twierdzenia Radona: Dla dowolnego zbioru E zawierajacego n + 2 punktów w przestrzeni R n istnieje niepusty podzbiór S E taki, że conv(s) conv(e \ S) Systemy uczace się 2009 21 / 32

Twierdzenie Wymiar VCdim dla perceptronu Dla każdej liczby naturalnej n, niech P n będzie perceptronem o n wejściach rzeczywistych. Wówczas VCdim(P n ) = n + 1 Dowód: VCdim(P n ) n + 1: Wynika z Twierdzenia Radona: Dla dowolnego zbioru E zawierajacego n + 2 punktów w przestrzeni R n istnieje niepusty podzbiór S E taki, że conv(s) conv(e \ S) VCdim(P n ) n + 1 : Wystarczy wybrać x = {0, e 1,..., e n } i pokazać, że każdy jego podzbiór jest definiowany przez jakiś perceptron. Systemy uczace się 2009 21 / 32

Wymiar VCdim Systemy uczace się 2009 22 / 32 Twierdzenie

Wymiar VCdim Systemy uczace się 2009 22 / 32 Twierdzenie 1 Jeśli H < to VCdim(H) log H.

Wymiar VCdim Systemy uczace się 2009 22 / 32 Twierdzenie 1 Jeśli H < to VCdim(H) log H. 2 (Lemat Sauer a) Jeśli VCdim(H) = d 0 i m 1, to ( ) ( ) m m Π H (m) 1 + +... + = Φ(d, m) 1 d

Wymiar VCdim Systemy uczace się 2009 22 / 32 Twierdzenie 1 Jeśli H < to VCdim(H) log H. 2 (Lemat Sauer a) Jeśli VCdim(H) = d 0 i m 1, to ( ) ( ) m m Π H (m) 1 + +... + = Φ(d, m) 1 d ( em ) d ( em 3 Wniosek: Φ(d, m) ΠH (m) d d ) d

Wymiar VCdim Systemy uczace się 2009 22 / 32 Twierdzenie 1 Jeśli H < to VCdim(H) log H. 2 (Lemat Sauer a) Jeśli VCdim(H) = d 0 i m 1, to ( ) ( ) m m Π H (m) 1 + +... + = Φ(d, m) 1 d ( em ) d ( em 3 Wniosek: Φ(d, m) ΠH (m) d d 4 Jeśli X <, H 2 X oraz H > 1 X < = VCdim(H) > ln H 1 + ln X ) d

Fundamentalne twierdzenia Systemy uczace się 2009 24 / 32 Twierdzenie: (Warunek konieczny) Jeśli przestrzeń hipotez ma nieskończony wymiar VCdim to nie jest potencjalnie wyuczalna.

Fundamentalne twierdzenia Systemy uczace się 2009 24 / 32 Twierdzenie: (Warunek konieczny) Jeśli przestrzeń hipotez ma nieskończony wymiar VCdim to nie jest potencjalnie wyuczalna. Twierdzenie: (fundamentalne) Jeśli przestrzeń hipotez ma skończony wymiar VC, to jest ona potencjalnie wyuczalna.

Szkic dowodu fundamentalnego twierdzenia Systemy uczace się 2009 25 / 32 1 Definiujemy Q ε m = {D S(m, c) : H c [D] B ε }

Szkic dowodu fundamentalnego twierdzenia Systemy uczace się 2009 25 / 32 1 Definiujemy Q ε m = {D S(m, c) : H c [D] B ε } 2 Szukamy górnego ograniczenia f (m, ε) dla µ m (Q ε m), które powinno - być niezależne od c C i µ (rozkład). - dażyć do 0 przy m

Szkic dowodu fundamentalnego twierdzenia Systemy uczace się 2009 25 / 32 1 Definiujemy Q ε m = {D S(m, c) : H c [D] B ε } 2 Szukamy górnego ograniczenia f (m, ε) dla µ m (Q ε m), które powinno - być niezależne od c C i µ (rozkład). - dażyć do 0 przy m 3 Twierdzenie Niech H będzie przestrzenia hipotez określonych na X. Dla dowolnych c, µ, ε (ale ustalonych) mamy o ile m 8/ε. µ m (Q ε m) < 2Π H (2m)2 εm/2

Szkic dowodu fundamentalnego twierdzenia Systemy uczace się 2009 25 / 32 1 Definiujemy Q ε m = {D S(m, c) : H c [D] B ε } 2 Szukamy górnego ograniczenia f (m, ε) dla µ m (Q ε m), które powinno - być niezależne od c C i µ (rozkład). - dażyć do 0 przy m 3 Twierdzenie Niech H będzie przestrzenia hipotez określonych na X. Dla dowolnych c, µ, ε (ale ustalonych) mamy o ile m 8/ε. µ m (Q ε m) < 2Π H (2m)2 εm/2 4 Korzystamy z lematu Sauer a, aby pokazać, że µ m (Q ε m) < δ dla dostatecznie dużych m.

Złożoność zbioru treningowego (c.d.) Systemy uczace się 2009 26 / 32 Dla skończonych przestrzeni hipotez H mamy 1 H 1 m L (H, δ, ε) ln = (ln H + ln(1/δ)) ε δ ε

Złożoność zbioru treningowego (c.d.) Systemy uczace się 2009 26 / 32 Dla skończonych przestrzeni hipotez H mamy 1 H 1 m L (H, δ, ε) ln = (ln H + ln(1/δ)) ε δ ε Twierdzenie Niech VCdim(H) = d 1. Wówczas każdy algorytm niesprzeczny L jest PAC oraz wymagana liczba przykładów dla L wynosi m L (H, δ, ε) 4 ε ( d log 12 ε + log 2 δ )

Złożoność zbioru treningowego (c.d.) Systemy uczace się 2009 26 / 32 Dla skończonych przestrzeni hipotez H mamy 1 H 1 m L (H, δ, ε) ln = (ln H + ln(1/δ)) ε δ ε Twierdzenie Niech VCdim(H) = d 1. Wówczas każdy algorytm niesprzeczny L jest PAC oraz wymagana liczba przykładów dla L wynosi m L (H, δ, ε) 4 ε ( d log 12 ε + log 2 δ ) Dolne ograniczenia:

Złożoność zbioru treningowego (c.d.) Systemy uczace się 2009 26 / 32 Dla skończonych przestrzeni hipotez H mamy 1 H 1 m L (H, δ, ε) ln = (ln H + ln(1/δ)) ε δ ε Twierdzenie Niech VCdim(H) = d 1. Wówczas każdy algorytm niesprzeczny L jest PAC oraz wymagana liczba przykładów dla L wynosi m L (H, δ, ε) 4 ε ( d log 12 ε + log 2 δ ) Dolne ograniczenia: m L (H, δ, ε) d(1 ε)

Złożoność zbioru treningowego (c.d.) Systemy uczace się 2009 26 / 32 Dla skończonych przestrzeni hipotez H mamy 1 H 1 m L (H, δ, ε) ln = (ln H + ln(1/δ)) ε δ ε Twierdzenie Niech VCdim(H) = d 1. Wówczas każdy algorytm niesprzeczny L jest PAC oraz wymagana liczba przykładów dla L wynosi m L (H, δ, ε) 4 ε ( d log 12 ε + log 2 δ ) Dolne ograniczenia: m L (H, δ, ε) d(1 ε) Jeśli δ 1/100 i ε 1/8, to m L (H, δ, ε) > d 1 32ε

Złożoność zbioru treningowego (c.d.) Systemy uczace się 2009 26 / 32 Dla skończonych przestrzeni hipotez H mamy 1 H 1 m L (H, δ, ε) ln = (ln H + ln(1/δ)) ε δ ε Twierdzenie Niech VCdim(H) = d 1. Wówczas każdy algorytm niesprzeczny L jest PAC oraz wymagana liczba przykładów dla L wynosi m L (H, δ, ε) 4 ε ( d log 12 ε + log 2 δ ) Dolne ograniczenia: m L (H, δ, ε) d(1 ε) Jeśli δ 1/100 i ε 1/8, to m L (H, δ, ε) > d 1 32ε m L (H, δ, ε) > 1 ε ε ln 1 δ

Konkluzje Systemy uczace się 2009 27 / 32 1. Wyuczalność Kiedy każdy wzorowy uczeń będzie PAC-owy?

Konkluzje Systemy uczace się 2009 27 / 32 1. Wyuczalność Kiedy każdy wzorowy uczeń będzie PAC-owy? 2. Liczba przykładów Ile przykładów musi mieć uczeń, by się nauczyć?

Konkluzje Systemy uczace się 2009 27 / 32 1. Wyuczalność Kiedy każdy wzorowy uczeń będzie PAC-owy? 2. Liczba przykładów Ile przykładów musi mieć uczeń, by się nauczyć? Skończoność wymiaru VCdim() 1 VCdim(C) = d < C jest wyuczalna; 2 Wówczas L( 1 ε, 1 δ, d) < m(ε, δ) < U( 1 ε, 1 δ, d)

Analiza ryzyka błędu algorytmów Systemy uczace się 2009 28 / 32 3. Ocena ucznia R(α) = min α A Q c Ω (h α)dµ na podstawie N losowych przykładów 1 R(α N ) = min α i D N Kiedy i jak szybko R(α N ) R(α)? N Q c (h αi ) i=1

Analiza ryzyka błędu algorytmów Systemy uczace się 2009 28 / 32 3. Ocena ucznia R(α) = min α A Q c Ω (h α)dµ na podstawie N losowych przykładów 1 R(α N ) = min α i D N Kiedy i jak szybko R(α N ) R(α)? N Q c (h αi ) i=1 Skończoność wymiaru VCdim() 3 Dla algorytmów typu ERM, R(α N ) R(α) szybko.

O co chodzi w NFL? Systemy uczace się 2009 30 / 32 Znaleźć optimum nieznanej funkcji f : S W (f F), gdzie S, W sa skończonymi zbiorami.

O co chodzi w NFL? Systemy uczace się 2009 30 / 32 Znaleźć optimum nieznanej funkcji f : S W (f F), gdzie S, W sa skończonymi zbiorami. Działanie algorytmu przeszukiwania A dla funkcji f jest identyfikowany z wektorem: V A (f, t) = (s 1, f (s 1 )), (s 2, f (s 2 )),..., (s t, f (s t ))

O co chodzi w NFL? Systemy uczace się 2009 30 / 32 Znaleźć optimum nieznanej funkcji f : S W (f F), gdzie S, W sa skończonymi zbiorami. Działanie algorytmu przeszukiwania A dla funkcji f jest identyfikowany z wektorem: V A (f, t) = (s 1, f (s 1 )), (s 2, f (s 2 )),..., (s t, f (s t )) Ocena algorytmu: M : {V A (f, t) A, f, t} R; Np. M(V A (f, t)) = min{i f (s i ) = f max }

Systemy uczace się 2009 31 / 32 Warunek NFL: Dla dowolnej funkcji M, i dla dowolnych algorytmów A, A M(V A (f, S )) f F M(V A (f, S )) = f F

Systemy uczace się 2009 31 / 32 Warunek NFL: Dla dowolnej funkcji M, i dla dowolnych algorytmów A, A M(V A (f, S )) f F M(V A (f, S )) = f F F jest zamknięta wzg. permutacji: dla dowolnej funkcji f F i dowolnej permutacji σ Perm(S) mamy σf F

Systemy uczace się 2009 31 / 32 Warunek NFL: Dla dowolnej funkcji M, i dla dowolnych algorytmów A, A M(V A (f, S )) f F M(V A (f, S )) = f F F jest zamknięta wzg. permutacji: dla dowolnej funkcji f F i dowolnej permutacji σ Perm(S) mamy σf F Twierdzenie o NFL

Systemy uczace się 2009 31 / 32 Warunek NFL: Dla dowolnej funkcji M, i dla dowolnych algorytmów A, A M(V A (f, S )) f F M(V A (f, S )) = f F F jest zamknięta wzg. permutacji: dla dowolnej funkcji f F i dowolnej permutacji σ Perm(S) mamy σf F Twierdzenie o NFL zachodzi równoważność NFL F jest zamknięta wzg. permutacji

Systemy uczace się 2009 31 / 32 Warunek NFL: Dla dowolnej funkcji M, i dla dowolnych algorytmów A, A M(V A (f, S )) f F M(V A (f, S )) = f F F jest zamknięta wzg. permutacji: dla dowolnej funkcji f F i dowolnej permutacji σ Perm(S) mamy σf F Twierdzenie o NFL zachodzi równoważność NFL F jest zamknięta wzg. permutacji Prawdopodobieństwo wylosowania niepustej klasy funkcji zamkniętej wzg. permutacji wynosi: 2 ( S + W 1 S ) 1 2 S W 1

The No Free Lunch Theorem for learning Systemy uczace się 2009 32 / 32 Algorytm L dobrze się uczy pojęcia c jeśli er c Ω jest mały.

The No Free Lunch Theorem for learning Systemy uczace się 2009 32 / 32 Algorytm L dobrze się uczy pojęcia c jeśli er c Ω jest mały. Niech P(X) = {c : X {0, 1}}. Czy można stwierdzić wiedzieć, że L 1 uczy się wszystkich pojęć z P(X) lepiej od L 2?

The No Free Lunch Theorem for learning Systemy uczace się 2009 32 / 32 Algorytm L dobrze się uczy pojęcia c jeśli er c Ω jest mały. Niech P(X) = {c : X {0, 1}}. Czy można stwierdzić wiedzieć, że L 1 uczy się wszystkich pojęć z P(X) lepiej od L 2? No Free Lunch theorem (Wolpert, Schaffer) w wersji problemów uczenia się głosi, że:

The No Free Lunch Theorem for learning Systemy uczace się 2009 32 / 32 Algorytm L dobrze się uczy pojęcia c jeśli er c Ω jest mały. Niech P(X) = {c : X {0, 1}}. Czy można stwierdzić wiedzieć, że L 1 uczy się wszystkich pojęć z P(X) lepiej od L 2? No Free Lunch theorem (Wolpert, Schaffer) w wersji problemów uczenia się głosi, że: Żaden algorytm nie może być najlepszy w uczeniu wszystkich pojęć.

The No Free Lunch Theorem for learning Systemy uczace się 2009 32 / 32 Algorytm L dobrze się uczy pojęcia c jeśli er c Ω jest mały. Niech P(X) = {c : X {0, 1}}. Czy można stwierdzić wiedzieć, że L 1 uczy się wszystkich pojęć z P(X) lepiej od L 2? No Free Lunch theorem (Wolpert, Schaffer) w wersji problemów uczenia się głosi, że: Żaden algorytm nie może być najlepszy w uczeniu wszystkich pojęć. Każdy algorytm jest najlepszy dla takiej samej liczby pojęć

The No Free Lunch Theorem for learning Systemy uczace się 2009 32 / 32 Algorytm L dobrze się uczy pojęcia c jeśli er c Ω jest mały. Niech P(X) = {c : X {0, 1}}. Czy można stwierdzić wiedzieć, że L 1 uczy się wszystkich pojęć z P(X) lepiej od L 2? No Free Lunch theorem (Wolpert, Schaffer) w wersji problemów uczenia się głosi, że: Żaden algorytm nie może być najlepszy w uczeniu wszystkich pojęć. Każdy algorytm jest najlepszy dla takiej samej liczby pojęć Ale interesuje nas tylko pewna klasa problemów czyli klasa pojęć C P(X)

The No Free Lunch Theorem for learning Systemy uczace się 2009 32 / 32 Algorytm L dobrze się uczy pojęcia c jeśli er c Ω jest mały. Niech P(X) = {c : X {0, 1}}. Czy można stwierdzić wiedzieć, że L 1 uczy się wszystkich pojęć z P(X) lepiej od L 2? No Free Lunch theorem (Wolpert, Schaffer) w wersji problemów uczenia się głosi, że: Żaden algorytm nie może być najlepszy w uczeniu wszystkich pojęć. Każdy algorytm jest najlepszy dla takiej samej liczby pojęć Ale interesuje nas tylko pewna klasa problemów czyli klasa pojęć C P(X) Wniosek: Należy znaleźć odp. algorytm do każdego problemu.