Indukcja konstruktywna, redukcja danych

Transkrypt

1 Indukcja konstruktywna, redukcja danych Marcin Szel g Zakªad ISWD, Instytut Informatyki, Politechnika Pozna«ska

2 Plan prezentacji 1 Wprowadzenie 2 Indukcja konstruktywna 3 Redukcja liczby obiektów 4 Podsumowanie 2

3 Wprowadzenie 3

4 ródªa trudno±ci w eksploracji danych Bardzo du»a liczba obserwacji / przykªadów Zbyt du»a liczba atrybutów / zmiennych Nieistotno± cz ±ci zmiennych dla klasykacji obiektów Wzajemne wspóªzale»no±ci zmiennych warunkowych Równoczesna obecno± zmiennych ró»nego typu Wyst powanie niezdeniowanych warto±ci zmiennych Wyst powanie bª dnych warto±ci zmiennych Nierównomierny rozkªad kategorii dla zmiennej celu 4

5 Indukcja konstruktywna 5

6 Indukcja konstruktywna Indukcja konstruktywna [R. Michalski] przeksztaªcanie przestrzeni hipotez uczenia w ten sposób, aby poj cie docelowe lub wysokiej jako±ci grupowanie mogªo by w niej reprezentowane dokªadnie i oszcz dnie oraz aby mo»liwe byªo efektywne nauczenie si go za pomoc stosowanego algorytmu uczenia si. Przestrze«hipotez - zbiór mo»liwych hipotez dotycz cych poj cia docelowego, które mo»na skonstruowa w oparciu o wybrany algorytm uczenia si oraz sposób reprezentacji danych. Najcz ±ciej rozwa»a si przeksztaªcenie j zyka reprezentacji w odniesieniu do atrybutów usuwanie zb dnych atrybutów i/lub tworzenie nowych atrybutów, zale»nych funkcjonalnie od atrybutów istniej cych dotychczas. Celem indukcji konstruktywnej jest poprawienie opisu przykªadów, tak aby wykorzystywany algorytm odkrywania wiedzy mógª uzyskiwa lepsze wyniki. 6

7 Rodzaje indukcji konstruktywnej Ze wzgl du na ¹ródªo informacji decyduj cych o sposobach przeksztaªcania przestrzeni hipotez wyró»nia si : indukcj konstruktywn sterowan danymi (ang. data-driven constructive induction DCI) sposób przeksztaªcania przestrzeni hipotez okre±la si na podstawie analizy danych w zbiorze ucz cym, indukcj konstruktywn sterowan wiedz (ang. knowledge-driven constructive induction KCI) sposób przeksztaªcania przestrzeni hipotez okre±la si na podstawie wiedzy dziedzinowej o zbiorze ucz cym, indukcj konstruktywn sterowan hipotezami (ang. hypothesis-driven constructive induction HCI) sposób przeksztaªcania przestrzeni hipotez okre±la si na podstawie analizy hipotez wygenerowanych dla dotychczasowego zbioru zmiennych. 7

8 Indukcja konstruktywna sterowana danymi (DCI) Indukcja konstruktywna na podstawie danych polega na analizowaniu rozkªadów warto±ci zmiennych i wzajemnych korelacji tych zmiennych. Za szczególny przypadek indukcji konstruktywnej sterowanej danymi mo»na uzna dyskretyzacj zmiennych ci gªych oraz agregacj zmiennych porz dkowych, gdy» metody te dobieraj sposób podziaªu dziedziny zmiennej na podstawie analizy zbioru danych. 8

9 Indukcja konstruktywna sterowana wiedz (KCI) Akcentowanie roli wiedzy eksperta / analityka. Wiedza ta, opisuj c pewne aspekty dziedziny problemu, mo»e umo»liwi okre±lenie wªa±ciwych przeksztaªce«przestrzeni zmiennych. Cz sto jednak ekspert najªatwiej mo»e wyrazi swoj wiedz o mo»liwych przeksztaªceniach zmiennych ju» na etapie tworzenia zbioru danych, odpowiednio dobieraj c zmienne wej±ciowe. 9

10 Indukcja konstruktywna sterowana hipotezami (HCI) W oparciu o analiz modelu danych generowanego przez wybrany algorytm eksploracji danych w kolejnych iteracjach mo»na: usuwa zmienne niewykorzystywane w modelu lub takie, które nie maj zasadniczego znaczenia dla jego dokªadno±ci, tworzy nowe zmienne w oparciu o pojawiaj ce si w modelu kombinacje warunków co do warto±ci u»ytych zmiennych (wzorce), o ile kombinacje te s speªniane przez odpowiednio du»o obiektów ucz cych. 10

11 Indukcja konstruktywna przykªad Dany jest nast puj cy zbiór przykªadów ucz cych: nr. wysoko± dªugo± szeroko± decyzja

12 Indukcja konstruktywna przykªad Zbiór reguª decyzyjnych otrzymanych za pomoc algorytmu LEM2: 1 (dªugo± = 4) & (wysoko± =6) (decyzja = 1) {2} 2 (wysoko± = 4) & (dªugo± =4) (decyzja = 1) {4} 3 (wysoko± = 3) (decyzja = 1) {3} 4 (wysoko± = 2) (decyzja = 1) {1} 5 (dªugo± = 8) & (wysoko± =6) (decyzja = 2) {8} 6 (dªugo± = 12) & (wysoko± =4) (decyzja = 2) {6} 7 (wysoko± = 12) (decyzja = 2) {5} 8 (wysoko± = 8) (decyzja = 2) {7} 12

13 Indukcja konstruktywna przykªad Wprowadzenie nowej zmiennej wysoko± dªugo± : nr. wysoko± dªugo± szeroko± wys. dª. decyzja

14 Indukcja konstruktywna przykªad Zbiór reguª decyzyjnych otrzymanych za pomoc algorytmu LEM2: 1 (wysoko± dªugo± = 24) (decyzja = 1), {1, 2, 3} 2 (wysoko± dªugo± = 16) (decyzja = 1), {4} 3 (wysoko± dªugo± = 48) (decyzja = 2), {5,6,7,8} 14

15 Redukcja liczby zmiennych Motywacje redukcji liczby zmiennych (selekcji atrybutów): zmniejszenie przestrzeni hipotez szybsze i efektywniejsze dziaªanie algorytmów eksploracji danych, czasami poprawa jako±ci przyszªej predykcji (unikanie nadmiernego dopasowania si modelu wiedzy do danych), ªatwiejsza interpretacja stworzonego modelu wiedzy, np. ze wzgl du na mniejszy rozmiar tego modelu. 15

16 Redukcja liczby zmiennych c.d. W przestrzeni o du»ej liczbie wymiarów prawdopodobnie nie wszystkie zmienne (atrybuty), które zostaªy zmierzone, b d konieczne do dokªadnego rozró»nienia obiektów. Przykªadowo, podczas rozró»niania obrazów twarzy m»czyzn i kobiet zmienne takie jak kolor oczu, wªosów czy skóry b d prawdopodobnie maªo przydatne do klasykacji. Mo»liwo± wykorzystania wiedzy a priori o istotno±ci zmiennych dla konkretnego zadania odkrywania wiedzy. W problemie klasykacji mo»liwe jest, i» niektóre zmienne wej±ciowe X 1, X 2,... X n s niezwi zane ze zmienn wynikow Y oraz»e dwie lub wi cej zmiennych wej±ciowych zawiera w zasadzie te same informacje przydatne do przewidywania (korelacja!). Niektóre algorytmy eksploracji danych cechuj si wewn trznym doborem istotnych cech (np. drzewa decyzyjne; ryzyko nadmiernego dopasowania!), inne nie (np. knn). 16

17 Redukcja liczby zmiennych (DCI) Niezale»no± Y od X i : dla wszystkich warto±ci y i x i mamy p(y = y X i = x i ) = p(y = y) problem sko«czono±ci próbki, brak ilo±ciowej informacji o stopniu zale»no±ci. W przypadku gdy interesuje nas ilo±ciowe oszacowanie zale»no±ci pomi dzy dowoln zmienn wej±ciow X i a zmienn wynikow Y, mo»emy np. wyznaczy wspóªczynnik korelacji na ka»dej pary zmiennych (X i, Y ) szacowanie tylko zale»no±ci liniowej dla zmiennych ilo±ciowych. ( rednia) Informacja wzajemna (ang. mutual information): dla zmiennych dyskretnych (jako±ciowych): I(X, Y ) = p(x, y) log 2 y Y x X p(x,y) p(x)p(y), dla zmiennych ci gªych (ilo±ciowych): I(X, Y ) = p(x,y) p(x, y) log 2 p(x)p(y) dxdy. Y X Informacja wzajemna jest równa zero zmienne s niezale»ne. 17

18 Redukcja liczby zmiennych (DCI) c.d. Test χ 2 badanie zgodno±ci wzajemnej zmiennych jako±ciowych (nominalnych); wspóªczynnik V-Cramera. Miary wykorzystuj ce entropi warunkow zmiennej wynikowej Y, pod warunkiem znajomo±ci zmiennej wej±ciowej X i : Entropia dyskretnej zmiennej Y : H(Y ) = p(y) log 2 p(y). y Y Entropia warunkowa dyskretnej zmiennej Y, pod warunkiem znajomo±ci dyskretnej zmiennej X i : H(Y X i ) = p(x i ) p(y x i ) log 2 p(y x i ). x i X i y Y Zysk informacyjny (ang. information gain), Quinlan 1993: InfoGain(Y, X i ) = H(Y ) H(Y X i ). 18

19 Redukcja liczby zmiennych (DCI) c.d. Problem interakcje pomi dzy pojedynczymi zmiennymi X i a zmienn Y niekoniecznie mówi cokolwiek o tym, jaki zbiór zmiennych oddziaªywuje na Y. Przykªad ku przestrodze Y jako funkcja parzysto±ci zmiennych binarnych (0-1) Y nie zale»y od»adnej pojedynczej zmiennej, ale jest deterministyczn funkcj caªego zbioru zmiennych (interakcje nieliniowe i nieaddytywne!). Wniosek: w przypadku ogólnym zbiór k najlepszych pojedynczych zmiennych X i (dobranych np. na podstawie korelacji ze zmienn wynikow Y ) nie jest tym samym co najlepszy zbiór zmiennych o rozmiarze k. Dla zbioru zmiennych o rozmiarze n, mamy 2 n 1 mo»liwych niepustych podzbiorów zmiennych wyczerpuj cy przegl d wszystkich mo»liwych podzbiorów cz sto nie jest mo»liwy. W praktyce stosuje si heurystyczne metody wybierania podzbiorów zmiennych, polegaj ce np. na dodawaniu lub usuwaniu pojedynczej zmiennej w aktualnym kroku metody. 19

20 Redukcja liczby zmiennych (DCI) c.d. Metody oceny jako±ci podzbioru zmiennych wej±ciowych F {X 1, X 2,..., X n }, F = k, w kontek±cie predykcji warto±ci zmiennej wynikowej Y : podej±cia typu lter, np: selekcja podzbioru zmiennych w oparciu o korelacj (ang. Correlation-based Filter Approach), selekcja podzbioru zmiennych w oparciu o jako± (przybli»enia) klasykacji w sensie teorii zbiorów przybli»onych (ang. Rough Set Theory RST), podej±cia typu wrapper. 20

21 Redukcja liczby zmiennych (DCI) c.d. Model lter redukcja liczby zmiennych niezale»nie od przyj tego algorytmu eksploracji danych (wst pne przetwarzanie zbioru zmiennych wej±ciowych). Wykorzystanie caªego dost pnego zbioru danych przy selekcji zmiennych. Zalet jest szybko± dziaªania i skalowalno± wraz ze wzrostem liczby zmiennych i obiektów. Model wrapper wykorzystanie docelowego algorytmu eksploracji danych w celu oszacowania jako±ci ka»dego rozwa»anego podzbioru zmiennych F, za pomoc wybranej statystycznej techniki próbkowania, np. k-krotnej walidacji krzy»owej (ang. k-fold cross-validation). Wad tego podej±cia jest du»y nakªad obliczeniowy wynikaj cy z wielokrotnego wywoªywania algorytmu ucz cego. Z kolei konsekwencj du»ego nakªadu obliczeniowego jest problem skalowalno±ci modelu wraz ze wzrostem liczby zmiennych i obiektów. 21

22 Selekcja zmiennych w oparciu o korelacj (DCI) Wykorzystanie macierzy korelacji dla wszystkich par zmiennych do szacowania dobroci (ang. merit) zbioru k zmiennych F (ang. correlation-based merit measure): Merit(F ) = kr fd k+k(k 1)rff, gdzie: r fd ±rednia korelacja zmiennej X i F ze zmienn Y, r ff ±rednia wzajemna korelacja zmiennych ze zbioru F. Intuicja stoj ca za przedstawionym podej±ciem: dobry zbiór zmiennych zawiera zmienne wysoce skorelowane ze zmienn wynikow Y i nieskorelowane nawzajem. 22

23 Selekcja zmiennych w oparciu o korelacj (DCI) c.d. W przypadku wyznaczania korelacji pomi dzy zmienn ci gª X i a zmienn dyskretn X j o warto±ciach ze zbioru {v 1, v 2,..., v t }, zmienna dyskretna podlega zamianie na t zmiennych binarnych X j1, X j2,..., X jt, w oparciu o zale»no± : X jk = gdzie k {1, 2,..., t}. { 1 Xj = v k 0 w przeciwnym przypadku, Wówczas korelacja zmiennej ci gªej X i ze zmienn dyskretn X j wyra»a si wzorem: r Xi X j = t k=1 p(x j = v k )r Xi X jk. 23

24 Selekcja zmiennych w oparciu o jako± klasykacji (DCI) Jako± (przybli»enia) klasykacji w sensie teorii zbiorów przybli»onych (Y zmienna jako±ciowa): γ F (Cl) = F (d) d Cl U, gdzie: F {X 1, X 2,..., X n }, F (d) F -dolne przybli»enie klasy decyzyjnej d Cl, Cl zbiór klas decyzyjnych, klasa dec. zbiór obiektów o tej samej warto±ci zmiennej Y, U zbiór wszystkich obiektów. Interesuj nas wszystkie redukty zbioru zmiennych wej±ciowych X = {X 1, X 2,..., X n }, czyli takie minimalne podzbiory F X, dla których: γ F (Y ) = γ X (Y ). 24

25 Przeksztaªcanie zmiennych Celem jest przeksztaªcenie przestrzeni zmiennych X 1, X 2,..., X n w przestrze«z 1, Z 2,..., Z n, gdzie zazwyczaj n << n a zmienne Z i s zdeniowane jako funkcje oryginalnych zmiennych X i. Podej±cia do redukcji wymiarowo±ci przestrzeni: Regresja poszukiwania rzutowania (ang. Projection Pursuit Regression PPR), J.H. Freidman, J.W. Tukey, 1974 poszukiwanie optymalnego liniowego rzutowania danych na przestrze«o mniejszej liczbie wymiarów (cz sto tylko jeden / dwa wymiary) Analiza skªadowych gªównych (ang. Principal Components Analysis PCA) Inne np. analiza czynników, analiza skªadowych niezale»nych,... 25

26 Przeksztaªcanie zmiennych c.d. Regresja poszukiwania rzutowania u»ywa struktury modelu postaci: ŷ(x) = α 0 + n i=1 h i (α T i x), gdzie: ŷ(x) estymowana warto± zmiennej wynikowej Y, x n-wymiarowy wektor wspóªrz dnych punktu danych, α i n-wymiarowy wektor wag, αi T x rzut wektora x na i-ty wektor wag, h i ( ) funkcja nieliniowa skalarnego rzutowania. Dla ka»dego z n wymiarów nowej przestrzeni, zachodzi konieczno± doboru postaci funkcji h i ( ) oraz kierunku rzutowania α i. Przedstawiona posta struktury modelu jest podstaw sieci neuronowych, dla których zazwyczaj h i (t) = 1 1+e t. 26

27 Przeksztaªcanie zmiennych c.d. Ograniczenia modelu PPR: trudno± interpretacji modelu gdy n > 1, du»a zªo»ono± obliczeniowa algorytmów estymacji parametrów modelu niepraktyczno± algorytmów dla du»ych zbiorów danych. 27

28 Przeksztaªcanie zmiennych c.d. Analiza skªadowych gªównych: Oryginalne n zmiennych przewiduj cych X 1, X 2,..., X n jest zast powane nowym zbiorem n zmiennych Z 1, Z 2,..., Z n, powstaj cych w wyniku kombinacji liniowych oryginalnych zmiennych. Wariancja zbioru danych wyra»ona w terminach nowych zmiennych jest maksymalna. Sekwencyjne wydobywanie wi kszo±ci zmienno±ci danych w przestrzeniu X ju» kilka pierwszych skªadowych Z i mo»e zawiera wi kszo± informacji tkwi cych w danych. Skªadowe s ortogonalne ªatwiejsza interpretacja. 28

29 Ocena zªo»ono±ci hipotez i tworzonych zmiennych Niezale»nie od przyj tej do oceny hipotez miary zªo»ono±ci, takiej jak np. liczb w zªów drzewa decyzyjnego czy liczba reguª decyzyjnych, trzeba pami ta o tym, aby w odpowiedni sposób uwzgl dni tak»e zªo»ono± tworzonych zmiennych! Pomini cie tego elementu mo»e owocowa bardzo prostymi hipotezami kosztem bardzo zªo»onych zmiennych caªa zªo»ono± zwi zana z reprezentowaniem poj cia docelowego zostanie przeniesiona do zmiennych. 29

30 Redukcja liczby obiektów 30

31 Redukcja liczby obiektów Du»a liczba obiektów, niezb dna do uzyskania dobrego i statystycznie istotnego modelu wiedzy, mo»e by powa»n przeszkod praktyczn, ze wzgl du na du»y koszt obliczeniowy. St d te» cz sto zachodzi konieczno± ograniczania liczby przykªadów przetwarzanych przez algorytmy eksploracji danych. Mo»liwe techniki ograniczania liczby przykªadów obejmuj : okienkowanie, redukcj liczby przykªadów (próbkowanie zewn trzne), próbkowanie wewn trzne, dekompozycj zbioru danych. 31

32 Okienkowanie Uniwersalne podej±cie do nadzorowanego uczenia si na podstawie du»ych zbiorów danych. Uczenie si na podstawie pocz tkowo maªych i w miar potrzeby rosn cych losowych podzbiorów W zbioru danych D, nazywanych zbiorami roboczymi. Za ka»dym razem model wiedzy stworzony na zbiorze W D jest testowany na pozostaªej cz ±ci zbioru danych, tj. na zbiorze D W. Kolejny zbiór roboczy W powstaje ze zbioru W poprzez dodanie niektórych, losowo wybranych, przykªadów bª dnie sklasykowanych przez aktualny model wiedzy. 32

33 Okienkowanie c.d. Procedura powtarzana jest tak dªugo, jak dªugo kolejny model wiedzy jest lepszy od poprzedniego, bior c pod uwag bª d modelu na caªym zbiorze danych D, lub dopóki bª d aktualnego modelu nie spadnie poni»ej zadanego poziomu. Zalecane jest k-krotne powtórzenie procedury okienkowania z ró»nymi pocz tkowymi losowymi zbiorami roboczymi W D. W takim przypadku, ostatecznie wybierany jest najlepszy z ostatnich, przyci tych w celu unikni cia nadmiernego dopasowania, modeli danych z wszystkich k powtórze«. Jako± modelu mo»e by tutaj mierzona zarówno jego bª dem na zbiorze danych, jak i np. zªo»ono±ci modelu. 33

34 Redukcja liczby przykªadów (próbkowanie zewn trzne) Operacja zmniejszenia rozmiaru zbioru danych, która z du»ym prawdopodobie«stwem pozostawia w zredukowanych danych interesuj ce i u»yteczne zale»no±ci, wyst puj ce w peªnym zbiorze. Swoista technika zapobiegania nadmiernemu dopasowaniu przycinanie nie hipotezy, a zbyt du»ego zbioru danych. Cel wybór podzbioru zªo»onego z przykªadów uznanych za najbardziej reprezentatywne. Przykªadowa realizacja okre±lenie miary odlegªo±ci dla przykªadów i d»enie do wybierania przykªadów maksymalnie od siebie odlegªych (maksymalizacja ±redniej odlegªo±ci pomi dzy dowolnymi dwoma przykªadami ze zredukowanego zbioru, przy jednoczesnym mo»liwie niewielkim zró»nicowaniu tych odlegªo±ci) pozwala na w miar równomierne i jednocze±nie reprezentatywne zredukowanie danych (analogia do wzi cia tylko w zªów siatki 2D). 34

35 Próbkowanie wewn trzne Przeniesienie wyboru próbki przykªadów do samego algorytmu eksploracji danych, stosowanego bezpo±rednio do oryginalnego zbioru danych o du»ym rozmiarze. Idea polega na tym, aby algorytm ten wykonywaª obliczenia zale»ne od liczby obiektów na podstawie losowej, ka»dorazowo niezale»nie wybranej próbki (»aden przykªad nie jest z góry skazany na pomini cie!). Przykªadowo podczas indukcji drzewa decyzyjnego mo»na próbkowa zbiór obiektów w ka»dym w ¹le na potrzeby wyboru testu w tym w ¹le. 35

36 Dekompozycja zbioru danych Zale»no±ci wyst puj ce w du»ych zbiorach danych mog by zbyt zªo»one, aby opisuj ce je wzorce byªy czytelne i mo»liwe do interpretacji, co jest celem odkrywania tych zale»no±ci. W takiej sytuacji pozostaje dekompozycja zbioru danych na mniejsze podzbiory i poszukiwanie w tych podzbiorach prostszych zale»no±ci o ograniczonej stosowalno±ci. 36

37 Nierównomierny rozkªad kategorii zmiennej celu Problem pojawiaj cy si w rzeczywistych zbiorach danych, szczególnie cz sto dla poj pojedynczych (tylko dwie kategorie i niewielka liczba przykªadów pozytywnych lub negatywnych) Nierównomierny rozkªad kategorii zakªóca proces tworzenia modelu pozorna atrakcyjno± reguª wi kszo±ciowych Przykªadowe techniki niweluj ce nierównomierno± rozkªadu: próbkowanie przykªadów z kategorii wi kszo±ciowych wybór pewnej liczby przykªadów z ka»dej kategorii, która jest zbyt liczna w stosunku do pozostaªych, techniki replikacji przykªadów z kategorii mniejszo±ciowych multiplikowanie przykªadów z kategorii zbyt sªabo reprezentowanych w zbiorze danych; gdy po» dana liczba przykªadów danej kategorii wynosi k, a faktyczna liczba wynosi k, to oczekiwana liczba kopii ka»dego przykªadu tej kategorii to k k, generowanie przykªadów syntetycznych SMOTE. 37

38 Podsumowanie Indukcja konstruktywna selekcja i tworzenie atrybutów zobacz np. rozdz. 4.4 w pracy Ró»ne techniki redukcji liczby obiektów zobacz np. Techniki równowa»enia rozkªadu kategorii atrybutu decyzyjnego zobacz np. tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset 38

39 Zako«czenie Dzi kuj za uwag 39