Indukcja konstruktywna, redukcja danych

Podobne dokumenty
Metody numeryczne i statystyka dla in»ynierów

Ekonometria - wykªad 8

Ekonometria. wiczenia 2 Werykacja modelu liniowego. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Uczenie Wielowarstwowych Sieci Neuronów o

Metody statystyczne w biologii - Wykªad 8. Uniwersytet Przyrodniczy we Wrocªawiu Katedra Genetyki i Ogólnej Hodowli Zwierz t

Ekonometria Bayesowska

AUTO-ENKODER JAKO SKŠADNIK ARCHITEKTURY DEEP LEARNING

przewidywania zapotrzebowania na moc elektryczn

Wykªad 6: Model logitowy

Metody bioinformatyki (MBI)

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Elementarna statystyka Wnioskowanie o regresji (Inference 2 czerwca for regression) / 13

Przykªady problemów optymalizacji kombinatorycznej

1 Bª dy i arytmetyka zmiennopozycyjna

Wykorzystanie lokalnej geometrii danych w Maszynie Wektorów No±nych

Modele wielorównaniowe. Problem identykacji

ANALIZA NUMERYCZNA. Grzegorz Szkibiel. Wiosna 2014/15

In»ynierskie zastosowania statystyki wiczenia

Podstawy statystycznego modelowania danych - Wykªad 7

Listy i operacje pytania

Ekonometria. wiczenia 8 Modele zmiennej jako±ciowej. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Granular Computing 9999 pages 15 METODY SZTUCZNEJ INTELIGENCJI - PROJEKTY

Statystyka matematyczna

JAO - J zyki, Automaty i Obliczenia - Wykªad 1. JAO - J zyki, Automaty i Obliczenia - Wykªad 1

Wst p do sieci neuronowych 2010/2011 wykªad 7 Algorytm propagacji wstecznej cd.

5. (8 punktów) EGZAMIN MAGISTERSKI, r Matematyka w ekonomii i ubezpieczeniach

wiczenie nr 3 z przedmiotu Metody prognozowania kwiecie«2015 r. Metodyka bada«do±wiadczalnych dr hab. in». Sebastian Skoczypiec Cel wiczenia Zaªo»enia

Biostatystyka, # 5 /Weterynaria I/

Wnioskowanie Boolowskie i teoria zbiorów przybli»onych

Statystyka matematyczna - ZSTA LMO

Ekonometria Bayesowska

Elementy Modelowania Matematycznego Wykªad 1 Prawdopodobie«stwo

EGZAMIN MAGISTERSKI, r Matematyka w ekonomii i ubezpieczeniach

CAŠKOWANIE METODAMI MONTE CARLO Janusz Adamowski

WYKŁAD 4 PLAN WYKŁADU. Sieci neuronowe: Algorytmy uczenia & Dalsze zastosowania. Metody uczenia sieci: Zastosowania

Wzorce projektowe kreacyjne

Modele liniowe i mieszane na przykªadzie analizy danych biologicznych - Wykªad 6

Wektory w przestrzeni

Listy Inne przykªady Rozwi zywanie problemów. Listy w Mathematice. Marcin Karcz. Wydziaª Matematyki, Fizyki i Informatyki.

Pakiety statystyczne - Wykªad 8

Modele liniowe i mieszane na przykªadzie analizy danych biologicznych - Wykªad 1

DREAM5 Challenges. Metody i rezultaty. Praktyki wakacyjne 2010 sesja sprawozdawcza

Metody numeryczne. Wst p do metod numerycznych. Dawid Rasaªa. January 9, Dawid Rasaªa Metody numeryczne 1 / 9

Wykªad 4. Funkcje wielu zmiennych.

Statystyka. Šukasz Dawidowski. Instytut Matematyki, Uniwersytet l ski

Uczenie Maszynowe: reprezentacja wiedzy, wybór i ocena modelu, drzewa decyzjne

Eksploracja Danych. (c) Marcin Sydow. Wst p. Data Science. Wprowadzenie. Cykl eksperymentu. Uczenie maszynowe. Zasoby.

Systemy decyzyjne Wykªad 5: Drzewa decyzyjne

Wykªad 7. Ekstrema lokalne funkcji dwóch zmiennych.

Elementarna statystyka Dwie próby: porównanie dwóch proporcji (Two-sample problem: comparing two proportions)

KLASYCZNE ZDANIA KATEGORYCZNE. ogólne - orzekaj co± o wszystkich desygnatach podmiotu szczegóªowe - orzekaj co± o niektórych desygnatach podmiotu

MiASI. Modelowanie analityczne. Piotr Fulma«ski. 18 stycznia Wydziaª Matematyki i Informatyki, Uniwersytet Šódzki, Polska

Plan wykładu. Reguły asocjacyjne. Przykłady asocjacji. Reguły asocjacyjne. Jeli warunki to efekty. warunki efekty

Janusz Adamowski METODY OBLICZENIOWE FIZYKI Zastosowanie eliptycznych równa«ró»niczkowych

Podstawy statystycznego modelowania danych Analiza prze»ycia

Granular Computing 9999 pages 15 METODY SZTUCZNEJ INTELIGENCJI - PROJEKTY

Lab. 02: Algorytm Schrage

Optymalizacja wypukªa: wybrane zagadnienia i zastosowania

Rozwini cia asymptotyczne dla mocy testów przybli»onych

WST P DO TEORII INFORMACJI I KODOWANIA. Grzegorz Szkibiel. Wiosna 2013/14

r = x x2 2 + x2 3.

2 Liczby rzeczywiste - cz. 2

Aproksymacja funkcji metod najmniejszych kwadratów

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

Eksploracja Danych. Wprowadzenie. (c) Marcin Sydow

Matematyka z elementami statystyki

Stacjonarne szeregi czasowe

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Ekonometria. wiczenia 1 Regresja liniowa i MNK. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

EDUKARIS - O±rodek Ksztaªcenia

Metody numeryczne i statystyka dla in»ynierów

Opis matematyczny ukªadów liniowych

Metody numeryczne i statystyka dla in»ynierów

Modele ARIMA prognoza, specykacja

Systemy decyzyjne Wprowadzenie

Maszyny Turinga i problemy nierozstrzygalne. Maszyny Turinga i problemy nierozstrzygalne

Propozycja integracji elementów ±wiata gry przy u»yciu drzew zachowa«

Metodydowodzenia twierdzeń

c Marcin Sydow Przepªywy Grafy i Zastosowania Podsumowanie 12: Przepªywy w sieciach

Arkusz maturalny. Šukasz Dawidowski. 25 kwietnia 2016r. Powtórki maturalne

Materiaªy do Repetytorium z matematyki

Algorytm grupowania K-Means Reprezentacja wiedzy Selekcja i ocena modeli

Jednowarstwowe Sieci Neuronowe jako. klasykatory do wielu klas. (c) Marcin Sydow

Efekty przestrzenne w konwergencji polskich podregionów

Ekonometria - wykªad 1

STATYSTYCZNE MODELOWANIE DANYCH BIOLOGICZNYCH

Koªo Naukowe Robotyków KoNaR. Plan prezentacji. Wst p Rezystory Potencjomerty Kondensatory Podsumowanie

Modele wielorównaniowe. Estymacja parametrów

Ekonometria. wiczenia 4 Prognozowanie. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

COLT - Obliczeniowa teoria uczenia si

Metody klasyfikacji danych - część 1 p.1/24

Maªgorzata Murat. Modele matematyczne.

Statystyka opisowa. Wykªad II. Elementy statystyki opisowej. Edward Kozªowski.

Wst p do sieci neuronowych, wykªad 06, Walidacja jako±ci uczenia. Metody statystyczne.

Analiza głównych składowych- redukcja wymiaru, wykł. 12

Podstawy modelowania w j zyku UML

1 Przypomnienie wiadomo±ci ze szkoªy ±redniej. Rozwi zywanie prostych równa«i nierówno±ci

1 Metody iteracyjne rozwi zywania równania f(x)=0

Przykªadowe analizy. Grzegorz Kemski. 26 listopada 2008

Model obiektu w JavaScript

Transkrypt:

Indukcja konstruktywna, redukcja danych Marcin Szel g Zakªad ISWD, Instytut Informatyki, Politechnika Pozna«ska 24.10.2018 1

Plan prezentacji 1 Wprowadzenie 2 Indukcja konstruktywna 3 Redukcja liczby obiektów 4 Podsumowanie 2

Wprowadzenie 3

ródªa trudno±ci w eksploracji danych Bardzo du»a liczba obserwacji / przykªadów Zbyt du»a liczba atrybutów / zmiennych Nieistotno± cz ±ci zmiennych dla klasykacji obiektów Wzajemne wspóªzale»no±ci zmiennych warunkowych Równoczesna obecno± zmiennych ró»nego typu Wyst powanie niezdeniowanych warto±ci zmiennych Wyst powanie bª dnych warto±ci zmiennych Nierównomierny rozkªad kategorii dla zmiennej celu 4

Indukcja konstruktywna 5

Indukcja konstruktywna Indukcja konstruktywna [R. Michalski] przeksztaªcanie przestrzeni hipotez uczenia w ten sposób, aby poj cie docelowe lub wysokiej jako±ci grupowanie mogªo by w niej reprezentowane dokªadnie i oszcz dnie oraz aby mo»liwe byªo efektywne nauczenie si go za pomoc stosowanego algorytmu uczenia si. Przestrze«hipotez - zbiór mo»liwych hipotez dotycz cych poj cia docelowego, które mo»na skonstruowa w oparciu o wybrany algorytm uczenia si oraz sposób reprezentacji danych. Najcz ±ciej rozwa»a si przeksztaªcenie j zyka reprezentacji w odniesieniu do atrybutów usuwanie zb dnych atrybutów i/lub tworzenie nowych atrybutów, zale»nych funkcjonalnie od atrybutów istniej cych dotychczas. Celem indukcji konstruktywnej jest poprawienie opisu przykªadów, tak aby wykorzystywany algorytm odkrywania wiedzy mógª uzyskiwa lepsze wyniki. 6

Rodzaje indukcji konstruktywnej Ze wzgl du na ¹ródªo informacji decyduj cych o sposobach przeksztaªcania przestrzeni hipotez wyró»nia si : indukcj konstruktywn sterowan danymi (ang. data-driven constructive induction DCI) sposób przeksztaªcania przestrzeni hipotez okre±la si na podstawie analizy danych w zbiorze ucz cym, indukcj konstruktywn sterowan wiedz (ang. knowledge-driven constructive induction KCI) sposób przeksztaªcania przestrzeni hipotez okre±la si na podstawie wiedzy dziedzinowej o zbiorze ucz cym, indukcj konstruktywn sterowan hipotezami (ang. hypothesis-driven constructive induction HCI) sposób przeksztaªcania przestrzeni hipotez okre±la si na podstawie analizy hipotez wygenerowanych dla dotychczasowego zbioru zmiennych. 7

Indukcja konstruktywna sterowana danymi (DCI) Indukcja konstruktywna na podstawie danych polega na analizowaniu rozkªadów warto±ci zmiennych i wzajemnych korelacji tych zmiennych. Za szczególny przypadek indukcji konstruktywnej sterowanej danymi mo»na uzna dyskretyzacj zmiennych ci gªych oraz agregacj zmiennych porz dkowych, gdy» metody te dobieraj sposób podziaªu dziedziny zmiennej na podstawie analizy zbioru danych. 8

Indukcja konstruktywna sterowana wiedz (KCI) Akcentowanie roli wiedzy eksperta / analityka. Wiedza ta, opisuj c pewne aspekty dziedziny problemu, mo»e umo»liwi okre±lenie wªa±ciwych przeksztaªce«przestrzeni zmiennych. Cz sto jednak ekspert najªatwiej mo»e wyrazi swoj wiedz o mo»liwych przeksztaªceniach zmiennych ju» na etapie tworzenia zbioru danych, odpowiednio dobieraj c zmienne wej±ciowe. 9

Indukcja konstruktywna sterowana hipotezami (HCI) W oparciu o analiz modelu danych generowanego przez wybrany algorytm eksploracji danych w kolejnych iteracjach mo»na: usuwa zmienne niewykorzystywane w modelu lub takie, które nie maj zasadniczego znaczenia dla jego dokªadno±ci, tworzy nowe zmienne w oparciu o pojawiaj ce si w modelu kombinacje warunków co do warto±ci u»ytych zmiennych (wzorce), o ile kombinacje te s speªniane przez odpowiednio du»o obiektów ucz cych. 10

Indukcja konstruktywna przykªad Dany jest nast puj cy zbiór przykªadów ucz cych: nr. wysoko± dªugo± szeroko± decyzja 1 2 12 2 1 2 6 4 2 1 3 3 8 2 1 4 4 4 3 1 5 12 4 2 2 6 4 12 2 2 7 8 6 2 2 8 6 8 3 2 11

Indukcja konstruktywna przykªad Zbiór reguª decyzyjnych otrzymanych za pomoc algorytmu LEM2: 1 (dªugo± = 4) & (wysoko± =6) (decyzja = 1) {2} 2 (wysoko± = 4) & (dªugo± =4) (decyzja = 1) {4} 3 (wysoko± = 3) (decyzja = 1) {3} 4 (wysoko± = 2) (decyzja = 1) {1} 5 (dªugo± = 8) & (wysoko± =6) (decyzja = 2) {8} 6 (dªugo± = 12) & (wysoko± =4) (decyzja = 2) {6} 7 (wysoko± = 12) (decyzja = 2) {5} 8 (wysoko± = 8) (decyzja = 2) {7} 12

Indukcja konstruktywna przykªad Wprowadzenie nowej zmiennej wysoko± dªugo± : nr. wysoko± dªugo± szeroko± wys. dª. decyzja 1 2 12 2 24 1 2 6 4 2 24 1 3 3 8 2 24 1 4 4 4 3 16 1 5 12 4 2 48 2 6 4 12 2 48 2 7 8 6 2 48 2 8 6 8 3 48 2 13

Indukcja konstruktywna przykªad Zbiór reguª decyzyjnych otrzymanych za pomoc algorytmu LEM2: 1 (wysoko± dªugo± = 24) (decyzja = 1), {1, 2, 3} 2 (wysoko± dªugo± = 16) (decyzja = 1), {4} 3 (wysoko± dªugo± = 48) (decyzja = 2), {5,6,7,8} 14

Redukcja liczby zmiennych Motywacje redukcji liczby zmiennych (selekcji atrybutów): zmniejszenie przestrzeni hipotez szybsze i efektywniejsze dziaªanie algorytmów eksploracji danych, czasami poprawa jako±ci przyszªej predykcji (unikanie nadmiernego dopasowania si modelu wiedzy do danych), ªatwiejsza interpretacja stworzonego modelu wiedzy, np. ze wzgl du na mniejszy rozmiar tego modelu. 15

Redukcja liczby zmiennych c.d. W przestrzeni o du»ej liczbie wymiarów prawdopodobnie nie wszystkie zmienne (atrybuty), które zostaªy zmierzone, b d konieczne do dokªadnego rozró»nienia obiektów. Przykªadowo, podczas rozró»niania obrazów twarzy m»czyzn i kobiet zmienne takie jak kolor oczu, wªosów czy skóry b d prawdopodobnie maªo przydatne do klasykacji. Mo»liwo± wykorzystania wiedzy a priori o istotno±ci zmiennych dla konkretnego zadania odkrywania wiedzy. W problemie klasykacji mo»liwe jest, i» niektóre zmienne wej±ciowe X 1, X 2,... X n s niezwi zane ze zmienn wynikow Y oraz»e dwie lub wi cej zmiennych wej±ciowych zawiera w zasadzie te same informacje przydatne do przewidywania (korelacja!). Niektóre algorytmy eksploracji danych cechuj si wewn trznym doborem istotnych cech (np. drzewa decyzyjne; ryzyko nadmiernego dopasowania!), inne nie (np. knn). 16

Redukcja liczby zmiennych (DCI) Niezale»no± Y od X i : dla wszystkich warto±ci y i x i mamy p(y = y X i = x i ) = p(y = y) problem sko«czono±ci próbki, brak ilo±ciowej informacji o stopniu zale»no±ci. W przypadku gdy interesuje nas ilo±ciowe oszacowanie zale»no±ci pomi dzy dowoln zmienn wej±ciow X i a zmienn wynikow Y, mo»emy np. wyznaczy wspóªczynnik korelacji na ka»dej pary zmiennych (X i, Y ) szacowanie tylko zale»no±ci liniowej dla zmiennych ilo±ciowych. ( rednia) Informacja wzajemna (ang. mutual information): dla zmiennych dyskretnych (jako±ciowych): I(X, Y ) = p(x, y) log 2 y Y x X p(x,y) p(x)p(y), dla zmiennych ci gªych (ilo±ciowych): I(X, Y ) = p(x,y) p(x, y) log 2 p(x)p(y) dxdy. Y X Informacja wzajemna jest równa zero zmienne s niezale»ne. 17

Redukcja liczby zmiennych (DCI) c.d. Test χ 2 badanie zgodno±ci wzajemnej zmiennych jako±ciowych (nominalnych); wspóªczynnik V-Cramera. Miary wykorzystuj ce entropi warunkow zmiennej wynikowej Y, pod warunkiem znajomo±ci zmiennej wej±ciowej X i : Entropia dyskretnej zmiennej Y : H(Y ) = p(y) log 2 p(y). y Y Entropia warunkowa dyskretnej zmiennej Y, pod warunkiem znajomo±ci dyskretnej zmiennej X i : H(Y X i ) = p(x i ) p(y x i ) log 2 p(y x i ). x i X i y Y Zysk informacyjny (ang. information gain), Quinlan 1993: InfoGain(Y, X i ) = H(Y ) H(Y X i ). 18

Redukcja liczby zmiennych (DCI) c.d. Problem interakcje pomi dzy pojedynczymi zmiennymi X i a zmienn Y niekoniecznie mówi cokolwiek o tym, jaki zbiór zmiennych oddziaªywuje na Y. Przykªad ku przestrodze Y jako funkcja parzysto±ci zmiennych binarnych (0-1) Y nie zale»y od»adnej pojedynczej zmiennej, ale jest deterministyczn funkcj caªego zbioru zmiennych (interakcje nieliniowe i nieaddytywne!). Wniosek: w przypadku ogólnym zbiór k najlepszych pojedynczych zmiennych X i (dobranych np. na podstawie korelacji ze zmienn wynikow Y ) nie jest tym samym co najlepszy zbiór zmiennych o rozmiarze k. Dla zbioru zmiennych o rozmiarze n, mamy 2 n 1 mo»liwych niepustych podzbiorów zmiennych wyczerpuj cy przegl d wszystkich mo»liwych podzbiorów cz sto nie jest mo»liwy. W praktyce stosuje si heurystyczne metody wybierania podzbiorów zmiennych, polegaj ce np. na dodawaniu lub usuwaniu pojedynczej zmiennej w aktualnym kroku metody. 19

Redukcja liczby zmiennych (DCI) c.d. Metody oceny jako±ci podzbioru zmiennych wej±ciowych F {X 1, X 2,..., X n }, F = k, w kontek±cie predykcji warto±ci zmiennej wynikowej Y : podej±cia typu lter, np: selekcja podzbioru zmiennych w oparciu o korelacj (ang. Correlation-based Filter Approach), selekcja podzbioru zmiennych w oparciu o jako± (przybli»enia) klasykacji w sensie teorii zbiorów przybli»onych (ang. Rough Set Theory RST), podej±cia typu wrapper. 20

Redukcja liczby zmiennych (DCI) c.d. Model lter redukcja liczby zmiennych niezale»nie od przyj tego algorytmu eksploracji danych (wst pne przetwarzanie zbioru zmiennych wej±ciowych). Wykorzystanie caªego dost pnego zbioru danych przy selekcji zmiennych. Zalet jest szybko± dziaªania i skalowalno± wraz ze wzrostem liczby zmiennych i obiektów. Model wrapper wykorzystanie docelowego algorytmu eksploracji danych w celu oszacowania jako±ci ka»dego rozwa»anego podzbioru zmiennych F, za pomoc wybranej statystycznej techniki próbkowania, np. k-krotnej walidacji krzy»owej (ang. k-fold cross-validation). Wad tego podej±cia jest du»y nakªad obliczeniowy wynikaj cy z wielokrotnego wywoªywania algorytmu ucz cego. Z kolei konsekwencj du»ego nakªadu obliczeniowego jest problem skalowalno±ci modelu wraz ze wzrostem liczby zmiennych i obiektów. 21

Selekcja zmiennych w oparciu o korelacj (DCI) Wykorzystanie macierzy korelacji dla wszystkich par zmiennych do szacowania dobroci (ang. merit) zbioru k zmiennych F (ang. correlation-based merit measure): Merit(F ) = kr fd k+k(k 1)rff, gdzie: r fd ±rednia korelacja zmiennej X i F ze zmienn Y, r ff ±rednia wzajemna korelacja zmiennych ze zbioru F. Intuicja stoj ca za przedstawionym podej±ciem: dobry zbiór zmiennych zawiera zmienne wysoce skorelowane ze zmienn wynikow Y i nieskorelowane nawzajem. 22

Selekcja zmiennych w oparciu o korelacj (DCI) c.d. W przypadku wyznaczania korelacji pomi dzy zmienn ci gª X i a zmienn dyskretn X j o warto±ciach ze zbioru {v 1, v 2,..., v t }, zmienna dyskretna podlega zamianie na t zmiennych binarnych X j1, X j2,..., X jt, w oparciu o zale»no± : X jk = gdzie k {1, 2,..., t}. { 1 Xj = v k 0 w przeciwnym przypadku, Wówczas korelacja zmiennej ci gªej X i ze zmienn dyskretn X j wyra»a si wzorem: r Xi X j = t k=1 p(x j = v k )r Xi X jk. 23

Selekcja zmiennych w oparciu o jako± klasykacji (DCI) Jako± (przybli»enia) klasykacji w sensie teorii zbiorów przybli»onych (Y zmienna jako±ciowa): γ F (Cl) = F (d) d Cl U, gdzie: F {X 1, X 2,..., X n }, F (d) F -dolne przybli»enie klasy decyzyjnej d Cl, Cl zbiór klas decyzyjnych, klasa dec. zbiór obiektów o tej samej warto±ci zmiennej Y, U zbiór wszystkich obiektów. Interesuj nas wszystkie redukty zbioru zmiennych wej±ciowych X = {X 1, X 2,..., X n }, czyli takie minimalne podzbiory F X, dla których: γ F (Y ) = γ X (Y ). 24

Przeksztaªcanie zmiennych Celem jest przeksztaªcenie przestrzeni zmiennych X 1, X 2,..., X n w przestrze«z 1, Z 2,..., Z n, gdzie zazwyczaj n << n a zmienne Z i s zdeniowane jako funkcje oryginalnych zmiennych X i. Podej±cia do redukcji wymiarowo±ci przestrzeni: Regresja poszukiwania rzutowania (ang. Projection Pursuit Regression PPR), J.H. Freidman, J.W. Tukey, 1974 poszukiwanie optymalnego liniowego rzutowania danych na przestrze«o mniejszej liczbie wymiarów (cz sto tylko jeden / dwa wymiary) Analiza skªadowych gªównych (ang. Principal Components Analysis PCA) Inne np. analiza czynników, analiza skªadowych niezale»nych,... 25

Przeksztaªcanie zmiennych c.d. Regresja poszukiwania rzutowania u»ywa struktury modelu postaci: ŷ(x) = α 0 + n i=1 h i (α T i x), gdzie: ŷ(x) estymowana warto± zmiennej wynikowej Y, x n-wymiarowy wektor wspóªrz dnych punktu danych, α i n-wymiarowy wektor wag, αi T x rzut wektora x na i-ty wektor wag, h i ( ) funkcja nieliniowa skalarnego rzutowania. Dla ka»dego z n wymiarów nowej przestrzeni, zachodzi konieczno± doboru postaci funkcji h i ( ) oraz kierunku rzutowania α i. Przedstawiona posta struktury modelu jest podstaw sieci neuronowych, dla których zazwyczaj h i (t) = 1 1+e t. 26

Przeksztaªcanie zmiennych c.d. Ograniczenia modelu PPR: trudno± interpretacji modelu gdy n > 1, du»a zªo»ono± obliczeniowa algorytmów estymacji parametrów modelu niepraktyczno± algorytmów dla du»ych zbiorów danych. 27

Przeksztaªcanie zmiennych c.d. Analiza skªadowych gªównych: Oryginalne n zmiennych przewiduj cych X 1, X 2,..., X n jest zast powane nowym zbiorem n zmiennych Z 1, Z 2,..., Z n, powstaj cych w wyniku kombinacji liniowych oryginalnych zmiennych. Wariancja zbioru danych wyra»ona w terminach nowych zmiennych jest maksymalna. Sekwencyjne wydobywanie wi kszo±ci zmienno±ci danych w przestrzeniu X ju» kilka pierwszych skªadowych Z i mo»e zawiera wi kszo± informacji tkwi cych w danych. Skªadowe s ortogonalne ªatwiejsza interpretacja. 28

Ocena zªo»ono±ci hipotez i tworzonych zmiennych Niezale»nie od przyj tej do oceny hipotez miary zªo»ono±ci, takiej jak np. liczb w zªów drzewa decyzyjnego czy liczba reguª decyzyjnych, trzeba pami ta o tym, aby w odpowiedni sposób uwzgl dni tak»e zªo»ono± tworzonych zmiennych! Pomini cie tego elementu mo»e owocowa bardzo prostymi hipotezami kosztem bardzo zªo»onych zmiennych caªa zªo»ono± zwi zana z reprezentowaniem poj cia docelowego zostanie przeniesiona do zmiennych. 29

Redukcja liczby obiektów 30

Redukcja liczby obiektów Du»a liczba obiektów, niezb dna do uzyskania dobrego i statystycznie istotnego modelu wiedzy, mo»e by powa»n przeszkod praktyczn, ze wzgl du na du»y koszt obliczeniowy. St d te» cz sto zachodzi konieczno± ograniczania liczby przykªadów przetwarzanych przez algorytmy eksploracji danych. Mo»liwe techniki ograniczania liczby przykªadów obejmuj : okienkowanie, redukcj liczby przykªadów (próbkowanie zewn trzne), próbkowanie wewn trzne, dekompozycj zbioru danych. 31

Okienkowanie Uniwersalne podej±cie do nadzorowanego uczenia si na podstawie du»ych zbiorów danych. Uczenie si na podstawie pocz tkowo maªych i w miar potrzeby rosn cych losowych podzbiorów W zbioru danych D, nazywanych zbiorami roboczymi. Za ka»dym razem model wiedzy stworzony na zbiorze W D jest testowany na pozostaªej cz ±ci zbioru danych, tj. na zbiorze D W. Kolejny zbiór roboczy W powstaje ze zbioru W poprzez dodanie niektórych, losowo wybranych, przykªadów bª dnie sklasykowanych przez aktualny model wiedzy. 32

Okienkowanie c.d. Procedura powtarzana jest tak dªugo, jak dªugo kolejny model wiedzy jest lepszy od poprzedniego, bior c pod uwag bª d modelu na caªym zbiorze danych D, lub dopóki bª d aktualnego modelu nie spadnie poni»ej zadanego poziomu. Zalecane jest k-krotne powtórzenie procedury okienkowania z ró»nymi pocz tkowymi losowymi zbiorami roboczymi W D. W takim przypadku, ostatecznie wybierany jest najlepszy z ostatnich, przyci tych w celu unikni cia nadmiernego dopasowania, modeli danych z wszystkich k powtórze«. Jako± modelu mo»e by tutaj mierzona zarówno jego bª dem na zbiorze danych, jak i np. zªo»ono±ci modelu. 33

Redukcja liczby przykªadów (próbkowanie zewn trzne) Operacja zmniejszenia rozmiaru zbioru danych, która z du»ym prawdopodobie«stwem pozostawia w zredukowanych danych interesuj ce i u»yteczne zale»no±ci, wyst puj ce w peªnym zbiorze. Swoista technika zapobiegania nadmiernemu dopasowaniu przycinanie nie hipotezy, a zbyt du»ego zbioru danych. Cel wybór podzbioru zªo»onego z przykªadów uznanych za najbardziej reprezentatywne. Przykªadowa realizacja okre±lenie miary odlegªo±ci dla przykªadów i d»enie do wybierania przykªadów maksymalnie od siebie odlegªych (maksymalizacja ±redniej odlegªo±ci pomi dzy dowolnymi dwoma przykªadami ze zredukowanego zbioru, przy jednoczesnym mo»liwie niewielkim zró»nicowaniu tych odlegªo±ci) pozwala na w miar równomierne i jednocze±nie reprezentatywne zredukowanie danych (analogia do wzi cia tylko w zªów siatki 2D). 34

Próbkowanie wewn trzne Przeniesienie wyboru próbki przykªadów do samego algorytmu eksploracji danych, stosowanego bezpo±rednio do oryginalnego zbioru danych o du»ym rozmiarze. Idea polega na tym, aby algorytm ten wykonywaª obliczenia zale»ne od liczby obiektów na podstawie losowej, ka»dorazowo niezale»nie wybranej próbki (»aden przykªad nie jest z góry skazany na pomini cie!). Przykªadowo podczas indukcji drzewa decyzyjnego mo»na próbkowa zbiór obiektów w ka»dym w ¹le na potrzeby wyboru testu w tym w ¹le. 35

Dekompozycja zbioru danych Zale»no±ci wyst puj ce w du»ych zbiorach danych mog by zbyt zªo»one, aby opisuj ce je wzorce byªy czytelne i mo»liwe do interpretacji, co jest celem odkrywania tych zale»no±ci. W takiej sytuacji pozostaje dekompozycja zbioru danych na mniejsze podzbiory i poszukiwanie w tych podzbiorach prostszych zale»no±ci o ograniczonej stosowalno±ci. 36

Nierównomierny rozkªad kategorii zmiennej celu Problem pojawiaj cy si w rzeczywistych zbiorach danych, szczególnie cz sto dla poj pojedynczych (tylko dwie kategorie i niewielka liczba przykªadów pozytywnych lub negatywnych) Nierównomierny rozkªad kategorii zakªóca proces tworzenia modelu pozorna atrakcyjno± reguª wi kszo±ciowych Przykªadowe techniki niweluj ce nierównomierno± rozkªadu: próbkowanie przykªadów z kategorii wi kszo±ciowych wybór pewnej liczby przykªadów z ka»dej kategorii, która jest zbyt liczna w stosunku do pozostaªych, techniki replikacji przykªadów z kategorii mniejszo±ciowych multiplikowanie przykªadów z kategorii zbyt sªabo reprezentowanych w zbiorze danych; gdy po» dana liczba przykªadów danej kategorii wynosi k, a faktyczna liczba wynosi k, to oczekiwana liczba kopii ka»dego przykªadu tej kategorii to k k, generowanie przykªadów syntetycznych SMOTE. 37

Podsumowanie Indukcja konstruktywna selekcja i tworzenie atrybutów zobacz np. rozdz. 4.4 w pracy http://www.cs.put.poznan.pl/kkrawiec/pubs/phd.pdf Ró»ne techniki redukcji liczby obiektów zobacz np. https://machinelearningmastery.com/statistical-sampling-and-resampling Techniki równowa»enia rozkªadu kategorii atrybutu decyzyjnego zobacz np. https://machinelearningmastery.com/ tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset 38

Zako«czenie Dzi kuj za uwag 39