Algorytm grupowania K-Means Reprezentacja wiedzy Selekcja i ocena modeli

Podobne dokumenty
Uczenie Maszynowe: reprezentacja wiedzy, wybór i ocena modelu, drzewa decyzjne

Jednowarstwowe Sieci Neuronowe jako. klasykatory do wielu klas. (c) Marcin Sydow

Uczenie Wielowarstwowych Sieci Neuronów o

Wnioskowanie Boolowskie i teoria zbiorów przybli»onych

Eksploracja Danych. Wprowadzenie. (c) Marcin Sydow

Systemy decyzyjne Wykªad 5: Drzewa decyzyjne

Uczenie Maszynowe: Wprowadzenie. (c) Marcin Sydow

x y x y x y x + y x y

ANALIZA NUMERYCZNA. Grzegorz Szkibiel. Wiosna 2014/15

Lab. 02: Algorytm Schrage

Ukªady równa«liniowych

Metodydowodzenia twierdzeń

Ekonometria Bayesowska

Metody bioinformatyki (MBI)

przewidywania zapotrzebowania na moc elektryczn

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

2 Liczby rzeczywiste - cz. 2

1 Bª dy i arytmetyka zmiennopozycyjna

Wst p do sieci neuronowych 2010/2011 wykªad 7 Algorytm propagacji wstecznej cd.

Granular Computing 9999 pages 15 METODY SZTUCZNEJ INTELIGENCJI - PROJEKTY

Matematyka wykªad 1. Macierze (1) Andrzej Torój. 17 wrze±nia Wy»sza Szkoªa Zarz dzania i Prawa im. H. Chodkowskiej

DREAM5 Challenges. Metody i rezultaty. Praktyki wakacyjne 2010 sesja sprawozdawcza

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

WYKŁAD 4 PLAN WYKŁADU. Sieci neuronowe: Algorytmy uczenia & Dalsze zastosowania. Metody uczenia sieci: Zastosowania

Minimalne drzewa rozpinaj ce

Macierze. 1 Podstawowe denicje. 2 Rodzaje macierzy. Denicja

Wykorzystanie lokalnej geometrii danych w Maszynie Wektorów No±nych

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

JAO - J zyki, Automaty i Obliczenia - Wykªad 1. JAO - J zyki, Automaty i Obliczenia - Wykªad 1

MEODY GRUPOWANIA DANYCH

Wst p do sieci neuronowych, wykªad 06, Walidacja jako±ci uczenia. Metody statystyczne.

WST P DO TEORII INFORMACJI I KODOWANIA. Grzegorz Szkibiel. Wiosna 2013/14

1 Metody iteracyjne rozwi zywania równania f(x)=0

Relacj binarn okre±lon w zbiorze X nazywamy podzbiór ϱ X X.

Aproksymacja funkcji metod najmniejszych kwadratów

Przykªady problemów optymalizacji kombinatorycznej

Metody klasyfikacji danych - część 1 p.1/24

Lekcja 8 - ANIMACJA. 1 Polecenia. 2 Typy animacji. 3 Pierwsza animacja - Mrugaj ca twarz

Wykªad 7. Ekstrema lokalne funkcji dwóch zmiennych.

c Marcin Sydow Przepªywy Grafy i Zastosowania Podsumowanie 12: Przepªywy w sieciach

KLASYCZNE ZDANIA KATEGORYCZNE. ogólne - orzekaj co± o wszystkich desygnatach podmiotu szczegóªowe - orzekaj co± o niektórych desygnatach podmiotu

WST P DO TEORII INFORMACJI I KODOWANIA. Grzegorz Szkibiel. Wiosna 2013/14

A = n. 2. Ka»dy podzbiór zbioru sko«czonego jest zbiorem sko«czonym. Dowody tych twierdze«(elementarne, lecz nieco nu» ce) pominiemy.

Systemy decyzyjne Wprowadzenie

Metody indukcji reguł

i, lub, nie Cegieªki buduj ce wspóªczesne procesory. Piotr Fulma«ski 5 kwietnia 2017

CAŠKOWANIE METODAMI MONTE CARLO Janusz Adamowski

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

Janusz Adamowski METODY OBLICZENIOWE FIZYKI Zastosowanie eliptycznych równa«ró»niczkowych

Ekonometria - wykªad 8

det A := a 11, ( 1) 1+j a 1j det A 1j, a 11 a 12 a 21 a 22 Wn. 1 (Wyznacznik macierzy stopnia 2:). = a 11a 22 a 33 +a 12 a 23 a 31 +a 13 a 21 a 32

Wnioskowanie Boolowskie i teoria zbiorów przybli»onych

Indukowane Reguły Decyzyjne I. Wykład 3

Algorytmy zwiazane z gramatykami bezkontekstowymi

1 Klasy. 1.1 Denicja klasy. 1.2 Skªadniki klasy.

Twierdzenie Wainera. Marek Czarnecki. Warszawa, 3 lipca Wydziaª Filozoi i Socjologii Uniwersytet Warszawski

Ekonometria. wiczenia 1 Regresja liniowa i MNK. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Zad. 1 Zad. 2 Zad. 3 Zad. 4 Zad. 5 SUMA. W obu podpunktach zakªadamy,»e kolejno± ta«ców jest wa»na.

Modele wielorównaniowe. Problem identykacji

Proste modele o zªo»onej dynamice

Matematyka dyskretna dla informatyków

Interpolacja funkcjami sklejanymi

Metody numeryczne i statystyka dla in»ynierów

Caªkowanie numeryczne - porównanie skuteczno±ci metody prostokatów, metody trapezów oraz metody Simpsona

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

Macierze i Wyznaczniki

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

Liniowe zadania najmniejszych kwadratów

Problemy optymalizacyjne - zastosowania

1 0 Je»eli wybierzemy baz A = ((1, 1), (2, 1)) to M(f) A A =. 0 2 Daje to znacznie lepszy opis endomorzmu f.

Wyznaczanie krzywej rotacji Galaktyki na podstawie danych z teleskopu RT3

Metody dowodzenia twierdze«

Wykªad 4. Funkcje wielu zmiennych.

Metody numeryczne. Wst p do metod numerycznych. Dawid Rasaªa. January 9, Dawid Rasaªa Metody numeryczne 1 / 9

Zastosowania matematyki

Wst p. Elementy systemów decyzyjnych Sprawy organizacyjne. Wprowadzenie Przegl d metod klasykacji

Listy Inne przykªady Rozwi zywanie problemów. Listy w Mathematice. Marcin Karcz. Wydziaª Matematyki, Fizyki i Informatyki.

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

Aplikacje bazodanowe. Laboratorium 1. Dawid Poªap Aplikacje bazodanowe - laboratorium 1 Luty, 22, / 37

Baza danych dla potrzeb zgłębiania DMX

Arytmetyka zmiennopozycyjna

Algorytmy i Struktury Danych

Granular Computing 9999 pages 15 METODY SZTUCZNEJ INTELIGENCJI - PROJEKTY

Macierze i Wyznaczniki

Wyszukiwanie i Przetwarzanie Informacji WWW

W poprzednim odcinku... Podstawy matematyki dla informatyków. Relacje równowa»no±ci. Zbiór (typ) ilorazowy. Klasy abstrakcji

Wyra»enia logicznie równowa»ne

LZNK. Rozkªad QR. Metoda Householdera

Podstawy modelowania w j zyku UML

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

c Marcin Sydow Spójno± Grafy i Zastosowania Grafy Eulerowskie 2: Drogi i Cykle Grafy Hamiltonowskie Podsumowanie

Wst p do sieci neuronowych, wykªad 14 Zespolone sieci neuronowe

Wzorce projektowe strukturalne cz. 1

Ekonometria. wiczenia 2 Werykacja modelu liniowego. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

PRZYPOMNIENIE Ka»d przestrze«wektorow V, o wymiarze dim V = n < nad ciaªem F mo»na jednoznacznie odwzorowa na przestrze«f n n-ek uporz dkowanych:

Baza danych - Access. 2 Budowa bazy danych

COLT - Obliczeniowa teoria uczenia si

Eksploracja Danych. (c) Marcin Sydow. Wst p. Data Science. Wprowadzenie. Cykl eksperymentu. Uczenie maszynowe. Zasoby.

Elementarna statystyka Dwie próby: porównanie dwóch proporcji (Two-sample problem: comparing two proportions)

Transkrypt:

Algorytm grupowania K-Means wiedzy modeli Web Mining Lab PJWSTK

Plan Algorytm grupowania wiedzy reguªy decyzyjne drzewa decyzyjne i algorytm ID3 wybór i zªo»ono± przetrenowanie i sposoby omini cia walidacja krzy»owa ewaluacja: macierz pomyªek, precyzja, peªno±, F-miara

Problem grupowania (ang. clustering) Maj c dany zbiór {x 1,..., x N } (N obserwacji D-wymiarowej Euklidesowej zmiennej losowej X) podziel go na (dane z góry) K klastrów (rozª cznych podzbiorów) klastry (idea): elementy wewn trz ka»dego klastra maj by podobne do siebie, ale elementy z ró»nych klastrów maj by niepodobne

Sformuªowanie Problemu dla Bardziej formalnie: nast puj ca miara ma by zminimalizowana: J = N K r nk x n µ k 2 n=1 k=1 gdzie µ k - centroid k-tego klastra, r nk == 1 tylko je±li n-ty punkt nale»y do k-tego klastra (wpp. zero) zadanie: znajd¹ takie warto±ci {r nk } i {µ k }, które minimalizuj warto± miary J.

Algorytm W ka»dej iteracji s 2 naprzemienne fazy optymalizacji, ze wzgl du na r nk i µ k. Najpierw, µ k maj nadane pewne pocz tkowe warto±ci. Nast pnie, w pierwszej fazie J jest minimalizowane ze wzgl du na r nk (przy ustalonej warto±ci µ k ). W drugiej fazie, J jest minimalizowane ze wzgl du na µ k (przy ustalonej warto±ci r nk ).

Zbie»no±. Algorytm EM Procedura 2-fazowych iteracji jest kontynuowana a» J zbiegnie do ko«cowej warto±ci (warto± J w ka»dej fazie maleje i jest nieujemna, wi c proces musi zbiega do lokalnego minimum, które niekoniecznie jest minimum globalnym (optymalnym) Algorytm ten jest szczególnym przypadkiem ogólnego algorytmu typu EM (ang. expectation-maximisation), gdzie obliczanie nowych warto±ci r nk odpowiada fazie E(xpectation) natomiast obliczanie µ k fazie M(aximisation).

Analiza Poniewa» J jest liniow funkcj r nk, minimalizacja w ka»dej fazie E jest prosta. Skªadniki sumy odpowiadaj ce poszczególnym indeksom n s niezale»ne i mo»na optymalizowa je oddzielnie: r nk == 1 wtedy i tylko wtedy, gdy k == arg min j x n µ j 2, 0 w przeciwnym wypadku

Analiza, cd. Co do optymalizacji µ k, w fazie M, gdy warto±ci r nk s ustalone, wystarczy zauwa»y,»e J jest kwadratow funkcj µ k, tak wi c mo»e by zminimalizowana przez przyrównanie pochodnej (ze wzgl du na µ k ) do zera: co jest równowa»ne: 2 N r nk (x n µ k ) = 0 n=1 µ k = n r nk x n n r nk Mianownik to liczba punktów w k-tym klastrze, tak wi c interpretacja wyra»enia to ±rednia (ang. mean) wszystkich punktów w k-tym klastrze (st d nazwa: )

Rozszerzenia Algorytm w wersji podstawowej jest dosy wolny, istniej jego przyspieszone udoskonalenia. Podobnie istnieje wersja on-line, w której nie wszystkie punkty s znane od razu a pojawiaj si sukcesywnie w miar pracy algorytmu (Bishop s.427) Na koniec, zauwa»my,»e przydziela ka»dy punkt do dokªadnie jednego klastra. W wielu zastosowaniach, w szczególno±ci w kontek±cie informacji niepewnej, lepszym okazuje si podej±cie rozmyte, w którym ka»dy punkt mo»e by przypisany do ka»dego klastra z pewnym prawdopodobie«stwem.

k-medoids Algorytm jest oparty na (kwadracie) odlegªo±ci Euklidesowej, co sprawia,»e mo»e by maªo odporny na warto±ci odstaj ce. Istnieje wariant, nazywany k-medoids, w którym zakªada si ograniczenie,»e warto±ci wektorów ±rednich µ k (tzw. medoidów) mog by przypisane jedynie do jednego z punktów b d cych elementem k-tego klastra, oraz dopuszcza dowoln miar niepodobie«stwa wektorów V (x n, µ n ) (zamiast obowi zkowej odlegªo±ci Euklidesowej) W zwi zku z tym, faza E potrzebuje O(KN), natomiast faza M O(N 2 ) oblicze«warto±ci funkcji V (, ).

wiedzy w uczeniu maszynowym

Przypomnienie podej± do uczenia maszynowego sztuczne sieci neuronowe drzewa decyzyjne reguªy decyzyjne support vector machines wiele innych...

Sieci neuronowe jako black box Sieci neuronowe (zwªaszcza wielowarstwowe z reguª uczenia opart na propagacji wstecznej) stanowi pot»ny i uniwersalny model uczenia maszynowego. Jednak, mimo»e taka sie mo»e nauczy si teoretycznie wszystkiego 1 to wiedza w tym reprezentowana jest w sposób zupeªnie nieczytelny dla czªowieka: w postaci wag poª cze«i warto±ci progów poszczególnych neuronów. Taki model nazywamy black box, jest skuteczny ale nie nadaje si do analizy przez czªowieka. 1 przy odpowiednio du»ym zbiorze treningowym

wiedzy, cd Istniej modele uczenia maszynowego, gdzie automatycznie nauczona wiedza jest reprezentowana w sposób przejrzysty dla czªowieka, np.: Reguªy decyzyjne Drzewa decyzyjne

Przykªad - diagnostyka okulistyczna Wiedza w formie surowej tabeli decyzyjnej: wiek presc. astygmatyzm ªzawienie OKULARY mªody myope nie niskie zb dne mªody myope nie normalne lekkie mªody myope yes niskie zb dne mªody myope tak normalne mocne mªody hypermetrope nie niskie zb dne mªody hypermetrope nie normalne lekkie mªody hypermetrope tak niskie zb dne mªody hypermetrope tak normalne mocne pre-presbyopic myope nie niskie zb dne pre-presbyopic myope nie normalne lekkie pre-presbyopic myope tak niskie zb dne pre-presbyopic myope tak normalne mocne pre-presbyopic hypermetrope nie niskie zb dne pre-presbyopic hypermetrope nie normalne lekkie pre-presbyopic hypermetrope tak niskie zb dne pre-presbyopic hypermetrope tak normalne zb dne presbyopic myope nie niskie zb dne presbyopic myope nie normalne zb dne presbyopic myope tak niskie zb dne presbyopic myope tak normalne mocne presbyopic hypermetrope nie niskie zb dne presbyopic hypermetrope nie normalne lekkie presbyopic hypermetrope tak niskie zb dne presbyopic hypermetrope tak normalne zb dne (Taka forma reprezentacji jest maªo skompresowana: ka»dy wiersz to oddzielny przypadek.

Wiedza w formie reguª decyzyjnych przykªad kilku pierwszych automatycznie wygenerowanych reguª decyzyjnych (dla problemu diagnostyki okulistycznej): IF tear production rate = reduced THEN recommendation = NONE IF age = young AND astigmatic = no AND tear production rate = normal THEN recommendation = SOFT IF age = presbyopic AND astigmatic = no AND tear production rate = normal THEN recommendation = SOFT IF age = presbyopic AND spectacle prescription = myope AND astigmatic = no THEN recommendation = NONE Reguªy mog stanowi du»o bardziej zwart form reprezentacji wiedzy ni» tabela decyzyjna. Przykªadem algorytmu automatycznie generuj cego reguªy decyzyjne jest algorytm pokrywania (ang. covering)

Wiedza w formie drzewa decyzyjnego tear production rate reduced normal none astigmatism no yes soft spectacle prescription myope hypermetrope hard none Du»o bardziej zwarta forma reprezentacji wiedzy (uwaga: te reguªy pokrywaj wszystkie poza 2 przypadki!)

Automatyczne generowanie drzew decyzyjnych: Metoda ID3 W skrócie: 1 Wybieramy atrybut 2 tworzymy rozgaª zienia dla poszczególnych warto±ci atrybutu 3 powtarzamy 1 i 2 a» do momentu, gdy zostan tylko elementy jednej kategorii we wszystkich rozgaª zieniach. Uwaga: Im dªu»ej budujemy drzewo tym wi ksze ryzyko przetrenowania. Atrybut do podziaªu wybieramy ze wzgl du na pewne kryterium - ogólnie d»ymy do tego,»eby drzewo: jak najdokªadniej klasykowaªo byªo jak najprostsze (zauwa»my: s to wzajemnie przeciwstawne postulaty)

Automatyczne generowanie drzew decyzyjnych - przykªad Przypomnijmy dane dotycz ce pogody i pewnej gry: outlook temperature humidity windy PLAY? sunny hot high false no sunny hot high true no overcast hot high false yes rainy mild high false yes rainy cool normal false yes rainy cool normal true no overcast cool normal true yes sunny mild high false no sunny cool normal false yes rainy mild normal false yes sunny mild normal true yes overcast mild high true yes overcast hot normal false yes rainy mild high true no

Budowanie drzewa decyzyjnego - Metoda ID3 Mamy do wyboru 4 atrybuty: outlook, temperature, humidity oraz windy. Czy wida który jest najlepszy?

Kryterium wyboru atrybutu do podziaªu Metoda ID3 Intuicyjnie - atrybut jest tym lepszy im lepiej rozdziela kategorie. ci±lej - z ka»dym mo»liwym podziaªem mo»na zwi za pewn miar jako±ci podziaªu i wybra ten atrybut, dla którego warto± tej miary jest najlepsza. Na przykªad, tak miar jest zysk informacyjny (ang. information gain), poj cie wprowadzone w teorii informacji i zwi zane z poj ciem entropii, sªu» ce do mierzenia ilo±ci informacji (rozwini tej w latach 40. XX. wieku m.in. przez wybitnego uczonego: Claude Shannon'a). Wybieramy taki podziaª,»e b dzie trzeba najmniej informacji,»eby nast pnie wyspecykowa kategori. Czy wida, który to atrybut?

Wynikowe Drzewo Po kilku krokach, przy opisanej powy»ej procedurze, otrzymujemy nast puj ce wynikowe drzewo decyzyjne: outlook temp. hum. win.? sunny hot high false no sunny hot high true no overcast hot high false yes rainy mild high false yes rainy cool normal false yes rainy cool normal true no overcast cool normal true yes sunny mild high false no sunny cool normal false yes rainy mild normal false yes sunny mild normal true yes overcast mild high true yes overcast hot normal false yes rainy mild high true no

Udoskonalone Algorytmy Budowy Drzew Najcz ±ciej stosowanym w praktyce algorytmem budowy drzew decyzyjnych jest ogólnie dost pny algorytm C4.5. Algorytm ten jest znacznym rozbudowaniem idei pokazanej przed chwil (ID3). Zawiera te» znaczn ilo± dodatkowych ulepsze«, do których nale» m.in.: dostowanie do atrybutów numerycznych, brakuj cych warto±ci, zanieczyszczonych danych oraz tzw. oczyszczanie drzewa (ang. pruning), które automatycznie upraszcza to drzewo i zapobiega przetrenowaniu. Algorytm C4.5 ma te» komercyjn (zastrze»on ) wersj : C5.2, która jest jeszcze bardziej rozbudowana, i cechuje si nieznacznie wy»szymi osi gami.

Zªo»ono± Modelu Jest to bardzo wa»ne poj cie. Im bardziej zªo»ony (zawieraj cy wi cej detali) jest model, tym ma teoretycznie wi ksze mo»liwo±ci w odwzorowaniu niuansów uczonego poj cia, ale niesie to te» ryzyko tzw. przetrenowania czyli dostosowania si na sztywno do danych trenuj cych, bez uogólnienia wiedzy na nieznane przypadki. Zªo»ono± nie powinna by wi c za wysoka. Zwykle mo»emy kontrolowa zªo»ono±. Na przykªad: w sieciach neuronowych, zªo»ono± ro±nie wraz z liczb neuronów. w drzewach decyzyjnych: wraz z liczb w zªów drzewa w reguªach decyzyjnych: wraz z liczb reguª Model powinien by jak najprostszy.

Przykªady zbyt zªo»onych modeli 100-w zªowe drzewo decyzyjne do problemu iris 100 neuronów w sieci j cej problem Xor

Zªo»ono±, cd Oczywi±cie za maªo zªo»ony model nie jest w stanie skutecznie nauczy si poj cia (np. pojedynczy neuron dla porblemu Xor) Zbyt zªo»ony model powoduje jednak nast puj ce problemy: dªugi i kosztowny obliczeniowo proces uczenia zbyt sztywne dostosowanie do konkretnych przykªadów ucz cych (tzw. przetrenowanie) bez mo»liwo±ci uogólniania na nowe nieznane przypadki. W takim przypadku model osi ga b. dobre wyniki tylko na danych trenuj cych ale na nieznanych przypadkach (poza zbiorem ucz cym) model radzi sobie bardzo sªabo. (przypomina to uczenie si na pami przez niektórych studentów)

Zªo»ono±, cd Zale»no± pomi dzy zªo»ono±ci a bª dem na danych trenuj cych i testuj cych, odpowiednio: Przetrenowanie jest widoczne w prawej cz ±ci wykresu (zbyt skomplikowany model). Jak wida, najlepsza zªo»ono±, z punktu widzenia jego skuteczno±ci, jest w ±rodkowej cz ±ci ) (obrazek wg: Hastie, Tibshirani Elements of Statistical Learning, p. 194)

Wybór i Dwa istotne problemy: wybór odpowiedniego i stopnia jego zªo»ono±ci jako±ci (przewidzenie jak dobrze model b dzie dziaªaª na faktycznie nieznanych przypadkach) Jako± oceniana na danych ucz cych, b dzie zawsze zawy»ona

Jak oceni jako±? Je±li danych treningowych jest wystarczaj co du»o: podzieli dane na trzy oddzielne zbiory: 1 treningowy (do uczenia si ) 2 walidacyjny (wybór i kontrola stopnia zªo»ono±ci) 3 testowy (zachowany do momentu ostatecznej oceny ) Nie ma ogólnej reguªy na proporcje wielko±ci, mo»e by np.: 50%, 25%, 25%, respectively

Za maªo danych ucz cych Wtedy stosuje si inne metody, np: walidacja krzy»owa (cross-validation) leave-one-out bootstrap walidacja krzy»owa jest najbardziej popularna

Walidacja krzy»owa Pozwala jednocze±nie osi gn 2 pozornie sprzeczne cele: u»y caªego zbioru treningowego nie ocenia systemu na przykªadach ze zbioru treningowego Dzielimy zbiór treningowy na N rozª cznych cz ±ci (w sposób losowy). Bierzemy jedn cz ± jako zbiór ewaluacyjny a pozostaªe N-1 jako treningowe. Powtarzamy N razy (dla ka»dej cz ±ci). Š czna Proporcja bª du to u±rednione proporcje ze wszystkich N. Najcz ±ciej bierze si N=10 (ang. 10-fold cross-validation).

Stratykacja (ang. stratication) Polega na tym,»e w zbiorze waliduj cym proporcje przykªadów nale» cych do wszystkich kategorii (w zagadnieniu klasykacji) s bardzo zbli»one do tych zaobserwowanych w caªym pierwotnym zbiorze treningowym.

Inne techniki Technika leave-one-out jest szczególnym przypadkiem cross-validation. N wynosi tutaj tyle ile jest przypadków w zbiorze treningowym. Zbiory waliduj ce s wi c jedno-elementowe. Technika ta jest, oczywi±cie, kosztowna obliczeniowo. Zauwa»my te»,»e jej wynik jest deterministyczny (w przeciwie«stwie do innych wariantów cross-validation, gdzie podziaª jest losowy). W sposób oczywisty, zbiory waliduj ce nie s stratykowane.

Ewaluacja Macierz Pomyªek (ang. Confusion Matrix) Precyzja i Peªno± (dla 2-klasowych) miara F

Uwaga: idealny klasykator miaªby niezerowe liczby tylko na przek tnej macierzy pomyªek. Macierz Pomyªek Zaªó»my,»e w problemie klasykacji mamy K kategorii. Wtedy macierz pomyªek (ang. confusion matrix) jest narz dziem zwi zanym z ewaluacj klasykatora. Jest to macierz kwadratowa wymiaru K K. Wiersz i odpowiada faktycznej kategorii danego przypadku. Kolumna j odpowiada kategorii, do jakiej system zakwalikowaª (by mo»e bª dnie) dany przypadek. Komórka (i,j) macierzy zawiera liczb przypadków ze zbioru ewaluacyjnego, które nale» do klasy i, oraz zostaªy zaklasykowane przez system do kategorii j. zaklasykowano jako -> a b c a = Iris-setosa 50 0 0 b = Iris-versicolor 0 44 6 c = Iris-virginica 0 5 45

Precyzja i Peªno± W przypadku 2 kategorii (nazwijmy je: pozytywn i negatywn ) mo»na rozwa»a inne wa»ne miary ewaluacji: precyzj P (ang. precision) i peªno± R (ang. recall). Denition Precyzja P to proporcja przypadków faktycznie pozytywnych w±ród wszystkich zaklasykowanych przez system jako pozytywne. Denition Peªno± R to proporcja przypadków faktycznie pozytywnych i zaklasykowanych przez system jako pozytywne w±ród wszystkich faktycznie pozytywnych.

F-miara Oczywi±cie im warto±ci miar P i R s wy»sze (maks. 1), tym klasykator lepszy. W praktyce jednak, zwykle powi kszenie jednej pogarsza drug (s w pewnym sensie przeciwstawne). Poniewa» trudno jest równocze±nie maksymalizowa równocze±nie P i R istnieje te» inna popularna miara, b d ca funkcj obu powy»szych. Miar t jest F-miara (ang. F-measure), zdeniowana w sposób nast puj cy: Denition F = 2 P R P+R

Przykªad Rozwa»my nast puj c macierz pomyªek: zaklasykowano jako -> pozytywny negatywny pozytywny 40 5 negatywny 10 45 Precyzja: P = 40 (40+10) = 4 5 Peªno± : R = 40 (40+5) = 8 9 F-miara: F = 2 45 89 4 5 + 8 9 = 64 76 = 16 19

Problemy kontrolne Algorytm grupowania wiedzy reguªy decyzyjne drzewa decyzyjne i algorytm ID3 Wybór i zªo»ono± przetrenowanie i jego omini cie walidacja krzy»owa ewaluacja: macierz pomyªek, precyzja, peªno±, F-miara

Dzi kuj za uwag.