Wprowadzenie. Data Science Uczenie się pod nadzorem

Podobne dokumenty
Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

Prawdopodobieństwo i statystyka

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Regresyjne metody łączenia klasyfikatorów

Wprowadzenie. Metody bayesowskie Drzewa klasyfikacyjne i lasy losowe Sieci neuronowe SVM. Klasyfikacja. Wstęp

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

Metody systemowe i decyzyjne w informatyce

Wnioskowanie statystyczne. Statystyka w 5

Wnioskowanie bayesowskie

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Klasyfikacja metodą Bayesa

2. Empiryczna wersja klasyfikatora bayesowskiego

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Monte Carlo, bootstrap, jacknife

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

STATYSTYKA

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Metody systemowe i decyzyjne w informatyce

Testowanie hipotez statystycznych

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Hierarchiczna analiza skupień

ALGORYTM RANDOM FOREST

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Rozkłady statystyk z próby. Statystyka

Estymacja parametrów w modelu normalnym

Metody systemowe i decyzyjne w informatyce

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Testowanie hipotez statystycznych.

Agnieszka Nowak Brzezińska Wykład III

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Jądrowe klasyfikatory liniowe

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Metody probabilistyczne

Metoda reprezentacyjna

Statystyka i eksploracja danych

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Indukowane Reguły Decyzyjne I. Wykład 3

STATYSTYKA wykład 5-6

Dokładne i graniczne rozkłady statystyk z próby

Weryfikacja hipotez statystycznych

Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n)

Elementy modelowania matematycznego

WYKŁAD 8 ANALIZA REGRESJI

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

STATYSTYKA MATEMATYCZNA

Agnieszka Nowak Brzezińska Wykład III

Ważne rozkłady i twierdzenia c.d.

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

5. Analiza dyskryminacyjna: FLD, LDA, QDA

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

METODY STATYSTYCZNE W BIOLOGII

Komputerowa analiza danych doświadczalnych

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Zagadnienie klasyfikacji (dyskryminacji)

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

STATYSTYKA MAŁYCH OBSZARÓW I. WPROWADZENIE

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori.

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

Biostatystyka, # 3 /Weterynaria I/

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu liniowym, scenariusz p bliskie lub większe od n

Przepustowość kanału, odczytywanie wiadomości z kanału, poprawa wydajności kanału.

WYKŁAD 3. Klasyfikacja: modele probabilistyczne

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Prawdopodobieństwo i statystyka

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Podstawowe modele probabilistyczne

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

Metody systemowe i decyzyjne w informatyce

1 Klasyfikator bayesowski

STATYSTYKA wykład 1. Wanda Olech. Katedra Genetyki i Ogólnej Hodowli Zwierząt

Komputerowa analiza danych doświadczalnych

Podstawy metod probabilistycznych. dr Adam Kiersztyn

Rozkłady statystyk z próby

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Wykład 9 Testy rangowe w problemie dwóch prób

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

Testowanie hipotez statystycznych

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Metody Sztucznej Inteligencji II

SZTUCZNA INTELIGENCJA

Prawdopodobieństwo i statystyka

Testowanie hipotez statystycznych.

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

1.1 Wstęp Literatura... 1

Centralne twierdzenie graniczne

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Transkrypt:

Wprowadzenie

Wprowadzenie

Wprowadzenie

Wprowadzenie

Machine Learning Mind Map

Historia

Wstęp lub uczenie się z przykładów jest procesem budowy, na bazie dostępnych danych wejściowych X i oraz wyjściowych Y i, i = 1, 2,...,n, regułyklasyfikacyjnejzwanej inaczej klasyfikatorem, służącejdopredykcjietykietyy grupy, do której należy obserwacja X.

Wstęp Załóżmy, że dysponujemy K niezależnymi, prostymi próbami losowymi o liczebnościach, odpowiednio, n 1, n 2,...,n K,pobranymi z K różnych populacji (klas, grup): X 11, X 12,...,X 1n1 z populacji 1 X 21, X 22,...,X 2n2 z populacji 2 X K1, X K2,...,X KnK z populacji K, gdzie X ij =(X ij1, X ij2,...,x ijp ) jest j-tą obserwacją z i-tej populacji zawierającą p obserwowanych cech, i = 1, 2,...,K, j = 1, 2,...,n i.

Wstęp Powyższe dane można wygodniej zapisać w innej postaci, a mianowicie w postaci jednego ciągu n uporządkowanych par losowych (X 1, Y 1 ),...,(X n, Y n ), gdzie X i =(X i1, X i2,...,x ip ) X R p jest i-tą obserwacją, natomiast Y i jest etykietą populacji, do której ta obserwacja należy, przyjmującą wartości w pewnym skończonym zbiorze Y, i = 1, 2,...,n, n = n 1 + n 2 + + n K. Składowe wektora X i =(X i1, X i2,...,x ip ) nazywać będziemy cechami, zmiennymi lub atrybutami. Próbę L n = {(X 1, Y 1 ),...,(X n, Y n )} nazywać będziemy próbą uczącą.

Wstęp Interesuje nas problem predykcji etykiety Y na podstawie wektora cech X. Problem ten nazywany jest klasyfikacją, dyskryminacją, uczeniem się pod nadzorem lub rozpoznawaniem wzorców. Reguła klasyfikacyjna, zwana krótko klasyfikatorem, jestfunkcją d : X Y.GdyobserwujemynowywektorX,toprognozą etykiety Y jest d(x ).

Wstęp Na poniższym rysunku pokazanych jest 20 punktów. Wektor cech X =(X 1, X 2 ) jest dwuwymiarowy a etykieta Y Y= {1, 0}. Wartości cechy X dla Y = 0reprezentowanesąprzeztrójkąty,a dla Y = 1przezkwadraty.Liniaprzerywanareprezentujeliniową regułę klasyfikacyjną postaci { 1, jeżeli a + b1 x d(x) = 1 + b 2 x 2 > 0, 0, poza tym. Każdy punkt leżący poniżej tej linii klasyfikowany jest do grupy o etykiecie 0 oraz każdy punkt leżący powyżej tej linii klasyfikowany jest do grupy o etykiecie 1.

Wstęp

Rzeczywisty poziom błędu Klasyczny problem klasyfikacji polega na predykcji nieznanej etykiety Y Y na podstawie wektora cech X X R p klasyfikowanego obiektu. Naszym celem jest znalezienie takiego klasyfikatora d : X Y,który daje dokładnąpredykcję. Miarą jakości klasyfikatora jest jego rzeczywisty poziom błędu. Definicja Rzeczywisty poziom błędu klasyfikatora d jest równy e(d) =P(d(X ) Y ). (1)

Klasyfikator bayesowski Weźmy wpierw pod uwagę przypadek dwóch klas, tj. gdy Y = {1, 0}. Wcelustworzeniamodeluklasyfikacjizałóżmy,że (X, Y ) jest parą losową o wartościach w R p {1, 0} oraz, że jej rozkład prawdopodobieństwa opisuje para (µ, r), gdzie µ jest miarą probabilistyczną wektora X oraz r jest regresją Y względem X. Bardziej precyzyjnie, dla zbioru A R p, oraz dla każdego x R p, µ(a) =P(X A) r(x) =E(Y X = x) =1 P(Y = 1 X = x)+0 P(Y = 0 X = x) = P(Y = 1 X = x) Zatem r(x) jest prawdopodobieństwem warunkowym, że Y = 1, gdy X = x. Rozkładprawdopodobieństwapary(X, Y ) wyznacza para (µ, r). Funkcja r(x) nazywa się prawdopodobieństwem a posteriori.

Klasyfikator bayesowski ZtwierdzeniaBayes amamy gdzie r(x) =P(Y = 1 X = x) f (x Y = 1)P(Y = 1) = f (x Y = 1)P(Y = 1)+f (x Y = 0)P(Y = 0) π 1 f 1 (x) = π 1 f 1 (x)+π 0 f 0 (x), π 1 = P(Y = 1), π 0 = P(Y = 0), π 1 + π 0 = 1 są prawdopodobieństwami a priori.

Klasyfikator bayesowski Definicja Klasyfikator postaci d B (x) = { 1, jeżeli r(x) > 1 2, 0, poza tym. nazywać będziemy klasyfikatorem bayesowskim

Klasyfikator bayesowski Klasyfikator bayesowski zapisać można w innych równoważnych postaciach: { 1, jeżeli P(Y = 1 X = x) > P(Y = 0 X = x), d B (x) = 0, poza tym. lub { 1, jeżeli π1 f d B (x) = 1 (x) >π 0 f 0 (x), 0, poza tym.

Klasyfikator bayesowski Twierdzenie Klasyfikator bayesowski jest optymalny, tj. jeżeli d jest jakimkolwiek innym klasyfikatorem, to e(d B ) e(d), gdziee(d) jest rzeczywistym poziomem błędu klasyfikatora d.

Aktualny poziom błędu Niestety, klasyfikator bayesowski zależy od rozkładu prawdopodobieństwa pary (X, Y ). Najczęściej rozkład ten nie jest znany i stąd również nie jest znany klasyfikator bayesowski d B. Pojawia się zatem problem skonstruowania klasyfikatora ˆd(x) = ˆd(x; L n ) opartego na próbie uczącej L n = {(X 1, Y 1 ),...,(X n, Y n )} zaobserwowanej w przeszłości. Proces konstruowania klasyfikatora ˆd nazywany jest uczeniem się, uczeniem pod nadzorem lub uczeniem się z nauczycielem. Chcemy znaleźć taki klasyfikator ˆd, dlaktóregoe( ˆd) jest bliskie e(d B ).Jednakżee( ˆd) jest zmienną losową, ponieważ zależy od losowej próby uczącej L n.

Aktualny poziom błędu Wnaszymmodeluklasyfikacyjnymzakładamy,żepróbaucząca L n = {(X 1, Y 1 ),...,(X n, Y n )} jest ciągiem niezależnych par losowych o identycznym rozkładzie prawdopodobieństwa takim, jak rozkład pary (X, Y ). Jakośćklasyfikatoraˆd mierzona jest za pomocą warunkowego prawdopodobieństwa błędu e( ˆd) =P( ˆd(X ) Y L n ), gdzie para losowa (X, Y ) jest niezależna od próby uczącej L n. Wielkość e( ˆd) nazywamy aktualnym poziomem błędu klasyfikatora. Chcemy znaleźć taki klasyfikator ˆd, dlaktóregoe( ˆd) jest bliskie e(d B ).Jednakżee( ˆd) jest zmienną losową, ponieważ zależy od losowej próby uczącej L n.

Estymacja aktualnego poziomu błędu Niech ˆd(x) = ˆd(x; L n ) oznacza klasyfikator skonstruowany przy pomocy próby uczącej L n.niechê ê( ˆd) oznacza ocenę aktualnego poziomu błędu klasyfikatora ˆd. Ocenętęnazywać będziemy błędem klasyfikacji. Wsytuacjach,kiedynapopulacje nie narzuca się żadnej konkretnej rodziny rozkładów, jedyną drogą oceny prawdopodobieństwa e( ˆd) jest użycie metod estymacji nieparamerycznej.

Estymacja aktualnego poziomu błędu Wnajlepszejsytuacjijesteśmywtedy,gdydysponujemy m-elementową próbą testową T m niezależną od próby uczącej L n. Niech zatem T m = {(X t 1, Y t 1 ),...,(X t m, Y t m)}. Wtedyza estymator aktualnego poziomu błędu klasyfikatora ˆd przyjmujemy: ê T = 1 m m j=1 I ( ˆd(X t j ; L n) Y t j ). Wprzypadkugdyniedysponujemyniezależnąpróbątestową,do estymacji używamy jedynie próby uczącej.

Estymacja aktualnego poziomu błędu Naturalną oceną aktualnego poziomu błędu jest wtedy wartość estymatora ponownego podstawienia (resubstytucji) ê R = 1 n n I ( ˆd(X j ; L n ) Y j ). j=1 Wartość tego estymatora uzyskuje się poprzez klasyfikację regułą ˆd tych samych obserwacji, które służyły do jej konstrukcji. Oznacza to, iż próba ucząca jest zarazem próbą testową. Estymator ten jest więc obciążonym estymatorem wielkości e( ˆd) i zaniża jej rzeczywistą wartość. Uwidacznia się to szczególnie w przypadku złożonych klasyfikatorów opartych na relatywnie małych próbach uczących. Redukcję obciążenia można uzyskać stosując poniższe metody estymacji.

Estymacja aktualnego poziomu błędu Jednym ze sposobów redukcji obciążenia estymatora ê R jest tzw. metoda podziału próby na dwa podzbiory: próbę uczącą ipróbętestową. Wówczasklasyfikatorkonstruujesięzapomocą pierwszego z nich, drugi natomiast służy do konstrukcji estymatora. Wykorzystanie tylko części informacji w celu uzyskania reguły klasyfikacyjnej prowadzi jednak często do zawyżenia wartości estymatora błędu. Rozwiązaniem tego problemu jest metoda sprawdzania krzyżowego. Oznaczmy przez L ( j) n próbę uczącą L n zktórejusunięto obserwację Z j =(X j, Y j ).Klasyfikatorkonstruujesię wykorzystując próbę L ( j) n,anastępnietestujesięgona pojedynczej obserwacji Z j.czynnośćtępowtarzasięn razy, dla każdej obserwacji Z j zosobna.odpowiedniestymatormapostać: ê CV = 1 n n j=1 I ( ˆd(X j ; L ( j) n ) Y j ).

Estymacja aktualnego poziomu błędu Procedura ta w każdym z n etapów jest w rzeczywistości metodą podziału próby dla przypadku jednoelementowego zbioru testowego. Każda obserwacja próby jest użyta do konstrukcji klasyfikatora ˆd. Każdaznichjestteż(dokładniejedenraz) elementem testowym. Estymator ten, choć granicznie nieobciążony, ma większą wariancję. Ponadto wymaga on konstrukcji n klasyfikatorów, co dla dużych n oznacza znaczący wzrost obliczeń. Rozwiązaniem pośrednim jest metoda rotacyjna, zwana często v-krokową metodą sprawdzania krzyżowego. Polegaonanalosowympodzialepróby na v podzbiorów, przy czym v 1znichtworzypróbęuczącą, natomiast pozostały próbę testową. Procedurę tę powtarza się v razy, dla każdego podzbioru rozpatrywanego kolejno jako zbiór testowy.

Estymacja aktualnego poziomu błędu

Estymacja aktualnego poziomu błędu Odpowiedni estymator jest postaci: ê vcv = 1 n v n i=1 j=1 I (Z j L (i) n )I ( ˆd(X j ; L ( i) n ) Y j ), gdzie L (1) n, L (2) n,..., L (v) n jest losowym v-podziałem próby L n na równoliczne podzbiory, a L ( i) n = L n \ L (i) n, i = 1, 2,...,v.

Estymacja aktualnego poziomu błędu Metoda ta daje mniejsze obciążenie błędu niż metoda podziału próby i wymaga mniejszej liczby obliczeń w porównaniu ze sprawdzaniem krzyżowym (jeśli tylko v < n). W zagadnieniu estymacji aktualnego poziomu błędu zalecane jest obranie wartości v = 10. Metoda sprawdzania krzyżowego jest powszechnie wykorzystywana w zagadnieniu wyboru modelu. Z rodziny klasyfikatorów opisanej parametrycznie wybieramy wtedy klasyfikator, dla którego błąd klasyfikacji ma wartość najmniejszą.

Estymacja aktualnego poziomu błędu Definicja Próbą bootstrapową nazywamy próbę n-elementową pobraną z n-elementowej próby uczącej w procesie n-krotnego losowania pojedynczych obserwacji ze zwracaniem. Niech L 1 n, L 2 n,...,l B n będzie ciągiem kolejno pobranych B prób bootstrapowych. Bootstrapowa ocena aktualnego poziomu błędu ma postać ê B = 1 B B b=1 n j=1 I (Z j L b n )I ( ˆd(X j ; L b n ) Y j ) n j=1 I (Z j L b n ). Widać, że powyższa ocena aktualnego poziomu błędu jest uzyskana metodą sprawdzania krzyżowego zastosowaną do prób bootstrapowych.

Estymacja aktualnego poziomu błędu Wceludalszejredukcjiobciążeniategoestymatorazaproponowano estymator postaci: ê.632 = 0,368 ê R + 0,632 ê B. Waga 0,368 jest przybliżoną wartością wielkości e 1 =lim n (1 1/n) n,ijestgranicznąwartością prawdopodobieństwa nie wylosowania obserwacji z próby uczącej do próby bootstrapowej.

Macierz pomyłek Sam błąd klasyfikacji nie wystarczy aby stwierdzić, czy klasyfikator działa dobrze. Po zakonczeniu procedury oceny błędu klasyfikacji naszego modelu zostajemy z lista obserwacji testowych, gdzie dla kazdej z nich znamy klasę obserwowaną oraz klasę przewidywaną przez nasz model. Zliczając liczbe przypadkow dla kazdej z kombinacji tych dwóch klas (obserwowanej i przewidywanej) możemy stworzyć tzw. macierz pomyłek (ang. confusion matrix). Możemy na jej podstawie ocenić błąd modelu: musimy zsumować wartości na głównej przekątnej (obserwacje poprawnie rozpoznane) ipodzielićjeprzezliczbęwszystkichobserwacjitestowych.

Przeuczenie i niedouczenie modelu

ZeroR najprostszy klasyfikator Algorytm ZeroR (Zero Rule) ignoruje wszystkie cechy, oprócz etykiet. Na ich podstawie, sprawdza najczęściej występującą klasę i tworzy klasyfikator który zawsze będzie ją zwracać. Zatem algorytm ZeroR zawsze przypisuje nowe obserwacje do tej samej klasy (klasy większościowej), niezależnie od wartości cech.

OneR Algorytm OneR (One Rule) jest tylko nieco bardziej wyrafinowany niz ZeroR. Podczas gdy ZeroR ignoruje wszystkie cechy, OneR wybiera tylko jedną i ignoruje pozostałe. Wybierając najlepszą cechę sprawdza on błąd na danych uczących dla klasyfikatorow zbudowanych na kazdej z cech osobno i wybiera tą z nich, która minimalizuje błąd. Dla każdej cechy dzieli on dane uczące na podzbiory ze względu na wartość tej cechy. Następnie, na każdym znichużywaalgorytmuzeror.pokazano,żepomimoprostotyjest to metoda jedynie nieznacznie ustępująca najlepszym klasyfikatorom. R.C. Holte. (1993). Very simple classification rules perform well on most commonly used datasets. MachineLearning 11(1):63 90.

OneR Day Outlook Temperature Humidity PlayTennis D1 sunny hot high NO D2 sunny hot high NO D3 overcast hot high YES D4 overcast hot normal YES D5 rain mild high NO Skonstruujmy klasyfikatory dla różnych atrybutów: Outlook YES NO trafność sunny 0 2 5/5 = 100% overcast 2 0 rain 0 1 Temperature YES NO trafność hot 2 2 3/5 = 60% mild 0 1 Humidity YES NO trafność high 1 3 4/5 = 80% normal 1 0 Jak widzimy, najwyższą trafność osiągamy korzystając z atrybutu Outlook. Algorytm stworzy więc następujący klasyfikator: IF Outlook = sunny THEN PlayTennis = NO IF Outlook = overcast THEN PlayTennis = YES IF Outook = rain THEN PlayTennis = NO