Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład I dr inż. Bogumil.Konopka@pwr.edu.pl 2015/2016 1
Wykład I - plan Sprawy organizacyjne Uczenie maszynowe podstawowe pojęcia Proces modelowania zjawisk Wybór modelu Klasy modeli Klasy problemów Uczenie maszynowe z nadzorem/ bez nadzoru Interpretowalność Ocena modeli Błąd średniokwadratowy Elastyczność, obciążenie, wariancja 2
Sprawy organizacyjne Dr inż. bogumil.konopka@pwr.edu.pl, p. 118/D1 Konsulatacje: pn 13-15; cz 11-13 Laboratorium: 3 terminy laboratoryjne, co drugi tydzień od 6/13 kwietnia Ocena: kilka pytań testowych na kolokwium (1/5 z całości) Punkty z aktywności na wykładzie 3
Plan wykładów 1. Wykład I Podstawowe pojęcia, wprowadzenie do metod uczenia maszynowego 2. Wykład II Regresja liniowa, regresja logistyczna, ocena skuteczności modelu 3. Wykład III Sieci neuronowe, algorytm spadku gradientu, algorytm wstecznej propagacji błędu 4
Materiały Slajdy do wykładów: http://www.kotulska-lab.pwr.edu.pl/index.php?menu=forstudents Książki: Guide to Inteligent Data Analysis, (2010), Berthold, M.R., Borgelt, C., Höppner, F., Klawonn, F. dostępna za darmo na platformie Springer Link trzeba łączyć się przez PWr (GtIDA) An Introduction to Statistical Learning, (2013), James G., Witten D., Hastie T. and Tibshirani R., http://www-bcf.usc.edu/~gareth/isl/ (ItSL) The Elements of Statistical Learning, (2009), Hastie T., Tibshirani R., Friedman J., http://statweb.stanford.edu/~tibs/elemstatlearn/ (EoSL) Internet: w google Machine learning, Data mining, 5
O dziedzinie Schemat systemy pomiarowo-diagnostycznego 6
O dziedzinie Uczenie maszynowe machine learning Uczenie statystyczne statistical learning Eksploracja danych data mining/data exploration http://www.ibm.com/developerworks/library/os-datascience/ 7
Dane i wiedza Lech Wałęsa otrzymał Pokojową Nagrodę Nobla w 1983 r. Pociąg relacji Wrocław Warszawa odjeżdża codziennie o 9:05 Dane Odnoszą się do pojedynczych instancji Opisują jednostkowe cechy Są często dostępne w dużych ilościach Są często łatwe do zebrania Nie pozwalają wykonywać prognoz i predykcji Wiedza Odnosi się do klas instancji Opisuje ogólne wzorce, zależności, prawa, zasady. Składa się z jak najmniejszej liczby stwierdzeń Pozyskanie jej jest trudne i czasochłonne Pozwala prognozować 8
Kryteria oceny wiedzy Poprawność Poziom ogólności Przydatność Przejrzystość/Zrozumiałość Nowatorskość 9
Przykłady danych (1) Dane sprzedaży (w tyś. jednostek) w funkcji wydatków na reklamę (tyś. $) - Zmienna wyjściowa - Zmienna zależna - Odpowiedź - Zmienne wejściowe - Zmienne niezależne - Predyktory - Cechy - Atrybuty ITSL, James et al. 2013 10
Przykłady danych (2) Dane o ruchu kursu indeksu giełdowego Standard & Poor s 500 przewidywanie zachowania w dniu dzisiejszym Atrybuty Zmienna wyjściowa ITSL, James et al. 2013 11
Przykłady danych (3) Atrybuty histologiczne tkanek nowotworowych - klasyfikacja typu Zmienna wyjściowa Atrybuty 12
Przykłady danych (4) Dane o ekspresji genów w liniach komórek nowotworowych z różnych tkanek i typów reprezentacja w dwóch wymiarach. Transformacja atrybutów ITSL, James et al. 2013 13
Formalny opis zbioru danych Zbiór danych: Zbiór atrybutów Zbiór odpowiedzi 14
Proces modelowania Model opis otaczającego świata wykorzystujący formalizmy matematyczne. Proces modelowania to poszukiwanie takiej reprezentacji obserwowanego zjawiska, która będzie najlepiej tłumaczyła mierzone dane. Proces modelowania: 1. Wybrać klasę modelu 2. Wybrać funkcję oceniającą 3. Zaaplikować algorytm dopasowujący 4. Ocenić rezultaty modelowania 15
Klasa modelu, a podejmowany problem Wybór modelu jest uzależniony od sformułowanego problemu. Regresja przewidywanie zmiennej numerycznej Klasyfikacja przewidywanie zmiennej kategorycznej Segmentacja/analiza skupień - określenie struktury danych Detekcja anomalii Szukanie powiązań pomiędzy atrybutami Inne 16
Uczenie z nadzorem vs uczenie bez nadzoru Z nadzorem Zbiór uczący w postaci: D = x 1, y 1, x 2, y 2,, x n, y n, gdzie : x i = [x i1, x i2, x i3,, x ip ] - atrybuty y_i zmienna wyjaśniana Rozwiązywane problemy: Regresja Klasyfikacja Detekcja anomalii Bez nadzoru Zbiór uczący w postaci: D = x 1, x 2,, x n, gdzie : x i = [x i1, x i2, x i3,, x ip ] Rozwiązywane problemy: Segmentacja/grupowanie Szukanie powiązań Redukcja wymiaru danych 17
Klasa modelu, a parametryzacja Modele parametryczne zakładają określoną funkcję pomiędzy zmiennymi wejściowymi, a zmienną wyjściową Trzeba wybrać określoną funkcję zależności Y=f(X) Następnie określić współczynniki modelu Przykład model liniowy Modele nieparametryczne brak założenia o funkcji Przykłady: Metoda K-najbliższych sąsiadów Sieci neuronowe Drzewa decyzyjne Maszyny wektorów nośnych 18
Klasa modelu, a interpretowalność Modele interpretowalne: Model liniowy Regresja logistyczna Drzewa decyzyjne Systemy reguł decyzyjnych Modele typu black-box : Metoda K-najbliższych sąsiadów Sieci neuronowe Maszyny wektorów nośnych 19
Ocena dokładności modelu w regresji Błąd średniokwadratowy (Mean Squared Error): MSE = 1 2 y n i f x i i=1 Umożliwia: Ilościowe porównanie dokładności modelu przy różnych parametrach Ilościowe porównanie modeli o różnej strukturze Inne miary dokładności: Średni błąd bezwzględny E = 1 y n i f x i Odległość Euklidesowa punktów od linii regresji n i=1 n 20
Przyczyny niedokładności (przyczyny błędów) Błąd eksperymentalny (Bayesowski, wewnętrzny, czysty błąd) Wynika z: Błąd próby Wynika z: Błąd modelu Wynika z: Błąd algorytmu Wynika z: 21
Określenie rzeczywistej dokładności modelu MSE w zbiorze treningowym vs w rzeczywistości Zbiór treningowy zbiór wykorzystywany przy budowie modelu Zbiór testowy zbiór niedostępny przy budowie modelu 22
Elastyczność modelu, a MSE (przykład 1) Model liniowy (dwa parametry) mała elastyczność ( flexibility), mały błąd treningowy mały błąd testowy Wielomian z kilkoma parametrami umiarkowana elastyczność mały błąd treningowy mały błąd testowy Wielomian z dużą liczbą parametrów duża elastyczność mały błąd treningowy duży błąd testowy Rzeczywista zależność MSE testowy MSE treningowy ITSL, James et al. 2013 23
Elastyczność modelu, a MSE (przykład 2) Model liniowy (dwa parametry) mała elastyczność ( flexibility), duży błąd treningowy duży błąd testowy Wielomian z kilkoma parametrami umiarkowana elastyczność mały błąd treningowy mały błąd testowy Wielomian z dużą liczbą parametrów duża elastyczność mały błąd treningowy duży błąd testowy Rzeczywista zależność MSE testowy MSE treningowy ITSL, James et al. 2013 24
Elastyczność modelu, a MSE (przykład 3) Model liniowy (dwa parametry) mała elastyczność ( flexibility), duży błąd treningowy duży błąd testowy Wielomian z kilkoma parametrami umiarkowana elastyczność mały błąd treningowy mały błąd testowy Wielomian z dużą liczbą parametrów duża elastyczność mały błąd treningowy mały błąd testowy Rzeczywista zależność MSE testowy MSE treningowy ITSL, James et al. 2013 25
Obciążenie vs zmienność modelu (ang. bias vs variance) Błąd może zawsze zostać rozłożony zgodnie z formułą: E y 0 f x 0 = Var f x 0 + Bias f x 0 2 + Var ε Zmienność modelu Obciążenie modelu Błąd nieredukowalny 26
Obciążenie vs zmienność modelu (ang. bias vs variance) Dane liniowe Dane nieliniowe Dane mocno nieliniowe E y 0 f x 0 = Var f x 0 + Bias f x 0 2 + Var ε ITSL, James et al. 2013 27
Co było najważniejsze? Czym różnią się dane od wiedzy? Co to jest zbiór uczący i jak jest zbudowany? Czym jest model? Jakie problemy rozwiązuje uczenie maszynowe z nadzorem, a jakie uczenie maszynowe bez nadzoru Jako ocenić model? Co to jest właściwy balans pomiędzy obciążeniem, a zmiennością modelu 28
W przyszłym tygodniu będzie o Regresji liniowej Regresji logistycznej Ocenie skuteczności klasyfikatorów 29