Systemy agentowe. Uwagi organizacyjne. Jędrzej Potoniec

Podobne dokumenty
Systemy agentowe. Uwagi organizacyjne i wprowadzenie. Jędrzej Potoniec

Systemy agentowe. Uczenie ze wzmocnieniem. Jędrzej Potoniec

Systemy agentowe. Sieci neuronowe. Jędrzej Potoniec

Wprowadzenie do uczenia maszynowego

Optymalizacja ciągła

Wprowadzenie do uczenia maszynowego

Systemy agentowe. Sieci neuronowe. Jędrzej Potoniec

Rozpoznawanie obrazów

Metody systemowe i decyzyjne w informatyce

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Jakość uczenia i generalizacja

Rozpoznawanie obrazów

Metody systemowe i decyzyjne w informatyce

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Wprowadzenie do sieci neuronowych i zagadnień deep learning

Metody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

SZTUCZNA INTELIGENCJA

METODY INŻYNIERII WIEDZY

Elementy inteligencji obliczeniowej

Metody systemowe i decyzyjne w informatyce

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych

Algorytmy metaheurystyczne Wykład 11. Piotr Syga


Optymalizacja systemów

Klasyfikacja LDA + walidacja

Wybrane zagadnienia uczenia maszynowego. Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

Testowanie modeli predykcyjnych

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - zastosowanie na sztucznym zbiorze danych

Metody klasyfikacji danych - część 1 p.1/24

ALGORYTM RANDOM FOREST

Analiza statystyczna trudności tekstu

Uczenie maszynowe w zastosowaniu do fizyki cząstek

Wstęp do sieci neuronowych, wykład 09, Walidacja jakości uczenia. Metody statystyczne.

UKŁADY RÓWNAŃ LINIOWYCH - Metody dokładne

Wstęp do sieci neuronowych, wykład 13-14, Walidacja jakości uczenia. Metody statystyczne.

Elementy modelowania matematycznego

Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki

Zastosowania sieci neuronowych

METODY NUMERYCZNE. wykład. konsultacje: wtorek 10:00-11:30 środa 10:00-11:30. dr inż. Grażyna Kałuża pokój

JEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY

Rozwiązywanie układów równań liniowych metody dokładne Materiały pomocnicze do ćwiczeń z metod numerycznych

Uczenie sieci radialnych (RBF)

INTERPOLACJA I APROKSYMACJA FUNKCJI

KORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y. 2. Współczynnik korelacji Pearsona

Agnieszka Nowak Brzezińska

Rozdział 8. Regresja. Definiowanie modelu

TEORETYCZNE PODSTAWY INFORMATYKI

Agnieszka Nowak Brzezińska Wykład III

A Zadanie

Automatyczna predykcja. Materiały/konsultacje. Co to jest uczenie maszynowe? Przykład 6/10/2013. Google Prediction API, maj 2010

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Wstęp do sieci neuronowych, wykład 6 Wsteczna propagacja błędu - cz. 3

Algorytm grupowania danych typu kwantyzacji wektorów

Zad. 3: Układ równań liniowych

Agnieszka Nowak Brzezińska Wykład III

Obliczenia Naukowe. Wykład 12: Zagadnienia na egzamin. Bartek Wilczyński

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017

Wojciech Skwirz

Wstęp do przetwarzania języka naturalnego. Wykład 11 Maszyna Wektorów Nośnych

Wstęp do metod numerycznych Uwarunkowanie Eliminacja Gaussa. P. F. Góra

Matematyka stosowana i metody numeryczne

Mathcad c.d. - Macierze, wykresy 3D, rozwiązywanie równań, pochodne i całki, animacje

Metody eksploracji danych 3. Ocena modeli. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017

x x 1. Przedmiot identyfikacji System x (1) x (2) : x (s) a 1 a 2 : a s mierzone, a = zestaw współczynników konkretyzujacych F ()

Uczenie ze wzmocnieniem

Stosowana Analiza Regresji

UKŁADY RÓWNAŃ LINIOWYCH -Metody dokładne

WYKŁAD 8 ANALIZA REGRESJI

Wybrane zagadnienia uczenia maszynowego

Rozpoznawanie obrazów

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Python : podstawy nauki o danych / Alberto Boschetti, Luca Massaron. Gliwice, cop Spis treści

Widzenie komputerowe

Metody Prognozowania

Zastosowanie optymalizacji rojem cząstek (PSO) w procesie uczenia wielowarstwowej sieci neuronowej w problemie lokalizacyjnym, kontynuacja badań

Uczenie ze wzmocnieniem aplikacje

Metody teorii gier. ALP520 - Wykład z Algorytmów Probabilistycznych p.2

Egzamin z Metod Numerycznych ZSI, Egzamin, Gr. A

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

Metody systemowe i decyzyjne w informatyce

Priorytetyzacja przypadków testowych za pomocą macierzy

Analiza numeryczna Lista nr 3 (ćwiczenia) x x 2 n x.

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - testy na sztucznych danych

Matematyka stosowana i metody numeryczne

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Redukcja wariancji w metodach Monte-Carlo

Metody selekcji cech

Mikroekonometria 9. Mikołaj Czajkowski Wiktor Budziński

Metody numeryczne Wykład 4

Eksploracja danych - wykład IV

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Transkrypt:

Systemy agentowe Uwagi organizacyjne Jędrzej Potoniec

Kontakt mgr inż. Jędrzej Potoniec Jedrzej.Potoniec@cs.put.poznan.pl http://www.cs.put.poznan.pl/jpotoniec https://github.com/jpotoniec/sa

Zasady oceniania wykład test wielokrotnego wyboru laboratoria wykonanie ćwiczeń laboratoryjnych

Skala ocen % punktów ocena ( ; 50] 2,0 (50; 60] 3,0 (60; 70] 3,5 (70; 80] 4,0 (80; 90] 4,5 (90; ) 5,0

Skąd nazwa? S. Russel, P. Norwig Artificial Intelligence A Modern Approach (3ed) An agent is anything that can be viewed as perceiving its environment throught sensors and acting upon that environment through actuators.

Skąd nazwa? S. Russel, P. Norwig Artificial Intelligence A Modern Approach (3ed) An agent is anything that can be viewed as perceiving its environment throught sensors and acting upon that environment through actuators. człowiek wzrok, słuch/ręce, nogi robot kamera, mikrofon/silniki agent programowy naciśnięcia klawiszy, odczyt plików/ekran, zapis plików

Skąd nazwa? S. Russel, P. Norwig Artificial Intelligence A Modern Approach (3ed) An agent is anything that can be viewed as perceiving its environment throught sensors and acting upon that environment through actuators. człowiek wzrok, słuch/ręce, nogi robot kamera, mikrofon/silniki agent programowy naciśnięcia klawiszy, odczyt plików/ekran, zapis plików agent agenty, nie: agent agenci

Literatura I. Goodfellow, Y. Bengio, A. Courville Deep Learning MIT Press 2016 www.deeplearningbook.org

Literatura Aurélien Géron Hands-On Machine Learning with Scikit-Learn and TensorFlow O Reilly Media 2017

Plan wykładu 1 Regresja liniowa, wielomianowa i logistyczna 2 Warstwowe sieci neuronowe 3 Uczenie ze wzmocnieniem

Program uczący się T. Mitchell Machine Learning 1997 Program komputerowy uczy się z doświadczenia E względem pewnej klasy zadań T i miary jakości P, jeżeli wartość jego miary jakości P na zadaniach z klasy T poprawia się wraz ze ilością doświadczenia E.

Niewyczerpująca lista klas zadań T klasyfikacja

Niewyczerpująca lista klas zadań T klasyfikacja klasyfikacja z brakującymi wejściami

Niewyczerpująca lista klas zadań T klasyfikacja klasyfikacja z brakującymi wejściami regresja

Niewyczerpująca lista klas zadań T klasyfikacja klasyfikacja z brakującymi wejściami regresja transkrypcja

Niewyczerpująca lista klas zadań T klasyfikacja klasyfikacja z brakującymi wejściami regresja transkrypcja tłumaczenie maszynowe

Niewyczerpująca lista klas zadań T klasyfikacja klasyfikacja z brakującymi wejściami regresja transkrypcja tłumaczenie maszynowe przewidywanie złożonych struktur

Niewyczerpująca lista klas zadań T klasyfikacja klasyfikacja z brakującymi wejściami regresja transkrypcja tłumaczenie maszynowe przewidywanie złożonych struktur detekcja anomalii

Niewyczerpująca lista klas zadań T klasyfikacja klasyfikacja z brakującymi wejściami regresja transkrypcja tłumaczenie maszynowe przewidywanie złożonych struktur detekcja anomalii synteza i próbkowanie

Niewyczerpująca lista klas zadań T klasyfikacja klasyfikacja z brakującymi wejściami regresja transkrypcja tłumaczenie maszynowe przewidywanie złożonych struktur detekcja anomalii synteza i próbkowanie uzupełnianie brakujących wejść

Niewyczerpująca lista klas zadań T klasyfikacja klasyfikacja z brakującymi wejściami regresja transkrypcja tłumaczenie maszynowe przewidywanie złożonych struktur detekcja anomalii synteza i próbkowanie uzupełnianie brakujących wejść usuwanie szumu

Niewyczerpująca lista klas zadań T klasyfikacja klasyfikacja z brakującymi wejściami regresja transkrypcja tłumaczenie maszynowe przewidywanie złożonych struktur detekcja anomalii synteza i próbkowanie uzupełnianie brakujących wejść usuwanie szumu estymacja rozkładu prawdopodobieństwa

Miary jakości P Liczbowy sposób określenia jak dobrze/źle program rozwiązuje zadanie T. Bywa prosta do zdefiniowania i obiektywna, np. trafność klasyfikacji (ang. accuracy) w zadaniu jaka cyfra jest na rysunku odpowiedzi poprawne wszystkie odpowiedzi ale również nieobiektywna, np. trafność klasyfikacji w zadaniu czy ten pasażer jest terrorystą pasażerowie, którzy nie są terrorystami wszyscy pasażerowie albo trudna do zdefiniowania Grzegorz ma kota 1 Grzegorz s got a cat 2 Grzegorz has a cat 3 He has a cat (Google Translate) 4 Gregory has a cat 100%

Doświadczenie E uczenie nadzorowane (ang. supervised): zbiór przykładów opisanych cechami wraz z etykietami uczenie nienadzorowane (ang. unsupervised): zbiór przykładów opisanych cechami uczenie ze wzmocnieniem (ang. reinforcement): środowisko, w którym można wykonywać pewne akcje uczenie częściowo nadzorowane (ang. semi-supervised): niektóre przykłady mają etykiety

Reprezentacja Macierz cech X mająca n wierszy oraz p kolumn, zwykle liczby rzeczywiste: X 1,1 X 1,2... X 1,p X 2,1 X 2,2... X 2,p X =...... Rn p X n,1 X n,2... X n,p

Reprezentacja Wektor etykiet y y 1 y 2 y =. Rn y n

Regresja liniowa Mając macierz cech X oraz wektor etyket y przewidzieć wektor parametrów w tak, żeby błąd średniokwadratowy (ang. mean-square error (MSE)) był jak najmniejszy: MSE = 1 n n (y i ŷ i ) 2 i=1 ŷ i = w T X i ŷ = Xw

Regresja liniowa przypadek jednowymiarowy p = 1 X jest wektorem kolumnowym typu n, w jest pojedynczą liczbą MSE = 1 n (y i wx i ) 2 n i=1 MSE jest najmniejsze MSE = 0 Policzmy!

Przykład Przewidzieć koszt paszy y w zależności od liczby prosiaków X X 4 7 9 w MSE y (1) 340 595 765??

Przykład Przewidzieć koszt paszy y w zależności od liczby prosiaków X X 4 7 9 w MSE y (1) 340 595 765?? y (2) 348,5 586,5 765??

Przykład Przewidzieć koszt paszy y w zależności od liczby prosiaków X X 4 7 9 w MSE y (1) 340 595 765?? y (2) 348,5 586,5 765?? y (3) 390 645 815??

Regresja liniowa przypadek jednowymiarowy p = 1 z wyrazem wolnym X jest wektorem kolumnowym typu n, w jest pojedynczą liczbą MSE = 1 n (y i wx i b) 2 n i=1 MSE jest najmniejsze MSE = 0

Prosiaki Przewidzieć koszt paszy y w zależności od liczby prosiaków X X 4 7 9 w b MSE y (3) 390 645 815???

Regresja liniowa wariant macierzowy X 1,1 X 1,2... X 1,p 1 X 2,1 X 2,2... X 2,p 1 X =...... 1 Rn (p+1) X n,1 X n,2... X n,p 1

Regresja liniowa wariant macierzowy X 1,1 X 1,2... X 1,p 1 X 2,1 X 2,2... X 2,p 1 X =...... 1 Rn (p+1) X n,1 X n,2... X n,p 1 4 1 390 [ ] 85 X = 7 1 y = 645 w = 50 9 1 815 [ ] 85 ŷ = Xw = 4 1 7 1 9 1 50 390 645 815

Regresja liniowa wariant macierzowy Policzmy! MSE = 1 n y Xw 2 2 = 1 n (y Xw)T (y Xw) w MSE = 0

Prosiaki Policzmy! ( 1 w = X X) T X T y 4 1 390 X = 7 1 y = 645 9 1 815

Regresja wielomianowa x 1 1 x1 k x X = 2 1... 1 X = x 2 k... x n 1 x k n x1 k 1... x 1 1 x2 k 1... x 2 1 xn k 1... x n 1

Regresja wielomianowa x 1 1 x1 k x X = 2 1... 1 X = x 2 k... x n 1 x k n x1 k 1... x 1 1 x2 k 1... x 2 1 xn k 1... x n 1 4 1 64 16 4 1 X = 7 1 X = 343 49 7 1 9 1 729 81 9 1

Prosiaki Czarne: y = 85x + 50 MSE = 0 Czerwone: y = x 4 22x 3 + 167x 2 421x + 554 MSE = 0 Niebieskie: y = 517,5 MSE = 52381 1,000 900 800 700 600 500 400 300 200 100 0 1 2 3 4 5 6 7 8 9 10

Znajdźmy więcej prosiaków: zbiór testowy Czarne: y = 85x + 50 MSE = 0 Czerwone: y = x 4 22x 3 + 167x 2 421x + 554 MSE = 7296 Niebieskie: y = 517,5 MSE = 64423 1,000 900 800 700 600 500 400 300 200 100 0 1 2 3 4 5 6 7 8 9 10

Czy prosiaki uczące i prosiaki testowe się różnią? Założenie i.i.d Identicially and idependently distributed Zakłada się, że wszystkie przykłady uczące i testowe pochodzą z tego samego rozkładu prawdopodobieństwa, i zostały wybrane z niego niezależnie od siebie.

Zbyt słabe i nadmierne dopasowanie Zbyt słabe dopasowanie (ang. underfitting) Duży błąd na zbiorze uczącym i duży błąd na zbiorze testowym Nadmierne dopasowanie (przeuczenie) (ang. overfitting) Mały błąd na zbiorze uczącym i duży błąd na zbiorze testowym

Zbyt słabe i nadmierne dopasowanie I. Goodfellow, Y. Bengio, A. Courville Deep Learning MIT Press 2016, str. 112

Parametry i hiperparametry parametry są dobierane przez algorytm w procesie uczenia, np. wektor w w regresji liniowej hiperparametry są dobierane przez użytkownika, żeby sterować procesem uczenia, np. stopień wielomianu w regresji wielomianowej

Dobór hiperparametrów i zbiór walidujący Dobór hiperparametrów za pomocą zbioru testowego prowadzi do przeuczenia

Dobór hiperparametrów i zbiór walidujący Dobór hiperparametrów za pomocą zbioru testowego prowadzi do przeuczenia dobór parametrów (uczenie) przez minimalizację błędu na zbiorze uczącym dobór hiperparametrów przez minimalizację błędu na zbiorze walidującym szacowanie jakości na zbiorze testowym

Zwyczajowy podział danych Podział losowy w nastepujących proporcjach zbiór testowy 70% zbiór walidujący 10% zbiór testowy 20%

Sprawdzian krzyżowy (ang. cross-validation) 1 Zbiór uczący dzielony jest na k podzbiorów 2 Dla i = 1, 2,..., k: zbiór walidujący podzbiór i zbiór uczący wszystkie pozostałe podzbiory 3 Za wynik walidacji przyjmuje się średnią ze wszystkich k walidacji (odchylenie standardowe gratis!) Jakie są zalety i wady w stosunku do poprzedniego podejścia?

Problemy z regresją liniową ( ) w = X T 1 X X T y } {{ } p p Złożoność odwracania macierzy: O(p 2.4 )

Problemy z regresją liniową ( ) w = X T 1 X X T y } {{ } p p Złożoność odwracania macierzy: O(p 2.4 ) Problemy numeryczne

Problemy z regresją liniową ( ) w = X T 1 X X T y } {{ } p p Złożoność odwracania macierzy: O(p 2.4 ) Problemy numeryczne Trudności z uogólnieniem: trzeba rozwiązać równanie

Schodzenie po gradiencie (ang. gradient descent) I. Goodfellow, Y. Bengio, A. Courville Deep Learning MIT Press 2016, str. 80

Schodzenie po gradiencie (ang. gradient descent) A. Géron, Hands-On Machine Learning with Scikit-Learn and TensorFlow 2017, str. 111

Schodzenie po gradiencie (ang. gradient descent) J(w, b) = J(w, b) = 1 n (wx i + b y i ) 2 n i=1 ] ni=1 2x i (wx i + b y i ) ni=1 = 2 n (wx n 2 (wx i + b y i ) i + b y i ) n i=1 [ ] [ ] w w = ε J(w, b) b [ 1 n 1 b [ ] xi 1

Prosiaki schodzące po gradiencie krok w b MSE w MSE b MSE 0 0 0 1280750 27700 1035 1 166.20 6.21 840233 22433 805 2 31.60 1.38 551427 18159 684 3 140.56 5.48 362082 14708 522... 3102 85.01 49.96 0.001 0.002 0.014... 6590 85.00 50.00 0.000 0.000 0.000

Prosiaki schodzące po gradiencie 1400 1200 1000 800 MSE 600 400 200 0 0 1000 2000 3000 4000 5000 6000 krok Warunek stopu: MSE < 1 10 lub J < 1 10

Stochastyczne schodzenie po gradiencie Stochastic gradient descent Jeżeli przykładów jest dużo, to schodzenie po gradiencie może być powolne. Zamiast tego w każdym kroku wybieramy losowo jeden przykład uczący i obliczamy gradient wyłącznie na jego podstawie.

Stochastyczne schodzenie po gradiencie A. Géron, Hands-On Machine Learning with Scikit-Learn and TensorFlow 2017, str. 117

Prosiaki stochastycznie schodzące po gradiencie 1600 1400 1200 1000 MSE 800 600 400 200 0 0 1000 2000 3000 4000 5000 6000 krok Warunek stopu: MSE przez ostatnie 10 kroków < 1 10

Schodzenie po gradiencie z mini-grupami Mini-batch gradient descent W kolejnych krokach schodzenia po gradiencie wybieramy (niewielki) podzbiór przykładów uczących do obliczeń stabilniejszy zysk wydajnościowy z obliczeń macierzowych

Problemy ze schodzeniem po gradiencie I. Goodfellow, Y. Bengio, A. Courville Deep Learning MIT Press 2016, str. 81

Problemy ze schodzeniem po gradiencie A. Géron, Hands-On Machine Learning with Scikit-Learn and TensorFlow 2017, str. 112

Problemy ze schodzeniem po gradiencie A. Géron, Hands-On Machine Learning with Scikit-Learn and TensorFlow 2017, str. 112

Problemy ze schodzeniem po gradiencie A. Géron, Hands-On Machine Learning with Scikit-Learn and TensorFlow 2017, str. 113

Skalowanie standaryzacja min-max X i,j = X i,j = X i,j X,j σ X,j X i,j min k {X k,j } max k {X k,j } min k {X k,j } Czym różnią się te dwa podejścia?

Trochę bardziej skomplikowany problem regresji y = 0,02x 3 + 10x + 5 + N(0, 100) niebieski: proces, pomarańczowy: zb. treningowy, zielony: zb. walidujący 1750 1500 1250 1000 750 500 250 20.0 22.5 25.0 27.5 30.0 32.5 35.0 37.5 40.0

Możliwe rozwiązanie (I) 893.16 20562.74x 1 + 63517.63x 2 65676.69x 3 + 23087.84x 4 MSE=10292.4976137 1750 1500 1250 1000 750 500 250 20.0 22.5 25.0 27.5 30.0 32.5 35.0 37.5 40.0

Możliwe rozwiązanie (II) 1750 1500 1250 1000 750 500 250 890.96 55.26x 1 + 513.47x 2 374.40x 3 + 289.70x 4 MSE=10937.8771405 20.0 22.5 25.0 27.5 30.0 32.5 35.0 37.5 40.0

Możliwe rozwiązanie (III) 1750 1500 1250 1000 750 500 250 891.00 + 77.16x 1 + 88.73x 2 + 98.21x 3 + 108.35x 4 MSE=10949.479073 20.0 22.5 25.0 27.5 30.0 32.5 35.0 37.5 40.0

Możliwe rozwiązanie (IV) 1750 1500 1250 1000 750 500 250 897.20 + 73.16x 1 + 74.53x 2 + 75.26x 3 + 75.43x 4 MSE=16584.6678002 20.0 22.5 25.0 27.5 30.0 32.5 35.0 37.5 40.0

Możliwe rozwiązanie (V) 1750 1500 1250 1000 750 500 250 922.42 + 0.04x 1 + 0.04x 2 + 0.04x 3 + 0.04x 4 MSE=149280.861145 20.0 22.5 25.0 27.5 30.0 32.5 35.0 37.5 40.0

Regularyzacja Ridge J(w) = MSE(w) + α 1 2 n wi 2 } i=1 {{ } kara

Porównanie rozwiązań α MSE tr kara całkowity koszt MSE walid 0 10292 4651895996 10292 9627 0.001 10937 245404 11183 8726 1 10949 17605 28554 8678 100 16584 11130 1129591 12312 1000000 149280 0 152023 138743

Porównanie rozwiązań α MSE tr kara całkowity koszt MSE walid 0 10292 4651895996 10292 9627 0.001 10937 245404 11183 8726 1 10949 17605 28554 8678 100 16584 11130 1129591 12312 1000000 149280 0 152023 138743 Ile współczynników miały rozważane wielomiany?

Możliwe rozwiązanie (I) 1750 1500 1250 1000 750 500 250 890.94 + 59.96x 1 + 108.94x 2 + 95.26x 3 + 109.02x 4 MSE=10946.9873124 20.0 22.5 25.0 27.5 30.0 32.5 35.0 37.5 40.0

Możliwe rozwiązanie (II) 1750 1500 1250 1000 750 500 250 890.94 + 59.95x 1 + 108.95x 2 + 95.26x 3 + 109.02x 4 MSE=10946.98736 20.0 22.5 25.0 27.5 30.0 32.5 35.0 37.5 40.0

Możliwe rozwiązanie (III) 1750 1500 1250 1000 750 500 250 891.79 + 181.32x 2 + 116.75x 3 + 64.28x 4 MSE=11048.7014745 20.0 22.5 25.0 27.5 30.0 32.5 35.0 37.5 40.0

Możliwe rozwiązanie (IV) 1750 1500 1250 1000 750 500 250 899.53 + 13.92x 2 + 257.65x 3 MSE=20983.1359555 20.0 22.5 25.0 27.5 30.0 32.5 35.0 37.5 40.0

Możliwe rozwiązanie (V) 1750 1500 1250 1000 750 500 250 922.44 MSE=149390.594364 20.0 22.5 25.0 27.5 30.0 32.5 35.0 37.5 40.0

Regularyzacja Lasso J(w) = MSE(w) + α n w i i=1 }{{} kara

Porównanie rozwiązań α # wsp. MSE tr kara całkowity koszt MSE walid 0 4 10946 18211 10946 8722 0.001 4 10946 18211 10965 8721 10 3 11048 25319 264241 8562 100 2 20983 33287 3349752 16524 1000000 0 149390 0 149390 138850

Dlaczego Lasso się tak zachowuje? Obliczmy karę w Ridge i w Lasso dla następujących przypadków: 1 w 1 = [ ] 1 0.05

Dlaczego Lasso się tak zachowuje? Obliczmy karę w Ridge i w Lasso dla następujących przypadków: 1 w 1 = [ ] 1 0.05 2 w 2 = w 1 [ ] 0.01 0

Dlaczego Lasso się tak zachowuje? Obliczmy karę w Ridge i w Lasso dla następujących przypadków: 1 w 1 = [ ] 1 0.05 2 w 2 = w 1 [ ] 0.01 0 3 w 3 = w 1 [ ] 0 0.01

Dlaczego Lasso się tak zachowuje? Obliczmy karę w Ridge i w Lasso dla następujących przypadków: 1 w 1 = [ ] 1 0.05 2 w 2 = w 1 [ ] 0.01 0 3 w 3 = w 1 [ ] 0 0.01 Który przypadek jest lepszy dla regresji Ridge, a który dla Lasso?

Regularyzacja w GD: wczesne zatrzymanie 1000000 975000 950000 925000 900000 875000 850000 825000 800000 0 10000 20000 30000 40000 50000 60000 70000

Klasyfikacja Zadanie klasyfikacji binarnej Dla danego wektora cech x opisującego obiekt przewidzieć czy obiekt należy do klasy pozytywnej y = 1 czy negatywnej y = 0 (lub y = 1).

Irysy Pomarańczowy: Iris Virginica, niebieski: pozostałe 2.5 2.0 petal width (cm) 1.5 1.0 0.5 0.0 1 2 3 4 5 6 7 petal length (cm)

Przewidywanie prawdopodobieństwa regresja liniowa Punkty w tle: prawd. Iris Virginica (jaśniej=wyższe) 2.5 2.0 petal width (cm) 1.5 1.0 0.5 0.0 0 1 2 3 4 5 6 7 petal length (cm)

Przewidywanie prawdopodobieństwa regresja logistyczna 2.5 2.0 petal width (cm) 1.5 1.0 0.5 0.0 0 1 2 3 4 5 6 7 petal length (cm)

Granica decyzyjna (ang. decision boundary) A. Géron, Hands-On Machine Learning with Scikit-Learn and TensorFlow 2017

Granica decyzyjna (ang. decision boundary) A. Géron, Hands-On Machine Learning with Scikit-Learn and TensorFlow 2017

Funkcja logistyczna A. Géron, Hands-On Machine Learning with Scikit-Learn and TensorFlow 2017

Pochodna funkcji logisytcznej Zadanie σ(t) = 1 1 + e t Wiadomo, że σ(t 0 ) =.1. Czy da się na tej podstawie prosto obliczyć wartość pochodnej σ (t) w punkcie t 0?

Regresja logistyczna ŷ = ˆp = σ(xw) { 1 ˆp 0,5 0 ˆp < 0,5

Funkcja kosztu dla pojedynczego przykładu 4 c = log(p) c = log(1 p) 3 Koszt 2 1 0 0.0 0.2 0.4 0.6 0.8 1.0 Prawdopodobienstwo y=1

Funkcja kosztu dla pojedynczego przykładu Zadanie Zapisać poniższą funkcję jako pojedyncze wyrażenie (używając dodawania, mnożenia itp.): { log(p) y = 1 c(y, p) = log(1 p) y = 0

Funkcja kosztu dla całego problemu p = σ(xw) J(w) = 1 n c (y i, p i ) = n i=1 1 n [y i log p i + (1 y i ) log(1 p i )] n i=1

Funkcja kosztu dla całego problemu 1 n p = σ(xw) J(w) = 1 n c (y i, p i ) = n i=1 n [y i log p i + (1 y i ) log(1 p i )] i=1 J w i = 1 n n (σ(x i w) y i ) X i,j i=1