Selekcja zmiennych w klasyfikacji z wieloma etykietami

Wielkość: px
Rozpocząć pokaz od strony:

Download "Selekcja zmiennych w klasyfikacji z wieloma etykietami"

Transkrypt

1 Seminarium IPIPAN, Maj 2016 Selekcja zmiennych w klasyfikacji z wieloma etykietami Paweł Teisseyre Instytut Podstaw Informatyki PAN

2 Plan prezentacji Klasyfikacja z wieloma etykietami. Selekcja zmiennych w klasyfikacji z wieloma etykietami. Ogólne podejście do estymacji prawdopodobieństwa aposteriori. Model Isinga i łańcuchy klasyfikatorów. Metoda CCnet: łańcuchy klasyfikatorów + sieć elastyczna: dopasowanie modelu, wybór parametrów sieci elastycznej, wyniki teoretyczne: stabilność i oszacowanie błędu generalizacji. Eksperymenty: wpływ selekcji zmiennych na jakość predykcji, wpływ kolejności budowy modeli w łańcuchu na wybór zmiennych.

3 Klasyfikacja z wieloma etykietami Klasyfikacja z jedną etykietą (binarną) Jedna zmienna odpowiedzi. Zbiór uczący: (x (i), y (i) ), x (i) R p, y (i) {0, 1}. Klasyfikacja z wieloma etykietami (binarnymi) Wiele zmiennych odpowiedzi. Zbiór uczący: (x (i), y (i) ), x (i) R p, y (i) {0, 1} K.

4 Klasyfikacja z jedną etykietą (binarną): x 1 x 2... x p y ? Tabela : Klasyfikacja binarna. y {0, 1}- zmienna odpowiedzi (etykieta).

5 Klasyfikacja z jedną etykietą (dyskretną): x 1 x 2... x p y ? Tabela : Klasyfikacja wieloklasowa (multiclass). y {1, 2,..., G}- zmienna odpowiedzi (etykieta).

6 Klasyfikacja z wieloma etykietami: x 1 x 2... x p y 1 y 2... y K ??...? Tabela : Klasyfikacja wieloetykietowa (mutlilabel). y = (y 1,..., y K ) - wektor zmiennych odpowiedzi (etykiet).

7 Klasyfikacja z wieloma etykietami Przykłady zastosowań: kategoryzacja tekstów (etykiety: różne tematy) anotacja obrazów cyfrowych i filmów (etykiety: różne obiekty na zdjęciu) marketing (etykiety: produkty kupowane przez klientów) genomika (etykiety: funkcje genów) medycyna (etykiety: choroby pacjentów)

8 Klasyfikacja wieloklasowa i wieloetykietowa Przykład: (automatyczna anotacja obrazów) Klasyfikacja wieloklasowa: góra, las czy samochód? Klasyfikacja wieloetykietowa: góra (TAK), las (TAK), samochód (NIE).

9 Klasyfikacja wieloklasowa i wieloetykietowa Transformacja potęgowa (label powerset): X 1 Y 1 Y Tabela : Przed redukcją. X 1 Y Tabela : Po redukcji.

10 Klasyfikacja wieloklasowa i wieloetykietowa Transformacja potęgowa (label powerset): Zalety: 1. Sprowadzamy nasze zadanie do zadania bardziej znanego. 2. Znalezienie meta-klasy o największym prawdopodobieństwie aposteriori jest równoważne wyznaczeniu najbardziej prawdopodobnej kombinacji etykiet. Wady: 1. Tracimy informację o odległościach między wektorami odpowiedzi. 2. Duża liczba możliwych meta-klas. 3. Mało obserwacji (przykładów uczących) dla pewnych meta-klas. 4. W skrajnej sytuacji liczba meta-klas może być równa liczbie obserwacji.

11 Przykład: wielozachorowalność BMI Weight Glucose... Diabetes Hypotension Liver disease Zmienne x: charakterystyki pacjentów. Etykiety y: wystąpienia chorób. Zadanie 1: przewidywanie które choroby wystąpią na podstawie pewnych charakterystyk pacjentów (PREDYCKJA). Zadanie 2: wyznaczenie które zmienne wpływają na występowanie poszczególnych chorób (SELEKCJA ZMIENNYCH).

12 Selekcja zmiennych Problem: Selekcja zmiennych: które spośród zmiennych x wpływają na etykiety y? Interesuje nas sytuacja p- bardzo duże; K- średnie (częsta sytuacja w zastosowaniach medycznych). W sytuacji wielu etykiet pojawiają się nowe problemy: Każda etykieta może zależeć od innego zbioru zmiennych. Etykiety mogą zależeć od zmiennych warunkowo (pod warunkiem innych etykiet). Zmienne mogą wpływać na interakcje między etykietami.

13 Selekcja zmiennych Popularna klasyfikacja: 1. Filtry (filters): indywidualna ocena istotności każdej zmiennej. Na przykład: transformacja LP+ informacja wzajemna. 2. Wrappery (wrappers): ocena istotności podzbiorów zmiennych. 3. Metody z wbudowaną selekcją (embedded methods): selekcja zmiennych wykonywana podczas budowy modelu.

14 Klasyfikacja z wieloma etykietami Naturalne podejście: 1. Oszacowanie prawdopodobieństwa aposteriori: p(y x) 2. Predykcja dla nowej obserwacji x 0 : ŷ(x 0 ) = arg max ˆp(y x 0), y {0,1} K gdzie ˆp(y x 0 ) to oszacowane prawdopodobieństwo aposteriori w x 0.

15 Ogólne podejście: Estymacja prawdopodobieństwa aposteriori: Rozważamy rodzinę rozkładów: {p(y x, θ) : θ Θ}. Estymujemy parametry używając metody NW: ˆθ = arg min{ 1 θ n n log p(y (i) x (i), θ)}. i=1 Wersja z regularyzacją: ˆθ = arg min{ 1 θ n n log p(y (i) x (i), θ) + λ 1 θ 1 + λ 2 θ 2 2}. i=1 Zaleta regularyzacji l 1 : część współrzędnych ˆθ będzie równa 0 (selekcja zmiennych).

16 Ogólne podejście: Estymacja prawdopodobieństwa aposteriori: Rozważamy rodzinę rozkładów: {p(y x, θ) : θ Θ}. Estymujemy parametry używając metody NW: ˆθ = arg min{ 1 θ n n log p(y (i) x (i), θ)}. i=1 Wersja z regularyzacją: ˆθ = arg min{ 1 θ n n log p(y (i) x (i), θ) + λ 1 θ 1 + λ 2 θ 2 2}. i=1 Zaleta regularyzacji l 1 : część współrzędnych ˆθ będzie równa 0 (selekcja zmiennych).

17 Ogólne podejście: Estymacja prawdopodobieństwa aposteriori: Rozważamy rodzinę rozkładów: {p(y x, θ) : θ Θ}. Estymujemy parametry używając metody NW: ˆθ = arg min{ 1 θ n n log p(y (i) x (i), θ)}. i=1 Wersja z regularyzacją: ˆθ = arg min{ 1 θ n n log p(y (i) x (i), θ) + λ 1 θ 1 + λ 2 θ 2 2}. i=1 Zaleta regularyzacji l 1 : część współrzędnych ˆθ będzie równa 0 (selekcja zmiennych).

18 Ogólne podejście: Estymacja prawdopodobieństwa aposteriori: Rozważamy rodzinę rozkładów: {p(y x, θ) : θ Θ}. Estymujemy parametry używając metody NW: ˆθ = arg min{ 1 θ n n log p(y (i) x (i), θ)}. i=1 Wersja z regularyzacją: ˆθ = arg min{ 1 θ n n log p(y (i) x (i), θ) + λ 1 θ 1 + λ 2 θ 2 2}. i=1 Zaleta regularyzacji l 1 : część współrzędnych ˆθ będzie równa 0 (selekcja zmiennych).

19 Przykład rodziny rozkładów {p(y x, θ) : θ Θ}: Model Isinga 1 2 : p(y x, θ) = 1 K N(x) exp ak T xy k + β k,l y k y l, (1) k=1 k<l gdzie: N(x) = K exp y {0,1} K k=1 a T k xy k + k<l β k,l y k y l (2) oraz θ = (a 1,..., a K, β 1,2, β 1,3,..., β K 1,K ) T. 1 E. Ising, Beitrag zur Theorie des Ferromagnetismus, Zeitschrift für Physik, P. Teisseyre, Feature ranking for multi-label classification using Markov Networks, Neurocomputing, 2016.

20 Model Isinga Rysunek : Sieć Markova odpowiadająca modelowi Isinga.

21 Dlaczego model Isinga? Chcemy znaleźć rozkład g(y x), maksymalizujący entropię: H g (y x) = y g(y x) log(g(y x)) przy założeniach: g(y x) 0, y g(y x) = 1 oraz: g(y x)y k = A k (x), k = 1,..., K, (3) y g(y x)y k y l = B k,l (x), k < l, (4) y gdzie A k (x) i B k,l (x) są ustalone i zależą od x.

22 Dlaczego model Isinga? Twierdzenie Niech g(y x) będzie dowolnym rozkładem spełniającym (3), (4) i niech p(y x) będzie rozkładem danym wzorem Isinga i spełniającym (3), (4). Wtedy: H g (y x) H p (y x).

23 Dlaczego model Isinga? Dowód: Z definicji entropii: H g (y x) = g(y x) log(g(y x)) = y [ ] g(y x) g(y x) log p(y x) p(y x) = y KL(g, p) y g(y x) log(p(y x)) y g(y x) log(p(y x)), gdzie KL(g, p) jest odległością Kullbacka-Leibnera między g i p i ostatnia nierówność wynika z KL(g, p) 0 (nierówność informacyjna). Dalej pokażemy że: y g(y x) log(p(y x)) = y p(y x) log(p(y x)).

24 Dlaczego model Isinga? Korzystając z definicji p i g oraz faktu że p i g muszą spełniać ograniczenia mamy: y y y y g(y x) log(p(y x)) = K g(y x) log(z(x)) + β k,j xy k y j = ak T xy k + k=1 k<j K p(y x) log(z(x)) + ak T xy k + β k,j xy k y j = k=1 k<j p(y x) log(p(y x)), co kończy dowód.

25 Model Isinga: Zalety: Naturalne uogólnienie modelu logistycznego. Łatwa interpretacja zależności między etykietami. Rozkład maksymalnej entropii. Wady: Duża liczba parametrów. Bezpośrednia estymacja metodą największej wiarogodności jest trudna ze względu na stałą normującą Z(x). Predykcja może być problemem w przypadku dużej liczby etykiet.

26 Metoda CCnet Estymacja prawdopodobieństwa aposteriori: Zamiast modelować p(y x, θ) bezpośrednio, używamy wzoru łańcuchowego: p(y x, θ) = p(y 1 x, θ 1 ) K p(y k y k, x, θ k ), k=2 gdzie: y k = (y 1,..., y k 1 ) T, θ = (θ 1,..., θ K ) T.

27 Metoda CCnet Problem: ˆθ = arg min{ 1 θ n n log p(y (i) x (i), θ) + λ 1 θ 1 + λ 2 θ 2 2}. i=1 Rozwiązanie w postaci: ˆθ = (ˆθ 1,..., ˆθ K ) T, gdzie: ˆθ k = arg min{ 1 θ k n dla k = 1,..., K. n i=1 log p(y (i) k y(i) k, x(i), θ k )+λ 1 θ k 1 +λ 2 θ k 2 2},

28 Metoda CCnet Zakładamy że prawdopodobieństwa warunkowe są w postaci: gdzie: z k = (y k, x) T. p(y k z k, θ k ) = exp(θt k z k y k ) 1 + exp(θ T k z k ), Rozważamy parametry regularyzacji λ 1,k and λ 2,k niezależnie, dla każdego k. Rozwiązanie w postaci: ˆθ = (ˆθ 1,..., ˆθ K ) T, gdzie: ˆθ k = arg min{ 1 θ k n dla k = 1,..., K. n [θ T k z (i) i=1 k y (i) k log(1+exp(θt k z (i) k ))]+λ 1,k θ k 1+λ 2,k θ k 2 2},

29 Metoda CCnet Rozwiązanie w postaci: ˆθ = (ˆθ 1,..., ˆθ K ) T, gdzie: ˆθ k = arg min{ 1 θ k n dla k = 1,..., K. n [θ T k z (i) i=1 k y (i) k log(1+exp(θt k z (i) k ))]+λ 1,k θ k 1+λ 2,k θ k 2 2}, K problemów optymalizacji wypukłej: do rozwiązania można użyć algorytmu CCD (funkcja glmnet w R).

30 Wybór parametru regularyzacji Przyjmujemy λ 1,k = αλ k, λ 2,k = (1 α)λ k, gdzie: α [0, 1]. Dla ustalonego α znajdujemy optymalną wartość λ k używając kryterium GIC (Generalized Information Criterion): gdzie: ˆλ k = arg min{ 1 λ k n n i=1 df := {r : ˆθk,r 0}, a(n) = log(n) (BIC) lub a(n) = 2 (AIC). log p(y (i) k z(i) k, ˆθ k ) + a(n) df },

31 Łańcuchy klasyfikatorów Estymacja prawdopodobieństwa aposteriori: Zamiast modelować p(y x) bezpośrednio, używamy wzoru łańcuchowego: p(y x) = p(y 1 x) gdzie: y k = (y 1,..., y k 1 ) T. K p(y k y k, x), k=2 Do oszacowania prawdopodobieństw warunkowych można użyć dowolnego klasyfikatora, traktując y k jako zmienną odpowiedzi, natomiast x, y 1,..., y k 1 jako zmienne objaśniające (atrybuty). W CCnet do oszacowania prawdopodobieństw warunkowych używamy regresji logistycznej z odpowiednią regularyzacją (sieć elastyczna).

32 Łańcuchy klasyfikatorów- predykcja Pełne przeszukiwanie (sprawdzenie wszystkich możliwych kombinacji etykiet) wymaga 2 K operacji. Przeszukiwanie zachłanne: Znajdź: ŷ1 = arg max y {0,1} p(y 1 = y x), Znajdź: ŷ2 = arg max y {0,1} p(y 2 = y ŷ 1, x), Znajdź: ŷ 3 = arg max y {0,1} p(y 3 = y ŷ 1, ŷ 2, x),... wymaga K operacji. Inne możliwości: beam search (Kumar et al. 2013).

33 Łańcuchy klasyfikatorów- predykcja y 1 P (y 1 = 1) P (y 1 = 0) y 2 y 2 P (y 2 = 1 y 1 = 1) P (y 2 = 0 y 1 = 1) P (y 2 = 1 y 1 = 0) P (y 2 = 0 y 1 = 0) y 1 = 1, y 2 = 1 y 1 = 1, y 2 = 0 y 1 = 0, y 2 = 1 y 1 = 0, y 2 = 0

34 Wyniki teoretyczne Stabilność CCnet ze względu na wybraną funkcję straty: niewielka zmiana zbioru treningowego nie wpływa znacząco na wartość funkcji straty dla CCnet. Oszacowanie błędu generalizacji dla CCnet, dla wybranej funkcji straty: używamy pomysłu opisanego w pracy Bousquet & Elisseeff (JMLR 2002), który pozwala udowodnić oszacowanie błędu generalizacji używając stabilności.

35 Funkcje straty Niech: g(x, y, θ) = p(y x, θ) max y y p(y x, θ). Strata 0-1: l(x, y, θ) = { 1 if g(x, y, θ) < 0 0 if g(x, y, θ) 0. (5) Modyfikacja straty 0-1: 1 if g(x, y, θ) < 0 l γ (x, y, θ) = 1 g(x, y, θ)/γ if 0 g(x, y, θ) < γ 0 if g(x, y, θ) γ.

36 Funkcje straty Niech: g(x, y, θ) = p(y x, θ) max y y p(y x, θ). Strata 0-1: l(x, y, θ) = { 1 if g(x, y, θ) < 0 0 if g(x, y, θ) 0. (5) Modyfikacja straty 0-1: 1 if g(x, y, θ) < 0 l γ (x, y, θ) = 1 g(x, y, θ)/γ if 0 g(x, y, θ) < γ 0 if g(x, y, θ) γ.

37 l(x,y,θ) l γ(x,y,θ) g(x,y,θ) 0 γ g(x,y,θ) (a) (b) Rysunek : Porównanie funkcji strat: l(x, y, θ) (a) oraz l γ (x, y, θ) (b).

38 Stabilność CCnet Oryginalny zbiór uczący: D = (x (i), y (i) ), i = 1,..., n Zmodyfikowany zbiór uczący: D l : obserwacja numer l z D została zamieniona przez niezależną kopię. Rozwiązania CCnet: ˆθ oraz ˆθ l wyliczone na podstawie zbiorów: D oraz D l. Twierdzenie (stabilność CCnet) Zakładamy że x 2 L i niech λ 2 > 0. Dla l = 1,..., n mamy: l γ (x, y, ˆθ) l γ (x, y, ˆθ l ) 4K(L2 + K). λ 2 nγ

39 Stabilność CCnet Oryginalny zbiór uczący: D = (x (i), y (i) ), i = 1,..., n Zmodyfikowany zbiór uczący: D l : obserwacja numer l z D została zamieniona przez niezależną kopię. Rozwiązania CCnet: ˆθ oraz ˆθ l wyliczone na podstawie zbiorów: D oraz D l. Twierdzenie (stabilność CCnet) Zakładamy że x 2 L i niech λ 2 > 0. Dla l = 1,..., n mamy: l γ (x, y, ˆθ) l γ (x, y, ˆθ l ) 4K(L2 + K). λ 2 nγ

40 Oszacowanie błędu generalizacji CCnet Błąd oczekiwany: err(ˆθ) = E x,y l γ (x, y, ˆθ), Błąd na danych uczących: Err(ˆθ) = 1 n n l γ (x (i), y (i), ˆθ). i=1 Twierdzenie (oszacowanie błędu generalizacji) Zakładamy że x 2 L oraz λ 2 > 0. Mamy następujące oszacowanie z prawdopodobieństwem co najmniej 1 δ: ( err(ˆθ) Err(ˆθ) 8K(L2 + K) 16K(L 2 ) + K) log(1/δ) λ 2 nγ λ 2 γ 2n

41 Oszacowanie błędu generalizacji CCnet Błąd oczekiwany: err(ˆθ) = E x,y l γ (x, y, ˆθ), Błąd na danych uczących: Err(ˆθ) = 1 n n l γ (x (i), y (i), ˆθ). i=1 Twierdzenie (oszacowanie błędu generalizacji) Zakładamy że x 2 L oraz λ 2 > 0. Mamy następujące oszacowanie z prawdopodobieństwem co najmniej 1 δ: ( err(ˆθ) Err(ˆθ) 8K(L2 + K) 16K(L 2 ) + K) log(1/δ) λ 2 nγ λ 2 γ 2n

42 Eksperymenty Porównanie metod: 1. BRlogit 3, 2. BRtree, 3. BRnet, dla α = 0, 0.5, 1 4, 4. CClogit 5, 5. CCtree, 6. CCnet, dla α = 0, 0.5, 1. 3 Dembczynski et. al Liu Kumar et. al. 2013; Montanes 2014; Dembczynski et. al. 2012

43 Eksperymenty Miary oceny: Dokładność zbioru: Subset accuracy(y, ŷ) = I [y = ŷ]. Miara Hamminga: Hamming measure(y, ŷ) = 1 K K I [y k = ŷ k ]. k=1 Liczba wybranych zmiennych. Czas budowy modelu.

44 Eksperymenty Dataset CClogit CCtree CCnet CCnet CCnet BRlogit BRtree BRnet BRnet BRnet (α = 1) (α = 0) (α = 0.5) (α = 1) (α = 0) (α = 0.5) music yeast scene birds flags medical cal genbase mediamill enron bookmarks bibtex avg rank Tabela : Dokładność zbioru. Parametr λ wybrany za pomocą BIC. Pogrubione liczby odpowiadają najlepszej metodzie.

45 Eksperymenty Dataset CClogit CCtree CCnet CCnet CCnet BRlogit BRtree BRnet BRnet BRnet (α = 1) (α = 0) (α = 0.5) (α = 1) (α = 0) (α = 0.5) music yeast scene birds flags medical cal genbase mediamill enron bookmarks bibtex avg rank Tabela : Miara Hamminga. Parametr λ wybrany za pomocą BIC. Pogrubione liczby odpowiadają najlepszej metodzie.

46 Eksperymenty Dataset CClogit CCtree CCnet CCnet CCnet BRlogit BRtree BRnet BRnet BRnet (α = 1) (α = 0) (α = 0.5) (α = 1) (α = 0) (α = 0.5) music yeast scene birds flags medical cal genbase mediamill enron bookmarks bibtex avg rank Tabela : Liczba wybranych zmiennych. Parametr λ wybrany za pomocą BIC. Pogrubione liczby odpowiadają najlepszej metodzie.

47 Eksperymenty Dataset CClogit CCtree CCnet CCnet CCnet BRlogit BRtree BRnet BRnet BRnet (α = 1) (α = 0) (α = 0.5) (α = 1) (α = 0) (α = 0.5) music yeast scene birds flags medical cal genbase mediamill enron bookmarks bibtex avg rank Tabela : Czas budowy modelu. Parametr λ wybrany za pomocą BIC. Pogrubione liczby odpowiadają najlepszej metodzie.

48 Eksperymenty Wnioski: 1. CCnet (z dowolną α) osiąga większą dokładność zbioru niż inne metody. 2. Wartość α nie ma bardzo dużego wpływu na dokładność i miarę Hamminga. Wartość α > 0 jest zalecana ze względu na selekcję zmiennych. 3. BRnet osiąga największe wartości miary Hamminga. 4. Kara lasso (BRnet, α = 1 oraz CCnet, α = 1) pozwala na wybór najmniejszej liczby zmiennych. 5. Najmniejsze czasy dopasowania modelu obserwujemy dla kary lasso (BRnet, α = 1 oraz CCnet, α = 1).

49 Eksperyment 2 Wybrany zbiór zmiennych: Cel eksperymentu: S = K {1 r p : ˆθ k,r 0}. k=1 Kolejność dopasowania modeli w łańcuchu może wpływać na jakość modelu, a co za tym idzie na to które zmienne są wybierane. Sprawdzamy stabilność wyboru zmiennych ze względu na kolejność dopasowania modeli w łańcuchu. Powtarzamy dopasowanie CCnet dla różnych permutacji etykiet i dla każdej wyznaczamy zbiór S.

50 Features 150 Features 150 Features Permutations in CC Permutations in CC Permutations in CC (a)ccnet+aic (b)ccnet+bic (c)cctree Rysunek : Wybrane zmienne dla różnych kolejności dopasowania modeli. Czarne kropki oznaczają wybrane zmienne.

51 Eksperyment 2 Dataset p mean of S sd of S >75% >90% >95% music yeast scene birds flags medical cal genbase mediamill enron bookmarks bibtex Tabela : Stabilność CCnet dla BIC.

52 Eksperyment 2 Dataset p mean of S sd of S >75% >90% >95% music yeast scene birds flags medical cal genbase mediamill enron bookmarks bibtex Tabela : Stabilność CCnet dla AIC.

53 Eksperyment 2 Dataset p mean of S sd of S >75% >90% >95% music yeast scene birds flags medical cal genbase mediamill enron bookmarks bibtex Tabela : Stabilność CCtree.

54 Eksperyment 2 Wnioski: 1. Stabilność zależy od zbioru danych. Dla pewnych zbiorów (np. CCnet+ BIC, zbiór genbase) wybieramy dokładnie te same zmienne dla wszystkich permutacji etykiet. 2. CCnet z BIC działa stabilnie, większość zmiennych jest wybierana dla co najmniej 95% permutacji etykiet. 3. Ostateczny zbiór zmiennych istotnych może być wybierany poprzez uwzględnienie zmiennych które pojawiły się dla większości permutacji (np. dla najmniej 95% permutacji).

55 Narzędzia: Biblioteka MULAN (JAVA): duża liczba zaimplementowanych metod, wykorzystuje bibliotekę WEKA. Biblioteka MEKA (JAVA): posiada interfejs graficzny, wykorzystuje bibliotekę WEKA. Pakiet mldr (R): transformacje BR, LP, wizualizacja danych z wieloma etykietami.

56 Referencje: 1. P. Teisseyre, Joint multi-label classification and feature selection using classifier chains and elastic net regularization, w recenzji, P. Teisseyre, Feature ranking for multi-label classification using Markov Networks, Neurocomputing, 2016, 3. H. Liu et. al., MLSLR: Multilabel Learning via Sparse Logistic Regression, Information Sciences, 2015, 4. K. Dembczyński et. al., On label dependence and loss minimization in multi-label classification, Machine Learning, 2012, 5. E. Ising, Beitrag zur Theorie des Ferromagnetismus, Zeitschrift für Physik, 1925, 6. W. Bian et. al., CorrLog: Correlated Logistic Models for Joint Prediction of Multiple Labels, JMLR Proceedings, 2012.

Predykcja i selekcja zmiennych w klasyfikacji z wieloma etykietami przy użyciu łańcuchów klasyfikatorów i sieci elastycznej

Predykcja i selekcja zmiennych w klasyfikacji z wieloma etykietami przy użyciu łańcuchów klasyfikatorów i sieci elastycznej Seminarium Poznań 2016 Predykcja i selekcja zmiennych w klasyfikacji z wieloma etykietami przy użyciu łańcuchów klasyfikatorów i sieci elastycznej Paweł Teisseyre Instytut Podstaw Informatyki PAN Plan

Bardziej szczegółowo

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA Jan Mielniczuk Wisła, grudzień 2009 PLAN Błędy predykcji i ich podstawowe estymatory Estymacja błędu predykcji w modelu liniowym. Funkcje kryterialne Własności

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 2 κ-nn i Naive Bayes autorzy: M. Zięba, J.M. Tomczak, A. Gonczarek, S. Zaręba Cel zadania Celem zadania jest implementacja klasyfikatorów

Bardziej szczegółowo

Rozpoznawanie obrazów

Rozpoznawanie obrazów Rozpoznawanie obrazów Laboratorium Python Zadanie nr 2 κ-nn i Naive Bayes autorzy: M. Zięba, J.M. Tomczak, A. Gonczarek, S. Zaręba, J. Kaczmar Cel zadania Celem zadania jest implementacja klasyfikatorów

Bardziej szczegółowo

Wojciech Skwirz

Wojciech Skwirz 1 Regularyzacja jako metoda doboru zmiennych objaśniających do modelu statystycznego. 2 Plan prezentacji 1. Wstęp 2. Część teoretyczna - Algorytm podziału i ograniczeń - Regularyzacja 3. Opis wyników badania

Bardziej szczegółowo

Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej. Adam Żychowski

Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej. Adam Żychowski Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej Adam Żychowski Definicja problemu Każdy z obiektów może należeć do więcej niż jednej kategorii. Alternatywna definicja Zastosowania

Bardziej szczegółowo

Estymacja gęstości prawdopodobieństwa metodą selekcji modelu

Estymacja gęstości prawdopodobieństwa metodą selekcji modelu Estymacja gęstości prawdopodobieństwa metodą selekcji modelu M. Wojtyś Wydział Matematyki i Nauk Informacyjnych Politechnika Warszawska Wisła, 7 grudnia 2009 Wstęp Próba losowa z rozkładu prawdopodobieństwa

Bardziej szczegółowo

Rozpoznawanie obrazów

Rozpoznawanie obrazów Rozpoznawanie obrazów Ćwiczenia lista zadań nr 7 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie

Bardziej szczegółowo

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska Wrocław University of Technology WYKŁAD 4 Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie autor: Maciej Zięba Politechnika Wrocławska Klasyfikacja Klasyfikacja (ang. Classification):

Bardziej szczegółowo

Rozpoznawanie obrazów

Rozpoznawanie obrazów Rozpoznawanie obrazów Laboratorium Python Zadanie nr 3 Regresja logistyczna autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest zaimplementowanie modelu

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 2 Detekcja twarzy autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się algorytmem gradientu prostego

Bardziej szczegółowo

Elementy modelowania matematycznego

Elementy modelowania matematycznego Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski

Bardziej szczegółowo

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,

Bardziej szczegółowo

Estymatory regresji rangowej oparte na metodzie LASSO

Estymatory regresji rangowej oparte na metodzie LASSO Estymatory regresji rangowej oparte na metodzie LASSO Wojciech Rejchel UMK Toruń Wisła 2013 Z = (X, Y ), Z = (X, Y ) - niezależne wektory losowe o tym samym rozkładzie P X, X X R m, Y, Y R Z = (X, Y ),

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 3 Detekcja twarzy autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba Cel zadania Celem zadania jest zaimplementowanie algorytmów

Bardziej szczegółowo

Porównanie modeli regresji. klasycznymi modelami regresji liniowej i logistycznej

Porównanie modeli regresji. klasycznymi modelami regresji liniowej i logistycznej Porównanie modeli logicznej regresji z klasycznymi modelami regresji liniowej i logistycznej Instytut Matematyczny, Uniwersytet Wrocławski Małgorzata Bogdan Instytut Matematyki i Informatyki, Politechnika

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 2 autorzy: A. Gonczarek, J.M. Tomczak Metody estymacji Zad. 1 Pojawianie się spamu opisane jest zmienną losową x o rozkładzie dwupunktowym

Bardziej szczegółowo

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski Modelowanie zależności pomiędzy zmiennymi losowymi Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski P Zmienne losowe niezależne - przypomnienie Dwie rzeczywiste zmienne losowe X i Y

Bardziej szczegółowo

Metody selekcji cech

Metody selekcji cech Metody selekcji cech A po co to Często mamy do dyspozycji dane w postaci zbioru cech lecz nie wiemy które z tych cech będą dla nas istotne. W zbiorze cech mogą wystąpić cechy redundantne niosące identyczną

Bardziej szczegółowo

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej

Bardziej szczegółowo

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne Wprowadzenie Prostym podejściem do klasyfikacji jest estymacja funkcji regresji r(x) =E(Y X =x)zpominięciemestymacjigęstościf k. Zacznijmyodprzypadkudwóchgrup,tj.gdy Y = {1,0}. Wówczasr(x) =P(Y =1 X =x)ipouzyskaniuestymatora

Bardziej szczegółowo

Własności estymatorów regresji porządkowej z karą LASSO

Własności estymatorów regresji porządkowej z karą LASSO Własności estymatorów regresji porządkowej z karą LASSO Uniwersytet Mikołaja Kopernika w Toruniu Uniwersytet Warszawski Badania sfinansowane ze środków Narodowego Centrum Nauki przyznanych w ramach finansowania

Bardziej szczegółowo

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno WSTĘP DO REGRESJI LOGISTYCZNEJ Dr Wioleta Drobik-Czwarno REGRESJA LOGISTYCZNA Zmienna zależna jest zmienną dychotomiczną (dwustanową) przyjmuje dwie wartości, najczęściej 0 i 1 Zmienną zależną może być:

Bardziej szczegółowo

Selekcja modelu liniowego i predykcja metodami losowych podprzestrzeni

Selekcja modelu liniowego i predykcja metodami losowych podprzestrzeni Selekcja modelu liniowego i predykcja metodami losowych podprzestrzeni Paweł Teisseyre Instytut Podstaw Informatyki, Polska Akademia Nauk Paweł Teisseyre Selekcja modelu liniowego i predykcja 1 / 29 Plan

Bardziej szczegółowo

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18 Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)

Bardziej szczegółowo

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I Wojciech Kotłowski Instytut Informatyki Politechniki Poznańskiej email: imię.nazwisko@cs.put.poznan.pl pok. 2 (CW) tel. (61)665-2936 konsultacje:

Bardziej szczegółowo

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE Joanna Sawicka Plan prezentacji Model Poissona-Gamma ze składnikiem regresyjnym Konstrukcja optymalnego systemu Bonus- Malus Estymacja

Bardziej szczegółowo

Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki

Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki Mateusz Kobos, 10.12.2008 Seminarium Metody Inteligencji Obliczeniowej 1/46 Spis treści Działanie algorytmu Uczenie Odtwarzanie/klasyfikacja

Bardziej szczegółowo

Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu

Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu Seminarium Zakładu Inteligentnych Systemów Wspomagania Decyzji Instytutu Informatyki Politechniki Poznańskiej oraz Sekcji Inteligentnych Systemów

Bardziej szczegółowo

WYKŁAD 3. Klasyfikacja: modele probabilistyczne

WYKŁAD 3. Klasyfikacja: modele probabilistyczne Wrocław University of Technology WYKŁAD 3 Klasyfikacja: modele probabilistyczne Maciej Zięba Politechnika Wrocławska Klasyfikacja Klasyfikacja (ang. Classification): Dysponujemy obserwacjami z etykietami

Bardziej szczegółowo

Regresyjne metody łączenia klasyfikatorów

Regresyjne metody łączenia klasyfikatorów Regresyjne metody łączenia klasyfikatorów Tomasz Górecki, Mirosław Krzyśko Wydział Matematyki i Informatyki Uniwersytet im. Adama Mickiewicza XXXV Konferencja Statystyka Matematyczna Wisła 7-11.12.2009

Bardziej szczegółowo

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74 3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018 Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład II bogumil.konopka@pwr.edu.pl 2017/2018 Określenie rzeczywistej dokładności modelu Zbiór treningowym vs zbiór testowy Zbiór treningowy

Bardziej szczegółowo

Maksymalne powtórzenia w tekstach i zerowa intensywność entropii

Maksymalne powtórzenia w tekstach i zerowa intensywność entropii Maksymalne powtórzenia w tekstach i zerowa intensywność entropii Łukasz Dębowski ldebowsk@ipipan.waw.pl i Instytut Podstaw Informatyki PAN Warszawa 1 Wprowadzenie 2 Ograniczenia górne i dolne 3 Przykłady

Bardziej szczegółowo

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Jacek Szcześniak Jerzy Błaszczyński Roman Słowiński Poznań, 5.XI.2013r. Konspekt Wstęp Wprowadzenie Metody typu wrapper Nowe metody

Bardziej szczegółowo

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Algorytmy metaheurystyczne Wykład 11. Piotr Syga Algorytmy metaheurystyczne Wykład 11 Piotr Syga 22.05.2017 Drzewa decyzyjne Idea Cel Na podstawie przesłanek (typowo zbiory rozmyte) oraz zbioru wartości w danych testowych, w oparciu o wybrane miary,

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 3 Metody estymacji. Estymator największej wiarygodności Zad. 1 Pojawianie się spamu opisane jest zmienną losową y o rozkładzie zero-jedynkowym

Bardziej szczegółowo

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak 1 Wprowadzenie. Zmienne losowe Podczas kursu interesować nas będzie wnioskowanie o rozpatrywanym zjawisku. Poprzez wnioskowanie rozumiemy

Bardziej szczegółowo

Jądrowe klasyfikatory liniowe

Jądrowe klasyfikatory liniowe Jądrowe klasyfikatory liniowe Waldemar Wołyński Wydział Matematyki i Informatyki UAM Poznań Wisła, 9 grudnia 2009 Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 1 / 19 Zagadnienie

Bardziej szczegółowo

Rozpoznawanie obrazów

Rozpoznawanie obrazów Rozpoznawanie obrazów Laboratorium Python Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest implementacja liniowego zadania

Bardziej szczegółowo

Konferencja Statystyka Matematyczna Wisła 2013

Konferencja Statystyka Matematyczna Wisła 2013 Konferencja Statystyka Matematyczna Wisła 2013 Wykorzystanie metod losowych podprzestrzeni do predykcji i selekcji zmiennych Paweł Teisseyre Instytut Podstaw Informatyki, Polska Akademia Nauk Paweł Teisseyre

Bardziej szczegółowo

Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu liniowym, scenariusz p bliskie lub większe od n

Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu liniowym, scenariusz p bliskie lub większe od n Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu iowym, scenariusz p bliskie lub większe od n Przemyslaw.Biecek@gmail.com, MIM Uniwersytet Warszawski Plan prezentacji: 1 Motywacja;

Bardziej szczegółowo

Klasyfikacja z milionami etykiet

Klasyfikacja z milionami etykiet Klasyfikacja z milionami etykiet Krzysztof Dembczyński Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Big Data: Przetwarzanie i eksploracja Poznań, 22 kwietnia 2016 r. Geoff

Bardziej szczegółowo

Entropia Renyi ego, estymacja gęstości i klasyfikacja

Entropia Renyi ego, estymacja gęstości i klasyfikacja Entropia Renyi ego, estymacja gęstości i klasyfikacja Wojciech Czarnecki Jacek Tabor 6 lutego 2014 1 / Wojciech Czarnecki, Jacek Tabor Renyi s Multithreshold Linear Classifier 1/36 36 2 / Wojciech Czarnecki,

Bardziej szczegółowo

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka Statystyka opisowa. Wykład V. e-mail:e.kozlovski@pollub.pl Spis treści 1 Prosta regresji cechy Y względem cech X 1,..., X k. 2 3 Wyznaczamy zależność cechy Y od cech X 1, X 2,..., X k postaci Y = α 0 +

Bardziej szczegółowo

Metody klasyfikacji dla nielicznej próbki wektorów o wielkim wymiarze

Metody klasyfikacji dla nielicznej próbki wektorów o wielkim wymiarze Metody klasyfikacji dla nielicznej próbki wektorów o wielkim wymiarze Small n large p problem Problem w analizie wielu zbiorów danych biologicznych: bardzo mała liczba obserwacji (rekordów, próbek) rzędu

Bardziej szczegółowo

Mikroekonometria 9. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 9. Mikołaj Czajkowski Wiktor Budziński Mikroekonometria 9 Mikołaj Czajkowski Wiktor Budziński Wielomianowy model logitowy Uogólnienie modelu binarnego Wybór pomiędzy 2 lub większą liczbą alternatyw Np. wybór środka transportu, głos w wyborach,

Bardziej szczegółowo

Algorytmy klasyfikacji

Algorytmy klasyfikacji Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego Łukasz Kończyk WMS AGH Plan prezentacji Model regresji liniowej Uogólniony model liniowy (GLM) Ryzyko ubezpieczeniowe Przykład

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z liniowym zadaniem najmniejszych

Bardziej szczegółowo

Customer Attribution Models. czyli o wykorzystaniu machine learning w domu mediowym.

Customer Attribution Models. czyli o wykorzystaniu machine learning w domu mediowym. Customer Attribution Models czyli o wykorzystaniu machine learning w domu mediowym. Proces decyzyjny MAILING SEO SEM DISPLAY RETARGETING PRZEGRANI??? ZWYCIĘZCA!!! Modelowanie atrybucja > Słowo klucz: wpływ

Bardziej szczegółowo

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych mgr inż. C. Dendek prof. nzw. dr hab. J. Mańdziuk Politechnika Warszawska, Wydział Matematyki i Nauk Informacyjnych Outline 1 Uczenie

Bardziej szczegółowo

Analiza składowych głównych

Analiza składowych głównych Analiza składowych głównych Wprowadzenie (1) W przypadku regresji naszym celem jest predykcja wartości zmiennej wyjściowej za pomocą zmiennych wejściowych, wykrycie związku między wielkościami wejściowymi

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia

Bardziej szczegółowo

Ekonometria. Metodologia budowy modelu. Jerzy Mycielski. Luty, 2011 WNE, UW. Jerzy Mycielski (WNE, UW) Ekonometria Luty, / 18

Ekonometria. Metodologia budowy modelu. Jerzy Mycielski. Luty, 2011 WNE, UW. Jerzy Mycielski (WNE, UW) Ekonometria Luty, / 18 Ekonometria Metodologia budowy modelu Jerzy Mycielski WNE, UW Luty, 2011 Jerzy Mycielski (WNE, UW) Ekonometria Luty, 2011 1 / 18 Sprawy organizacyjne Dyżur: środa godz. 14-15 w sali 302. Strona internetowa

Bardziej szczegółowo

Metoda największej wiarogodności

Metoda największej wiarogodności Wprowadzenie Założenia Logarytm funkcji wiarogodności Metoda Największej Wiarogodności (MNW) jest bardziej uniwersalną niż MNK metodą szacowania wartości nieznanych parametrów Wprowadzenie Założenia Logarytm

Bardziej szczegółowo

SZTUCZNA INTELIGENCJA

SZTUCZNA INTELIGENCJA SZTUCZNA INTELIGENCJA WYKŁAD 4. UCZENIE SIĘ INDUKCYJNE Częstochowa 24 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska WSTĘP Wiedza pozyskana przez ucznia ma charakter odwzorowania

Bardziej szczegółowo

Regresja linearyzowalna

Regresja linearyzowalna 1 z 5 2007-05-09 23:22 Medycyna Praktyczna - portal dla lekarzy Regresja linearyzowalna mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie Data utworzenia:

Bardziej szczegółowo

Quick Launch Manual:

Quick Launch Manual: egresja Odds atio Quick Launch Manual: regresja logistyczna i odds ratio Uniwesytet Warszawski, Matematyka 28.10.2009 Plan prezentacji egresja Odds atio 1 2 egresja egresja logistyczna 3 Odds atio 4 5

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Stosowana Analiza Regresji

Stosowana Analiza Regresji Stosowana Analiza Regresji Wykład VIII 30 Listopada 2011 1 / 18 gdzie: X : n p Q : n n R : n p Zał.: n p. X = QR, - macierz eksperymentu, - ortogonalna, - ma zera poniżej głównej diagonali. [ R1 X = Q

Bardziej szczegółowo

Dyskretne procesy stacjonarne o nieskończonej entropii nadwyżkowej

Dyskretne procesy stacjonarne o nieskończonej entropii nadwyżkowej Dyskretne procesy stacjonarne o nieskończonej entropii nadwyżkowej Łukasz Dębowski ldebowsk@ipipan.waw.pl i Instytut Podstaw Informatyki PAN Co to jest entropia nadwyżkowa? Niech (X i ) i Z będzie procesem

Bardziej szczegółowo

Statystyka Matematyczna Anna Janicka

Statystyka Matematyczna Anna Janicka Statystyka Matematyczna Anna Janicka wykład X, 9.05.206 TESTOWANIE HIPOTEZ STATYSTYCZNYCH II: PORÓWNYWANIE TESTÓW Plan na dzisiaj 0. Przypomnienie potrzebnych definicji. Porównywanie testów 2. Test jednostajnie

Bardziej szczegółowo

Optymalizacja systemów

Optymalizacja systemów Optymalizacja systemów Laboratorium - problem detekcji twarzy autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, P. Klukowski Cel zadania Celem zadania jest zapoznanie się z gradientowymi algorytmami optymalizacji

Bardziej szczegółowo

Imputacja brakujacych danych binarnych w modelu autologistycznym 1

Imputacja brakujacych danych binarnych w modelu autologistycznym 1 Imputacja brakujacych danych binarnych w modelu autologistycznym 1 Marta Zalewska Warszawski Uniwesytet Medyczny Statystyka Matematyczna Wisła, grudzień 2009 1 Współautorzy: Wojciech Niemiro, UMK Toruń

Bardziej szczegółowo

Mikroekonometria 12. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 12. Mikołaj Czajkowski Wiktor Budziński Mikroekonometria 12 Mikołaj Czajkowski Wiktor Budziński Dane panelowe Co jeśli mamy do dyspozycji dane panelowe? Kilka obserwacji od tych samych respondentów, w różnych punktach czasu (np. ankieta realizowana

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 2 autorzy: A. Gonczarek, J.M. Tomczak Metody estymacji ML Zad. 1 Pojawianie się spamu opisane jest zmienną losową x o rozkładzie dwupunktowym

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Bioinformatyka Wykład 9 Wrocław, 5 grudnia 2011 Temat. Test zgodności χ 2 Pearsona. Statystyka χ 2 Pearsona Rozpatrzmy ciąg niezależnych zmiennych losowych X 1,..., X n o jednakowym dyskretnym rozkładzie

Bardziej szczegółowo

Metoda najmniejszych kwadratów

Metoda najmniejszych kwadratów Metoda najmniejszych kwadratów Przykład wstępny. W ekonomicznej teorii produkcji rozważa się funkcję produkcji Cobba Douglasa: z = AL α K β gdzie z oznacza wielkość produkcji, L jest nakładem pracy, K

Bardziej szczegółowo

Elementy inteligencji obliczeniowej

Elementy inteligencji obliczeniowej Elementy inteligencji obliczeniowej Paweł Liskowski Institute of Computing Science, Poznań University of Technology 9 October 2018 1 / 19 Perceptron Perceptron (Rosenblatt, 1957) to najprostsza forma sztucznego

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =. Prawdopodobieństwo i statystyka 3..00 r. Zadanie Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX 4 i EY 6. Rozważamy zmienną losową Z. X + Y Wtedy (A) EZ 0,

Bardziej szczegółowo

Rozpoznawanie obrazów

Rozpoznawanie obrazów Rozpoznawanie obrazów Ćwiczenia lista zadań nr 5 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie

Bardziej szczegółowo

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania

Bardziej szczegółowo

Klasyfikator liniowy Wstęp Klasyfikator liniowy jest najprostszym możliwym klasyfikatorem. Zakłada on liniową separację liniowy podział dwóch klas między sobą. Przedstawia to poniższy rysunek: 5 4 3 2

Bardziej szczegółowo

Regresja nieparametryczna series estimator

Regresja nieparametryczna series estimator Regresja nieparametryczna series estimator 1 Literatura Bruce Hansen (2018) Econometrics, rozdział 18 2 Regresja nieparametryczna Dwie główne metody estymacji Estymatory jądrowe Series estimators (estymatory

Bardziej szczegółowo

Statystyka Matematyczna Anna Janicka

Statystyka Matematyczna Anna Janicka Statystyka Matematyczna Anna Janicka wykład IX, 25.04.2016 TESTOWANIE HIPOTEZ STATYSTYCZNYCH Plan na dzisiaj 1. Hipoteza statystyczna 2. Test statystyczny 3. Błędy I-go i II-go rodzaju 4. Poziom istotności,

Bardziej szczegółowo

Stosowana Analiza Regresji

Stosowana Analiza Regresji Stosowana Analiza Regresji Wykład VI... 16 Listopada 2011 1 / 24 Jest to rozkład zmiennej losowej rozkład chi-kwadrat Z = n i=1 X 2 i, gdzie X i N(µ i, 1) - niezależne. Oznaczenie: Z χ 2 (n, λ), gdzie:

Bardziej szczegółowo

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Stanisław Cichocki Natalia Nehrebecka. Wykład 7 Stanisław Cichocki Natalia Nehrebecka Wykład 7 1 1. Metoda Największej Wiarygodności MNW 2. Założenia MNW 3. Własności estymatorów MNW 4. Testowanie hipotez w MNW 2 1. Metoda Największej Wiarygodności

Bardziej szczegółowo

WYKŁAD 2. Problem regresji - modele liniowe

WYKŁAD 2. Problem regresji - modele liniowe Wrocław University of Technology WYKŁAD 2 Problem regresji - modele liniowe Maciej Zięba Politechnika Wrocławska Regresja Regresja (ang. Regression): Dysponujemy obserwacjami z odpowiadającymi im wartościami

Bardziej szczegółowo

Podstawowe modele probabilistyczne

Podstawowe modele probabilistyczne Wrocław University of Technology Podstawowe modele probabilistyczne Maciej Zięba maciej.zieba@pwr.edu.pl Rozpoznawanie Obrazów, Lato 2018/2019 Pojęcie prawdopodobieństwa Prawdopodobieństwo reprezentuje

Bardziej szczegółowo

SPOTKANIE 4: Klasyfikacja: Regresja logistyczna

SPOTKANIE 4: Klasyfikacja: Regresja logistyczna Wrocław University of Technology SPOTKANIE 4: Klasyfikacja: Regresja logistyczna Szymon Zaręba Studenckie Koło Naukowe Estymator 179226@student.pwr.wroc.pl 23.11.2012 Rozkład dwupunktowy i dwumianowy Rozkład

Bardziej szczegółowo

Ekonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej

Ekonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej Ekonometria Modelowanie zmiennej jakościowej Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Ćwiczenia 8 Zmienna jakościowa 1 / 25 Zmienna jakościowa Zmienna ilościowa może zostać zmierzona

Bardziej szczegółowo

Klasyfikacja LDA + walidacja

Klasyfikacja LDA + walidacja Klasyfikacja LDA + walidacja Dr hab. Izabela Rejer Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Plan wykładu 1. Klasyfikator 2. LDA 3. Klasyfikacja wieloklasowa 4. Walidacja

Bardziej szczegółowo

Optymalizacja. Przeszukiwanie lokalne

Optymalizacja. Przeszukiwanie lokalne dr hab. inż. Instytut Informatyki Politechnika Poznańska www.cs.put.poznan.pl/mkomosinski, Maciej Hapke Idea sąsiedztwa Definicja sąsiedztwa x S zbiór N(x) S rozwiązań, które leżą blisko rozwiązania x

Bardziej szczegółowo

Drzewa decyzyjne i lasy losowe

Drzewa decyzyjne i lasy losowe Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM

Bardziej szczegółowo

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną

Bardziej szczegółowo

W4 Eksperyment niezawodnościowy

W4 Eksperyment niezawodnościowy W4 Eksperyment niezawodnościowy Henryk Maciejewski Jacek Jarnicki Jarosław Sugier www.zsk.iiar.pwr.edu.pl Badania niezawodnościowe i analiza statystyczna wyników 1. Co to są badania niezawodnościowe i

Bardziej szczegółowo

Wprowadzenie. Data Science Uczenie się pod nadzorem

Wprowadzenie. Data Science Uczenie się pod nadzorem Wprowadzenie Wprowadzenie Wprowadzenie Wprowadzenie Machine Learning Mind Map Historia Wstęp lub uczenie się z przykładów jest procesem budowy, na bazie dostępnych danych wejściowych X i oraz wyjściowych

Bardziej szczegółowo

Zawansowane modele wyborów dyskretnych

Zawansowane modele wyborów dyskretnych Zawansowane modele wyborów dyskretnych Jerzy Mycielski Uniwersytet Warszawski grudzien 2013 Jerzy Mycielski (Uniwersytet Warszawski) Zawansowane modele wyborów dyskretnych grudzien 2013 1 / 16 Model efektów

Bardziej szczegółowo

SPOTKANIE 2: Wprowadzenie cz. I

SPOTKANIE 2: Wprowadzenie cz. I Wrocław University of Technology SPOTKANIE 2: Wprowadzenie cz. I Piotr Klukowski Studenckie Koło Naukowe Estymator piotr.klukowski@pwr.edu.pl 17.10.2016 UCZENIE MASZYNOWE 2/27 UCZENIE MASZYNOWE = Konstruowanie

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010 STATYSTYKA MATEMATYCZNA WYKŁAD 14 18 stycznia 2010 Model statystyczny ROZKŁAD DWUMIANOWY ( ) {0, 1,, n}, {P θ, θ (0, 1)}, n ustalone P θ {K = k} = ( ) n θ k (1 θ) n k, k k = 0, 1,, n Geneza: Rozkład Bernoulliego

Bardziej szczegółowo

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 4 Dyskryminacja oparta na regresji liniowej i logistycznej. Perceptron Rosenblatta.

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 4 Dyskryminacja oparta na regresji liniowej i logistycznej. Perceptron Rosenblatta. Wykład 4 Dyskryminacja oparta na regresji liniowej i logistycznej. Perceptron Rosenblatta. Dyskryminacja oparta na regresji liniowej i logistycznej Wprowadzenie Problem analizy dyskryminacyjnej jest ściśle

Bardziej szczegółowo

Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego

Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego Rozdział 1 Statystyki Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego X = (X 1,..., X n ). Uwaga 1 Statystyka jako funkcja wektora zmiennych losowych jest zmienną losową

Bardziej szczegółowo

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład Data Mining Wykład 5 Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny Indeks Gini Popularnym kryterium podziału, stosowanym w wielu produktach komercyjnych, jest indeks Gini Algorytm SPRINT

Bardziej szczegółowo

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład Rozdział 1 Wektory losowe 1.1 Wektor losowy i jego rozkład Definicja 1 Wektor X = (X 1,..., X n ), którego każda współrzędna jest zmienną losową, nazywamy n-wymiarowym wektorem losowym (krótko wektorem

Bardziej szczegółowo

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 4 1 / 23 ZAGADNIENIE ESTYMACJI Zagadnienie

Bardziej szczegółowo