Wprowadzenie do uczenia maszynowego. Jakub Tomczak
|
|
- Kornelia Pawłowska
- 6 lat temu
- Przeglądów:
Transkrypt
1 Wprowadzenie do uczenia maszynowego Jakub Tomczak 2014
2 ii
3 Rozdział 1 Pojęcia podstawowe 1.1 Wprowadzenie. Zmienne losowe ˆ Podczas kursu interesować nas będzie wnioskowanie o rozpatrywanym zjawisku. Poprzez wnioskowanie rozumiemy predykcję poprzez poznanie zjawiska lub naśladowanie zjawiska. ˆ W celu formalnego opisania zjawiska posługiwać się będziemy pojęciem zmiennej losowej. Rysunek 1.1: Idea reprezentowania stanu świata za pomocą związków między różnymi wielkościami. ˆ Chcielibyśmy móc mierzyć nasze przekonanie (ang. belief ) związane z obserwacją świata x. ˆ Postulaty dot. miary przekonania b(x) podane przez Coxa: 1. Siła przekonania wyrażona za pomocą liczb rzeczywistych, np. 0 b(x) 1. 1
4 2 ROZDZIAŁ 1. POJĘCIA PODSTAWOWE 2. Jakościowa zgodność ze zdrowym rozsądkiem, tj. b(x) + b( x) = Spójność, tzn. jeśli konkluzja może być otrzymana w różny sposób, to każdy z tych sposobów musi dawać tę samą odpowiedź, tj. b(x, y z) = b(x z) b(y x, z) = b(y z) b(x y, z). ˆ Okazuje się, że miara przekonania musi spełniać zasady rachunku prawdopodobieństwa, tj.: reguła brzegowa (ang. sum rule) p(x) = y p(x, y) reguła łańcuchowa (ang. product rule) p(x, y) = p(x y) p(y) ˆ Rozpatrzmy prosty przykład dla zmiennych dyskretnych: p(x, y) y = 1y = 2 x = p(x) x = 2 x = p(y) Rysunek 1.2: Przykład rozkładów prawdopodobieństwa. ˆ Przykład zastosowania reguły łańcuchowej: p(x y = 2) = p(x, y = 2) p(y = 2) ˆ Dla zmiennych ciągłych rozkład prawdopodobieństwa zadany jest przy pomocy funkcji gęstości. ˆ Interesuje nas, że zmienna losowa przyjmuje wartości z ustalonego zakresu (a, b): p(x (a, b)) = b a p(x)dx ˆ Funkcja gęstości p(x) całkuje się do 1 i spełnia reguły rachunku prawdopodobieństwa: reguła brzegowa: p(x) = p(x, y)dy reguła łańcuchowa: p(x, y) = p(x y)p(y)
5 1.1. WPROWADZENIE. ZMIENNE LOSOWE 3 p(x, y) y = 1y = 2 p(x y = 2) x = x = 2 x = p(y) p(x, y = 2) Rysunek 1.3: Przykład zastosowania reguł rachunku prawdopodobieństwa. Rysunek 1.4: Przykład funkcji gęstości i rozkładu prawdopodobieństwa (dystrybuanty).
6 4 ROZDZIAŁ 1. POJĘCIA PODSTAWOWE 1.2 Wnioskowanie ˆ Zakładamy dwa rodzaje zmiennych losowych: Zmienne wejściowe (ang. inputs): x Zmienne wyjściowe (ang. outputs): y ˆ Zmienne mają wspólny rozkład p(x, y), który dla nas jest nieznany. ˆ Wiemy, że istnieje zależność między zmiennymi x i y. ˆ Zakładamy, że ta zależność może być przybliżona zależnością funkcyjną y = f(x), tj. ustalonemu x odpowiada dokładnie jedna wartość y. Rysunek 1.5: Idea wnioskowania, tj. istnienia zależności między zmiennymi. ˆ Wyznaczenie wartości y na podstawie x nazywamy podejmowaniem decyzji (ang. decision making), wnioskowaniem (ang. inference) albo predykcją (ang. prediction). ˆ W celu znalezienia zależności f(x) minimalizować będziemy ryzyko: R[f] = L(y, f(x)) p(x, y)dxdy = E x,y [ L(y, f(x)) ].
7 1.3. MODELOWANIE 5 ˆ L oznacza funkcję straty (ang. loss function): 1, jeśli y f(x) L(y, f(x)) = 0, w p.p. (klasyfikacja) L(y, f(x)) = ( y f(x) ) 2 (regresja) ˆ Można pokazać, że w celu minimalizacji ryzyka R[f] wystarczy minimalizować E y [ L(y, f(x)) x ]. f (x) = arg max p(y x) y [ ] f (x) = E y y x = y p(y x)dy (klasyfikacja) (regresja) 1.3 Modelowanie ˆ Najogólniej relacja pomiędzy zmiennymi x i y może być opisana przy pomocy łącznego rozkładu p(x, y). Wtedy rozkład warunkowy p(y x), na podstawie którego wnioskujemy, wyznaczamy z zależności: p(y x) = p(x, y) p(x) = p(x, y) y p(x, y) ˆ Zakładamy, że rzeczywisty rozkład p(x, y) może być zamodelowany poprzez p(x, y θ ), gdzie parametry θ nie są dla nas znane. ˆ Znana jest jedynie postać modelu p(x, y θ). ˆ Przykładowo p(x, y θ) = N (x, y µ, Σ), gdzie postać modelu to rozkład normalny, a parametry θ = {µ, Σ}. ˆ Modele generujące (ang. generative models) modelujemy osobno rozkłady p(x y, θ) i p(y θ). Wtedy p(x, y θ) = p(x y, θ) p(y θ), skąd p(y x, θ) = p(x y, θ) p(y θ) y p(x y, θ) p(y θ). ˆ Modele dyskryminujące (ang. discriminative models) bezpośrednio modelujemy rozkład warunkowy na zmienną decyzyjną, p(y x, θ). ˆ Modele funkcyjne (ang. discriminant functions) bezpośrednio modelujemy zależność funkcyjną y = f(x; θ), bez korzystania z prawdopodobieństw.
8 6 ROZDZIAŁ 1. POJĘCIA PODSTAWOWE 1.4 Uczenie Rysunek 1.6: Idea modelowania. ˆ Dysponujemy ciągiem niezależnych obserwacji D = {(x 1, y 1 ),..., (x N, y N )}, wygenerowanych z rzeczywistego rozkładu p(x, y). ˆ Uczenie polega na optymalizowaniu względem θ wybranej funkcji kosztu dopasowującej model p(x, y θ) do obserwacji D. ˆ Definiujemy wiarygodność (ang. likelihood) parametrów przy danym ciągu obserwacji: N p(d θ) = p(x n, y n θ) ˆ Wartość wiarygodności mówi o pewności z jaką nasz model o ustalonych parametrach θ mógł wygenerować obserwacje D. ˆ Niepewność parametru θ będziemy modelować rozkładem a priori p(θ) (ang. prior). ˆ Reguły prawdopodobieństwa (wzór Bayesa) pozwalają modyfikować niepewność parametru poprzez uwzględnienie obserwacji. ˆ Otrzymujemy rozkład a posteriori (ang. posterior): p(θ D) = p(d θ)p(θ) p(d) posterior likelihood prior ˆ Można pokazać, że jeśli θ jest rzeczywistym parametrem, który odpowiada za generowanie danych, to jeśli p(θ ) > 0, wtedy: lim p(θ D n) = δ(θ θ ) n
9 1.5. SYSTEMY DYNAMICZNE 7 Rysunek 1.7: Idea uwzględnienia niepewności parametrów w modelowaniu. ˆ Uczenie częstościowe (ang. frequentist learning) wyznaczenie estymatora punktowego parametrów θ: estymacja maksymalnej wiarygodności (ang. maximum likelihood estimation, ML): θ ML = arg max p(d θ), θ estymacja maksymalnej a posteriori (ang. maximum a posteriori estimation, MAP): θ MAP = arg max p(θ D). θ ˆ Uczenie bayesowskie (ang. Bayesian learning) wyznaczenie rozkładu predykcyjnego (ang. predictive distribution), tj. wycałkowanie względem nieznanych parametrów: p(y x, D) = 1.5 Systemy dynamiczne p(y x, θ) }{{} model p(θ D) dθ. }{{} posterior ˆ Dotychczas rozważaliśmy zjawiska, które nie zależały od czasu, tj. zakładaliśmy, że obserwowane dane są generowane niezależnie z tego samego rozkładu (independent and identically distributed i.i.d.). Jednakże w wielu przypadkach założenie to jest nieprawdziwe. Dlatego też rozważa się sytuacje dla danych sekwencyjnych. ˆ Dane sekwencyjne zazwyczaj pojawiają się przy okazji pomiarów szeregów czasowych, np. pomiarów opadów deszczu w kolejnych dniach na zadanym obszarze, dzienne wartości kursu walut, czy wartości cech akustycznych w kolejnych klatkach nagrania mowy. Sekwencyjność danych może nie zależeć od czasu, np. kolejność nukleotydów w DNA, kolejność liter czy wyrazów w tekście pisanym.
10 8 ROZDZIAŁ 1. POJĘCIA PODSTAWOWE ˆ Warto również rozróżnić pomiędzy rozkładami stacjonarnymi a niestacjonarnymi. W przypadku stacjonarnym dane ewoluują w czasie, ale rozkład, z którego są generowane, pozostaje bez zmian. Natomiast w przypadku niestacjonarnym rozkład jest zmienny w czasie. ˆ Istnieje wiele sposobów pozwalających na modelowanie danych sekwencyjnych, np.: modelowanie deterministyczne: * równania różniczkowe (czas ciągły): * równania różnicowe (czas dyskretny): modelowanie probabilistyczne: dx dt = f(x) x n+1 = f(x n ) * modele (łańcuchy) Markowa, tzn. rozkład dla obecnego stanu zależy od stanów poprzednich, na przykład model Markowa pierwszego rzędu: i funkcja wiarygodności: * Systemy dynamiczne (szum: η x, η y ): p(x n+1 x 1,..., x n ) = p(x n+1 x n ) N p(x 1,..., x N ) = p(x 1 ) p(x n x n 1 ) n=2 x n+1 = f(x n, η x ) y n+1 = g(x n+1, η y ) oraz ich szczególny przypadek Liniowych Systemów Dynamicznych (zakłada się szum gaussowski η x i η y ): p(x n+1 x n ) = N (x n+1 Ax n, Σ x ) p(y n+1 x n+1 ) = N (y n+1 Bx n+1, Σ y )
11 Rozdział 2 Podstawowe problemy 2.1 Wstęp ˆ Interesuje nas poznanie rozważanego zjawiska. W tym celu chcemy odkryć zależności między wielkościami występującymi w zjawisku. Przez x X, gdzie X = X 1... X D, oznaczamy wielkości wejściowe (wejścia), zaś przez y Y wielkości wyjściowe (wyjście). Zależność zapisujemy jako f : X Y. x f(x) y Rysunek 2.1: Diagram blokowy opisujący rozpatrywaną zależność zjawiska. Przykłady: x cukier drożdże woda f(x) y etanol Rysunek 2.2: Diagram blokowy opisujący zależność zjawiska chemicznego. ˆ Opisanie zależności za pomocą zadanej klasy modeli nazywamy modelowaniem. ˆ W przypadku, gdy rozpatrujemy modele parametryczne (tj. takie, w których skończony zestaw parametrów koduje informacje o zjawisku), to wybór modelu polega na ustaleniu (uczeniu) parametrów. Wyszczególniamy parametry w R D w modelu ȳ(x; w). 9
12 10 ROZDZIAŁ 2. PODSTAWOWE PROBLEMY x zdjęcie f(x) y twarz Rysunek 2.3: Diagram blokowy opisujący zależność zjawiska rozpoznawania twarzy. ˆ Zjawisko znane jest wyłącznie poprzez obserwacje (dane): D = {(x n, y n )} N. Ważne jest, czy rozważane zjawisko można traktować jako statyczne (zależność sekwencyjna danych jest pomijalna), czy sekwencyjne (w szczególnym przypadku dynamiczne, tj. sekwencyjność jest wyrażona poprzez zależność czasową). ˆ Czasem w literaturze przedmiotu złożony proces składający się z przeprowadzenia eksperymentu (zebranie danych), wyboru klasy modeli oraz uczenia nazywa się identyfikacją systemów. 2.2 Zjawiska deterministyczne ˆ W najprostszym przypadku mamy sytuację, gdy dokładnie wiemy jaka zależność nas interesuje, tj. znamy klasę modelu. Mniej restrykcyjny przypadek zakłada, że rzeczywistość może być prawie idealnie opisana pewną klasą modelu (patrz przykład z produkcją etanolu). ˆ Przypadek ten określany jest jako obiekt (zjawisko) w klasie modeli. ˆ Zadanie znalezienia opisu zjawiska w klasie modeli polega więc na dopasowaniu modelu do danych. ˆ Inne przykłady: wyznaczanie trendu liniowego (mimo że zjawisko może być silnie nieliniowe, to często wyznaczenie trendu liniowego jest wystarczające, żeby pobieżnie poznać charakter zjawiska), poznanie reguł gry w karty. ˆ W praktyce przypadek zjawiska w klasie modeli jest rzadko spotykany ze względu na występujące zakłócenia lub niemożność wyizolowania zjawiska, co wiąże się z niemożnością obserwacji wszystkich czynników wpływających na zjawisko. ˆ Wówczas rozpatruje się przypadek wyboru optymalnego modelu. Warto zaznaczyć, iż nadal traktujemy zjawisko jako deterministyczne, tj. zależności w nim występujące nie są losowe, ale dopuszczamy występowanie zakłóceń zewnętrznych.
13 2.2. ZJAWISKA DETERMINISTYCZNE 11 ˆ Wybór modelu (parametrycznego) polega na znalezieniu wartości parametrów, dla których dla występuje najlepsze dopasowanie modelu do danych. W tym celu należy zdefiniować funkcję dopasowania modelu do danych, np. (przyjmujemy zapis: ȳ(x n ; w) = ȳ n, ȳ(x; w) = ȳ): Q(w) = y ȳ 2 2 N = (y n ȳ n ) 2 (norma euklidesowa (l 2 )) Q(w) = y ȳ 1 N = y n ȳ n (norma l 1 ) ˆ Liniowe zadanie najmniejszych kwadratów. W przypadku, gdy model możemy wyrazić za pomocą funkcji bazowych φ(x), to wówczas dla kryterium kwadratowego (normy euklidesowej) mamy: Q(w) = y Φw 2 2 Licząc gradient i przyrównując do zera: w Q(w) = 0 otrzymujemy formę zamkniętą rozwiązania: w = (Φ Φ) 1 Φ y. ˆ Forma zamknięta może być uciążliwa do policzenia ze względu na problem z odwróceniem macierzy Φ Φ. Dodatkowo, w przypadku danych napływających w strumieniu danych, przydatne byłoby zastosowanie technik uczenia przyrostowego. W tym celu można stosować metodę optymalizacji stochastycznej (ang. stochastic gradient descent): w := w η w Q n (w) gdzie Q n (w) = (y n ȳ n ) 2. Dla modelu liniowego z funkcjami bazowymi: ( ) w := w η y n φ(x n ) w φ(x n ). ˆ Liniowe zadanie najmniejszych kwadratów z regularyzacją l 2. W celu uniknięcia zbytniego dopasowania (ang. overfitting) modyfikuje się kryterium kwadratowe poprzez dodanie drugiej normy na parametry, czyli regularyzacji: Q(w) = y Φw λ w 2 2,
14 12 ROZDZIAŁ 2. PODSTAWOWE PROBLEMY gdzie λ > 0 współczynnik regularyzacji. Licząc gradient i przyrównując do zera otrzymyjemy formę zamkniętą rozwiązania (I macierz jednostkowa): w = (Φ Φ + λi) 1 Φ y. ˆ Dodanie regularyzacji powoduje ściąganie wartości parametrów do 0. Siła ściągania zależy od wartości λ. 2.3 Zjawiska probabilistyczne ˆ Bardziej naturalnym podejściem do modelowania jest założenie wprost, iż rozpatrywane wielkości są stochastyczne (są zmiennymi losowymi) ze względu na występujące zakłócenia i/lub niemożność obserwacji wszystkich wielkości występujących w zjawisku. ˆ Alternatywną formą reprezentowania zależności między zmiennymi losowymi są probabilistyczne modele grafowe, w których węzły reprezentują zmienne losowe, zaś krawędzie (łuki) warunkowe zależności stochastyczne. x y Rysunek 2.4: Probabilistyczny model grafowy opisujący rozpatrywaną zależność zjawiska. w x y Rysunek 2.5: Probabilistyczny model grafowy dla modelu parametrycznego opisującego rozpatrywaną zależność zjawiska. ˆ Przed przejściem do modelowania i uczenia wprowadzimy podstawowe techniki pojęcia na przykładzie obserwacji pojedynczej wielkości x, która jest zmienną losową. Możemy myśleć o obserwacji pewnej wielkości przy zakłóceniach z związanych z pomiarem. Zakłócenie może mieć np. charaketer addytywny.
15 2.3. ZJAWISKA PROBABILISTYCZNE 13 ˆ Załóżmy, że posiadamy N pomiarów D = {x n } N, które są niezależne i są generowane z tego samego rozkładu p(x) (tzw. założenie iid, ang. independent and identically distributed). ˆ Dalej przyjmujemy, że będziemy modelować rozkład prawdopodobieństwa zmiennej x za pomocą modelu p(x w) o parametrach w. ˆ Estymacja ML. Dopasowanie modelu do danych będziemy wyrażać za pomocą funkcji wiarygodności (lub krótko wiarygodności): l(w) = p(d w) N = p(x n w). Wartości parametrów będziemy szukali poprzez maksymalizację wiarygodności: w ML = arg max p(d w). w Otrzymane wartości nazywane są estymatorami maksymalnej wiarygodności. Ze względów praktycznych często wygodniej jest operować na negatywnym logarytmie wiarygodności (logarytm nie zmienia monotoniczności funkcji oraz jest funkcją wklęsłą): Licząc gradient i przyrównując do zera: log l(w) = log p(d w) N = log p(x n w). w log l(w) = 0 N w log p(x n w) = 0 otrzymamy wartości parametrów minimalizujące negatywny logarytm wiarygodności. ˆ Estymacja MAP. Dodatkowo możemy posiadać wiedzę aprioryczną (przed dokonaniem obserwacji) dot. wartości parametrów, p(w). Jest to rozkład a priori na parametry. Wówczas korzystając ze wzoru Bayesa możemy wyznaczyć rozkład a posteriori na parametry: p(w D) = p(d w)p(w) p(d) Wyznaczenie wartości parametrów maksymalizujących rozkład a posteriori: w MAP = arg max p(w D) w
16 14 ROZDZIAŁ 2. PODSTAWOWE PROBLEMY prowadzi do estymatorów maksymalnego a posteriori (MAP). Wygodniej jest wyznaczać wartości parametrów dla logarytmu z rozkładu a posteriori: log p(w D) = log p(d w)p(w) p(d) = log p(d w)p(w) log p(d) Licząc następnie gradient i przyrównując do zera: = log p(d w) + log p(w) log p(d). w log p(w D) = 0 w log p(d w) + w log p(w) w log p(d) = 0 w log p(d w) + w log p(w) = 0. ˆ Estymacja Bayesa. W wielu zastosowaniach, np. w ekonomii czy medycynie, przyjęcie jednych wartości może wiązać się z dodatkowym kosztem lub stratą, dlatego też wprowadza się funkcję straty: L : W W R +. Wówczas definiuje się oczekiwaną funkcji strat, czyli tzw. ryzyko: R[w B ] = L(w, w B )p(w, x)dwdx = L(w, w B )p(w x)dw p(x)dx = E w,x [L(w, w B )] gdzie w B poszukiwane wartości parametrów. Zwróćmy uwagę, iż wystarczy rozpatrywać rozkład warunkowy, co prowadzi do ryzyka warunkowego: R[w B x] = L(w, w B )p(w x)dw = E w x [L(w, w B )]. Wówczas interesuje nas znalezienie takich wartości parametrów, które minimalizują ryzyko warunkowe: w B = arg min R[w B x]. w Wartości parametrów minimalizujące ryzyko warunkowe nazywa się estymatorami Bayesa. Zauważmy, że dla funkcji straty L(w, w B ) = δ(w w B ), gdzie δ( ) jest deltą Diraca, otrzymujemy przypadek estymatora MAP.
17 2.4. PROBLEM REGRESJI 15 Biorąc inną funkcję straty, tj. L(w, w B ) = (w w B ) 2, otrzymujemy estymator średniej a posteriori. Licząc ryzyko warunkowe: R[w B x] = E w x [(w w B ) 2 ] = E w x [w 2 ] 2w B E w x [w] + wb. 2 Wówczas licząc gradient po w B i przyrównując do zera otrzymujemy: wb R[w B x] = 0 2E w x [w] + 2w B = 0 w B = wp(w x)dw = E w x [w] 2.4 Problem regresji ˆ Rozkład normalny (ang. normal distribution) zadaje rozkład prawdopodobieństwa na zmiennej ciągłej x. x N (x µ, σ 2 ) oznacza, że zmienna została wygenerowana z rozkładu normalnego. Funkcja gęstości: Parametryzacja: N (x µ, σ 2 ) = 1 σ 2π exp ( ) (x µ)2 2σ 2 Parametr µ pokrywa się z wartością oczekiwaną (także z modą i medianą), tj. E[x] = µ Parametr σ 2 pokrywa się z wariancją, tj. var[x] = σ 2 ˆ Wielowymiarowy rozkład normalny (ang. multivariate normal distribution) zadaje rozkład na wektorze x R D Funkcja gęstości: Parametryzacja: N (x µ, Σ) = ( 1 (2π) D/2 Σ exp 1 ) 1/2 2 (x µ) Σ 1 (x µ)
18 16 ROZDZIAŁ 2. PODSTAWOWE PROBLEMY Wektor parametrów µ pokrywa się z wartością oczekiwaną, tj. E[x] = µ Macierz parametrów Σ pokrywa się z kowariancją wektora x, tj. cov[x] = Σ Macierz Σ jest symetryczna i dodatnio określona. ˆ Problem regresji. Zmienne wejściowe (ang. input variables): x X (zazwyczaj X = R D lub X = {0, 1} D ). Zmienna wyjściowa (ang. target variable): y R. Problem: dla zadanego ciągu uczącego D = {(x n, y n )} N przewidzieć wartość y dla nowego x. Zgodnie z teorią decyzji pokazaliśmy, że wystarczy znać rozkład warunkowy p(y x), zatem musimy go modelować. ˆ Model regresji liniowej. Modelem regresji liniowej (ang. linear regression) nazywamy następujące wyrażenie: y = f(x, w) + ε gdzie funkcja f(x, w) = w φ(x) jest kombinacją liniową M funkcji bazowych φ m (x). Zmienna ε N (ε 0, β 1 ) modeluje niepewność obserwacji y. Zatem model rozkładu warunkowego p(y x) ma następującą postać: p(y x, w, β) = N (y w T φ(x), β 1 ). Parametrami modelu regresji liniowej są w R M i β R. Wartości funkcji φ 1 (x),..., φ M (x) nazywane są cechami (ang. features) wyekstrahowanymi z obserwacji x. Przykładowe cechy mogą mieć postać: φ 1 (x) = x (1), φ 2 (x) = ln(x (3) ), φ 3 (x) = x (3) x (2). Dzięki ekstrakcji cech mamy możliwość użycia nieliniowych przekształceń danych wejściowych oraz dalsze rozważania nie są zależne od postaci φ. Model regresji liniowej stosujemy: Gdy zbiór cech φ 1 (x),..., φ M (x) wynika w sposób naturalny. Inaczej istnieją lepsze modele.
19 2.4. PROBLEM REGRESJI 17 Gdy dane są wysokowymiarowe, N << D i potrafimy podać pewien niskowymiarowy sensowny zbiór cech. Gdy decydującym czynnikiem jest czas wyliczenia odpowiedzi modelu. ˆ Estymacja maksymalnej wiarygodności (ML) dla regresji liniowej Dysponujemy danymi X = {x 1,..., x N }, y = {y 1,..., y N }. Warunkowa funkcja wiarygodności jest następująca: N p(y X, w, β) = N (y n w φ(x n ), β 1 ). Logarytm funkcji wiarygodności N ln p(y X, w, β) = ln N (y n w φ(x n ), β 1 ) = N 2 ln β N ln(2π) βj(w) 2 gdzie J(w) jest sumą kwadratów błędów, J(w) = 1 N (y n w φ(x n )) 2. 2 Logarytm funkcji wiarygodności jest funkcją celu, którą optymalizujemy względem parametrów w. Przyrównując gradient z logarytmu funkcji wiarygodności do zera N ln p(y X, w, β) = y n φ(x n ) w i rozwiązując względem w otrzymujemy N φ(x n )φ(x n ) = 0 w ML = (Φ Φ) 1 Φ y (równania normalne) Φ = φ 1 (x 1 ) φ 2 (x 1 ) φ M (x 1 ) φ 1 (x N ) φ 2 (x N ) φ M (x N ) (design matrix) Optymalizując względem β: 1 β ML = 1 N N ( yn wmlφ(x n ) ) 2.
20 18 ROZDZIAŁ 2. PODSTAWOWE PROBLEMY ˆ Estymacja ML: Rozwiązanie numeryczne. Algorytm gradientu prostego: Initialize w repeat for i = 1 M do w i w i α w i J(w) end for until convergence Dla przypadku regresji: J(w) = 1 N (y n w φ(x n )) 2 2 w i J(w) = N ( yn w i φ i (x n ) ) φ i (x n ). ˆ Estymator maksymalnej a posteriori dla regresji liniowej. Rozkład a priori parametrów uwzględnia przekonania odnośnie parametrów przed zaobserowaniem danych, p(w m 0, S 0 ) = N (w m 0, S 0 ). Rozkład a posteriori parametrów uaktualnienie apriorycznych przekonań o parametrach poprzez uwzględnienie danych, p(w y) p(y w) }{{} likelihood Estymator maksymalnej a posteriori (MAP): p(w). }{{} prior w MAP = arg max p(w y). w Rozkład a priori oraz wiarygodność są rozkładami normalnymi, tj. mamy do czynienia z liniowym modelem gaussowskim, więc (przy ustalonym β): p(w y) = N (w m N, S N ) m N = S N ( S 1 0 m 0 + βφ y ) S 1 N = S βφ Φ Skąd estymator MAP: w MAP = m N.
21 2.4. PROBLEM REGRESJI 19 Zakładając, że parametry są niezależnymi zmiennymi losowymi o jednakowej precyzji α 1, otrzymujemy szczególny przypadek m 0 = 0, S 0 = α 1 I, m N = βs N Φ y S 1 N = αi + βφ Φ ˆ Estymator MAP a regularyzacja Tichonowa. Zauważmy, że licząc logarytm z rozkładu a posteriori otrzymujemy sumę kwadratów błędów oraz dodatkowe wyrażenie: ln p(w y) = β N ( yn w φ(x n ) ) 2 α 2 2 w w +const. }{{}}{{} regularyzacja βj(w) Taki sam wynik otrzymamy, jeżeli w estymacji ML dodamy wyrażenie zwane regularyzatorem Tichonowa: gdzie λ parametr regularyzacji. J(w) + λ 2 w w. }{{} reg. Tichonowa Rozwiązując względem w: w λ = (λi + Φ Φ) 1 Φ y. Zauważmy, że w MAP = w λ dla λ = α β. Model ten nazywa się regresją grzbietową (ang. ridge regression).
Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak
Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak 1 Wprowadzenie. Zmienne losowe Podczas kursu interesować nas będzie wnioskowanie o rozpatrywanym zjawisku. Poprzez wnioskowanie rozumiemy
Bardziej szczegółowoSPOTKANIE 3: Regresja: Regresja liniowa
Wrocław University of Technology SPOTKANIE 3: Regresja: Regresja liniowa Adam Gonczarek Studenckie Koło Naukowe Estymator adam.gonczarek@pwr.wroc.pl 22.11.2013 Rozkład normalny Rozkład normalny (ang. normal
Bardziej szczegółowoMetody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 2 autorzy: A. Gonczarek, J.M. Tomczak Metody estymacji Zad. 1 Pojawianie się spamu opisane jest zmienną losową x o rozkładzie dwupunktowym
Bardziej szczegółowoRozpoznawanie obrazów
Rozpoznawanie obrazów Ćwiczenia lista zadań nr 7 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie
Bardziej szczegółowoRozpoznawanie obrazów
Rozpoznawanie obrazów Ćwiczenia lista zadań nr 5 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie
Bardziej szczegółowoWYKŁAD 2. Problem regresji - modele liniowe
Wrocław University of Technology WYKŁAD 2 Problem regresji - modele liniowe Maciej Zięba Politechnika Wrocławska Regresja Regresja (ang. Regression): Dysponujemy obserwacjami z odpowiadającymi im wartościami
Bardziej szczegółowoMetody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji
Bardziej szczegółowoMetody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 3 Metody estymacji. Estymator największej wiarygodności Zad. 1 Pojawianie się spamu opisane jest zmienną losową y o rozkładzie zero-jedynkowym
Bardziej szczegółowoPodstawowe modele probabilistyczne
Wrocław University of Technology Podstawowe modele probabilistyczne Maciej Zięba maciej.zieba@pwr.edu.pl Rozpoznawanie Obrazów, Lato 2018/2019 Pojęcie prawdopodobieństwa Prawdopodobieństwo reprezentuje
Bardziej szczegółowoRozpoznawanie obrazów
Rozpoznawanie obrazów Laboratorium Python Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest implementacja liniowego zadania
Bardziej szczegółowoMetody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 2 autorzy: A. Gonczarek, J.M. Tomczak Metody estymacji ML Zad. 1 Pojawianie się spamu opisane jest zmienną losową x o rozkładzie dwupunktowym
Bardziej szczegółowoWYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska
Wrocław University of Technology WYKŁAD 4 Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie autor: Maciej Zięba Politechnika Wrocławska Klasyfikacja Klasyfikacja (ang. Classification):
Bardziej szczegółowoMetody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z liniowym zadaniem najmniejszych
Bardziej szczegółowoWYKŁAD 2 i 3. Podstawowe pojęcia związane z prawdopodobieństwem. Podstawy teoretyczne. autor: Maciej Zięba. Politechnika Wrocławska
Wrocław University of Technology WYKŁAD 2 i 3 Podstawowe pojęcia związane z prawdopodobieństwem. Podstawy teoretyczne autor: Maciej Zięba Politechnika Wrocławska Pojęcie prawdopodobieństwa Prawdopodobieństwo
Bardziej szczegółowoSPOTKANIE 4: Klasyfikacja: Regresja logistyczna
Wrocław University of Technology SPOTKANIE 4: Klasyfikacja: Regresja logistyczna Szymon Zaręba Studenckie Koło Naukowe Estymator 179226@student.pwr.wroc.pl 23.11.2012 Rozkład dwupunktowy i dwumianowy Rozkład
Bardziej szczegółowoWYKŁAD 3. Klasyfikacja: modele probabilistyczne
Wrocław University of Technology WYKŁAD 3 Klasyfikacja: modele probabilistyczne Maciej Zięba Politechnika Wrocławska Klasyfikacja Klasyfikacja (ang. Classification): Dysponujemy obserwacjami z etykietami
Bardziej szczegółowoRozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów
Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,
Bardziej szczegółowoMetody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 2 Detekcja twarzy autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się algorytmem gradientu prostego
Bardziej szczegółowoElementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa
Spis treści Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis treści Spis treści 1 Wstęp Bardzo często interesujący
Bardziej szczegółowoSPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization
Wrocław University of Technology SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization Jakub M. Tomczak Studenckie Koło Naukowe Estymator jakub.tomczak@pwr.wroc.pl 4.1.213 Klasteryzacja Zmienne
Bardziej szczegółowoRozpoznawanie obrazów
Rozpoznawanie obrazów Laboratorium Python Zadanie nr 3 Regresja logistyczna autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest zaimplementowanie modelu
Bardziej szczegółowoMetody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 2 κ-nn i Naive Bayes autorzy: M. Zięba, J.M. Tomczak, A. Gonczarek, S. Zaręba Cel zadania Celem zadania jest implementacja klasyfikatorów
Bardziej szczegółowoRozpoznawanie obrazów
Rozpoznawanie obrazów Laboratorium Python Zadanie nr 2 κ-nn i Naive Bayes autorzy: M. Zięba, J.M. Tomczak, A. Gonczarek, S. Zaręba, J. Kaczmar Cel zadania Celem zadania jest implementacja klasyfikatorów
Bardziej szczegółowoWażne rozkłady i twierdzenia c.d.
Ważne rozkłady i twierdzenia c.d. Funkcja charakterystyczna rozkładu Wielowymiarowy rozkład normalny Elipsa kowariacji Sploty rozkładów Rozkłady jednostajne Sploty z rozkładem normalnym Pobieranie próby
Bardziej szczegółowoRozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład
Rozdział 1 Wektory losowe 1.1 Wektor losowy i jego rozkład Definicja 1 Wektor X = (X 1,..., X n ), którego każda współrzędna jest zmienną losową, nazywamy n-wymiarowym wektorem losowym (krótko wektorem
Bardziej szczegółowoMetody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 3 Detekcja twarzy autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba Cel zadania Celem zadania jest zaimplementowanie algorytmów
Bardziej szczegółowoModele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11
Modele DSGE Jerzy Mycielski Maj 2008 Jerzy Mycielski () Modele DSGE Maj 2008 1 / 11 Modele DSGE DSGE - Dynamiczne, stochastyczne modele równowagi ogólnej (Dynamic Stochastic General Equilibrium Model)
Bardziej szczegółowoWYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 13 i 14 1 / 15 MODEL BAYESOWSKI, przykład wstępny Statystyka
Bardziej szczegółowoPrognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania
Prognozowanie i Symulacje. Wykład I. e-mail:e.kozlovski@pollub.pl Spis treści Szeregi czasowe 1 Szeregi czasowe 2 3 Szeregi czasowe Definicja 1 Szereg czasowy jest to proces stochastyczny z czasem dyskretnym
Bardziej szczegółowoFuzja sygnałów i filtry bayesowskie
Fuzja sygnałów i filtry bayesowskie Roboty Manipulacyjne i Mobilne dr inż. Janusz Jakubiak Katedra Cybernetyki i Robotyki Wydział Elektroniki, Politechnika Wrocławska Wrocław, 10.03.2015 Dlaczego potrzebna
Bardziej szczegółowoOptymalizacja systemów
Optymalizacja systemów Laboratorium - problem detekcji twarzy autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, P. Klukowski Cel zadania Celem zadania jest zapoznanie się z gradientowymi algorytmami optymalizacji
Bardziej szczegółowoMetody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017
Metody eksploracji danych 2. Metody regresji Piotr Szwed Katedra Informatyki Stosowanej AGH 2017 Zagadnienie regresji Dane: Zbiór uczący: D = {(x i, y i )} i=1,m Obserwacje: (x i, y i ), wektor cech x
Bardziej szczegółowoOptymalizacja ciągła
Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej
Bardziej szczegółowoREGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój
1 REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój 2 DOTYCHCZASOWE MODELE Regresja liniowa o postaci: y
Bardziej szczegółowoProcesy stochastyczne
Wykład I: Istnienie procesów stochastycznych 2 marca 2015 Forma zaliczenia przedmiotu Forma zaliczenia Literatura 1 Zaliczenie ćwiczeń rachunkowych. 2 Egzamin ustny z teorii 3 Do wykładu przygotowane są
Bardziej szczegółowoWYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 7 i 8 1 / 9 EFEKTYWNOŚĆ ESTYMATORÓW, próba
Bardziej szczegółowoWprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne
Wprowadzenie Prostym podejściem do klasyfikacji jest estymacja funkcji regresji r(x) =E(Y X =x)zpominięciemestymacjigęstościf k. Zacznijmyodprzypadkudwóchgrup,tj.gdy Y = {1,0}. Wówczasr(x) =P(Y =1 X =x)ipouzyskaniuestymatora
Bardziej szczegółowoAgata Boratyńska Statystyka aktuarialna... 1
Agata Boratyńska Statystyka aktuarialna... 1 ZADANIA NA ĆWICZENIA Z TEORII WIAROGODNOŚCI Zad. 1. Niech X 1, X 2,..., X n będą niezależnymi zmiennymi losowymi z rozkładu wykładniczego o wartości oczekiwanej
Bardziej szczegółowoModelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski
Modelowanie zależności pomiędzy zmiennymi losowymi Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski P Zmienne losowe niezależne - przypomnienie Dwie rzeczywiste zmienne losowe X i Y
Bardziej szczegółowoProcesy stochastyczne
Wykład I: Istnienie procesów stochastycznych 21 lutego 2017 Forma zaliczenia przedmiotu Forma zaliczenia Literatura 1 Zaliczenie ćwiczeń rachunkowych. 2 Egzamin ustny z teorii 3 Do wykładu przygotowane
Bardziej szczegółowoWykład 3 Jednowymiarowe zmienne losowe
Wykład 3 Jednowymiarowe zmienne losowe Niech (Ω, F, P ) będzie ustaloną przestrzenią probabilistyczną Definicja 1 Jednowymiarowa zmienna losowa (o wartościach rzeczywistych), określoną na przestrzeni probabilistycznej
Bardziej szczegółowoWeryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta
Bardziej szczegółowoMetoda największej wiarogodności
Wprowadzenie Założenia Logarytm funkcji wiarogodności Metoda Największej Wiarogodności (MNW) jest bardziej uniwersalną niż MNK metodą szacowania wartości nieznanych parametrów Wprowadzenie Założenia Logarytm
Bardziej szczegółowoModele zapisane w przestrzeni stanów
Modele zapisane w przestrzeni stanów Modele Przestrzeni Stanów (State Space Models) sa to modele, w których część parametrów jest nieobserwowalna i losowa. Zachowanie wielowymiarowej zmiennej y t zależy
Bardziej szczegółowoWYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki
WYKŁAD 6 Witold Bednorz, Paweł Wolff 1 Instytut Matematyki Uniwersytet Warszawski Rachunek Prawdopodobieństwa, WNE, 2010-2011 Własności Wariancji Przypomnijmy, że VarX = E(X EX) 2 = EX 2 (EX) 2. Własności
Bardziej szczegółowoSPOTKANIE 7: Redukcja wymiarów: PCA, Probabilistic PCA
Wrocław University of Technology SPOTKANIE 7: Redukcja wymiarów: PCA, Probabilistic PCA Maciej Zięba Studenckie Koło Naukowe Estymator jakub.tomczak@pwr.wroc.pl 18.01.2013 Redukcja wymiarów Zmienne wejściowe
Bardziej szczegółowoEkonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej
Ekonometria Wprowadzenie do modelowania ekonometrycznego Estymator Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Wykład 1 Estymator 1 / 16 Agenda 1 Literatura Zaliczenie przedmiotu 2 Model
Bardziej szczegółowoStatystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl
Bardziej szczegółowoSzacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka
Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE Joanna Sawicka Plan prezentacji Model Poissona-Gamma ze składnikiem regresyjnym Konstrukcja optymalnego systemu Bonus- Malus Estymacja
Bardziej szczegółowoNiech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.
Prawdopodobieństwo i statystyka 3..00 r. Zadanie Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX 4 i EY 6. Rozważamy zmienną losową Z. X + Y Wtedy (A) EZ 0,
Bardziej szczegółowoRachunek prawdopodobieństwa (Elektronika, studia niestacjonarne) Wykład 3
Rachunek prawdopodobieństwa (Elektronika, studia niestacjonarne) Wykład 3 Przygotowując wykład korzystam głównie z książki Jakubowski, Sztencel Wstęp do teorii prawdopodobieństwa. Zmienna losowa i jej
Bardziej szczegółowox x 1. Przedmiot identyfikacji System x (1) x (2) : x (s) a 1 a 2 : a s mierzone, a = zestaw współczynników konkretyzujacych F ()
. Przedmiot identyfikacji System () x (2) x * a z y ( s ) x y = F (x,z)=f(x,z,a ),gdziex = F () znane, a nieznane x () x (2) x (s) mierzone, a = a a 2 a s zestaw współczynników konkretyzujacych F () informacja
Bardziej szczegółowoMetoda najmniejszych kwadratów
Metoda najmniejszych kwadratów Przykład wstępny. W ekonomicznej teorii produkcji rozważa się funkcję produkcji Cobba Douglasa: z = AL α K β gdzie z oznacza wielkość produkcji, L jest nakładem pracy, K
Bardziej szczegółowoZawansowane modele wyborów dyskretnych
Zawansowane modele wyborów dyskretnych Jerzy Mycielski Uniwersytet Warszawski grudzien 2013 Jerzy Mycielski (Uniwersytet Warszawski) Zawansowane modele wyborów dyskretnych grudzien 2013 1 / 16 Model efektów
Bardziej szczegółowoStatystyka i eksploracja danych
Wykład II: i charakterystyki ich rozkładów 24 lutego 2014 Wartość oczekiwana Dystrybuanty Słowniczek teorii prawdopodobieństwa, cz. II Wartość oczekiwana Dystrybuanty Słowniczek teorii prawdopodobieństwa,
Bardziej szczegółowoMetoda największej wiarygodności
Metoda największej wiarygodności Próbki w obecności tła Funkcja wiarygodności Iloraz wiarygodności Pomiary o różnej dokładności Obciążenie Informacja z próby i nierówność informacyjna Wariancja minimalna
Bardziej szczegółowoStanisław Cichocki. Natalia Nehrebecka
Stanisław Cichocki Natalia Nehrebecka 1 1. Wstęp a) Binarne zmienne zależne b) Interpretacja ekonomiczna c) Interpretacja współczynników 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników
Bardziej szczegółowoMetody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium ZALICZENIE Zadanie nr 3 Rozpoznawanie ręcznie pisanych cyfr autorzy: A. Gonczarek, P. Klukowski, J.M. Tomczak, S. Zaręba, M. Zięba Cel zadania Celem
Bardziej szczegółowo6. Identyfikacja wielowymiarowych systemów statycznych metodanajmniejszychkwadratów
6. Identyfikacja wielowymiarowych systemów statycznych metodanajmniejszychkwadratów . Przedmiot identyfikacji System () x (2) x * a z y ( s ) x y = F (x,z)=f(x,z,a ),gdziex = F () znane, a nieznane x ()
Bardziej szczegółowo5. Analiza dyskryminacyjna: FLD, LDA, QDA
Algorytmy rozpoznawania obrazów 5. Analiza dyskryminacyjna: FLD, LDA, QDA dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Liniowe funkcje dyskryminacyjne Liniowe funkcje dyskryminacyjne mają ogólną
Bardziej szczegółowoPrawdopodobieństwo i statystyka
Wykład VII: Rozkład i jego charakterystyki 22 listopada 2016 Uprzednio wprowadzone pojęcia i ich własności Definicja zmiennej losowej Zmienna losowa na przestrzeni probabilistycznej (Ω, F, P) to funkcja
Bardziej szczegółowoWnioskowanie bayesowskie
Wnioskowanie bayesowskie W podejściu klasycznym wnioskowanie statystyczne oparte jest wyłącznie na podstawie pobranej próby losowej. Możemy np. estymować punktowo lub przedziałowo nieznane parametry rozkładów,
Bardziej szczegółowoPrawdopodobieństwo i statystyka
Wykład IV: 27 października 2014 Współczynnik korelacji Brak korelacji a niezależność Definicja współczynnika korelacji Współczynnikiem korelacji całkowalnych z kwadratem zmiennych losowych X i Y nazywamy
Bardziej szczegółowoAlgorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.
Spis treści 1 Wstęp: generatywne algorytmy uczące 2 Gaussowska analiza dyskryminacyjna 2.1 Gaussowska analiza dyskryminacyjna a regresja logistyczna 3 Naiwny Klasyfikator Bayesa 3.1 Wygładzanie Laplace'a
Bardziej szczegółowoSTATYSTYKA MATEMATYCZNA WYKŁAD listopada 2009
STATYSTYKA MATEMATYCZNA WYKŁAD 7 23 listopada 2009 Wykład 6 (16.XI.2009) zakończył się zdefiniowaniem współczynnika korelacji: E X µ x σ x Y µ y σ y = T WSPÓŁCZYNNIK KORELACJI ρ X,Y = ρ Y,X (!) WSPÓŁCZYNNIK
Bardziej szczegółowoStatystyka opisowa. Wykład V. Regresja liniowa wieloraka
Statystyka opisowa. Wykład V. e-mail:e.kozlovski@pollub.pl Spis treści 1 Prosta regresji cechy Y względem cech X 1,..., X k. 2 3 Wyznaczamy zależność cechy Y od cech X 1, X 2,..., X k postaci Y = α 0 +
Bardziej szczegółowoMETODY ESTYMACJI PUNKTOWEJ. nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie
METODY ESTYMACJI PUNKTOWEJ X 1,..., X n - próbka z rozkładu P θ, θ Θ, θ jest nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie P θ. Definicja. Estymatorem
Bardziej szczegółowoJądrowe klasyfikatory liniowe
Jądrowe klasyfikatory liniowe Waldemar Wołyński Wydział Matematyki i Informatyki UAM Poznań Wisła, 9 grudnia 2009 Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 1 / 19 Zagadnienie
Bardziej szczegółowoElementy inteligencji obliczeniowej
Elementy inteligencji obliczeniowej Paweł Liskowski Institute of Computing Science, Poznań University of Technology 9 October 2018 1 / 19 Perceptron Perceptron (Rosenblatt, 1957) to najprostsza forma sztucznego
Bardziej szczegółowoMetoda największej wiarygodności
Rozdział Metoda największej wiarygodności Ogólnie w procesie estymacji na podstawie prób x i (każde x i może być wektorem) wyznaczamy parametr λ (w ogólnym przypadku również wektor) opisujący domniemany
Bardziej szczegółowoPrawdopodobieństwo i statystyka
Wykład II: Zmienne losowe i charakterystyki ich rozkładów 13 października 2014 Zmienne losowe Wartość oczekiwana Dystrybuanty Słowniczek teorii prawdopodobieństwa, cz. II Definicja zmiennej losowej i jej
Bardziej szczegółowoZałóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb
Współzależność Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb (x i, y i ). Geometrycznie taką parę
Bardziej szczegółowoRozkłady wielu zmiennych
Rozkłady wielu zmiennych Uogólnienie pojęć na rozkład wielu zmiennych Dystrybuanta, gęstość prawdopodobieństwa, rozkład brzegowy, wartości średnie i odchylenia standardowe, momenty Notacja macierzowa Macierz
Bardziej szczegółowoOznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji
Wykład 11. Metoda najmniejszych kwadratów Szukamy zależności Dane są wyniki pomiarów dwóch wielkości x i y: (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ). Przypuśćmy, że nanieśliśmy je na wykres w układzie
Bardziej szczegółowoMetody probabilistyczne
Metody probabilistyczne 13. Elementy statystki matematycznej I Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 17.01.2019 1 / 30 Zagadnienia statystki Przeprowadzamy
Bardziej szczegółowoW rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:
W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych: Zmienne losowe skokowe (dyskretne) przyjmujące co najwyżej przeliczalnie wiele wartości Zmienne losowe ciągłe
Bardziej szczegółowoPrawdopodobieństwo i statystyka r.
Zadanie. Niech (X, Y) ) będzie dwuwymiarową zmienną losową, o wartości oczekiwanej (μ, μ, wariancji każdej ze współrzędnych równej σ oraz kowariancji równej X Y ρσ. Staramy się obserwować niezależne realizacje
Bardziej szczegółowoKADD Minimalizacja funkcji
Minimalizacja funkcji Poszukiwanie minimum funkcji Foma kwadratowa Metody przybliżania minimum minimalizacja Minimalizacja w n wymiarach Metody poszukiwania minimum Otaczanie minimum Podział obszaru zawierającego
Bardziej szczegółowoPrawdopodobieństwo i statystyka
Wykład XIII: Prognoza. 26 stycznia 2015 Wykład XIII: Prognoza. Prognoza (predykcja) Przypuśćmy, że mamy dany ciąg liczb x 1, x 2,..., x n, stanowiących wyniki pomiaru pewnej zmiennej w czasie wielkości
Bardziej szczegółowoDynamiczne stochastyczne modele równowagi ogólnej
Dynamiczne stochastyczne modele równowagi ogólnej mgr Anna Sulima Instytut Matematyki UJ 8 maja 2012 mgr Anna Sulima (Instytut Matematyki UJ) Dynamiczne stochastyczne modele równowagi ogólnej 8 maja 2012
Bardziej szczegółowoKlasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących
Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących Cezary Dendek Wydział Matematyki i Nauk Informacyjnych PW Plan prezentacji Plan prezentacji Wprowadzenie
Bardziej szczegółowoUkłady stochastyczne
Instytut Informatyki Uniwersytetu Śląskiego 21 stycznia 2009 Definicja Definicja Proces stochastyczny to funkcja losowa, czyli funkcja matematyczna, której wartości leżą w przestrzeni zdarzeń losowych.
Bardziej szczegółowo#09. Systemy o złożonej strukturze
#09 Systemy o złożonej strukturze system składa się z wielu elementów, obiekty (podsystemy) wchodzące w skład systemu są ze sobą połączone i wzajemnie od siebie zależne mogą wystąpić ograniczenia w dostępności
Bardziej szczegółowoWprowadzenie do analizy korelacji i regresji
Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących
Bardziej szczegółowoEkonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej
Ekonometria Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Wykład 4 Prognozowanie, stabilność 1 / 17 Agenda
Bardziej szczegółowoSpis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla
Bogumiła Koprowska Elżbieta Kukla 1 Wstęp Czym są efekty losowe? Przykłady Model mieszany 2 Estymacja Jednokierunkowa klasyfikacja (ANOVA) Metoda największej wiarogodności (ML) Metoda największej wiarogodności
Bardziej szczegółowoWykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap
Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap Magdalena Frąszczak Wrocław, 21.02.2018r Tematyka Wykładów: Próba i populacja. Estymacja parametrów z wykorzystaniem metody
Bardziej szczegółowoMatematyka ubezpieczeń majątkowych r.
Matematyka ubezpieczeń majątkowych 3..007 r. Zadanie. Każde z ryzyk pochodzących z pewnej populacji charakteryzuje się tym że przy danej wartości λ parametru ryzyka Λ rozkład wartości szkód z tego ryzyka
Bardziej szczegółowoWeryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1
Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie
Bardziej szczegółowoZadanie 1. Liczba szkód N w ciągu roku z pewnego ryzyka ma rozkład geometryczny: k =
Matematyka ubezpieczeń majątkowych 0.0.006 r. Zadanie. Liczba szkód N w ciągu roku z pewnego ryzyka ma rozkład geometryczny: k 5 Pr( N = k) =, k = 0,,,... 6 6 Wartości kolejnych szkód Y, Y,, są i.i.d.,
Bardziej szczegółowo1 Gaussowskie zmienne losowe
Gaussowskie zmienne losowe W tej serii rozwiążemy zadania dotyczące zmiennych o rozkładzie normalny. Wymagana jest wiedza na temat własności rozkładu normalnego, CTG oraz warunkowych wartości oczekiwanych..
Bardziej szczegółowoWprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe
Wprowadzenie do teorii ekonometrii Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Zajęcia Wykład Laboratorium komputerowe 2 Zaliczenie EGZAMIN (50%) Na egzaminie obowiązują wszystkie informacje
Bardziej szczegółowoStacjonarne procesy gaussowskie, czyli o zwiazkach pomiędzy zwykła
Stacjonarne procesy gaussowskie, czyli o zwiazkach pomiędzy zwykła autokorelacji Łukasz Dębowski ldebowsk@ipipan.waw.pl Instytut Podstaw Informatyki PAN autokorelacji p. 1/25 Zarys referatu Co to sa procesy
Bardziej szczegółowoMikroekonometria 4. Mikołaj Czajkowski Wiktor Budziński
Mikroekonometria 4 Mikołaj Czajkowski Wiktor Budziński Regresja kwantylowa W standardowej Metodzie Najmniejszych Kwadratów modelujemy warunkową średnią zmiennej objaśnianej: E( yi Xi) = μ ( Xi) Pokazaliśmy,
Bardziej szczegółowoDystrybucje. Marcin Orchel. 1 Wstęp Dystrybucje Pochodna dystrybucyjna Przestrzenie... 5
Dystrybucje Marcin Orchel Spis treści 1 Wstęp 1 1.1 Dystrybucje................................... 1 1.2 Pochodna dystrybucyjna............................ 3 1.3 Przestrzenie...................................
Bardziej szczegółowoRachunek Prawdopodobieństwa i Statystyka
Rachunek Prawdopodobieństwa i Statystyka W 2. Probabilistyczne modele danych Zmienne losowe. Rozkład prawdopodobieństwa i dystrybuanta. Wartość oczekiwana i wariancja zmiennej losowej Dr Anna ADRIAN Zmienne
Bardziej szczegółowoWykład 10 Estymacja przedziałowa - przedziały ufności dla średn
Wykład 10 Estymacja przedziałowa - przedziały ufności dla średniej Wrocław, 21 grudnia 2016r Przedział ufności Niech będzie dana próba X 1, X 2,..., X n z rozkładu P θ, θ Θ. Definicja 10.1 Przedziałem
Bardziej szczegółowoTechniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I
Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I Wojciech Kotłowski Instytut Informatyki Politechniki Poznańskiej email: imię.nazwisko@cs.put.poznan.pl pok. 2 (CW) tel. (61)665-2936 konsultacje:
Bardziej szczegółowoMetody probabilistyczne klasyfikatory bayesowskie
Konwersatorium Matematyczne Metody Ekonomii narzędzia matematyczne w eksploracji danych First Prev Next Last Go Back Full Screen Close Quit Metody probabilistyczne klasyfikatory bayesowskie Wykład 8 Marcin
Bardziej szczegółowoEstymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014
Estymacja przedziałowa - przedziały ufności dla średnich Wrocław, 5 grudnia 2014 Przedział ufności Niech będzie dana próba X 1, X 2,..., X n z rozkładu P θ, θ Θ. Definicja Przedziałem ufności dla paramertu
Bardziej szczegółowo