SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization
|
|
- Feliks Sokołowski
- 6 lat temu
- Przeglądów:
Transkrypt
1 Wrocław University of Technology SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization Jakub M. Tomczak Studenckie Koło Naukowe Estymator
2 Klasteryzacja Zmienne wejściowe x R D. Nie dysponujemy etykietami, tj. nie posiadamy zmiennej wyjściowej. Problem: podzielić ciąg obserwacji D = {x 1,..., x N } na K grup. Obserwacje z danej grupy charakteryzują się podobieństwem. Inne nazwy: grupowanie, analiza skupień. 2/17
3 Sformułowanie problemu Intuicja: klaster możemy postrzegać jako grupę punktów, których odległość wewnątrz grupy jest niska (podobieństwo jest duże) w porównaniu do odległości do punktów z innych grup, która jest wysoka. Formalizując tę intuicję, wprowadźmy dodatkowe punkty µ k R D, k = 1,..., K, które są prototypami lub inaczej centrami klastrów. Dla każdej obserwacji x n wprowadźmy binarną zmienną r nk, która określa przynależność punktu do k-tego klastra, r nk = 1, jeśli x n należy do k-tego klastra oraz r nj = dla j k. Naszym celem jest więc znalezienie centrów klastrów oraz przyporządkowanie obserwacji do klastrów tak, aby minimalizować sumę kwadratów odległości punktów do najbliższego centra. Naszą funkcją celu jest więc tzw. miara rozproszenia (ang. distortion measure): J(r, µ) = N n=1 k=1 K r nk x n µ k 2. 3/17
4 Metoda K-Means: Procedura Zauważmy, że funkcja celu J(r, µ) jest niewypukła (ze względu na zmienne binarne) oraz posiada wiele minimów lokalnych. Możemy zaproponować następującą procedurę iteracyjną:. Inicjalizacja µ k. (E) 1. Dla ustalonych µ k minimalizuj J względem r nk. (M) 2. Dla ustalonych r nk minimalizuj J względem µ k. 3. Jeśli nie jest spełniony warunek stopu, to idź do 1. Rozważmy krok 1. Funkcja J jest liniowa względem r nk oraz jest niezależna od n, więc: { 1 jeśli k = arg minj x r nk = n µ j 2 w p.p. Rozważmy krok 2. Funkcja J jest kwadratowa względem µ k, więc licząc pochodną: n µ k = r nkx n n r. nk 4/17
5 Metoda K-Means: Przykład 2 (a) 2 (b) 2 (c) (d) 2 (e) 2 (f) (g) 2 (h) 2 (i) /17
6 Metoda K-Means: Uwagi Ponieważ mamy do czynienia z niewypukłą funkcją celu, dlatego bardzo istotna jest inicjalizacja centrów. Istotne jest wybranie odpowiedniego K. W celu porównania rozwiązań dla różnych wartości K stosuje się dodatkowe kryteria, np. AIC, BIC, MDL. Rozpatrywaliśmy funkcję celu z metryką euklidesową, którą można uogólnić na dowolną metrykę ρ(, ): J(r, µ) = N n=1 k=1 K r nk ρ(x n, µ k ). Algorytm dla tak zmodyfikowanej funkcji celu nazywa się metodą K-medoids. 6/17
7 Mieszanina rozkładów Gaussa Rozkład zbudowany z sumy K rozkładów normalnych nazywamy mieszaniną rozkładów Gaussa (ang. mixture of Gaussians). Gęstość tego rozkładu jest postaci: p(x) = K π k N (x µ k, Σ k ), k=1 gdzie spełniony jest warunek k π k = 1. Parametrami modelu są parametry mieszające π k oraz parametry poszczególnych komponentów µ k i Σ k. Rozkład ten w ogólności jest rozkładem wielomodalnym (ang. multimodal), tj. gęstość posiada wiele maksimów lokalnych. 7/17
8 Zmienna ukryta Zakładamy, że każdej obserwacji x odbowiada zmienna nieobserwowana z, zwana zmienną ukrytą (ang. latent variable, hidden variable). Zmienna z jest K-wymiarowym wektorem zero-jedynkowym, określającym z którego komponentu pochodzi obserwacja x. Przykładowo: K = 3. Wtedy gdy z 1 = (, 1, ), to x 1 N (x µ 2, Σ 2 ). Gdy z 2 = (,, 1), to x 2 N (x µ 3, Σ 3 ), itd. Zmienna z ma rozkład wielopunktowy: p(z) = K k=1 π z k k Wprowadzamy również rozkład warunkowy p(x z): K p(x z) = N (x µ k, Σ k ) z k k=1 8/17
9 Mieszanina rozkładów Gaussa i zmienna ukryta Korzytając z reguły brzegowej dla p(x, z) = p(x z)p(z) otrzymujemy mieszaninę rozkładów Gaussa: p(x) = z K p(x z)p(z) = π k N (x µ k, Σ k ). k=1 Korzystając ze wzoru Bayesa możemy wyznaczyć prawdopodobieństwo a posteriori p(z k = 1 x): γ(z k ) = p(z k = 1 x) = = p(z k = 1)p(x z k = 1) K j=1 p(z j = 1)p(x z j = 1) π k N (x µ k, Σ k ) K j=1 π jn (x µ j, Σ j ) Wartość γ(z k ) nazywamy odpowiedzialnością (ang. responsibility) za to, że obserwacja x została wygenerowana z komponentu N (x µ k, Σ k ). 9/17
10 Uczenie. Funkcja wiarygodności Załóżmy, że dysponujemy ciągiem obserwacji {x 1,..., x N } zebranym w macierz X o wymiarach N D. Załóżmy dodatkowo, że obserwacjom odpowiadają nieobserwowane zmienne ukryte {z 1,..., z N } zebrane w macierz Z o wymiarach N K. Funkcja wiarygodności ma postać: { N K } p(x π, µ, Σ) = π k N (x n µ k, Σ k ). n=1 Nie istnieją analityczne estymatory parametrów {π, µ, Σ} uzyskane poprzez przyrównanie pochodnej do zera ze zlogarytmowanej funkcji wiarygodności. Dodatkowym problemem jest brak jednoznacznego rozwiązania. Dokładnie dla K komponentów, mamy K! możliwości wyznaczenia parametrów, które dają ten sam rozkład. Jest to tzw. problem nieidentyfikowalności (ang. non-identifiability). k=1 1/17
11 Funkcja wiarygodności i zmienne ukryte Załóżmy chwilowo, że zmienne ukryte z są również obserwowane, wtedy funkcja wiarygodności ma postać: p(x, Z π, µ, Σ) = N K n=1 k=1 π z nk k N (x n µ k, Σ k ) z nk. Zlogarytmowana funkcja wiarygodności ma wtedy postać: ln p(x, Z π, µ, Σ) = N n=1 k=1 K z nk {ln π k + ln N (x n µ k, Σ k )}. Zmiennych z nk pozbywamy się licząc wartość oczekiwaną względem rozkładu a posteriori p(z X): E Z [ln p(x, Z π, µ, Σ)] = = N n=1 k=1 N n=1 k=1 K E Z [z nk ]{ln π k + ln N (x n µ k, Σ k )} K γ(z nk ){ln π k + ln N (x n µ k, Σ k )} 11/17
12 Funkcja wiarygodności. Esytmatory parametrów Różniczkując E Z [ln p(x, Z π, µ, Σ)] odpowiednio po parametrach i przyrównując do zera otrzymujemy analityczne estymatory: µ new k = 1 N k Σ new k = 1 N k π new k = N k N, N γ(z nk )x n n=1 N n=1 γ(z nk )(x n µ new k )(x n µ new k ) T gdzie stałą N k wyznaczamy N k = N n=1 γ(z nk). Zauważmy, że nowe parametry θ new = {π new, µ new, Σ new } zależą od poprzednich wartości parametrów θ old ze względu na γ(z nk ). Prowadzi to do iteracyjnej procedury szukania estymatora największej wiarygodności: Expectation-Maximization (EM). 12/17
13 Algorytm Expectation-Maximization Wprowadźmy następujące oznaczenie: Q(θ, θ old ) = E Z [ln p(x, Z θ)] = Z p(z X, θ old ) ln p(x, Z θ) Algorytm Expectation-Maximization:. Wybierz początkowe wartości θ old. (E) 1. Wyznacz wartość oczekiwaną względem zmiennych ukrytych Q(θ, θ old ). (M) 2. Wyznacz nowe estymatory: θ new = arg max Q(θ, θ old ). θ 3. Sprawdź zbieżność wartości parametrów lub/i wartości funkcji wiarygodności. Jeśli nie została osiągnięta, to podstaw θ old θ new i wróć do 1. 13/17
14 Algorytm Expectation-Maximization dla mieszaniny rozkładów Gaussa: Przykład L = 1 (a) 2 (b) 2 (c) 2 2 L = 2 2 L = 5 2 L = 2 (d) 2 (e) 2 (f) 2 14/17
15 Algorytm Expectation-Maximization: Uwagi Wynik działania algorytmu EM, jest silnie uzależniony od wyboru początkowych wartości parametrów. W praktyce często inicjalizuje się go poprzez zastosowanie algorytmu k-means. Algorytm EM może być interpretowany jako naprzemienne wyznaczanie dolnego ograniczenia (ang. lower bound) dla zlogarytmowanej funkcji wiarygodności i maksymalizowanie tego ograniczenia względem parametrów. 15/17
16 Algorytm Expectation-Maximization a K-Means Zauważmy, że algorytm K-Means dostarcza jednoznacznych przyporządkowań do klastrów, natomiast mieszanina rozkładów Gaussa miękkich przyporządkowań. Weźmy mieszaninę rozkładów Gaussa o macierzach kowariancji ɛi, gdzie ɛ jest wariancją taką samą dla wszystkich komponentów, 1 { N (x µ k, ɛi) = (2πɛ) exp 1 D/2 2ɛ x µ k 2}. Wówczas odpowiedzialności przyjmują postać: γ(z nk ) = i gdy ɛ, to γ znk r nk. π k exp{ x µ k 2 /2ɛ} j π j exp{ x µ j 2 /2ɛ} Podobnie, dla ɛ wartość oczekiwana logarytmu funkcji wiarygodności: E Z [ln p(x, Z µ, ɛi, π)] 1 N K r nk x n µ 2 k 2 +const. n=1 k=1 } {{ } J(r,µ) 16/17
17 Inne metody klasteryzacji Klasteryzacja hierarchiczna (ang. hierarchical clustering): budowanie hierarchii klastrów; techniki aglomeracyjne (ang. agglomerative) kolejne łączenie klastrów; techniki dzielące (ang. divisive) kolejne dzielenie klastrów. Klasteryzacja spektralna (ang. spectral clustering): zastosowanie teorii spektralnej grafów; macierz sąsiedztwa macierz podobieństwa obiektów. 17/17
Rozpoznawanie obrazów
Rozpoznawanie obrazów Ćwiczenia lista zadań nr 7 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 2 autorzy: A. Gonczarek, J.M. Tomczak Metody estymacji Zad. 1 Pojawianie się spamu opisane jest zmienną losową x o rozkładzie dwupunktowym
Rozpoznawanie obrazów
Rozpoznawanie obrazów Ćwiczenia lista zadań nr 5 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 2 autorzy: A. Gonczarek, J.M. Tomczak Metody estymacji ML Zad. 1 Pojawianie się spamu opisane jest zmienną losową x o rozkładzie dwupunktowym
Podstawowe modele probabilistyczne
Wrocław University of Technology Podstawowe modele probabilistyczne Maciej Zięba maciej.zieba@pwr.edu.pl Rozpoznawanie Obrazów, Lato 2018/2019 Pojęcie prawdopodobieństwa Prawdopodobieństwo reprezentuje
Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów
Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,
SPOTKANIE 7: Redukcja wymiarów: PCA, Probabilistic PCA
Wrocław University of Technology SPOTKANIE 7: Redukcja wymiarów: PCA, Probabilistic PCA Maciej Zięba Studenckie Koło Naukowe Estymator jakub.tomczak@pwr.wroc.pl 18.01.2013 Redukcja wymiarów Zmienne wejściowe
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 3 Metody estymacji. Estymator największej wiarygodności Zad. 1 Pojawianie się spamu opisane jest zmienną losową y o rozkładzie zero-jedynkowym
Metoda największej wiarygodności
Rozdział Metoda największej wiarygodności Ogólnie w procesie estymacji na podstawie prób x i (każde x i może być wektorem) wyznaczamy parametr λ (w ogólnym przypadku również wektor) opisujący domniemany
Prawdopodobieństwo i statystyka r.
Zadanie. Niech (X, Y) ) będzie dwuwymiarową zmienną losową, o wartości oczekiwanej (μ, μ, wariancji każdej ze współrzędnych równej σ oraz kowariancji równej X Y ρσ. Staramy się obserwować niezależne realizacje
Metoda największej wiarogodności
Wprowadzenie Założenia Logarytm funkcji wiarogodności Metoda Największej Wiarogodności (MNW) jest bardziej uniwersalną niż MNK metodą szacowania wartości nieznanych parametrów Wprowadzenie Założenia Logarytm
Elementy statystyki wielowymiarowej
Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych
Hierarchiczna analiza skupień
Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym
Algorytmy metaheurystyczne Wykład 11. Piotr Syga
Algorytmy metaheurystyczne Wykład 11 Piotr Syga 22.05.2017 Drzewa decyzyjne Idea Cel Na podstawie przesłanek (typowo zbiory rozmyte) oraz zbioru wartości w danych testowych, w oparciu o wybrane miary,
WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska
Wrocław University of Technology WYKŁAD 4 Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie autor: Maciej Zięba Politechnika Wrocławska Klasyfikacja Klasyfikacja (ang. Classification):
Modele zapisane w przestrzeni stanów
Modele zapisane w przestrzeni stanów Modele Przestrzeni Stanów (State Space Models) sa to modele, w których część parametrów jest nieobserwowalna i losowa. Zachowanie wielowymiarowej zmiennej y t zależy
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 2 Detekcja twarzy autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się algorytmem gradientu prostego
SPOTKANIE 3: Regresja: Regresja liniowa
Wrocław University of Technology SPOTKANIE 3: Regresja: Regresja liniowa Adam Gonczarek Studenckie Koło Naukowe Estymator adam.gonczarek@pwr.wroc.pl 22.11.2013 Rozkład normalny Rozkład normalny (ang. normal
Co to jest grupowanie
Grupowanie danych Co to jest grupowanie 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Szukanie grup, obszarów stanowiących lokalne gromady punktów Co to jest grupowanie
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 13 i 14 1 / 15 MODEL BAYESOWSKI, przykład wstępny Statystyka
Stanisław Cichocki Natalia Nehrebecka. Wykład 7
Stanisław Cichocki Natalia Nehrebecka Wykład 7 1 1. Metoda Największej Wiarygodności MNW 2. Założenia MNW 3. Własności estymatorów MNW 4. Testowanie hipotez w MNW 2 1. Metoda Największej Wiarygodności
SPOTKANIE 4: Klasyfikacja: Regresja logistyczna
Wrocław University of Technology SPOTKANIE 4: Klasyfikacja: Regresja logistyczna Szymon Zaręba Studenckie Koło Naukowe Estymator 179226@student.pwr.wroc.pl 23.11.2012 Rozkład dwupunktowy i dwumianowy Rozkład
Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak
Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak 1 Wprowadzenie. Zmienne losowe Podczas kursu interesować nas będzie wnioskowanie o rozpatrywanym zjawisku. Poprzez wnioskowanie rozumiemy
Metoda największej wiarygodności
Metoda największej wiarygodności Próbki w obecności tła Funkcja wiarygodności Iloraz wiarygodności Pomiary o różnej dokładności Obciążenie Informacja z próby i nierówność informacyjna Wariancja minimalna
Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska
Algorytmy rozpoznawania obrazów 11. Analiza skupień dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Analiza skupień Określenia: analiza skupień (cluster analysis), klasteryzacja (clustering), klasyfikacja
Optymalizacja systemów
Optymalizacja systemów Laboratorium - problem detekcji twarzy autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, P. Klukowski Cel zadania Celem zadania jest zapoznanie się z gradientowymi algorytmami optymalizacji
5. Analiza dyskryminacyjna: FLD, LDA, QDA
Algorytmy rozpoznawania obrazów 5. Analiza dyskryminacyjna: FLD, LDA, QDA dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Liniowe funkcje dyskryminacyjne Liniowe funkcje dyskryminacyjne mają ogólną
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 2 κ-nn i Naive Bayes autorzy: M. Zięba, J.M. Tomczak, A. Gonczarek, S. Zaręba Cel zadania Celem zadania jest implementacja klasyfikatorów
Rozpoznawanie obrazów
Rozpoznawanie obrazów Laboratorium Python Zadanie nr 2 κ-nn i Naive Bayes autorzy: M. Zięba, J.M. Tomczak, A. Gonczarek, S. Zaręba, J. Kaczmar Cel zadania Celem zadania jest implementacja klasyfikatorów
KADD Metoda najmniejszych kwadratów funkcje nieliniowe
Metoda najmn. kwadr. - funkcje nieliniowe Metoda najmniejszych kwadratów Funkcje nieliniowe Procedura z redukcją kroku iteracji Przykłady zastosowań Dopasowanie funkcji wykładniczej Dopasowanie funkcji
Jądrowe klasyfikatory liniowe
Jądrowe klasyfikatory liniowe Waldemar Wołyński Wydział Matematyki i Informatyki UAM Poznań Wisła, 9 grudnia 2009 Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 1 / 19 Zagadnienie
Komputerowa analiza danych doświadczalnych
Komputerowa analiza danych doświadczalnych Wykład 9 27.04.2018 dr inż. Łukasz Graczykowski lukasz.graczykowski@pw.edu.pl Semestr letni 2017/2018 Metoda największej wiarygodności ierównosć informacyjna
Fuzja sygnałów i filtry bayesowskie
Fuzja sygnałów i filtry bayesowskie Roboty Manipulacyjne i Mobilne dr inż. Janusz Jakubiak Katedra Cybernetyki i Robotyki Wydział Elektroniki, Politechnika Wrocławska Wrocław, 10.03.2015 Dlaczego potrzebna
REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój
1 REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój 2 DOTYCHCZASOWE MODELE Regresja liniowa o postaci: y
zadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych
zadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych 1. [E.A 5.10.1996/zad.4] Funkcja gęstości dana jest wzorem { 3 x + 2xy + 1 y dla (x y) (0 1) (0 1) 4 4 P (X > 1 2 Y > 1 2 ) wynosi:
Ważne rozkłady i twierdzenia c.d.
Ważne rozkłady i twierdzenia c.d. Funkcja charakterystyczna rozkładu Wielowymiarowy rozkład normalny Elipsa kowariacji Sploty rozkładów Rozkłady jednostajne Sploty z rozkładem normalnym Pobieranie próby
WYKŁAD 2. Problem regresji - modele liniowe
Wrocław University of Technology WYKŁAD 2 Problem regresji - modele liniowe Maciej Zięba Politechnika Wrocławska Regresja Regresja (ang. Regression): Dysponujemy obserwacjami z odpowiadającymi im wartościami
Metody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017
Metody eksploracji danych 2. Metody regresji Piotr Szwed Katedra Informatyki Stosowanej AGH 2017 Zagadnienie regresji Dane: Zbiór uczący: D = {(x i, y i )} i=1,m Obserwacje: (x i, y i ), wektor cech x
WYKŁAD 3. Klasyfikacja: modele probabilistyczne
Wrocław University of Technology WYKŁAD 3 Klasyfikacja: modele probabilistyczne Maciej Zięba Politechnika Wrocławska Klasyfikacja Klasyfikacja (ang. Classification): Dysponujemy obserwacjami z etykietami
Komputerowa analiza danych doświadczalnych
Komputerowa analiza danych doświadczalnych Wykład 9 7.04.09 dr inż. Łukasz Graczykowski lukasz.graczykowski@pw.edu.pl Semestr letni 08/09 Metoda największej wiarygodności ierównosć informacyjna Metoda
Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji
Wykład 11. Metoda najmniejszych kwadratów Szukamy zależności Dane są wyniki pomiarów dwóch wielkości x i y: (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ). Przypuśćmy, że nanieśliśmy je na wykres w układzie
METODY ESTYMACJI PUNKTOWEJ. nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie
METODY ESTYMACJI PUNKTOWEJ X 1,..., X n - próbka z rozkładu P θ, θ Θ, θ jest nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie P θ. Definicja. Estymatorem
Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe
Wprowadzenie do teorii ekonometrii Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Zajęcia Wykład Laboratorium komputerowe 2 Zaliczenie EGZAMIN (50%) Na egzaminie obowiązują wszystkie informacje
WYKŁAD 2 i 3. Podstawowe pojęcia związane z prawdopodobieństwem. Podstawy teoretyczne. autor: Maciej Zięba. Politechnika Wrocławska
Wrocław University of Technology WYKŁAD 2 i 3 Podstawowe pojęcia związane z prawdopodobieństwem. Podstawy teoretyczne autor: Maciej Zięba Politechnika Wrocławska Pojęcie prawdopodobieństwa Prawdopodobieństwo
Zawansowane modele wyborów dyskretnych
Zawansowane modele wyborów dyskretnych Jerzy Mycielski Uniwersytet Warszawski grudzien 2013 Jerzy Mycielski (Uniwersytet Warszawski) Zawansowane modele wyborów dyskretnych grudzien 2013 1 / 16 Model efektów
Metoda momentów i kwantyli próbkowych. Wrocław, 7 listopada 2014
Metoda momentów i kwantyli próbkowych Wrocław, 7 listopada 2014 Metoda momentów Momenty zmiennych losowych X 1, X 2,..., X n - próba losowa. Momenty zmiennych losowych X 1, X 2,..., X n - próba losowa.
Procesy stochastyczne
Wykład I: Istnienie procesów stochastycznych 21 lutego 2017 Forma zaliczenia przedmiotu Forma zaliczenia Literatura 1 Zaliczenie ćwiczeń rachunkowych. 2 Egzamin ustny z teorii 3 Do wykładu przygotowane
Matematyka ubezpieczeń majątkowych r.
Matematyka ubezpieczeń majątkowych 3..007 r. Zadanie. Każde z ryzyk pochodzących z pewnej populacji charakteryzuje się tym że przy danej wartości λ parametru ryzyka Λ rozkład wartości szkód z tego ryzyka
Prawdopodobieństwo i statystyka
Wykład XV: Zagadnienia redukcji wymiaru danych 2 lutego 2015 r. Standaryzacja danych Standaryzacja danych Własności macierzy korelacji Definicja Niech X będzie zmienną losową o skończonym drugim momencie.
KADD Minimalizacja funkcji
Minimalizacja funkcji n-wymiarowych Forma kwadratowa w n wymiarach Procedury minimalizacji Minimalizacja wzdłuż prostej w n-wymiarowej przestrzeni Metody minimalizacji wzdłuż osi współrzędnych wzdłuż kierunków
Rozpoznawanie obrazów
Rozpoznawanie obrazów Laboratorium Python Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest implementacja liniowego zadania
Stopę zbieżności ciagu zmiennych losowych a n, takiego, że E (a n ) < oznaczamy jako a n = o p (1) prawdopodobieństwa szybciej niż n α.
Stopy zbieżności Stopę zbieżności ciagu zmiennych losowych a n, takiego, że a n oznaczamy jako a n = o p (1 p 0 a Jeśli n p n α 0, to a n = o p (n α i mówimy a n zbiega według prawdopodobieństwa szybciej
Procesy stochastyczne
Wykład I: Istnienie procesów stochastycznych 2 marca 2015 Forma zaliczenia przedmiotu Forma zaliczenia Literatura 1 Zaliczenie ćwiczeń rachunkowych. 2 Egzamin ustny z teorii 3 Do wykładu przygotowane są
Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n)
MODELE STATYSTYCZNE Punktem wyjścia w rozumowaniu statystycznym jest zmienna losowa (cecha) X i jej obserwacje opisujące wyniki doświadczeń bądź pomiarów. Zbiór wartości zmiennej losowej X (zbiór wartości
Statystyka i eksploracja danych
Wykład XII: Zagadnienia redukcji wymiaru danych 12 maja 2014 Definicja Niech X będzie zmienną losową o skończonym drugim momencie. Standaryzacją zmiennej X nazywamy zmienną losową Z = X EX Var (X ). Definicja
WYKŁAD 9 METODY ZMIENNEJ METRYKI
WYKŁAD 9 METODY ZMIENNEJ METRYKI Kierunki sprzężone. Metoda Newtona Raphsona daje dobre przybliżenie najlepszego kierunku poszukiwań, lecz jest to okupione znacznym kosztem obliczeniowym zwykle postać
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 4 1 / 23 ZAGADNIENIE ESTYMACJI Zagadnienie
Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne
Wprowadzenie Prostym podejściem do klasyfikacji jest estymacja funkcji regresji r(x) =E(Y X =x)zpominięciemestymacjigęstościf k. Zacznijmyodprzypadkudwóchgrup,tj.gdy Y = {1,0}. Wówczasr(x) =P(Y =1 X =x)ipouzyskaniuestymatora
Weryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta
Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18
Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)
Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej
Ekonometria Wprowadzenie do modelowania ekonometrycznego Estymator Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Wykład 1 Estymator 1 / 16 Agenda 1 Literatura Zaliczenie przedmiotu 2 Model
Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki
Rozpoznawanie wzorców Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki mbereta@pk.edu.pl beretam@torus.uck.pk.edu.pl www.michalbereta.pl Twierzdzenie: Prawdopodobieostwo, że n obserwacji wybranych
Statystyczna analiza danych
Statystyczna analiza danych ukryte modele Markowa, algorytm EM Anna Gambin Instytut Informatyki Uniwersytet Warszawski ńczonymi l łańcuch Markowa Q, zbiór stanów M = (p k,l ) k,l Q, stochastyczna ścia
Komputerowa Analiza Danych Doświadczalnych
Komputerowa Analiza Danych Doświadczalnych Prowadząca: dr inż. Hanna Zbroszczyk e-mail: gos@if.pw.edu.pl tel: +48 22 234 58 51 konsultacje: poniedziałek, 10-11; środa: 11-12 www: http://www.if.pw.edu.pl/~gos/students/kadd
HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =
HISTOGRAM W pewnych przypadkach interesuje nas nie tylko określenie prawdziwej wartości mierzonej wielkości, ale także zbadanie całego rozkład prawdopodobieństwa wyników pomiarów. W takim przypadku wyniki
Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla
Bogumiła Koprowska Elżbieta Kukla 1 Wstęp Czym są efekty losowe? Przykłady Model mieszany 2 Estymacja Jednokierunkowa klasyfikacja (ANOVA) Metoda największej wiarogodności (ML) Metoda największej wiarogodności
Agata Boratyńska Statystyka aktuarialna... 1
Agata Boratyńska Statystyka aktuarialna... 1 ZADANIA NA ĆWICZENIA Z TEORII WIAROGODNOŚCI Zad. 1. Niech X 1, X 2,..., X n będą niezależnymi zmiennymi losowymi z rozkładu wykładniczego o wartości oczekiwanej
Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11
Modele DSGE Jerzy Mycielski Maj 2008 Jerzy Mycielski () Modele DSGE Maj 2008 1 / 11 Modele DSGE DSGE - Dynamiczne, stochastyczne modele równowagi ogólnej (Dynamic Stochastic General Equilibrium Model)
Dyskretne procesy stacjonarne o nieskończonej entropii nadwyżkowej
Dyskretne procesy stacjonarne o nieskończonej entropii nadwyżkowej Łukasz Dębowski ldebowsk@ipipan.waw.pl i Instytut Podstaw Informatyki PAN Co to jest entropia nadwyżkowa? Niech (X i ) i Z będzie procesem
Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu
Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu
Prawdopodobieństwo i statystyka r.
Prawdopodobieństwo i statystyka 9.06.999 r. Zadanie. Rzucamy pięcioma kośćmi do gry. Następnie rzucamy ponownie tymi kośćmi, na których nie wypadły szóstki. W trzeciej rundzie rzucamy tymi kośćmi, na których
Uogolnione modele liniowe
Uogolnione modele liniowe Jerzy Mycielski Uniwersytet Warszawski grudzien 2013 Jerzy Mycielski (Uniwersytet Warszawski) Uogolnione modele liniowe grudzien 2013 1 / 17 (generalized linear model - glm) Zakładamy,
SPOTKANIE 9: Metody redukcji wymiarów
Wrocław University of Technology SPOTKANIE 9: Metody redukcji wymiarów Piotr Klukowski* Studenckie Koło Naukowe Estymator piotr.klukowski@pwr.wroc.pl 08.12.2015 *Część slajdów pochodzi z prezentacji dr
Algorytm grupowania danych typu kwantyzacji wektorów
Algorytm grupowania danych typu kwantyzacji wektorów Wstęp Definicja problemu: Typowe, problemem często spotykanym w zagadnieniach eksploracji danych (ang. data mining) jest zagadnienie grupowania danych
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 3 Detekcja twarzy autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba Cel zadania Celem zadania jest zaimplementowanie algorytmów
Metody iteracyjne rozwiązywania układów równań liniowych (5.3) Normy wektorów i macierzy (5.3.1) Niech. x i. i =1
Normy wektorów i macierzy (5.3.1) Niech 1 X =[x x Y y =[y1 x n], oznaczają wektory przestrzeni R n, a yn] niech oznacza liczbę rzeczywistą. Wyrażenie x i p 5.3.1.a X p = p n i =1 nosi nazwę p-tej normy
Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.
Prawdopodobieństwo i statystyka 3..00 r. Zadanie Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX 4 i EY 6. Rozważamy zmienną losową Z. X + Y Wtedy (A) EZ 0,
Stosowana Analiza Regresji
Stosowana Analiza Regresji Wykład VIII 30 Listopada 2011 1 / 18 gdzie: X : n p Q : n n R : n p Zał.: n p. X = QR, - macierz eksperymentu, - ortogonalna, - ma zera poniżej głównej diagonali. [ R1 X = Q
1 Gaussowskie zmienne losowe
Gaussowskie zmienne losowe W tej serii rozwiążemy zadania dotyczące zmiennych o rozkładzie normalny. Wymagana jest wiedza na temat własności rozkładu normalnego, CTG oraz warunkowych wartości oczekiwanych..
Wstęp do Rachunku Prawdopodobieństwa, IIr. WMS
Wstęp do Rachunku Prawdopodobieństwa, IIr. WMS przykładowe zadania na. kolokwium czerwca 6r. Poniżej podany jest przykładowy zestaw zadań. Podczas kolokwium na ich rozwiązanie przeznaczone będzie ok. 85
Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład
Rozdział 1 Wektory losowe 1.1 Wektor losowy i jego rozkład Definicja 1 Wektor X = (X 1,..., X n ), którego każda współrzędna jest zmienną losową, nazywamy n-wymiarowym wektorem losowym (krótko wektorem
Rachunek prawdopodobieństwa i statystyka
Rachunek prawdopodobieństwa i statystyka Momenty Zmienna losowa jest wystarczająco dokładnie opisana przez jej rozkład prawdopodobieństwa. Względy praktyczne dyktują jednak potrzebę znalezienia charakterystyk
Idea. Algorytm zachłanny Algorytmy hierarchiczne Metoda K-średnich Metoda hierarchiczna, a niehierarchiczna. Analiza skupień
Idea jest narzędziem analizy danych służącym do grupowania n obiektów, opisanych za pomocą wektora p-cech, w K niepustych, rozłącznych i możliwie jednorodnych grup skupień. Obiekty należące do danego skupienia
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z liniowym zadaniem najmniejszych
Metoda najmniejszych kwadratów
Metoda najmniejszych kwadratów Przykład wstępny. W ekonomicznej teorii produkcji rozważa się funkcję produkcji Cobba Douglasa: z = AL α K β gdzie z oznacza wielkość produkcji, L jest nakładem pracy, K
KADD Minimalizacja funkcji
Minimalizacja funkcji Poszukiwanie minimum funkcji Foma kwadratowa Metody przybliżania minimum minimalizacja Minimalizacja w n wymiarach Metody poszukiwania minimum Otaczanie minimum Podział obszaru zawierającego
Metody eksploracji danych 7. Grupowanie. Piotr Szwed Katedra Informatyki Stosowanej AGH 2018
Metody eksploracji danych 7. Grupowanie Piotr Szwed Katedra Informatyki Stosowanej AGH 2018 Grupowanie Grupa obiektów (ang. cluster) to zbiór obiektów wyodrębniony z danych Obiekty wewnątrz grupy powinny
Ważne rozkłady i twierdzenia
Ważne rozkłady i twierdzenia Rozkład dwumianowy i wielomianowy Częstość. Prawo wielkich liczb Rozkład hipergeometryczny Rozkład Poissona Rozkład normalny i rozkład Gaussa Centralne twierdzenie graniczne
Rozpoznawanie obrazów
Rozpoznawanie obrazów Laboratorium Python Zadanie nr 3 Regresja logistyczna autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest zaimplementowanie modelu
Lekcja 5: Sieć Kohonena i sieć ART
Lekcja 5: Sieć Kohonena i sieć ART S. Hoa Nguyen 1 Materiał Sieci Kohonena (Sieć samo-organizująca) Rysunek 1: Sieć Kohonena Charakterystyka sieci: Jednowarstwowa jednokierunkowa sieć. Na ogół neurony
Value at Risk (VaR) Jerzy Mycielski WNE. Jerzy Mycielski (Institute) Value at Risk (VaR) / 16
Value at Risk (VaR) Jerzy Mycielski WNE 2018 Jerzy Mycielski (Institute) Value at Risk (VaR) 2018 1 / 16 Warunkowa heteroskedastyczność O warunkowej autoregresyjnej heteroskedastyczności mówimy, gdy σ
Własności statystyczne regresji liniowej. Wykład 4
Własności statystyczne regresji liniowej Wykład 4 Plan Własności zmiennych losowych Normalna regresja liniowa Własności regresji liniowej Literatura B. Hansen (2017+) Econometrics, Rozdział 5 Własności
Stanisław Cichocki. Natalia Nehrebecka
Stanisław Cichocki Natalia Nehrebecka 1 1. Wstęp a) Binarne zmienne zależne b) Interpretacja ekonomiczna c) Interpretacja współczynników 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników
Zagadnienia brzegowe dla równań eliptycznych
Temat 7 Zagadnienia brzegowe dla równań eliptycznych Rozważmy płaski obszar R 2 ograniczony krzywą. la równania Laplace a (Poissona) stawia się trzy podstawowe zagadnienia brzegowe. Zagadnienie irichleta
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 7 i 8 1 / 9 EFEKTYWNOŚĆ ESTYMATORÓW, próba
Zaawansowane metody numeryczne
Wykład 11 Ogólna postać metody iteracyjnej Definicja 11.1. (metoda iteracyjna rozwiązywania układów równań) Metodą iteracyjną rozwiązywania { układów równań liniowych nazywamy ciąg wektorów zdefiniowany
Wprowadzenie do uczenia maszynowego. Jakub Tomczak
Wprowadzenie do uczenia maszynowego Jakub Tomczak 2014 ii Rozdział 1 Pojęcia podstawowe 1.1 Wprowadzenie. Zmienne losowe ˆ Podczas kursu interesować nas będzie wnioskowanie o rozpatrywanym zjawisku. Poprzez
Stanisław Cichocki. Natalia Neherebecka. Zajęcia 15-17
Stanisław Cichocki Natalia Neherebecka Zajęcia 15-17 1 1. Binarne zmienne zależne 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników 3. Probit a) Interpretacja współczynników b) Miary
Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość
Idea Niech θ oznacza parametr modelu statystycznego. Dotychczasowe rozważania dotyczyły metod estymacji tego parametru. Teraz zamiast szacować nieznaną wartość parametru będziemy weryfikowali hipotezę