Metody systemowe i decyzyjne w informatyce
|
|
- Kajetan Matusiak
- 5 lat temu
- Przeglądów:
Transkrypt
1 Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 2 κ-nn i Naive Bayes autorzy: M. Zięba, J.M. Tomczak, A. Gonczarek, S. Zaręba Cel zadania Celem zadania jest implementacja klasyfikatorów κ-nn oraz Naive Bayes w zadaniu analizy dokumentów tekstowych. Zadanie klasyfikacji dokumentów tekstowych Rozważmy problem klasyfikacji dokumentu tekstowego T do jednej z kategorii tematycznych. Każdy dokument tekstowy opisany jest za pomocą wektora cech x = (φ 1 (T ),..., φ D (T )) T, gdzie każda cecha φ d (T ) {0, 1} określa, czy d-te słowo występuje w dokumencie T, tj. φ d (T ) = 1, czy też nie, φ d (T ) = 0. Dla każdego dokumentu należy rozwiązać problem klasyfikacji z wieloma klasami y {1, 2, 3, 4}, gdzie każda wartość określa grupę tematyczną (1 computer, 2 recreation, 3 science, 4 talk). Zadanie klasyfikacji nowego dokumentu tekstowego x new do jednej z grup tematycznych polega na wyznaczeniu prawdopodobieństwa p(y x new ), a następnie wyboru tej klasy, dla której prawdopodobieństwo warunkowe jest największe: y = arg max p(y x new ). (1) y Kluczową wielkością w problemie klasyfikacji jest rozkład warunkowy p(y x), dlatego jest on celem modelowania. Zauważmy, że wielkość tę można modelować co najmniej na dwa sposoby: ˆ Podejście generujące: zauważmy, że rozkład warunkowy p(y x) można wyznaczyć korzystając ze wzoru Bayesa: p(y x) = p(x y)p(y) p(x) = p(x y)p(y) y p(x y )p(y ) W celu poznania rozkładu warunkowego p(y x) będziemy modelować wielkości p(x y, θ) i p(y π), gdzie θ i π oznaczają parametry modelu. ˆ Podejście dyskryminujące: rozkład warunkowy p(y x) modelujemy wprost za pomocą modelu p(y x, θ), gdzie θ oznacza parametry modelu. 1
2 Podejście generujące: Naive Bayes Model W podejściu generującym naszym celem jest modelowanie rozkładów p(x y, θ) i p(y θ). Rozkład na grupę tematyczną wyrażać będziemy za pomocą rozkładu wielopunktowego: p(y π) = M(y π), (2) gdzie π = (π 1,..., π K ), a π k oznacza prawdopodobieństwo a priori k-tej grupy tematycznej. W rozważanym przypadku cechy opisujące dokument są binarne, dlatego odpowiednim rozkładem byłby taki rozkład, który każdej możliwej konfiguracji słów przyporządkowuje wartość prawdopodobieństwa. Zwróćmy jednak uwagę, że takich konfiguracji jest 2 D, a zatem model musiałby posiadać 2 D 1 parametrów. Przykładowo, dla D = 100 wyuczenie takiego modelu jest w praktyce niemożliwe. Dlatego dalej przyjmować będziemy, że występowanie słów jest niezależne od siebie, wówczas rozważany model będzie posiadał jedynie D parametrów. Naturalnie w ten sposób tracimy możliwość modelowania współzależności między występowaniem słów, ale zyskujemy możliwość wyuczenia takiego modelu. Model, który zakłada niezależność cech, nazywa się Naive Bayes i wyraża się następująco: D p(x y, θ) = p(x d y, θ) (3) d=1 gdzie dla rozpatrywanego zadania rozkład warunkowy na cechy modelujemy za pomocą rozkładu dwupunktowego: Uczenie p(x d y = k, θ) = B(x d θ d,k ) (4) = θ x d d,k (1 θ d,k) 1 x d. (5) Celem uczenia w przypadku modelu Naive Bayes jest oszacowanie prawdopodobieństw {π k } k=1...,4 oraz prawdopodobieństw {θ d,k } d=1,...,d w oparciu o dane uczące D. k=1,...,4 Korzystając z metody największej wiarygodności (estymator ML) wielkości te możemy wyznaczyć w następujący sposób: π k = 1 N I(y n = k), (6) N n=1 Nn=1 I(y n = k, x n,d = 1) θ d,k = Nn=1, (7) I(y n = k) gdzie I( ) oznacza indykator, który zwraca wartość 1, gdy wszystkie warunki logiczne, które są jego argumentami, są prawdziwe i wartość 0 w przeciwnym przypadku. Często w praktyce może wystąpić problem, że pewne słowo może nie pojawić się w danych uczących lub posiadamy zbyt mało danych, aby dostatecznie dobrze oszacować interesujące nas prawdopodobieństwo. Wówczas stosuje się dodatkowy rozkład a priori na słowa, dla których określamy 2
3 założoną wartość występowania słowa a oraz jego niewystępowania b. W rozważanym przypadku, dla cech binarnych, wygodnym rozkładem a priori jest rozkład beta: p(θ d,k ) = Beta(θ d,k a, b), (8) gdzie a, b > 0 są tzw. hiperparametrami. Wówczas można wyznaczyć estymator maksymalnej a posteriori (MAP) dla θ d,k : θ d,k = Nn=1 I(y n = k, x n,d = 1) + a 1 Nn=1. (9) I(y n = k) + a + b 2 Podejście dyskryminujące: κ-nn Model κ-nearest Neighbors (κ-nn) jest przykładem modelu dyskryminującego oraz modelu nieparametrycznego, tzn. takiego, dla którego parametrami modelu są dane uczące. Rozkład warunkowy dla grupy tematycznej pod warunkiem dokumentu tekstowego określa się w następujący sposób: p(y x, κ) = 1 I(y i = y) (10) κ i N κ(x,d) gdzie κ oznacza liczbę najbliższych sąsiadów, N κ (x, D) oznacza zbiór indeksów κ najbliższych sąsiadów dla dokumentu x w zbiorze treningowym D. Zauważmy, że model κ-nn zależy od zbioru treningowego oraz wartości parametru κ, czyli liczby sąsiadów. Wartość κ musi być zadana przed dokonaniem predykcji. Kluczowym pojęciem dla κ-nn jest odległość za pomocą której wyznacza się najbliższych sąsiadów. W rozważanym przypadku do czynienia mamy z dokumentemi tekstowymi opisanymi za pomocą D cech binarnych określających występowanie słów w dokumencie. W celu wyznaczenia odległości między dwoma dokumentami posłużymy się metryką Hamminga, która określa liczbę miejsc, na których dwa ciągi różnią się od siebie. Na przykład, dla x 1 = (1, 0, 0, 1) i x 2 = (1, 1, 0, 0) odległość Hamminga między x 1 i x 2 wynosi 2: = 2 Selekcja modelu W rozważanym problemie mamy do czynienia z trzema wielkościami, których nie wyuczamy w oparciu o dane, tj. liczbę sąsiadów κ dla κ-nn oraz wartości rozkładu a priori dla Naive Bayes. W przypadku, gdy dysponujemy zbiorem walidacyjnym D val o długości N val, możemy przeprowadzić 3
4 selekcję tych wartości. W celu oceny modelu w oparciu o wspomniane wielkości, stosować będziemy miarę błąd klasyfikacji: E(D val ; α) = 1 N val I(y n ŷ n ), (11) N val gdzie α jest hiperparametrem κ w przypadku κ-nn lub (a, b) dla Naive Bayes, oraz ŷ n jest predykowaną przez model wartością klasy dla n-tego przykładu ze zbioru walidacyjnego. Algorithm 1: Procedura selekcji modelu dla modelu κ-nn lub Naive Bayes. Wejście : Zbiór walidacyjny D val, zbiór wartości hiperparametru(-ów) Λ Wyjście: Wartość α 1 for α Λ do 2 if Naive Bayes then n=1 3 Znajdź estymatory dla π i θ z użyciem a i b ; 4 Policz wartość E(D val ; (a, b)) ; 5 else if κ-nn then 6 Policz wartość E(D val ; κ) ; 7 end 8 Zwróć wartość α, dla której E(D val ; α) jest najniższa. Testowanie poprawności działania Do sprawdzania poprawności działania zaproponowanych rozwiązań służy funkcja main w pliku main.m. W pliku main.m nie wolno czegokolwiek zmieniać ani dopisywać. Instrukcja wykonania zadania Instrukcja: 1. Zaimplementować funkcję liczącą odległości Hamminga w pliku hamming distance.m. Funkcja przyjmuje dwie macierze rzadkie reprezentujące dwa zbiory obiektów i wyznacza macierz zawierającą odległości Hamminga pomiędzy obiektami z jednego i drugiego zbioru. 2. Zaimplementować funkcję liczącą macierz posortowanych etykiet klas względem macierzy odległości w pliku sort train labels KNN.m. Dla danej macierzy odległości i zadanych etykiet klas należy zbudować macierz, która w każdym wierszu zawiera etykiety klas posortowane zgodnie z odległościami z tego samego wiersza w macierzy odległości. 1 1 PRZYKŁAD: macierz odległości: [2 5 3; 6 7 1], zadane etykiety klas: [1 4 3], macierz posortowanych etykiet: [1 3 4; 3 1 4]. 4
5 3. Zaimplementować funkcję wyznaczającą macierz prawdopodobieństw przynależności do każdej z klas dla modelu KNN (10) w pliku p y x KNN.m. 4. Zaimplementować funkcję liczącą błąd klasyfikacji (11) w pliku error fun.m. Jeżeli dla danego przykładu x prawdopodobieństwo p(y = k x) dla kilku klas k jest maksymalne, to jako predykcję modelu wybieramy klasę o najwyższym numerze k. 5. Zaimplementować funkcję dokonującą selekcji modelu KNN dla zadanych wartości κ w pliku model selection KNN.m. 6. Zaimplementować funkcję liczącą estymator ML dla klas, π k (6), dla modelu NB w pliku estimate a priori NB.m. 7. Zaimplementować funkcję liczącą estymator MAP dla cech, θ d,k (9), dla modelu NB w pliku estimate p x y NB.m. 8. Zaimplementować funkcję wyznaczającą macierz prawdopodobieństw przynależności do każdej z klas dla modelu NB w pliku estimate p y x NB.m. 9. Zaimplementować funkcję dokonującą selekcji modelu NB dla zadanych wartości parametrów a i b w pliku model selection NB.m. UWAGA! Wszelkie macierze zawierające obiekty są typu sparse i logical. Aby zamienić macierz rzadką (sparse) na pełną wykonujemy funkcję full, natomiast aby zmienić typ danych na double wykonujemy funkcję double. UWAGA! Wszelkie nazwy funkcji i zmiennych w plikach *.m muszą pozostać zachowane. Zmiana jakichkolwiek nazw i dodanie fragmentów kodu poza wskazanymi miejscami skutkować będzie otrzymaniem 0 pkt. Pytania kontrolne 1. Proszę wyznaczyć estymator największej wiarygodności dla rozkładu wielopunktowego. 2. Proszę wyznaczyć estymator największej wiarygodności dla rozkładu dwupunktowego. 3. Proszę wyznaczyć estymator maksymalnego a posteriori dla rozkładu dwupunktowego. 4. Dlaczego stosujemy założenie o niezależności cech określających wystąpienie słowa w dokumencie? Jaka jest korzyść z takiego podejścia, a jaka jest strata? 5. Jaka jest interpretacja parametrów θ? Ile jest takich parametrów dla D cech i K klas? 5
6 6. Jaka jest interpretacja parametrów π? Ile jest takich parametrów dla D cech i K klas? 7. Jaka jest interpretacja hiperparametru κ? Za co odpowiada? Jaka jest jego interpretacja geometryczna? Jak jego wartość wpływa na rozwiązanie? 8. W jaki sposób wyznaczamy sąsiedztwo w modelu κ-nn? 9. Czy model κ-nn jest modelem generującym, czy dyskryminującym? Czy jest to model parametryczny, czy nieparametryczny? 10. Czy model Naive Bayes jest modelem generującym, czy dyskryminującym? Czy jest to model parametryczny, czy nieparametryczny? 6
Rozpoznawanie obrazów
Rozpoznawanie obrazów Laboratorium Python Zadanie nr 2 κ-nn i Naive Bayes autorzy: M. Zięba, J.M. Tomczak, A. Gonczarek, S. Zaręba, J. Kaczmar Cel zadania Celem zadania jest implementacja klasyfikatorów
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 2 Detekcja twarzy autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się algorytmem gradientu prostego
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 3 Detekcja twarzy autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba Cel zadania Celem zadania jest zaimplementowanie algorytmów
Rozpoznawanie obrazów
Rozpoznawanie obrazów Ćwiczenia lista zadań nr 7 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z liniowym zadaniem najmniejszych
Rozpoznawanie obrazów
Rozpoznawanie obrazów Laboratorium Python Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest implementacja liniowego zadania
Rozpoznawanie obrazów
Rozpoznawanie obrazów Ćwiczenia lista zadań nr 5 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie
Optymalizacja systemów
Optymalizacja systemów Laboratorium - problem detekcji twarzy autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, P. Klukowski Cel zadania Celem zadania jest zapoznanie się z gradientowymi algorytmami optymalizacji
Rozpoznawanie obrazów
Rozpoznawanie obrazów Laboratorium Python Zadanie nr 3 Regresja logistyczna autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest zaimplementowanie modelu
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 2 autorzy: A. Gonczarek, J.M. Tomczak Metody estymacji ML Zad. 1 Pojawianie się spamu opisane jest zmienną losową x o rozkładzie dwupunktowym
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 2 autorzy: A. Gonczarek, J.M. Tomczak Metody estymacji Zad. 1 Pojawianie się spamu opisane jest zmienną losową x o rozkładzie dwupunktowym
Podstawowe modele probabilistyczne
Wrocław University of Technology Podstawowe modele probabilistyczne Maciej Zięba maciej.zieba@pwr.edu.pl Rozpoznawanie Obrazów, Lato 2018/2019 Pojęcie prawdopodobieństwa Prawdopodobieństwo reprezentuje
WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska
Wrocław University of Technology WYKŁAD 4 Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie autor: Maciej Zięba Politechnika Wrocławska Klasyfikacja Klasyfikacja (ang. Classification):
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 3 Metody estymacji. Estymator największej wiarygodności Zad. 1 Pojawianie się spamu opisane jest zmienną losową y o rozkładzie zero-jedynkowym
Klasyfikator liniowy Wstęp Klasyfikator liniowy jest najprostszym możliwym klasyfikatorem. Zakłada on liniową separację liniowy podział dwóch klas między sobą. Przedstawia to poniższy rysunek: 5 4 3 2
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium ZALICZENIE Zadanie nr 3 Rozpoznawanie ręcznie pisanych cyfr autorzy: A. Gonczarek, P. Klukowski, J.M. Tomczak, S. Zaręba, M. Zięba Cel zadania Celem
WYKŁAD 3. Klasyfikacja: modele probabilistyczne
Wrocław University of Technology WYKŁAD 3 Klasyfikacja: modele probabilistyczne Maciej Zięba Politechnika Wrocławska Klasyfikacja Klasyfikacja (ang. Classification): Dysponujemy obserwacjami z etykietami
Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18
Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)
Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak
Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak 1 Wprowadzenie. Zmienne losowe Podczas kursu interesować nas będzie wnioskowanie o rozpatrywanym zjawisku. Poprzez wnioskowanie rozumiemy
SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization
Wrocław University of Technology SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization Jakub M. Tomczak Studenckie Koło Naukowe Estymator jakub.tomczak@pwr.wroc.pl 4.1.213 Klasteryzacja Zmienne
Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną
WYKŁAD 2 i 3. Podstawowe pojęcia związane z prawdopodobieństwem. Podstawy teoretyczne. autor: Maciej Zięba. Politechnika Wrocławska
Wrocław University of Technology WYKŁAD 2 i 3 Podstawowe pojęcia związane z prawdopodobieństwem. Podstawy teoretyczne autor: Maciej Zięba Politechnika Wrocławska Pojęcie prawdopodobieństwa Prawdopodobieństwo
Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,
Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
SPOTKANIE 4: Klasyfikacja: Regresja logistyczna
Wrocław University of Technology SPOTKANIE 4: Klasyfikacja: Regresja logistyczna Szymon Zaręba Studenckie Koło Naukowe Estymator 179226@student.pwr.wroc.pl 23.11.2012 Rozkład dwupunktowy i dwumianowy Rozkład
WYKŁAD 2. Problem regresji - modele liniowe
Wrocław University of Technology WYKŁAD 2 Problem regresji - modele liniowe Maciej Zięba Politechnika Wrocławska Regresja Regresja (ang. Regression): Dysponujemy obserwacjami z odpowiadającymi im wartościami
Optymalizacja systemów
Optymalizacja systemów Laboratorium Sudoku autor: A. Gonczarek Cel zadania Celem zadania jest napisanie programu rozwiązującego Sudoku, formułując problem optymalizacji jako zadanie programowania binarnego.
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
SPOTKANIE 3: Regresja: Regresja liniowa
Wrocław University of Technology SPOTKANIE 3: Regresja: Regresja liniowa Adam Gonczarek Studenckie Koło Naukowe Estymator adam.gonczarek@pwr.wroc.pl 22.11.2013 Rozkład normalny Rozkład normalny (ang. normal
Optymalizacja systemów
Optymalizacja systemów Laboratorium Zadanie nr 3 Sudoku autor: A. Gonczarek Cel zadania Celem zadania jest napisanie programu rozwiązującego Sudoku, formułując problem optymalizacji jako zadanie programowania
Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.
Spis treści 1 Wstęp: generatywne algorytmy uczące 2 Gaussowska analiza dyskryminacyjna 2.1 Gaussowska analiza dyskryminacyjna a regresja logistyczna 3 Naiwny Klasyfikator Bayesa 3.1 Wygładzanie Laplace'a
ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA
ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA Jan Mielniczuk Wisła, grudzień 2009 PLAN Błędy predykcji i ich podstawowe estymatory Estymacja błędu predykcji w modelu liniowym. Funkcje kryterialne Własności
Regresyjne metody łączenia klasyfikatorów
Regresyjne metody łączenia klasyfikatorów Tomasz Górecki, Mirosław Krzyśko Wydział Matematyki i Informatyki Uniwersytet im. Adama Mickiewicza XXXV Konferencja Statystyka Matematyczna Wisła 7-11.12.2009
Elementy modelowania matematycznego
Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski
Prawdopodobieństwo czerwonych = = 0.33
Temat zajęć: Naiwny klasyfikator Bayesa a algorytm KNN Część I: Naiwny klasyfikator Bayesa Naiwny klasyfikator bayerowski jest prostym probabilistycznym klasyfikatorem. Naiwne klasyfikatory bayesowskie
METODY INŻYNIERII WIEDZY
METODY INŻYNIERII WIEDZY WALIDACJA KRZYŻOWA dla ZAAWANSOWANEGO KLASYFIKATORA KNN ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)
Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania
Metody probabilistyczne klasyfikatory bayesowskie
Konwersatorium Matematyczne Metody Ekonomii narzędzia matematyczne w eksploracji danych First Prev Next Last Go Back Full Screen Close Quit Metody probabilistyczne klasyfikatory bayesowskie Wykład 8 Marcin
Testowanie hipotez statystycznych. Wprowadzenie
Wrocław University of Technology Testowanie hipotez statystycznych. Wprowadzenie Jakub Tomczak Politechnika Wrocławska jakub.tomczak@pwr.edu.pl 10.04.2014 Pojęcia wstępne Populacja (statystyczna) zbiór,
Wprowadzenie. Data Science Uczenie się pod nadzorem
Wprowadzenie Wprowadzenie Wprowadzenie Wprowadzenie Machine Learning Mind Map Historia Wstęp lub uczenie się z przykładów jest procesem budowy, na bazie dostępnych danych wejściowych X i oraz wyjściowych
Wprowadzenie do uczenia maszynowego. Jakub Tomczak
Wprowadzenie do uczenia maszynowego Jakub Tomczak 2014 ii Rozdział 1 Pojęcia podstawowe 1.1 Wprowadzenie. Zmienne losowe ˆ Podczas kursu interesować nas będzie wnioskowanie o rozpatrywanym zjawisku. Poprzez
TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.
TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy. Hipotezy dzielimy na parametryczne i nieparametryczne. Zajmiemy
Hierarchiczna analiza skupień
Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym
Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość
Idea Niech θ oznacza parametr modelu statystycznego. Dotychczasowe rozważania dotyczyły metod estymacji tego parametru. Teraz zamiast szacować nieznaną wartość parametru będziemy weryfikowali hipotezę
STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010
STATYSTYKA MATEMATYCZNA WYKŁAD 14 18 stycznia 2010 Model statystyczny ROZKŁAD DWUMIANOWY ( ) {0, 1,, n}, {P θ, θ (0, 1)}, n ustalone P θ {K = k} = ( ) n θ k (1 θ) n k, k k = 0, 1,, n Geneza: Rozkład Bernoulliego
Klasyfikacja LDA + walidacja
Klasyfikacja LDA + walidacja Dr hab. Izabela Rejer Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Plan wykładu 1. Klasyfikator 2. LDA 3. Klasyfikacja wieloklasowa 4. Walidacja
Analiza Algorytmów 2018/2019 (zadania na laboratorium)
Analiza Algorytmów 2018/2019 (zadania na laboratorium) Wybór lidera (do 9 III) Zadanie 1 W dowolnym języku programowania zaimplementuj symulator umożliwiający przetestowanie algorytmu wyboru lidera ELECT
Klasyfikacja metodą Bayesa
Klasyfikacja metodą Bayesa Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski warunkowe i bezwarunkowe 1. Klasyfikacja Bayesowska jest klasyfikacją statystyczną. Pozwala przewidzieć prawdopodobieństwo
Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne
Wprowadzenie Prostym podejściem do klasyfikacji jest estymacja funkcji regresji r(x) =E(Y X =x)zpominięciemestymacjigęstościf k. Zacznijmyodprzypadkudwóchgrup,tj.gdy Y = {1,0}. Wówczasr(x) =P(Y =1 X =x)ipouzyskaniuestymatora
Agnieszka Nowak Brzezińska
Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia
Wstęp do metod numerycznych Uwarunkowanie Eliminacja Gaussa. P. F. Góra
Wstęp do metod numerycznych Uwarunkowanie Eliminacja Gaussa P. F. Góra http://th-www.if.uj.edu.pl/zfs/gora/ 2012 Uwarunkowanie zadania numerycznego Niech ϕ : R n R m będzie pewna funkcja odpowiednio wiele
Weryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta
Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie
Wprowadzenie Konstrukcja binarnych drzew klasyfikacyjnych polega na sekwencyjnym dzieleniu podzbiorów przestrzeni próby X na dwa rozłączne i dopełniające się podzbiory, rozpoczynając od całego zbioru X.
Optymalizacja ciągła
Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej
Algorytmy metaheurystyczne Wykład 11. Piotr Syga
Algorytmy metaheurystyczne Wykład 11 Piotr Syga 22.05.2017 Drzewa decyzyjne Idea Cel Na podstawie przesłanek (typowo zbiory rozmyte) oraz zbioru wartości w danych testowych, w oparciu o wybrane miary,
Systemy ekspertowe - wiedza niepewna
Instytut Informatyki Uniwersytetu Śląskiego lab 8 Rozpatrzmy następujący przykład: Miażdżyca powoduje często zwężenie tętnic wieńcowych. Prowadzi to zazwyczaj do zmniejszenia przepływu krwi w tych naczyniach,
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium Zadanie nr 3 Osada autor: A Gonczarek Celem poniższego zadania jest zrealizowanie fragmentu komputerowego przeciwnika w grze strategiczno-ekonomicznej
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl
REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój
1 REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój 2 DOTYCHCZASOWE MODELE Regresja liniowa o postaci: y
STATYSTYKA MAŁYCH OBSZARÓW II.ESTYMATOR HORVITZA-THOMPSONA, ESTYMATOR KALIBROWANY
STATYSTYKA MAŁYCH OBSZARÓW II.ESTYMATOR HORVITZA-THOMPSONA, ESTYMATOR KALIBROWANY 2.1 Estymator Horvitza-Thompsona 2.1.1 Estymator Horvitza-Thompsona wartości średniej i globalnej w populacji p-nieobciążony
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 9 i 10 1 / 30 TESTOWANIE HIPOTEZ STATYSTYCZNYCH
Wybór modelu i ocena jakości klasyfikatora
Wybór modelu i ocena jakości klasyfikatora Błąd uczenia i błąd testowania Obciążenie, wariancja i złożoność modelu (klasyfikatora) Dekompozycja błędu testowania Optymizm Estymacja błędu testowania AIC,
Wnioskowanie bayesowskie
Wnioskowanie bayesowskie W podejściu klasycznym wnioskowanie statystyczne oparte jest wyłącznie na podstawie pobranej próby losowej. Możemy np. estymować punktowo lub przedziałowo nieznane parametry rozkładów,
Prawdopodobieństwo i statystyka
Wykład VIII: Przestrzenie statystyczne. Estymatory 1 grudnia 2014 Wprowadzenie Przykład: pomiar z błędem Współczynnik korelacji r(x, Z) = 0, 986 Wprowadzenie Przykład: pomiar z błędem Współczynnik korelacji
Stanisław Cichocki Natalia Nehrebecka. Wykład 7
Stanisław Cichocki Natalia Nehrebecka Wykład 7 1 1. Metoda Największej Wiarygodności MNW 2. Założenia MNW 3. Własności estymatorów MNW 4. Testowanie hipotez w MNW 2 1. Metoda Największej Wiarygodności
Algorytm grupowania danych typu kwantyzacji wektorów
Algorytm grupowania danych typu kwantyzacji wektorów Wstęp Definicja problemu: Typowe, problemem często spotykanym w zagadnieniach eksploracji danych (ang. data mining) jest zagadnienie grupowania danych
Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.
Prawdopodobieństwo i statystyka 3..00 r. Zadanie Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX 4 i EY 6. Rozważamy zmienną losową Z. X + Y Wtedy (A) EZ 0,
Metody oparte na logicznej regresji. zastosowaniu do wykrywania interakcji SNPów
w zastosowaniu do wykrywania interakcji SNPów Instytut Matematyczny, Uniwersytet Wrocławski Wisła, 9 grudnia 2009 DNA Zmienność genetyczna Polimorfizm to zmiana w strukturze DNA, obecna u co najmniej 1%
Jądrowe klasyfikatory liniowe
Jądrowe klasyfikatory liniowe Waldemar Wołyński Wydział Matematyki i Informatyki UAM Poznań Wisła, 9 grudnia 2009 Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 1 / 19 Zagadnienie
Algorytmy MCMC i ich zastosowania statystyczne
Algorytmy MCMC i ich zastosowania statystyczne Wojciech Niemiro Uniwersytet Mikołaja Kopernika, Toruń i Uniwersytet Warszawski Statystyka Matematyczna Wisła, grudzień 2010 Wykład 1 1 Co to jest MCMC? 2
Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka
Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE Joanna Sawicka Plan prezentacji Model Poissona-Gamma ze składnikiem regresyjnym Konstrukcja optymalnego systemu Bonus- Malus Estymacja
2. Empiryczna wersja klasyfikatora bayesowskiego
Algorytmy rozpoznawania obrazów 2. Empiryczna wersja klasyfikatora bayesowskiego dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Brak pełnej informacji probabilistycznej Klasyfikator bayesowski
LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI
LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI WERYFIKACJA HIPOTEZ Hipoteza statystyczna jakiekolwiek przypuszczenie dotyczące populacji generalnej- jej poszczególnych
1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie
Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty
Testowanie hipotez statystycznych
Testowanie hipotez statystycznych Przypuśdmy, że mamy do czynienia z następującą sytuacją: nieznany jest rozkład F rządzący pewnym zjawiskiem losowym. Dysponujemy konkretną próbą losową ( x1, x2,..., xn
ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW
ODRZUCANIE WYNIKÓW OJEDYNCZYCH OMIARÓW W praktyce pomiarowej zdarzają się sytuacje gdy jeden z pomiarów odstaje od pozostałych. Jeżeli wykorzystamy fakt, że wyniki pomiarów są zmienną losową opisywaną
TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.
TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy. Hipotezy dzielimy na parametryczne i nieparametryczne. Zajmiemy
Testowanie hipotez statystycznych.
Bioinformatyka Wykład 9 Wrocław, 5 grudnia 2011 Temat. Test zgodności χ 2 Pearsona. Statystyka χ 2 Pearsona Rozpatrzmy ciąg niezależnych zmiennych losowych X 1,..., X n o jednakowym dyskretnym rozkładzie
Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 1
Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 1 Konrad Miziński, nr albumu 233703 1 maja 2015 Zadanie 1 Parametr λ wyestymowano jako średnia z próby: λ = X n = 3.73 Otrzymany w
Statystyka Matematyczna Anna Janicka
Statystyka Matematyczna Anna Janicka wykład IX, 25.04.2016 TESTOWANIE HIPOTEZ STATYSTYCZNYCH Plan na dzisiaj 1. Hipoteza statystyczna 2. Test statystyczny 3. Błędy I-go i II-go rodzaju 4. Poziom istotności,
Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.
Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Maja Czoków, Jarosław Piersa, Andrzej Rutkowski Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2018-10-15 Projekt
Statystyka Matematyczna Anna Janicka
Statystyka Matematyczna Anna Janicka wykład X, 9.05.206 TESTOWANIE HIPOTEZ STATYSTYCZNYCH II: PORÓWNYWANIE TESTÓW Plan na dzisiaj 0. Przypomnienie potrzebnych definicji. Porównywanie testów 2. Test jednostajnie
Przykładowo, jeśli współrzędna x zmienia się od 0 do 8 co 1, a współrzędna y od 12 co 2 do 25, to punkty powinny wyglądać następująco:
Informatyka I Przypomnienie wiadomości z poprzednich zajęć: Kolokwium!!! II Nowe wiadomości: 1 Funkcje trójwymiarowe Wykresy trójwymiarowe tworzone są na podstawie funkcji dwóch zmiennych Wejściem takich
Statystyka opisowa. Wykład V. Regresja liniowa wieloraka
Statystyka opisowa. Wykład V. e-mail:e.kozlovski@pollub.pl Spis treści 1 Prosta regresji cechy Y względem cech X 1,..., X k. 2 3 Wyznaczamy zależność cechy Y od cech X 1, X 2,..., X k postaci Y = α 0 +
Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.
Testowanie hipotez Niech X = (X 1... X n ) będzie próbą losową na przestrzeni X zaś P = {P θ θ Θ} rodziną rozkładów prawdopodobieństwa określonych na przestrzeni próby X. Definicja 1. Hipotezą zerową Θ
Podstawy Programowania C++
Wykład 3 - podstawowe konstrukcje Instytut Automatyki i Robotyki Warszawa, 2014 Wstęp Plan wykładu Struktura programu, instrukcja przypisania, podstawowe typy danych, zapis i odczyt danych, wyrażenia:
Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017
Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład III bogumil.konopka@pwr.edu.pl 2016/2017 Wykład III - plan Regresja logistyczna Ocena skuteczności klasyfikacji Macierze pomyłek Krzywe
SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska BUDOWA DRZEW DECYZYJNYCH Drzewa decyzyjne są metodą indukcyjnego
Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego
Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego Współczynnik korelacji opisuje siłę i kierunek związku. Jest miarą symetryczną. Im wyższa korelacja tym lepiej potrafimy
Elementy inteligencji obliczeniowej
Elementy inteligencji obliczeniowej Paweł Liskowski Institute of Computing Science, Poznań University of Technology 9 October 2018 1 / 19 Perceptron Perceptron (Rosenblatt, 1957) to najprostsza forma sztucznego
Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować?
Algorytm k-nn Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować? Jak daleko są położone obiekty od siebie? knn k nearest neighbours jest
Prawdopodobieństwo i statystyka
Wykład XI: Testowanie hipotez statystycznych 12 stycznia 2015 Przykład Motywacja X 1, X 2,..., X N N (µ, σ 2 ), Y 1, Y 2,..., Y M N (ν, δ 2 ). Chcemy sprawdzić, czy µ = ν i σ 2 = δ 2, czyli że w obu populacjach
Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.
Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Maja Czoków, Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2011-10-11 1 Modelowanie funkcji logicznych
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 13 i 14 1 / 15 MODEL BAYESOWSKI, przykład wstępny Statystyka
Adrian Horzyk
Metody Inteligencji Obliczeniowej Metoda K Najbliższych Sąsiadów (KNN) Adrian Horzyk horzyk@agh.edu.pl AGH Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
1 Gaussowskie zmienne losowe
Gaussowskie zmienne losowe W tej serii rozwiążemy zadania dotyczące zmiennych o rozkładzie normalny. Wymagana jest wiedza na temat własności rozkładu normalnego, CTG oraz warunkowych wartości oczekiwanych..
Klasyfikacja naiwny Bayes
Klasyfikacja naiwny Bayes LABORKA Piotr Ciskowski NAIWNY KLASYFIKATOR BAYESA wyjaśnienie Naiwny klasyfikator Bayesa żródło: Internetowy Podręcznik Statystyki Statsoft dane uczące 2 klasy - prawdopodobieństwo
Hipotezy statystyczne
Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o którego prawdziwości lub fałszywości wnioskuje się na podstawie pobranej próbki losowej. Hipotezy