Prawdopodobieństwo czerwonych = = 0.33

Podobne dokumenty
Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska

Sztuczna inteligencja : Algorytm KNN

Mail: Pokój 214, II piętro

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Elementy modelowania matematycznego

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować?

Regresja liniowa, klasyfikacja metodą k-nn. Agnieszka Nowak Brzezińska

Uczenie się pojedynczego neuronu. Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z<0 y=1 gdy z>=0. Wówczas: W 1 x 1 + w 2 x 2 + = 0

Metody systemowe i decyzyjne w informatyce

Klasyfikacja metodą Bayesa

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Uwaga: szarych kropek po pokolorowaniu nie uwzględniaj w klasyfikowaniu kolejnych szarych.

Hierarchiczna analiza skupień

Co to jest klasyfikacja? Klasyfikacja a grupowanie Naiwny klasyfikator Bayesa

Wnioskowanie bayesowskie

Metody probabilistyczne klasyfikatory bayesowskie

Metody iteracyjne rozwiązywania układów równań liniowych (5.3) Normy wektorów i macierzy (5.3.1) Niech. x i. i =1

Metody wypełniania braków w danych ang. Missing values in data

2. Empiryczna wersja klasyfikatora bayesowskiego

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.

Lista 3 Funkcje. Środkowa częśd podanej funkcji, to funkcja stała. Jej wykresem będzie poziomy odcinek na wysokości 4.

METODY INŻYNIERII WIEDZY

Metody systemowe i decyzyjne w informatyce

PODSTAWOWE KONSTRUKCJE GEOMETRYCZNE

1 Klasyfikator bayesowski

Lista 2 logika i zbiory. Zad 1. Dane są zbiory A i B. Sprawdź, czy zachodzi któraś z relacji:. Wyznacz.

Lista 6. Kamil Matuszewski 13 kwietnia D n =

METODY INŻYNIERII WIEDZY

Formatowanie warunkowe

ZAGADNIENIA NA EGZAMIN POPRAWKOWY Z MATEMATYKI W KLASIE III TECHNIKUM.

Teraz bajty. Informatyka dla szkoły podstawowej. Klasa VI

Systemy uczące się wykład 2

Zajęcia: VBA TEMAT: VBA PROCEDURY NUMERYCZNE Metoda bisekcji i metoda trapezów

Rozpoznawanie obrazów

Rozpoznawanie obrazów

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

METODY INŻYNIERII WIEDZY

Klasyfikacja LDA + walidacja

Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki

Metody systemowe i decyzyjne w informatyce

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Wstęp do metod numerycznych Uwarunkowanie Eliminacja Gaussa. P. F. Góra

FUNKCJA LINIOWA - WYKRES

WYMAGANIA na poszczególne oceny-klasa I Gimnazjum


Matura próbna 2014 z matematyki-poziom podstawowy

tworzy prostą animację poklatkową w sposób niedokładny z dużymi odległościami między poszczególnymi etapami animacji,

Spacery losowe generowanie realizacji procesu losowego

Model odpowiedzi i schemat oceniania do arkusza I

FUNKCJA KWADRATOWA. Zad 1 Przedstaw funkcję kwadratową w postaci ogólnej. Postać ogólna funkcji kwadratowej to: y = ax + bx + c;(

Systemy uczące się Lab 4

Jarosław Wróblewski Matematyka dla Myślących, 2008/09

Wymagania edukacyjne z informatyki dla uczniów klas VI SP nr 53 w Krakowie w roku szkolnym 2019/2020

EGZAMIN MATURALNY W ROKU SZKOLNYM 2014/2015

Wykład 6. Metoda eliminacji Gaussa: Eliminacja z wyborem częściowym Eliminacja z wyborem pełnym

Liczby pierwsze. Kacper Żurek, uczeń w Gimnazjum nr 1 im. Jana Pawła II w Giżycku.

Optymalizacja systemów

Fuzja sygnałów i filtry bayesowskie

Ważne rozkłady i twierdzenia

WYMAGANIA EDUKACYJNE

Algorytmy klasyfikacji

Wykład 4: Statystyki opisowe (część 1)

CLUSTERING. Metody grupowania danych

Kolejny krok iteracji polega na tym, że przechodzimy do następnego wierzchołka, znajdującego się na jednej krawędzi z odnalezionym już punktem, w

KURS FUNKCJE WIELU ZMIENNYCH

I. Funkcja kwadratowa

Metody klasyfikacji i klasteryzacji obiektów wielocechowych.

Metody systemowe i decyzyjne w informatyce

Sztuczna inteligencja : Naiwny klasyfikator Bayesa

W narzędziu typu Excel, Calc czy Gnumeric napisz formułę logiczną która wyznaczy wartośd przynależności dla podanej temperatury do zbioru gorąco.

Praca kontrolna z matematyki nr 1 Liceum Ogólnokształcące dla Dorosłych Semestr 5 Rok szkolny 2014/2015

1 Macierz odwrotna metoda operacji elementarnych

trygonometria Trygonometria to dział matematyki, który bada związki między bokami i kątami trójkątów.

Zagadnienie transportowe (badania operacyjne) Mgr inż. Aleksandra Radziejowska AGH Akademia Górniczo-Hutnicza w Krakowie

Analiza danych. TEMATYKA PRZEDMIOTU

ĆWICZENIE NR 1 WPROWADZENIE DO INFORMATYKI

Okręgi na skończonej płaszczyźnie Mateusz Janus

Propozycje rozwiązań zadań otwartych z próbnej matury rozszerzonej przygotowanej przez OPERON.

Geometria. Zadanie 1. Liczba przekątnych pięciokąta foremnego jest równa A. 4 B. 5 C. 6 D. 7

1. A 2. A 3. B 4. B 5. C 6. B 7. B 8. D 9. A 10. D 11. C 12. D 13. B 14. D 15. C 16. C 17. C 18. B 19. D 20. C 21. C 22. D 23. D 24. A 25.

Zestaw 12- Macierz odwrotna, układy równań liniowych

Luty 2001 Algorytmy (4) 2000/2001

Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych

Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne)

Rozkład łatwości zadań

Rozkład łatwości zadań

Zadanie 0 gdy nie mamy logiki rozmytej. Zadanie 1- gdy już mamy logikę rozmytą

Excel zadania sprawdzające 263

Symulacja w przedsiębiorstwie

STATYSTYKA I DOŚWIADCZALNICTWO

Co to jest arkusz kalkulacyjny?

PODSTAWY > Figury płaskie (1) KĄTY. Kąt składa się z ramion i wierzchołka. Jego wielkość jest mierzona w stopniach:

Rozkład łatwości zadań

Transkrypt:

Temat zajęć: Naiwny klasyfikator Bayesa a algorytm KNN Część I: Naiwny klasyfikator Bayesa Naiwny klasyfikator bayerowski jest prostym probabilistycznym klasyfikatorem. Naiwne klasyfikatory bayesowskie są oparte na założeniu o wzajemnej niezależności predykatorów ( zmiennych niezależnych). Często nie mają one żadnego związku z rzeczywistością i właśnie z tego powodu nazywamy je naiwnymi. Bardziej opisowe może byd określenie- model cech niezależnych. Model prawdopodobieostwa można wyprowadzid korzystając z twierdzenia Bayesa. W zależności od rodzaju dokładności modelu prawdopodobieostwa, naiwne klasyfikatory bayerowskie można uczyd bardzo skutecznie w trybie uczenia z nadzorem. W wielu praktycznych aplikacjach, estymacja parametru dla naiwnych modeli Bayesa używa metody maksymalnego prawdopodobieostwa (Maximal likelihood) á posteriori. Inaczej mówiąc, może pracowad z naiwnym modelem Bayesa bez wierzenia w twierdzenie Bayesa albo używania jakichś metod Bayesa. Jeśli wiemy, że kulek czerwonych jest 2 razy mniej niż zielonych (bo czerwonych jest 20 a zielonych 40) to prawdopodobieostwo tego, że kolejna (nowa) kulka będzie koloru zielonego jest dwa razy większe niż tego, że kulka będzie czerwona. Dlatego możemy napisad, że znane z góry prawdopodobieostwa: Prawdopodobieństwo zielonych = liczba zielonych liczba wszystkich kulek zielonych i czerwonych Prawdopodobieństwo czerwonych = liczba czerwonych liczba wszystkich kulek zielonych i czerwonych Jeśli więc czerwonych jest 20 a zielonych 40, to razem wszystkich jest 60. Więc Prawdopodobieństwo zielonych = 40 60 = 0.66 Prawdopodobieństwo czerwonych = 20 60 = 0.33 Więc teraz gdy mamy do czynienia z nową kulką ( na rysunku biała): To spróbujmy ustalid jaka ona będzie. Dokonujemy po prostu klasyfikacji kulki do jednej z dwóch klas: zielonych bądź czerwonych. Jeśli weźmiemy pod uwagę sąsiedztwo białej kulki takie jak zaznaczono, a więc do 4 najbliższych sąsiadów, to widzimy, że wśród nich są 3 kulka czerwone i 1 zielona. Obliczamy liczbę kulek w sąsiedztwie należących do danej klasy : zielonych bądź czerwonych z wzorów: kulka X jest zielona w swoim sąsiedztwie = liczba kulek zielonych w sąsiedztwie kulki X liczba wszystkich kulek zielonych

liczba kulek czerwonych w sąsiedztwie kulki X kulka X jest czerwona w swoim sąsiedztwie = liczba wszystkich kulek czerwonych W naszym przypadku, jest dziwnie, bo akurat w sąsiedztwie kulki X jest więcej kulek czerwonych niż zielonych, mimo, iż kulek zielonych jest ogólnie 2 razy więcej niż czerwonych. Dlatego zapiszemy, że kulka X jest zielona w swoim sąsiedztwie = 1 40 kulka X jest czerwona w swoim sąsiedztwie = 3 20 Prawdopodobieństwo że kulka X jest zielona = prawdopodobieostwo kulki zielonej * Dlatego ostatecznie powiemy, że Prawdopodobieostwo że kulka X jest zielona = prawdopodobieostwo kulki zielonej * prawdopodobieostwo, że kulka X jest zielona w swoim sąsiedztwie = 40 60 1 40 = 1 60 Prawdopodobieostwo że kulka X jest czerwona = prawdopodobieostwo kulki czerwonej * prawdopodobieostwo, że kulka X jest czerwona w swoim sąsiedztwie = 20 3 = 1 60 20 20 Ostatecznie klasyfikujemy nową kulkę X do klasy kulek czerwonych, ponieważ ta klasa dostarcza nam większego prawdopodobieostwa posteriori. Część II: Algorytm k-nn Klasyfikacja obiektów w oparciu o najbliższe obiekty: Algorytm 1-NN - najbliższego sąsiada. Schemat algorytmu: 1. Poszukaj obiektu najbliższego w stosunku do obiektu klasyfikowanego. 2. Określenie klasy decyzyjnej na podstawie obiektu najbliższego. Algorytm k-nn - k najbliższych sąsiadów. Podobny do powyższego algorytmu Bardziej odporny na szumy - w poprzednim algorytmie obiekt najbliższy klasyfikowanemu może byd zniekształcony - tak samo zostanie zaklasyfikowany nowy obiekt. Koniecznośd ustalenia liczby najbliższych sąsiadów. Wyznaczenie miary podobieostwa wśród obiektów (wiele miar podobieostwa). Dobór parametru k - liczby sąsiadów: Jeśli k jest małe, algorytm nie jest odporny na szumy jakośd klasyfikacji jest niska. Jeśli k jest duże, czas działania algorytmu rośnie - większa złożonośd obliczeniowa. Należy wybrad k, które daje najwyższą wartośd klasyfikacji. Wyznaczanie odległości obiektów: odległośd euklidesowa d ij = p k=1 x ij x jk ^2

Obiekt klasyfikowany podany jako ostatni : a = 3, b = 6 Teraz obliczmy odległości poszczególnych obiektów od wskazanego. Dla uproszczenia obliczeo posłużymy sie wzorem: Znajdujemy więc k najbliższych sąsiadów. Załóżmy, że szukamy 9 najbliższych sąsiadów. Wyróżnimy ich kolorem zielonym. Sprawdzamy, które z tych 9 najbliższych sąsiadów są z klasy + a które z klasy -? By to zrobid musimy znaleźd k najbliższych sąsiadów. Służy do tego funkcja Excela o nazwie MIN.K, która znajduje w zadanych zbiorze jaka wartośd jest wartością progową przy podanej liczbie k sąsiadów. W naszym przypadku, jeśli mamy znaleźd 9 najbliższych sąsiadów, budujemy formułę, A więc okazuje się, że jeśli bierzemy pod uwagę kolumnę D w której mierzymy odległości każdego obiektu (współrzędne a i b kolumny A i B)do tego rekordu niesklasyfikowanego (nr 26) i szukamy 9 jego najbliższych sąsiadów, to wiemy, że wartością progową jest wartośd 3.16. Innymi słowy, bierzemy pod uwagę tylko te obiekty z wierszy od 2 do 25 w których mamy odległości mniejsze bądź równe tej wartości progowej. Musimy więc zbudowad formułę, w której wyróżniamy tylko te rekordy, które spełniają to kryterium w kolumnie E wypiszemy wówczas klasę przynależności takich rekordów, a więc odpowiednio + albo -.

A więc widzimy, że wśród tych 9 sąsiadów, mamy 3 + i 5 -. Musimy dopisad teraz w wierszu 26, gdzie mamy dotąd niesklasyfikowany obiekt, formułę, która w koocu ustali jaka tam ma byd wartośd w kolumnie C czy + czy -? Najpierw trzeba wiedzied czy wśród tych wyróżnionych 9 najbliższych sąsiadów (tak naprawdę 8, bo tym ostatnim jest sam obiekt nowoklasyfikowany) jest więcej + czy -? Więc musimy to zliczyd. Służą do tego formuły takie jak na rysunku poniżej: Teraz w komórce (kolumna C, wiersz 26) wreszcie możemy napisad formułę, która wstawi odpowiednią wartośd. W ten sposób stwierdzimy, że obiekt a=3 i b=6 zaliczymy do klasy -

Zadania do wykonania (zrobić i odesłać wyniki w formie sprawozdania) Zadanie 1. (naiwny klasyfikator) Dla rysunku poniżej, gdzie mamy niebieskie kwadraty i czerwone trójkąty: Powiedz do jakiej klasy zaliczysz nowy obiekt czarne kółko, jeśli jako sąsiedztwo bierzemy pod uwagę mniejszy okrąg, a co jeśli większy? Zadanie 2.Zakładając ze mamy dane z tabeli poniżej Podaj klasę dla obserwacji z wiersza nr 26. Zastosuj metodę 5NN.