Agnieszka Nowak Brzezińska

Podobne dokumenty
Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III

Mail: Pokój 214, II piętro

Prawdopodobieństwo czerwonych = = 0.33

Sztuczna inteligencja : Algorytm KNN

Regresja liniowa, klasyfikacja metodą k-nn. Agnieszka Nowak Brzezińska

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować?

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

KLASYFIKACJA. Słownik języka polskiego

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych


Regresja i Korelacja

METODY INŻYNIERII WIEDZY

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je.

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

Elementy modelowania matematycznego

Klasyfikacja LDA + walidacja

METODY INŻYNIERII WIEDZY

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Analiza składowych głównych. Wprowadzenie

Określanie ważności atrybutów. RapidMiner

Rozpoznawanie obrazów

Hierarchiczna analiza skupień

Metody systemowe i decyzyjne w informatyce

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

STATYSTYKA MATEMATYCZNA

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Sieci neuronowe w Statistica. Agnieszka Nowak - Brzezioska

Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki

Statystyczna analiza danych

Analiza współzależności zjawisk

Adrian Horzyk

Systemy uczące się Lab 4

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Prognozowanie na podstawie modelu ekonometrycznego

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.

Zmienne zależne i niezależne

WYKŁAD 12. Analiza obrazu Wyznaczanie parametrów ruchu obiektów

Projekt Sieci neuronowe

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Elementy statystyki wielowymiarowej

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Analiza współzależności dwóch cech I

STATYSTYKA MATEMATYCZNA

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Uczenie się pojedynczego neuronu. Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z<0 y=1 gdy z>=0. Wówczas: W 1 x 1 + w 2 x 2 + = 0

METODY INŻYNIERII WIEDZY

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

Metody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017

Propozycje rozwiązań zadań otwartych z próbnej matury rozszerzonej przygotowanej przez OPERON.

Agnieszka Nowak Brzezińska

8. Neuron z ciągłą funkcją aktywacji.

JEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY

Optymalizacja systemów

SZTUCZNA INTELIGENCJA

Wojciech Skwirz

Sieci neuronowe w Statistica

MODELE LINIOWE. Dr Wioleta Drobik

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Wstęp do metod numerycznych Uwarunkowanie Eliminacja Gaussa. P. F. Góra

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Metodologia badań psychologicznych. Wykład 12. Korelacje

Podstawy opracowania wyników pomiarów z elementami analizy niepewności pomiarowych

Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński

Regresyjne metody łączenia klasyfikatorów

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. Metoda CART. MiNI PW

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

WYKŁAD 13 ANALIZA I ROZPOZNANIE OBRAZU. Konstrukcja wektora cech z użyciem współczynników kształtu

Optymalizacja konstrukcji

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

Analiza danych. TEMATYKA PRZEDMIOTU

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Matura próbna 2014 z matematyki-poziom podstawowy

Po zapoznaniu się z funkcją liniową możemy przyjśd do badania funkcji kwadratowej.

SPIS TREŚCI WSTĘP LICZBY RZECZYWISTE 2. WYRAŻENIA ALGEBRAICZNE 3. RÓWNANIA I NIERÓWNOŚCI

Mgr Kornelia Uczeń. WYMAGANIA na poszczególne oceny-klasa VII-Szkoła Podstawowa

Lista 3 Funkcje. Środkowa częśd podanej funkcji, to funkcja stała. Jej wykresem będzie poziomy odcinek na wysokości 4.

Wykład 10 Skalowanie wielowymiarowe

MODELOWANIE KOSZTÓW USŁUG ZDROWOTNYCH PRZY

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

PDF created with FinePrint pdffactory Pro trial version

Transkrypt:

Agnieszka Nowak Brzezińska

jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia Dany jest zbiór uczący zawierający obserwacje z których każda ma przypisany wektor zmiennych objaśniających oraz wartośd zmiennej objaśnianej Y. Dana jest obserwacja C z przypisanym wektorem zmiennych objaśniających dla której chcemy prognozowad wartośd zmiennej objaśnianej Y.

Wyznaczanie odległości obiektów: odległość euklidesowa

Obiekty są analizowane w ten sposób, że oblicza się odległości bądź podobieństwa między nimi. Istnieją różne miary podobieństwa czy odległości. Powinny być one wybierane konkretnie dla typu danych analizowanych: inne są bowiem miary typowo dla danych binarnych, inne dla danych nominalnych a inne dla danych numerycznych. Nazwa Wzór gdzie: x,y - to wektory wartości cech porównywanych obiektów w przestrzeni p- wymiarowej, gdzie odpowiednio wektory wartości to: oraz. odległośd euklidesowa odległośd kątowa współczynnik korelacji liniowej Pearsona Miara Gowera

Oblicz odległość punktu A o współrzędnych (2,3) do punktu B o współrzędnych (7,8). 9 8 7 6 5 4 3 2 1 0 A B 0 2 4 6 8 D (A,B) = pierwiastek ((7-2) 2 + (8-3) 2 ) = pierwiastek (25 + 25) = pierwiastek (50) = 7.07

9 8 B 7 6 5 4 3 A A B C 2 1 C 0 0 1 2 3 4 5 6 7 8 Mając dane punkty: A(2,3), B(7,8) oraz C(5,1) oblicz odległości między punktami: D (A,B) = pierwiastek ((7-2) 2 + (8-3) 2 ) = pierwiastek (25 + 25) = pierwiastek (50) = 7.07 D (A,C) = pierwiastek ((5-2) 2 + (3-1) 2 ) = pierwiastek (9 + 4) = pierwiastek (13) = 3.60 D (B,C) = pierwiastek ((7-5) 2 + (3-8) 2 ) = pierwiastek (4 + 25) = pierwiastek (29) = 5.38

1. porównanie wartości zmiennych objaśniających dla obserwacji C z wartościami tych zmiennych dla każdej obserwacji w zbiorze uczącym. 2. wybór k (ustalona z góry liczba) najbliższych do C obserwacji ze zbioru uczącego. 3. Uśrednienie wartości zmiennej objaśnianej dla wybranych obserwacji, w wyniku czego uzyskujemy prognozę. Przez "najbliższą obserwację" mamy na myśli, taką obserwację, której odległośd do analizowanej przez nas obserwacji jest możliwie najmniejsza.

Obiekt klasyfikowany podany jako ostatni : a = 3, b = 6 Teraz obliczmy odległości poszczególnych obiektów od wskazanego. Dla uproszczenia obliczeń posłużymy sie wzorem:

Znajdujemy więc k najbliższych sąsiadów. Załóżmy, że szukamy 9 najbliższych sąsiadów. Wyróżnimy ich kolorem zielonym. Sprawdzamy, które z tych 9 najbliższych sąsiadów są z klasy + a które z klasy -? By to zrobić musimy znaleźć k najbliższych sąsiadów (funkcja Excela o nazwie MIN.K)

Wyobraźmy sobie, że nie mamy 2 zmiennych opisujących każdy obiekt, ale tych zmiennych jest np. 5: {v1,v2,v3,v4,v5} i że obiekty opisane tymi zmiennymi to 3 punkty: A, B i C: V1 V2 V3 V4 V5 A 0.7 0.8 0.4 0.5 0.2 B 0.6 0.8 0.5 0.4 0.2 C 0.8 0.9 0.7 0.8 0.9 Policzmy teraz odległość między punktami: D (A,B) = pierwiastek ((0.7-0.6) 2 + (0.8-0.8) 2 + (0.4-0.3) 2 + (0.5-0.4) 2 + (0.2-0.2) 2 ) = pierwiastek (0.01 + 0.01 + 0.01) = pierwiastek (0.03) = 0.17 D (A,C) = pierwiastek ((0.7-0.8) 2 + (0.8-0.9) 2 + (0.4-0.7) 2 + (0.5-0.8) 2 + (0.2-0.9) 2 ) = pierwiastek (0.01 + 0.01 + 0.09 + 0.09 + 0.49) = pierwiastek (0.69) = 0.83 D (B,C) = pierwiastek ((0.6-0.8) 2 + (0.8-0.9) 2 + (0.5-0.7) 2 + (0.4-0.8) 2 + (0.2-0.9) 2 ) = pierwiastek (0.04 + 0.01 + 0.04+0.16 + 0.49) = pierwiastek (0.74) = 0.86 Szukamy najmniejszej odległości, bo jeśli te dwa punkty są najbliżej siebie, dla których mamy najmniejszą odległości! A więc najmniejsza odległość jest między punktami A i B!

Schemat algorytmu: Poszukaj obiektu najbliższego w stosunku do obiektu klasyfikowanego. Określenie klasy decyzyjnej na podstawie obiektu najbliższego. Cechy algorytmu: Bardziej odporny na szumy - w poprzednim algorytmie obiekt najbliższy klasyfikowanemu może być zniekształcony - tak samo zostanie zaklasyfikowany nowy obiekt. Konieczność ustalenia liczby najbliższych sąsiadów. Wyznaczenie miary podobieństwa wśród obiektów (wiele miar podobieństwa). Dobór parametru k - liczby sąsiadów: Jeśli k jest małe, algorytm nie jest odporny na szumy jakość klasyfikacji jest niska. Jeśli k jest duże, czas działania algorytmu rośnie - większa złożoność obliczeniowa. Należy wybrać k, które daje najwyższą wartość klasyfikacji.

Wykonaj algorytm k-nn dla zbioru: Sklasyfikuj przypadek: