Analiza danych OGÓLNY SCHEMAT. http://zajecia.jakubw.pl/ Dane treningowe (znana decyzja) Klasyfikator. Dane testowe (znana decyzja)



Podobne dokumenty
Elementy modelowania matematycznego

STATYSTYKA MATEMATYCZNA WYKŁAD 5 WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 4

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Analiza danych. Analiza danych wielowymiarowych. Regresja liniowa. Dyskryminacja liniowa. PARA ZMIENNYCH LOSOWYCH

Natalia Nehrebecka. Zajęcia 4

Weryfikacja hipotez dla wielu populacji

Projekt 6 6. ROZWIĄZYWANIE RÓWNAŃ NIELINIOWYCH CAŁKOWANIE NUMERYCZNE

5. OPTYMALIZACJA GRAFOWO-SIECIOWA

W praktyce często zdarza się, że wyniki obu prób możemy traktować jako. wyniki pomiarów na tym samym elemencie populacji np.


) będą niezależnymi zmiennymi losowymi o tym samym rozkładzie normalnym z następującymi parametrami: nieznaną wartością 1 4

SYSTEMY UCZĄCE SIĘ WYKŁAD 7. KLASYFIKATORY BAYESA. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Zmodyfikowana technika programowania dynamicznego

Systemy Ochrony Powietrza Ćwiczenia Laboratoryjne

Zapis informacji, systemy pozycyjne 1. Literatura Jerzy Grębosz, Symfonia C++ standard. Harvey M. Deitl, Paul J. Deitl, Arkana C++. Programowanie.

KURS STATYSTYKA. Lekcja 1 Statystyka opisowa ZADANIE DOMOWE. Strona 1

Problemy jednoczesnego testowania wielu hipotez statystycznych i ich zastosowania w analizie mikromacierzy DNA

65120/ / / /200

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

KURS STATYSTYKA. Lekcja 6 Regresja i linie regresji ZADANIE DOMOWE. Strona 1

( ) ( ) 2. Zadanie 1. są niezależnymi zmiennymi losowymi o. oraz. rozkładach normalnych, przy czym EX. i σ są nieznane. 1 Niech X

SZTUCZNA INTELIGENCJA

System Przeciwdziałania Powstawaniu Bezrobocia na Terenach Słabo Zurbanizowanych SPRAWOZDANIE Z BADAŃ Autor: Joanna Wójcik

Stanisław Cichocki. Natalia Nehrebecka Katarzyna Rosiak-Lada. Zajęcia 3

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Stanisław Cichocki. Natalia Nehrebecka. Wykład 7

Ćwiczenie 10. Metody eksploracji danych

BADANIA OPERACYJNE. Podejmowanie decyzji w warunkach niepewności. dr Adam Sojda

Statystyka. Zmienne losowe

Analiza rodzajów skutków i krytyczności uszkodzeń FMECA/FMEA według MIL STD A

SZACOWANIE NIEPEWNOŚCI POMIARU METODĄ PROPAGACJI ROZKŁADÓW

METODA UNITARYZACJI ZEROWANEJ Porównanie obiektów przy ocenie wielokryterialnej. Ranking obiektów.

Natalia Nehrebecka. Zajęcia 3

Badania sondażowe. Braki danych Konstrukcja wag. Agnieszka Zięba. Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa

± Δ. Podstawowe pojęcia procesu pomiarowego. x rzeczywiste. Określenie jakości poznania rzeczywistości

Plan wykładu: Typowe dane. Jednoczynnikowa Analiza wariancji. Zasada: porównać zmienność pomiędzy i wewnątrz grup

Proces narodzin i śmierci

dy dx stąd w przybliżeniu: y

Statystyczne metody przetwarzania danych

OPTYMALIZACJA WARTOŚCI POLA MAGNETYCZNEGO W POBLIŻU LINII NAPOWIETRZNEJ Z WYKORZYSTANIEM ALGORYTMU GENETYCZNEGO

Agnieszka Nowak Brzezińska Wykład III

Statyczna alokacja kanałów (FCA)

Statystyka Opisowa 2014 część 1. Katarzyna Lubnauer

ZESZYTY NAUKOWE INSTYTUTU POJAZDÓW 5(96)/2013

Analiza porównawcza rozwoju wybranych banków komercyjnych w latach

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Oligopol dynamiczny. Rozpatrzmy model sekwencyjnej konkurencji ilościowej jako gra jednokrotna z pełną i doskonalej informacją

Zjawiska masowe takie, które mogą wystąpid nieograniczoną ilośd razy. Wyrazów Obcych)

Prawdopodobieństwo i statystyka r.

Natalia Nehrebecka. Wykład 2

I. Elementy analizy matematycznej

Nieparametryczne Testy Istotności

Analiza danych. TEMATYKA PRZEDMIOTU

Diagnostyka układów kombinacyjnych

Teoria niepewności pomiaru (Rachunek niepewności pomiaru) Rodzaje błędów pomiaru

BADANIE NIEZAWODNOŚCI DIAGNOZ

Modele wieloczynnikowe. Modele wieloczynnikowe. Modele wieloczynnikowe ogólne. α β β β ε. Analiza i Zarządzanie Portfelem cz. 4.

Zapytanie ofertowe nr 4/2016/Młodzi (dotyczy zamówienia na usługę ochrony)

Zestaw zadań 4: Przestrzenie wektorowe i podprzestrzenie. Liniowa niezależność. Sumy i sumy proste podprzestrzeni.

Instytut Badań Systemowych Polskiej Akademii Nauk

DUQUE DATA COLLECTION FOR DELIVERY PORODY - zbieranie danych w projekcie DUQuE

Analiza empiryczna struktury handlu międzynarodowego. Zajęcia z TWM dr Leszek Wincenciak

Wprowadzenie. Support vector machines (maszyny wektorów wspierających, maszyny wektorów nośnych) SVM służy do: Zalety metody SVM

Propensity score matching (PSM)

STATYSTYCZNA ANALIZA WYNIKÓW POMIARÓW

Stanisław Cichocki. Natalia Nehrebecka. Wykład 7

Proste modele ze złożonym zachowaniem czyli o chaosie

( X, Y ) będzie dwuwymiarową zmienną losową o funkcji gęstości

Parametry zmiennej losowej

Adrian Horzyk

NAFTA-GAZ marzec 2011 ROK LXVII. Wprowadzenie. Tadeusz Kwilosz

Współczynnik przenikania ciepła U v. 4.00

Twierdzenie Bezouta i liczby zespolone Javier de Lucas. Rozwi azanie 2. Z twierdzenia dzielenia wielomianów, mamy, że

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Teoria niepewności pomiaru (Rachunek niepewności pomiaru) Rodzaje błędów pomiaru

Badanie współzależności dwóch cech ilościowych X i Y. Analiza korelacji prostej

D Archiwum Prac Dyplomowych - Instrukcja dla studentów

SYSTEMY UCZĄCE SIĘ WYKŁAD 15. ANALIZA DANYCH WYKRYWANIE OBSERWACJI. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Agnieszka Nowak Brzezińska Wykład III

Procedura normalizacji

MATEMATYKA POZIOM ROZSZERZONY Kryteria oceniania odpowiedzi. Arkusz A II. Strona 1 z 5

Elementy modelowania matematycznego

Za: Stanisław Latoś, Niwelacja trygonometryczna, [w:] Ćwiczenia z geodezji II [red.] J. Beluch

MODELOWANIE LICZBY SZKÓD W UBEZPIECZENIACH KOMUNIKACYJNYCH W PRZYPADKU WYSTĘPOWANIA DUŻEJ LICZBY ZER, Z WYKORZYSTANIEM PROCEDURY KROSWALIDACJI

-Macierz gęstości: stany czyste i mieszane (przykłady) -równanie ruchu dla macierzy gęstości -granica klasyczna rozkładów kwantowych

WYZNACZANIE WSPÓŁCZYNNIKA LEPKOŚCI CIECZY METODĄ STOKESA

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 311

Statystyka Inżynierska

OPTYMALIZACJA PROCESU PRZESIEWANIA W PRZESIEWACZACH WIELOPOKŁADOWYCH

Kodowanie informacji. Instytut Informatyki UWr Studia wieczorowe. Wykład nr 2: rozszerzone i dynamiczne Huffmana

(M2) Dynamika 1. ŚRODEK MASY. T. Środek ciężkości i środek masy

Definicje ogólne

Wykład Efekt Joule a Thomsona

Rozkład dwupunktowy. Rozkład dwupunktowy. Rozkład dwupunktowy x i p i 0 1-p 1 p suma 1

Rachunek niepewności pomiaru opracowanie danych pomiarowych

Algorytmy ewolucyjne optymalizacji wielokryterialnej sterowane preferencjami decydenta

Testowanie hipotez statystycznych cd.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Transkrypt:

Analza danych Dane trenngowe testowe. Algorytm k najblższych sąsadów. Jakub Wróblewsk jakubw@pjwstk.edu.pl http://zajeca.jakubw.pl/ OGÓLNY SCHEMAT Mamy dany zbór danych podzelony na klasy decyzyjne, oraz pewen algorytm klasyfkujący. Problem: zbadać skuteczność algorytmu na tych danych. Kryterum skutecznośc: lczba (procent) prawdłowo rozpoznanych obektów testowych, neborących udzału w trenngu. Dane trenngowe (znana decyzja) o o2 o3 2.3 AAC -5 6.87 AAA -2.2 BBB budowa modelu Skąd wząć dane testowe? Dane testowe (znana decyzja) Klasyfkator o o2 o3 25. BBA - 5.8 BBB -2 7.6 BAB -4 lczymy prawdłowe odpowedz klasyfkatora

WYBÓR PRÓBKI TESTOWEJ - Testowane algorytmu wykonujemy, gdy chcemy porównać jego wynk z nnym, ale równeż podczas optymalzacj parametrów samego algorytmu, np. w celu wyboru właścwej opcj. - Welkość próbk testowej ne pownna być zbyt mała, jeśl np. chcemy uzyskać dokładność,%, próbka pownna meć ponad obektów. Technk statystyczne pomagają nam oszacować welkość próbk do porównań na danym pozome stotnośc. - Możemy podzelć dane na część trenngową (zwykle ok. 7%) testową. Dane używane do testowana ne mogą być użyte do trenowana klasyfkatora. - Nektóre dane referencyjne mają z góry zdefnowaną część testową. Obektów z tej częśc możemy użyć tylko raz, do określena końcowej jakośc naszego klasyfkatora. SCHEMAT CV-n Zbór trenngowy Losowy podzał (CV-5) Konstruowane klasyfkatora Testowane Cross-valdaton (CV-n, waldacja krzyżowa) Zbór trenngowy dzelmy losowo na n częśc. W n kolejnych fazach testu każda z n częśc pełn rolę próbk testowej, a pozostałe - próbk trenngowej. Wynk klasyfkacj są sumowane. 2

METODA LEAVE-ONE-OUT Zbór trenngowy jest wykorzystywany w całośc jako zbór testowy: - Dla każdego obektu o konstruujemy klasyfkator wykorzystujący wszystke obekty z wyjątkem o. - Obekt o klasyfkujemy zapamętujemy wynk. - Po przetestowanu wszystkch obektów sumujemy wynk. Metoda równoważna CV-n dla n równego lczbe obektów w zborze. Metoda zwykle bardzo wolna, jednak można ją stosować w sytuacjach, gdy trenng klasyfkatora jest czynnoścą bardzo prostą (np. nawny klasyfkator bayesowsk - wystarczy tak zmodyfkować prawdopodobeństwa, by omnąć obekt o). KLASYFIKACJA OPARTA NA ODLEGŁOŚCI Załóżmy, że analzowany zbór danych zawera obekty opsane wektoram lczb (cech) rzeczywstych: x= x, K, Będzemy zakładać, że obekty podobne z punktu wdzena wszystkch cech mają tę samą decyzję. Podobeństwo obektów określa odległość w przestrzen R m, czyl metryka: x m Metryka eukldesowa: ρ m ( x, y) = ( ) = x y 2 Metryka mejska (Manhattan): ρ m ( x, y) = = x y 3

ESTYMACJA ROZKŁADU DECYZJI Problem klasyfkacj można sprowadzć do pytana: jaka jest najbardzej prawdopodobna decyzja w pewnym punkce x* przestrzen? Metoda: - ustalamy pewne otoczene punktu x*, - konstruujemy hstogram decyzj, - wyberamy najwększą wartość hstogramu. 3 zelone 2 czerwone ALGORTYM k-nn Ustalamy wartość k (najlepej lczbę neparzystą, zwykle ok. 5-5). Dla każdego obektu testowego o*: - wyznaczamy odległośćρ(o*,x) pomędzy o* każdym obektem trenngowym x, - znajdujemy k obektów trenngowych najblższych o*, - wśród wartośc decyzj odpowadających tym obektom wykonujemy głosowane, - najczęścej występującą wartość decyzj przypsujemy obektow o*. 4

UWAGI TECHNICZNE - Parametr k możemy dobrać eksperymentalne. Lcząc na próbce testowej wynk dla pewnego k, otrzymujemy przy okazj wynk dla wszystkch wartośc mnejszych. - Czas uczena (w wersj podstawowej algorytmu) jest bardzo krótk, gdyż nauka polega na zapamętanu całej próbk trenngowej. Łatwo stosować metodę leave-one-out. - Klasyfkacja nowych przypadków jest dosyć powolna. Sposoby na przyspeszene: - selekcja obektów wybór pewnego podzboru dającego zblżone wynk klasyfkacj - podzał zboru obektów na podzbory przeszukwane tylko nektórych z nch. PRZYKŁAD k= k=3 5

MODYFIKACJA METRYKI Wadą algorytmu k-nn jest jednakowe (często neuprawnone) traktowane wszystkch wymarów. Np. jeśl wśród cech będzemy mel wek pacjenta temperaturę cała, wówczas różnca mędzy róweśnkam z temperaturą 37 C 4 C jest dla algorytmu dagnozującego mnejsza, nż mędzy 45- latkem a 5-latkem o jednakowej temperaturze. Sposób radzena sobe z tym problemem polega na wprowadzenu dodatkowych wag zwązanych z wymaram: ρ m ( x, y) = w( x y ) = 2 Przykład: w = ( max( x ) mn( x )) 2 6