Informatyka Techniczna Rozpoznawanie obrazów

Wielkość: px
Rozpocząć pokaz od strony:

Download "Informatyka Techniczna Rozpoznawanie obrazów"

Transkrypt

1 Prezentacja jest współfinansowana przez Unię Europejską w ramach Europejskiego Funduszu Społecznego w projekcie pt. Innowacyjna dydaktyka bez ograniczeń - zintegrowany rozwój Politechniki Łódzkiej - zarządzanie Uczelnią, nowoczesna oferta edukacyjna i wzmacniania zdolności do zatrudniania osób niepełnosprawnych Prezentacja dystrybuowana jest bezpłatnie Politechnika Łódzka, ul. Żeromskiego 116, Łódź, tel. (042) w ramach Europejskiego Funduszu Społecznego

2 Autorzy dr inż. Łukasz Sturgulewski dr inż. Artur Sierszeń

3 Rozpoznawanie obrazów Rozpoznawanie obrazów (ang. Pattern Recognition) oferuje metody komputerowego wspomagania procesu podejmowania decyzji, analizy i przetwarzania danych. Przyporządkowywanie obiektom, rozumianym bardzo ogólnie, kategorii czyli klas na podstawie wartości cech opisujących te obiekty.

4 4 Literatura DUDA, R.O., HART, P.E., STORK, D.G. (2000) Pattern Classification and Scene Analysis (Second Edition). John Wiley and Sons, New York. TADEUSIEWICZ, R., FLASIŃSKI, M. (1991) Rozpoznawanie obrazów. PWN, Warszawa. KURZYŃSKI, M. (1997) Rozpoznawanie Obiektów. Oficyna Wydawnicza Politechniki Wrocławskiej, Wrocław. KORONACKI, J., ĆWIK, J. (2005) Statystyczne systemy uczące się. WNT, Warszawa.

5 Obraz W tej dziedzinie pod pojęciem obraz rozumie się ilościowy opis obiektu, zdarzenia, zjawiska, procesu, sygnału, sytuacji.

6 Podstawowe pojęcia Cechy ilościowe i jakościowe Wektor cech: x=[x 1,x 2,...,x n ] Przestrzeń cech P Zbiór uczący Klasyfikator: ( D i ) x = { x P : Y ( x ) = i }, i L szerokość długość kolor

7 Cechy 7

8 8 Wektor cech obraz obiektu = wzorzec (punkt, próbka, obiekt) obraz obiektu przedstawiany jest za pomocą m-wymiarowego wektora cech:

9 Przestrzeń cech P 9 Zbiór wszystkich wartości cech, jakie mogą przyjmować wzorce w ramach zadania klasyfikacyjnego nazywamy przestrzenią cech P

10 Zbiór uczący 10 Zbiór wszystkich wzorców, jakimi dysponujemy w ramach zadania konstrukcji klasyfikatora, nosi nazwę zbioru danych (próby uczącej) i jest oznaczany jak poniżej:

11 Zadanie rozpoznawania obrazów Wydzielenie cech x=[x 1,x 2,...,x n ] Obiekt Klasyfikacja KLASA Zbiór reguł i Zbiór uczący

12 Kluczowe elementy układu rozpoznającego obrazy blok wydzielania cech, wydzielanie cech czyli bezpośredni ich pomiar i ewentualnie przetworzenie cech zmierzonych w nowe cechy, blok klasyfikacji, zwany krótko klasyfikatorem.

13 Zbiory danych 13 Do przeprowadzenia eksperymentów i testów opracowanych algorytmów oraz do weryfikacji istniejących algorytmów wykorzystuje się często zbiory należące do repozytorium Uniwersytetu Kalifornijskiego w Irvine (Machine Learning Repository, University of California, Irvine), ze względu na ich powszechne stosowanie i wykorzystywanie w literaturze przedmiotu.

14 Zbiory danych 14

15 15 Przykładowe zbiory Phoneme Satimage Waveform Glass Iris Wine Ferrites Liver

16 Przykładowe zbiory 16 Nazwa zbioru Liczba klas Liczba cech Liczba próbek Liczebność poszczególnych klas w zbiorze Klasa 1 Klasa 2 Klasa 3 Klasa 4 Klasa 5 Klasa 6 Klasa 7 Klasa 8 Phoneme Satimage Waveform Ferrites Liver Glass Iris Pima Wine

17 17 Satimage Zestaw danych został wygenerowany na podstawie analizy obrazów satelitarnych wspartej innymi metodami obserwacji (dane radarowe, mapy topograficzne, dane na temat uprawy roli). Poszczególne klasy określają rodzaj gleby bądź uprawę. Charakterystyka zbioru: - liczba klas: 6 - liczba cech: 36 - liczba próbek: 6435

18 18 Iris Zbiór próbek trzech podgatunków kosaćca, klasyfikowanych na podstawie czterech geometrycznych cech. (Fishera, 1936; Wiley, 1950) Charakterystyka zbioru: - liczba klas: 3 - liczba cech: 4 - liczba próbek: 150

19 Przykładowy zbiór danych (iris.txt) 19

20 Algorytm rozpoznawania Algorytm rozpoznawania Ψ odwzorowuje przestrzeń cech P w zbiór numerów klas L: Ψ: P L Algorytm rozpoznawania Ψ generuje podział przestrzeni cech P na obszary decyzyjne D, gdzie L zbiór numerów klas: ( D i ) x = { x P : Y( x) = i}, i L

21 Algorytm rozpoznawania Algorytm rozpoznawania musi być jednoznaczny i kompletny tzn. rozpoznaje każdy obiekt i zalicza go do jednej i tylko jednej klasy ze zbioru L.

22 22 Klasyfikacja przyjmujemy, że nie znamy definicji rozważanych klas, czyli nie znamy postaci funkcji, która na podstawie wartości cech wzorca przyporządkowywałaby go do właściwej klasy taka definicja ma być dopiero "zaszyta" w klasyfikatorze, który skonstruujemy konstrukcja klasyfikatora polega na możliwie najdokładniejszym wyprowadzeniu definicji klas, na podstawie informacji zawartej w zbiorze danych zależy nam by odsetek nowych obiektów poprawnie klasyfikowanych był możliwie najwyższy

23 Proces klasyfikacji g 1 (x) x g 2 (x) MAX decyzja(i)... g c (x)

24 Ocena klasyfikatora Na ocenę klasyfikatora składają się przede wszystkim takie elementy jak: jakość klasyfikacji, szybkość klasyfikacji, szybkość uczenia, zapotrzebowanie na pamięć.

25 Jakość klasyfikacji Jakość klasyfikacji ocenia się za pomocą estymowanej frakcji błędnych klasyfikacji wyrażonej wzorem: = r m r liczba próbek mylnie klasyfikowanych, m liczba wszystkich poddanych klasyfikacji próbek.

26 Metody estymacji błędu klasyfikacji Metody estymacji błędu klasyfikacji: resubstytucja, wydzielanie, minus jeden element, rotacja.

27 Wydzielanie i redukcja cech Wydzielenie cech obiektów jest bardzo istotne z punktu widzenia jakości klasyfikacji podobnie jak zastosowany algorytm klasyfikacji.

28 Wydzielanie i redukcja cech Zazwyczaj wydzielenia cech dokonuje się we współpracy ze specjalistami z dziedziny w jakiej klasyfikator ma być zastosowany. Poza szczególnymi przypadkami zadań, nie istnieją żadne ogólne metody wydzielania cech. W zbiorze uczącym uwzględnia się cechy, których użyteczności nie można wykluczyć.

29 Wydzielanie i redukcja cech W literaturze istnieje wiele algorytmów doboru (selekcji) cech, jednak żaden z nich nie gwarantuje otrzymania optymalnego zestawu cech.

30 Metody selekcji cech Wśród metod selekcji cech można wyróżnić dwie grupy algorytmów: 1. pozwalające wyróżnić lub osłabić pewne cechy poprzez ich ważenie, 2. pozwalające pominąć pewne z cech, a dokładnie wybrać takie, dla których błąd klasyfikacji będzie najmniejszy.

31 Wyróżnianie lub osłabianie cechy Ustalenie wag dla cech może odbywać się na poziomie całego zbioru uczącego, klasy lub pojedynczego obiektu. Określenie wartości wag jest złożonym i trudnym zadaniem. Dobrym rozwiązaniem jest także standaryzacja cech.

32 32 Standaryzacja cech Przydatna w momencie jeśli wartości bezwględne pewnej cechy są znacznie większe lub znacznie mniejsze od wartości bezwględnych pozostałych wartości cech. Dzięki standaryzacji każda cech ma taką samą wagę przy liczeniu odległości co pozostałe cechy.

33 STANDARYZACJA KLASYCZNA CECH 33 Standaryzacja klasyczna polega na wyliczeniu średniej i odchylenia standardowego każdej cechy (niezależnie od klasy!) a następnie na dokonaniu poniższej transformacji dla każdej wartości cechy:

34 STANDARYZACJA KLASYCZNA CECH 34 średnia i-tej cechy: odchylenie standardowe i-tej cechy:

35 35 STANDARYZACJA KLASYCZNA CECH Standaryzacja klasyczna zachowuje typ rozkładu cechy, powoduje jedynie zmianę jego parametrów: średniej i odchylenia standardowego. Po standaryzacji klasycznej średnia rozkładu jest równa 0, zaś odchylenie standardowe jest równe 1.

36 36 Inne metody standaryzacji STANDARYZACJA MEDIANOWA zamiast średniej używana jest mediana, zaś zamiast odchylenia standardowego medianowe odchylenie bezwzględne STANDARYZACJA SKALUJĄCA LINIOWO standaryzacja skalująco liniowo to liniowa transformacja zakresu cech ze starego zakresu na nowy zakres

37 Minimalizacja błędu klasyfikacji Wybór cech, dla których błąd klasyfikacji będzie najmniejszy. Najczęściej część cech jest bezużyteczna, bądź ze sobą skorelowana, a więc są one nadmiarowe. Cechy takie powinny zostać usunięte, w wyniku czego klasyfikator będzie działał w oparciu o cechy wyselekcjonowane.

38 Minimalizacja błędu klasyfikacji Najważniejsze algorytmy w tej grupie to: metoda kolejnego odrzucania cech SBS (ang. Sequential Backward Selection) i jej modyfikacje np. SBFS (ang. Sequential Backward Floating Search); metoda kolejnego dołączania cech SFS (ang. Sequential Forward Selection) i jej modyfikacje np. SFFS (ang. Sequential Forward Floating Search); metoda Plus-L-Minus-R; schemat z projekcją cech NNFP (ang. Nearest Neighbor with Feature Projection); metody oparte na algorytmach genetycznych; wyszukiwanie oscylacyjne OSA (ang. Oscillating Search Algorithm); metody oparte na wykorzystaniu wymiaru fraktalnego; metody oparte na teorii informacji.

39 Podział metod klasyfikacji Rozpoznawanie Obrazów Rozpoznawanie syntaktyczne Rozpoznawanie decyzyjno-teoretyczne Klasyfikacja nienadzorowana Klasyfikacja nadzorowana Rozpoznawanie z regułami eksperta Algorytmy k-średnich Algorytm ISODATA Algorytmy aglomeratywne Algorytm parametryczny Algorytm GAP Algorytm kombinowany Metody klasyfikacji liniowej Metody klasyfikacji nieliniowej Algorytm zunifikowany Algorytm Fishera Sieci perceptronowe Metody wektorów podpierających Algorytmy rekurencyjne badania rozdzielności liniowej Algorytmy k-nn i ich odmiany Sieci neuronowe Drzewa decyzyjne Algorytmy funkcji potencjałowych

40 Podział metod klasyfikacji Wśród metod rozpoznawania obrazów można wyróżnić dwie główne grupy: Rozpoznawanie strukturalne, znane także jako lingwistyczne lub syntaktyczne. Rozpoznawanie decyzyjno-teoretyczne, nazywane często deterministycznym.

41 Rozpoznawanie strukturalne W tej metodzie konstruktor, wykorzystując swoją wiedzę i doświadczenie, dokonuje opisu klas. Jeżeli wyprowadzony ze zbioru uczącego opis pozwala wystarczająco dobrze rozpoznawać obiekty, to uważa się, że konstrukcja klasyfikatora zakończyła się sukcesem. W tym podejściu najtrudniejsza część zadania spoczywa na bloku wydzielania cech, a klasyfikator ma wówczas bardzo prostą budowę.

42 Rozpoznawanie decyzyjno-teoretyczne Ten rodzaj konstrukcji klasyfikatora opiera się na apriorycznej wiedzy o związku pomiędzy klasami a wektorami cech opisującymi rzeczywiste obiekty.

43 Rozpoznawanie decyzyjno-teoretyczne Rozpoznawanie decyzyjno-teoretyczne można podzielić na trzy podgrupy: Klasyfikacja nienadzorowana (ang. unsupervised learning) polega na łączeniu obiektów w klasy tak, aby te, które znajdą się w jej obrębie były do siebie jak najbardziej podobne. Klasyfikacja nadzorowana (ang. supervised learning), w której kluczowy jest element uczenia opierający się na znanych wcześniej przykładach, tworzących zbiór uczący. Klasyfikacja z regułami eksperta często wykorzystywana w przypadku informacji niepełnej lub całkowitego braku informacji o przynależności obiektów do klas.

44 Klasyfikacja nadzorowana 44 Każdy wzorzec w zbiorze danych zawiera informację o przynależności do klasy w klasyfikacji nadzorowanej w przypadku p- klasowym, zbiór danych przyjmie postać:

45 Klasyfikacja nienadzorowana 45 Stosowana do zbiorów danych, w których brakuje przyporządkowania wzorców do klas na podstawie właściwości statystycznych wzorców z próby uczącej wydzielane są skupiska (tzw. klastry) wzorców do siebie podobnych (najczęstszą miarą podobieństwa jest metryka).

46 Wybrane metod klasyfikacji Drzewa decyzyjne Metody k-nn

47 Drzewa decyzyjne Drzewa decyzyjne (ang. decision trees) są jednym z empirycznych sposobów pozyskiwania wiedzy. Podjęcie decyzji polega na podziale złożonego problemu na prostsze podzadania i rekursywny podział na kolejne, aż do momentu możliwości rozstrzygnięcia zagadnienia. Jest to tzw. zasada dziel i rządź.

48 Drzewa decyzyjne Drzewem decyzyjnym nazywamy graf-drzewo pozwalające na określenie klasy, do której przynależy obiekt. Korzeniem drzewa jest węzeł, w którym dokonuje się pierwszy podział zbioru uczącego. Kolejne węzły drzewa są atrybutami wybieranymi dalej w następnych iteracjach. Liście drzewa definiują klasy.

49 Drzewa decyzyjne - Przykładowe zadanie decyzyjne y < a 1 a 1 y O O + O O O O O O O + O O a x + tak nie x < a 2 tak nie O +

50 Drzewa decyzyjne Krytyczne dla skutecznego działania drzew decyzyjnych są: Kryterium stopu, Kryterium wyboru atrybutu dla poszczególnych węzłów.

51 Drzewa decyzyjne Kryterium stopu Kryterium stopu warunkuje, czy dany węzeł drzewa powinien być traktowany jako końcowy liść drzewa zawierający w swoim opisie etykietę klasy-decyzji.

52 Drzewa decyzyjne Kryterium stopu Końcowy liść drzewa musi zwrócić wartość etykiety w dwóch przypadkach: gdy w trakcie wywołań rekurencyjnych w zestawie przykładów znajdują się już tylko przykłady opisujące jedną klasę-decyzji. gdy zestaw atrybutów argumentów osiągnie zero, wtedy następuje: błąd, gdyż na podstawie przykładów nie można jednoznacznie ustalić odpowiedniej klasy-odpowiedzi albo zwrot etykiety klasy-decyzji, która najliczniej występuje w zestawie przykładów.

53 Drzewa decyzyjne Kryterium wyboru atrybutu dla poszczególnych węzłów Algorytm wyboru atrybutów dla węzłów ma kluczowy wpływ na wygląd drzewa decyzyjnego. Od atrybutów i ich kolejności wyboru zależy w głównej mierze głębokość i stopień rozbudowy drzewa.

54 Drzewa decyzyjne Kryterium wyboru atrybutu dla poszczególnych węzłów Wybór odpowiedniego atrybutu ze zbioru atrybutów, jest dokonywany dzięki wprowadzeniu systemu ocen. System ocen atrybutów opiera się na założeniu, iż najbardziej bezużytecznym atrybutem jest taki, w którym rozkład częstości występowania kolejnych klas-wyboru jest taki sam przed i po podziale zbioru danych przykładów wg ocenianego atrybutu.

55 Drzewa decyzyjne Funkcje oceniające Funkcje oceniające mierzące różnicę między zbiorem (przykładów), a zbiorami, na jakie dzieli się ten zbiór wg wartości ocenianego atrybutu ze względu na rozkład częstotliwości klas-decyzji. Do tej grupy zaliczane są algorytmy: CLS (ang. Concept Learning System); ID3 - Dychotomizer Interaktywny, wersja 3 (ang. Interactive Dichotomizer, version 3). Koncepcja algorytmu ID3 doczekała się wielu modyfikacji, z których warto wymienić koncepcje drzewa decyzyjnego CART (ang. Classification and Decision Trees) oraz C4.5.

56 KLASYFIKATOR MINIMALNO-ODLEGŁOŚCIOWY 56 Rodzina klasyfikatorów, do której zaliczane są metody k-nn (ang. k Nearest Neighbors, k-nn) k najbliższych sąsiadów.

57 KLASYFIKATOR MINIMALNO-ODLEGŁOŚCIOWY 57 niech Xl to zbiór wzorców reprezentujących l-tą klasę, czyli: niech Pl to środek ciężkości l-tej klasy, czyli:

58 KLASYFIKATOR MINIMALNO-ODLEGŁOŚCIOWY niech x punkt, który ma zostać zaklasyfikowany, jeśli: 58 to punkt x klasyfikowany do klasy l0. jeśli mamy kilka równych najmniejszych odległości, wybieramy losową klasę wśród tych najbliższych lub klasę o najmniejszym indeksie (o ile mamy relację porządku wśród etykiet klas)

59 KLASYFIKATOR MINIMALNO-ODLEGŁOŚCIOWY LICZENIE ODLEGŁOŚCI (RÓŻNE METRYKI): metryka euklidesowa: 59 metryka miejska (taksówkowa, Manhattan): metryka maksimum:

60 Przykład 60 dany jest zbiór danych, zawierający wzorce: zaklasyfikować punkt (używając metryki euklidesowej):

61 Metody k-nn Klasyfikatory k najbliższych sąsiadów (ang. k Nearest Neighbors, k-nn) są najpopularniejszymi przedstawicielami grupy klasyfikatorów minimalnoodległościowych. W literaturze jako pierwsi opublikowali tą metodę klasyfikacji Fix i Hodges w roku 1951.

62 Metody k-nn Idea działania reguły k-nn polega na przypisaniu nieznanego, badanego wektora cech x do klasy najliczniej reprezentowanej wśród k jego najbliższych obiektów, tj. sąsiadów, pochodzących ze zbioru uczącego. Stosunek obiektów z danej klasy i, gdzie i L, do liczby k estymuje warunkowe prawdopodobieństwo a posteriori p(i x) przynależności badanego obiektu x do klasy i.

63 Metody k-nn - Idea działania reguły k-nn (k = 5) 4-NN 5-NN 2-NN x 1-NN 3-NN

64 Metody k-nn - przypadki szczególne Należy podkreślić, że przypadki szczególne nie stanowią większego problemu dla jednoznaczności działania reguły k-nn.

65 Metody k-nn - przypadki szczególne Problem remisu, gdy mamy więcej niż jedną klasę najliczniej reprezentowaną w zbiorze uczącym. Rozwiązanie: Sposób podejmowania decyzji o zaklasyfikowaniu badanego obiektu do jednej z równo reprezentowanych klas określa autor implementujący algorytm.

66 Metody k-nn - przypadki szczególne Sytuacja, gdy przy wyznaczaniu k-tego, najbliższego punktu okazuje się, że istnieje więcej niż jeden punkt o takiej samej odległości od badanego obiektu. Rozwiązanie: Przy klasyfikacji uwzględnia się także te dodatkowe punkty, które znalazły się w tej samej odległości co k-ty najbliższy sąsiad.

67 Metody k-nn - Zalety Wśród wielu zalet reguły k-nn należy podkreślić kilka najważniejszych: Zbieżność błędu klasyfikacji do błędu klasyfikatora Bayesa (gdy k, m ). Klasyfikator Bayesa jest klasyfikatorem optymalnym ze względu na generowany błąd klasyfikacji, jednak w praktyce niemożliwym do zastosowania ze względu na brak wiedzy o gęstości rozkładów prawdopodobieństw dla rzeczywistych zbiorów.

68 Metody k-nn - Zalety Potwierdzona wieloma eksperymentami i badaniami wysoka jakość klasyfikacji. Wysoka stabilność, czyli mały wpływ lokalnych zmian w zbiorze danych na wynik działania klasyfikatora. Możliwość estymacji błędu już na etapie uczenia klasyfikatora (np. metodą minus jednego elementu). Prostota. Intuicyjność.

69 Metody k-nn - Wady W przypadku reguły k-nn występuje kilka istotnych wad: Mała szybkość klasyfikacji. Konieczność przechowywania w pamięci całego zbioru odniesienia w czasie całego procesu rozpoznawania. Duża wrażliwość na zbędne cechy. Warto podkreślić, iż w ostatnich latach dwie pierwsze, wymienione powyżej, wady stają się coraz mniej istotne, za sprawą coraz wydajniejszych i pojemniejszych systemów komputerowych.

70 Metody k-nn - Metryka W przypadku reguł k-nn, najbliższych sąsiadów wyznacza się poprzez obliczenie odległości pomiędzy badanym punktem a punktami ze zbioru odniesienia. Kluczową rolę odgrywa więc zastosowana metryka, która będzie wpływała na jakość oraz szybkość klasyfikacji.

71 71 REGUŁA NAJBLIŻSZEGO SĄSIADA (1-NN) najprostszy rodzaj reguły k-nn (dla k = 1) przypisuje klasyfikowanemu wzorcowi etykietę klasy jego najbliższego sąsiada bardzo popularna szybsza niż k-nn dla k > 1 przeważnie wysoka jakość klasyfikacji (dla dostatecznie dużego zbioru uczącego, prawdopodobieństwo błędu klasyfikacji reguły 1-NN nigdy nie przekroczy podwojonej wartości prawdopodobieństwa błędu klasyfikatora Bayesa) bardziej podatna na błędy klasyfikacji spowodowane szumem niż reguła k-nn (dla większych wartości parametru k)

72 ESTYMACJA PRAWDOPODOBIEŃSTWA POPRAWNEJ DECYZJI 72 aby oszacować prawdopodobieństwo poprawnej klasyfikacji klasyfikatora stosuje się tzw. metodę zbioru testującego. polega ona na klasyfikacji wzorców z tzw. zbioru testującego Xt, czyli wzorców nie użytych przy konstrukcji klasyfikatora. wzorce służące do budowy klasyfikatora tworzą zbiór uczący Xu. otrzymane wyniki klasyfikacji służą do wyznaczenia frakcji poprawnych klasyfikacji (sprawności klasyfikatora, jakości klasyfikacji). miara ta najczęściej jest wyrażana w procentach.

73 WYBÓR OPTYMALNYCH PARAMETRÓW KLASYFIKATORA 73 do zadania wyboru optymalnych parametrów klasyfikatora stosuje się dodatkowy zbiór wyznaczony ze zbioru uczącego część wyznaczoną ze zbioru uczącego, służącą do konstrukcji klasyfikatora, będziemy dalej nazywać zbiorem konstrukcyjnym Xk, zaś część służącą do walidacji parametrów klasyfikatora zbiorem walidacyjnym Xw

74 PODZIAŁ ZBIORU DANYCH 74

75 METODY WYBORU ZBIORU WALIDACYJNEGO METODA HOLDOUT pierwszą z metod wyboru zbioru walidacyjnego jest metoda holdout wzorce ze zbioru uczącego są jednokrotnie dzielone na część konstrukcyjną i część walidacyjną w pewnej proporcji (najczęściej 2:1) oceną klasyfikatora jest, zdefiniowana wcześniej, frakcja poprawnych klasyfikacji wzorców ze zbioru walidacyjnego głównymi wadami tej metody są: zmienność wyników w zależności od podziału zaniżone oceny jakości klasyfikatora 75 zastosowanie głównie w przypadku większych zbiorów uczących

76 METODY WYBORU ZBIORU WALIDACYJNEGO KROSWALIDACJA inną z metod, nie posiadającą wad metody holdout, jednak oznaczającą się większą złożonością czasową, jest kroswalidacja (ang. k-fold cross validation) inaczej zwana walidacją krzyżową. zbiór uczący zostaje losowo podzielony na k równolicznych, rozłącznych podzbiorów. następnie dla każdego i tworzy się parę zbiorów konstrukcyjnego i walidacyjnego. oceną klasyfikatora jest uśredniona wartość ocen uzyskanych na wszystkich k parach zbiorów. 76 parametr k powinien być dobrany w zależności od wielkości zbioru uczącego.

77 METODY WYBORU ZBIORU WALIDACYJNEGO KROSWALIDACJA najczęściej przyjmuje się k = przypadek graniczny k = liczność zbioru uczącego, daje popularną metodę minus jednego elementu (ang. leave-one-out)

78 78 REGUŁA K-NN USTALENIE WARTOŚCI K znanym sposobem ustalenia wartości parametru k jest przeprowadzenie metodą holdout, kroswalidacją lub metodą bootstrap estymacji jakości klasyfikacji reguły k-nn dla k z wybranego przedziału wartość parametru k, dla której otrzymamy najwyższą jakość klasyfikacji, uważana jest za optymalną na danym zbiorze uczącym w przypadku dwóch klas często spotyka się rozważanie tylko nieparzystych wartości parametru k

79 Metody k-nn - Zwiększenie szybkości klasyfikacji W celu poprawy szybkości klasyfikacji metod k-nn: wykonuje się ich aproksymacje regułą 1-NN, a następnie stosuje się redukcję zbioru odniesienia (czyli usunięcie obiektów nie mających lub mających znikomy wpływ na jakość klasyfikacji).

80 Metody k-nn - Algorytmy redukcji zbioru odniesienia Spośród najważniejszych algorytmów redukcji zbioru odniesienia należy wymienić algorytmy: Harta, Gowdy-Krishny, Gatesa, Tomeka, Skalaka, selektywne, genetyczne.

81 Metody k-nn - Rozwój metod k-nn Idea działania klasyfikatora k-nn została zaproponowana w roku 1951 i od tego czasu doczekała się wielu modyfikacji (także dzięki swojej prostocie i łatwości implementacji). Celem zmian są głównie dwa najważniejsze parametry oceny klasyfikatora czyli jakość i szybkość klasyfikacji.

82 Metody k-nn - Rozwój metod k-nn Spośród wielu prac w tym zakresie warto wymienić: koncepcję symetrycznego sąsiedztwa, algorytm k dyplomatycznych sąsiadów, wykorzystanie metryk lokalnych, algorytmy z lokalnym wyborem klasyfikatora, klasyfikatory z głosowaniem, dekompozycja zadania wielo-decyzyjnego na sieć dychotomizerów, klasyfikatory kaskadowe.

83 Przegląd literatury Monografie z dziedziny rozpoznawania obrazów (tylko metody statystyczne): Michie i in., 1994; Devroye i in., 1996; Duda, Hart i Stork, 2000; Web, 2002; Bishop, 2006; Tadeusiewicz i Flasiński, 1991; Kurzyński, 1997; Cichosz, 2000; Koronacki i Ćwik, 2005; Stąpor, 2005, Jóźwik, 2006.

84 Prezentacja jest współfinansowana przez Unię Europejską w ramach Europejskiego Funduszu Społecznego w projekcie pt. Innowacyjna dydaktyka bez ograniczeń - zintegrowany rozwój Politechniki Łódzkiej - zarządzanie Uczelnią, nowoczesna oferta edukacyjna i wzmacniania zdolności do zatrudniania osób niepełnosprawnych Prezentacja dystrybuowana jest bezpłatnie Politechnika Łódzka, ul. Żeromskiego 116, Łódź, tel. (042) w ramach Europejskiego Funduszu Społecznego

Elementy modelowania matematycznego

Elementy modelowania matematycznego Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski

Bardziej szczegółowo

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L, Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18 Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)

Bardziej szczegółowo

METODY INŻYNIERII WIEDZY

METODY INŻYNIERII WIEDZY METODY INŻYNIERII WIEDZY WALIDACJA KRZYŻOWA dla ZAAWANSOWANEGO KLASYFIKATORA KNN ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

Hierarchiczna analiza skupień

Hierarchiczna analiza skupień Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym

Bardziej szczegółowo

Metody klasyfikacji danych - część 1 p.1/24

Metody klasyfikacji danych - część 1 p.1/24 Metody klasyfikacji danych - część 1 Inteligentne Usługi Informacyjne Jerzy Dembski Metody klasyfikacji danych - część 1 p.1/24 Plan wykładu - Zadanie klasyfikacji danych - Przeglad problemów klasyfikacji

Bardziej szczegółowo

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

8. Drzewa decyzyjne, bagging, boosting i lasy losowe Algorytmy rozpoznawania obrazów 8. Drzewa decyzyjne, bagging, boosting i lasy losowe dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Drzewa decyzyjne Drzewa decyzyjne (ang. decision trees), zwane

Bardziej szczegółowo

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną

Bardziej szczegółowo

2. Empiryczna wersja klasyfikatora bayesowskiego

2. Empiryczna wersja klasyfikatora bayesowskiego Algorytmy rozpoznawania obrazów 2. Empiryczna wersja klasyfikatora bayesowskiego dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Brak pełnej informacji probabilistycznej Klasyfikator bayesowski

Bardziej szczegółowo

Metody oceny podobieństwa

Metody oceny podobieństwa [1] Algorytmy Rozpoznawania Wzorców Metody oceny podobieństwa dr inż. Paweł Forczmański pforczmanski@wi.zut.edu.pl Spis treści: [2] Podstawowe pojęcia Odległość Metryka Klasyfikacja Rodzaje metryk Przykłady

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska DRZEWO REGRESYJNE Sposób konstrukcji i przycinania

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji

Bardziej szczegółowo

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006 SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu

Bardziej szczegółowo

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska Algorytmy rozpoznawania obrazów 11. Analiza skupień dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Analiza skupień Określenia: analiza skupień (cluster analysis), klasteryzacja (clustering), klasyfikacja

Bardziej szczegółowo

9. Praktyczna ocena jakości klasyfikacji

9. Praktyczna ocena jakości klasyfikacji Algorytmy rozpoznawania obrazów 9. Praktyczna ocena jakości klasyfikacji dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Zbiór uczacy i zbiór testowy 1. Zbiór uczacy służy do konstrukcji (treningu)

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska BUDOWA DRZEW DECYZYJNYCH Drzewa decyzyjne są metodą indukcyjnego

Bardziej szczegółowo

Drzewa decyzyjne i lasy losowe

Drzewa decyzyjne i lasy losowe Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM

Bardziej szczegółowo

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny

Bardziej szczegółowo

Algorytmy klasyfikacji

Algorytmy klasyfikacji Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe

Bardziej szczegółowo

Adrian Horzyk

Adrian Horzyk Metody Inteligencji Obliczeniowej Metoda K Najbliższych Sąsiadów (KNN) Adrian Horzyk horzyk@agh.edu.pl AGH Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania

Bardziej szczegółowo

Pattern Classification

Pattern Classification Pattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John Wiley & Sons, 2000 with the permission of the authors

Bardziej szczegółowo

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Kompresja danych Streszczenie Studia Dzienne Wykład 10, 1 Kwantyzacja wektorowa Kompresja danych Streszczenie Studia Dzienne Wykład 10, 28.04.2006 Kwantyzacja wektorowa: dane dzielone na bloki (wektory), każdy blok kwantyzowany jako jeden element danych. Ogólny

Bardziej szczegółowo

CLUSTERING. Metody grupowania danych

CLUSTERING. Metody grupowania danych CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means

Bardziej szczegółowo

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie Wprowadzenie Konstrukcja binarnych drzew klasyfikacyjnych polega na sekwencyjnym dzieleniu podzbiorów przestrzeni próby X na dwa rozłączne i dopełniające się podzbiory, rozpoczynając od całego zbioru X.

Bardziej szczegółowo

Testowanie modeli predykcyjnych

Testowanie modeli predykcyjnych Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności

Bardziej szczegółowo

Systemy uczące się Lab 4

Systemy uczące się Lab 4 Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności: Zadania ze statystyki cz. 7. Zad.1 Z populacji wyłoniono próbę wielkości 64 jednostek. Średnia arytmetyczna wartość cechy wyniosła 110, zaś odchylenie standardowe 16. Należy wyznaczyć przedział ufności

Bardziej szczegółowo

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner Wydział Matematyki i Nauk Informacyjnych Politechnika Warszawska Elementy nieprzystające Definicja odrzucania Klasyfikacja

Bardziej szczegółowo

7. Maszyny wektorów podpierajacych SVMs

7. Maszyny wektorów podpierajacych SVMs Algorytmy rozpoznawania obrazów 7. Maszyny wektorów podpierajacych SVMs dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Maszyny wektorów podpierajacych - SVMs Maszyny wektorów podpierających (ang.

Bardziej szczegółowo

Zaawansowane programowanie w języku C++ Zarządzanie pamięcią w C++

Zaawansowane programowanie w języku C++ Zarządzanie pamięcią w C++ Zaawansowane programowanie w języku C++ Zarządzanie pamięcią w C++ Prezentacja jest współfinansowana przez Unię Europejską w ramach Europejskiego Funduszu Społecznego w projekcie pt. Innowacyjna dydaktyka

Bardziej szczegółowo

10. Redukcja wymiaru - metoda PCA

10. Redukcja wymiaru - metoda PCA Algorytmy rozpoznawania obrazów 10. Redukcja wymiaru - metoda PCA dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. PCA Analiza składowych głównych: w skrócie nazywana PCA (od ang. Principle Component

Bardziej szczegółowo

Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki

Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki Mateusz Kobos, 10.12.2008 Seminarium Metody Inteligencji Obliczeniowej 1/46 Spis treści Działanie algorytmu Uczenie Odtwarzanie/klasyfikacja

Bardziej szczegółowo

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1 Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie

Bardziej szczegółowo

Klasyfikacja metodą Bayesa

Klasyfikacja metodą Bayesa Klasyfikacja metodą Bayesa Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski warunkowe i bezwarunkowe 1. Klasyfikacja Bayesowska jest klasyfikacją statystyczną. Pozwala przewidzieć prawdopodobieństwo

Bardziej szczegółowo

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej

Bardziej szczegółowo

5. Analiza dyskryminacyjna: FLD, LDA, QDA

5. Analiza dyskryminacyjna: FLD, LDA, QDA Algorytmy rozpoznawania obrazów 5. Analiza dyskryminacyjna: FLD, LDA, QDA dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Liniowe funkcje dyskryminacyjne Liniowe funkcje dyskryminacyjne mają ogólną

Bardziej szczegółowo

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

Rozpoznawanie obrazów

Rozpoznawanie obrazów Rozpoznawanie obrazów Laboratorium Python Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest implementacja liniowego zadania

Bardziej szczegółowo

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu

Bardziej szczegółowo

Systemy uczące się wykład 2

Systemy uczące się wykład 2 Systemy uczące się wykład 2 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 19 X 2018 Podstawowe definicje Fakt; Przesłanka; Konkluzja; Reguła; Wnioskowanie. Typy wnioskowania

Bardziej szczegółowo

Klasyfikator liniowy Wstęp Klasyfikator liniowy jest najprostszym możliwym klasyfikatorem. Zakłada on liniową separację liniowy podział dwóch klas między sobą. Przedstawia to poniższy rysunek: 5 4 3 2

Bardziej szczegółowo

Zadania ze statystyki, cz.6

Zadania ze statystyki, cz.6 Zadania ze statystyki, cz.6 Zad.1 Proszę wskazać, jaką część pola pod krzywą normalną wyznaczają wartości Z rozkładu dystrybuanty rozkładu normalnego: - Z > 1,25 - Z > 2,23 - Z < -1,23 - Z > -1,16 - Z

Bardziej szczegółowo

Agnieszka Nowak Brzezińska

Agnieszka Nowak Brzezińska Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

METODY INŻYNIERII WIEDZY

METODY INŻYNIERII WIEDZY METODY INŻYNIERII WIEDZY Metoda K Najbliższych Sąsiadów K-Nearest Neighbours (KNN) ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

Regresyjne metody łączenia klasyfikatorów

Regresyjne metody łączenia klasyfikatorów Regresyjne metody łączenia klasyfikatorów Tomasz Górecki, Mirosław Krzyśko Wydział Matematyki i Informatyki Uniwersytet im. Adama Mickiewicza XXXV Konferencja Statystyka Matematyczna Wisła 7-11.12.2009

Bardziej szczegółowo

Jakość uczenia i generalizacja

Jakość uczenia i generalizacja Jakość uczenia i generalizacja Dokładność uczenia Jest koncepcją miary w jakim stopniu nasza sieć nauczyła się rozwiązywać określone zadanie Dokładność mówi na ile nauczyliśmy się rozwiązywać zadania które

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ Celem ćwiczenia jest zapoznanie się ze sposobem działania sieci neuronowych typu MLP (multi-layer perceptron) uczonych nadzorowaną (z nauczycielem,

Bardziej szczegółowo

KLASYFIKACJA. Słownik języka polskiego

KLASYFIKACJA. Słownik języka polskiego KLASYFIKACJA KLASYFIKACJA Słownik języka polskiego Klasyfikacja systematyczny podział przedmiotów lub zjawisk na klasy, działy, poddziały, wykonywany według określonej zasady Klasyfikacja polega na przyporządkowaniu

Bardziej szczegółowo

Sztuczna inteligencja : Algorytm KNN

Sztuczna inteligencja : Algorytm KNN Instytut Informatyki Uniwersytetu Śląskiego 23 kwietnia 2012 1 Algorytm 1 NN 2 Algorytm knn 3 Zadania Klasyfikacja obiektów w oparciu o najbliższe obiekty: Algorytm 1-NN - najbliższego sąsiada. Parametr

Bardziej szczegółowo

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor S O M SELF-ORGANIZING MAPS Przemysław Szczepańczyk Łukasz Myszor Podstawy teoretyczne Map Samoorganizujących się stworzył prof. Teuvo Kohonen (1982 r.). SOM wywodzi się ze sztucznych sieci neuronowych.

Bardziej szczegółowo

Co to jest grupowanie

Co to jest grupowanie Grupowanie danych Co to jest grupowanie 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Szukanie grup, obszarów stanowiących lokalne gromady punktów Co to jest grupowanie

Bardziej szczegółowo

Wybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora.

Wybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora. Wprowadzenie do programu RapidMiner Studio 7.6, część 7 Podstawy metod wyboru atrybutów w problemach klasyfikacyjnych, c.d. Michał Bereta www.michalbereta.pl Wybór / ocena atrybutów na podstawie oceny

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 2 κ-nn i Naive Bayes autorzy: M. Zięba, J.M. Tomczak, A. Gonczarek, S. Zaręba Cel zadania Celem zadania jest implementacja klasyfikatorów

Bardziej szczegółowo

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl

Bardziej szczegółowo

Metody klasyfikacji i rozpoznawania wzorców. Najważniejsze rodzaje klasyfikatorów

Metody klasyfikacji i rozpoznawania wzorców.  Najważniejsze rodzaje klasyfikatorów Metody klasyfikacji i rozpoznawania wzorców www.michalbereta.pl Najważniejsze rodzaje klasyfikatorów Dla określonego problemu klasyfikacyjnego (tzn. dla danego zestawu danych) należy przetestować jak najwięcej

Bardziej szczegółowo

Rozpoznawanie obrazów

Rozpoznawanie obrazów Rozpoznawanie obrazów Laboratorium Python Zadanie nr 2 κ-nn i Naive Bayes autorzy: M. Zięba, J.M. Tomczak, A. Gonczarek, S. Zaręba, J. Kaczmar Cel zadania Celem zadania jest implementacja klasyfikatorów

Bardziej szczegółowo

1 Klasyfikator bayesowski

1 Klasyfikator bayesowski Klasyfikator bayesowski Załóżmy, że dane są prawdopodobieństwa przynależności do klasp( ),P( 2 ),...,P( L ) przykładów z pewnego zadania klasyfikacji, jak również gęstości rozkładów prawdopodobieństw wystąpienia

Bardziej szczegółowo

Multiklasyfikatory z funkcją kompetencji

Multiklasyfikatory z funkcją kompetencji 3 stycznia 2011 Problem klasyfikacji Polega na przewidzeniu dyskretnej klasy na podstawie cech obiektu. Obiekt jest reprezentowany przez wektor cech Zbiór etykiet jest skończony x X Ω = {ω 1, ω 2,...,

Bardziej szczegółowo

Projekt Sieci neuronowe

Projekt Sieci neuronowe Projekt Sieci neuronowe Chmielecka Katarzyna Gr. 9 IiE 1. Problem i dane Sieć neuronowa miała za zadanie nauczyć się klasyfikować wnioski kredytowe. W projekcie wykorzystano dane pochodzące z 110 wniosków

Bardziej szczegółowo

Systemy uczące się wykład 1

Systemy uczące się wykład 1 Systemy uczące się wykład 1 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 5 X 2018 e-mail: przemyslaw.juszczuk@ue.katowice.pl Konsultacje: na stronie katedry + na stronie domowej

Bardziej szczegółowo

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew.

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew. PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew. Wprowadzenie Drzewo klasyfikacyjne Wprowadzenie Formalnie : drzewo

Bardziej szczegółowo

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta Stan dotychczasowy OCENA KLASYFIKACJI w diagnostyce Wybraliśmy metodę uczenia maszynowego (np. sieć neuronowa lub drzewo decyzyjne), która będzie klasyfikować nieznane przypadki Na podzbiorze dostępnych

Bardziej szczegółowo

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zad. 1 Średnia ocen z semestru letniego w populacji studentów socjologii w roku akademickim 2011/2012

Bardziej szczegółowo

Wybrane zagadnienia uczenia maszynowego. Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec

Wybrane zagadnienia uczenia maszynowego. Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec Wybrane zagadnienia uczenia maszynowego Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec Przygotowane na podstawie T. Mitchell, Machine Learning S.J. Russel, P. Norvig, Artificial Intelligence

Bardziej szczegółowo

Klasyfikacja LDA + walidacja

Klasyfikacja LDA + walidacja Klasyfikacja LDA + walidacja Dr hab. Izabela Rejer Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Plan wykładu 1. Klasyfikator 2. LDA 3. Klasyfikacja wieloklasowa 4. Walidacja

Bardziej szczegółowo

mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.

mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych. mgr inż. Magdalena Deckert Poznań, 30.11.2010r. Metody przyrostowego uczenia się ze strumieni danych. Plan prezentacji Wstęp Concept drift i typy zmian Algorytmy przyrostowego uczenia się ze strumieni

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Statystyka Wykład 10 Wrocław, 22 grudnia 2011 Testowanie hipotez statystycznych Definicja. Hipotezą statystyczną nazywamy stwierdzenie dotyczące parametrów populacji. Definicja. Dwie komplementarne w problemie

Bardziej szczegółowo

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów: Na dzisiejszym wykładzie omówimy najważniejsze charakterystyki liczbowe występujące w statystyce opisowej. Poszczególne wzory będziemy podawać w miarę potrzeby w trzech postaciach: dla szeregu szczegółowego,

Bardziej szczegółowo

Sprawdzenie narzędzi pomiarowych i wyznaczenie niepewności rozszerzonej typu A w pomiarach pośrednich

Sprawdzenie narzędzi pomiarowych i wyznaczenie niepewności rozszerzonej typu A w pomiarach pośrednich Podstawy Metrologii i Technik Eksperymentu Laboratorium Sprawdzenie narzędzi pomiarowych i wyznaczenie niepewności rozszerzonej typu A w pomiarach pośrednich Instrukcja do ćwiczenia nr 4 Zakład Miernictwa

Bardziej szczegółowo

Inteligentna analiza danych

Inteligentna analiza danych Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki

Bardziej szczegółowo

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15 VI WYKŁAD STATYSTYKA 9/04/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 6 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI Weryfikacja hipotez ( błędy I i II rodzaju, poziom istotności, zasady

Bardziej szczegółowo

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa Weryfikacja hipotez statystycznych Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o prawdziwości lub fałszywości którego wnioskuje się na podstawie

Bardziej szczegółowo

Uczenie się maszyn. Dariusz Banasiak. Katedra Informatyki Technicznej Wydział Elektroniki

Uczenie się maszyn. Dariusz Banasiak. Katedra Informatyki Technicznej Wydział Elektroniki Dariusz Banasiak Katedra Informatyki Technicznej Wydział Elektroniki Machine Learning (uczenie maszynowe, uczenie się maszyn, systemy uczące się) interdyscyplinarna nauka, której celem jest stworzenie

Bardziej szczegółowo

Zaawansowane programowanie w języku C++ Wyjątki

Zaawansowane programowanie w języku C++ Wyjątki Zaawansowane programowanie w języku C++ Wyjątki Prezentacja jest współfinansowana przez Unię Europejską w ramach Europejskiego Funduszu Społecznego w projekcie pt. Innowacyjna dydaktyka bez ograniczeń

Bardziej szczegółowo

Architektura komputerów Reprezentacja liczb. Kodowanie rozkazów.

Architektura komputerów Reprezentacja liczb. Kodowanie rozkazów. Architektura komputerów Reprezentacja liczb. Kodowanie rozkazów. Prezentacja jest współfinansowana przez Unię Europejską w ramach Europejskiego Funduszu Społecznego w projekcie pt. Innowacyjna dydaktyka

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z liniowym zadaniem najmniejszych

Bardziej szczegółowo

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość Dwie metody Klasyczna metoda histogramu jako narzędzie do postawienia hipotezy, jaki rozkład prawdopodobieństwa pasuje do danych Indukcja drzewa decyzyjnego jako metoda wykrycia klasyfikatora ukrytego

Bardziej szczegółowo

Propensity score matching (PSM)

Propensity score matching (PSM) Propensity score matching (PSM) Jerzy Mycielski Uniwersytet Warszawski Maj 2010 Jerzy Mycielski (Uniwersytet Warszawski) Propensity score matching (PSM) Maj 2010 1 / 18 Badania ewaluacyjne Ocena wpływu

Bardziej szczegółowo

Pobieranie prób i rozkład z próby

Pobieranie prób i rozkład z próby Pobieranie prób i rozkład z próby Marcin Zajenkowski Marcin Zajenkowski () Pobieranie prób i rozkład z próby 1 / 15 Populacja i próba Populacja dowolnie określony zespół przedmiotów, obserwacji, osób itp.

Bardziej szczegółowo

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - zastosowanie na sztucznym zbiorze danych

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - zastosowanie na sztucznym zbiorze danych Kombinacja jądrowych estymatorów gęstości w klasyfikacji - zastosowanie na sztucznym zbiorze danych Mateusz Kobos, 07.04.2010 Seminarium Metody Inteligencji Obliczeniowej Spis treści Opis algorytmu i zbioru

Bardziej szczegółowo

Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2)

Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2) Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2) Ewa Wołoszko Praca pisana pod kierunkiem Pani dr hab. Małgorzaty Doman Plan tego wystąpienia Teoria Narzędzia

Bardziej szczegółowo

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie. SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:

Bardziej szczegółowo

Architektura komputerów Wprowadzenie do algorytmów

Architektura komputerów Wprowadzenie do algorytmów Wprowadzenie do algorytmów Prezentacja jest współfinansowana przez Unię Europejską w ramach Europejskiego Funduszu Społecznego w projekcie pt. Innowacyjna dydaktyka bez ograniczeń - zintegrowany rozwój

Bardziej szczegółowo

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Algorytmy metaheurystyczne Wykład 11. Piotr Syga Algorytmy metaheurystyczne Wykład 11 Piotr Syga 22.05.2017 Drzewa decyzyjne Idea Cel Na podstawie przesłanek (typowo zbiory rozmyte) oraz zbioru wartości w danych testowych, w oparciu o wybrane miary,

Bardziej szczegółowo

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Jacek Szcześniak Jerzy Błaszczyński Roman Słowiński Poznań, 5.XI.2013r. Konspekt Wstęp Wprowadzenie Metody typu wrapper Nowe metody

Bardziej szczegółowo

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I Wojciech Kotłowski Instytut Informatyki Politechniki Poznańskiej email: imię.nazwisko@cs.put.poznan.pl pok. 2 (CW) tel. (61)665-2936 konsultacje:

Bardziej szczegółowo

Zaawansowane programowanie w języku C++ Funkcje uogólnione - wzorce

Zaawansowane programowanie w języku C++ Funkcje uogólnione - wzorce Zaawansowane programowanie w języku C++ Funkcje uogólnione - wzorce Prezentacja jest współfinansowana przez Unię Europejską w ramach Europejskiego Funduszu Społecznego w projekcie pt. Innowacyjna dydaktyka

Bardziej szczegółowo

Sieć przesyłająca żetony CP (counter propagation)

Sieć przesyłająca żetony CP (counter propagation) Sieci neuropodobne IX, specyficzne architektury 1 Sieć przesyłająca żetony CP (counter propagation) warstwa Kohonena: wektory wejściowe są unormowane jednostki mają unormowane wektory wag jednostki są

Bardziej szczegółowo

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej

Bardziej szczegółowo

METODY INŻYNIERII WIEDZY

METODY INŻYNIERII WIEDZY METODY INŻYNIERII WIEDZY Metoda K Najbliższych Sąsiadów K-Nearest Neighbours (KNN) ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować?

Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować? Algorytm k-nn Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować? Jak daleko są położone obiekty od siebie? knn k nearest neighbours jest

Bardziej szczegółowo