PROBLEM ELIMINACJI NIEPRZYSTAJĄCYCH OBIEKTÓW W ZADANIU ROZPOZNAWANIA WZORCA
|
|
- Artur Osiński
- 8 lat temu
- Przeglądów:
Transkrypt
1 PROBLEM ELIMINACJI NIEPRZYSTAJĄCYCH OBIEKTÓW W ZADANIU ROZPOZNAWANIA WZORCA Marcin Luckner Zakład Zastosowań Informatyki i Metod Numerycznych, Politechnika Warszawska 1 WPROWADZENIE Zadanie rozpoznawania wzorca (Pattern Recognition) zostało szeroko opisane w literaturze [2] i doczekało się implementacji, o wysokiej skuteczności działania. Polega ono na przypisaniu do obiektu opisanego wektorem cech x pochodzącego z przestrzeni danych X jednej z rozpoznawanych klas C i. Zadanie jest realizowane przez funkcję klasyfikującą, która zwraca indeks przypisanej klasy. Jednakże funkcja nie jest wyposażona w mechanizm pozwalający na uniknięcie błędnej klasyfikacji, jeśli rozpoznawany obiekt jest nieprzystający do zadania rozpoznawania, czyli nie należy do żadnej z rozpoznawalnych klas. Wystąpienie opisanej sytuacji przedstawiono na rys. 1, gdzie funkcja klasyfikująca cyfry błędnie przypisała klasy nieprzystającym obiektom, będącym elementami tła. Rys. 1. Zadanie polegające na rozpoznaniu cyfr. Elementy tła niebędące cyframi zostały błędnie rozpoznane przez funkcję klasyfikującą (powinny zostać odrzucone). Celem przeprowadzonych badań było opracowanie i analiza skuteczności różnych metod odrzucania elementów nieprzystających do rozpoznawalnych wzorców. W wielu opracowaniach dotyczących rzeczywistych problemów klasyfikacyjnych pomija się ten aspekt, co - choć uprawnione w przypadku zagadnienia badawczego ograniczającego się do wybranych aspektów - w praktyce jest niedopuszczalne. Z drugiej strony istnieje kilka prac, które podejmują teoretyczny aspekt znalezienia optymalnego rozwiązania problemu odrzucania [4, 7], jednak nie idą za nimi przykłady praktycznych aplikacji. Co więcej, koncentrują się głównie na aspekcie błędnej klasyfikacji elementów leżących na styku znanych klas, a to nie wyczerpuje zagadnienia. Praktycznym przykładem z dziedziny rozpoznawania wzorców jest zagadnienie rozpoznawania symboli z map geodezyjnych. Mapy zawierają głównie elementy graficzne, nakreślone ręcznie, różnymi typami linii, uzupełnione informacją tekstową, a także pewnym zbiorem specyficznych symboli. W pracy jako źródło danych wykorzystywana była mapa zasadnicza. Całościowe zagadnienie analizy mapy, poruszane na przykład w [12], jest zbyt rozległe, aby je tu przedstawić. Jednak nawet zadanie polegające na częściowej analizie zawartości mapy znajduje praktyczne zastosowania. Skupimy się na zagadnieniach ograniczonych do rozpoznawania cyfr. Mimo znacznego ograniczenia w stosunku do zadania rozpoznawania wszystkich znaków alfanumerycznych okrojony problem nie traci aspektu praktycznego. Także zagadnienie odrzucania staje się w tym aspekcie 283
2 znacznie ciekawsze, bo oprócz ewidentnie nieprzystających do rozpoznawalnych klas błędów kreślarskich, będzie musiało obejmować kwestię wyeliminowania liter. Nie bez znaczenia pozostaje także fakt, że akwizycja danych z zachowaniem w miarę równomiernego rozkładu elementów pomiędzy klasami staje się znacznie łatwiejsza. Źródła elementów nieprzystających do rozpoznawanych klas są różnorakie i można podzielić je umownie na: fragmenty symboli i błędy kreślarskie, litery i inne symbole mapy, zbitki połączonych cyfr. Przykłady różnych rodzajów błędnych elementów i ich wpływu na proces klasyfikacji przedstawiono na rys. 2. Rys. 2. Rozpatrując przestrzeń danych, w której dokonujemy podziału na dwie klasy (w tym wypadku 3 i 4), możemy zauważyć, że rozmieszczenie błędnych przypadków będzie zróżnicowane. Mogą leżeć na przecięciu klas, jeżeli wykazują podobieństwo do obu, całkowicie poza obszarem występowania przedstawicieli klas lub wewnątrz tego obszaru, jeżeli przypominają elementy danej klasy. Ciemniejsze ramki okalają elementy do odrzucenia, jaśniejsze zaznaczają elementy poprawne. Należy, więc przypuszczać, że zróżnicowane źródła błędów będą wymagać zastosowania różnych technik odrzucania, dla których można zaproponować następującą klasyfikację: Odrzucanie z zastosowaniem progu odrzucane są przypadki o zbyt niskim prawdopodobieństwie prawidłowego rozpoznania. Odrzucanie jako zadanie klasyfikacyjne - rozwiązuje się zmodyfikowane zadanie klasyfikacyjne, odrzucane są przypadki zakwalifikowane do klasy-śmietnika. Odrzucanie z zastosowaniem zbioru ograniczającego - odrzucane są wszystkie przypadki nienależące do założonego zbioru elementów poprawnych. Metody hybrydowe - proces odrzucania jest realizowany poprzez połączenie powyższych metod. W celu zbadania zagadnienia odrzucania należy najpierw utworzyć funkcję klasyfikującą, w omawianym przypadku rozpoznającą klasy odpowiadające cyfrom, osiągającą przynajmniej 90% skuteczność. Niższa skuteczność utrudnia badanie wpływu zastosowania mechanizmów odrzucania na jakość rozpoznania. Bardzo dobrą skuteczność można uzyskać, stosując klasyfikatory SVM (Support Vector Machine) [14]. W dotychczasowych badaniach [11] wykazały dużą przydatność do rozpoznawania symboli drukowanych, o czym świadczy także porównanie osiągniętych przez nie wyników z wynikami innych metod. Ponieważ pojedynczy klasyfikator SVM może przeprowadzić tylko podział binarny, funkcja klasyfikująca musi składać się z całego ich zestawu. System klasyfikujący oprócz rozwiązywania zadania klasyfikacyjnego dla wielu klas, musi wykazać się elastycznością, przejawiającą się w łatwości implementacji różnorodnych metod odrzucania. Powyższe założenia realizuje drzewo grupujące. Drzewo grupujące jest strukturą, która powstaje na podstawie analizy statystycznego podobieństwa między rozpoznawalnymi klasami. Poszczególne klasyfikatory są ustawiane hierarchicznie, tak aby rozróżnienie między klasą odmienną od reszty danych odbywało się na poziomie wyższym, co wyeliminuje ją z dalszego procesu klasyfikacji. Dzięki temu na niższych poziomach podziały między podobnymi klasami odbywają się bez wpływu pozostałych przykładów uczących. System ten powinien zapewnić wymaganą skuteczność. Dodatkową zaletą modelu drzewiastego jest łatwość, z jaką można go rozbudowywać bez niszczenia dotychczasowej struktury. Wyniki klasyfikacji uzyskane przez drzewo zostaną porównane z powszechnie używanymi metodami klasyfikacji. Następnie sposoby implementacji metod odrzucania do drzew grupujących zostaną zastosowane dla uzyskanego drzewa i zbadane pod kątem przydatności do odrzucania niepasujących elementów w zadaniu klasyfikacji kreślonych cyfr pochodzących z mapy zasadniczej Zastosowania metod statystycznych w badaniach naukowych IV StatSoft Polska 2012
3 2 ŹRÓDŁO I CHARAKTER DANYCH Proces wektoryzacji map zasadniczych na terenie Polski jest daleki od ukończenia. Najwięcej prac podjęto w ramach projektu Phare Dla terenu Warszawy mapa zasadnicza prowadzona jest głównie w skalach 1:500, 1:1000 i 1:2000 przez Ośrodek Dokumentacji Geodezyjnej i Kartograficznej w Biurze Geodezji i Katastru Urzędu Miasta Stołecznego Warszawy. Wykonuje się ją i aktualizuje na podstawie bezpośrednich pomiarów terenowych lub pomiarów fotogrametrycznych. Dzięki wykorzystaniu systemu igeomap postępy wdrożenia mapy numerycznej prezentowane są w Internecie na stronach BGIK [1]. Stan na drugą połowę 2009 roku prezentuje rys. 3. Wynika z niego, że dotychczas zeskanowano dopiero część tradycyjnych map. W całości skanowanie objęło arkusze map opisujące tereny dzielnic Śródmieście, Wesoła i Praga- Północ. Sukcesywnie mają zostać zeskanowane wszystkie mapy obejmujące całe terytorium Warszawy. Zeskanowanie mapy nie jest jednak równoznaczne z jej wektoryzacją. Wdrażanie technologii prowadzenia mapy zasadniczej w formie numerycznej na terenie Warszawy rozpoczęto w styczniu 2007 r. Oznacza to, że wykonawcy prac geodezyjnych mają możliwość dostarczania opracowań w postaci wektora i w takiej formie przechowywany jest zasób. Działania te są jednak ograniczone do obszaru Pragi-Północ. 2.1 Zadanie klasyfikacyjne Rozważane zadanie klasyfikacyjne ogranicza się do rozpoznawania cyfr. Mimo że jest to zadanie znacznie uproszczone w stosunku do całościowej analizy mapy, nie pozostaje bez znaczenia praktycznego. Cyfry są istotnym elementem mapy, służą do opisu wielu jej elementów. Na rys. 4 przedstawiono udział cyfr pośród elementów mapy pobranych z pojedynczego arkusza. Rys. 3. Zasięg skanowania map dla Miasta Stołecznego Warszawy. Na mapie przedstawiono siatkę arkuszy mapy zasadniczej pokrywających Warszawę. Kolorem ciemnoszarym zaznaczono sekcje zeskanowane. Źródło [1]. Planowane jest prowadzenie zasadniczej mapy miasta w formie numerycznej. Obecnie w większości dzielnic mapa jest prowadzona w sposób tradycyjny, czyli kreślona na foliach. W niektórych dzielnicach zasób jest prowadzony w postaci hybrydowej, rastrowo-wektorowej. Polega to na wprowadzaniu danych wektorowych, z wykorzystaniem jako podkładu zeskanowanego rastra. W miarę postępu prac usuwa się z rastra dane wprowadzone już w postaci wektora. Metoda ta może być jednak stosowana tylko na terenach, dla których arkusze map zostały już zeskanowane. Rys. 4. Udział cyfr pośród danych pobranych z mapy zasadniczej. Wykres dotyczy pojedynczego arkusza mapy. Szerokie i zróżnicowane wykorzystanie cyfr w części opisowej mapy pozwala wyodrębnić szereg samodzielnych, praktycznych zagadnień, które bazują na ich rozpoznawaniu [10]. Zasto- Zastosowania metod statystycznych w badaniach naukowych IV StatSoft Polska
4 sowania można podzielić na dwie kategorie. Pierwsza związana jest z indeksowaniem: rozpoznawanie cyfr pozwala na lokalizację obiektu etykietowanego liczbą. Druga wiąże się z odczytem danych związanych z wysokością obiektów, co pozwala uzyskać dane o ich położeniu w przestrzeni trójwymiarowej. Jako przykład może posłużyć wizualizacja budynków. Kreślone na mapie zasadniczej obrysy budynków zawierają dodatkowe informacje o przeznaczeniu budynku, kodowane za pomocą pojedynczej litery i liczbie kondygnacji. Ta druga wartość pozwala na oszacowanie wysokości, do przeprowadzenia efektownych wizualizacji, jak na rys. 5. Tabela 1. Liczność klas w zadaniu klasyfikacyjnym. Przedstawione procenty dla poszczególnych klas dotyczą ich udziału w grupie uczącej lub testowej. Zamieszczone w podsumowaniu dotyczą udziału grupy uczącej i testowej w całym zbiorze. Ucząca Testowa Klasa Liczność Procent Liczność Procent , , , , , , , , , , , , , , , , , , ,86 Razem , ,28 3 KLASYFIKACJA Rys. 5. Trójwymiarowy model zbudowany na podstawie obrysu z mapy ewidencyjnej. Wysokość budynków przybliżana jest na podstawie liczby kondygnacji odczytanej z mapy. Kolory symbolizują przeznaczenie budynku (na mapie zapisane za pomocą pojedynczej litery. 2.2 Opis danych Dane do zadania klasyfikacyjnego pobrano z pięciu rastrów mapy zasadniczej. Uzyskano w ten sposób 7081 obiektów, opisanych przy użyciu 197 cech. Obiekty składające się na 10 klas odpowiadające cyfrom 0-9 podzielono losowo, w stosunku 1/3, na zbiór uczący L i testowy T. Szczegółowe dane dotyczące rozkładu danych między klasami przedstawiono w tabeli 1. Uwidacznia się znaczna przewaga elementów z klasy 3, wynikająca z ukształtowania terenu zobrazowanego na rastrach. Do klasyfikacji zostały użyte klasyfikatory SVM. Są to klasyfikatory binarne i rozwiązanie zadania klasyfikacji dla wielu klas wymaga zbudowania zespołu klasyfikatorów [5]. Dwoma popularnymi podejściami są strategie jeden-kontra-wszyscy i jeden-kontra-jeden. Strategia jeden-kontra-wszyscy [9] zakłada, że dla każdej klasy budowany jest jeden klasyfikator, oddzielający ją od pozostałych klas. Strategia jeden-kontra-jeden [6] buduje osobny klasyfikator dla każdej pary klas. Obie strategie mogą być zaimplementowane w postaci drzew decyzyjnych, jednak mają pewne ograniczenia, które omija zaproponowana technika drzew grupujących. Klasyfikację przeprowadzono za pomocą różnego rodzaju drzew grupujących, a wyniki porównano z uzyskanymi przez opartą na głosowaniu implementację metody jeden-kontrajeden i perceptron wielowarstwowy (Multi Layer Perceptron), który był z powodzeniem wykorzystywany w podobnych zadaniach [3]. W obydwu przypadkach zastosowano program STATISTICA [15]. 3.1 Drzewa grupujące Drzewo grupujące [11] jest drzewem decyzyjnym, którego struktura powstaje na skutek grupowania podobnych klas. Podobieństwo klas określane jest na podstawie odległości między nimi, zatem do jego wyliczenia należy obrać metrykę, w jakiej prowadzone będą obliczenia i zdefiniować pojęcie odległości między Zastosowania metod statystycznych w badaniach naukowych IV StatSoft Polska 2012
5 klasami. Można wybrać metrykę Euklidesową i zdefiniować odległości między klasami, jako odległości między centroidami klas, choć możliwe są alternatywne rozwiązania [11]. Budowa drzewa polega na łączeniu najbliższych sobie klas poprzez dodanie im wierzchołka-przodka. Taki wierzchołek reprezentuje grupę klas, dla których stanowi korzeń. Licząc dla niego podobieństwo tak, jak dla pojedynczych klas, można rozbudowywać strukturę drzewa. Mając gotową strukturę drzewa, należy przypisać klasyfikatory SVM wszystkim wierzchołkom drzewa, które nie są liśćmi. Klasyfikator znajdujący się w danym wierzchołku dzieli przestrzeń między klasy reprezentowane przez liście poddrzewa, którego korzeń stanowi. Jedną grupę tworzą klasy, do których można dojść ścieżkami rozpoczynającymi się od jego lewej krawędzi, drugą te, do których można dojść, rozpoczynając od prawej krawędzi. Zastosowanie hierarchicznej struktury do utworzenia grupy klasyfikatorów SVM pozwala na realizację szeregu strategii. Zanim przejdziemy do konkretnych aplikacji omówmy ogólne zagadnienia wynikające z hierarchicznego grupowania klasyfikatorów. Skoro uzyskany zespół klasyfikatorów ma charakter hierarchiczny, poszczególne klasyfikatory będą dzieliły przestrzeń danych między rozpoznawane klasy (jeśli obaj potomkowie wierzchołka są liśćmi) lub grupy połączonych klas. To zróżnicowanie przedstawiono na rys. 6. Rozpoznając n klas, musimy zbudować drzewo o n liściach. Przy założeniu, że mamy do czynienia z drzewami binarnymi, daje to skończoną liczbę możliwych do utworzenia struktur drzewiastych. Nie budzi wątpliwości, że funkcja klasyfikująca oparta na różnych strukturach drzewa da różne wyniki. To, co jest na pierwszy rzut oka mniej oczywiste, to fakt, że także permutacja liści, która pociąga za sobą zmianę klasyfikatorów SVM w poszczególnych wierzchołkach drzewa, bez zmiany jego krawędzi, także wpływa na końcowy efekt klasyfikacji. Od algorytmu budującego drzewo klasyfikatorów SVM należy zatem wymagać, aby precyzyjnie określał nie tylko strukturę drzewa, ale także przypisanie rozpoznawalnych klas do poszczególnych liści Drzewo jeden-kontra-wszyscy Stosunkowo prosta do implementacji, poprzez wykorzystanie struktury drzewiastej, jest strategia jeden-kontra-wszyscy. Należy utworzyć drzewo zdegenerowane, w którym spośród potomków każdego wierzchołka przynajmniej jeden jest liściem. W ten sposób każde przejście w głąb drzewa oddziela jedną klasę, przypisaną do potomka-liścia. Struktura taka zaproponowana jest w pracy [8]. Jednak pozostawiono tam bez komentarza sposób doboru klas separowanych na kolejnych poziomach drzewa. Rys. 7. Drzewo jeden-kontra-wszyscy. Rys. 6. Hierarchiczna struktura SVM. Podział przestrzeni może odbywać się między rozpoznawanymi klasami (klasyfikator SVM02) lub grupami klas (SVM01). Algorytm rozpoczyna działanie od wyszukania dwóch najbliższych klas. Budowany jest odpowiedni fragment drzewa, poprzez Zastosowania metod statystycznych w badaniach naukowych IV StatSoft Polska
6 połączenie klas wspólnym przodkiem, a klasy usuwa się ze zbioru rozpoznawanych klas. W następnych krokach wyszukiwana jest klasa najbardziej podobna do zbioru klas zebranego w zbudowanym już drzewie. Klasa ta jest dołączana do drzewa jako potomek nowo dodanego korzenia, którego drugim potomkiem jest stary korzeń. Do uzyskanego drzewa przypisuje się klasyfikatory SVM. Procedura powtarza się, aż wszystkie klasy zostaną zgrupowane w drzewie. Struktura uzyskana przez algorytm nie zależy od obranej metryki ani od definicji odległości, choć ich dobór może wpłynąć na rozmieszczenie klas w liściach, a więc na wyniki klasyfikacji Drzewo grupujące Następny algorytm jest uogólnieniem przedstawionego w poprzednim punkcie algorytmu grupującego. Algorytm ten pozwalał na dołączanie pobliskich klas tylko do zbioru zainicjowanego przez połączenie dwóch najbliższych klas. W wersji zmodyfikowanej dozwolone jest dowolne łączenie klas, pod warunkiem, że są to klasy sobie najbliższe. Tym razem po połączeniu dwóch pierwszych klas nie wyszukujemy klasy im najbliższej, lecz powtarzamy wyszukiwanie pary najbliższych klas, nie uwzględniając przy tym klas już połączonych. Jednocześnie do listy klas, spośród których szukamy najbliższych, dodajemy klasę powstałą z ich połączenia. usuwa obie klasy ze zbioru rozpoznawanych klas, a w zamian dodaje klasę powstałą z ich połączenia. Algorytm kończy działanie, gdy zostaje jedna klasa, łącząca wszystkie klasy początkowe, odpowiadająca korzeniowi drzewa. W wypadku drzewa grupującego sposób obliczania odległości wpływa nie tylko na rozmieszczenie klas w liściach, ale także na strukturę drzewa Graf grupujący Podczas budowy drzewa grupującego usuwaliśmy ze zbioru klas budujących drzewo klasy już wykorzystane. Jest to działanie racjonalne, pozwalające na budowę drzewa o przejrzystej strukturze. Jednak ogranicza zdolności klasyfikacyjne. Rozpatrzmy sytuację, gdy mamy do czynienia z trzema podobnymi klasami. Drzewo grupujące wymusi połączenie dwóch klas w jedną grupę. Te dwie klasy zostaną rozdzielone bezpośrednio przez klasyfikator SVM i można przypuszczać, że podział ten będzie skuteczny. Natomiast dla trzeciej klasy nie ma możliwości zbudowania oddzielnych klasyfikatorów, separujących ją od każdej z pozostałych klas osobno. Musi być to wykonane przez pojedynczy klasyfikator, co da zapewne gorsze wyniki. De facto w przypadku trzech klas drzewo grupujące zawsze stosuje strategię jeden-kontra-wszyscy, a chcemy uzyskać strukturę, która w niektórych sytuacjach zastosuje strategię jeden-kontra-jeden. Rys. 8. Drzewo jeden-kontra-wszyscy. Rys. 9. Drzewo jeden-kontra-wszyscy. Algorytm rozpoczyna budowę drzewa od zainicjowania wierzchołków rozpoznawanymi klasami. W każdym kroku wyszukuje dwie najbliższe sobie klasy. Następnie buduje fragment drzewa, dodając odpowiadającym im wierzchołkom wspólnego przodka. Kończąc iterację, Umożliwia to zmodyfikowany algorytm, który nie będzie usuwał klas już wykorzystanych podczas budowy drzewa. Wprowadzenie takiej poprawki do algorytmu drzewa grupującego pociąga za sobą pewne konsekwencje. Ponieważ lista klas, pośród których Zastosowania metod statystycznych w badaniach naukowych IV StatSoft Polska 2012
7 poszukujemy najbliższych, nie będzie się już redukowała, należy zmienić warunek stopu. Dodatkowo, jeśli po dodaniu klasy będącej wynikiem połączenia jej klasy składowe nie są usuwane, będziemy mieli do czynienia z podzbiorami, co podważa sensowność wyliczanej odległości. Należy więc ograniczyć pary klas, których podobieństwo badamy. Ponadto powstały w wyniku działania zmodyfikowanego algorytmu graf nie musi być drzewem. Algorytm, podobnie jak w przypadku budowy drzewa, zaczyna od zainicjowania wierzchołków rozpoznawanymi klasami. W każdym kroku wyszukuje dwie najbliższe sobie klasy. Ponieważ klasy składowe nie są usuwane, wyszukiwanie ogranicza się do klas, z których żadna nie zawiera się w drugiej. Jeżeli takie klasy nie istnieją, oznacza to, że utworzono już klasę zawierającą wszystkie klasy początkowe. Jest to równoważne z istnieniem wierzchołka, więc utworzono już cały graf. Pozostaje jeszcze kwestia doboru klasyfikatorów SVM. Struktura acyklicznego grafu skierowanego jest wykorzystywana także w metodzie DAGSVM [13]. Jednak zaproponowany algorytm grafu grupującego jednoznacznie określa rozkład klas w strukturze, którą to kwestię algorytm DAGSVM pomija. Ponadto liczba klasyfikatorów niezbędnych do budowy grafu grupującego może być znacznie mniejsza, zależy to od rozkładu klas w przestrzeni danych. 3.2 Wyniki klasyfikacji Przeprowadzone porównanie drzew grupujących, tworzących hierarchiczne zespoły klasyfikatorów SVM, z klasyfikatorami takimi jak perceptron wielowarstwowy i strategia jedenkontra-jeden, zliczająca zwycięstwa poszczególnych klas, wykazało, że dają one wyniki rozpoznania gorsze o kilka procent, co widać na zestawieniu w tabeli 2. Może to podważać zasadność ich użycia. Jednakże porównywane metody stwarzają problemy przy implementacji systemów odrzucających, które nie występują w przypadku struktur drzewiastych, są też w istotny sposób wolniejsze. Rozwiązaniem jest zastosowanie grafu grupującego, struktury opartej na grafie skierowanym, która pozwala, aby węzeł miał więcej niż jednego rodzica. Nie wpływa to w żaden negatywny sposób na opracowane algorytmy odrzucania. Choć graf ma znacznie więcej klasyfikatorów SVM, nadal ich liczba jest istotnie mniejsza niż w przypadku strategii jeden-kontrajeden. Wyniki klasyfikacji są zaś lepsze od uzyskanych przez sieć neuronową, utrzymując zbliżoną wartość odchylenia standardowego dla wyników w poszczególnych klasach. Przy okazji można zauważyć, że to właśnie sieć neuronowa zapewnia najmniejszy błąd rozpoznania dla pojedynczej klasy. Tabela 2. Porównanie metod klasyfikacji. Wynik klasyfikacji to globalna skuteczność funkcji klasyfikującej. Najgorszy i najlepszy wynik dotyczy pojedynczej klasy. Odchylenie standardowe jest liczone dla procentowych wyników klasyfikacji poszczególnych klas. Liczba użytych klasyfikatorów SVM pozwala porównać złożoność obliczeniową metod. MLP J-K-J J-K-W Drzewo Graf Wynik klasyfikacji 94,25 95,75 93,35 93,02 95,25 Najgorszy wynik 87,21 82,76 78,43 63,22 83,91 Najlepszy wynik 97,67 97,94 97,67 97,01 97,76 Odchylenie standardowe 3,97 4,95 5,91 9,92 4,08 Liczba klasyfikatorów METODY ODRZUCANIA Po omówieniu zadania klasyfikacji przyszła kolej na podjęcie tematu odrzucania nieprzystających elementów. 4.1 Odrzucanie z zastosowaniem progu W pracy [4] została przedstawiona optymalna reguła odrzucania, nazwana później regułą Chowa. Nakazuje ona odrzucić przykład, jeżeli prawdopodobieństwo poprawnej klasyfikacji jest zbyt niskie. Technika powstała, aby zredukować błąd fałszywego rozpoznania pomiędzy dwoma rozpoznawanymi klasami, dla których prawdopodobieństwo złej klasyfikacji maleje wraz z odległością od linii podziału, co nie musi odpowiadać rozmieszczeniu elementów nienależących do rozpoznawanych klas. Metoda dotyczy pojedynczego klasyfikatora SVM, my zaś musimy zastosować ją dla grupy klasyfikatorów zebranych w drzewie grupującym. Najprostszym sposobem jest zastosowanie odrzucania dla każdego klasyfikatora Zastosowania metod statystycznych w badaniach naukowych IV StatSoft Polska
8 w drzewie. Można także ograniczyć odrzucanie do klasyfikatorów decydujących o ostatecznym przypisaniu obiektu do klasy. Zastosowanie metody przedstawiono na rys. 10. Stosując odrzucanie z zastosowaniem zbioru ograniczającego, zakłada się, że zbiór poprawnych przypadków uczących dobrze charakteryzuje rozkład klasy i elementy leżące poza jego granicami mogą zostać odrzucone. Najprostszym podejściem jest określenie przestrzeni okalającej dla każdej klasy przez hiperkostkę ograniczoną minimalnymi i maksymalnymi wartościami cech opisujących obiekty przynależne do klasy. Ponieważ ogranicza to w znacznym stopniu zdolność ekstrapolacji funkcji klasyfikującej, aby zachować pewną elastyczność, można poszerzyć zbiór, dodając niewielki margines błędu m. Do utworzenia funkcji odrzucającej opartej na zbiorze ograniczającym niezbędny jest zbiór uczący, złożony z poprawnych elementów poszczególnych klas, pozwalający określić jego granice. W tym celu może być użyty bezpośrednio zbiór uczący C, który został wykorzystany przy rozwiązywaniu zadania klasyfikacyjnego. Ewentualnie można wykorzystać jego podzbiory w celu doboru szerokości marginesu. Pomijając aspekt doboru zbioru uczącego, ta metoda odrzucania jest niezależna od sposobu implementacji funkcji klasyfikującej. Metoda może wykorzystywać różne metryki do określenia zbioru ograniczającego. Może także przeprowadzać normalizację, aby uwzględnić różny zakres dla poszczególnych cech. Zbiory ograniczające powstałe przy zastosowaniu różnych technik przedstawiono na rys. 11. Rys. 10. Drzewo SVM realizujące odrzucanie z progiem. Odrzucanie może być realizowane przez każdy z klasyfikatorów SVM lub ograniczone do klasyfikatorów wskazujących na liście SVM02 i SVM Odrzucanie z zastosowaniem zbioru ograniczającego Rys. 11. Przykłady zbiorów ograniczających, zbudowanych przy wykorzystaniu różnych metryk. Linią ciągłą zaznaczono zbiory o stałej szerokości marginesu. Linią przerywaną zaznaczono zbiory o marginesie znormalizowanym względem szerokości przedziału. 4.3 Odrzucanie jako zadanie klasyfikacyjne Metoda polega na rozwiązaniu zastępczego zadania klasyfikującego, równoważnego zadaniu rozpoznawania z odrzucaniem. Na bazie istniejącej funkcji klasyfikującej buduje się nową, uzupełnioną o dodatkową klasę-śmietnik. Chociaż nowo powstała funkcja będzie traktowała taką klasę równoważnie z innymi, to elementy do niej przypisane będą uznane za odrzucone. Metoda nie ogranicza się do zastosowania algorytmu budowania klasyfikatora dla zbioru danych poszerzonego o dodatkową klasę. Takie podejście powoduje zakłócenie działania dotychczasowej funkcji klasyfikującej i uniemożliwia ocenę wpływu implementacji odrzucania na jakość klasyfikacji. W zamian stosuje się jedno z poniższych podejść. Wykorzystując pojedynczą, globalną klasęśmietnik, można podzielić przestrzeń danych między przypadki wymagające odrzucenia i poprawne. Przypadki określone jako poprawne poddawane są rozpoznaniu przez dotychczasową funkcję klasyfikacyjną. Przykład zastosowania metody przedstawiono na rys. 12. Druga metoda prezentuje odwrotne podejście. Proces klasyfikacyjny, bazujący na istniejącej funkcji klasyfikującej, zostaje przeprowadzony dla wszystkich rozpatrywanych przypadków, co prowadzi do ich podziału na rozpoznawane klasy. Dopiero teraz, oddzielnie dla każdego zbioru określonego przez przypisaną klasę, stosuje się podział na przypadki poprawne, te Zastosowania metod statystycznych w badaniach naukowych IV StatSoft Polska 2012
9 zachowują przypisanie do klasy, i odrzucane. Dodajemy zatem klasę-śmietnik lokalnie dla każdej z rozpoznawanych klas. Przykład zastosowania metody przedstawiono na rys. 13. Zastanówmy się nad możliwością implementacji metody do innych mechanizmów klasyfikacyjnych. Niezależnie od metody klasyfikacji można dodać klasyfikator SVM, zarówno odrzucający dane wejściowe, jak i klasyfikatory analizujące dane wyjściowe poszczególnych klas. Jednak takie rozwiązanie jest niezbyt eleganckie, gdyż oczekujemy lepszej integracji odrzucania z metodą. Tutaj odpowiedź jest negatywna. Zarówno w wypadku sieci neuronowych typu perceptron wielowarstwowy, jak i techniki DAGSVM nie widać możliwości dodania dodatkowych klas do zadania klasyfikującego bez zaburzenia pierwotnej funkcji klasyfikującej. Rys. 12. Drzewo SVM realizujące odrzucanie z wykorzystaniem klasy globalnej. Odrzucanie realizowane jest w wyniku decyzji dodanego klasyfikatora SVMR0. W wypadku odrzucania z progiem i odrzucania z zastosowaniem zbioru ograniczającego nie istniała potrzeba wykorzystywania innego zbioru uczącego niż użyty w zadaniu klasyfikacyjnym. Tym razem musimy zbudować dodatkowe klasyfikatory dzielące przestrzeń pomiędzy elementy poprawne i przeznaczone do odrzucenia. Te pierwsze stanowią zbiór uczący C, potrzebujemy jeszcze posiadać zbiór elementów przeznaczonych do odrzucenia F. Do realizacji odrzucania wymagane są klasyfikatory binarne. Siłą rzeczy będziemy używać klasyfikatorów SVM. 4.4 Zadanie odrzucania W odróżnieniu od zadania klasyfikacyjnego, system realizujący zadanie odrzucania musi poprawnie obsłużyć także przypadki, których przypisanie do którejkolwiek z rozpoznawanych klas zwiększy błąd klasyfikacji. Wykorzystywany dotychczas zbiór danych, ograniczał się do zbioru poprawnych przedstawicieli klas 0-9, co w sumie dawało 7081 przypadków, pobranych z pięciu arkuszy mapy zasadniczej. Z tych samych arkuszy zebrano przykłady błędnie rozpoznawane jako elementy poprawne. Nowy zbiór F liczy przypadków. Zbiór rozpatrywanych elementów liczy w sumie przypadki. Tabela 3. Liczność klas w zadaniu odrzucania. Dla klas rozpoznawanych przedstawiono ich udział procentowy w zbiorze rozpoznawanych klas. Kolumna stosunek przedstawia stosunek poprawnych elementów z danej klasy do negatywnych. poprawne negatywne klasa liczność procent liczność procent stosunek , ,55 36, , ,52 11, , ,50 91, , ,75 76, , ,18 22, , ,33 159, , ,53 38, , ,19 43, , ,26 35, , ,18 33,69 Rys. 13. Drzewo SVM realizujące odrzucanie z wykorzystaniem klas lokalnych. Odrzucanie przeprowadzane jest osobno dla każdej klasy na podstawie decyzji odpowiedniego klasyfikatora SVMK0-SVMK2. Każdy z nowo dodanych przypadków, jeśli nie zastosujemy odrzucania, zostanie przypisany przez funkcję klasyfikującą. W tabeli 3 przedstawiono podział na poszczególne klasy, zarówno przykładów pozytywnych, jak i negatywnych, Zastosowania metod statystycznych w badaniach naukowych IV StatSoft Polska
10 przeprowadzony przez funkcję opartą na grafie grupującym. Jak widać, poszczególne klasy rozpoznawalne będą zakłócane w różnym stopniu. 4.5 Porównanie metod odrzucania Porównywano dwa aspekty metod odrzucania. Pierwszą była skuteczność odrzucania, czyli procent poprawnie odrzuconych elementów, błędnie przypisanych do klas. Drugą była skuteczność rozpoznania, która pozwala ocenić, jak wiele poprawnych elementów zostało odrzuconych. Analizowano także skuteczność łączną, będącą średnią ważoną obu skuteczności. Na rys. 14 zestawiono skuteczność omówionych metod. Jasno widać, że tylko metody, które traktują odrzucanie jako zadanie klasyfikacyjne, uzyskują zadowalające wyniki. wyższe wyniki, choć nieprzekraczające lub przekraczające nieznacznie minimalny próg odniesienia, a przedstawione powyżej są wynikiem użycia parametrów estymowanych na podstawie zbioru uczącego. Podsumowując, można użyć jako funkcji klasyfikującej z możliwością odrzucania metod traktujących zadanie odrzucania jako zadanie klasyfikacyjne. W wypadku zastosowania klas lokalnych metoda daje także przyzwoitą skuteczność rozpoznawania, jednak istotnie niższą od skuteczności uzyskanej w zadaniu klasyfikacyjnym ograniczonym do klas 0-9. Jeżeli jednak przeanalizujemy spadek skuteczności odrzucania metody posługującej się zbiorem ograniczającym, to zobaczymy, że przy niewielkim ograniczeniu skuteczności rozpoznawania możemy odrzucić znaczny procent złych przypadków. Daje to możliwość utworzenia metod hybrydowych. Rys. 14. Na wykresie przedstawiono skuteczność odrzucania i skuteczność rozpoznania poszczególnych metod. Punkty etykietowane przedstawiają wyniki skuteczności łącznej uzyskane dla grupy testowej. Metoda wykorzystująca klasę globalną uzyskuje 88,52%, metoda wykorzystująca klasy lokalne 93,08%. Zarówno metody wykorzystujące odrzucanie z progiem, jak i metoda używająca zbioru ograniczającego nie przekraczają minimalnego progu odniesienia, który został ustalony poprzez odrzucenie wszystkich klasyfikowanych przypadków, w tym poprawnych. Ich rezultaty to odpowiednio 39,16% dla odrzucania z progiem stosowanego przy wszystkich klasyfikatorach, 53,29% dla odrzucania z progiem stosowanego tylko dla klasyfikatorów finalnych i 61,11% dla zbioru ograniczającego, utworzonego przy pomocy metryki Manhattan i przedziałów znormalizowanych. Należy jednak zauważyć, że dla tych metod można uzyskać 4.6 Metody hybrydowe Pierwsza metoda odrzucania zastosowana do budowy metody hybrydowej wykorzystuje zbiór ograniczający, zbudowany przy użyciu metryki Manhattan i oparty na przedziałach znormalizowanych. Jako drugą wykorzystano metodę opartą na klasach lokalnych. Metodę uczono zbiorem niezmodyfikowanym L, zbiorem, z którego usunięto elementy odrzucone przez pierwszą metodę L\R m (L), oraz zbiorem, dla którego po usunięciu elementów odrzuconych dodano wagi elementów tak, aby elementy z klas rozpoznawalnych były dwukrotnie istotniejsze niż pozostałe elementy. Zbiór ten oznaczymy jako L w. Dla każdego z powyższych zbiorów przeprowadzono testy zakładające, że do odrzucania wykorzystujemy tylko drugą metodę, wtedy analizuje ona zbiór T, jak i obie, wtedy druga metoda bada zbiór T\R m (T). Zestawienie wyników dla wszystkich kombinacji zbioru uczącego i testowego przedstawiono na rys. 15. Na rys. 15 zestawiono skuteczność odrzucania dla metody wykorzystującej klasy lokalne, uczonej na pełnym zbiorze danych L, zbiorze z usuniętymi elementami odrzuconymi przez odrzucanie ze zbiorem L\R m (L) oraz na zbiorze ważonym L w, który wymusza preferowanie elementów z klas rozpoznawanych w procesie klasyfikacji. Dla każdego zbioru uczącego metoda była testowana jako metoda samodzielna Zastosowania metod statystycznych w badaniach naukowych IV StatSoft Polska 2012
11 (na zbiorze testowym T) jak i w połączeniu z metodą odrzucania ze zbiorem (na zbiorze T\R m (T)). W tym drugim wypadku uwzględniono przy zestawianiu wyników skuteczność metody odrzucania ze zbiorem. w niewielkim stopniu zwiększa skuteczność całkowitą, która osiąga 93,14%. Wciąż warto stosować metody hybrydowe, jednak nie ze względu na uzyskaną skuteczność, która jest porównywalna do skuteczności działającej samodzielnie metody wykorzystującej klasy lokalne. Otóż wykorzystując zbiór ograniczający, udało nam się, bez straty skuteczności, wyeliminować z procesu nauczania około 30% elementów, które powinny zostać odrzucone. Tak znacząca redukcja zbioru uczącego nie może nie odbić się na czasie budowy klasyfikatora, a także na samym procesie klasyfikacji, gdyż oba te aspekty są zależne od liczby przypadków uczących. Rys. 15. Skuteczność metod hybrydowych. Uzyskane wyniki nie zachęcają do korzystania z metody hybrydowej. Za punkt odniesienia weźmy sytuację, gdy zbiorem uczącym jest zbiór L, testowym zaś T, czyli gdy korzystamy tylko i wyłącznie z metody odrzucania opartej na klasach lokalnych o niezmodyfikowanym zbiorze uczącym. Największą poprawę skuteczności rozpoznania osiągniemy wtedy, gdy zastosujemy do uczenia zbiór ważony i zrezygnujemy z odrzucania pierwszą metodą. Jednak poprawa skuteczności rozpoznania nie przekroczy 1%, a skutkiem będzie obniżenie skuteczności łącznej o 3%. Uruchomienie odrzucania pierwszą metodą zniweluje polepszenie skuteczności rozpoznania i przywróci skuteczność łączną w rejony zbliżone do osiągów początkowych. Używanie ważonego zbioru uczącego nie przynosi oczekiwanych korzyści. Zastosowanie dodatkowego mechanizmu odrzucania do metody wykorzystującej klasy lokalne zbudowane na podstawie niezmodyfikowanego zbioru L poprawia skuteczność odrzucania i łączną, jednocześnie jednak obniża skuteczność rozpoznania, a na poprawie tej skuteczności zależało nam najbardziej. Jedynym akceptowalnym połączeniem metod jest użycie obu metod odrzucania w sytuacji, gdy druga z nich oparta jest na zbiorze uczącym pomniejszonym o elementy odrzucone przez pierwszą L\ R m (L). Wprawdzie nie powoduje to polepszenia skuteczności rozpoznawania, ale 5 PODSUMOWANIE W pracy podjęto analizę problemu odrzucania nieprzystających elementów w zadaniu rozpoznawania wzorca. Problem przedstawiono na przykładzie rozpoznawania cyfr z rastrów mapy zasadniczej. Należy podkreślić, że nawet tak ograniczona analiza zawartości mapy ma zastosowania praktyczne i może być wykorzystana do budowy modelu numerycznego terenu, trójwymiarowej wizualizacji budynków lub wyszukiwania działek na arkuszu mapy. Co więcej, problematyka ta jest jak najbardziej aktualna przy obecnym stanie wektoryzacji map w Polsce. Zadanie klasyfikacyjne udało się rozwiązać z wykorzystaniem klasyfikatorów SVM. Klasyfikatory binarne zestawiono w strukturę drzewiastą. W celu jednoznacznego określenia struktury drzew zaproponowano trzy algorytmy: implementujący metodę jeden-kontra-wszyscy, tworzący drzewo grupujące i budujący graf grupujący. Działają one w oparciu o definicję podobieństwa między rozpoznawalnymi klasami. Uzyskane wyniki, skuteczność klasyfikacji wynosząca 95,25%, są zbliżone do osiąganych przez popularne metody klasyfikacji, jakimi są sieci neuronowe i zespoły klasyfikatorów SVM stosujące strategię jeden-kontra-jeden. Jednakże oferują możliwości implementacji mechanizmów odrzucania. Omawiane zadanie klasyfikacyjne charakteryzuje się zróżnicowanymi źródłami błędnych elementów. Mogą one występować na styku rozpoznawanych klas, poza obszarem występowania elementów rozpoznawalnych, jak i być ulo- Zastosowania metod statystycznych w badaniach naukowych IV StatSoft Polska
12 kowane wewnątrz przestrzeni zajmowanej przez klasę, dlatego zaproponowano i zbadano różne metody odrzucania. Odrzucanie z progiem usuwa przypadki, które leżą zbyt blisko linii podziału między rozpoznawanymi klasami, odrzucanie ze zbiorem odrzucającym eliminuje elementy zbyt odległe od przestrzeni zajmowanej przez rozpoznawane klasy. Odrzucanie traktowane jako zadanie klasyfikacyjne, szczególnie w przypadku wykorzystania klas lokalnych, eliminuje przypadki leżące wewnątrz przestrzeni zajmowanej przez rozpoznawalne klasy. Przeprowadzone testy wykazały, że tylko odrzucanie traktowane jako zadanie klasyfikacyjne zapewnia zadowalającą skuteczność i prowadzi do poprawnej klasyfikacji 93,08% badanych przypadków. Składa się na to skuteczność odrzucania wynosząca 96,03% i skuteczność rozpoznania wynosząca 85%. Jak widać, spadek skuteczności rozpoznania jest znaczny w stosunku do zadania klasyfikacyjnego, dla którego nie stosuje się odrzucania. Podjęte próby poprawy skuteczności poprzez zastosowanie metod hybrydowych nie przyniosły oczekiwanej poprawy. Wszystkie metody odrzucania wykazują tendencję do maksymalizowania skuteczności odrzucania kosztem skuteczności rozpoznania. Ich łączenie może poprawić tylko tę pierwszą, a ponieważ jest ona na wysokim poziomie, poprawa jest niewielka. Próby wymuszania zwiększania skuteczności klasyfikacji kończyły się znacznym obniżeniem skuteczności odrzucania. Jednak zastosowanie odrzucania wykorzystującego zbiór ograniczający do filtrowania zbioru uczącego pozwala znacznie zredukować koszty uczenia klasyfikatorów SVM. Zatem stosowanie metod hybrydowych, choć nie polepsza skuteczności klasyfikacji, nie jest bezzasadne z implementacyjnego punktu widzenia. 4) Chow, C. On optimum recognition error and reject tradeoff. InformationTheory, IEEE Transactions on, vol. 16, no. 1, 1970, ) Hsu, C.W., Lin, C.J. A comparison of methods for multiclass support vector machines. IEEE transactions on neural networks/a publication of the IEEE Neural Networks Council, vol. 13, no. 2, 2002, ) Debnath, R., Takahide, N., Takahashi, H. A decision based one-against-one method for multi-class support vector machine. Pattern Analysis and Applications, vol. 7, no. 2, July 2004, ) Thien, M. Ha. Optimum Tradeoff between Class-selective Rejection Error and Average Number of Classes. Engineering Applications of Artificial Intelligence, vol. 10, no. 6, December 1997, ) Arun Kumar, M., Gopal, M. Fast multiclass svm classification using decision tree based one-against-all method. Neural Process. Lett. 32, 9160: :323 (December 2010), 9) Liu, Y., Zheng, Y.F. One-against-all multi-class SVM classification using reliability measures. Neural Networks, Proceedings 2005 IEEE International Joint Conference on Neural Networks, vol. 2, no. 2, 2005, ) Luckner, M. Automatyczne rozpoznawanie tekstów na mapie zasadniczej. Materiały Sesji Naukowej z okazji 85-lecia Wydziału Geodezji i Kartografii. Oficyna Wydawnicza Politechniki Warszawskiej, 2006, ) Luckner, M. Comparison of Hierarchical SVM Structures in Letters Recognition Task. [w:] L. Rutkowski, R. Tadeusiewicz, L. A. Zadeh, J. Żurada, red., Computational Intelligence: Methods and Applications, Challenging Problems of Science. Academic Publishing House EXIT, Warsaw, 2008, ) Ogier, J.M., Mullot, R., Labiche, J., Lecourtier, Y. Multilevel Approach and Distributed Consistency for Technical Map Interpretation: Application to Cadastral Maps. Computer Vision and Image Understanding, vol. 70, no. 3, June 1998, ) Platt, J., Cristianini, N., ShaweTaylor J. Large Margin DAGS for Multiclass Classification. [w:] S. A. Solla, T. K. Leen, K. R Mueller, red., Advances in Neural Information Processing Systems 12, 2000, ) Vapnik, V. The nature of statistical learning theory. Springer-Verlag, ) Elektroniczny Podręcznik Statystyki PL. StatSoft. Kraków, BIBLIOGRAFIA 1) Biuro Geodezji i Katastru Miasta Stołecznego Warszawy. Mapa przeglądowa sekcji, ) Bishop, Ch.M. Neural networks for pattern recognition. Oxford University Press, ) Calabró, C., Ferragina, P., Notturno Granieri M. Recognition of hand-written rotated digits by neural networks. Machine Vision and Applications, vol. 8, no. 5, 1995, Zastosowania metod statystycznych w badaniach naukowych IV StatSoft Polska 2012
Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner
Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner Wydział Matematyki i Nauk Informacyjnych Politechnika Warszawska Elementy nieprzystające Definicja odrzucania Klasyfikacja
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny
Systemy uczące się Lab 4
Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego
8. Drzewa decyzyjne, bagging, boosting i lasy losowe
Algorytmy rozpoznawania obrazów 8. Drzewa decyzyjne, bagging, boosting i lasy losowe dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Drzewa decyzyjne Drzewa decyzyjne (ang. decision trees), zwane
S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor
S O M SELF-ORGANIZING MAPS Przemysław Szczepańczyk Łukasz Myszor Podstawy teoretyczne Map Samoorganizujących się stworzył prof. Teuvo Kohonen (1982 r.). SOM wywodzi się ze sztucznych sieci neuronowych.
ALGORYTMY SZTUCZNEJ INTELIGENCJI
ALGORYTMY SZTUCZNEJ INTELIGENCJI Sieci neuronowe 06.12.2014 Krzysztof Salamon 1 Wstęp Sprawozdanie to dotyczy ćwiczeń z zakresu sieci neuronowych realizowanym na przedmiocie: Algorytmy Sztucznej Inteligencji.
Elementy modelowania matematycznego
Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski
Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.
ANALIZA SKUPIEŃ Metoda k-means I. Cel zadania Zadaniem jest analiza zbioru danych, gdzie zmiennymi są poziomy ekspresji genów. Podczas badań pobrano próbki DNA od 36 różnych pacjentów z chorobą nowotworową.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu
Kompresja danych Streszczenie Studia Dzienne Wykład 10,
1 Kwantyzacja wektorowa Kompresja danych Streszczenie Studia Dzienne Wykład 10, 28.04.2006 Kwantyzacja wektorowa: dane dzielone na bloki (wektory), każdy blok kwantyzowany jako jeden element danych. Ogólny
Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska
Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska e-mail: bartosz.krawczyk@pwr.wroc.pl Czym jest klasyfikacja
Drzewa decyzyjne i lasy losowe
Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM
ZASADY PROGRAMOWANIA KOMPUTERÓW ZAP zima 2014/2015. Drzewa BST c.d., równoważenie drzew, kopce.
POLITECHNIKA WARSZAWSKA Instytut Automatyki i Robotyki ZASADY PROGRAMOWANIA KOMPUTERÓW ZAP zima 204/205 Język programowania: Środowisko programistyczne: C/C++ Qt Wykład 2 : Drzewa BST c.d., równoważenie
METODY INŻYNIERII WIEDZY
METODY INŻYNIERII WIEDZY WALIDACJA KRZYŻOWA dla ZAAWANSOWANEGO KLASYFIKATORA KNN ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska DRZEWO REGRESYJNE Sposób konstrukcji i przycinania
Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych
dr Piotr Sulewski POMORSKA AKADEMIA PEDAGOGICZNA W SŁUPSKU KATEDRA INFORMATYKI I STATYSTYKI Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych Wprowadzenie Obecnie bardzo
Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej. Adam Żychowski
Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej Adam Żychowski Definicja problemu Każdy z obiektów może należeć do więcej niż jednej kategorii. Alternatywna definicja Zastosowania
Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,
Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której
Analiza składowych głównych. Wprowadzenie
Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących
Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl
Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Aby skorzystać z możliwości RapidMinera w zakresie analizy tekstu, należy zainstalować Text Mining Extension. Wybierz: 1 Po
Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji
Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Michał Witczak Data Mining 20 maja 2012 r. 1. Wstęp Dostarczone zostały nam 4 pliki, z których dwa stanowiły zbiory uczące
Algorytmy i struktury danych. Drzewa: BST, kopce. Letnie Warsztaty Matematyczno-Informatyczne
Algorytmy i struktury danych Drzewa: BST, kopce Letnie Warsztaty Matematyczno-Informatyczne Drzewa: BST, kopce Definicja drzewa Drzewo (ang. tree) to nieskierowany, acykliczny, spójny graf. Drzewo może
a) 7 b) 19 c) 21 d) 34
Zadanie 1. Pytania testowe dotyczące podstawowych własności grafów. Zadanie 2. Przy każdym z zadań może się pojawić polecenie krótkiej charakterystyki algorytmu. Zadanie 3. W zadanym grafie sprawdzenie
Zofia Kruczkiewicz, Algorytmu i struktury danych, Wykład 14, 1
Wykład Algorytmy grafowe metoda zachłanna. Właściwości algorytmu zachłannego:. W przeciwieństwie do metody programowania dynamicznego nie występuje etap dzielenia na mniejsze realizacje z wykorzystaniem
4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74
3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15
Zastosowania sieci neuronowych
Zastosowania sieci neuronowych klasyfikacja LABORKA Piotr Ciskowski zadanie 1. klasyfikacja zwierząt sieć jednowarstwowa żródło: Tadeusiewicz. Odkrywanie własności sieci neuronowych, str. 159 Przykład
Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.
Wstęp do sieci neuronowych, wykład 7. M. Czoków, J. Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika w Toruniu 212-11-28 Projekt pn. Wzmocnienie potencjału dydaktycznego UMK w Toruniu
Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS
Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów
IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ
IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ Celem ćwiczenia jest zapoznanie się ze sposobem działania sieci neuronowych typu MLP (multi-layer perceptron) uczonych nadzorowaną (z nauczycielem,
Wyszukiwanie binarne
Wyszukiwanie binarne Wyszukiwanie binarne to technika pozwalająca na przeszukanie jakiegoś posortowanego zbioru danych w czasie logarytmicznie zależnym od jego wielkości (co to dokładnie znaczy dowiecie
Sieci Kohonena Grupowanie
Sieci Kohonena Grupowanie http://zajecia.jakubw.pl/nai UCZENIE SIĘ BEZ NADZORU Załóżmy, że mamy za zadanie pogrupować następujące słowa: cup, roulette, unbelievable, cut, put, launderette, loveable Nie
Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18
Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)
Hierarchiczna analiza skupień
Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym
Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)
Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania
10. Redukcja wymiaru - metoda PCA
Algorytmy rozpoznawania obrazów 10. Redukcja wymiaru - metoda PCA dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. PCA Analiza składowych głównych: w skrócie nazywana PCA (od ang. Principle Component
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie
Wprowadzenie Konstrukcja binarnych drzew klasyfikacyjnych polega na sekwencyjnym dzieleniu podzbiorów przestrzeni próby X na dwa rozłączne i dopełniające się podzbiory, rozpoczynając od całego zbioru X.
Algorytmy klasyfikacji
Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe
Metody klasyfikacji danych - część 1 p.1/24
Metody klasyfikacji danych - część 1 Inteligentne Usługi Informacyjne Jerzy Dembski Metody klasyfikacji danych - część 1 p.1/24 Plan wykładu - Zadanie klasyfikacji danych - Przeglad problemów klasyfikacji
Działanie algorytmu oparte jest na minimalizacji funkcji celu jako suma funkcji kosztu ( ) oraz funkcji heurystycznej ( ).
Algorytm A* Opracowanie: Joanna Raczyńska 1.Wstęp Algorytm A* jest heurystycznym algorytmem służącym do znajdowania najkrótszej ścieżki w grafie. Jest to algorytm zupełny i optymalny, co oznacza, że zawsze
Elementy inteligencji obliczeniowej
Elementy inteligencji obliczeniowej Paweł Liskowski Institute of Computing Science, Poznań University of Technology 9 October 2018 1 / 19 Perceptron Perceptron (Rosenblatt, 1957) to najprostsza forma sztucznego
CLUSTERING. Metody grupowania danych
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means
Wektoryzacja poziomic z map topograficznych. kilkanaście uwag o zagadnieniu skanowaniu, binaryzacji kolorów, wektoryzacji i DTM-ach
Wektoryzacja poziomic z map topograficznych kilkanaście uwag o zagadnieniu skanowaniu, binaryzacji kolorów, wektoryzacji i DTM-ach Pytania o wektoryzację... Czy da się całkowicie zautmatyzować proces wektoryzacji
Wstęp do sieci neuronowych laboratorium 01 Organizacja zajęć. Perceptron prosty
Wstęp do sieci neuronowych laboratorium 01 Organizacja zajęć. Perceptron prosty Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2012-10-03 Projekt pn. Wzmocnienie potencjału
1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie
Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty
Metody Sztucznej Inteligencji II
17 marca 2013 Neuron biologiczny Neuron Jest podstawowym budulcem układu nerwowego. Jest komórką, która jest w stanie odbierać i przekazywać sygnały elektryczne. Neuron działanie Jeżeli wartość sygnału
Projekt Sieci neuronowe
Projekt Sieci neuronowe Chmielecka Katarzyna Gr. 9 IiE 1. Problem i dane Sieć neuronowa miała za zadanie nauczyć się klasyfikować wnioski kredytowe. W projekcie wykorzystano dane pochodzące z 110 wniosków
PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew.
PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew. Wprowadzenie Drzewo klasyfikacyjne Wprowadzenie Formalnie : drzewo
Przykładowa analiza danych
Przykładowa analiza danych W analizie wykorzystano dane pochodzące z publicznego repozytorium ArrayExpress udostępnionego na stronach Europejskiego Instytutu Bioinformatyki (http://www.ebi.ac.uk/). Zbiór
Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817
Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817 Zadanie 1: wiek 7 8 9 1 11 11,5 12 13 14 14 15 16 17 18 18,5 19 wzrost 12 122 125 131 135 14 142 145 15 1 154 159 162 164 168 17 Wykres
ALGORYTM RANDOM FOREST
SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM
Topologia działek w MK 2013
Topologia działek w MK 2013 Podział działki nr 371 w środowisku Microstation 1. Uruchomić program Microstation. 2. Wybrać przestrzeń roboczą MK2013-Rozp.MAiCprzez Użytkownik. 3. Założyć nowy plik roboczy.
Rozmyte drzewa decyzyjne. Łukasz Ryniewicz Metody inteligencji obliczeniowej
µ(x) x µ(x) µ(x) x x µ(x) µ(x) x x µ(x) x µ(x) x Rozmyte drzewa decyzyjne Łukasz Ryniewicz Metody inteligencji obliczeniowej 21.05.2007 AGENDA 1 Drzewa decyzyjne kontra rozmyte drzewa decyzyjne, problemy
Zastosowanie metody interpolacji warstwic do tworzenia NMT. dr inż. Ireneusz Wyczałek Zakład Geodezji POLITECHNIKA POZNAŃSKA
Zastosowanie metody interpolacji warstwic do tworzenia NMT dr inż. Ireneusz Wyczałek Zakład Geodezji POLITECHNIKA POZNAŃSKA Zastosowanie metody interpolacji warstwic do tworzenia Numerycznego Modelu Terenu
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Grafy (3): drzewa. Wykłady z matematyki dyskretnej dla informatyków i teleinformatyków. UTP Bydgoszcz
Grafy (3): drzewa Wykłady z matematyki dyskretnej dla informatyków i teleinformatyków UTP Bydgoszcz 13 (Wykłady z matematyki dyskretnej) Grafy (3): drzewa 13 1 / 107 Drzewo Definicja. Drzewo to graf acykliczny
Wstęp do sieci neuronowych, wykład 04. Skierowane sieci neuronowe. Algorytmy konstrukcyjne dla sieci skierowanych
Wstęp do sieci neuronowych, wykład 04. Skierowane sieci neuronowe. dla sieci skierowanych Maja Czoków, Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2011-10-25 1 Motywacja
KLASYFIKACJA. Słownik języka polskiego
KLASYFIKACJA KLASYFIKACJA Słownik języka polskiego Klasyfikacja systematyczny podział przedmiotów lub zjawisk na klasy, działy, poddziały, wykonywany według określonej zasady Klasyfikacja polega na przyporządkowaniu
Wstęp do sieci neuronowych, wykład 8 Uczenie nienadzorowane.
Wstęp do sieci neuronowych, wykład 8. M. Czoków, J. Piersa, A. Rutkowski Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika w Toruniu 1-811-6 Projekt pn. Wzmocnienie potencjału dydaktycznego
Indukowane Reguły Decyzyjne I. Wykład 3
Indukowane Reguły Decyzyjne I Wykład 3 IRD Wykład 3 Plan Powtórka Grafy Drzewa klasyfikacyjne Testy wstęp Klasyfikacja obiektów z wykorzystaniem drzewa Reguły decyzyjne generowane przez drzewo 2 Powtórzenie
6. Organizacja dostępu do danych przestrzennych
6. Organizacja dostępu do danych przestrzennych Duża liczba danych przestrzennych oraz ich specyficzny charakter sprawiają, że do sprawnego funkcjonowania systemu, przetwarzania zgromadzonych w nim danych,
Testowanie modeli predykcyjnych
Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności
Metody klasyfikacji i rozpoznawania wzorców. Najważniejsze rodzaje klasyfikatorów
Metody klasyfikacji i rozpoznawania wzorców www.michalbereta.pl Najważniejsze rodzaje klasyfikatorów Dla określonego problemu klasyfikacyjnego (tzn. dla danego zestawu danych) należy przetestować jak najwięcej
Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych
Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych ELEMENTY SZTUCZNEJ INTELIGENCJI Laboratorium nr 9 PRZESZUKIWANIE GRAFÓW Z
Testowanie hipotez statystycznych
9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :
Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II
Wykład 6. Drzewa cz. II 1 / 65 drzewa spinające Drzewa spinające Zliczanie drzew spinających Drzewo T nazywamy drzewem rozpinającym (spinającym) (lub dendrytem) spójnego grafu G, jeżeli jest podgrafem
Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta
Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta www.michalbereta.pl Sieci radialne zawsze posiadają jedną warstwę ukrytą, która składa się z neuronów radialnych. Warstwa wyjściowa składa
Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu
Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu
W tym celu korzystam z programu do grafiki wektorowej Inkscape 0.46.
1. Wprowadzenie Priorytetem projektu jest zbadanie zależności pomiędzy wartościami średnich szybkości przemieszczeń terenu, a głębokością eksploatacji węgla kamiennego. Podstawowe dane potrzebne do wykonania
METODY INŻYNIERII WIEDZY
METODY INŻYNIERII WIEDZY Metoda K Najbliższych Sąsiadów K-Nearest Neighbours (KNN) ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
rozpoznawania odcisków palców
w algorytmie rozpoznawania odcisków palców Politechnika Łódzka Wydział Fizyki Technicznej, Informatyki i Matematyki Stosowanej 24 października 2008 Plan prezentacji 1 Wstęp 2 3 Metoda badań Wyniki badań
E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne
E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne Przypominajka: 152 drzewo filogenetyczne to drzewo, którego liśćmi są istniejące gatunki, a węzły wewnętrzne mają stopień większy niż jeden i reprezentują
Drzewa BST i AVL. Drzewa poszukiwań binarnych (BST)
Drzewa ST i VL Drzewa poszukiwań binarnych (ST) Drzewo ST to dynamiczna struktura danych (w formie drzewa binarnego), która ma tą właściwość, że dla każdego elementu wszystkie elementy w jego prawym poddrzewie
Projekt i implementacja systemu wspomagania planowania w języku Prolog
Projekt i implementacja systemu wspomagania planowania w języku Prolog Kraków, 29 maja 2007 Plan prezentacji 1 Wstęp Czym jest planowanie? Charakterystyka procesu planowania 2 Przeglad istniejacych rozwiazań
Rozdział 1 PROGRAMOWANIE LINIOWE
Wprowadzenie do badań operacyjnych z komputerem Opisy programów, ćwiczenia komputerowe i zadania. T. Trzaskalik (red.) Rozdział 1 PROGRAMOWANIE LINIOWE 1.2 Ćwiczenia komputerowe Ćwiczenie 1.1 Wykorzystując
ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH
1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Wnioskowanie statystyczne dla zmiennych numerycznych Porównywanie dwóch średnich Boot-strapping Analiza
Marcel Stankowski Wrocław, 23 czerwca 2009 INFORMATYKA SYSTEMÓW AUTONOMICZNYCH
Marcel Stankowski Wrocław, 23 czerwca 2009 INFORMATYKA SYSTEMÓW AUTONOMICZNYCH Przeszukiwanie przestrzeni rozwiązań, szukanie na ślepo, wszerz, w głąb. Spis treści: 1. Wprowadzenie 3. str. 1.1 Krótki Wstęp
ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH
1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Eksploracja danych Co to znaczy eksploracja danych Klastrowanie (grupowanie) hierarchiczne Klastrowanie
Optymalizacja parametrów w strategiach inwestycyjnych dla event-driven tradingu dla odczytu Australia Employment Change
Raport 4/2015 Optymalizacja parametrów w strategiach inwestycyjnych dla event-driven tradingu dla odczytu Australia Employment Change autor: Michał Osmoła INIME Instytut nauk informatycznych i matematycznych
Zad. 1 Zad. 2 Zad. 3 Zad. 4 Zad. 5 SUMA
Zad. 1 Zad. 2 Zad. 3 Zad. 4 Zad. 5 SUMA Zad. 1 (12p.)Niech n 3k > 0. Zbadać jaka jest najmniejsza możliwa liczba krawędzi w grafie, który ma dokładnie n wierzchołków oraz dokładnie k składowych, z których
WYKRESY SPORZĄDZANE W UKŁADZIE WSPÓŁRZĘDNYCH:
WYKRESY SPORZĄDZANE W UKŁADZIE WSPÓŁRZĘDNYCH: Zasada podstawowa: Wykorzystujemy możliwie najmniej skomplikowaną formę wykresu, jeżeli to możliwe unikamy wykresów 3D (zaciemnianie treści), uwaga na kolory
7. Maszyny wektorów podpierajacych SVMs
Algorytmy rozpoznawania obrazów 7. Maszyny wektorów podpierajacych SVMs dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Maszyny wektorów podpierajacych - SVMs Maszyny wektorów podpierających (ang.
Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych
Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych autor: Robert Drab opiekun naukowy: dr inż. Paweł Rotter 1. Wstęp Zagadnienie generowania trójwymiarowego
Co to jest grupowanie
Grupowanie danych Co to jest grupowanie 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Szukanie grup, obszarów stanowiących lokalne gromady punktów Co to jest grupowanie
Drzewa czerwono-czarne.
Binboy at Sphere http://binboy.sphere.p l Drzewa czerwono-czarne. Autor: Jacek Zacharek Wstęp. Pojęcie drzewa czerwono-czarnego (red-black tree) zapoczątkował Rudolf Bayer w książce z 1972 r. pt. Symmetric
Temat: Algorytm kompresji plików metodą Huffmana
Temat: Algorytm kompresji plików metodą Huffmana. Wymagania dotyczące kompresji danych Przez M oznaczmy zbiór wszystkich możliwych symboli występujących w pliku (alfabet pliku). Przykład M = 2, gdy plik
Elementy statystyki wielowymiarowej
Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych
Wprowadzenie do klasyfikacji
Wprowadzenie do klasyfikacji ZeroR Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F Tutaj jest więcej obiektów klasy T, więc klasyfikator
Indukowane Reguły Decyzyjne I. Wykład 8
Indukowane Reguły Decyzyjne I Wykład 8 IRD Wykład 8 Plan Powtórka Krzywa ROC = Receiver Operating Characteristic Wybór modelu Statystyka AUC ROC = pole pod krzywą ROC Wybór punktu odcięcia Reguły decyzyjne
Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.
Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Maja Czoków, Jarosław Piersa, Andrzej Rutkowski Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2018-10-15 Projekt
Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa
Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa Konrad Miziński 14 stycznia 2015 1 Temat projektu Grupowanie hierarchiczne na podstawie algorytmu k-średnich. 2 Dokumenty
SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska BUDOWA DRZEW DECYZYJNYCH Drzewa decyzyjne są metodą indukcyjnego
Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną
Testowanie hipotez statystycznych. Wnioskowanie statystyczne
Testowanie hipotez statystycznych Wnioskowanie statystyczne Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Hipotezy
Przewodnik użytkownika (instrukcja) AutoMagicTest
Przewodnik użytkownika (instrukcja) AutoMagicTest 0.1.21.137 1. Wprowadzenie Aplikacja AutoMagicTest to aplikacja wspierająca testerów w testowaniu i kontrolowaniu jakości stron poprzez ich analizę. Aplikacja
P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H
W O J S K O W A A K A D E M I A T E C H N I C Z N A W Y D Z I A Ł E L E K T R O N I K I Drukować dwustronnie P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H Grupa... Data wykonania
Matematyczne Podstawy Informatyki
Matematyczne Podstawy Informatyki dr inż. Andrzej Grosser Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Rok akademicki 2013/2014 Twierdzenie 2.1 Niech G będzie grafem prostym
Wykład 3: Prezentacja danych statystycznych
Wykład 3: Prezentacja danych statystycznych Dobór metody prezentacji danych Dobór metody prezentacji danych zależy od: charakteru danych statystycznych (inne metody wybierzemy dla danych przekrojowych,
Algorytmy genetyczne w interpolacji wielomianowej
Algorytmy genetyczne w interpolacji wielomianowej (seminarium robocze) Seminarium Metod Inteligencji Obliczeniowej Warszawa 22 II 2006 mgr inż. Marcin Borkowski Plan: Przypomnienie algorytmu niszowego