Konstruowanie klasykatorów reguªowych z niezrównowa»onych danych

Wielkość: px
Rozpocząć pokaz od strony:

Download "Konstruowanie klasykatorów reguªowych z niezrównowa»onych danych"

Transkrypt

1 Konstruowanie klasykatorów reguªowych z niezrównowa»onych danych Streszczenie rozprawy doktorskiej 1 Wst p 1.1 Kontekst pracy Rozprawa dotyczy problemu klasykacji, w którym celem jest przypisanie obiektu (przykªadu) do jednej z klas decyzyjnych. Przykªady opisane s za pomoc atrybutów warunkowych, które mog przyjmowa warto±ci liczbowe, porz dkowe lub nominalne. Dodatkowo, w przypadku uczenia nadzorowanego (którego dotyczy ta praca), dla przykªadów ucz cych znana jest warto± atrybutu decyzyjnego, okre±laj cego przydziaª przykªadu do klasy. Zadanie uczenia jest deniowane jako stworzenie klasykatora, który powinien jak najlepiej przewidywa warto± atrybutu decyzyjnego dla nowych obiektów w oparciu o warto±ci atrybutów warunkowych. Praca dotyczy konstruowania klasykatorów reguªowych, w których wiedza jest reprezentowana w postaci reguª decyzyjnych postaci je»eli (atrybuty warunkowe) to (decyzja) Zajmujemy si reprezentacj reguªow z kilku powodów. Po pierwsze, uwa»a si»e reprezentacja ta jest bardziej naturalna i czytelna dla czªowieka ni» inne reprezentacje, takie jak sieci neuronowe czy metoda wektorów wspieraj cych (ang. support vector machines). Ponadto, pojedyncze reguªy stanowi bloki wiedzy, które mog by analizowane niezale»nie. Intuicyjna reprezentacja wiedzy jest szczególnie przydatna w takich dziedzinach jak medycyna, nanse czy prawo, gdzie bardzo istotne jest by ekspert wykorzystuj cy klasykator rozumiaª decyzje przez niego podejmowane. Niniejsza rozprawa dotyczy problemu klasykacji nadzorowanej, gdy zbiór danych ucz cych jest niezrównowa»ony, to znaczy przykªady reprezentuj ce jedn z klas (tzw. klas mniejszo±ciow ) s du»o mniej liczniejsze ni» przykªady z pozostaªych klas (nazywanych klasami mniejszo±ciowymi ). Co wi cej, klasa mniejszo±ciowa jest zwykle wa»niejsza ni» pozostaªe klasy, to znaczy nierozpoznanie przykªadów mniejszo±ciowych ma du»o powa»niejsze konsekwencje dla u»ytkownika ni» powstanie tzw. faªszywego alarmu (gdy przykªad z klasy wi kszo±ciowej zostanie przypisany do klasy mniejszo±ciowej). 1

2 Zauwa»my,»e taka sytuacja wyst puje w wielu problemach uczenia. W zastosowaniach medycznych, celem uczenia mo»e by rozpoznanie rzadkiej choroby. Dane ucz ce, b d ce historycznymi danymi pacjentów, b d zawieraªy bardzo du»o opisów przypadków w których nie wykryto danej choroby, a tylko kilka opisów b dzie dotyczyªo pacjentów z jej rozpoznaniem. Jednocze±nie, niepoprawne zdiagnozowanie osoby chorej i niepodj cie leczenia jest bardziej krytyczne ni» rozpoznanie choroby u osoby zdrowej, u której diagnoza mo»e by skorygowana w trakcie kolejnych bada«. Podobna sytuacja ma miejsce w przypadku zastosowa«w bankowo±ci (wykrywanie nadu»y nansowych, wykrywanie niepoprawnych operacji wykonanych za pomoc kart kredytowych), diagnostyce technicznej (wykrywanie awarii) czy informatyce (ltrowanie dokumentów, wykrywanie spamu). Uczenie z niezrównowa»onych danych jest istotnym problemem badawczym, poniewa» klasyczne algorytmy ucz ce, które byªy tworzone przy zaªo»eniu»e klasy s w przybli»eniu równomiernie reprezentowane w danych, s nadmiernie ukierunkowane na rozpoznawanie klasy wi kszo±ciowej, pomijaj c klas mniejszo±ciow. W skrajnych przypadkach, klasykator przydziela wszystkie przykªady ucz ce do klasy wi kszo±ciowej. 1.2 Motywacje Wielu badaczy uwa»a,»e problem w uczeniu z takich danych nie wynika wyª cznie ze stopnia niezrównowa»enia liczno±ci klas. Zauwa»ono,»e je±li klasy s ªatwo separowalne, standardowe metody uczenia potra poprawnie nauczy si denicji obu klas bez wzgl du na stopie«niezrównowa»enia [11]. Dopiero gdy niezrównowa»enie wyst puje razem z innymi czynnikami zwi zanymi z rozkªadem danych, skuteczno± klasykatorów istotnie spada. Ponadto, spadek trafno±ci klasy- kowania jest obserwowany gªównie dla klasy mniejszo±ciowej. Dotychczas wyró»niono kilka czynników zwi zanych z rozkªadem danych, które w powi zaniu z niezrównowa»eniem powoduj trudno±ci w uczeniu, s to: nakªadanie si przykªadów z obu klas na granicy mi dzy klasami (tzw. overlapping), dekompozycja klasy mniejszo±ciowej na maªe podskupienia (tzw. small disjuncts) lub wyst powanie szumu (tzw. noisy examples). Wpªyw tych czynników na uczenie klasykatorów badano gªównie poprzez konstruowanie sztucznych zbiorów danych, w których rozkªad przykªadów ucz cych byª znany a priori. Jednak»e, nie istniej metody które pozwalaj przenie± obserwacje poczynione w tych studiach eksperymentalnych na grunt danych rzeczywistych, w których rozkªad przykªadów nie jest znany. Stworzenie metod umo»liwiaj cych oszacowanie rozkªadu danych w rzeczywistym zbiorze niezrównowa»onym pozwoliªoby, po pierwsze, potwierdzi»e wyró»nione w literaturze czynniki zwi zane z rozkªadem danych badane w pracach opartych o zbiory sztuczne, faktycznie wyst puj w rzeczywistych zbiorach danych. Po drugie, daªoby to mo»liwo± analizy zbioru przed podj ciem decyzji o wyborze odpowiedniego dla tego zbioru algorytmu ucz cego. Standardowe algorytmy ucz ce s wra»liwe na niezrównowa»enie danych. Dotyczy to równie» klasykatorów reguªowych [5]. Przypomnijmy,»e reprezen- 2

3 tacja reguªowa jest cz sto wykorzystywana w dziedzinach, w których interpretowalno± decyzji podejmowanych przez klasykator jest istotna, takich jak medycyna czy nanse. Jednocze±nie, s to dziedziny w których problem niezrównowa»enia klas jest cz sto obserwowany. Z tego powodu, zaproponowanie metod poprawiaj cych uczenie wªa±nie klasykatorów reguªowych z niezrównowa»onych danych jest wa»nym problemem badawczym. Istniej ce rozwi zania dedykowane dla tego typu danych s naszym zdaniem niewystarczaj ce, poniewa» nie bior pod uwag zªo»ono±ci problemu, zwi zanego z trudnymi rozkªadami w danych niezrównowa»onych. 1.3 Cele pracy Podstawowym celem pracy jest analiza czynników na poziomie danych i na poziomie algorytmów które utrudniaj uczenie z danych niezrównowa»onych oraz zaproponowanie na tej podstawie nowych metod konstruowania klasykatorów reguªowych, które poprawiaj uczenie z danych niezrównowa»onych. W ramach tego celu zdeniowano cztery cele szczegóªowe: 1. Analiza czynników na poziomie danych. Chocia» w literaturze mo»na znale¹ studia eksperymentalne analizuj ce wpªyw czynników na poziomie danych na metody uczenia, s one w wi kszo±ci przeprowadzone na sztucznych danych. Ponadto, niewiele studiów analizuje wpªyw ró»nych czynników jednocze±nie. W rozdziale 3 zostanie zaproponowana metoda oceny rozkªadu przykªadów w rzeczywistych zbiorach danych. Pozwala ona wyró»ni cztery typy przykªadów: przykªady typu safe, borderline, rare, outliers. Metoda oparta jest na analizie s siedztwa przykªadów mniejszo±ciowych. Ponadto, zostanie wykorzystana metody wizualizacji, oparta na projekcji zbiorów wielowymiarowych do dwóch wymiarów, do oceny rozkªadu przykªadów w zbiorze. Analizuj c w ten sposób kolekcj rzeczywistych zbiorów danych, zostanie pokazany wpªyw typów przykªadów na standardowe klasykatory. 2. Analiza czynników na poziomie algorytmów. W rozdziale 4 zostanie przeprowadzona analiza technik stosowanych w konstruowaniu klasykatorów reguªowych w kontek±cie danych niezrównowa»onych. Poka»emy,»e techniki wykorzystywane na wszystkich etapach uczenia, od metody sekwencyjnego pokrywania poprzez miary oceny reguª a» do wyboru strategii klasykacyjnych, mog powodowa nadmierne ukierunkowanie klasykatora na rozpoznawanie klasy wi kszo±ciowej. W tym rozdziale zostan równie» przeanalizowane istniej ce propozycje rozszerzenia algorytmów uczenia reguª, dedykowanych dla niezrównowa»onych danych. 3. Zaproponowanie nowego algorytmu uczenia reguª BRACID. Na podstawie analiz przeprowadzonych w ramach celów 1 i 2, w rozdziale 5 zaproponowano nowy algorytm ucz cy, który w bardziej kompleksowy sposób podchodzi do problemu uczenia z danych niezrównowa»onych, staraj c si odnie± do niego na wszystkich etapach uczenia. Cel ten zostaª 3

4 osi gni ty poprzez zastosowanie mi dzy innymi mniej zachªannej techniki przeszukiwania, rezygnacj z sekwencyjnego pokrywania, zmian miary oceny reguª, dostosowanie strategii klasykacyjnej oraz wzi cie pod uwag ró»nych typów przykªadów ucz cych i zmian sposobu przeszukiwania w zale»no±ci od typu przykªadu. Analiza eksperymentalna, przeprowadzona w rozdziale 6 i porównuj ca dziaªanie algorytmu BRACID ze standardowymi metodami uczenia jak równie» z podej±ciami dedykowanymi dla danych niezrównowa»onych, potwierdziªa skuteczno± tego podej±cia. Ponadto, wykorzystuj c metod analizy zbiorów zaproponowan w ramach celu 2, przeanalizowano zakres kompetencji zaproponowanego podej±cia. 4. Wykorzystanie wiedzy eksperckiej do uczenia z danych niezrównowa»onych. Wykorzystanie wiedzy eksperckiej w procesie uczenia pozwala konstruowa reguªy bardziej zgodne z wiedz dziedzinow. Wiedza ekspercka mo»e by szczególnie u»yteczna dla danych niezrównowa»onych, w których klasa mniejszo±ciowa jest niedoreprezentowana w danych, co utrudnia algorytmom ucz cym znalezienie poprawnej denicji tej klasy. W rozdziale 7 zaproponowane zostanie podej±cie, w którym ekspert mo»e dodatkowo uzasadni decyzj podj t dla wybranych, trudnych przykªadów ucz cych. Ten paradygmat nosi nazw argument-based learning. Uzasadnienia te s nast pnie uwzgl dniane w procesie indukcji reguª. Zaproponowany algorytm, ABMODLEM, jest rozszerzeniem istniej cego algorytmu uczenia reguª, MODLEM. Ponadto, zaproponujemy metod wyboru krytycznych przykªadów ucz cych, które powinny by uzasadnione przez eksperta, opart na rozwi zaniach z tzw. active learning. Analiza eksperymentalna przeprowadzona w rozdziale 8 potwierdziªa,»e wykorzystanie wiedzy eksperckiej poprawia rozpoznawanie klasy mniejszo±ciowej, nie powoduj c jednocze±nie pogorszenia rozpoznania klasy wi kszo±ciowej. Opublikowane wyniki Wi kszo± rozprawy zostaªa opublikowana, lub jest aktualnie w trakcie procesu recenzyjnego, w mi dzynarodowych czasopismach i wydawnictwach specjalistycznych. Wymieniono je poni»ej wraz z numerami rozdziaªów których dotycz. Rozdziaª 3: K. Napierala, J. Stefanowski, S. Wilk, Learning from imbalanced data in presence of noisy and borderline examples. Proceedings of the Conf. on Rough Sets and Current Trends in Computing, Lecture Notes in Computer Science, Springer Verlag 6086, K. Napierala, J. Stefanowski, Identication of Dierent Types of Minority Class Examples in Imbalanced Data. Proc. of the 7th International Conf. HAIS 2012, Lecture Notes in Computer Science, Springer 7209,

5 K. Napierala, J. Stefanowski, Types of Minority Class Distributions in Learning from Imbalanced Data. Wysªane do czasopisma IEEE Data and Knowledge Engineering Rozdziaª 4: K. Napierala, J. Stefanowski, Modications of Classication Strategies in Rule Set Based Bagging for Imbalanced Data. Proc. of the 7th International Conf. HAIS 2012, Lecture Notes in Computer Science, Springer 7209, Rozdziaªy 5 i 6: K. Napierala, J. Stefanowski, BRACID: a comprehensive approach to learning rules from imbalanced data. Journal of Intelligent Information Systems, Springer 2012, Volume 39, Number 2, Pages DOI /s Rozdziaªy 7 i 8: K. Napierala, J. Stefanowski, Argument Based Generalization of MODLEM Rule Induction. Proceedings of the Conf. on Rough Sets and Current Trends in Computing, Lecture Notes in Computer Science, Springer Verlag, vol. 6086, K. Napierala, J. Stefanowski, Addressing imbalanced data with argument based rule learning. Po rewizji w Computational Intelligence Journal W celu uªatwienia czytelnikowi polskoj zycznemu zapoznanie si z rozpraw, w kolejnych punktach omówiono pokrótce zawarto± i gªówne osi gni cia poszczególnych rozdziaªów. 2 Podstawowe poj cia w uczeniu z niezrównowa-»onych danych W rozdziale drugim przedstawiono podstawowe poj cia zwi zane z uczeniem z danych niezrównowa»onych. Rozdziaª 2.1 przedstawia wyró»nione w literaturze czynniki zwi zane z rozkªadem danych, które powoduj trudno±ci w uczeniu z danych niezrównowa»onych. Te czynniki to m.in.: Nakªadanie si przykªadów z obu klas w obszarze granicznym mi dzy klasami (ang. overlapping). Poniewa» przykªady z klasy mniejszo±ciowej s mniej licznie reprezentowane w tym obszarze, istnieje ryzyko»e klasykator przypisze caªy ten obszar do klasy wi kszo±ciowej [1, 8]. 5

6 Dekompozycja klasy mniejszo±ciowej na podskupienia (ang. small disjuncts). Podskupienia takie, zawieraj ce tylko kilka przykªadów ucz - cych, s charakterystyczne dla klasy mniejszo±ciowej i trudne do nauczenia [12, 15]. Wyst powanie szumu (ang. noise) i przypadków odstaj cych (ang. outliers). Szum, czyli nieprawidªowe obserwacje mog ce wynika z niepoprawnej warto±ci atrybutu decyzyjnego lub warunkowego, maj du»y wpªyw szczególnie na klas mniejszo±ciow. Niepoprawne przykªady wi kszo±ciowe, znajduj ce si w obszarze nale» cym do klasy mniejszo±ciowej, mog prowadzi do fragmentacji tego obszaru powoduj c dodatkow trudno± w uczeniu. Klasyczne metody radzenia sobie z szumem zwykle usuwaj takie przykªady ze zbioru ucz cego [3, 21]. Rozdziaª 2.2 zawiera krótki przegl d miar oceny klasykatorów. Pokazano w nim dlaczego standardowe miary oceny, takie jak globalna trafno±, s ukierunkowane na klas wi kszo±ciow i nie powinny by u»ywane w kontek±cie danych niezrównowa»onych. Nast pnie przedstawiono miary oceny dostosowane do problemu danych niezrównowa»onych, takie jak F-miara, G-mean, krzywe ROC, AUC. W rozdziale 2.3 dokonano przegl du metod dedykowanych dla niezrównowa»onych danych. Podzielono je na metody na poziomie danych i metody na poziomie algorytmów. Metody na poziomie danych maj na celu zmian rozkªadu w zbiorze ucz cym, tak aby móc na nim zastosowa standardowe metody uczenia. Podstawowe z nich polegaj na dodaniu do zbioru dodatkowych przykªadów mniejszo±ciowych (ang. oversampling methods) lub na usuni ciu cz ±ci przykªadów wi kszo±ciowych (ang. undersampling methods). Metody typu undersampling usuwaj losowo wybrane przykªady wi kszo±ciowe lub tylko niepotrzebne przykªady - na przykªad na podstawie analizy lokalnego s siedztwa usuwaj tylko trudne przykªady (metody NCR [13], ENN [23]). Metody typu oversampling dodaj do zbioru kopie przykªadów mniejszo±ciowych (kopiuj c losowo wybrane przykªady lub, na podstawie analizy s siedztwa, tylko trudne przykªady). Metoda SMOTE [4], uznawana za jedn ze skuteczniejszych metod na poziomie danych, dodaje do zbioru nowe, sztuczne przykªady. Istnieje równie» grupa tzw. metod hybrydowych, które jednocze±nie nadlosowuj klas mniejszo±ciow i usuwaj przykªady wi kszo±ciowe (SPIDER [18], SMOTE-ENN [1]). Metody na poziomie algorytmów wykorzystuj uczenie z kosztami (ang. cost-sensitive learning), zmian miar oceny stosowanych w budowie klasykatora lub zmian strategii klasykacyjnej, mniej zachªanne przeszukiwanie lub klasykatory zªo»one. 3 Typy przykªadów i ich wpªyw na uczenie klasy- katorów Rozdziaª 3 zawiera analiz wpªywu typów przykªadów na uczenie klasykatorów. Wyró»niono cztery typy przykªadów. Przykªady typu safe le» w jednorodnych 6

7 obszarach, w których znajduj si tylko przykªady z jednej klasy. Przykªady borderline (brzegowe) le» w pobli»u granicy mi dzy klasami, gdzie przykªady z obu klas mog si nakªada. Dodatkowo, zdecydowano si skupi na dwóch dodatkowych typach przykªadów, rare (rzadkie przypadki) i outlier (przypadki odstaj ce), które naszym zdaniem nie byªy wystarczaj co dobrze zbadane w literaturze. S to przykªady mniejszo±ciowe znajduj ce si w du»ej odlegªo±ci od skupie«nale» cych do klasy mniejszo±ciowej. Takie odstaj ce przykªady mniejszo±ciowe nie mog by naszym zdaniem uznane za szum (bª dne obserwacje). Jako»e klasa mniejszo±ciowa jest niedoreprezentowana w danych, takie przykªady mog stanowi poprawne, istotne dla denicji klasy, obserwacje. Pod poj ciem outlier rozumiemy pojedyncze odstaj ce przykªady, a pod poj ciem rare - odstaj ce przypadki tworz ce odizolowane grupy kilku przykªadów mniejszo±ciowych. W tym rozdziale zaproponowano metod analizy wyst powania tych czterech typów przykªadów w zbiorach rzeczywistych. Polega ona na analizie lokalnego s siedztwa przykªadów mniejszo±ciowych. Do pomiaru odlegªo±ci mi dzy przykªadami wykorzystano miar HVDM [24] i poprzez analiz literatury uzasadniono jej wybór wobec alternatywnych propozycji. Poprzez analiz klas przykªadów znajduj cych si w s siedztwie o rozmiarze 5, przykªady s przydzielane do jednego z czterech typów wedªug nast puj cej zasady: przykªad jest typu safe je±li co najmniej 4 jego s siadów jest z tej samej klasy; typu borderline, je±li liczba s siadów z obu klas w s siedztwie jest podobna, tzn. je±li przykªad ma 2 lub 3 s siadów ze swojej klasy; typu rare, je±li tylko jeden s siad jest z tej samej klasy, i on równie» nie ma w swoim s siedztwie innych przykªadów z tej klasy; w przeciwnym razie jest to przykªad typu borderline; typu outlier, je±li wszyscy s siedzi s z przeciwnej klasy. Mimo prostoty tej metody, pokazano»e poprawnie odwzorowuje ona rozkªad przykªadów w sztucznych zbiorach, w których rozkªad ten byª znany a-priori. Pokazano równie»,»e zmiana parametrów metody takich jak rozmiar s siedztwa, lub wykorzystanie zmiennego rozmiaru s siedztwa okre±lanego na podstawie funkcji j drowej (tzw. kernel approach), nie wpªywa znacz co na wynik metody. Ponadto, zaproponowano wykorzystanie metod wizualizacji zbioru do oceny rozkªadu przykªadów w zbiorze. Aby przedstawi rzeczywiste (wielowymiarowe) zbiory danych na pªaszczy¹nie dwuwymiarowej, zaproponowano u»ycie metod projekcji wymiarów za pomoc zaproponowanych w literaturze metod MDS (multi-dimensional scaling [6]) i t-sne (t-distributed Stochastic Neighbour Embedding [20]). Dla wybranych zbiorów rzeczywistych pokazano,»e analiza zbioru za pomoc wizualizacji pokrywa si wynikiem zaproponowanej metody. Wykorzystuj c zaproponowan metod analizy typów przykªadów, przeanalizowano rozkªad przykªadów w 21 niezrównowa»onych zbiorach rzeczywistych. 7

8 Analiza ta pokazaªa,»e wi kszo± zbiorów zawiera wszystkie cztery typy przykªadów mniejszo±ciowych. Tylko niewielka liczba zbiorów skªada si gªównie z przykªadów safe. W wielu zbiorach, przykªady typu borderline stanowi wi kszo± w klasie mniejszo±ciowej. Przykªady typu rare i outlier nie s tak liczne, ale cz sto stanowi 20-30% zbioru. W niektórych zbiorach przykªady typu outlier stanowi nawet ponad 50% przykªadów mniejszo±ciowych, co potwierdza hipotez»e uznanie ich za szum (i w konsekwencji usuni cie ze zbioru) mo»e uniemo»liwi poprawne nauczenie si denicji tej klasy. W kolejnym eksperymencie wykorzystano powy»sz analiz do oceny wpªywu typów przykªadów na uczenie podstawowych klasykatorów. W eksperymencie wykorzystano drzewa decyzyjne (J48), reguªy decyzyjne (PART), sieci neuronowe (RBF), algorytm k najbli»szych s siadów (1NN i 3NN) oraz metod wektorów wspieraj cych (SVM). Wyniki eksperymentu obliczeniowego pokazaªy,»e klasykatory te wykazuj ró»n wra»liwo± na te typy danych. Czynniki takie rozmiar zbioru czy stopie«niezrównowa»enia maj mniejsze znaczenie. Wi kszo± klasykatorów poprawnie rozpoznaje przykªady typu safe. Przykªady typu borderline s trudniejsze, a najlepszymi metodami dla nich wydaj si by SVM i RBF. Przykªady typu rare i outlier s trudne dla wi kszo±ci klasykatorów - RBF i SVM s bardzo wra»liwe na te dane, podczas gdy PART, 1NN i J48 potra (lecz w ograniczonym stopniu) rozpozna cz ± tych przykªadów. Analogiczn analiz eksperymentaln przeprowadzono dla metod wst pnego przetwarzania danych, dedykowanych dla zbiorów niezrównowa»onych. Porównano metody typu oversampling (losowe kopiowanie przykªadów RO oraz SMOTE), typu undersampling (NCR) oraz podej±cie hybrydowe (SPIDER). Metody typu undersampling dobrze sprawdzaªy si dla przykªadów typu borderline. Z kolei w przypadku przykªadów rare i outlier, metody typu oversampling byªy skuteczniejsze. Metoda SMOTE byªa najlepsz alternatyw dla przykªadów typu outlier, jednak mogªa powodowa du»e straty na klasie wi kszo±ciowej. Losowe kopiowanie przykªadów (RO) w najmniejszym stopniu poprawiaªo trafno± klasy- kacji, poza sieci neuronow (RBF) dla której ta metoda byªa bardziej skuteczna. Szegóªowe rezultaty mo»na znale¹ w rozprawie w Tabelach Uczenie klasykatorów reguªowych z niezrównowa»onych danych W rozdziale 4 dokonano przegl du technik wykorzystywanych w standardowych algorytmach indukcji reguª i pokazano ich ograniczenia w kontek±cie uczenia ze zbiorów niezrównowa»onych. W szczególno±ci, pokazano»e: Wi kszo± algorytmów wykorzystuje indukcj reguª w kierunku top-down, polegaj c na rozpoczynaniu od pustej reguªy i dodawaniu pojedynczo kolejnych warunków elementarnych, dopóki reguªa nie pokrywa tylko przykªadów z jednej klasy (mo»liwe s równie» inne kryteria stopu). Rzadkie, pojedyncze przypadki, charakterystyczne dla klasy mniejszo±ciowej, mog zale»e od wielu warunków elementarnych jednocze±nie, dlatego technika 8

9 dodawania warunków elementarnych do reguªy pojedynczo mo»e utrudnia znalezienie reguª dla takich przykªadów [22]. Miary wykorzystywane do oceny reguª i wyboru kolejnych warunków elementarnych przy ich budowie, oceniaj zwykle ogólno± i dokªadno± reguªy [22]. Jako»e klasa mniejszo±ciowa jest niedoreprezentowana w danych, budowanie dla niej ogólnych i dokªadnych reguª jest trudniejsze ni» dla klas wi kszo±ciowych. U»ywanie takich miar oceny mo»e wi c spowodowa,»e decyzja o doborze warunku elementarnego b dzie podejmowana gªownie w oparciu o przykªady wi kszo±ciowe, dyskryminuj c klas wi kszo±ciow. Zachªanna technika sekwencyjnego pokrywania (ang. sequential covering) polega na znajdowaniu pojedynczej reguªy i usuwaniu pokrywanych przez ni przykªadów z rozwa»anego zbioru. Technika ta sªu»y znajdowaniu minimalnego zbioru reguª pokrywaj cego przykªady ucz ce. Jednak w przypadku klasy mniejszo±ciowej, usuwanie przykªadów powoduje dalsz fragmentacj tych (rzadkich) danych. W rezultacie, kolejne generowane reguªy silnie zale» od dotychczasowych reguª. Ponadto, reguªy generowane jako ostatnie mog by niewiarygodne. Podczas klasykacji nowych przykªadów w algorytmach generuj cych nieuporz dkowany zbiór reguª, potrzebne s strategie klasykacyjne rozwi zuj ce sytuacje koniktowe w przypadku gdy wiele reguª pokrywa klasy- kowany przykªad, lub gdy»adna reguªa nie pokrywa tego przykªadu. W takiej sytuacji zwykle wykorzystuje si gªosowanie reguª b d cych w kon- ikcie z siª gªosu zale»n od ich miary oceny. W rozdziale 4 przeprowadzono analiz najbardziej typowych strategii klasykacyjnych i pokazano,»e mog one dyskryminowa klas mniejszo±ciow, zbyt cz sto przypisuj c przykªady do klasy wi kszo±ciowej. W dalszej cz ±ci tego rozdziaªu przedstawiono najwa»niejsze prace modykuj ce algorytmy uczenia reguª dla danych niezrównowa»onych. Wi kszo± tych propozycji polega na zmianie tylko wybranych technik opisanych powy»ej. Przykªadowo, modykuj one tylko miar oceny reguªy (modykacja CN2 [10]), rezygnuj z techniki sekwencyjnego pokrywania (RLSD [25], BRUTE [16], EX- PLORE [19]) lub zmieniaj strategi klasykacyjn (IIVOTES [2], strategia Grzymaªy [9]). Wreszcie, w tym rozdziale przedstawiono algorytmy indukcji reguª, które tworz klasykator zªo»ony zarówno z reguª decyzyjnych jak i pojedynczych przykªadów ucz cych. Pomimo tego»e rozwi zania te nie powstaªy z my±l o danych niezrównowa»onych, pokazali±my dlaczego mog one by skuteczne w uczeniu z takich danych. Najwa»niejszym reprezentatem tego podej±cia, na którym oparty jest algorytm zaproponowany w kolejnym rozdziale, jest algorytm RISE [7]. 9

10 5 Algorytm BRACID W rozdziale pi tym wprowadzono nowy algorytm uczenia reguª, BRACID, dedykowany dla danych niezrównowa»onych. Algorytm ten w caªo±ciowy sposób podchodzi do problemu danych niezrównowa»onych, odnosz c si do problemów na poziomie danych (wyszczególnionych w rozdziale 2) i na poziomie algorytmicznym (wskazanych w rozdziale 4). Jego podstawowe cechy to: Hybrydowa reprezentacja wiedzy, zªo»ona z reguª oraz pojedynczych przypadków, aby wykorzysta komplementarne zalety obu reprezentacji; reguªy reprezentuj jednolite, spójne obszary, podczas gdy pojedyncze przypadki opisuj przykªady odstaj ce, rzadkie oraz skomplikowane granice mi dzy klasami. Wykorzystanie mniej zachªannej techniki przeszukiwania w kierunku bottomup, w której reguªy generowane s poprzez stopniowe uogólnianie przykªadów ucz cych do najbli»szych s siadów z tej samej klasy, oraz rezygnacja z techniki sekwencyjnego pokrywania poprzez nieusuwanie pokrytych przykªadów ucz cych ze zbioru. Mo»e to zapobiec fragmentacji danych i uªatwi znajdowanie opisu dla maªych grup przykªadów (tzw. small disjuncts). Wykorzystanie miary oceny reguª dostosowanej do problemu danych niezrównowa»onych (F-miary), tak aby nie dyskryminowa klasy mniejszo±ciowej podczas oceny i akceptacji reguª. U»ycie strategii klasykacyjnej opartej na najbli»szej regule, aby zmniejszy dominacj reguª wi kszo±ciowych podczas rozstrzygania sytuacji koniktowych w klasykowaniu nowych przykªadów. Wykrywanie i usuwanie odstaj cych przykªadów wi kszo±ciowych, które mo»na uzna za szum, aby zapobiec fragmentacji klasy mniejszo±ciowej. Analizowanie jednocze±nie kilku mo»liwych generalizacji reguªy mniejszo±ciowej w spójnych obszarach (reprezentowanych przez przykªady typu safe) i wybór najlepszej z nich, aby zmniejszy problem niedoreprezentowania tej klasy w zbiorze ucz cym. Konstruowanie wi kszej liczby reguª w obszarach nakªadania si klas (reprezentowanych przez przykªady borderline) poprzez generalizowanie reguªy do kilku najbli»szych s siadów, aby zmniejszy dominacj reguª wi kszo±ciowych w tym regionie. Po» dan cech zaproponowanego rozwi zania jest konstrukcja reguª wyª cznie w oparciu o istniej ce przykªady ucz ce, bez modykowania zbioru ucz cego na przykªad poprzez wprowadzenie sztucznych przykªadów. Reguªy tworzone przez BRACID s dzi ki temu potencjalnie bardziej wiarygodne i zrozumiaªe dla eksperta z danej dziedziny. 10

11 6 BRACID - studium eksperymentalne Zaproponowany algorytm BRACID zostaª przetestowany i porównany na drodze analizy eksperymentalnej z innymi rozwi zaniami reguªowymi na kolekcji 22 rzeczywistych zbiorów danych. Wykonane eksperymenty i ich wyniki przedstawiono pokrótce poni»ej. Ocena wpªywu poszczególnych skªadników zaproponowanego algorytmu (takich jak strategia klasykacyjna, usuwanie odstaj cych przykªadów wi kszo±ciowych) pokazaªa,»e ka»dy z elementów skªadowych nowego algorytmu przyczynia si do zwi kszenia trafno±ci klasykowania klasy mniejszo±ciowej oraz poprawy agreguj cych miar takich jak F-miara i G- mean. Porównano algorytm BRACID ze standardowymi klasykatorami regu- ªowymi (tj. C45rules, CN2, PART, RIPPER, MODLEM), z rozwi zaniem bazowym zaproponowanego algorytmu (RISE) oraz z algorytmem reprezentuj cym uczenie z przykªadów (instance-based learning), czyli k- NN. Tabela 6.1 pokazuje porównanie trafno±ci klasykacji w klasie mniejszo±ciowej. Przeprowadzenie testu Friedmanna i analizy pot-hoc wykazaªo,»e BRACID znacz co przewy»sza algorytm bazowy (RISE), podej±cie instance-based learning oraz klasyczne algorytmy reguªowe na wszystkich miarach oceny. Drugim najlepszym rozwi zaniem byl algorytm PART. Porównano BRACID z rozwi zaniami dedykowanymi dla danych niezrównowa»onych (algorytmem MODLEM-C modykuj cym strategi klasy- kacyjn, algorytmem RISE który mo»na uzna za bardziej dostosowany do danych niezrównowa»onych ni» standardowe podej±cia, oraz najlepszym wedªug poprzedniego eksperymentu klasykatorem reguªowym PART po- ª czonym z metodami na poziomie danych - SMOTE i SMOTE-ENN). Wyniki eksperymentu ponownie wykazaªy wy»szo± algorytmu BRACID. Jedynie ró»nica mi dzy nim a poª czeniem PART i SMOTE-ENN nie byªa statystycznie istotna. Analiza zbioru reguª pokazaªa,»e BRACID tworzy wi cej reguª dla klasy mniejszo±ciowej ni» inne algorytmy konstruuj ce nieuporz dkowany zbiór reguª. Jednocze±nie, reguªy te pokrywaj ±rednio wi cej przykªadów ucz - cych. W rezultacie mog one bardziej efektywnie uczestniczy w procesie klasykacji nowych przykªadów. Ostatni eksperyment miaª na celu okre±lenie zakresu kompetencji algorytmu BRACID z punktu widzenia typów przykªadów mniejszo±ciowych. Zauwa»ono,»e BRACID poprawia rozpoznanie wszystkich czterech typów przykªadów, jednak najwi ksz popraw obserwowano dla przykªadów typu borderline. Przykªady typu rare oraz, w szczególno±ci, outlier, byªy nieznacznie lepiej rozpoznawane przez poª czenia algorytmu PART z ze SMOTE- ENN. 11

12 Tablica 6.1: Rozpoznawanie klasy mniejszo±ciowej (Sensitivity) Zbiór BRACID RISE knn C45rules CN2 Part Ripper Modlem AB AP BS BC BW CA CL CM CG EC FL HA HE IO NT PI PO SP SF TR VE YE Algorytm ABMODLEM W przypadku gdy klasa mniejszo±ciowa charakteryzuje si trudnym rozkªadem danych - jest podzielona na mniejsze podskupienia, granica mi dzy jest skomplikowana lub wyst puj rzadkie i odstaj ce przykªady - standardowe (automatyczne) metody ucz ce maj trudno±ci ze znalezieniem poprawnych denicji reprezentuj cych takie dane. Jak wskazano w [22], wykorzystanie wiedzy eksperckiej mo»e by u»yteczne dla klasy mniejszo±ciowej i rzadkich przykªadów. Wiedza ekspercka pozwala tworzy reguªy zgodne nie tylko z przykªadami ucz cymi, ale tak»e z wiedz dziedzinow (ang. domain knowledge). W rozdziale 7 zaproponowano algorytm indukcji reguª wykorzystuj cy wiedz dziedzinow do poprawy uczenia z danych niezrównowa»onych. Wi kszo± literaturowych rozwi za«opiera si na zaªo»eniu,»e ekspert wyra»a wiedz globaln, obowi zuj c w caªej dziedzinie - na przykªad okre±laj c zale»no±ci mi dzy atrybutami, które musz by prawdziwe dla wszystkich przykªadów ucz cych. Poniewa» przykªady mniejszo±ciowe s cz sto nietypowe i bardzo specyczne, wyra»enie wiedzy globalnej mo»e by bardzo trudne lub niemo»liwe. Z tego powodu, w zaproponowanym rozwi zaniu zdecydowano si wykorzys- 12

13 ta podej±cie oparte na lokalnej wiedzy, która mo»e obowi zywa tylko dla wybranych przykªadów. W tym podej±ciu, ekspert mo»e dodatkowo wyja±ni, na podstawie których atrybutów warunkowych zostaªa podj ta decyzja dla wybranego, trudnego przykªadu (podaj c tzw. argumenty pozytywne). Mo»e równie» poda, które warto±ci atrybutów zaprzeczaj podj tej decyzji (podaj c argumenty negatywne). Argumenty te s nast pnie uwzgl dniane w procesie indukcji reguª. Podczas konstruowania reguªy pokrywaj cej przykªad, który zostaª dodatkowo uzupeªniony argumentacj eksperta, algorytm stara si zapewni aby skªadana cz ± warunkowa reguªy byªa oparta na atrybutach podanych w argumentach pozytywnych i jednocze±nie nie wykorzystywaªa atrybutów wymienionych w argumentach negatywnych. Lokalno± wiedzy polega tu na tym,»e argumentacja ta nie jest brana pod uwag podczas tworzenia pozostaªych reguª. Idea eksperckich uzasadnie«lokalnych przypadków pochodzi z pracy [14]. Zaproponowany algorytm (ABMODLEM) jest rozszerzeniem istniej cego algorytmu reguªowego, MODLEM [17], który byª wykorzystywany wcze±niej w kontek±cie niezrównowa»enia danych. Algorytm ten rozszerzono o uwzgl dnianie argumentów podanych przez eksperta podczas indukcji. Dostosowano równie» miar oceny reguª, aby reguªy konstruowane z argumentów byªy bardziej ogólne i pokrywaªy mo»liwie du» liczb pozostaªych przykªadów, w tym tych niewyja±nionych przez eksperta. Ponadto, zaproponowano now strategi klasykacyjn, aby zwi kszy wpªyw argumentowanych reguª na podejmowanie decyzji dla nowych przykªadów. Istotn cz ±ci tego rozwi zania jest metoda wyznaczania trudnych przykªadów, które powinny by uzasadnione przez eksperta. Celem byªo zaproponowanie metody, która wyznacza niewielk liczb przykªadów, istotnych z punktu widzenia uczenia w takim sensie,»e podanie dla nich eksperckich uzasadnie«poprawi trafno± klasykacji. Pierwsze rozwi zanie zaproponowane w pracy (CV) opiera si na 10-krotnie powtórzonej ocenie krzy»owej i wyborze przykªadów o najwi kszej liczbie niepoprawnych klasykacji. Wst pna analiza eksperymentalna pokazaªa,»e metoda ta mo»e wskazywa zbyt du»o przykªadów o takiej samej (maksymalnej) liczbie niepoprawnych klasykacji. Dlatego zaproponowano drugie rozwi zanie (DoC), inspirowane metodami aktywnego uczenia (ang. active learning). Opiera si ono na rodzinie typu bagging klasy- katorów skªadowych (zbudowanych algorytmem MODLEM), zbudowanych na niezale»nych próbkach danych, które gªosuj w celu podj cia wspólnej decyzji dla ka»dego przykªadu ucz cego. Je±li ró»nica mi dzy liczb wskaza«pierwszej i kolejnej klasy jest maªa, przykªad jest uznawany za trudny i rekomendowany do wyja±nienia przez eksperta. Procedura powtarzana jest 10-krotnie i przykªady najcz ±ciej rekomendowane przekazywane s do eksperta. Wst pna analiza eksperymentalna pokazaªa,»e metoda DoC ma tendecj do wybierania gªównie przykªadów mniejszo±ciowych, co mo»e powodowa nadmierne ukierunkowanie klasykatora ABMODLEM na t klas. Modykacja tej metody (DoC-b), stara si wybra równie» pewn liczb trudnych przykªadów wi kszo±ciowych, aby zapewni bardziej zrównowa»one zachowanie klasykatora. 13

14 8 ABMODLEM - studium eksperymentalne W studium eksperymentalnym przebadano wpªyw argumentacji przykªadów na trafno± klasykacji, ze szczególnym uwzgl dnieniem klasy mniejszo±ciowej. Nast pnie, przeanalizowano liczb przykªadów wskazywanych przez 3 metody identykacji trudnych przykªadów (CV, DoC, DoC-b), oraz wpªyw wyboru przykªadów uzasadnianych przez eksperta na trafno± klasykacji. Ocena eksperymentalna zostaªa przeprowadzona na 4 rzeczywistych niezrównowa»onych zbiorach danych o intuicyjnych dziedzinach, dla których mo»liwe byªo samodzielne tworzenie uzasadnie«przykªadów bez udziaªu eksperta dziedzinowego. Wreszcie, oceniono skalowalno± algorytmu ABMODLEM, badaj c czy wraz ze wrostem liczby przykªadów ucz cych, liczba przypadków przekazywanych do uzasadnienia musi rosn analogicznie aby przynie± popraw trafno±ci klasykowania. Najwa»niejsze wnioski z eksperymentów byªy nast puj ce: Wykorzystanie wiedzy eksperckiej zawsze poprawia rozpoznanie klasy mniejszo±ciowej. Zastosowanie nowej miary oceny i nowej strategii klasykacyjnej dodatkowo podnosi globaln trafno± klasykatora. Co istotne, obserwowana poprawa na klasie mniejszo±ciowej nie wi»e si z obni»eniem trafno±ci klasykowania przykªadów wi kszo±ciowych, co jest ograniczeniem wi kszo±ci automatycznych metod uczenia. W rezultacie, ABMODLEM poprawia tak»e globaln trafno± klasykacji w stosunku do MODLEM, przy czym istotno± ró»nic zostaªa potwierdzona za pomoc testów statystycznych. Porównanie metod wyboru trudnych przykªadów wykazaªo wy»szo± podej± DoC nad metod CV - metody te wskazywaªy du»o mniejsz liczb przykªadów, których uzasadnienie prowadziªo do porównywalnej poprawy trafno±ci klasykacji. Rozkªad trudnych przykªadów w klasach ma wpªyw na trafno± klasy- kacji. Metoda DoC, wybieraj ca gªównie przykªady mniejszo±ciowe, prowadzi do najwi kszej poprawy trafno±ci w tej klasie, ale mo»e pogarsza rozpoznanie klasy wi kszo±ciowej. Metoda DoC-b równowa»y rozpoznawanie obu klas, utrzymuj c trafno± klasykacji w klasie wi kszo±ciowej przy (nieznacznie mniejszej w porównaniu do DoC) poprawie klasy mniejszo±ciowej. Wraz ze wzrostem zbioru ucz cego, liczba przykªadów które warto argumentowa nie wzrasta - po uzasadnieniu pewnej liczby przykªadów, trafno± klasykatora stabilizuje si. Oznacza to,»e zaproponowany algorytm mo»e by stosowany równie» dla wi kszych zbiorów. 9 Podsumowanie i wnioski W pracy rozwa»ano problem konstruowania klasykatorów reguªowych z niezrównowa»onych danych. Autorka rozprawy s dzi,»e gªówny cel pracy, a tak»e 14

15 cele szczegóªowe zdeniowane w rozdziale 1, zostaªy osi gni te. Poni»ej wymieniono gªówne osi gni cia pracy. 1. Przeprowadzono analiz czynników zwi zanych z rozkªadem danych w zbiorach niezrównowa»onych, które powoduj trudno±ci w uczeniu. W tym celu wyró»niono i przebadano wpªyw czterech typów przykªadów ucz cych (safe, borderline, rare, outlier). Ponadto, zaproponowano metod identykacji tych przykªadów w rzeczywistych, wielowymiarowych zbiorach danych. Metoda oparta jest na analizie najbli»szego s siedztwa przykªadów. Przykªady przydzielane s do jednego z czterech typów na podstawie rozkªadu s siadów w klasach. Pokazano równie» zastosowanie metod wizualizacji danych (MDS i t-sne) do oceny rozkªadu przykªadów w zbiorze. Analiza kolekcji zbiorów niezrównowa»onych wykonana przy pomocy obu metod wykazaªa interesuj ce wªasno±ci zbiorów niezrównowa»onych. Przykªady typu safe rzadko wyst puj w klasie mniejszo±ciowej. Przykªady typu borderline s obserwowane w wi kszo±ci zbiorów i mog stanowi wi cej ni» poªow klasy mniejszo±ciowej. Przykªady typu rare i outlier tak»e mog stanowi znaczn cz ± zbioru. Porównano równie» dziaªanie popularnych klasykatorów (J48, PART, RBF, 1NN, 3NN, SVM) oraz metod na poziomie danych (RO, NCR, SMOTE, SPIDER) z uwzgl dnieniem typów przykªadów mniejszo±ciowych. Zaproponowana metoda analizy zbiorów rzeczywistych umo»liwia: wskazanie najbardziej obiecuj cych kierunków rozwoju nowych metod dedykowanych dla danych niezrównowa»onych; analiz kompetencji istniej cych oraz nowo-proponowanych metod uczenia; pomoc w doborze odpowiednich algorytmów ucz cych dla zadanego problemu ucz cego. 2. Przeprowadzono systematyczn analiz technik wykorzystywanych w standardowych algorytmach reguªowych, które mog powodowa trudno±ci w uczeniu z danych niezrównowa»onych. Dokonano tak»e przegl du literaturowych rozwi za«poprawy klasykatorów reguªowych oraz przeprowadzono krytyczn dyskusj ich zalet i ogranicze«. 3. Zaproponowano nowy algorytm uczenia reguª, BRACID, dedykowany dla danych niezrównowa»onych, który zostaª skonstruowany w oparciu o obserwacje poczynione w ramach analizy z punktów 1 i 2. Analiza eksperymentalna wykazaªa skuteczno± tego podej±cia z punktu widzenia rozpoznawania klasy mniejszo±ciowej oraz miar G-mean i F-miary. BRACID poprawia rozpoznanie wszystkich czterech typów przykªadów zdeniowanych w punkcie 1, jednak jest on szczególnie dobrze dostosowany do zbiorów z du» liczb przykªadów borderline. 4. Zaproponowano nowy algorytm uczenia, ABMODLEM, wykorzystuj cy wiedz eksperck do poprawy indukcji reguª z danych niezrównowa»onych. 15

16 Wa»n cz ±ci tego rozwi zania jest zaproponowanie metod automatycznego wyboru kluczowych trudnych przykªadów, które powinny by uzasadnione przez eksperta. Algorytm ABMODLEM mo»e by szczególnie przydatny dla zbiorów z du» liczb przykªadów typu rare i outlier, które stanowi istotn trudno± dla automatycznych metod uczenia. Co wa»ne, poprawa trafno±ci w klasie mniejszo±ciowej nie odbywa si kosztem rozpoznawania przykªadów wi kszo±ciowych, co jest cech praktycznie wszystkich podej± w peªni automatycznych. Literatura [1] G. Batista, R. C. Prati, and M. C. Monard. A study of the behavior of several methods for balancing machine learning training data. ACM SIGKDD Explorations Newsletter, 6(1):2029, [2] J. Blaszczynski, M. Deckert, J. Stefanowski, and Sz. Wilk. Integrating selective pre-processing of imbalanced data with ivotes ensemble. In Proceedings of the RSCTC'10 Conference, volume 6086 of LNAI, pages Springer Verlag, [3] C. E. Brodley and M. A. Friedl. Identifying mislabeled training data. Journal of Articial Intelligence Research, 11:131167, [4] N. V. Chawla, K. W. Bowyer, L. O. Hall, and W. P. Kegelmeyer. SMOTE: synthetic minority over-sampling technique. J. Artif. Int. Res. (JAIR), 16:321357, [5] D. A. Cieslak and N. V. Chawla. Learning decision trees for unbalanced data. In Proceedings of the 2008 European Conference on Machine Learning and Knowledge Discovery in Databases - Part I, ECML PKDD'08, pages , Berlin, Heidelberg, Springer-Verlag. [6] T. Cox and M. Cox. Multidimensional Scaling. Chapman and Hall, [7] P. Domingos. Unifying instance-based and rule-based induction. Machine Learning, 24:141168, [8] V. Garcia, J. Sanchez, and R. Mollineda. An empirical study of the behavior of classiers on imbalanced and overlapped data sets. In Proc. of CIARP'07, volume 4756 of LNCS, pages , [9] J. W. Grzymala-Busse, L. K. Goodwin, W. J. Grzymala-Busse, and X. Zheng. An approach to imbalanced data sets based on changing rule strength. In Proceedings of Learning from Imbalanced Data Sets, AAAI Workshop at the 17th Conference on AI, pages 6974,

17 [10] R. C. Holte, L. E. Acker, and B. W. Porter. Concept learning and the problem of small disjuncts. In Proceedings of the Eleventh International Joint Conference on Articial Intelligence, pages , [11] N. Japkowicz. Class imbalance: Are we focusing on the right issue? In Proceedings of 2nd Workshop on Learning from Imbalanced Data Sets (ICML), pages 1723, [12] T. Jo and N. Japkowicz. Class imbalances versus small disjuncts. ACM SIGKDD Explorations Newsletter, 6(1):4049, [13] J. Laurikkala. Improving identication of dicult small classes by balancing class distribution. Technical report, University of Tampere, [14] M. Mozina, I. Bratko, and J. Zabkar. Argument based machine learning. Ariticial Intelligence Journal, 171: [15] R. C. Prati, G. Batista, and M. C. Monard. Learning with class skews and small disjuncts. In Proc. of SBIA'04, pages , [16] P. Riddle, R. Segal, and O. Etzioni. Representation design and brute-force induction in a boeing manufacturing design. Applied Articial Intelligence, (8):125147, [17] J. Stefanowski. Rough set based rule induction techniques for classication problems. In Proceedings of 6th European Congress on Intelligent Techniques and Soft Computing, volume 1, pages , [18] J. Stefanowski and Sz. Wilk. Selective pre-processing of imbalanced data for improving classication performance. In Proceedings of the 10th Int. Conf. DaWaK, volume 5182 of LNCS, pages Springer, [19] J. Stefanowski and Sz. Wilk. Extending rule-based classiers to improve recognition of imbalanced classes. In Z. Ras and A. Dardzinska, editors, Advances in Data Management, volume 223 of Studies in Computational Intelligence, pages Springer Berlin/Heidelberg, [20] L. van der Maaten and G. Hinton. Visualizing data using t-sne. Journal of Machine Learning Research, 9: , [21] J. Van Hulse, T. M. Khoshgoftaar, and A. Napolitano. A novel noise ltering algorithm for imbalanced data. In ICMLA'10, pages 914, [22] G. M. Weiss. Mining with rarity: a unifying framework. ACM SIGKDD Explorations Newsletter, 6 (1):719, [23] D. L. Wilson. Asymptotic properties of nearest neighbor rules using edited data. IEEE Transactions on Systems, Man, and Communications, 3(2):408421,

18 [24] D. R. Wilson and T. R. Martinez. Improved heterogeneous distance functions. J. Artif. Intell. Res. (JAIR), 6:134, [25] J. Zhang, E. Bloedorn, L. Rosen, and D. Venese. Learning rules from highly unbalanced data sets. In Proceedings of the Fourth IEEE International Conference on Data Mining (ICDM '04), pages IEEE Computer Society,

Łączenie indukcji reguł i uczenia z przykładów dla niezrównoważonych klas. Krystyna Napierała Jerzy Stefanowski

Łączenie indukcji reguł i uczenia z przykładów dla niezrównoważonych klas. Krystyna Napierała Jerzy Stefanowski Łączenie indukcji reguł i uczenia z przykładów dla niezrównoważonych klas Krystyna Napierała Jerzy Stefanowski Plan prezentacji Źródła trudności w uczeniu z danych niezrównoważonych (przypomnienie) Indukcja

Bardziej szczegółowo

ANALIZA NUMERYCZNA. Grzegorz Szkibiel. Wiosna 2014/15

ANALIZA NUMERYCZNA. Grzegorz Szkibiel. Wiosna 2014/15 ANALIZA NUMERYCZNA Grzegorz Szkibiel Wiosna 2014/15 Spis tre±ci 1 Metoda Eulera 3 1.1 zagadnienia brzegowe....................... 3 1.2 Zastosowanie ró»niczki...................... 4 1.3 Output do pliku

Bardziej szczegółowo

Eksploracja Danych. Wprowadzenie. (c) Marcin Sydow

Eksploracja Danych. Wprowadzenie. (c) Marcin Sydow Wprowadzenie Proponowane podr czniki T.Hastie, R.Tibshirani et al. An Introduction to Statistical Learning I.Witten et al. Data Mining S.Marsland Machine Learning J.Koronacki, J.Mielniczuk Statystyka dla

Bardziej szczegółowo

Przykªady problemów optymalizacji kombinatorycznej

Przykªady problemów optymalizacji kombinatorycznej Przykªady problemów optymalizacji kombinatorycznej Problem Komiwoja»era (PK) Dane: n liczba miast, n Z +, c ji, i, j {1,..., n}, i j odlegªo± mi dzy miastem i a miastem j, c ji = c ij, c ji R +. Zadanie:

Bardziej szczegółowo

przewidywania zapotrzebowania na moc elektryczn

przewidywania zapotrzebowania na moc elektryczn do Wykorzystanie do na moc elektryczn Instytut Techniki Cieplnej Politechnika Warszawska Slide 1 of 20 do Coraz bardziej popularne staj si zagadnienia zwi zane z prac ¹ródªa energii elektrycznej (i cieplnej)

Bardziej szczegółowo

Uczenie Wielowarstwowych Sieci Neuronów o

Uczenie Wielowarstwowych Sieci Neuronów o Plan uczenie neuronu o ci gªej funkcji aktywacji uczenie jednowarstwowej sieci neuronów o ci gªej funkcji aktywacji uczenie sieci wielowarstwowej - metoda propagacji wstecznej neuronu o ci gªej funkcji

Bardziej szczegółowo

EDUKARIS - O±rodek Ksztaªcenia

EDUKARIS - O±rodek Ksztaªcenia - O±rodek Ksztaªcenia Zabrania si kopiowania i rozpowszechniania niniejszego regulaminu przez inne podmioty oraz wykorzystywania go w dziaªalno±ci innych podmiotów. Autor regulaminu zastrzega do niego

Bardziej szczegółowo

1 Bª dy i arytmetyka zmiennopozycyjna

1 Bª dy i arytmetyka zmiennopozycyjna 1 Bª dy i arytmetyka zmiennopozycyjna Liczby w pami ci komputera przedstawiamy w ukªadzie dwójkowym w postaci zmiennopozycyjnej Oznacza to,»e s one postaci ±m c, 01 m < 1, c min c c max, (1) gdzie m nazywamy

Bardziej szczegółowo

Metodydowodzenia twierdzeń

Metodydowodzenia twierdzeń 1 Metodydowodzenia twierdzeń Przez zdanie rozumiemy dowolne stwierdzenie, które jest albo prawdziwe, albo faªszywe (nie mo»e by ono jednocze±nie prawdziwe i faªszywe). Tradycyjnie b dziemy u»ywali maªych

Bardziej szczegółowo

Lab. 02: Algorytm Schrage

Lab. 02: Algorytm Schrage Lab. 02: Algorytm Schrage Andrzej Gnatowski 5 kwietnia 2015 1 Opis zadania Celem zadania laboratoryjnego jest zapoznanie si z jednym z przybli»onych algorytmów sªu» cych do szukania rozwi za«znanego z

Bardziej szczegółowo

Podstawy modelowania w j zyku UML

Podstawy modelowania w j zyku UML Podstawy modelowania w j zyku UML dr hab. Bo»ena Wo¹na-Szcze±niak Akademia im. Jan Dªugosza bwozna@gmail.com Wykªad 2 Zwi zki mi dzy klasami Asocjacja (ang. Associations) Uogólnienie, dziedziczenie (ang.

Bardziej szczegółowo

Listy i operacje pytania

Listy i operacje pytania Listy i operacje pytania Iwona Polak iwona.polak@us.edu.pl Uniwersytet l ski Instytut Informatyki pa¹dziernika 07 Który atrybut NIE wyst puje jako atrybut elementów listy? klucz elementu (key) wska¹nik

Bardziej szczegółowo

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15 ARYTMETYKA MODULARNA Grzegorz Szkibiel Wiosna 2014/15 Spis tre±ci 1 Denicja kongruencji i jej podstawowe wªasno±ci 3 2 Systemy pozycyjne 8 3 Elementy odwrotne 12 4 Pewne zastosowania elementów odwrotnych

Bardziej szczegółowo

Rozszerzenia klasyfikatorów złożonych dla danych niezrównoważonych

Rozszerzenia klasyfikatorów złożonych dla danych niezrównoważonych klasyfikatorów złożonych dla danych niezrównoważonych Marcin Szajek Politechnika Poznańska, Instytut Informatyki 23.04.2013 Marcin Szajek Rozsz. klas. złoż. dla danych niezrównoważonych 1 / 30 Plan prezentacji

Bardziej szczegółowo

Metody numeryczne i statystyka dla in»ynierów

Metody numeryczne i statystyka dla in»ynierów Kierunek: Automatyka i Robotyka, II rok Wprowadzenie PWSZ Gªogów, 2009 Plan wykªadów Wprowadzenie, podanie zagadnie«, poj cie metody numerycznej i algorytmu numerycznego, obszar zainteresowa«i stosowalno±ci

Bardziej szczegółowo

Ekonometria Bayesowska

Ekonometria Bayesowska Ekonometria Bayesowska Wykªad 9: Metody numeryczne: MCMC Andrzej Torój 1 / 17 Plan wykªadu Wprowadzenie 1 Wprowadzenie 3 / 17 Plan prezentacji Wprowadzenie 1 Wprowadzenie 3 3 / 17 Zastosowanie metod numerycznych

Bardziej szczegółowo

Wzorce projektowe kreacyjne

Wzorce projektowe kreacyjne Wzorce projektowe kreacyjne Krzysztof Ciebiera 14 pa¹dziernika 2005 1 1 Wst p 1.1 Podstawy Opis Ogólny Podstawowe informacje Wzorce kreacyjne sªu» do uabstrakcyjniania procesu tworzenia obiektów. Znaczenie

Bardziej szczegółowo

Ekonometria Bayesowska

Ekonometria Bayesowska Ekonometria Bayesowska Wykªad 6: Bayesowskie ª czenie wiedzy (6) Ekonometria Bayesowska 1 / 21 Plan wykªadu 1 Wprowadzenie 2 Oczekiwana wielko± modelu 3 Losowanie próby modeli 4 wiczenia w R (6) Ekonometria

Bardziej szczegółowo

MiASI. Modelowanie systemów informatycznych. Piotr Fulma«ski. 18 stycznia Wydziaª Matematyki i Informatyki, Uniwersytet Šódzki, Polska

MiASI. Modelowanie systemów informatycznych. Piotr Fulma«ski. 18 stycznia Wydziaª Matematyki i Informatyki, Uniwersytet Šódzki, Polska MiASI Modelowanie systemów informatycznych Piotr Fulma«ski Wydziaª Matematyki i Informatyki, Uniwersytet Šódzki, Polska 18 stycznia 2010 Spis tre±ci 1 Analiza systemu informatycznego Poziomy analizy 2

Bardziej szczegółowo

i, lub, nie Cegieªki buduj ce wspóªczesne procesory. Piotr Fulma«ski 5 kwietnia 2017

i, lub, nie Cegieªki buduj ce wspóªczesne procesory. Piotr Fulma«ski 5 kwietnia 2017 i, lub, nie Cegieªki buduj ce wspóªczesne procesory. Piotr Fulma«ski Uniwersytet Šódzki, Wydziaª Matematyki i Informatyki UŠ piotr@fulmanski.pl http://fulmanski.pl/zajecia/prezentacje/festiwalnauki2017/festiwal_wmii_2017_

Bardziej szczegółowo

MiASI. Modelowanie analityczne. Piotr Fulma«ski. 18 stycznia Wydziaª Matematyki i Informatyki, Uniwersytet Šódzki, Polska

MiASI. Modelowanie analityczne. Piotr Fulma«ski. 18 stycznia Wydziaª Matematyki i Informatyki, Uniwersytet Šódzki, Polska MiASI Modelowanie analityczne Piotr Fulma«ski Wydziaª Matematyki i Informatyki, Uniwersytet Šódzki, Polska 18 stycznia 2010 Spis tre±ci 1 Czym jest modelowanie analityczne? 2 Podstawowe kategorie poj ciowe

Bardziej szczegółowo

Przyrostowe uczenie reguª oraz wykorzystanie detekcji zmian w blokowych klasykatorach zªo»onych do przetwarzania danych strumieniowych

Przyrostowe uczenie reguª oraz wykorzystanie detekcji zmian w blokowych klasykatorach zªo»onych do przetwarzania danych strumieniowych Przyrostowe uczenie reguª oraz wykorzystanie detekcji zmian w blokowych klasykatorach zªo»onych do przetwarzania danych strumieniowych Magdalena Deckert Wydziaª Informatyki Politechnika Pozna«ska Rozprawa

Bardziej szczegółowo

Ekonometria - wykªad 8

Ekonometria - wykªad 8 Ekonometria - wykªad 8 3.1 Specykacja i werykacja modelu liniowego dobór zmiennych obja±niaj cych - cz ± 1 Barbara Jasiulis-Goªdyn 11.04.2014, 25.04.2014 2013/2014 Wprowadzenie Ideologia Y zmienna obja±niana

Bardziej szczegółowo

WST P DO TEORII INFORMACJI I KODOWANIA. Grzegorz Szkibiel. Wiosna 2013/14

WST P DO TEORII INFORMACJI I KODOWANIA. Grzegorz Szkibiel. Wiosna 2013/14 WST P DO TEORII INFORMACJI I KODOWANIA Grzegorz Szkibiel Wiosna 203/4 Spis tre±ci Kodowanie i dekodowanie 4. Kodowanie a szyfrowanie..................... 4.2 Podstawowe poj cia........................

Bardziej szczegółowo

Programowanie wspóªbie»ne

Programowanie wspóªbie»ne 1 Zadanie 1: Bar Programowanie wspóªbie»ne wiczenia 6 monitory cz. 2 Napisz monitor Bar synchronizuj cy prac barmana obsªuguj cego klientów przy kolistym barze z N stoªkami. Ka»dy klient realizuje nast

Bardziej szczegółowo

Granular Computing 9999 pages 15 METODY SZTUCZNEJ INTELIGENCJI - PROJEKTY

Granular Computing 9999 pages 15 METODY SZTUCZNEJ INTELIGENCJI - PROJEKTY Granular Computing 9999 pages 15 METODY SZTUCZNEJ INTELIGENCJI - PROJEKTY PB 2 PB 1 Projekt z wyznaczania reduktów zbioru Liczba osób realizuj cych projekt: 1-2 osoby 1. Wczytanie danych w formatach arf,

Bardziej szczegółowo

Metody bioinformatyki (MBI)

Metody bioinformatyki (MBI) Metody bioinformatyki (MBI) Wykªad 9 - mikromacierze DNA, analiza danych wielowymiarowych Robert Nowak 2016Z Metody bioinformatyki (MBI) 1/42 mikromacierze DNA Metoda badawcza, pozwalaj ca bada obecno±

Bardziej szczegółowo

Metody dowodzenia twierdze«

Metody dowodzenia twierdze« Metody dowodzenia twierdze«1 Metoda indukcji matematycznej Je±li T (n) jest form zdaniow okre±lon w zbiorze liczb naturalnych, to prawdziwe jest zdanie (T (0) n N (T (n) T (n + 1))) n N T (n). 2 W przypadku

Bardziej szczegółowo

Elementarna statystyka Dwie próby: porównanie dwóch proporcji (Two-sample problem: comparing two proportions)

Elementarna statystyka Dwie próby: porównanie dwóch proporcji (Two-sample problem: comparing two proportions) Elementarna statystyka Dwie próby: porównanie dwóch proporcji (Two-sample problem: comparing two proportions) Alexander Bendikov Uniwersytet Wrocªawski 25 maja 2016 Elementarna statystyka Dwie próby: porównanie

Bardziej szczegółowo

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15 ARYTMETYKA MODULARNA Grzegorz Szkibiel Wiosna 2014/15 Spis tre±ci 1 Denicja kongruencji i jej podstawowe wªasno±ci 3 2 Systemy pozycyjne 8 3 Elementy odwrotne 12 4 Pewne zastosowania elementów odwrotnych

Bardziej szczegółowo

Model obiektu w JavaScript

Model obiektu w JavaScript 16 marca 2009 E4X Paradygmat klasowy Klasa Deniuje wszystkie wªa±ciwo±ci charakterystyczne dla wybranego zbioru obiektów. Klasa jest poj ciem abstrakcyjnym odnosz cym si do zbioru, a nie do pojedynczego

Bardziej szczegółowo

2 Liczby rzeczywiste - cz. 2

2 Liczby rzeczywiste - cz. 2 2 Liczby rzeczywiste - cz. 2 W tej lekcji omówimy pozostaªe tematy zwi zane z liczbami rzeczywistymi. 2. Przedziaªy liczbowe Wyró»niamy nast puj ce rodzaje przedziaªów liczbowych: (a) przedziaªy ograniczone:

Bardziej szczegółowo

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15 ARYTMETYKA MODULARNA Grzegorz Szkibiel Wiosna 2014/15 Spis tre±ci 1 Denicja kongruencji i jej podstawowe wªasno±ci 3 2 Systemy pozycyjne 8 3 Elementy odwrotne 12 4 Pewne zastosowania elementów odwrotnych

Bardziej szczegółowo

Macierze. 1 Podstawowe denicje. 2 Rodzaje macierzy. Denicja

Macierze. 1 Podstawowe denicje. 2 Rodzaje macierzy. Denicja Macierze 1 Podstawowe denicje Macierz wymiaru m n, gdzie m, n N nazywamy tablic liczb rzeczywistych (lub zespolonych) postaci a 11 a 1j a 1n A = A m n = [a ij ] m n = a i1 a ij a in a m1 a mj a mn W macierzy

Bardziej szczegółowo

Eksploracja Danych. (c) Marcin Sydow. Wst p. Data Science. Wprowadzenie. Cykl eksperymentu. Uczenie maszynowe. Zasoby.

Eksploracja Danych. (c) Marcin Sydow. Wst p. Data Science. Wprowadzenie. Cykl eksperymentu. Uczenie maszynowe. Zasoby. Wprowadzenie Zawarto± wykªadu wst p cykl eksperymentu uczenie zasoby podsumowanie Zawarto± kursu Kurs eksploracji danych mo»na podzieli na nast puj ce cz ±ci: 1 zagadnienia zwi zane z przygotowaniem i

Bardziej szczegółowo

DREAM5 Challenges. Metody i rezultaty. Praktyki wakacyjne 2010 sesja sprawozdawcza

DREAM5 Challenges. Metody i rezultaty. Praktyki wakacyjne 2010 sesja sprawozdawcza DREAM5 Challenges Metody i rezultaty Julia Herman-I»ycka Jacek Jendrej Praktyki wakacyjne 2010 sesja sprawozdawcza Plan prezentacji 1 Czym jest uczenie maszynowe 2 Motywacja i sformuªowanie problemów 3

Bardziej szczegółowo

W zadaniach na procenty wyró»niamy trzy typy czynno±ci: obliczanie, jakim procentem jednej liczby jest druga liczba,

W zadaniach na procenty wyró»niamy trzy typy czynno±ci: obliczanie, jakim procentem jednej liczby jest druga liczba, 2 Procenty W tej lekcji przypomnimy sobie poj cie procentu i zwi zane z nim podstawowe typy zada«. Prosimy o zapoznanie si z regulaminem na ostatniej stronie. 2.1 Poj cie procentu Procent jest to jedna

Bardziej szczegółowo

Jednowarstwowe Sieci Neuronowe jako. klasykatory do wielu klas. (c) Marcin Sydow

Jednowarstwowe Sieci Neuronowe jako. klasykatory do wielu klas. (c) Marcin Sydow Plan dyskretny perceptron i jego ograniczenia inne funkcje aktywacji wielo-klasykacja przy pomocy jedno-warstwowe sieci neuronowej ograniczenia jedno-warstwowej sieci neuronowej miary ewaluacyjne dla klasykacji

Bardziej szczegółowo

Wnioskowanie Boolowskie i teoria zbiorów przybli»onych

Wnioskowanie Boolowskie i teoria zbiorów przybli»onych Wnioskowanie Boolowskie i teoria zbiorów przybli»onych 4 Zbiory przybli»one Wprowadzenie do teorii zbiorów przybli»onych Zªo»ono± problemu szukania reduktów 5 Wnioskowanie Boolowskie w obliczaniu reduktów

Bardziej szczegółowo

Uczenie Maszynowe: Wprowadzenie. (c) Marcin Sydow

Uczenie Maszynowe: Wprowadzenie. (c) Marcin Sydow Plan Dane Eksploracja danych i uczenie maszynowe: motywacja Na czym polega uczenie z danych Tablice decyzyjne: atrybuty i obserwacje z nadzorem i bez nadzoru Klasykacja i regresja Przykªady Dane: Motywacja

Bardziej szczegółowo

AUTO-ENKODER JAKO SKŠADNIK ARCHITEKTURY DEEP LEARNING

AUTO-ENKODER JAKO SKŠADNIK ARCHITEKTURY DEEP LEARNING AUTO-ENKODER JAKO SKŠADNIK ARCHITEKTURY DEEP LEARNING Magdalena Wiercioch Uniwersytet Jagiello«ski 3 kwietnia 2014 Plan Uczenie gª bokie (deep learning) Auto-enkodery Rodzaje Zasada dziaªania Przykªady

Bardziej szczegółowo

c Marcin Sydow Przepªywy Grafy i Zastosowania Podsumowanie 12: Przepªywy w sieciach

c Marcin Sydow Przepªywy Grafy i Zastosowania Podsumowanie 12: Przepªywy w sieciach 12: w sieciach Spis zagadnie«sieci przepªywowe przepªywy w sieciach ±cie»ka powi kszaj ca tw. Forda-Fulkersona Znajdowanie maksymalnego przepªywu Zastosowania przepªywów Sieci przepªywowe Sie przepªywowa

Bardziej szczegółowo

5. (8 punktów) EGZAMIN MAGISTERSKI, r Matematyka w ekonomii i ubezpieczeniach

5. (8 punktów) EGZAMIN MAGISTERSKI, r Matematyka w ekonomii i ubezpieczeniach Matematyka w ekonomii i ubezpieczeniach ( Niezale»ne szkody maja rozkªady P (X i = k) = exp( 1)/k!, P (Y i = k) = 4+k ) k (1/3) 5 (/3) k, k = 0, 1,.... Niech S = X 1 +... + X 500 + Y 1 +... + Y 500. Skªadka

Bardziej szczegółowo

POLITECHNIKA WROCŠAWSKA WYDZIAŠ ELEKTRONIKI PRACA DYPLOMOWA MAGISTERSKA

POLITECHNIKA WROCŠAWSKA WYDZIAŠ ELEKTRONIKI PRACA DYPLOMOWA MAGISTERSKA POLITECHNIKA WROCŠAWSKA WYDZIAŠ ELEKTRONIKI Kierunek: Specjalno± : Automatyka i Robotyka (AIR) Robotyka (ARR) PRACA DYPLOMOWA MAGISTERSKA Podatny manipulator planarny - budowa i sterowanie Vulnerable planar

Bardziej szczegółowo

Wst p do sieci neuronowych 2010/2011 wykªad 7 Algorytm propagacji wstecznej cd.

Wst p do sieci neuronowych 2010/2011 wykªad 7 Algorytm propagacji wstecznej cd. Wst p do sieci neuronowych 2010/2011 wykªad 7 Algorytm propagacji wstecznej cd. M. Czoków, J. Piersa Faculty of Mathematics and Computer Science, Nicolaus Copernicus University, Toru«, Poland 2010-11-23

Bardziej szczegółowo

Podstawy modelowania w j zyku UML

Podstawy modelowania w j zyku UML Podstawy modelowania w j zyku UML dr hab. Bo»ena Wo¹na-Szcze±niak Akademia im. Jan Dªugosza bwozna@gmail.com Wykªad 8 Diagram pakietów I Diagram pakietów (ang. package diagram) jest diagramem strukturalnym,

Bardziej szczegółowo

WST P DO TEORII INFORMACJI I KODOWANIA. Grzegorz Szkibiel. Wiosna 2013/14

WST P DO TEORII INFORMACJI I KODOWANIA. Grzegorz Szkibiel. Wiosna 2013/14 WST P DO TEORII INFORMACJI I KODOWANIA Grzegorz Szkibiel Wiosna 2013/14 Spis tre±ci 1 Kodowanie i dekodowanie 4 1.1 Kodowanie a szyfrowanie..................... 4 1.2 Podstawowe poj cia........................

Bardziej szczegółowo

Macierze i Wyznaczniki

Macierze i Wyznaczniki dr Krzysztof yjewski Mechatronika; S-I.in». 5 pa¹dziernika 6 Macierze i Wyznaczniki Kilka wzorów i informacji pomocniczych: Denicja. Tablic nast puj cej postaci a a... a n a a... a n A =... a m a m...

Bardziej szczegółowo

Wykªad 4. Funkcje wielu zmiennych.

Wykªad 4. Funkcje wielu zmiennych. Wykªad jest prowadzony w oparciu o podr cznik Analiza matematyczna 2. Denicje, twierdzenia, wzory M. Gewerta i Z. Skoczylasa. Wykªad 4. Funkcje wielu zmiennych. Zbiory na pªaszczy¹nie i w przestrzeni.

Bardziej szczegółowo

Macierze i Wyznaczniki

Macierze i Wyznaczniki Macierze i Wyznaczniki Kilka wzorów i informacji pomocniczych: Denicja 1. Tablic nast puj cej postaci a 11 a 12... a 1n a 21 a 22... a 2n A =... a m1 a m2... a mn nazywamy macierz o m wierszach i n kolumnach,

Bardziej szczegółowo

CAŠKOWANIE METODAMI MONTE CARLO Janusz Adamowski

CAŠKOWANIE METODAMI MONTE CARLO Janusz Adamowski III. CAŠKOWAIE METODAMI MOTE CARLO Janusz Adamowski 1 1 azwa metody Podstawowym zastosowaniem w zyce metody Monte Carlo (MC) jest opis zªo-»onych ukªadów zycznych o du»ej liczbie stopni swobody. Opis zªo»onych

Bardziej szczegółowo

Matematyka dyskretna dla informatyków

Matematyka dyskretna dla informatyków UNIWERSYTET IM. ADAMA MICKIEWICZA W POZNANIU Jerzy Jaworski, Zbigniew Palka, Jerzy Szyma«ski Matematyka dyskretna dla informatyków uzupeænienia Pozna«007 A Notacja asymptotyczna Badaj c du»e obiekty kombinatoryczne

Bardziej szczegółowo

Ukªady równa«liniowych

Ukªady równa«liniowych dr Krzysztof yjewski Mechatronika; S-I 0 in» 7 listopada 206 Ukªady równa«liniowych Informacje pomocnicze Denicja Ogólna posta ukªadu m równa«liniowych z n niewiadomymi x, x, x n, gdzie m, n N jest nast

Bardziej szczegółowo

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów Łukasz Piątek, Jerzy W. Grzymała-Busse Katedra Systemów Ekspertowych i Sztucznej Inteligencji, Wydział Informatyki

Bardziej szczegółowo

Wykªad 7. Ekstrema lokalne funkcji dwóch zmiennych.

Wykªad 7. Ekstrema lokalne funkcji dwóch zmiennych. Wykªad jest prowadzony w oparciu o podr cznik Analiza matematyczna 2. Denicje, twierdzenia, wzory M. Gewerta i Z. Skoczylasa. Wykªad 7. Ekstrema lokalne funkcji dwóch zmiennych. Denicja Mówimy,»e funkcja

Bardziej szczegółowo

Wzorce projektowe strukturalne cz. 1

Wzorce projektowe strukturalne cz. 1 Wzorce projektowe strukturalne cz. 1 Krzysztof Ciebiera 19 pa¹dziernika 2005 1 1 Wst p 1.1 Podstawowe wzorce Podstawowe wzorce Podstawowe informacje Singleton gwarantuje,»e klasa ma jeden egzemplarz. Adapter

Bardziej szczegółowo

Bash i algorytmy. Elwira Wachowicz. 20 lutego

Bash i algorytmy. Elwira Wachowicz. 20 lutego Bash i algorytmy Elwira Wachowicz elwira@ifd.uni.wroc.pl 20 lutego 2012 Elwira Wachowicz (elwira@ifd.uni.wroc.pl) Bash i algorytmy 20 lutego 2012 1 / 16 Inne przydatne polecenia Polecenie Dziaªanie Przykªad

Bardziej szczegółowo

1 Przypomnienie wiadomo±ci ze szkoªy ±redniej. Rozwi zywanie prostych równa«i nierówno±ci

1 Przypomnienie wiadomo±ci ze szkoªy ±redniej. Rozwi zywanie prostych równa«i nierówno±ci Zebraª do celów edukacyjnych od wykªadowców PK, z ró»nych podr czników Maciej Zakarczemny 1 Przypomnienie wiadomo±ci ze szkoªy ±redniej Rozwi zywanie prostych równa«i nierówno±ci dotycz cych funkcji elementarnych,

Bardziej szczegółowo

Projekt konceptualny z Baz Danych "Centralny system zarz dzania salami na AGH"

Projekt konceptualny z Baz Danych Centralny system zarz dzania salami na AGH Projekt konceptualny z Baz Danych "Centralny system zarz dzania salami na AGH" Autorzy: Adrian Stanula Grzegorz Stopa Mariusz Sasko Data: 14 XI 2008 rok Spis tre±ci 1 Sformuªowanie zadania projektowego.

Bardziej szczegółowo

Rozkªady i warto± oczekiwana

Rozkªady i warto± oczekiwana Rozkªady i warto± oczekiwana Piotr Wilkin Zmienne losowe i rozkªady. Wst p Zmienn losow nazywamy zmienn X przyjmuj c dowolne warto±ci z pewnego zbioru D, która speªnia wªasno± y D P (X = y) = (innymi sªowy

Bardziej szczegółowo

WFiIS Imi i nazwisko: Rok: Zespóª: Nr wiczenia: Fizyka Dominik Przyborowski IV 5 22 J drowa Katarzyna Wolska

WFiIS Imi i nazwisko: Rok: Zespóª: Nr wiczenia: Fizyka Dominik Przyborowski IV 5 22 J drowa Katarzyna Wolska WFiIS Imi i nazwisko: Rok: Zespóª: Nr wiczenia: Fizyka Dominik Przyborowski IV 5 22 J drowa Katarzyna Wolska Temat wiczenia: Wyznaczanie stosunku przekrojów czynnych na aktywacj neutronami termicznymi

Bardziej szczegółowo

Janusz Adamowski METODY OBLICZENIOWE FIZYKI Zastosowanie eliptycznych równa«ró»niczkowych

Janusz Adamowski METODY OBLICZENIOWE FIZYKI Zastosowanie eliptycznych równa«ró»niczkowych Janusz Adamowski METODY OBLICZENIOWE FIZYKI 1 Rozdziaª 9 RÓWNANIA ELIPTYCZNE 9.1 Zastosowanie eliptycznych równa«ró»niczkowych cz stkowych 9.1.1 Problemy z warunkami brzegowymi W przestrzeni dwuwymiarowej

Bardziej szczegółowo

1 Klasy. 1.1 Denicja klasy. 1.2 Skªadniki klasy.

1 Klasy. 1.1 Denicja klasy. 1.2 Skªadniki klasy. 1 Klasy. Klasa to inaczej mówi c typ który podobnie jak struktura skªada si z ró»nych typów danych. Tworz c klas programista tworzy nowy typ danych, który mo»e by modelem rzeczywistego obiektu. 1.1 Denicja

Bardziej szczegółowo

Regulamin ustalania wysoko±ci, przyznawania i wypªacania stypendium za wyniki w nauce dla doktorantów MIMUW v4.3

Regulamin ustalania wysoko±ci, przyznawania i wypªacania stypendium za wyniki w nauce dla doktorantów MIMUW v4.3 Regulamin ustalania wysoko±ci, przyznawania i wypªacania stypendium za wyniki w nauce dla doktorantów MIMUW v4.3 1 grudnia 2007 Komentarze s pisane kursyw. 1. Doktoranci s dzieleni na kategorie pod wzgl

Bardziej szczegółowo

Granular Computing 9999 pages 15 METODY SZTUCZNEJ INTELIGENCJI - PROJEKTY

Granular Computing 9999 pages 15 METODY SZTUCZNEJ INTELIGENCJI - PROJEKTY Granular Computing 9999 pages 15 METODY SZTUCZNEJ INTELIGENCJI - PROJEKTY PB 2 PB 1 Projekt z grupowania danych - Rough k-medoids Liczba osób realizuj cych projekt: 1 osoba 1. Wczytanie danych w formatach

Bardziej szczegółowo

Wyra»enia logicznie równowa»ne

Wyra»enia logicznie równowa»ne Wyra»enia logicznie równowa»ne Denicja. Wyra»enia rachunku zda«nazywamy logicznie równowa»nymi, gdy maj równe warto±ci logiczne dla dowolnych warto±ci logicznych zmiennych zdaniowych. 1 Przykªady: Wyra»enia

Bardziej szczegółowo

Zbiory i odwzorowania

Zbiory i odwzorowania Zbiory i odwzorowania 1 Sposoby okre±lania zbiorów 1) Zbiór wszystkich elementów postaci f(t), gdzie t przebiega zbiór T : {f(t); t T }. 2) Zbiór wszystkich elementów x zbioru X speªniaj cych warunek ϕ(x):

Bardziej szczegółowo

Arytmetyka zmiennopozycyjna

Arytmetyka zmiennopozycyjna Rozdziaª 4 Arytmetyka zmiennopozycyjna Wszystkie obliczenia w octavie s wykonywane w arytmetyce zmiennopozycyjnej (inaczej - arytmetyce ) podwójnej precyzji (double) - cho w najnowszych wersjach octave'a

Bardziej szczegółowo

Strategia czy intuicja?

Strategia czy intuicja? Strategia czy intuicja czyli o grach niesko«czonych Instytut Matematyki Uniwersytetu Warszawskiego Grzegorzewice, 29 sierpnia 2009 Denicja gry Najprostszy przypadek: A - zbiór (na ogóª co najwy»ej przeliczalny),

Bardziej szczegółowo

Metody numeryczne i statystyka dla in»ynierów

Metody numeryczne i statystyka dla in»ynierów Kierunek: Automatyka i Robotyka, II rok Interpolacja PWSZ Gªogów, 2009 Interpolacja Okre±lenie zale»no±ci pomi dzy interesuj cymi nas wielko±ciami, Umo»liwia uproszczenie skomplikowanych funkcji (np. wykorzystywana

Bardziej szczegółowo

x y x y x y x + y x y

x y x y x y x + y x y Algebra logiki 1 W zbiorze {0, 1} okre±lamy dziaªania dwuargumentowe,, +, oraz dziaªanie jednoargumentowe ( ). Dziaªanie x + y nazywamy dodawaniem modulo 2, a dziaªanie x y nazywamy kresk Sheera. x x 0

Bardziej szczegółowo

Programowanie wspóªbie»ne

Programowanie wspóªbie»ne 1 Programowanie wspóªbie»ne wiczenia 5 monitory cz. 1 Zadanie 1: Stolik dwuosobowy raz jeszcze W systemie dziaªa N par procesów. Procesy z pary s nierozró»nialne. Ka»dy proces cyklicznie wykonuje wªasnesprawy,

Bardziej szczegółowo

Wykªad 6: Model logitowy

Wykªad 6: Model logitowy Wykªad 6: Model logitowy Ekonometria Stosowana SGH Model logitowy 1 / 18 Plan wicze«1 Modele zmiennej jako±ciowej idea 2 Model logitowy Specykacja i interpretacja parametrów Dopasowanie i restrykcje 3

Bardziej szczegółowo

Liniowe zadania najmniejszych kwadratów

Liniowe zadania najmniejszych kwadratów Rozdziaª 9 Liniowe zadania najmniejszych kwadratów Liniowe zadania najmniejszych kwadratów polega na znalezieniu x R n, który minimalizuje Ax b 2 dla danej macierzy A R m,n i wektora b R m. Zauwa»my,»e

Bardziej szczegółowo

A = n. 2. Ka»dy podzbiór zbioru sko«czonego jest zbiorem sko«czonym. Dowody tych twierdze«(elementarne, lecz nieco nu» ce) pominiemy.

A = n. 2. Ka»dy podzbiór zbioru sko«czonego jest zbiorem sko«czonym. Dowody tych twierdze«(elementarne, lecz nieco nu» ce) pominiemy. Logika i teoria mnogo±ci, konspekt wykªad 12 Teoria mocy, cz ± II Def. 12.1 Ka»demu zbiorowi X przyporz dkowujemy oznaczany symbolem X obiekt zwany liczb kardynaln (lub moc zbioru X) w taki sposób,»e ta

Bardziej szczegółowo

Ekonometria. wiczenia 1 Regresja liniowa i MNK. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Ekonometria. wiczenia 1 Regresja liniowa i MNK. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej Ekonometria wiczenia 1 Regresja liniowa i MNK (1) Ekonometria 1 / 25 Plan wicze«1 Ekonometria czyli...? 2 Obja±niamy ceny wina 3 Zadania z podr cznika (1) Ekonometria 2 / 25 Plan prezentacji 1 Ekonometria

Bardziej szczegółowo

Wst p do sieci neuronowych, wykªad 14 Zespolone sieci neuronowe

Wst p do sieci neuronowych, wykªad 14 Zespolone sieci neuronowe Wst p do sieci neuronowych, wykªad 14 Zespolone sieci neuronowe M. Czoków, J. Piersa Faculty of Mathematics and Computer Science, Nicolaus Copernicus University, Toru«, Poland 2011-18-02 Motywacja Liczby

Bardziej szczegółowo

Modele wielorównaniowe. Problem identykacji

Modele wielorównaniowe. Problem identykacji Modele wielorównaniowe. Problem identykacji Ekonometria Szeregów Czasowych SGH Identykacja 1 / 43 Plan wykªadu 1 Wprowadzenie 2 Trzy przykªady 3 Przykªady: interpretacja 4 Warunki identykowalno±ci 5 Restrykcje

Bardziej szczegółowo

Numeryczne zadanie wªasne

Numeryczne zadanie wªasne Rozdziaª 11 Numeryczne zadanie wªasne W tym rozdziale zajmiemy si symetrycznym zadaniem wªasnym, tzn. zadaniem znajdowania warto±ci i/lub wektorów wªasnych dla macierzy symetrycznej A = A T. W zadaniach

Bardziej szczegółowo

Zarz dzanie rm. Zasada 2: samoorganizuj ce si zespoªy. Piotr Fulma«ski. March 17, 2015

Zarz dzanie rm. Zasada 2: samoorganizuj ce si zespoªy. Piotr Fulma«ski. March 17, 2015 Zarz dzanie rm Zasada 2: samoorganizuj ce si zespoªy Piotr Fulma«ski Instytut Nauk Ekonomicznych i Informatyki, Pa«stwowa Wy»sza Szkoªa Zawodowa w Pªocku, Polska March 17, 2015 Table of contents Ludzie

Bardziej szczegółowo

Ciaªa i wielomiany. 1 Denicja ciaªa. Ciaªa i wielomiany 1

Ciaªa i wielomiany. 1 Denicja ciaªa. Ciaªa i wielomiany 1 Ciaªa i wielomiany 1 Ciaªa i wielomiany 1 Denicja ciaªa Niech F b dzie zbiorem, i niech + (dodawanie) oraz (mno»enie) b d dziaªaniami na zbiorze F. Denicja. Zbiór F wraz z dziaªaniami + i nazywamy ciaªem,

Bardziej szczegółowo

Podstawy statystycznego modelowania danych - Wykªad 7

Podstawy statystycznego modelowania danych - Wykªad 7 Podstawy statystycznego modelowania danych - Wykªad 7 Tomasz Suchocki ANOVA Plan wykªadu Analiza wariancji 1. Rys historyczny 2. Podstawy teoretyczne i przykªady zastosowania 3. ANOVA w pakiecie R Tomasz

Bardziej szczegółowo

1 Metody iteracyjne rozwi zywania równania f(x)=0

1 Metody iteracyjne rozwi zywania równania f(x)=0 1 Metody iteracyjne rozwi zywania równania f()=0 1.1 Metoda bisekcji Zaªó»my,»e funkcja f jest ci gªa w [a 0, b 0 ]. Pierwiastek jest w przedziale [a 0, b 0 ] gdy f(a 0 )f(b 0 ) < 0. (1) Ustalmy f(a 0

Bardziej szczegółowo

Lekcja 8 - ANIMACJA. 1 Polecenia. 2 Typy animacji. 3 Pierwsza animacja - Mrugaj ca twarz

Lekcja 8 - ANIMACJA. 1 Polecenia. 2 Typy animacji. 3 Pierwsza animacja - Mrugaj ca twarz Lekcja 8 - ANIMACJA 1 Polecenia Za pomoc Baltiego mo»emy tworzy animacj, tzn. sprawia by obraz na ekranie wygl daª jakby si poruszaª. Do animowania przedmiotów i tworzenia animacji posªu» nam polecenia

Bardziej szczegółowo

Systemy decyzyjne Wykªad 5: Drzewa decyzyjne

Systemy decyzyjne Wykªad 5: Drzewa decyzyjne Nguyen Hung Son () W5: Drzewa decyzyjne 1 / 38 Systemy decyzyjne Wykªad 5: Drzewa decyzyjne Nguyen Hung Son Przykªad: klasyfikacja robotów Nguyen Hung Son () W5: Drzewa decyzyjne 2 / 38 Przykªad: drzewo

Bardziej szczegółowo

MODEL HAHNFELDTA I IN. ANGIOGENEZY NOWOTWOROWEJ Z UWZGL DNIENIEM LEKOOPORNO CI KOMÓREK NOWOTWOROWYCH

MODEL HAHNFELDTA I IN. ANGIOGENEZY NOWOTWOROWEJ Z UWZGL DNIENIEM LEKOOPORNO CI KOMÓREK NOWOTWOROWYCH MODEL HAHNFELDTA I IN. ANGIOGENEZY NOWOTWOROWEJ Z UWZGL DNIENIEM LEKOOPORNO CI KOMÓREK NOWOTWOROWYCH Urszula Fory± Zakªad Biomatematyki i Teorii Gier, Instytut Matematyki Stosowanej i Mechaniki, Wydziaª

Bardziej szczegółowo

Minimalne drzewa rozpinaj ce

Minimalne drzewa rozpinaj ce y i y i drzewa Spis zagadnie«y i drzewa i lasy cykle fundamentalne i rozci cia fundamentalne wªasno±ci cykli i rozci minimalne drzewa algorytm algorytm Drzewo y i spójnego, nieskierowanego grafu prostego

Bardziej szczegółowo

Wst p do informatyki. Systemy liczbowe. Piotr Fulma«ski. 21 pa¹dziernika 2010. Wydziaª Matematyki i Informatyki, Uniwersytet Šódzki, Polska

Wst p do informatyki. Systemy liczbowe. Piotr Fulma«ski. 21 pa¹dziernika 2010. Wydziaª Matematyki i Informatyki, Uniwersytet Šódzki, Polska Wst p do informatyki Systemy liczbowe Piotr Fulma«ski Wydziaª Matematyki i Informatyki, Uniwersytet Šódzki, Polska 21 pa¹dziernika 2010 Spis tre±ci 1 Liczby i ich systemy 2 Rodzaje systemów liczbowych

Bardziej szczegółowo

KLASYCZNE ZDANIA KATEGORYCZNE. ogólne - orzekaj co± o wszystkich desygnatach podmiotu szczegóªowe - orzekaj co± o niektórych desygnatach podmiotu

KLASYCZNE ZDANIA KATEGORYCZNE. ogólne - orzekaj co± o wszystkich desygnatach podmiotu szczegóªowe - orzekaj co± o niektórych desygnatach podmiotu ➏ Filozoa z elementami logiki Na podstawie wykªadów dra Mariusza Urba«skiego Sylogistyka Przypomnij sobie: stosunki mi dzy zakresami nazw KLASYCZNE ZDANIA KATEGORYCZNE Trzy znaczenia sªowa jest trzy rodzaje

Bardziej szczegółowo

O pewnym zadaniu olimpijskim

O pewnym zadaniu olimpijskim O pewnym zadaniu olimpijskim Michaª Seweryn, V LO w Krakowie opiekun pracy: dr Jacek Dymel Problem pocz tkowy Na drugim etapie LXII Olimpiady Matematycznej pojawiª si nast puj cy problem: Dla ka»dej liczby

Bardziej szczegółowo

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15 ARYTMETYKA MODULARNA Grzegorz Szkibiel Wiosna 2014/15 Spis tre±ci 1 Denicja kongruencji i jej podstawowe wªasno±ci 3 2 Systemy pozycyjne 8 3 Elementy odwrotne 12 4 Pewne zastosowania elementów odwrotnych

Bardziej szczegółowo

Przekroje Dedekinda 1

Przekroje Dedekinda 1 Przekroje Dedekinda 1 O liczbach wymiernych (tj. zbiorze Q) wiemy,»e: 1. zbiór Q jest uporz dkowany relacj mniejszo±ci < ; 2. zbiór liczb wymiernych jest g sty, tzn.: p, q Q : p < q w : p < w < q 3. 2

Bardziej szczegółowo

PRZYPOMNIENIE Ka»d przestrze«wektorow V, o wymiarze dim V = n < nad ciaªem F mo»na jednoznacznie odwzorowa na przestrze«f n n-ek uporz dkowanych:

PRZYPOMNIENIE Ka»d przestrze«wektorow V, o wymiarze dim V = n < nad ciaªem F mo»na jednoznacznie odwzorowa na przestrze«f n n-ek uporz dkowanych: Plan Spis tre±ci 1 Homomorzm 1 1.1 Macierz homomorzmu....................... 2 1.2 Dziaªania............................... 3 2 Ukªady równa«6 3 Zadania 8 1 Homomorzm PRZYPOMNIENIE Ka»d przestrze«wektorow

Bardziej szczegółowo

Indeksowane rodziny zbiorów

Indeksowane rodziny zbiorów Logika i teoria mnogo±ci, konspekt wykªad 7 Indeksowane rodziny zbiorów Niech X b dzie przestrzeni zbiorem, którego podzbiorami b d wszystkie rozpatrywane zbiory, R rodzin wszystkich podzbiorów X za± T

Bardziej szczegółowo

Wykorzystanie lokalnej geometrii danych w Maszynie Wektorów No±nych

Wykorzystanie lokalnej geometrii danych w Maszynie Wektorów No±nych WM Czarnecki (GMUM) Lokalna geometria w SVM 13 Listopada 2013 1 / 26 Wykorzystanie lokalnej geometrii danych w Maszynie Wektorów No±nych Wojciech Marian Czarnecki Jacek Tabor GMUM Grupa Metod Uczenia Maszynowego

Bardziej szczegółowo

JAO - J zyki, Automaty i Obliczenia - Wykªad 1. JAO - J zyki, Automaty i Obliczenia - Wykªad 1

JAO - J zyki, Automaty i Obliczenia - Wykªad 1. JAO - J zyki, Automaty i Obliczenia - Wykªad 1 J zyki formalne i operacje na j zykach J zyki formalne s abstrakcyjnie zbiorami sªów nad alfabetem sko«czonym Σ. J zyk formalny L to opis pewnego problemu decyzyjnego: sªowa to kody instancji (wej±cia)

Bardziej szczegółowo

XVII Warmi«sko-Mazurskie Zawody Matematyczne

XVII Warmi«sko-Mazurskie Zawody Matematyczne 1 XVII Warmi«sko-Mazurskie Zawody Matematyczne Kategoria: klasa VIII szkoªy podstawowej i III gimnazjum Olsztyn, 16 maja 2019r. Zad. 1. Udowodnij,»e dla dowolnych liczb rzeczywistych x, y, z speªniaj cych

Bardziej szczegółowo

Matematyka dyskretna dla informatyków

Matematyka dyskretna dla informatyków Matematyka dyskretna dla informatyków Cz ± I: Elementy kombinatoryki Jerzy Jaworski Zbigniew Palka Jerzy Szyma«ski Uniwersytet im. Adama Mickiewicza Pozna«2007 2 Podstawowe zasady i prawa przeliczania

Bardziej szczegółowo

Listy Inne przykªady Rozwi zywanie problemów. Listy w Mathematice. Marcin Karcz. Wydziaª Matematyki, Fizyki i Informatyki.

Listy Inne przykªady Rozwi zywanie problemów. Listy w Mathematice. Marcin Karcz. Wydziaª Matematyki, Fizyki i Informatyki. Wydziaª Matematyki, Fizyki i Informatyki 10 marca 2008 Spis tre±ci Listy 1 Listy 2 3 Co to jest lista? Listy List w Mathematice jest wyra»enie oddzielone przecinkami i zamkni te w { klamrach }. Elementy

Bardziej szczegółowo

Ekonometria Przestrzenna

Ekonometria Przestrzenna Ekonometria Przestrzenna Wykªad 4: Model autoregresji przestrzennej. Dane GIS: punkty i siatki (4) Ekonometria Przestrzenna 1 / 24 Plan wykªadu 1 Model czystej autoregresji przestrzennej (pure SAR) Specykacja

Bardziej szczegółowo