Blokowe i przyrostowe klasyfikatory złożone dla strumieni danych ze zmienną definicją klas

Wielkość: px
Rozpocząć pokaz od strony:

Download "Blokowe i przyrostowe klasyfikatory złożone dla strumieni danych ze zmienną definicją klas"

Transkrypt

1 Politechnika Poznańska Wydział Informatyki Streszczenie rozprawy doktorskiej mgr inż. Dariusz Brzeziński Blokowe i przyrostowe klasyfikatory złożone dla strumieni danych ze zmienną definicją klas Promotor: dr hab. inż. Jerzy Stefanowski, prof. PP 1 Wstęp Zakres rozprawy mieści się w dyscyplinie informatyki i obejmuje zagadnienia z tematyki uczenia maszynowego i eksploracji danych (ang. machine learning and data mining) [11, 9]. W szczególności, badania dotyczą problematyki systemów uczących się ze strumieni danych w ramach nadzorowanej klasyfikacji obiektów (ang. supervised learning). Klasyfikacja jest rozumiana jako proces przydzielania obiektów do predefiniowanych klas za pomocą funkcji automatycznie wyuczonej z danych, zwanej klasyfikatorem. Tradycyjnie proces uczenia klasyfikatorów odbywa się w oparciu o statyczne zbiory danych w postaci wstępnie przygotowanych baz danych. Jednakże, ze względu na nowe rodzaje zastosowań informatyki, takie jak monitorowanie sieci komputerowych czy analiza danych giełdowych, coraz częściej klasyfikatory są uczone i wykorzystywane w aplikacjach, w których przetwarzane informacje przyjmują postać strumieni danych. Strumień danych może być postrzegany jako sekwencja elementów (np. pakietów sieciowych, wiadomości , odczytów z czujników), które napływają w sposób asynchroniczny ze zmienną intensywnością. Strumienie, podobnie jak inne duże wolumeny danych, mogą być przedmiotem eksploracji danych, a w szczególności ich klasyfikacji. Jednakże, ze względu na rozmiar i intensywność strumieni danych, ich klasyfikacja musi spełniać ograniczenia na czas przetwarzania oraz wykorzystywaną pamięć operacyjną [3]. Co więcej, strumienie danych podlegają zjawisku dryftu, czyli zmianom rozkładów prawdopodobieństwa definicji klas decyzyjnych pozwalających generować nowe przykłady. Do typowych rodzajów dryftu należą stopniowa zmiana definicji (stopniowy dryft), gwałtowna zmiana definicji (nagły dryft) oraz czasowo zanikająca klasa [5]. Niestety tradycyjne metody eksploracji danych nie potrafią skutecznie klasyfikować danych z dryftem przy zachowaniu ograniczeń czasowych i pamięciowych. Istnieje zatem konieczność propozycji nowych algorytmów klasyfikacji, przystosowanych do przetwarzania strumieniowego. Wśród propozycji nowych metod klasyfikacji, dostosowanych do danych strumieniowych, jedną z najczęściej wykorzystywanych technik są klasyfikatory złożone. Klasyfikatory złożone (ang. classifier ensembles) to zbiory pojedynczych klasyfikatorów, zwanych 1

2 klasyfikatorami składowymi, które wspólnie (z reguły przez głosowanie) przewidują klasę decyzyjną. Modularna budowa klasyfikatorów złożonych sprawia, że mają one wiele cech przydatnych w przetwarzaniu strumieni danych. Ważenie głosów klasyfikatorów składowych pozwala dynamicznie reagować na zmiany. Budowanie nowych klasyfikatorów składowych z nadchodzących obiektów (przykładów) pozwala stopniowo polepszać działanie klasyfikatora bez przebudowywania wcześniej nauczonych fragmentów. Ponadto analiza literaturowa wskazuje, że klasyfikatory złożone są wykorzystywane zarówno w środowiskach strumieniowych gdzie przykłady przetwarzane są grupami (blokowo), jak i w środowiskach gdzie klasyfikacja odbywa się po każdym przykładzie bez możliwości analizy danych historycznych (przyrostowo). Ogólne właściwości, zdolności predykcyjne oraz wydajność blokowych i przyrostowych klasyfikatorów złożonych stanowią główny temat rozprawy doktorskiej. 1.1 Motywacje Uczenie klasyfikatorów ze strumieni danych ma coraz większe znaczenie praktyczne, szczególnie w takich dziedzinach jak energetyka, telekomunikacja czy bankowość, gdzie tempo napływania danych wymusza korzystanie z algorytmów efektywnych czasowo i pamięciowo. Są to równocześnie dziedziny, w których problem klasyfikacji podlega zjawisku dryftu i klasyczne algorytmy eksploracji danych nie potrafią zagwarantować wysokiej trafności predykcji nowych obiektów. Na podstawie analizy literaturowej istniejących rozwiązań można wysnuć wniosek, że dla obu opisanych sposobów przetwarzania strumieni wciąż brakuje elastycznych algorytmów zdolnych do reagowania równocześnie na wiele typów zmian. Proponowane do tej pory algorytmy skupiały się zwykle na jednym typie zmian, np. tylko na nagłym lub tylko na stopniowym dryfcie. Widać również wyraźny podział algorytmy skupiające się na reakcjach na nagłe zmiany były proponowane dla przetwarzania przyrostowego, a algorytmy ewoluujące wraz ze stopniowo zmieniającymi się strumieniami dominowały wśród algorytmów blokowych. Ponadto przegląd aktualnej literatury wskazuje, że należałoby dokładniej zbadać czynniki odpowiedzialne za sukces rozwiązań dla poszczególnych typów zmian w obu środowiskach przetwarzania i przeanalizować możliwość połączenia tych czynników, by stworzyć algorytm nadający się do klasyfikacji strumieni niezależnie od typu dryftu. W celu stworzenia takiego algorytm, należy rozważyć tworzenie klasyfikatorów złożonych, gdyż to podejście jest wspólne dla obu analizowanych sposobów przetwarzania danych. Jednocześnie można zauważyć, że obecnie w klasyfikacji strumieni danych dostępnych jest znacznie mniej miar oceny trafności klasyfikatorów niż w tradycyjnej eksploracji danych [8]. Jest to szczególnie widoczne w przypadku analizy niezrównoważonych danych (ang. imbalanced data). W przypadku tradycyjnej eksploracji danych oprócz najczęściej wykorzystywanej trafności klasyfikacji (ang. accuracy), wyliczanej jako stosunek poprawnie zaklasyfikowanych obiektów do wszystkich zaklasyfikowanych obiektów, istnieje szereg innych miar takich jak precision, recall, F-score, G-mean, czy pole pod krzywą ROC (ang. area under the ROC curve), które znacznie lepiej sprawdzają się w przypadku niezrówno- 2

3 ważonych danych [7]. Szczególnie ostatnia z wymienionych miar, pole pod krzywą ROC (w skrócie nazywana AUC), posiada szereg pozytywnych własności. Miara AUC jest między innymi niezależna od rozkładu klas, a zatem i od zmian w ich rozkładzie, oraz jest równoważna testowi statystycznemu Manna-Whitneya-Wilcoxona [13]. Jednakże, ze względu na skomplikowaną i kosztowną procedurę obliczania AUC, miara ta nie znalazła szerszego zastosowania w ocenie klasyfikatorów strumieniowych. Niemniej jednak przystosowanie miary AUC do przetwarzania strumieniowego byłoby niezwykle przydatne przy ocenie trafności klasyfikatorów uczących się z niezrównoważonych strumieni danych. 1.2 Cele pracy Podstawowym celem pracy jest zaproponowanie nowych metod konstrukcji klasyfikatorów złożonych, które będą reagować na różne typy zmian zachodzących w strumieniach danych. Metody te powinny działać zarówno w środowiskach gdzie przykłady przetwarzane są blokowo jak i przyrostowo oraz być konkurencyjne w stosunku do istniejących rozwiązań pod względem trafności predykcji, czasu działania i wymagań pamięciowych. W ramach tego celu zdefiniowano cztery cele szczegółowe: 1. Zaproponowanie nowego klasyfikatora blokowego. Istniejące klasyfikatory złożone dla przetwarzania blokowego skupiają się na reakcjach na stopniowe zmiany, głównie poprzez okresową wymianę klasyfikatorów składowych. W rozprawie zostanie zaproponowany algorytm Accuracy Updated Ensemble (AUE), który czerpie inspiracje z algorytmów przyrostowych, by lepiej reagować na nagłe, stopniowe i nawracające dryfty w środowiskach blokowych. Celem zaproponowanego algorytmu jest porównywalna, wysoka trafność klasyfikacji dla wielu typów zmian w strumieniu przy niskim zużyciu pamięci oraz krótkim czasie przetwarzania. 2. Analiza zależności między klasyfikatorami blokowymi i przyrostowymi. Kolejnym celem jest zbadanie czy istnieje możliwość przenoszenia elementów rozwiązań istniejących w klasyfikatorach blokowych do metod działających przyrostowo. W tym celu zaproponowane i ocenione zostaną trzy strategie dostosowujące algorytmy blokowe do środowisk przyrostowych: a) wykorzystanie metody okien przesuwnych do przyrostowego oceniania i ważenia głosów klasyfikatorów składowych, b) dodanie pojedynczego klasyfikatora przyrostowego do blokowych klasyfikatorów składowych, c) wykorzystanie detektora dryftu do wcześniejszego reagowania na nagłe zmiany w strumieniu. 3. Zaproponowanie nowego klasyfikatora przyrostowego. W oparciu o analizę wymienionych trzech strategii przekształcania klasyfikatorów blokowych w przyrostowe, zaproponowany zostanie algorytm Online Accuracy Updated Ensemble (OAUE). Algorytm OAUE przeznaczony będzie do uczenia się ze strumieni gdzie 3

4 przykłady przetwarzane są przyrostowo, a nie blokowo. Zaproponowany algorytm będzie przyrostowo uczył i oceniał klasyfikatory składowe zgodnie z najlepszymi strategiami reakcji na nagłe i stopniowe typy zmian. 4. Zaproponowanie sposobu oceny klasyfikatorów strumieniowych uczonych z danych niezrównoważonych. Ostatnim celem szczegółowym rozprawy jest zaproponowanie nowej miary oceny klasyfikatorów, przystosowanej do przyrostowego przetwarzania strumieni o niezrównoważonych rozkładach klas. W tym celu najpierw wskazane zostaną problemy w zastosowaniu i interpretacji istniejących metod oceny klasyfikatorów dla strumieni danych, a następnie zaproponowana zostanie nowa metoda obliczania pola pod krzywą ROC o nazwie Prequential AUC. Zaproponowana metoda zostanie przeanalizowana pod względem efektywności obliczeniowej i porównana z istniejącymi metodami obliczania AUC, znanymi z tradycyjnej eksploracji danych. W drugim rozdziale rozprawy przedstawione zostały podstawowe definicje związane z uczeniem z danych strumieniowych. Wyjaśnione zostały m.in. pojęcia klasyfikacji, strumienia danych, uczenia blokowego i przyrostowego, oraz dryftu. Ponadto rozdział drugi zawiera przegląd algorytmów klasyfikacji strumieni danych. W ramach przeglądu przeanalizowano trzy podstawowe grupy algorytmów: okna przesuwne, detektory dryftu, klasyfikatory złożone. Kolejne rozdziały rozprawy zawierają oryginalne badania autora. W celu ułatwienia czytelnikowi polskojęzycznemu zapoznanie się z dysertacją, w kolejnych punktach omówiono pokrótce zawartość i główne osiągnięcia rozdziałów 3, 4, 5 i 6, opisujących wyniki realizacji czterech szczegółowych celów rozprawy. 2 Algorytm Accuracy Updated Ensemble W rozdziale trzecim wprowadzono nowy klasyfikator blokowy o nazwie Accuracy Updated Ensemble (AUE) zaprojektowany by równie dobrze reagować na nagłe jak i powolne zmiany w strumieniu. Algorytm ten stara się łączyć mechanizmy charakterystyczne dla przetwarzania blokowego z elementami uczenia przyrostowego. Jego podstawowe cechy to: Algorytm AUE tworzy nowy klasyfikator składowy wraz z każdym kolejnym blokiem przykładów, podobnie jak większość klasyfikatorów blokowych takich jak AWE [12], SEA [10] czy Learn++.NSE [2]. Dzięki temu zaproponowany algorytm powinien dobrze reagować na powolne zmiany zachodzące w strumieniu. W przeciwieństwie do algorytmów blokowych, AUE korzysta z przyrostowych klasyfikatorów składowych. Tym samym zaproponowany algorytm może douczać wcześniej stworzone klasyfikatory składowe. Takie podejście pozwala korzystać z mniejszych bloków do tworzenia klasyfikatorów, gdyż z czasem mogą zyskać na trafności po douczeniu się nowych przykładów. Oznacza to również, że AUE będzie w stanie reagować na nagłe zmiany w strumieniu szybciej niż typowe algorytmy blokowe. 4

5 Ostateczna predykcja AUE jest uzyskiwana poprzez ważone głosowanie wszystkich klasyfikatorów składowych. Ważność głosu każdego klasyfikatora składowego określana jest na podstawie jego błędu średnio kwadratowego klasyfikacji (ang. mean square error). W tym celu została zaproponowana nowa funkcja określająca ważność klasyfikatora składowego w ij : MSE ij = 1 B j {x,y} B j (1 f iy (x)) 2 MSE r = y p(y)(1 p(y)) 2 w ij = 1 MSE r + MSE ij + ɛ Funkcja f iy (x) oznacza prawdopodobieństwo określone przez klasyfikator składowy C i, że przykład x jest instancją klasy y. MSE ij szacuje błąd klasyfikatora składowego C i na bloku obiektów B j, MSE r to błąd klasyfikatora losowego określany na podstawie rozkładu klas y w ostatnim bloku danych, a ɛ to bardzo mała wartość dodatnia umożliwiająca obliczenie w ij nawet gdy MSE r i MSE ij są równe zero. Celem tak skonstruowanej funkcji ważącej jest połączenie informacji o trafności klasyfikatora z informacją o aktualnym rozkładzie klas. Waga nowo stworzonego klasyfikatora składowego, tzw. klasyfikatora kandydującego (ang. candidate classifier), jest określana w inny sposób niż klasyfikatorów składowych stworzonych na wcześniejszych blokach danych. Klasyfikator kandydujący otrzymuje wagę w C zdefiniowaną jako: w C = 1 MSE r + ɛ W przeciwieństwie do wcześniej zaproponowanych algorytmów, klasyfikator kandydujący jest oceniany jak idealny klasyfikator, tj. taki dla którego MSE ij wynosi zero. Takie podejście oparte jest na założeniu, że klasyfikator składowy nauczony na najświeższych przykładach najlepiej reprezentuje aktualny rozkład danych. Ponadto taka funkcja pozwala bardzo szybko wyliczyć wagę klasyfikatora składowego, gdyż, w przeciwieństwie do wcześniej zaproponowanych metod, nie wymaga oceny krzyżowej (ang. cross-validation). Algorytm AUE kontroluje zużycie pamięci i w przypadku przekroczenia określonego przez użytkownika limitu, zmniejsza rozmiar klasyfikatorów składowych poprzez usunięcie najrzadziej wykorzystywanych elementów (ang. classifier pruning). Opisane powyżej cechy charakterystyczne zaproponowanego algorytmu zostały wybrane na podstawie analizy eksperymentalnej. Rozdział 3. rozprawy zawiera opis badań różnych funkcji ważących oraz strategii douczania klasyfikatorów składowych. Wyniki eksperymentów sugerują, że wszystkie klasyfikatory składowe powinny być douczane po każdym bloku obiektów. Takie podejście tworzy silne pod względem trafności klasyfikatory 5

6 składowe. Powyższe wyniki zdają się być zbieżne z wynikami zaprezentowanymi w [2], potwierdzając tym samym, że zmienne strumienie danych w naturalny sposób dywersyfikują składowe klasyfikatorów złożonych. Algorytm AUE został eksperymentalnie porównany z 11 algorytmami obejmującymi pojedyncze klasyfikatory, detektory dryftu oraz złożone klasyfikatory blokowe i przyrostowe. Wyniki eksperymentów wykazały wyższość zaproponowanego algorytmu nad konkurencyjnymi pod względem trafności klasyfikacji. AUE średnio uzyskiwał najlepszą trafność klasyfikacji testowaną na 15 zbiorach danych symulujących różne typy zmian w strumieniu. Istotność tego wyniku została potwierdzona testami statystycznymi Friedmana, Bonferroniego-Dunna i Wilcoxona przy poziomie istotności α = Ponadto zaproponowany algorytm uczył się nowych obiektów szybciej niż inne klasyfikatory złożone oraz zużywał od nich mniej pamięci. 3 Sposoby transformacji klasyfikatorów blokowych w przyrostowe W czwartym rozdziale rozprawy przeanalizowany został problem przystosowywania algorytmów blokowych do przetwarzania strumieni przyrostowo, przykład po przykładzie. W tym celu zaproponowane zostały trzy ogólne (tj. niezależne od zmienianego algorytmu) strategie przekształcające klasyfikatory blokowe w czysto przyrostowe. Pierwsza strategia wykorzystuje okno przesuwne, aby po każdym nowym obiekcie nadchodzącym ze strumienia móc obliczyć wagi każdego klasyfikatora składowego. W ten sposób wagi klasyfikatorów składowych zmieniają się przyrostowo co sprawia, że mogą reagować szybciej na nagłe zmiany w strumieniu. Ze względu na koszty obliczeniowe nowe klasyfikatory składowe nadal są tworzone co blok, a nie po każdym przykładzie. Druga strategia opiera się na wzbogaceniu przekształcanego algorytmu blokowego o pojedynczy klasyfikator przyrostowy. Taki klasyfikator może uczyć się co przykład i tym samym wspomagać algorytm blokowy przy klasyfikacji kolejnych przykładów. Aby dodatkowy klasyfikator składowy miał odpowiednią siłę podczas tworzenia ostatecznej predykcji, jego waga została ustalona jako maksimum wag pozostałych klasyfikatorów składowych. Taki sposób obliczania wagi dodatkowego klasyfikatora przyrostowego pozostaje niezależny od przekształcanego algorytmu, co było jednym z wymagań postawionych przed proponowanymi strategiami. Trzecia z zaproponowanych strategii wykorzystuje detektor dryftu, aby wykrywać nagłe zmiany zachodzące w strumieniu. W przypadku wykrycia dryftu klasyfikator złożony zostaje przebudowany, a pamięć detektora wyczyszczona. Wyniki eksperymentów sprawdzających działanie wszystkich trzech strategii na algorytmach AUE (zaproponowanym w rozdziale trzecim rozprawy) i AWE [12] wykazały, że każda z nich pozytywnie wpływa na trafność klasyfikacji przekształconych klasyfikatorów. Jednakże nie wszystkie strategie okazały się równie skuteczne. Zaobserwowano, że wykorzystanie okna przesuwnego było najlepszym przekształceniem pod względem trafności klasyfikacji. Niestety była to również najkosztowniejsza strategia pod względem czasu 6

7 przetwarzania, gdyż wymagała wielokrotnego klasyfikowania tych samych przykładów. Zauważono ponadto, że elementy uczenia przyrostowego były kluczowym elementem przy poprawie trafności klasyfikacji dla algorytmu AWE który korzysta z statycznych, nie przyrostowych, klasyfikatorów składowych, strategia polegająca na dodaniu klasyfikatora przyrostowego była zdecydowanie najlepsza. Choć w mniejszym stopniu, detektory dryftu również poprawiały trafność klasyfikacji, lecz było to w znacznie większej mierze uzależnione od zmian zachodzących w strumieniu. Najważniejszą obserwacją z przeprowadzonej analizy zaproponowanych strategii była wyraźna różnica wpływu każdej strategii na algorytmy AWE i AUE. To pokazuje, że choć ogólne strategie przekształcania algorytmów blokowych w przyrostowe mogą być w pewnym stopniu skuteczne, to strategie dopasowane do zmienianego algorytmu powinny działać znacznie lepiej. Ten problem był szczególnie widoczny w przypadku strategii wykorzystującej okno przesuwne. Choć samo przekształcenie poprawiało trafność klasyfikacji obu algorytmów, odbywało się to wysokim kosztem obliczeniowym będącym konsekwencją ogólności proponowanego rozwiązania. 4 Algorytm Online Accuracy Updated Ensemble Na podstawie analizy ogólnych strategii przekształcania klasyfikatorów blokowych w przyrostowe, w rozdziale piątym rozprawy zaproponowano nowy klasyfikator przyrostowy o nazwie Online Accuracy Updated Ensemble (OAUE). Zaproponowany algorytm nie tylko klasyfikuje, ale również aktualizuje klasyfikatory składowe przyrostowe. Podstawowe cechy algorytmu OAUE to: OAUE tworzy nowe klasyfikatory składowe co określoną przez użytkownika liczbę przykładów d. Taki mechanizm jest zaczerpnięty z działania klasyfikatorów blokowych i ma zapewnić utrzymanie dobrej trafności klasyfikacji w przypadku powolnych zmian zachodzących w strumieniu. Algorytm OAUE korzysta z przyrostowych klasyfikatorów składowych, które douczane są po każdym przykładzie. Takie podejście jest kluczowe do uzyskania wysokiej trafności klasyfikacji przy przetwarzaniu przyrostowym. Ponadto przy douczaniu po każdym przykładzie klasyfikator szybciej reaguje na nagłe zmiany w strumieniu. Zaproponowany algorytm korzysta z nowej funkcji ważącej, która ocenia błąd średnio kwadratowy klasyfikatorów składowych w oparciu o d ostatnich predykcji. Różnica w stosunku do algorytmu AUE polega na tym że ocena ta odbywa się przyrostowo, a co ważniejsze w stałym czasie i przy stałej pamięci. Waga klasyfikatora składowego C i w momencie t obliczana jest jako w t i : MSEi t = MSEi t 1 + et i d et d id, t τ i > d t τ i 1 MSEi t 1 + et i, t τ i t τ i 0, t τ i = t τ i d

8 e t i = (1 f t iy(x t )) 2 MSE MSEr t r t 1 r t 1 (y t ) r t 1 (y t d ) + r t (y t ) + r t (y t d ), t > d = r t (y), t = d y r t (y) = p t (y)(1 p t (y)) 2 w t i = 1 MSE t r + MSE t i + ɛ gdzie τ i oznacza moment stworzenia klasyfikatora C i, a f t iy (xt ) to funkcja zwracająca prawdopodobieństwo określone przez klasyfikator składowy C i, że przykład x t jest instancją klasy y t. W praktyce przedstawiona funkcja ważąca jest oparta na funkcji zaproponowanej dla algorytmu AUE, ale potrafi ważyć klasyfikatory składowe przyrostowo. Podobnie jak algorytm AUE, OAUE traktuje klasyfikatory kandydujące jak klasyfikatory idealne oraz ogranicza rozmiar klasyfikatorów składowych w przypadku gdy zużycie pamięci jest większe niż maksymalne ustalone przez użytkownika. Rozdział piąty rozprawy bada również własności zaproponowanego algorytmu. Sprawdzone zostały różnice pomiędzy wykorzystaniem liniowej a nieliniowej funkcji ważącej. Zauważono, że funkcja liniowa lepiej zachowywała się przy zmianach nagłych, ale była bardziej wrażliwa na szum. Funkcja nieliniowa z kolei lepiej reagowała na powolne dryfty i zapewniała wyższą trafność klasyfikacji dla strumieni danych niezawierających żadnych zmian. Ponadto został zbadany wpływ parametru d (rozmiaru okna przesuwnego) na trafność klasyfikacji OAUE. Porównanie siedmiu rozmiarów okien z przedziału d [500; 2000] pokazało, że zmiany w trafności klasyfikacji dla tych rozmiarów nie są statystycznie istotne przy poziomie istotności α = Zgodnie z oczekiwaniami, większy rozmiar okna przesuwnego miał natomiast wpływ na liniowo większe zużycie pamięci i czas przetwarzania. Algorytm OAUE został eksperymentalnie porównany z 4 konkurencyjnymi klasyfikatorami przyrostowymi. Klasyfikatory blokowe nie były brane pod uwagę, gdyż przy przetwarzaniu przyrostowym osiągają znacznie gorsze wyniki niż klasyfikatory przyrostowe. Wyniki eksperymentów wykazały wysoką trafność klasyfikacji zaproponowanego algorytmu, lepszą lub porównywalną z konkurencyjnymi rozwiązaniami. OAUE średnio uzyskiwał najlepszą trafność klasyfikacji testowaną na 16 zbiorach danych symulujących różne typy dryftów. Ponadto zaproponowany algorytm uczył się nowych przykładów szybciej niż konkurencyjne klasyfikatory złożone oraz zużywał od nich mniej pamięci. 5 Miary oceny klasyfikatorów dla niezrównoważonych strumieni danych Rozdział szósty powiązany jest z ostatnim celem szczegółowym rozprawy. W tym rozdziale został wykonany przegląd miar wykorzystywanych do oceny algorytmów uczonych 8

9 ze strumieni danych. Celem przeglądu było wskazanie wad istniejących miar w przypadku stosowania ich do oceny klasyfikatorów uczonych ze strumieni o niezrównoważonym rozkładzie klas. Niezrównoważenie rozumiane jest tutaj jako sytuacja, w której przykłady jednej z klas występują znacznie rzadziej (lub częściej) niż przykłady innych klas. W takim wypadku część miar, jak na przykład globalna trafność klasyfikacji, dokonuje zbyt optymistycznej oceny klasyfikatorów. Z tego względu w eksploracji tradycyjnych danych statycznych zaleca się korzystanie z innych miar. Najpopularniejszą miarą przystosowaną do niezrównoważonych danych jest AUC, czyli pole pod krzywą ROC (ang. area under the Receiver Operator Characteristic curve). Jednakże ze względu na kosztowną procedurę obliczeniową, wykorzystanie tej miary było ograniczone do małych strumieni danych, a sama ocena nie odbywała się przyrostowo. W rozdziale szóstym rozprawy przedstawiono nowy sposób szacowania pola pod krzywą ROC, który jest przystosowany do strumieni danych ze zmienną definicją klas. Zaproponowany algorytm, o nazwie Prequential AUC, okazał się wydajny obliczeniowo i przydatny przy ocenianiu trafności predykcji klasyfikatorów strumieniowych. Prędkość działania, wizualizacje w dziedzinie czasu jak i przydatność przedstawionej metody przy detekcji dryftów zostały pozytywnie porównane z dwoma najczęściej wykorzystywanymi miarami oceny klasyfikatorów strumieniowych miarą κ [1] i trafnością klasyfikacji [3]. Wykazano również, że dla strumieni nie zawierających żadnych zmian Prequential AUC uśrednione po całym strumieniu jest statystycznie spójne i porównywalnie dyskryminujące [6] z AUC liczonym tradycyjnie na całym strumieniu naraz. To porównanie uwzględniało również liczenie AUC blokowo, jednak ta metoda okazała się gorsza zarówno pod względem spójności jak i stopnia dyskryminacji. Algorytm Prequential AUC został wykorzystany podczas porównywania klasyfikatorów przyrostowych na strumieniach danych o niezrównoważonym rozkładzie klas. Zbadano również szereg nowych, nierozważanych do tej pory, typów zmian jakimi są nagłe i stopniowe zmiany rozkładu klas. Zaproponowana metoda oceny okazała się znacznie przydatniejsza niż dotychczas wykorzystywana w literaturze trafność klasyfikacji. Metoda Prequential AUC była w stanie wyraźnie pokazać zarówno nagłe jak i stopniowe zmiany rozkładu klas zachodzące w strumieniu, podczas gdy trafność klasyfikacji nie była w stanie tych różnic pokazać. Korzystając z algorytmu Prequential AUC zauważono również, że zaproponowane do tej pory klasyfikatory nie są przygotowane do reagowania ani na nagłe, ani na stopniowe zmiany rozkładu klas. Tym samym problem uczenia klasyfikatorów ze strumieni ze zmieniającym się rozkładem klas stanowi interesujący temat przyszłych badań. 6 Podsumowanie i wnioski W rozprawie rozważano problem uczenia klasyfikatorów blokowych i przyrostowych ze strumieni danych zmieniających się w czasie. Autor rozprawy uważa, że cel główny dysertacji, a także cele szczegółowe zdefiniowane w rozdziale pierwszym, zostały osiągnięte. Poniżej wymieniono główne osiągnięcia pracy. 9

10 1. Zaproponowano klasyfikator blokowy AUE, który trafnie reaguje na wiele typów dryftu, przy zachowaniu ograniczeń pamięciowych i czasowych. W ramach prac nad algorytmem zauważono, że elementy uczenia przyrostowego mogą być przydatne również przy przetwarzaniu blokowym oraz że douczane powinny być wszystkie klasyfikatory składowe. 2. Przedstawiono i przeanalizowano trzy skuteczne strategie przekształcające algorytmy blokowe w przyrostowe. Wykazano zalety i wady każdej strategii oraz zauważono, że aby osiągnąć najlepsze efekty strategie należy dostosowywać do konkretnych algorytmów. 3. Zaproponowano klasyfikator przyrostowy OAUE, który trafnie reaguje na wiele typów zmian i działa szybciej niż konkurencyjne algorytmy. Cechą charakterystyczną przedstawionego algorytmu jest możliwość oceny błędu średnio kwadratowego klasyfikatorów składowych bez konieczności przetwarzania przykładów blokami. 4. Przeanalizowano istniejące miary oceny klasyfikatorów strumieniowych i zaproponowano nową metodę o nazwie Prequential AUC. Zaproponowana metoda może być wykorzystywana do oceny klasyfikatorów uczących się ze strumieni zrównoważonych, niezrównoważonych oraz ze zmieniającym się rozkładem klas. Wykazano przy tym, że w przypadku strumieni, w których nie zachodzą zmiany, Prequential AUC jest statystycznie spójna z miarą AUC znaną z tradycyjnej eksploracji danych, a przy tym przystosowana do wymagań narzuconych przez przetwarzanie strumieniowe. Powyższe osiągnięcia otwierają wiele możliwości dalszych badań. Jak pokazały eksperymenty w 3. rozdziale rozprawy, połączenia wielu typów zmian mogą stanowić interesujące tematy badawcze. Obecnie klasyfikatory strumieniowe są projektowane głównie z myślą o pojedynczych, oddzielonych od siebie zmianach. Jednakże, jak pokazały przeprowadzone w rozprawie eksperymenty, kombinacje nagłych i powolnych zmian są wyjątkowo trudne do prawidłowej klasyfikacji. Powyższy przykład stanowi tylko jedno możliwe połączenie i wiele innych może być wartych przeanalizowania. Zauważono również, że zmiany rozkładu klas stanowią wyzwanie dla obecnych metod uczenia się ze strumieni danych. Wedle wiedzy autora, tego typu zmiany nie były do tej pory rozważane w literaturze. Niemniej jednak, w przypadku analizy danych z wielu strumieni, tego typu zmiany rozkładu klas mogą być obserwowane w praktyce. Przykładowo, gdy część czujników w monitorowanym procesie przestanie działać, klasyfikator pozostanie tylko z fragmentem danych [4]. To z kolei może spowodować zmianę rozkładu klas, która, jak zostało zaobserwowane w rozdziale 6. rozprawy, może zmniejszyć trafność klasyfikacji algorytmu uczącego. W związku z tym problem tworzenia klasyfikatorów odpornych na zmiany rozkładu klas można uznać za interesujący temat do dalszych badań. Również propozycja algorytmu Prequential AUC powinna otworzyć wiele nowych możliwości związanych z oceną klasyfikatorów strumieniowych [8]. Po pierwsze zaproponowana metoda powinna ułatwić ocenę, a tym samym rozwój, klasyfikatorów uczonych z niezrównoważonych strumieni danych. Ponadto efektywny sposób przyrostowego obliczania AUC z 10

11 zapominaniem może znaleźć zastosowanie w optymalizacji klasyfikatorów strumieniowych. Dla przykładu, wiele obecnie proponowanych klasyfikatorów złożonych dla strumieni danych wykorzystuje trafność klasyfikacji do ważenia i selekcji klasyfikatorów składowych. Dzięki Prequential AUC takie operacje będą mogły być wykonywane z wzięciem pod uwagę stabilniejszej miary oceny. Temat ten jest szczególnie interesujący, gdyż w tradycyjnej eksploracji danych AUC jest uznawane za lepszą miarę optymalizacyjną niż trafność klasyfikacji [6]. 11

12

13 Bibliografia [1] Albert Bifet and Eibe Frank. Sentiment knowledge discovery in twitter streaming data. In Proceedings of the 13th Discovery Science International Conference, volume 6332 of Lecture Notes in Computer Science, pages Springer, [2] Ryan Elwell and Robi Polikar. Incremental learning of concept drift in nonstationary environments. IEEE Trans. Neural Netw., 22(10): , Oct [3] João Gama. Knowledge Discovery from Data Streams. Chapman and Hall/CRC, [4] João Gama and Mohamed M. Gaber. Learning from Data Streams: Processing Techniques in Sensor Networks. New generation computing. Springer, [5] João Gama, Indrė Žliobaitė, Albert Bifet, Mykola Pechenizkiy, and Abdelhamid Bouchachia. A survey on concept drift adaptation. ACM Computing Surveys, 46(4), [6] Jin Huang and Charles X. Ling. Using AUC and accuracy in evaluating learning algorithms. IEEE Trans. Knowl. Data Eng., 17(3): , [7] Nathalie Japkowicz and Mohak Shah. Evaluating Learning Algorithms: A Classification Perspective. Cambridge University Press, [8] Georg Krempl, Indrė Žliobaitė, Dariusz Brzezinski, Eyke Hüllermeier, Mark Last, Vincent Lemaire, Tino Noack, Ammar Shaker, Sonja Sievi, Myra Spiliopoulou, and Jerzy Stefanowski. Open challenges for data stream mining research. SIGKDD Explorations, 16(1):1 10, [9] Tom M. Mitchell. Machine learning. McGraw Hill series in computer science. McGraw-Hill, [10] W. Nick Street and YongSeog Kim. A streaming ensemble algorithm (SEA) for largescale classification. In Proceedings of the 7th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pages , [11] Pang-Ning Tan, Michael Steinbach, and Vipin Kumar. Introduction to Data Mining. Addison Wesley, May

14 [12] Haixun Wang, Wei Fan, Philip S. Yu, and Jiawei Han. Mining concept-drifting data streams using ensemble classifiers. In Proceedings of the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pages ACM, [13] Shaomin Wu, Peter A. Flach, and Cèsar Ferri Ramirez. An improved model selection heuristic for AUC. In Proceedings of the 8th European Conference on Machine Learning, volume 4701 of Lecture Notes in Computer Science, pages Springer,

Dariusz Brzeziński. Politechnika Poznańska

Dariusz Brzeziński. Politechnika Poznańska Dariusz Brzeziński Politechnika Poznańska Klasyfikacja strumieni danych Algorytm AUE Adaptacja klasyfikatorów blokowych do przetwarzania przyrostowego Algorytm OAUE Dlasze prace badawcze Blokowa i przyrostowa

Bardziej szczegółowo

mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.

mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych. mgr inż. Magdalena Deckert Poznań, 30.11.2010r. Metody przyrostowego uczenia się ze strumieni danych. Plan prezentacji Wstęp Concept drift i typy zmian Algorytmy przyrostowego uczenia się ze strumieni

Bardziej szczegółowo

mgr inż. Magdalena Deckert Poznań, r. Uczenie się klasyfikatorów przy zmieniającej się definicji klas.

mgr inż. Magdalena Deckert Poznań, r. Uczenie się klasyfikatorów przy zmieniającej się definicji klas. mgr inż. Magdalena Deckert Poznań, 01.06.2010r. Uczenie się klasyfikatorów przy zmieniającej się definicji klas. Plan prezentacji Wstęp Concept drift Typy zmian Podział algorytmów stosowanych w uczeniu

Bardziej szczegółowo

RILL - przyrostowy klasyfikator regułowy uczący się ze zmiennych środowisk

RILL - przyrostowy klasyfikator regułowy uczący się ze zmiennych środowisk Wprowadzenie RILL - przyrostowy klasyfikator regułowy uczący się ze zmiennych środowisk Magdalena Deckert Politechnika Poznańska, Instytut Informatyki Seminarium ISWD, 21.05.2013 M. Deckert Przyrostowy

Bardziej szczegółowo

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18 Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)

Bardziej szczegółowo

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Jacek Szcześniak Jerzy Błaszczyński Roman Słowiński Poznań, 5.XI.2013r. Konspekt Wstęp Wprowadzenie Metody typu wrapper Nowe metody

Bardziej szczegółowo

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek Cel projektu Celem projektu jest przygotowanie systemu wnioskowania, wykorzystującego wybrane algorytmy sztucznej inteligencji; Nabycie

Bardziej szczegółowo

Recenzja rozprawy doktorskiej mgr Łukasza Gadomera pt. Rozmyte lasy losowe oparte na modelach klastrowych drzew decyzyjnych w zadaniach klasyfikacji

Recenzja rozprawy doktorskiej mgr Łukasza Gadomera pt. Rozmyte lasy losowe oparte na modelach klastrowych drzew decyzyjnych w zadaniach klasyfikacji Prof. dr hab. inż. Eulalia Szmidt Instytut Badań Systemowych Polskiej Akademii Nauk ul. Newelska 6 01-447 Warszawa E-mail: szmidt@ibspan.waw.pl Warszawa, 30.04.2019r. Recenzja rozprawy doktorskiej mgr

Bardziej szczegółowo

OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI

OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI Autoreferat do rozprawy doktorskiej OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI Michał Mazur Gliwice 2016 1 2 Montaż samochodów na linii w

Bardziej szczegółowo

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej

Bardziej szczegółowo

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska e-mail: bartosz.krawczyk@pwr.wroc.pl Czym jest klasyfikacja

Bardziej szczegółowo

Widzenie komputerowe (computer vision)

Widzenie komputerowe (computer vision) Widzenie komputerowe (computer vision) dr inż. Marcin Wilczewski 2018/2019 Organizacja zajęć Tematyka wykładu Cele Python jako narzędzie uczenia maszynowego i widzenia komputerowego. Binaryzacja i segmentacja

Bardziej szczegółowo

STRESZCZENIE. rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne.

STRESZCZENIE. rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne. STRESZCZENIE rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne. Zasadniczym czynnikiem stanowiącym motywację dla podjętych w pracy rozważań

Bardziej szczegółowo

Dariusz Brzeziński Instytut Informatyki, Politechnika Poznańska

Dariusz Brzeziński Instytut Informatyki, Politechnika Poznańska Dariusz Brzeziński Instytut Informatyki, Politechnika Poznańska Podstawowe architektury sieci neuronowych Generowanie sztucznych danych Jak się nie przemęczyć Korzystanie z istniejących wag Zamrażanie

Bardziej szczegółowo

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty

Bardziej szczegółowo

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel według przewidywań internetowego magazynu ZDNET News z 8 lutego 2001 roku eksploracja danych (ang. data mining ) będzie jednym z najbardziej rewolucyjnych osiągnięć następnej dekady. Rzeczywiście MIT Technology

Bardziej szczegółowo

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - testy na sztucznych danych

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - testy na sztucznych danych Kombinacja jądrowych estymatorów gęstości w klasyfikacji - testy na sztucznych danych Mateusz Kobos, 25.11.2009 Seminarium Metody Inteligencji Obliczeniowej 1/25 Spis treści Dolne ograniczenie na wsp.

Bardziej szczegółowo

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na Techniki indeksowania w eksploracji danych Maciej Zakrzewicz Instytut Informatyki Politechnika Poznańska Plan prezentacji Zastosowania indeksów w systemach baz danych Wprowadzenie do metod eksploracji

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną

Bardziej szczegółowo

Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka

Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka L.p. Nazwisko i imię studenta Promotor Temat pracy magisterskiej 1. Wojciech Kłopocki dr Bartosz Ziemkiewicz Automatyczne

Bardziej szczegółowo

Klasyfikator liniowy Wstęp Klasyfikator liniowy jest najprostszym możliwym klasyfikatorem. Zakłada on liniową separację liniowy podział dwóch klas między sobą. Przedstawia to poniższy rysunek: 5 4 3 2

Bardziej szczegółowo

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ Celem ćwiczenia jest zapoznanie się ze sposobem działania sieci neuronowych typu MLP (multi-layer perceptron) uczonych nadzorowaną (z nauczycielem,

Bardziej szczegółowo

Wprowadzenie do uczenia maszynowego

Wprowadzenie do uczenia maszynowego Wprowadzenie do uczenia maszynowego Agnieszka Ławrynowicz 12 stycznia 2017 Co to jest uczenie maszynowe? dziedzina nauki, która zajmuje się sprawianiem aby komputery mogły uczyć się bez ich zaprogramowania

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74 3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15

Bardziej szczegółowo

Multiklasyfikatory z funkcją kompetencji

Multiklasyfikatory z funkcją kompetencji 3 stycznia 2011 Problem klasyfikacji Polega na przewidzeniu dyskretnej klasy na podstawie cech obiektu. Obiekt jest reprezentowany przez wektor cech Zbiór etykiet jest skończony x X Ω = {ω 1, ω 2,...,

Bardziej szczegółowo

Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej. Adam Żychowski

Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej. Adam Żychowski Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej Adam Żychowski Definicja problemu Każdy z obiektów może należeć do więcej niż jednej kategorii. Alternatywna definicja Zastosowania

Bardziej szczegółowo

Drzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber

Drzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber Drzewa decyzyjne Inteligentne Obliczenia Wydział Mechatroniki Politechniki Warszawskiej Anna Sztyber INO (IAiR PW) Drzewa decyzyjne Anna Sztyber / Drzewa decyzyjne w podstawowej wersji algorytm klasyfikacji

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji

Bardziej szczegółowo

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta Stan dotychczasowy OCENA KLASYFIKACJI w diagnostyce Wybraliśmy metodę uczenia maszynowego (np. sieć neuronowa lub drzewo decyzyjne), która będzie klasyfikować nieznane przypadki Na podzbiorze dostępnych

Bardziej szczegółowo

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L, Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której

Bardziej szczegółowo

10. Redukcja wymiaru - metoda PCA

10. Redukcja wymiaru - metoda PCA Algorytmy rozpoznawania obrazów 10. Redukcja wymiaru - metoda PCA dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. PCA Analiza składowych głównych: w skrócie nazywana PCA (od ang. Principle Component

Bardziej szczegółowo

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych - Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska 14 listopada 2011 roku 1 - - 2 3 4 5 - The purpose of computing is insight, not numbers Richard Hamming Motywacja - Mamy informację,

Bardziej szczegółowo

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - zastosowanie na sztucznym zbiorze danych

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - zastosowanie na sztucznym zbiorze danych Kombinacja jądrowych estymatorów gęstości w klasyfikacji - zastosowanie na sztucznym zbiorze danych Mateusz Kobos, 07.04.2010 Seminarium Metody Inteligencji Obliczeniowej Spis treści Opis algorytmu i zbioru

Bardziej szczegółowo

Obrona rozprawy doktorskiej Neuro-genetyczny system komputerowy do prognozowania zmiany indeksu giełdowego

Obrona rozprawy doktorskiej Neuro-genetyczny system komputerowy do prognozowania zmiany indeksu giełdowego IBS PAN, Warszawa 9 kwietnia 2008 Obrona rozprawy doktorskiej Neuro-genetyczny system komputerowy do prognozowania zmiany indeksu giełdowego mgr inż. Marcin Jaruszewicz promotor: dr hab. inż. Jacek Mańdziuk,

Bardziej szczegółowo

Meta-uczenie co to jest?

Meta-uczenie co to jest? Meta-uczenie co to jest? Uczenie się tego jak się uczyć Uwolnienie się od uciażliwego doboru MODELU i PAREMETRÓW modelu. Bachotek05/1 Cele meta-uczenia Pełna ale kryterialna automatyzacja modelowania danych

Bardziej szczegółowo

Wykład XII. optymalizacja w relacyjnych bazach danych

Wykład XII. optymalizacja w relacyjnych bazach danych Optymalizacja wyznaczenie spośród dopuszczalnych rozwiązań danego problemu, rozwiązania najlepszego ze względu na przyjęte kryterium jakości ( np. koszt, zysk, niezawodność ) optymalizacja w relacyjnych

Bardziej szczegółowo

Efekt kształcenia. Wiedza

Efekt kształcenia. Wiedza Efekty dla studiów drugiego stopnia profil ogólnoakademicki na kierunku Informatyka na specjalności Przetwarzanie i analiza danych, na Wydziale Matematyki i Nauk Informacyjnych, gdzie: * Odniesienie oznacza

Bardziej szczegółowo

Optymalizacja systemów

Optymalizacja systemów Optymalizacja systemów Laboratorium - problem detekcji twarzy autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, P. Klukowski Cel zadania Celem zadania jest zapoznanie się z gradientowymi algorytmami optymalizacji

Bardziej szczegółowo

Metody Prognozowania

Metody Prognozowania Wprowadzenie Ewa Bielińska 3 października 2007 Plan 1 Wprowadzenie Czym jest prognozowanie Historia 2 Ciągi czasowe Postępowanie prognostyczne i prognozowanie Predykcja długo- i krótko-terminowa Rodzaje

Bardziej szczegółowo

Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki

Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki Mateusz Kobos, 10.12.2008 Seminarium Metody Inteligencji Obliczeniowej 1/46 Spis treści Działanie algorytmu Uczenie Odtwarzanie/klasyfikacja

Bardziej szczegółowo

Jakość uczenia i generalizacja

Jakość uczenia i generalizacja Jakość uczenia i generalizacja Dokładność uczenia Jest koncepcją miary w jakim stopniu nasza sieć nauczyła się rozwiązywać określone zadanie Dokładność mówi na ile nauczyliśmy się rozwiązywać zadania które

Bardziej szczegółowo

Agnieszka Nowak Brzezińska

Agnieszka Nowak Brzezińska Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia

Bardziej szczegółowo

Aproksymacja funkcji a regresja symboliczna

Aproksymacja funkcji a regresja symboliczna Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia

Bardziej szczegółowo

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner Wydział Matematyki i Nauk Informacyjnych Politechnika Warszawska Elementy nieprzystające Definicja odrzucania Klasyfikacja

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

Systemy uczące się wykład 2

Systemy uczące się wykład 2 Systemy uczące się wykład 2 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 19 X 2018 Podstawowe definicje Fakt; Przesłanka; Konkluzja; Reguła; Wnioskowanie. Typy wnioskowania

Bardziej szczegółowo

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017 Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład III bogumil.konopka@pwr.edu.pl 2016/2017 Wykład III - plan Regresja logistyczna Ocena skuteczności klasyfikacji Macierze pomyłek Krzywe

Bardziej szczegółowo

Problemy niezawodnego przetwarzania w systemach zorientowanych na usługi

Problemy niezawodnego przetwarzania w systemach zorientowanych na usługi Problemy niezawodnego przetwarzania w systemach zorientowanych na usługi Jerzy Brzeziński, Anna Kobusińska, Dariusz Wawrzyniak Instytut Informatyki Politechnika Poznańska Plan prezentacji 1 Architektura

Bardziej szczegółowo

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I Wojciech Kotłowski Instytut Informatyki Politechniki Poznańskiej email: imię.nazwisko@cs.put.poznan.pl pok. 2 (CW) tel. (61)665-2936 konsultacje:

Bardziej szczegółowo

Alicja Marszałek Różne rodzaje baz danych

Alicja Marszałek Różne rodzaje baz danych Alicja Marszałek Różne rodzaje baz danych Rodzaje baz danych Bazy danych można podzielić wg struktur organizacji danych, których używają. Można podzielić je na: Bazy proste Bazy złożone Bazy proste Bazy

Bardziej szczegółowo

Wnioskowanie bayesowskie

Wnioskowanie bayesowskie Wnioskowanie bayesowskie W podejściu klasycznym wnioskowanie statystyczne oparte jest wyłącznie na podstawie pobranej próby losowej. Możemy np. estymować punktowo lub przedziałowo nieznane parametry rozkładów,

Bardziej szczegółowo

Testowanie modeli predykcyjnych

Testowanie modeli predykcyjnych Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności

Bardziej szczegółowo

Elementy modelowania matematycznego

Elementy modelowania matematycznego Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski

Bardziej szczegółowo

Modelowanie interakcji helis transmembranowych

Modelowanie interakcji helis transmembranowych Modelowanie interakcji helis transmembranowych Witold Dyrka, Jean-Christophe Nebel, Małgorzata Kotulska Instytut Inżynierii Biomedycznej i Pomiarowej, Politechnika Wrocławska Faculty of Computing, Information

Bardziej szczegółowo

Trafność egzaminów w kontekście metody EWD

Trafność egzaminów w kontekście metody EWD Trafność egzaminów w kontekście metody EWD Aleksandra Jasińska (a.jasinska@ibe.edu.pl) Tomasz Żółtak (t.zoltak@ibe.edu.pl) Instytut Badań Edukacyjnych ul. Górczewska 8 01-180 Warszawa JESIENNA SZKOŁA EWD

Bardziej szczegółowo

Systemy uczące się Lab 4

Systemy uczące się Lab 4 Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego

Bardziej szczegółowo

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016 Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład I dr inż. Bogumil.Konopka@pwr.edu.pl 2015/2016 1 Wykład I - plan Sprawy organizacyjne Uczenie maszynowe podstawowe pojęcia Proces modelowania

Bardziej szczegółowo

przetworzonego sygnału

przetworzonego sygnału Synteza falek ortogonalnych na podstawie oceny przetworzonego sygnału Instytut Informatyki Politechnika Łódzka 28 lutego 2012 Plan prezentacji 1 Sformułowanie problemu 2 3 4 Historia przekształcenia falkowego

Bardziej szczegółowo

Prof. Stanisław Jankowski

Prof. Stanisław Jankowski Prof. Stanisław Jankowski Zakład Sztucznej Inteligencji Zespół Statystycznych Systemów Uczących się p. 228 sjank@ise.pw.edu.pl Zakres badań: Sztuczne sieci neuronowe Maszyny wektorów nośnych SVM Maszyny

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 2 Detekcja twarzy autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się algorytmem gradientu prostego

Bardziej szczegółowo

Analiza regresji - weryfikacja założeń

Analiza regresji - weryfikacja założeń Medycyna Praktyczna - portal dla lekarzy Analiza regresji - weryfikacja założeń mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof.

Bardziej szczegółowo

Metody selekcji cech

Metody selekcji cech Metody selekcji cech A po co to Często mamy do dyspozycji dane w postaci zbioru cech lecz nie wiemy które z tych cech będą dla nas istotne. W zbiorze cech mogą wystąpić cechy redundantne niosące identyczną

Bardziej szczegółowo

Dopasowywanie modelu do danych

Dopasowywanie modelu do danych Tematyka wykładu dopasowanie modelu trendu do danych; wybrane rodzaje modeli trendu i ich właściwości; dopasowanie modeli do danych za pomocą narzędzi wykresów liniowych (wykresów rozrzutu) programu STATISTICA;

Bardziej szczegółowo

Dobór parametrów algorytmu ewolucyjnego

Dobór parametrów algorytmu ewolucyjnego Dobór parametrów algorytmu ewolucyjnego 1 2 Wstęp Algorytm ewolucyjny posiada wiele parametrów. Przykładowo dla algorytmu genetycznego są to: prawdopodobieństwa stosowania operatorów mutacji i krzyżowania.

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych

Bardziej szczegółowo

Podstawy Programowania Obiektowego

Podstawy Programowania Obiektowego Podstawy Programowania Obiektowego Wprowadzenie do programowania obiektowego. Pojęcie struktury i klasy. Spotkanie 03 Dr inż. Dariusz JĘDRZEJCZYK Tematyka wykładu Idea programowania obiektowego Definicja

Bardziej szczegółowo

SCENARIUSZ LEKCJI. Streszczenie. Czas realizacji. Podstawa programowa

SCENARIUSZ LEKCJI. Streszczenie. Czas realizacji. Podstawa programowa Autorzy scenariusza: SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH

Bardziej szczegółowo

Elementy inteligencji obliczeniowej

Elementy inteligencji obliczeniowej Elementy inteligencji obliczeniowej Paweł Liskowski Institute of Computing Science, Poznań University of Technology 9 October 2018 1 / 19 Perceptron Perceptron (Rosenblatt, 1957) to najprostsza forma sztucznego

Bardziej szczegółowo

Streszczenie pracy doktorskiej Autor: mgr Wojciech Wojaczek Tytuł: Czynniki poznawcze a kryteria oceny przedsiębiorczych szans Wstęp W ciągu

Streszczenie pracy doktorskiej Autor: mgr Wojciech Wojaczek Tytuł: Czynniki poznawcze a kryteria oceny przedsiębiorczych szans Wstęp W ciągu Streszczenie pracy doktorskiej Autor: mgr Wojciech Wojaczek Tytuł: Czynniki poznawcze a kryteria oceny przedsiębiorczych szans Wstęp W ciągu ostatnich kilku dekad diametralnie zmienił się charakter prowadzonej

Bardziej szczegółowo

Dopasowanie IT/biznes

Dopasowanie IT/biznes Dopasowanie IT/biznes Dlaczego trzeba mówić o dopasowaniu IT-biznes HARVARD BUSINESS REVIEW, 2008-11-01 Dlaczego trzeba mówić o dopasowaniu IT-biznes http://ceo.cxo.pl/artykuly/51237_2/zarzadzanie.it.a.wzrost.wartosci.html

Bardziej szczegółowo

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów

Bardziej szczegółowo

Propensity score matching (PSM)

Propensity score matching (PSM) Propensity score matching (PSM) Jerzy Mycielski Uniwersytet Warszawski Maj 2010 Jerzy Mycielski (Uniwersytet Warszawski) Propensity score matching (PSM) Maj 2010 1 / 18 Badania ewaluacyjne Ocena wpływu

Bardziej szczegółowo

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy. TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy. Hipotezy dzielimy na parametryczne i nieparametryczne. Zajmiemy

Bardziej szczegółowo

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów Łukasz Piątek, Jerzy W. Grzymała-Busse Katedra Systemów Ekspertowych i Sztucznej Inteligencji, Wydział Informatyki

Bardziej szczegółowo

Jerzy Berdychowski. Informatyka. w turystyce i rekreacji. Materiały do zajęć z wykorzystaniem programu. Microsoft Excel

Jerzy Berdychowski. Informatyka. w turystyce i rekreacji. Materiały do zajęć z wykorzystaniem programu. Microsoft Excel Jerzy Berdychowski Informatyka w turystyce i rekreacji Materiały do zajęć z wykorzystaniem programu Microsoft Excel Warszawa 2006 Recenzenci prof. dr hab. inż. Tomasz Ambroziak prof. dr hab. inż. Leszek

Bardziej szczegółowo

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej

Bardziej szczegółowo

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Maja Czoków, Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2011-10-11 1 Modelowanie funkcji logicznych

Bardziej szczegółowo

w pierwszym okresie nauki w gimnazjum

w pierwszym okresie nauki w gimnazjum Wojdedh Walczak Ośrodek Pedagogiczno-Wydawniczy CHEJRON w Łodzi Związek pomiędzy dwoma typami oceniania w podstawowej a wynikami osiąganymi przez uczniów w pierwszym okresie nauki w gimnazjum Wstęp Niniejsze

Bardziej szczegółowo

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny

Bardziej szczegółowo

Indukowane Reguły Decyzyjne I. Wykład 8

Indukowane Reguły Decyzyjne I. Wykład 8 Indukowane Reguły Decyzyjne I Wykład 8 IRD Wykład 8 Plan Powtórka Krzywa ROC = Receiver Operating Characteristic Wybór modelu Statystyka AUC ROC = pole pod krzywą ROC Wybór punktu odcięcia Reguły decyzyjne

Bardziej szczegółowo

Zastosowanie metod eksploracji danych (data mining) do sterowania i diagnostyki procesów w przemyśle spożywczym

Zastosowanie metod eksploracji danych (data mining) do sterowania i diagnostyki procesów w przemyśle spożywczym POLITECHNIKA WARSZAWSKA Instytut Technik Wytwarzania Zastosowanie metod eksploracji danych (data mining) do sterowania i diagnostyki procesów w przemyśle spożywczym Marcin Perzyk Dlaczego eksploracja danych?

Bardziej szczegółowo

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Michał Witczak Data Mining 20 maja 2012 r. 1. Wstęp Dostarczone zostały nam 4 pliki, z których dwa stanowiły zbiory uczące

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z liniowym zadaniem najmniejszych

Bardziej szczegółowo

Zmienne zależne i niezależne

Zmienne zależne i niezależne Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }

Bardziej szczegółowo

Tomasz Pawlak. Zastosowania Metod Inteligencji Obliczeniowej

Tomasz Pawlak. Zastosowania Metod Inteligencji Obliczeniowej 1 Zastosowania Metod Inteligencji Obliczeniowej Tomasz Pawlak 2 Plan prezentacji Sprawy organizacyjne Wprowadzenie do metod inteligencji obliczeniowej Studium wybranych przypadków zastosowań IO 3 Dane

Bardziej szczegółowo

Programowanie i techniki algorytmiczne

Programowanie i techniki algorytmiczne Temat 2. Programowanie i techniki algorytmiczne Realizacja podstawy programowej 1) wyjaśnia pojęcie algorytmu, podaje odpowiednie przykłady algorytmów rozwiązywania różnych 2) formułuje ścisły opis prostej

Bardziej szczegółowo

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych. Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(), zwaną funkcją aproksymującą

Bardziej szczegółowo

IBM Streams MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE ORAZ NA SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE

IBM Streams MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE ORAZ NA SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE IBM Streams str. 1 Kiedy przetwarzanie strumieniowe jest przydatne gracz na giełdzie kupuje akcje, które po kilku chwilach gwałtownie tanieją, kasyno, nieświadomie, jednocześnie gościu kilku graczy, którzy

Bardziej szczegółowo

Wykład 5: Statystyki opisowe (część 2)

Wykład 5: Statystyki opisowe (część 2) Wykład 5: Statystyki opisowe (część 2) Wprowadzenie Na poprzednim wykładzie wprowadzone zostały statystyki opisowe nazywane miarami położenia (średnia, mediana, kwartyle, minimum i maksimum, modalna oraz

Bardziej szczegółowo

Skalowalność obliczeń równoległych. Krzysztof Banaś Obliczenia Wysokiej Wydajności 1

Skalowalność obliczeń równoległych. Krzysztof Banaś Obliczenia Wysokiej Wydajności 1 Skalowalność obliczeń równoległych Krzysztof Banaś Obliczenia Wysokiej Wydajności 1 Skalowalność Przy rozważaniu wydajności przetwarzania (obliczeń, komunikacji itp.) często pojawia się pojęcie skalowalności

Bardziej szczegółowo

Opinia o pracy doktorskiej pt. On active disturbance rejection in robotic motion control autorstwa mgr inż. Rafała Madońskiego

Opinia o pracy doktorskiej pt. On active disturbance rejection in robotic motion control autorstwa mgr inż. Rafała Madońskiego Prof. dr hab. inż. Tadeusz Uhl Katedra Robotyki i Mechatroniki Akademia Górniczo Hutnicza Al. Mickiewicza 30 30-059 Kraków Kraków 09.06.2016 Opinia o pracy doktorskiej pt. On active disturbance rejection

Bardziej szczegółowo

Zastosowania sieci neuronowych

Zastosowania sieci neuronowych Zastosowania sieci neuronowych klasyfikacja LABORKA Piotr Ciskowski zadanie 1. klasyfikacja zwierząt sieć jednowarstwowa żródło: Tadeusiewicz. Odkrywanie własności sieci neuronowych, str. 159 Przykład

Bardziej szczegółowo

Recenzja rozprawy doktorskiej mgr Mirona Bartosza Kursy p/t. Robust and Efficient Approach to Feature Selection and Machine Learning

Recenzja rozprawy doktorskiej mgr Mirona Bartosza Kursy p/t. Robust and Efficient Approach to Feature Selection and Machine Learning Warszawa, 30.01.2017 Prof. Dr hab. Henryk Rybinski Instytut Informatyki Politechniki Warszawskiej hrb@ii.pw.edu.pl Recenzja rozprawy doktorskiej mgr Mirona Bartosza Kursy p/t. Robust and Efficient Approach

Bardziej szczegółowo

Szukanie rozwiązań funkcji uwikłanych (równań nieliniowych)

Szukanie rozwiązań funkcji uwikłanych (równań nieliniowych) Szukanie rozwiązań funkcji uwikłanych (równań nieliniowych) Funkcja uwikłana (równanie nieliniowe) jest to funkcja, która nie jest przedstawiona jawnym przepisem, wzorem wyrażającym zależność wartości

Bardziej szczegółowo