Uczenie maszyn. Projekt: Porównanie algorytmów tworzenia drzew decyzyjnych. Politechnika Wrocławska. Michał Płodowski Michał Suszko

Wielkość: px
Rozpocząć pokaz od strony:

Download "Uczenie maszyn. Projekt: Porównanie algorytmów tworzenia drzew decyzyjnych. Politechnika Wrocławska. Michał Płodowski Michał Suszko"

Transkrypt

1 Politechnika Wrocławska Projekt: Porównanie algorytmów tworzenia drzew decyzyjnych Uczenie maszyn Michał Płodowski Michał Suszko Kamil Markuszewski

2 1. WSTĘP CEL PROJEKTU ALGORYTMY OPIS ALGORYTMU ID WADY, ZALETY I ROZWINIĘCIE ALGORYTMU ID OPIS ALGORYTMU C OPIS ALGORYTMU CART PLAN BADANIA WYNIKI BADAŃ BAZA IONOSPHERE BAZA IRIS BAZA GLASS BAZA FLAGS BAZA BALANCE_SCALE BAZA DIABETES BAZA TIC-TAC-TOE BAZA ZOO ZESTAWIENIE WYNIKÓW WNIOSKI BIBLIOGRAFIA

3 1. Wstęp W działalności badawczej, a w szczególności w teorii decyzji, drzewa decyzyjne są narzędziami wspomagającymi podejmowanie decyzji. Korzystają one z graficznego przedstawienia decyzji i ich możliwych konsekwencji, w tym zdarzenia losowego wyników, kosztów zasobów, oraz użyteczności. Drzewa decyzji wykorzystuje się do określenia najbardziej prawdopodobnej strategii, tworzenia planu, do osiągnięcia celu. Są one są tak skonstruowane aby pomóc w podejmowaniu decyzji. Człowiek posiada tę umiejętność, że na podstawie przeszłych doświadczeń potrafi trafnie sklasyfikować nowy przypadek i podjąć wobec niego dobrą decyzję. My więc chcielibyśmy tego samego nauczyć komputer. Dając mu ''bagaż'' doświadczeń, czyli informację o przypadkach określonego typu, chcielibyśmy, aby podejmował racjonalną decyzję. Racjonalną znaczy najbliższą indukowanym regułom, które w jego mniemaniu zostały użyte do podjęcia tych dobrych decyzji i jednocześnie o niskim przewidywalnym poziomie pomyłek. Do tych właśnie celów wymyślono drzewa decyzyjne, które na stałe wpisały się w poczet elementów uczenia maszynowego. Na podstawie dostarczonego zbioru faktów i reguł maszyna uczy się jak sklasyfikować nowe przypadki. Zbiór faktów na podstawie, których będziemy wnioskować nazywamy Training Set, natomiast nowe przypadki, które będziemy chcieli zaklasyfikować to Test Set. Klasyfikacja polega na stwierdzeniu w jakiej kategorii umieścić nowy przypadek, zwykle jest to podział binarny na true lub false itp. Training Set jest zbiorem rekordów o tej samej strukturze, na którą składają się pary typu atrybut/wartość atrybutu. Ponadto każdy rekord jest przyporządkowany do odpowiedniej kategorii. Na podstawie wartości tych atrybutów i Training Set próbujemy sklasyfikować nowe przypadki, w których mamy dane jedynie atrybuty i ich wartości. 2

4 Drzewa decyzyjne mają ustalony porządek: korzeń odpowiada wszystkim możliwym decyzjom każdy wewnętrzny węzeł odpowiada pewnej decyzji, którą możemy podjąć liściom odpowiadają cele Rys. 1: Przykładowe drzewo decyzyjne utworzone w programie WEKA dla bazy" iris" 3

5 Drzewem decyzyjnym (klasyfikacyjnym) określamy drzewo reprezentujące proces podziału zbioru obiektów na jednorodne klasy. W takim drzewie wewnętrzne węzły opisują sposób dokonania podziału na jednorodne klasy (dokonywany w oparciu o wartości cech obiektów), a liście klasy, do których obiekty należą. Z kolei krawędzie drzewa reprezentują wartości cech, na podstawie których dokonano podziału. Celem jest oczywiście zbudowanie drzewa jak najmniejszego (o minimalnej liczbie węzłów), po to by otrzymane reguły klasyfikacji były jak najprostsze. Bardzo ogólna postać algorytmu składa się z następujących kroków: 1. Mając zbiór obiektów S, sprawdź, czy należą one do tej samej klasy. Jeśli tak, to zakończ pracę. 2. W przeciwnym przypadku rozważ wszystkie możliwe podziały zbioru S na podzbiory,, tak, aby były one jak najbardziej jednorodne. 3. Dokonaj oceny jakości każdego z tych podziałów zgodnie z przyjętym kryterium i wybierz najlepszy z nich. 4. Podziel zbiór S w wybrany sposób. 5. Wykonaj kroki 1-4 rekurencyjnie dla każdego z podzbiorów. Rys. 2: Przykład drzewa decyzyjnego 4

6 Różnice dotyczą postaci funkcji oceniającej jakości podziału, sposobu klasyfikacji obiektów o brakujących wartościach cech, itd. Tabela 1 prezentuje znane algorytmy budowy drzew klasyfikacyjnych z podziałem na binarne i dowolne.. NAZWA ROK AUTORZY RODZAJ DRZEWA CLS 1996 Hunt,Marin, Stone binarne ACLS 1982 Paterson, Niblett binarne ID Quinlan dowolne CART 1984 Brieman, Friedman Olshen, Stone binarne ASSISTANT 1985 Kononenko binarne ID Schlimmer, Fisdher dowolne PLS 1986 Rendell dowolne C Quinlan dowolne GID Chengf, Fayyad,Irani dowolne ID Utgoff dowolne LMDT 1991 Brodley, Utgoff binarne, wielowymiarowe CHAID 1993 SPSSInc. dowolne IND 1993 Bruntine, Caruana dowolne SADT 1993 Heat,Kasif,Salzberg binarne, wielowymiarowe SE-LEARN 1993 Rymonn dowolne OC Murthy binarne, wielowymiarowe Tabela 1 Rodzaje algorytmów twrorzenia drzew decyzyjnych 5

7 2. Cel projektu Celem naszego projektu jest porównanie algorytmów tworzenia tzw. drzew decyzyjnych oraz jakości ich klasyfikacji. Zostanie do tego wykorzystany program WEKA. Jest to oprogramowanie z zakresu uczenia maszynowego (machine learning) i pozyskiwania wiedzy (data mining), stworzone w języku Java. Wybraliśmy osiem różnych baz na których przeprowadzimy nasze badania. W naszym projekcie skupimy się na najbardziej popularnych i najczęściej wykorzystywanych algorytmach tworzenia drzew czyli : ID3, C 4.5, CART. 6

8 3. Algorytmy 1. Opis algorytmu ID3 Jednym z najpopularniejszych algorytmów pozwalających na realizację systemów uczących się jest algorytm ID3 opracowany przez Rossa Quinlana. Algorytm ten służy do indukcyjnego pozyskiwania wiedzy deklaratywnej (w postaci drzewa decyzyjnego). Generalnie wnioskowanie indukcyjne opiera się na przechodzeniu od obserwacji jednostkowych do ogólniejszych wniosków. W przypadku systemów komputerowych wnioskowanie indukcyjne opiera się na generacji pewnych ogólnych zasad na podstawie istniejących danych, obserwacji, przypadków itp. Algorytm ID3 pozwala na generację drzewa decyzyjnego na podstawie szeregu przypadków jednostkowych. Drzewo decyzyjne jest w tym wypadku pewną strukturalnym zapisem wiedzy, pozwalającym na podstawie wartości pewnych cech (warunkowych) przypisać konkretne wartości cechom decyzyjnym. Bardziej formalnie drzewo decyzyjne to struktura złożona z węzłów, z których wychodzą gałęzie prowadzące do innych węzłów lub liści, lub inaczej: drzewo decyzyjne to dowolny spójny skierowany graf acykliczny, gdzie krawędzie są nazywane gałęziami, wierzchołki, z których wychodzą gałęzie nazywane są węzłami a pozostałe wierzchołki nazywane są liśćmi. Węzły w drzewie decyzyjnym wyrażają test na wartość jakiegoś atrybutu, gałęzie wychodzące z tego węzła wyrażają poszczególne wartości analizowanego atrybutu, liście zaś reprezentują kategorie decyzyjne. Aby wygenerować za pomocą algorytmu ID3 drzewo decyzyjne konieczny jest stosunkowo liczny zbiór przykładów opisujących daną sytuację. Każdy przykład ze zbioru przyjmuje jakąś wartość dla każdego atrybutu z listy atrybutów warunkowych oraz atrybutu decyzyjnego. Każdy atrybut opisujący dany przykład może przyjąć jedną z listy (osobnej dla każdego atrybutu) możliwych wartości. Taki zbiór przykładów nazywa się zbiorem uczącym. Gdy dana jest lista atrybutów wraz z listami dostępnych wartości oraz uczący, można rozpocząć budowę drzewa decyzyjnego. 7

9 Zasada działania algorytmu ID3 opiera się na tym, że wybiera się wg jakiegoś (za chwile zostanie sprecyzowane jakiego) klucza atrybut, następnie traktuje się go jako pierwszy węzeł, z którego wychodzić będzie tyle gałęzi ile wartości może przyjąć ten atrybut. Każda z gałęzi wyraża wybór którejś z wartości analizowanego atrybutu. Na końcu każdej gałęzi tworzy się nową listę przykładów, taką dla której atrybut nadrzędny ma taką wartość jaką wyraża prowadząca z niego gałąź. W tym punkcie znów dobiera się wg wspomnianego wyżej klucza atrybut, który będzie testowany w kolejnym węźle, chyba, że zaistnieje warunek stopu, wtedy na końcu gałęzi wstawia się liść, który oznacza kwalifikację wszystkich przykładów spełniających powyższe warunki do jednej kategorii atrybutu decyzyjnego. Gdy na końcu gałęzi jest nowy węzeł wyprowadza się z niego tyle gałęzi ile możliwych wartości atrybut powiązany z tym węzłem może przyjąć itd. Na końcu pozostaje zasadnicze kryterium doboru atrybutów: który z nich będzie rozpatrywany jako korzeń, które zaś będą wstawiane dalej. W tym punkcie Quinlan zaproponował wykorzystanie kryterium względnego maksymalnego przyrostu informacji. Do wyznaczenia owego względnego maksymalnego przyrostu informacji konieczne jest wyznaczenie ilości informacji, czyli entropii oraz entropii zbioru przykładów ze względu na analizowany atrybut. 8

10 Entropia: gdzie: k Liczba wartości atrybutu decyzyjnego Ei Liczba przykładów ze zbioru uczącego mających i-tą wartość atrybutu decyzyjnego Entropia zbioru przykładów ze względu na analizowany atrybut: a analizowany atrybut L liczba wartości analizowanego atrybutu E (m) przykłady, dla których a-ty atrybut miał m-tą wartość E (m) liczba przykładów, dla których a-ty atrybut miał m-tą wartość Względny maksymalny przyrost informacji: Atrybut, dla którego względny maksymalny przyrost informacji będzie największy będzie wybrany jako pierwszy węzeł (korzeń) drzewa decyzyjnego. 9

11 2. Wady, zalety i rozwinięcie algorytmu ID3 Bardzo ważną zaletą algorytmu ID3 jest to, że jeśli dane są poprawne i kompletne to zawsze da poprawne wyniki. Poza tym jest to algorytm stosunkowo szybki, nie wymagający czasochłonnych obliczeń. Niestety algorytm ID3 nie jest bez wad. Część z nich widoczne jest już na pierwszy rzut oka: przede wszystkim algorytm ten nie radzi sobie gdy zbiór przykładów jest niekompletny, tzn. gdy w przykładach są luki, bądź dane są zaszumione, czyli dla takich samych wartości atrybutów warunkowych są różne wartości atrybutu decyzyjnego. Algorytm ID3 działa tylko na wartościach dyskretnych, czyli nie potrafi wygenerować drzewa decyzyjnego dla wartości ciągłych. Inną dość charakterystyczną wadą jest możliwość budowy, przy dużej liczbie przykładów, zbyt dużych drzew decyzyjnych, które z jednej strony będą trudne do interpretacji a z drugiej, przy nieco zaszumionych danych mogą dawać nie zawsze poprawne wyniki. 10

12 Większość wspomnianych wyżej wad można jednak naprawić modyfikując nieco algorytm: Problem niekompletnych danych można rozwiązać na kilka sposobów: o Jeśli luk nie ma wiele to można przykłady z brakującymi danymi po prostu usunąć ze zbioru uczącego. Jest to rozwiązanie najprostsze ale też najmniej skuteczne. o Można brakujące dane wylosować, bądź w bardziej rozbudowanej wersji wylosować bazując na prawdopodobieństwach z jakimi pojawiają się poszczególne wartości danego atrybutu. o Można wpisać najczęściej pojawiającą się wartość danego atrybutu Wartości ciągłe można skwantyfikować. Ważne w tym punkcie jest to, by kwantyfikacja oddawała właściwe proporcje danych. Dla przykładu, gdyby jednym z atrybutów była temperatura ciała człowieka i skwantyfikowano ją na trzy wartości: wysoka, średnia i niska wg temperatur: do 15 stopni Celsjusza niska, między 20 a 30 stopni średnia i powyżej 30 wysoka, to praktycznie zawsze człowiek mieści się w zakresie temperatury wysokiej i takiego atrybut nie można by użyć do generacji drzewa. Na zaszumienie danych najlepszym rozwiązaniem jest przycięcie drzewa. Sam problem zaszumienia danych może wynikać np. z pewnej losowości w zbiorze przykładów (np. raz się zdarzyło, że ktoś poszedł grać w golfa przy niesprzyjającej temu pogodzie). Przycinanie drzewa polega na skróceniu zbyt długich gałęzi i wstawieniu na końcu wybranej gałęzi liścia zamiast węzła. W takim liściu przypisuje się taką wartość atrybutu decyzyjnego jaka najczęściej pojawia się w opisującym go zbiorze przykładów. Ważny jest oczywiście wybór punktu przycięcia drzewa, jedną z metod wybory takiego punktu może być np. odpowiedni udział procentowy jednej wartości, np.: Przycinanie drzewa jest oczywiście dobrą metodą ograniczania zbyt dużego drzewa, dla którego zbyt dokładne dopasowanie nie ma sensu (np. ze względu na losowe zaszumienie). Sam autor algorytmu ID3, Ross Quinlan po kilku latach przedstawił jego modernizację w podobny sposób rozwiązującą wspomniane wyżej problemy, czyli algorytm C

13 3. Opis algorytmu C4.5 Algorytm C4.5 (Quinlan) jest rozszerzeniem algorytmu ID3 wychodzącym naprzeciw problemom napotkanym przez ID3. Algorytm C4.5 rekurencyjnie odwiedza każdy węzeł decyzyjny, wybierając możliwy podział, dopóki dalsze podziały są możliwe. Cechy: wykorzystuje drzewa, które nie muszą być binarne, tworzy odrębne gałęzie dla każdej wartości atrybutu jakościowego, wykorzystuje pojęcia zysk informacji oraz redukcję entropii, aby wybrać optymalny podział. W algorytmie ID3 głównym kłopotem był niepotrzebny rozrost drzewa i brak mechanizmów przeciwdziałających zjawisku overfitting-u, co prowadziło do dość wysokiego poziomu błędów dla rzeczywistych danych. Aby tego uniknąć stosuje się tzw. przycinanie (ang. pruning), w celu zwiększenia generalizacji oceny. Konkretnie działa ono w następujący sposób: 1. zaczyna od liści i działa BottomUp, 2. mając dany węzeł nie będący liściem i jego poddrzewo oblicza w heurystyczny sposób wartość przewidywanego błędu dla aktualnego poddrzewa, 3. oblicza wartość przewidywanego błędu dla sytuacji, gdyby rozpatrywane poddrzewo zastąpić pojedynczym liściem z kategorią najpopularniejszą wśród liści, 4. porównuje te dwie wartości i ewentualnie dokonuje zamiany poddrzewa na pojedynczy liść propagując tę informację do swych przodków. Dzięki temu zabiegowi otrzymujemy większą generalizację oceny nowych przypadków. 12

14 4. Opis algorytmu CART Algorytm CART jest bardzo popularną metodą klasyfikacji danych służcym do budowy drzew decyzyjnych. Nazwa pochodzi od słów Classification and regression trees, czyli drzewa klasyfikacji i regresji. Jego głównymi cechami są: - wysoka skuteczność - potrafi budować drzewa zarówno w oparciu o dane dyskretne jak i ciągłe - tworzy węzły binarne (z każdego węzła odchodzą co najwyżej dwie gałęzie) - dzieli klasy rozwiązań na superklasy (grupy klas) Algorytm ten działa zarówno dla ciągłych jak i dyskretnych danych wejściowych. Dla danych ciągłych dla każdego węzła dzieli zbiór rozwiązań na dwa rozłaczne zbiory A (-, c) i B(c, ) gdzie c oznacza cechę obiektu. Dzielenie odbywa się do czasu, gdy algorytm uzna, iż dalszy podział nie zwiąkszy zysku w ocenie obiektów. Każdemu węzłowi w drzewie przypisywane są etykiety. Etykiety zależą od tego, jaka klasa występuje najczęściej w poddrzewie składającym się z potomków danego węzła. Dodatkowo etykieta może być zmodyfikowana poprzez ocenę kosztów błędnego przypisania. Ciekawą rzeczą jest wykorzystanie tak zwanych podziałów zastępczych (ang. Surrogate Splits). Ma to znaczenie, gdy dla obiektu brakuje danych dotyczących cechy. Dane te są przewidywane na podstawie innych cech. Dzięki temu obiekt, któy nie jest w pełni znany, może być przypisany do właściwej grupy. Jak większość algorytmów, CART może przerwać swoje działanie w oparciu o kryterium przerwania. Kryterium to jest określane na podstawie liczby błędnych klasyfikacji oraz liczby liści drzewa. To właście to działanie klasyfikuje algorytm jako algorytm regresji, ponieważ prócz klasyfikacji ocenia i przewiduje wynik. Istnieje kilka modyfikacji algorytmu CART, różnią się one głównie sposobem przerwania budowy drzewa oraz przypisywanie etykiet węzło. Wykorzystywany przez nas program WEKA używa własnej implementacji algorytmu CART nazwanej SimpleCart. Implementacja ta zawiera między innymi przycinanie drzewa rozwiązań. Posiada jednak sporą wadę, jaką jest brak obsługi klas numerycznych oraz nie radzi sobie z regresją. 13

15 4. Plan badania Program WEKA wymaga aby dane były w formacie.arff. Pierwszym krokiem było przekonwertowanie baz na ten właśnie format. Po wczytaniu bazy i przejściu do zakładki klasyfikacja, wybieramy drzewa i interesujący nas algorytmy. Niektóre algorytmy są zablokowane ponieważ potrzebują do działania specjalnie przefiltrowanych danych. Algorytm ID3 wymaga aby dane były w postaci dyskretnej. W tym celu należało przejść do zakładki z danymi i nałożyć na nie filtr dyskretyzacji. 14

16 5. Wyniki badao 1. Baza ionosphere Algorytm J48 SimpleCart Id3 Czas generowania drzewa [s] 0,45 0,81 0,12 Liczba liści 18 3 węzły Rozmiar drzewa 35 5 Liczba instancji Liczba poprawnie sklasyfikowanych instancji 101 (84 %) 100 (84 %) 104 (87 %) Liczba błędnie sklasyfikowanych instancji 18 (15 %) 19 (15 %) 13 (10 %) Liczba niesklasyfikowanych instancji Współczynnik Kappa 0,6904 0,6750 0,7746 Średni błąd bezwzględny 0,1562 0,1753 0,1111 Błąd średniokwadratowy 0,3793 0,3957 0,3333 Średni błąd względny [%] 32, , ,5644 Względny błąd średniokwadratowy[%] 73, , ,5077 Precyzja - średnia ważona 0,851 0,840 0, Baza iris Algorytm J48 SimpleCart Id3 Czas generowania drzewa [s] 0,01 0,01 0,01 Liczba liści 5 5 węzłów Rozmiar drzewa 9 9 Liczba instancji Liczba poprawnie sklasyfikowanych instancji 49 (96 %) 49 (96 %) 49 (96 %) Liczba błędnie sklasyfikowanych instancji 2 (3 %) 2 (3 %) 2 (3 %) Liczba niesklasyfikowanych instancji Współczynnik Kappa 0,9408 0,9408 0,9408 Średni błąd bezwzględny 0,0396 0,0396 0,0327 Błąd średniokwadratowy 0,1579 0,1579 0,1429 Średni błąd względny [%] 8,8979 8,8979 7,3360 Względny błąd średniokwadratowy[%] 33, , ,2299 Precyzja - średnia ważona 0,965 0,965 0,965 15

17 3. Baza glass Algorytm J48 SimpleCart Id3 Czas generowania drzewa [s] 0,05 0,08 0,00 Liczba liści 30 8 węzłów Rozmiar drzewa Liczba instancji Liczba poprawnie sklasyfikowanych instancji 42 (57 %) 52 (71 %) 50 (68 %) Liczba błędnie sklasyfikowanych instancji 31 (42, %) 21 (28 %) 21 (28 %) Liczba niesklasyfikowanych instancji Współczynnik Kappa 0,4259 0,5901 0,5926 Średni błąd bezwzględny 0,1246 0,1063 0,0983 Błąd średniokwadratowy 0,3287 0,2610 0,2753 Średni błąd względny [%] 58, , ,7829 Względny błąd średniokwadratowy[%] 101, , ,7318 Precyzja - średnia ważona 0,603 0,720 0, Baza flags Niestety algorytm ID3 nie potrafił zbudować drzewa w oparciu o dane z tej bazy, nie wpłynęło na to także zastosowanie filtra dyskretyzacji. Algorytm J48 SimpleCart Id3 Czas generowania drzewa [s] 0,06 0,87 Liczba instancji Liczba poprawnie sklasyfikowanych instancji 32 (48 %) 23 (34 %) Liczba błędnie sklasyfikowanych instancji 34 ( 51 %) 43 (65 %) Liczba niesklasyfikowanych instancji 0 0 Współczynnik Kappa 0,3218 0,0000 Średni błąd bezwzględny 0,1426 0,1908 Błąd średniokwadratowy 0,2992 0,3105 Średni błąd względny [%] 74, ,1462 Względny błąd średniokwadratowy[%] 96, Precyzja - średnia ważona 0,425 0,121 16

18 5. Baza balance_scale Algorytm J48 SimpleCart Id3 Czas generowania drzewa [s] 0 0,05 0,00 Liczba instancji Liczba poprawnie sklasyfikowanych instancji 157 (74 %) 157 (74 %) 141 (66 %) Liczba błędnie sklasyfikowanych instancji 55 (25 %) 55 (25%) 71 (33 %) Liczba niesklasyfikowanych instancji 0 0 0,00 Współczynnik Kappa 0,5495 0,5495 0,4006 Średni błąd bezwzględny 0,1889 0,2005 0,2224 Błąd średniokwadratowy 0,3651 0,3723 0,3516 Średni błąd względny [%] 49, , ,3137 Względny błąd średniokwadratowy[%] 83, ,826 80,1041 Precyzja - średnia ważona 0,738 0,738 0, Baza diabetes Algorytm J48 SimpleCart Id3 Czas generowania drzewa [s] 0,06 0,17 0,02 Liczba liści 11,00 10,00 Rozmiar drzewa 17,00 19,00 Liczba instancji 261, Liczba poprawnie sklasyfikowanych instancji 209 (80 %) 210 (80 %) 204 (78 %) Liczba błędnie sklasyfikowanych instancji 52 (19 %) 51 (19 %) 57 (21 %) Liczba niesklasyfikowanych instancji Współczynnik Kappa 0,1525 0,0000 0,4447 Średni błąd bezwzględny 0,2313 0,3372 0,2610 Błąd średniokwadratowy 0,3412 0,3983 0,3863 Średni błąd względny [%] 68, , ,8719 Względny błąd średniokwadratowy[%] 85, , ,5288 Precyzja - średnia ważona 0,586 0,551 0,598 17

19 7. Baza tic-tac-toe Czas generowania drzewa [s] 0,11 0 0,00 Liczba instancji Liczba poprawnie sklasyfikowanych instancji 305 (93 %) 274 (84 %) 256 (78 %) Liczba błędnie sklasyfikowanych instancji 21 (6 %) 52 (15 %) 63 (19 %) Liczba niesklasyfikowanych instancji 0 0,00 7 (2,1472 %) Współczynnik Kappa 0,8506 0,61 0,532 Średni błąd bezwzględny 0,0679 0,206 0,1975 Błąd średniokwadratowy 0,2154 0,3729 0,4444 Średni błąd względny [%] 15, , ,1043 Względny błąd średniokwadratowy[%] 46, , ,7889 Precyzja - średnia ważona 0,936 0,837 0, Baza zoo Algorytm J48 SimpleCart Id3 Czas generowania drzewa [s] 0,02 0,13 Liczba instancji Liczba poprawnie sklasyfikowanych instancji 30 (88 %) 28 (82 %) Liczba błędnie sklasyfikowanych instancji 4 (11 %) 6 (17 %) Liczba niesklasyfikowanych instancji 0 0 Współczynnik Kappa 0,7580 0,5901 Średni błąd bezwzględny 0,1405 0,3171 Błąd średniokwadratowy 0,3345 0,3834 Średni błąd względny [%] 28, ,0000 Względny błąd średniokwadratowy[%] 67, ,0000 Precyzja - średnia ważona 0,844 0,457 Niestety algorytm ID3 nie potrafił zbudować drzewa w oparciu o dane z tej bazy, nie wpłynęło na to także zastosowanie filtra dyskretyzacji. 18

20 9. Zestawienie wyników 120, ,000 80,000 60,000 40,000 C4.5 SimpleCart Id3 20,000 0,000 Wykres 1: Zestawienie czasu wykonywania się algorytmów 120, ,000 80,000 60,000 40,000 C4.5 SimpleCart Id3 20,000 0,000 Wykres 2: Zestawienie współczynnika Kappa 19

21 120, ,000 80,000 60,000 40,000 C4.5 SimpleCart Id3 20,000 0,000 Wykres 3: Zestawienie precyzji 120, ,000 80,000 60,000 40,000 C4.5 SimpleCart Id3 20,000 0,000 Wykres 4: Zestawienie procentowe poprawnie sklasyfikowanych instancji 20

22 6. Wnioski. Czas generowania drzewa przez poszczególne algorytmy zależy do wielkości bazy testowej. Najszybciej generował je algorytm Id3, najwolniej Cart. Im baza jest większa, tym bardziej widoczna jest różnica. Jeśli chodzi o jakość klasyfikacji, czyli Liczba poprawnie sklasyfikowanych instancji, to najlepiej dla baz ionosphere i iris najlepiej zachowywał się algorytm Id3 (w przypadku bazy glass był to Cart), jednak zdarzało mu się nie klasyfikować instancji (tak jak dla baz ionosphere i glass). Współczynnik Kappa Cohena ( ) określa stopień zgodności dwukrotnych pomiarów tej samej zmiennej w różnych warunkach. Pomiaru tej samej zmiennej może dokonać 2 różnych obserwatorów (odtwarzalność) lub jeden obserwator może dokonać pomiaru dwukrotnie (powtarzalność). Współczynnik wyznacza się dla zależnych zmiennych kategorialnych a jego wartość zawiera się w przedziale od -1 do 1. Wartość 1 oznacza pełną zgodność, wartość 0 oznacza zgodność na poziomie takim samym jaki powstałby dla losowego rozłożenia danych w tabeli kontyngencji. Poziom pomiędzy 0 a -1 jest w praktyce nie wykorzystywany. W badaniach najlepszy wynik, tj. współczynnik Kappa jak najbliższy 1 osiągał algorytm Id3, następny był J48, na końcu Cart. Można zaobserwować iż algorytm ID3 w większości przypadków miał najmniejszą precyzję w klasyfikacji. Bardzo dużym minusem tego algorytmu było iż nie dopuszcza on danych numerycznych ani wartości brakujących. Im większy była Liczba instancji w bazie, tym bardziej prawidłowa była klasyfikacja, czego należało się oczywiście spodziewać. Algorytm C4.5 okazał się trochę wolniejszy od poprzedników, ale za to miał największy procent poprawnie sklasyfikowanych obiektów. Jak widać z zaprezentowanych badań, drzewo decyzyjne sprawdza się jako metoda analizy dużych zestawów danych. Atutem nie do przecenienia jest szybkość wygenerowania modelu przy jednoczesnej dbałości o wysoką jakość otrzymanych wyników. 21

23 7. Bibliografia. 1. Quinlan J.R. Induction of decision trees. Machine learning, 1986, 1, ;

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

Co to są drzewa decyzji

Co to są drzewa decyzji Drzewa decyzji Co to są drzewa decyzji Drzewa decyzji to skierowane grafy acykliczne Pozwalają na zapis reguł w postaci strukturalnej Przyspieszają działanie systemów regułowych poprzez zawężanie przestrzeni

Bardziej szczegółowo

Drzewa decyzyjne i lasy losowe

Drzewa decyzyjne i lasy losowe Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM

Bardziej szczegółowo

Metody klasyfikacji danych - część 1 p.1/24

Metody klasyfikacji danych - część 1 p.1/24 Metody klasyfikacji danych - część 1 Inteligentne Usługi Informacyjne Jerzy Dembski Metody klasyfikacji danych - część 1 p.1/24 Plan wykładu - Zadanie klasyfikacji danych - Przeglad problemów klasyfikacji

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska BUDOWA DRZEW DECYZYJNYCH Drzewa decyzyjne są metodą indukcyjnego

Bardziej szczegółowo

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

8. Drzewa decyzyjne, bagging, boosting i lasy losowe Algorytmy rozpoznawania obrazów 8. Drzewa decyzyjne, bagging, boosting i lasy losowe dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Drzewa decyzyjne Drzewa decyzyjne (ang. decision trees), zwane

Bardziej szczegółowo

Indukowane Reguły Decyzyjne I. Wykład 3

Indukowane Reguły Decyzyjne I. Wykład 3 Indukowane Reguły Decyzyjne I Wykład 3 IRD Wykład 3 Plan Powtórka Grafy Drzewa klasyfikacyjne Testy wstęp Klasyfikacja obiektów z wykorzystaniem drzewa Reguły decyzyjne generowane przez drzewo 2 Powtórzenie

Bardziej szczegółowo

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Michał Witczak Data Mining 20 maja 2012 r. 1. Wstęp Dostarczone zostały nam 4 pliki, z których dwa stanowiły zbiory uczące

Bardziej szczegółowo

Algorytmy klasyfikacji

Algorytmy klasyfikacji Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe

Bardziej szczegółowo

Drzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber

Drzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber Drzewa decyzyjne Inteligentne Obliczenia Wydział Mechatroniki Politechniki Warszawskiej Anna Sztyber INO (IAiR PW) Drzewa decyzyjne Anna Sztyber / Drzewa decyzyjne w podstawowej wersji algorytm klasyfikacji

Bardziej szczegółowo

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie Wprowadzenie Konstrukcja binarnych drzew klasyfikacyjnych polega na sekwencyjnym dzieleniu podzbiorów przestrzeni próby X na dwa rozłączne i dopełniające się podzbiory, rozpoczynając od całego zbioru X.

Bardziej szczegółowo

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006 SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu

Bardziej szczegółowo

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania

Bardziej szczegółowo

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Algorytmy metaheurystyczne Wykład 11. Piotr Syga Algorytmy metaheurystyczne Wykład 11 Piotr Syga 22.05.2017 Drzewa decyzyjne Idea Cel Na podstawie przesłanek (typowo zbiory rozmyte) oraz zbioru wartości w danych testowych, w oparciu o wybrane miary,

Bardziej szczegółowo

Konspekt do zajęć: Statystyczne metody analizy danych. Agnieszka Nowak-Brzezińska 14 maja 2012

Konspekt do zajęć: Statystyczne metody analizy danych. Agnieszka Nowak-Brzezińska 14 maja 2012 Drzewa klasyfikacyjne Konspekt do zajęć: Statystyczne metody analizy danych Agnieszka Nowak-Brzezińska 14 maja 2012 1 Wprowadzenie Drzewa klasyfikacyjne 1 jako reprezentacja wiedzy o klasyfikacji są dość

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Agnieszka Nowak Brzezińska

Agnieszka Nowak Brzezińska Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska DRZEWO REGRESYJNE Sposób konstrukcji i przycinania

Bardziej szczegółowo

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne Reprezentacja wiedzy w postaci drzew decyzyjnych entropia, przyrost informacji algorytmy ID3, C4.5 problem przeuczenia wyznaczanie reguł rzykładowe drzewo decyzyjne

Bardziej szczegółowo

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład Data Mining Wykład 5 Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny Indeks Gini Popularnym kryterium podziału, stosowanym w wielu produktach komercyjnych, jest indeks Gini Algorytm SPRINT

Bardziej szczegółowo

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18 Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)

Bardziej szczegółowo

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L, Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia

Bardziej szczegółowo

Drzewa klasyfikacyjne algorytm podstawowy

Drzewa klasyfikacyjne algorytm podstawowy DRZEWA DECYZYJNE Drzewa klasyfikacyjne algorytm podstawowy buduj_drzewo(s przykłady treningowe, A zbiór atrybutów) { utwórz węzeł t (korzeń przy pierwszym wywołaniu); if (wszystkie przykłady w S należą

Bardziej szczegółowo

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną

Bardziej szczegółowo

Wprowadzenie do klasyfikacji

Wprowadzenie do klasyfikacji Wprowadzenie do klasyfikacji ZeroR Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F Tutaj jest więcej obiektów klasy T, więc klasyfikator

Bardziej szczegółowo

SZTUCZNA INTELIGENCJA

SZTUCZNA INTELIGENCJA SZTUCZNA INTELIGENCJA WYKŁAD 4. UCZENIE SIĘ INDUKCYJNE Częstochowa 24 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska WSTĘP Wiedza pozyskana przez ucznia ma charakter odwzorowania

Bardziej szczegółowo

Wybrane zagadnienia uczenia maszynowego. Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec

Wybrane zagadnienia uczenia maszynowego. Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec Wybrane zagadnienia uczenia maszynowego Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec Przygotowane na podstawie T. Mitchell, Machine Learning S.J. Russel, P. Norvig, Artificial Intelligence

Bardziej szczegółowo

Wprowadzenie do uczenia maszynowego

Wprowadzenie do uczenia maszynowego Wprowadzenie do uczenia maszynowego Agnieszka Ławrynowicz 12 stycznia 2017 Co to jest uczenie maszynowe? dziedzina nauki, która zajmuje się sprawianiem aby komputery mogły uczyć się bez ich zaprogramowania

Bardziej szczegółowo

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew.

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew. PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew. Wprowadzenie Drzewo klasyfikacyjne Wprowadzenie Formalnie : drzewo

Bardziej szczegółowo

Testowanie modeli predykcyjnych

Testowanie modeli predykcyjnych Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności

Bardziej szczegółowo

Uczenie się maszyn. Dariusz Banasiak. Katedra Informatyki Technicznej Wydział Elektroniki

Uczenie się maszyn. Dariusz Banasiak. Katedra Informatyki Technicznej Wydział Elektroniki Dariusz Banasiak Katedra Informatyki Technicznej Wydział Elektroniki Machine Learning (uczenie maszynowe, uczenie się maszyn, systemy uczące się) interdyscyplinarna nauka, której celem jest stworzenie

Bardziej szczegółowo

Indukowane Reguły Decyzyjne I. Wykład 8

Indukowane Reguły Decyzyjne I. Wykład 8 Indukowane Reguły Decyzyjne I Wykład 8 IRD Wykład 8 Plan Powtórka Krzywa ROC = Receiver Operating Characteristic Wybór modelu Statystyka AUC ROC = pole pod krzywą ROC Wybór punktu odcięcia Reguły decyzyjne

Bardziej szczegółowo

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Jacek Szcześniak Jerzy Błaszczyński Roman Słowiński Poznań, 5.XI.2013r. Konspekt Wstęp Wprowadzenie Metody typu wrapper Nowe metody

Bardziej szczegółowo

Elementy modelowania matematycznego

Elementy modelowania matematycznego Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski

Bardziej szczegółowo

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2 Klasyfikacja Indeks Gini Zysk informacyjny Klasyfikacja wykład 2 Kontynuujemy prezentacje metod klasyfikacji. Na wykładzie zostaną przedstawione dwa podstawowe algorytmy klasyfikacji oparte o indukcję

Bardziej szczegółowo

Bazy danych TERMINOLOGIA

Bazy danych TERMINOLOGIA Bazy danych TERMINOLOGIA Dane Dane są wartościami przechowywanymi w bazie danych. Dane są statyczne w tym sensie, że zachowują swój stan aż do zmodyfikowania ich ręcznie lub przez jakiś automatyczny proces.

Bardziej szczegółowo

Podstawy Informatyki. Metody dostępu do danych

Podstawy Informatyki. Metody dostępu do danych Podstawy Informatyki c.d. alina.momot@polsl.pl http://zti.polsl.pl/amomot/pi Plan wykładu 1 Bazy danych Struktury danych Średni czas odszukania rekordu Drzewa binarne w pamięci dyskowej 2 Sformułowanie

Bardziej szczegółowo

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość Dwie metody Klasyczna metoda histogramu jako narzędzie do postawienia hipotezy, jaki rozkład prawdopodobieństwa pasuje do danych Indukcja drzewa decyzyjnego jako metoda wykrycia klasyfikatora ukrytego

Bardziej szczegółowo

Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski

Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski : idea Indeksowanie: Drzewo decyzyjne, przeszukiwania binarnego: F = {5, 7, 10, 12, 13, 15, 17, 30, 34, 35, 37, 40, 45, 50, 60} 30 12 40 7 15 35 50 Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski

Bardziej szczegółowo

OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA

OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) 16.01.2003 Algorytmy i Struktury Danych PIŁA ALGORYTMY ZACHŁANNE czas [ms] Porównanie Algorytmów Rozwiązyjących problem TSP 100 000 000 000,000 10 000 000

Bardziej szczegółowo

Matematyka dyskretna - 7.Drzewa

Matematyka dyskretna - 7.Drzewa Matematyka dyskretna - 7.Drzewa W tym rozdziale zajmiemy się drzewami: specjalnym przypadkiem grafów. Są one szczególnie przydatne do przechowywania informacji, umożliwiającego szybki dostęp do nich. Definicja

Bardziej szczegółowo

Systemy uczące się wykład 2

Systemy uczące się wykład 2 Systemy uczące się wykład 2 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 19 X 2018 Podstawowe definicje Fakt; Przesłanka; Konkluzja; Reguła; Wnioskowanie. Typy wnioskowania

Bardziej szczegółowo

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów

Bardziej szczegółowo

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny

Bardziej szczegółowo

ED Laboratorium 3. Drzewa decyzyjne

ED Laboratorium 3. Drzewa decyzyjne ED Laboratorium Drzewa decyzyjne 1 Drzewa decyzyjne Algorytmy indukcji drzew decyzyjnych to jeden z klasycznych algorytmów uczenia maszynowego służący do rozwiązywania problemu klasyfikacji. Drzewa decyzyjne

Bardziej szczegółowo

Systemy uczące się Lab 4

Systemy uczące się Lab 4 Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego

Bardziej szczegółowo

Grafy (3): drzewa. Wykłady z matematyki dyskretnej dla informatyków i teleinformatyków. UTP Bydgoszcz

Grafy (3): drzewa. Wykłady z matematyki dyskretnej dla informatyków i teleinformatyków. UTP Bydgoszcz Grafy (3): drzewa Wykłady z matematyki dyskretnej dla informatyków i teleinformatyków UTP Bydgoszcz 13 (Wykłady z matematyki dyskretnej) Grafy (3): drzewa 13 1 / 107 Drzewo Definicja. Drzewo to graf acykliczny

Bardziej szczegółowo

Metody selekcji cech

Metody selekcji cech Metody selekcji cech A po co to Często mamy do dyspozycji dane w postaci zbioru cech lecz nie wiemy które z tych cech będą dla nas istotne. W zbiorze cech mogą wystąpić cechy redundantne niosące identyczną

Bardziej szczegółowo

Klasyfikacja metodą Bayesa

Klasyfikacja metodą Bayesa Klasyfikacja metodą Bayesa Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski warunkowe i bezwarunkowe 1. Klasyfikacja Bayesowska jest klasyfikacją statystyczną. Pozwala przewidzieć prawdopodobieństwo

Bardziej szczegółowo

Projekt Sieci neuronowe

Projekt Sieci neuronowe Projekt Sieci neuronowe Chmielecka Katarzyna Gr. 9 IiE 1. Problem i dane Sieć neuronowa miała za zadanie nauczyć się klasyfikować wnioski kredytowe. W projekcie wykorzystano dane pochodzące z 110 wniosków

Bardziej szczegółowo

DRZEWA KLASYFIKACYJNE W BADANIACH SATYSFAKCJI

DRZEWA KLASYFIKACYJNE W BADANIACH SATYSFAKCJI StatSoft Polska, tel. (1) 48400, (601) 414151, info@statsoft.pl, www.statsoft.pl DRZEWA KLASYFIKACYJNE W BADANIACH SATYSFAKCJI I LOJALNOŚCI KLIENTÓW Mariusz Łapczyński Akademia Ekonomiczna w Krakowie,

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela

Statystyka w pracy badawczej nauczyciela Statystyka w pracy badawczej nauczyciela Wykład 1: Terminologia badań statystycznych dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka (1) Statystyka to nauka zajmująca się zbieraniem, badaniem

Bardziej szczegółowo

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań Anna Manerowska, Michal Kozakiewicz 2.12.2009 1 Wstęp Jako projekt na przedmiot MEUM (Metody Ewolucyjne Uczenia Maszyn)

Bardziej szczegółowo

Algorytmy klasyfikacji

Algorytmy klasyfikacji Algorytmy klasyfikacji Konrad Miziński Politechnika Warszawska Wydział Elektroniki i Technik Informacyjnych Warszawa, Polska k.mizinski@stud.elka.pw.edu.pl Streszczenie Niniejszy dokument opisuje jedna

Bardziej szczegółowo

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu

Bardziej szczegółowo

Klasyfikacja. Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji. Eksploracja danych. Klasyfikacja wykład 1

Klasyfikacja. Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji. Eksploracja danych. Klasyfikacja wykład 1 Klasyfikacja Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji Klasyfikacja wykład 1 Niniejszy wykład poświęcimy kolejnej metodzie eksploracji danych klasyfikacji. Na początek

Bardziej szczegółowo

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH 1. Czym jest eksploracja danych Eksploracja danych definiowana jest jako zbiór technik odkrywania nietrywialnych zależności i schematów w dużych

Bardziej szczegółowo

PODEJMOWANIE DECYZJI W WARUNKACH NIEPEŁNEJ INFORMACJI

PODEJMOWANIE DECYZJI W WARUNKACH NIEPEŁNEJ INFORMACJI Wprowadzenie do badań operacyjnych z komputerem Opisy programów, ćwiczenia komputerowe i zadania. T. Trzaskalik (red.) Rozdział 5 PODEJMOWANIE DECYZJI W WARUNKACH NIEPEŁNEJ INFORMACJI 5.2. Ćwiczenia komputerowe

Bardziej szczegółowo

Rozpoznawanie obrazów

Rozpoznawanie obrazów Rozpoznawanie obrazów Laboratorium Python Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest implementacja liniowego zadania

Bardziej szczegółowo

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Kompresja danych Streszczenie Studia Dzienne Wykład 10, 1 Kwantyzacja wektorowa Kompresja danych Streszczenie Studia Dzienne Wykład 10, 28.04.2006 Kwantyzacja wektorowa: dane dzielone na bloki (wektory), każdy blok kwantyzowany jako jeden element danych. Ogólny

Bardziej szczegółowo

1 Wprowadzenie do algorytmiki

1 Wprowadzenie do algorytmiki Teoretyczne podstawy informatyki - ćwiczenia: Prowadzący: dr inż. Dariusz W Brzeziński 1 Wprowadzenie do algorytmiki 1.1 Algorytm 1. Skończony, uporządkowany ciąg precyzyjnie i zrozumiale opisanych czynności

Bardziej szczegółowo

2012-01-16 PLAN WYKŁADU BAZY DANYCH INDEKSY - DEFINICJE. Indeksy jednopoziomowe Indeksy wielopoziomowe Indeksy z użyciem B-drzew i B + -drzew

2012-01-16 PLAN WYKŁADU BAZY DANYCH INDEKSY - DEFINICJE. Indeksy jednopoziomowe Indeksy wielopoziomowe Indeksy z użyciem B-drzew i B + -drzew 0-0-6 PLAN WYKŁADU Indeksy jednopoziomowe Indeksy wielopoziomowe Indeksy z użyciem B-drzew i B + -drzew BAZY DANYCH Wykład 9 dr inż. Agnieszka Bołtuć INDEKSY - DEFINICJE Indeksy to pomocnicze struktury

Bardziej szczegółowo

Instrukcje dla zawodników

Instrukcje dla zawodników Instrukcje dla zawodników Nie otwieraj arkusza z zadaniami dopóki nie zostaniesz o to poproszony. Instrukcje poniżej zostaną ci odczytane i wyjaśnione. 1. Arkusz składa się z 3 zadań. 2. Każde zadanie

Bardziej szczegółowo

< K (2) = ( Adams, John ), P (2) = adres bloku 2 > < K (1) = ( Aaron, Ed ), P (1) = adres bloku 1 >

< K (2) = ( Adams, John ), P (2) = adres bloku 2 > < K (1) = ( Aaron, Ed ), P (1) = adres bloku 1 > Typy indeksów Indeks jest zakładany na atrybucie relacji atrybucie indeksowym (ang. indexing field). Indeks zawiera wartości atrybutu indeksowego wraz ze wskaźnikami do wszystkich bloków dyskowych zawierających

Bardziej szczegółowo

Sortowanie - wybrane algorytmy

Sortowanie - wybrane algorytmy Sortowanie - wybrane algorytmy Aleksandra Wilkowska Wydział Matematyki - Katedra Matematyki Stosowanej Politechika Wrocławska 2 maja 2018 1 / 39 Plan prezentacji Złożoność obliczeniowa Sortowanie bąbelkowe

Bardziej szczegółowo

Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta

Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta www.michalbereta.pl W tej części: Zachowanie wytrenowanego modelu w celu późniejszego użytku Filtrowanie danych (brakujące etykiety

Bardziej szczegółowo

Aproksymacja funkcji a regresja symboliczna

Aproksymacja funkcji a regresja symboliczna Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą

Bardziej szczegółowo

Metody teorii gier. ALP520 - Wykład z Algorytmów Probabilistycznych p.2

Metody teorii gier. ALP520 - Wykład z Algorytmów Probabilistycznych p.2 Metody teorii gier ALP520 - Wykład z Algorytmów Probabilistycznych p.2 Metody teorii gier Cel: Wyprowadzenie oszacowania dolnego na oczekiwany czas działania dowolnego algorytmu losowego dla danego problemu.

Bardziej szczegółowo

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne Przypominajka: 152 drzewo filogenetyczne to drzewo, którego liśćmi są istniejące gatunki, a węzły wewnętrzne mają stopień większy niż jeden i reprezentują

Bardziej szczegółowo

Analiza składowych głównych. Wprowadzenie

Analiza składowych głównych. Wprowadzenie Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących

Bardziej szczegółowo

WSTĘP DO INFORMATYKI. Drzewa i struktury drzewiaste

WSTĘP DO INFORMATYKI. Drzewa i struktury drzewiaste Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej WSTĘP DO INFORMATYKI Adrian Horzyk Drzewa i struktury drzewiaste www.agh.edu.pl DEFINICJA DRZEWA Drzewo

Bardziej szczegółowo

Spacery losowe generowanie realizacji procesu losowego

Spacery losowe generowanie realizacji procesu losowego Spacery losowe generowanie realizacji procesu losowego Michał Krzemiński Streszczenie Omówimy metodę generowania trajektorii spacerów losowych (błądzenia losowego), tj. szczególnych procesów Markowa z

Bardziej szczegółowo

Definicja pliku kratowego

Definicja pliku kratowego Pliki kratowe Definicja pliku kratowego Plik kratowy (ang grid file) jest strukturą wspierająca realizację zapytań wielowymiarowych Uporządkowanie rekordów, zawierających dane wielowymiarowe w pliku kratowym,

Bardziej szczegółowo

Data Mining Wykład 4. Plan wykładu

Data Mining Wykład 4. Plan wykładu Data Mining Wykład 4 Klasyfikacja danych Klasyfikacja poprzez indukcje drzew decyzyjnych Plan wykładu Sformułowanie problemu Kryteria oceny metod klasyfikacji Metody klasyfikacji Klasyfikacja poprzez indukcje

Bardziej szczegółowo

Pattern Classification

Pattern Classification Pattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John Wiley & Sons, 2000 with the permission of the authors

Bardziej szczegółowo

Optymalizacja parametrów w strategiach inwestycyjnych dla event-driven tradingu - metodologia badań

Optymalizacja parametrów w strategiach inwestycyjnych dla event-driven tradingu - metodologia badań Raport 1/2015 Optymalizacja parametrów w strategiach inwestycyjnych dla event-driven tradingu - metodologia badań autor: Michał Osmoła INIME Instytut nauk informatycznych i matematycznych z zastosowaniem

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji

Bardziej szczegółowo

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I Wojciech Kotłowski Instytut Informatyki Politechniki Poznańskiej email: imię.nazwisko@cs.put.poznan.pl pok. 2 (CW) tel. (61)665-2936 konsultacje:

Bardziej szczegółowo

INDUKCJA DRZEW DECYZYJNYCH

INDUKCJA DRZEW DECYZYJNYCH INDUKCJA DRZEW DECYZYJNYCH 1. Pojęcia podstawowe. 2. Idea algorytmów TDIT. 3. Kryteria oceny atrybutów entropia. 4. "Klasyczna" postać algorytmu ID3. 5. Przykład ilustracyjny. 6. Transformacja drzewa do

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z liniowym zadaniem najmniejszych

Bardziej szczegółowo

Złożoność i zagadnienia implementacyjne. Wybierz najlepszy atrybut i ustaw jako test w korzeniu. Stwórz gałąź dla każdej wartości atrybutu.

Złożoność i zagadnienia implementacyjne. Wybierz najlepszy atrybut i ustaw jako test w korzeniu. Stwórz gałąź dla każdej wartości atrybutu. Konwersatorium Matematyczne Metody Ekonomii Narzędzia matematyczne w eksploracji danych Indukcja drzew decyzyjnych Wykład 3 - część 2 Marcin Szczuka http://www.mimuw.edu.pl/ szczuka/mme/ Plan wykładu Generowanie

Bardziej szczegółowo

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ Celem ćwiczenia jest zapoznanie się ze sposobem działania sieci neuronowych typu MLP (multi-layer perceptron) uczonych nadzorowaną (z nauczycielem,

Bardziej szczegółowo

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. Metoda CART. MiNI PW

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. Metoda CART. MiNI PW WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. Metoda CART MiNI PW Drzewa służą do konstrukcji klasyfikatorów prognozujących Y {1, 2,..., g} na podstawie p-wymiarowego wektora atrybutów (dowolne atrybuty:

Bardziej szczegółowo

Algorytmy i struktury danych. Drzewa: BST, kopce. Letnie Warsztaty Matematyczno-Informatyczne

Algorytmy i struktury danych. Drzewa: BST, kopce. Letnie Warsztaty Matematyczno-Informatyczne Algorytmy i struktury danych Drzewa: BST, kopce Letnie Warsztaty Matematyczno-Informatyczne Drzewa: BST, kopce Definicja drzewa Drzewo (ang. tree) to nieskierowany, acykliczny, spójny graf. Drzewo może

Bardziej szczegółowo

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner Wydział Matematyki i Nauk Informacyjnych Politechnika Warszawska Elementy nieprzystające Definicja odrzucania Klasyfikacja

Bardziej szczegółowo

Uwaga: szarych kropek po pokolorowaniu nie uwzględniaj w klasyfikowaniu kolejnych szarych.

Uwaga: szarych kropek po pokolorowaniu nie uwzględniaj w klasyfikowaniu kolejnych szarych. Inteligencja obliczeniowa stud. niestac. Laboratorium 4: Zadanie klasyfikacji poznanie trzech algorytmów klasyfikujących: knn, NaiveBayes, drzewo decyzyjne. Przy pomnijmy sobie bazę danych z irysami. Na

Bardziej szczegółowo

WEKA klasyfikacja z użyciem sztucznych sieci neuronowych

WEKA klasyfikacja z użyciem sztucznych sieci neuronowych WEKA klasyfikacja z użyciem sztucznych sieci neuronowych 1 WEKA elementy potrzebne do zadania WEKA (Data mining software in Java http://www.cs.waikato.ac.nz/ml/weka/) jest narzędziem zawierającym zbiór

Bardziej szczegółowo

OpenAI Gym. Adam Szczepaniak, Kamil Walkowiak

OpenAI Gym. Adam Szczepaniak, Kamil Walkowiak OpenAI Gym Adam Szczepaniak, Kamil Walkowiak Plan prezentacji Programowanie agentowe Uczenie przez wzmacnianie i problemy związane z rozwojem algorytmów Charakterystyka OpenAI Gym Biblioteka gym Podsumowanie

Bardziej szczegółowo

Zofia Kruczkiewicz, Algorytmu i struktury danych, Wykład 14, 1

Zofia Kruczkiewicz, Algorytmu i struktury danych, Wykład 14, 1 Wykład Algorytmy grafowe metoda zachłanna. Właściwości algorytmu zachłannego:. W przeciwieństwie do metody programowania dynamicznego nie występuje etap dzielenia na mniejsze realizacje z wykorzystaniem

Bardziej szczegółowo

Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle

Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle Paweł Szołtysek 12 czerwca 2008 Streszczenie Planowanie produkcji jest jednym z problemów optymalizacji dyskretnej,

Bardziej szczegółowo

WYKŁAD 6. Reguły decyzyjne

WYKŁAD 6. Reguły decyzyjne Wrocław University of Technology WYKŁAD 6 Reguły decyzyjne autor: Maciej Zięba Politechnika Wrocławska Reprezentacje wiedzy Wiedza w postaci reguł decyzyjnych Wiedza reprezentowania jest w postaci reguł

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

ZASADY PROGRAMOWANIA KOMPUTERÓW ZAP zima 2014/2015. Drzewa BST c.d., równoważenie drzew, kopce.

ZASADY PROGRAMOWANIA KOMPUTERÓW ZAP zima 2014/2015. Drzewa BST c.d., równoważenie drzew, kopce. POLITECHNIKA WARSZAWSKA Instytut Automatyki i Robotyki ZASADY PROGRAMOWANIA KOMPUTERÓW ZAP zima 204/205 Język programowania: Środowisko programistyczne: C/C++ Qt Wykład 2 : Drzewa BST c.d., równoważenie

Bardziej szczegółowo

Maciej Piotr Jankowski

Maciej Piotr Jankowski Reduced Adder Graph Implementacja algorytmu RAG Maciej Piotr Jankowski 2005.12.22 Maciej Piotr Jankowski 1 Plan prezentacji 1. Wstęp 2. Implementacja 3. Usprawnienia optymalizacyjne 3.1. Tablica ekspansji

Bardziej szczegółowo

Temat: ANFIS + TS w zadaniach. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE

Temat: ANFIS + TS w zadaniach. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE Temat: ANFIS + TS w zadaniach Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE Dr inż. Barbara Mrzygłód KISiM, WIMiIP, AGH mrzyglod@ agh.edu.pl 1. Systemy neuronowo - rozmyte Systemy

Bardziej szczegółowo

ALGORYTMY I STRUKTURY DANYCH

ALGORYTMY I STRUKTURY DANYCH LGORTM I STRUKTUR DNH Temat 6: Drzewa ST, VL Wykładowca: dr inż. bigniew TRPT e-mail: bigniew.tarapata@isi.wat.edu.pl http://www.tarapata.strefa.pl/p_algorytmy_i_struktury_danych/ Współautorami wykładu

Bardziej szczegółowo

Wybrane zagadnienia uczenia maszynowego

Wybrane zagadnienia uczenia maszynowego Przygotowane na podstawie Wybrane zagadnienia uczenia maszynowego Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec 1. T. Mitchell, Machine Learning 2. S.J. Russel, P. Norvig, Artificial Intelligence

Bardziej szczegółowo

Metody probabilistyczne klasyfikatory bayesowskie

Metody probabilistyczne klasyfikatory bayesowskie Konwersatorium Matematyczne Metody Ekonomii narzędzia matematyczne w eksploracji danych First Prev Next Last Go Back Full Screen Close Quit Metody probabilistyczne klasyfikatory bayesowskie Wykład 8 Marcin

Bardziej szczegółowo