Wydawnictwo Politechniki Poznanskiej

Podobne dokumenty
Uniwersytet w Białymstoku Wydział Ekonomiczno-Informatyczny w Wilnie SYLLABUS na rok akademicki 2012/2013

Inżynieria danych I stopień Praktyczny Studia stacjonarne Wszystkie specjalności Katedra Inżynierii Produkcji Dr Małgorzata Lucińska

Techniki uczenia maszynowego nazwa przedmiotu SYLABUS

Systemy uczące się wykład 1

kierunkowy (podstawowy / kierunkowy / inny HES) nieobowiązkowy (obowiązkowy / nieobowiązkowy) polski drugi semestr letni (semestr zimowy / letni)

Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka

Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2)

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

1. Historia 2. Podstawy neurobiologii 3. Definicje i inne kłamstwa 4. Sztuczny neuron i zasady działania SSN. Agenda

AUTOMATYKA INFORMATYKA

ID1SII4. Informatyka I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny) stacjonarne (stacjonarne / niestacjonarne)

WYKŁAD 6. Reguły decyzyjne

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Podstawy Sztucznej Inteligencji (PSZT)

Inteligentne Multimedialne Systemy Uczące

Data Mining Wykład 4. Plan wykładu

Wybrane zagadnienia uczenia maszynowego. Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec

KARTA MODUŁU KSZTAŁCENIA

ALGORYTM RANDOM FOREST

SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy

Szczegółowy opis przedmiotu zamówienia

Metody Sztucznej Inteligencji II

Informatyka I stopień (I stopień / II stopień) ogólno akademicki (ogólno akademicki / praktyczny) kierunkowy (podstawowy / kierunkowy / inny HES)

Sylabus modułu kształcenia na studiach wyższych. Nazwa Wydziału. Nazwa jednostki prowadzącej moduł Nazwa modułu kształcenia

Algorytmy klasyfikacji

ZAGADNIENIA DO EGZAMINU DYPLOMOWEGO NA STUDIACH INŻYNIERSKICH. Matematyka dyskretna, algorytmy i struktury danych, sztuczna inteligencja

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Klasyfikacja i regresja Wstęp do środowiska Weka

ALGORYTMY SZTUCZNEJ INTELIGENCJI

WEKA klasyfikacja z użyciem sztucznych sieci neuronowych

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

9. Praktyczna ocena jakości klasyfikacji

Metody i techniki sztucznej inteligencji / Leszek Rutkowski. wyd. 2, 3 dodr. Warszawa, Spis treści

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Widzenie komputerowe (computer vision)

PRZEWODNIK DYDAKTYCZNY I PROGRAM NAUCZANIA PRZEDMIOTU FAKULTATYWNEGO NA KIERUNKU LEKARSKIM ROK AKADEMICKI 2016/2017

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Algorytmy i bazy danych (wykład obowiązkowy dla wszystkich)

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

Wybrane zagadnienia uczenia maszynowego

Wstęp do teorii sztucznej inteligencji Wykład III. Modele sieci neuronowych.

Automatyczna predykcja. Materiały/konsultacje. Co to jest uczenie maszynowe? Przykład 6/10/2013. Google Prediction API, maj 2010

Wprowadzenie do teorii systemów ekspertowych

WEKA klasyfikacja z użyciem sztucznych sieci neuronowych

Instytut Automatyki i Inżynierii Informatycznej Politechniki Poznańskiej. Adam Meissner. Elementy uczenia maszynowego

PRZEWODNIK PO PRZEDMIOCIE

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

Opis efektów kształcenia dla modułu zajęć

Zastosowanie metod eksploracji danych (data mining) do sterowania i diagnostyki procesów w przemyśle spożywczym

Wprowadzenie do technologii informacyjnej.

PRZEWODNIK PO PRZEDMIOCIE

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA REALIZACJA W ROKU AKADEMICKIM 2016/2017

Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2012/2013. Forma studiów: Stacjonarne Kod kierunku: 06.

Zastosowania sieci neuronowych

Kierunek Informatyka stosowana Studia stacjonarne Studia pierwszego stopnia

PRZEWODNIK PO PRZEDMIOCIE

Systemy uczące się Lab 4

I. KARTA PRZEDMIOTU CEL PRZEDMIOTU

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Wprowadzenie do klasyfikacji

Analiza i wizualizacja danych Data analysis and visualization

Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining

WYKŁAD 3. Klasyfikacja: modele probabilistyczne

Analiza danych. TEMATYKA PRZEDMIOTU

Metody probabilistyczne klasyfikatory bayesowskie

Prof. Stanisław Jankowski

Eksploracja danych medycznych oraz metody sztucznej inteligencji

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Metody eksploracji danych Laboratorium 4. Klasyfikacja dokumentów tekstowych Naiwny model Bayesa Drzewa decyzyjne

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

NEURAL NETWORK ) FANN jest biblioteką implementującą SSN, którą moŝna wykorzystać. w C, C++, PHP, Pythonie, Delphi a nawet w środowisku. Mathematica.

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

Zagadnienia na egzamin dyplomowy. Studia jednolite magisterskie WFMiI rok akad. 2010/11

Metody systemowe i decyzyjne w informatyce

SZTUCZNA INTELIGENCJA

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Relacja: III Seminarium Naukowe "Inżynierskie zastosowania technologii informatycznych"

A Zadanie

Metody klasyfikacji danych - część 1 p.1/24

Co to jest klasyfikacja? Klasyfikacja a grupowanie Naiwny klasyfikator Bayesa

I. KARTA PRZEDMIOTU CEL PRZEDMIOTU

SCENARIUSZ LEKCJI Przesuwanie paraboli - wykorzystanie arkusza kalkulacyjnego na lekcjach matematyki

Sieci neuronowe w Statistica

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

KARTA PRZEDMIOTU. 1) Nazwa przedmiotu: INŻYNIERIA SYSTEMÓW I ANALIZA SYSTEMOWA. 2) Kod przedmiotu: ROZ-L3-20

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Wprowadzenie do uczenia maszynowego

PRZEWODNIK PO PRZEDMIOCIE

KIERUNKOWE EFEKTY KSZTAŁCENIA

KARTA PRZEDMIOTU. 1. Informacje ogólne. 2. Ogólna charakterystyka przedmiotu. Metody drążenia danych D1.3

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie

Instytut Automatyki i Inżynierii Informatycznej Politechniki Poznańskiej. Adam Meissner. Elementy uczenia maszynowego

Wstęp do sieci neuronowych laboratorium 01 Organizacja zajęć. Perceptron prosty

Razem godzin w semestrze: Plan obowiązuje od roku akademickiego 2014/15 - zatwierdzono na Radzie Wydziału w dniu r.

Rozszerzony konspekt przedmiotu Inteligentne maszyny i systemy

INDUKCJA DRZEW DECYZYJNYCH

Transkrypt:

Confusion matrix (test set): (a) (b) <-classified as 80 3 (a): class democrat 1 51 (b): class republican Credit > 10875 : bad (25.0/9.2) Credit <= 10875 : Status = 0DM: Duration <= 11 : good Uczenie (26.0/4.9) Duration > 11 : Age > 61 : good (8.0/2.4) Age <= 61 : Savings-account = less1000dm: maszynowe good (3.0/1.1) Savings-account = over1000dm: good (5.0/1.2) Savings-account = less100dm: Status = less-200dm: Job = unemployed-non-resident: i sieci good (5.0/1.2) IF A8 < 10.75 AND A9 = T AND 5.50 < A11 < 18.50 THEN DECISION = Y [68 0] IF A15 > 5676.00 THEN DECISION = Y [19 0] IF A2 > 19.00 AND A4 = U AND A8 < 11.75 AND A9 = T AND A14 < 91.00 THEN DECISION = Y [67.50 0] IF A3 > 1.79 AND A9 = T AND A15 > 241.50 THEN DECISION = Y IF A6 = X AND 1.33 < A8 THEN DECISION = Y [1 IF A2 < 26.08 AND A9 = T AND 20.00 < A14 THEN DECISION = Y [3 @relation golf @attribute outlook {sunny @attribute temperature n @attribute humidity nu @data sunny, 85,\ 85, false, no, cast @attrib age {young, prepresbyopic, presbyopic} @attribute spectacle -pr {myope, hypermetrope} @attribute astigmatis ate {reduced, neuronowe Krzysztof Krawiec Jerzy Stefanowski Wydawnictwo Politechniki Poznanskiej

Spis tresci 3 Przedmowa...5 1. Wybrane pojecia konstruowania systemów uczacych sie...7 1.1. Wprowadzenie...7 1.2. Na czym polega uczenie sie maszyn?...7 1.3. Problemy rozwiazywane przez systemy uczace sie...9 1.4. Reprezentacja przykladów uczacych... 11 1.5. Podzial metod maszynowego uczenia sie...16 1.6. Uczenie nadzorowane oraz zasady konstruowania systemów klasyfikujacych.18 1.7. Ocena systemów klasyfikujacych... 21 1.7.1. Miary oceny skutecznosci klasyfikowania obiektów... 21 1.7.2. Eksperymentalne oszacowanie skutecznosci klasyfikatora... 24 1.8. Uwagi literaturowe... 25 2. Indukcja drzew decyzyjnych... 28 2.1. Wprowadzenie... 28 2.2. Reprezentacja drzewa decyzyjnego... 28 2.3. Algorytm indukcji drzew decyzyjnych... 30 2.4. Konstruowanie drzew decyzyjnych dla zróznicowanych danych... 34 2.4.1. Inne miary wyboru atrybutów... 35 2.4.2. Binaryzacja drzew decyzyjnych...36 2.4.3. Uwzglednianie niezdefiniowanych wartosci atrybutów... 37 2.5. Przebieg cwiczenia... 38 3. Tworzenie klasyfikatorów opartych na drzewach decyzyjnych... 41 3.1. Wprowadzenie... 41 3.2. Zjawisko przeuczenia... 41 3.3. Upraszczanie drzew decyzyjnych... 43 3.4. Konstruowanie drzew decyzyjnych z wykorzystaniem techniki okien... 46 3.5. Przebieg cwiczenia... 48 4. Indukcja regul... 52 4.1. Wprowadzenie... 52 4.2. Reprezentacja regul... 53 4.3. Algorytmy indukcji regul... 55 4.3.1. Strategie sekwencyjnego pokrywania... 55 4.3.2. Algorytm LEM2... 57 4.4. Miary oceny regul... 59 4.5. Klasyfikowanie obiektów za pomoca regul... 60 4.6. Przebieg cwiczenia... 63 5. Klasyfikacja bayesowska... 65 5.1. Wprowadzenie... 65 5.2. Twierdzenie Bayesa... 66 5.3. Optymalny klasyfikator bayesowski... 68

4 5.4. 5.5. Naiwny klasyfikator bayesowski... 68 Klasyfikacja dokumentów tekstowych... 70 5.6. Przebieg cwiczenia... 72 6. Wprowadzenie do sieci neuronowych... 82 6.1. Wprowadzenie... 82 6.2. Geneza sztucznych sieci neuronowych... 82 6.3. Reprezentacja wiedzy w sieciach neuronowych... 82 6.4. Architektury sieci neuronowych... 87 6.5. Sieci neuronowe jako narzedzia maszynowego uczenia sie...89 6.6. Uczenie sieci neuronowych... 92 6.7. Uczenie pojedynczego neuronu liniowego... 93 6.8. Wlasciwosci neuronu liniowego... 96 6.9. Uczenie pojedynczego neuronu nieliniowego... 99 6.10. Przebieg cwiczenia...100 7. Wsteczna propagacja bledu...102 7.1. Wprowadzenie...102 7.2. Algorytm wstecznej propagacji bledu...102 7.3. Zjawisko przeuczenia w sieciach neuronowych...105 7.4. Przebieg cwiczenia...110 8. Uczenie warstwowych sieci neuronowych...111 8.1. Parametryzacja algorytmu wstecznej propagacji bledu...111 8.2. Odmiany algorytmu wstecznej propagacji bledu...112 8.3. Interpretowanie decyzji podejmowanych przez siec...113 8.4. Sieci z jednostkami o symetrii kolowej...115 8.5. Przebieg cwiczenia...117 9. Sieci neuronowe uczone przez wspólzawodnictwo...119 9.1. Wprowadzenie...119 9.2. Grupowanie przykladów kwantyzator wektorów...119 9.3. Mapa odwzorowania cech istotnych (SOM)...124 9.4. Inne modele sieci neuronowych...127 9.5. Przebieg cwiczenia...127 Dodatek A. Wykorzystywane oprogramowanie...129 A.1. Oprogramowanie do indukcji drzew decyzyjnych...129 A.2. Oprogramowanie do indukcji regul decyzyjnych...133 A.3. Srodowisko maszynowego uczenia sie WEKA...134 A.4. Srodowisko STATISTICA: Neural Networks...137 Dodatek B. Stosowane formaty plików...140 B.1. Pliki dla systemu C4.5...140 B.2. B.3. Pliki w formacie ISF...141 Pliki w formacie ARFF...145 Spis literatury...147

Przedmowa Niniejszy skrypt jest przewodnikiem do cwiczen i laboratorium z przedmiotu uczenie maszynowe i sieci neuronowe nauczanego na studiach magisterskich na kierunku informatyka. Ma on na celu pomóc studentom w zapoznaniu sie z wybranymi algorytmami uczenia sie z przykladów oraz z ich zastosowaniem do analizy problemów rzeczywistych i dydaktycznych. Zakres omawianych zagadnien obejmuje dwie podstawowe grupy metod, tj.: metody uczenia nadzorowanego tworzace symboliczna reprezentacje wiedzy (np. algorytmy automat ycznego konstruowania drzew lub regul decyzyjnych) oraz sztuczne sieci neuronowe. Realizacja cwiczen zawartych w skrypcie powinna takze przygotowac czytelnika do samodzielnego rozwiazywania praktycznych problemów z zakresu konstruowania i wdrazania systemów informatycznych zdolnych do automatycznego ulepszania swojego dzialania poprzez analize doswiadczenia w danej dziedzinie. Czesc omawianych zagadnien moze byc takze przydatna jako material uzupelniajacy do nauczania przedmiotów zwiazanych z metodami sztucznej inteligencji, analiza i eksploracja danych (ang. data mining) oraz odkrywaniem wiedzy w bazach danych. Nalezy tutaj zauwazyc, ze wlasnie algorytmy maszynowego uczenia sie stanowia czesto podstawe metodyczna dla algorytmów odkrywania wiedzy z danych, stosowanych w ostatnich latach w zaawansowanych systemach informatycznych. Kazdy rozdzial skryptu, z wyjatkiem pierwszego, bedacego rodzajem wstepu metodologicznego do realizacji cwiczen, jest skonstruowany z dwóch czesci. Pierwsza czesc zawiera syntetyczne przedstawienie podstawowych pojec zwiaz a- nych z wybrana metoda lub algorytmem. Druga czesc obejmuje propozycje realizacji cwiczenia w postaci zestawu zadan. Na ogól pierwsze z proponowanych zadan dotycza wykonania obliczen na prostych przykladach Ma to na celu ulatwienie zrozumienia omawianych pojec i algorytmów. Dalsze zadania wymagaja analizy rzeczywistych zbiorów danych reprezentujacych problemy z róznych dziedzin. Dane te sa dostepne w plikach zapisanych w odpowiednim formacie i powinny byc przetwarzane za pomoca oprogramowania zawierajacego gotowe implementacje potrzebnych algorytmów. W skrypcie krótko scharakteryzowano polecane opr o- gramowanie oraz podano informacje o formatach uzywanych plików. Skrypt sklada sie z dziewieciu rozdzialów i dwóch dodatków. Pierwszy rozdzial ma specjalny charakter, gdyz zawiera krótki wstep metodologiczny do konstruowania i eksploatacji systemów uczacych sie. Ma on dostarczyc wspólnych pojec dla algorytmów omawianych w kolejnych rozdzialach skryptu. W szczególnosci przedstawiono zasady tworzenia i eksperymentalnej oceny systemów klasyfikacyjnych, które sa wykorzystywane w dalszych cwiczeniach. Rozdzial 2 jest poswiecony najpopularniejszym algorytmom indukcji drzew decyzyjnych. Nastepnie w roz-

6 dziale 3 przedstawiono problemy zwiazane z tworzeniem klasyfikatorów opartych na drzewach decyzyjnych, w tym zjawisko przeuczenia oraz mechanizmy upras z- czania drzew. W rozdziale 4 omówiono algorytmy indukcji regul z przykladów oraz rózne miary oceny wygenerowanych regul. Rozdzial 5 jest poswiecony pr o- babilistycznym klasyfikatorom opartym na twierdzeniu Bayesa oraz ich zastos o- waniom do automatycznej klasyfikacji dokumentów tekstowych. W rozdzialach od 6 do 9 zaprezentowano mozliwosci wykorzystania sztucznych sieci neuronowych jako narzedzi uczenia maszynowego. W szczególnosci rozdzial 6 ma charakter wstepny i wprowadza czytelnika w tematyke, prezentujac podst a- wowa architekture sztucznego neuronu i sieci neuronowych oraz metody uczenia pojedynczego neuronu. W rozdziale 7 omówiono najbardziej popularny model sieci warstwowej i algorytm wstecznej propagacji bledu (ang. backpropagation). W rozdziale 8 zaprezentowano rózne odmiany algorytmu wstecznej propagacji bledu, a w rozdziale 9 architektury i algorytmy przeznaczone do nienadzorowanego uczenia sieci neuronowych, w tym siec odwzorowania cech istotnych (SOM).