Podstawy. Prawdopodobieństwo. Witold Andrzejewski & Paweł Boiński, Politechnika Poznańska, Wydział Informatyki 218/633

Wielkość: px
Rozpocząć pokaz od strony:

Download "Podstawy. Prawdopodobieństwo. Witold Andrzejewski & Paweł Boiński, Politechnika Poznańska, Wydział Informatyki 218/633"

Transkrypt

1 odstawy rawdopodobieństwo A = obszar A obszar K A B = obszar A B obszar B B = obszar B obszar K A B = A B B K A B Witold Andrzejewski & aweł Boiński, olitecnika oznańska, Wydział Informatyki 218/633

2 Twierdzenie Bayesa - intuicja Twierdzenie Bayesa A posteriori A priori B A = A B A B A = A B B A A B = A B B A B = A B B K A B Witold Andrzejewski & aweł Boiński, olitecnika oznańska, Wydział Informatyki 219/633

3 rawdopodobieństwo warunkówe 1 Niec Ania i Tomek grają w grę, w której każde z nic rzuca kostką. ierwsza rzuca Ania. Ten kto uzyska więcej oczek na kostce wygrywa. Jeżeli jest remis to gra jest powtarzana. Niec będą dane oznaczenia: A - Ania uzyskała 3 oczka B - Tomek uzyskał 1 oczko C - suma oczek to 8 A? B? C? 1/6 1/6 Witold Andrzejewski & aweł Boiński, olitecnika oznańska, Wydział Informatyki 220/633

4 rawdopodobieństwo warunkowe 2 Możliwyc pięć sytuacji dla C: {2,6, 3,5, 4,4, 5,3, 6,2} A i C? B i C? A i B? C = = /36 tylko sytuacja 3,5 0 1/36 Jakie jest prawdopodobieństwo, że Ania wylosowała 5, jeżeli wygrała z Tomkiem? Witold Andrzejewski & aweł Boiński, olitecnika oznańska, Wydział Informatyki 221/633

5 rawdopodobieństwo warunkowe 3 Jakie jest prawdopodobieństwo, że Ania wylosowała 5 zdarzenie A, jeżeli wygrała z Tomkiem zdarzenie B? B=15/36 A i B=4/36 1, 1 2, 1 3, 1 4, 1 5, 1 6, 1 1, 2 2, 2 3, 2 4, 2 5, 2 6, 2 1, 3 2, 3 3, 3 4, 3 5, 3 6, 3 1, 4 2, 4 3, 4 4, 4 5, 4 6, 4 1, 5 2, 5 3, 5 4, 5 5, 5 6, 5 1, 6 2, 6 3, 6 4, 6 5, 6 6, 6 A=6/36 Ania Tomek A B = A B = A B B = 4 15 Witold Andrzejewski & aweł Boiński, olitecnika oznańska, Wydział Informatyki 222/633

6 Witold Andrzejewski & aweł Boiński, olitecnika oznańska, Wydział Informatyki 223/633 Twierdzenie Bayesa 1 D D D prawdopodobieństwo a posteriori prawdopodobieństwo a priori 0 1,, 1 1 j i n i i n i i i D D ipoteza dane

7 Witold Andrzejewski & aweł Boiński, olitecnika oznańska, Wydział Informatyki 224/633 Twierdzenie Bayesa 2 rawdopodobieństwo a posteriori Szacowanie prawdopodobieństw cząstkowyc zmienne kategoryczne zmienne numeryczne v a v a v a v a v a v a D n n n n T l v a T D v a i i i } : { A A a i A i i e v a warunkowa niezależność

8 Idź na całość! Marilyn vos Savant Witold Andrzejewski & aweł Boiński, olitecnika oznańska, Wydział Informatyki 225/633

9 Idź na całość zmienić czy nie zmienić? 1 Założenie: wybieramy na początku bramkę 1 C samocód w bramce 2 D otwarcie bramki D3 C D = D C C D C = 1 3 D C = 1 D =? Witold Andrzejewski & aweł Boiński, olitecnika oznańska, Wydział Informatyki 226/633

10 Idź na całość zmienić czy nie zmienić? 2 Założenie: wybieramy jako gracz na początku bramkę 1 D otwarcie bramki D3 wybór bramki do umieszczenia samocodu bramka z samocodem Bramka 1 Bramka 2 Bramka prowadzący odkrywa Bramka 2 Bramka 3 Bramka 3 Bramka 2 Bramka 2 Bramka 3 D = = = 1 2 C D = = = 2 3 Witold Andrzejewski & aweł Boiński, olitecnika oznańska, Wydział Informatyki 227/633

11 NKB w akcji Nazwa Narodziny Ssie mleko? Liczba nóg Czy lata? Gromada mysz żywe tak 4 nie ssak lew żywe tak 4 nie ssak wieloryb żywe tak 2 nie ssak kiwi jajo nie 2 nie ptak orzeł jajo nie 2 tak ptak bocian jajo nie 2 tak ptak nietoperz żywe tak 2 tak??? Witold Andrzejewski & aweł Boiński, olitecnika oznańska, Wydział Informatyki 228/633

12 Naiwny klasyfikator Bayesa przykład 1 Dreszcze Katar Ból głowy Gorączka Grypa Tak Tak Brak Nie Tak Tak Nie Silny Tak Tak Nie Tak Średni Tak Tak Nie Tak Silny Tak Tak Tak Tak Średni Tak Tak Nie Nie Brak Nie Nie Tak Nie Średni Tak Nie Nie Tak Silny Nie Nie Tak Nie Średni Nie? Witold Andrzejewski & aweł Boiński, olitecnika oznańska, Wydział Informatyki 229/633

13 Naiwny klasyfikator Bayesa przykład 2 ipoteza: ma grypę dreszcze = tak grypa = tak katar = nie grypa = tak ból głowy = średni grypa = tak gorączka = nie grypa = tak grypa = tak = ipoteza: nie ma grypy dreszcze = tak grypa = nie katar = nie grypa = nie ból głowy = średni grypa = nie gorączka = nie grypa = nie grypa = nie = Witold Andrzejewski & aweł Boiński, olitecnika oznańska, Wydział Informatyki 230/633

14 Drzewa klasyfikacyjne algorytm podstawowy buduj_drzewos przykłady treningowe, A zbiór atrybutów { utwórz węzeł t korzeń przy pierwszym wywołaniu; if wszystkie przykłady w S należą do tej samej klasy K zamień t na liść z etykietą K; else { wybierz atrybut a ze zbioru A, który najlepiej klasyfikuje przykłady; przypisz węzłowi t test zbudowany na podstawie wybranego atrybutu a; for eac wartość v i atrybutu a { dodaj do węzła t gałąź odpowiadającą warunkowi a = v i S i = podzbiór przykładów z S, dla któryc a = v i if S i jest pusty dodaj do gałęzi liść z etykietą klasy, do której należy większość przypadków w S else buduj_drzewos i, A-{a} } } } Witold Andrzejewski & aweł Boiński, olitecnika oznańska, Wydział Informatyki 235/633

15 Algorytm ID3 dla atrybutów nominalnyc zdyskretyzowanyc podział na podstawie Information Gain faworyzacja atrybutów o dziedzinac wielowartościowyc wada: płaskie, szerokie drzewa np. przy wielu unikalnyc wartościac lokalny wybór najlepszego atrybutu brak nawrotów dąży do jak najmniejszy drzew decyzyjnyc Ockam Witold Andrzejewski & aweł Boiński, olitecnika oznańska, Wydział Informatyki 236/633

16 Entropia Entropia k Ent S = p i log 2 p i i=1 p i to prawdopodobieństwo przynależności do klasy i-tej estymowana przez n i /n, gdzie n i to liczba przykładów z klasą K i, a n to liczba klas k to liczba klas S to zbiór przykładów Klasyfikacja binarna Wartość entropii interpretacja: im mniejsza entropia tym więcej przykładów należy do jednej z klas Opis 0 rzykłady tylko z jednej klasy 1 o 50% przykładów z każdej klasy Witold Andrzejewski & aweł Boiński, olitecnika oznańska, Wydział Informatyki 237/633

17 Information Gain Entropia warunkowa dla atrybutu a Ent S a = p to liczba wartości atrybutu a S j to zbiór przykładów z wartością atrybutu v j ns j liczebność zbioru S j Interpretacja: im mniejsza wartość entropii warunkowej tym większa jednorodność podziału Information Gain ocena przyrostu informacji przy użyciu atrybutu a Gain S, a p j=1 n sj n EntS j = Ent S Ent S a przyrost = entropia rodzica suma ważonyc entropii potomków entropia rodzica powinna być duża, a suma ważonyc entropii potomków mała co oznacza dobrze odseparowane klasy Witold Andrzejewski & aweł Boiński, olitecnika oznańska, Wydział Informatyki 238/633

18 Gain Ratio roblemy information gain: preferuje atrybuty o dużej liczbie wartości może prowadzić do przeuczenia Rozwiązanie: gain ratio uwzględnienie rozmiarów i liczby potomków kara dla atrybutów o dużyc dziedzinac Używa split information do normalizacji przyrostu informacji Witold Andrzejewski & aweł Boiński, olitecnika oznańska, Wydział Informatyki 239/633

19 Gain Ratio - Split information split information współczynnik podziału gdzie p to liczba partycji liczba wartości a, natomiast a to wybrany atrybut dla podziału Duży split information = podobny rozmiar partycji Mały split information = niewielka liczba partycji zawiera większość przykładów Gain ratio: Split S a = GainRatio S, a wybieramy atrybut z największym gain ratio p j=1 = S j S log 2 S j S GainS, a SplitS, a może prowadzić do niezbalansowanyc drzew Witold Andrzejewski & aweł Boiński, olitecnika oznańska, Wydział Informatyki 240/633

20 Ulepszony ID3: C4.5 dopuszcza wartości numeryczne dobrze radzi sobie z wartościami nieznanymi wprowadza pruning dla radzenia sobie z szumem rozwojowa wersja to C4.8 w wece J48 komercyjny następca to C5.0 Rulequest Witold Andrzejewski & aweł Boiński, olitecnika oznańska, Wydział Informatyki 241/633

21 C4.5 - pruning drzewo za bardzo dopasowuje się do danyc uczącyc overfitting zbyt złożone drzewo runing zastąpienie poddrzewa liściem, gdy stwierdzimy, że oczekiwany błąd poddrzewa jest większy niż liścia. Uwaga: nie testuj na zbiorze treningnowym użyj old out Rodzaje pruningu prepruning zatrzymaj podział liścia postpruning gdy całe drzewo gotowe usuń niepotrzebne części i zastąp je liśćmi Witold Andrzejewski & aweł Boiński, olitecnika oznańska, Wydział Informatyki 247/633

22 repruning Oparte na wynikac testów statystycznyc Zatrzymaj podział, gdy nie ma statystycznie istotnego związku pomiędzy jakimkolwiek atrybutem a klasą w danym węźle test ci-kwadrat uwaga: w ID3 używany test ci-kwadrat wraz information gain tylko statystycznie istotne atrybuty były dostępne do wyboru przy podziale Wada: czasami warunek stopu jest za ostry, ale zdarza się to rzadko Zaleta: jest relatywnie szybki Witold Andrzejewski & aweł Boiński, olitecnika oznańska, Wydział Informatyki 248/633

23 Zbuduj całe drzewo Wykonaj pruning ostpruning subtree replacement usuń węzeł i umieść tam liść Strategia bottom-up, sprawdź możliwość zastąpienia poddrzewa tylko, gdy drzewa poniżej już sprawdzone subtree raising usuń węzeł w środku i rozdziel instancje do poniższyc poddrzew wolniejsze niż subtree replacement Witold Andrzejewski & aweł Boiński, olitecnika oznańska, Wydział Informatyki 249/633

24 RM: Decision Stump Tworzy drzewo decyzyjne na podstawie pojedynczego podziału n-krotne rozgałęzienia Najczęściej używany z AdaBoost Metody podziału information gain gain_ratio gini_index accuracy Witold Andrzejewski & aweł Boiński, olitecnika oznańska, Wydział Informatyki 250/633

25 RM: ID3 implementacja zbliżona do oryginalnej propozycji Quinlana arametry criterion minimal size for split minimal leaf size minimal gain Zalety łatwa czytelność modelu szybkość i nieduża wysokość modelu Wady tendencja do przeuczenia dla małyc zbiorów treningowyc tylko jeden atrybut jest testowany w danej cwili pod względem możliwości użycia do podziału Witold Andrzejewski & aweł Boiński, olitecnika oznańska, Wydział Informatyki 251/633

26 RM: Decision Tree działanie podobne do C4.5 arametry criterion information_gain, gain_ratio, gini_index, accuracy apply pruning confidence poziom ufności dla pessimistic error calculation for pruning apply prepruning minimal gain minimalny zysk wymagany do przeprowadzenia podziału węzła minimal leaf size minimalna liczba przykładów w liściu minimal size for split minimalna liczba przykładów dla węzła by nastąpił podział number of prepruning alternatives gdy podczas prepruningu jakiś węzeł zostanie zablokowany przed podziałem, ile innyc węzłów próbować podzielić maximal dept - maksymalna wysokość drzewa dla 1 generowany jest jeden podział Witold Andrzejewski & aweł Boiński, olitecnika oznańska, Wydział Informatyki 252/633

27 RM: Decision Tree weigt-based Operator złożony Umożliwia zdefiniowanie w jego wnętrzu metody wyznaczania atrybutów dla kolejnyc węzłów drzewa Witold Andrzejewski & aweł Boiński, olitecnika oznańska, Wydział Informatyki 253/633

28 RM: Random Tree Działa podobnie jak C4.5 Jedyna różnica to: rzy każdym podziale rozważany jest tylko losowo wybrany podzbiór atrybutów obsługuje dane nominalne i liczobowe arametry takie jak dla Decision Tree oraz: guess subset ratio wybiera log m + 1 atrybutów subset ratio ręczne ustawienie względnej liczby atrybutów Witold Andrzejewski & aweł Boiński, olitecnika oznańska, Wydział Informatyki 255/633

29 Gini index 1 Corrado Gini Interpretacja: stosunek obszaru pomiędzy krzywą Lorenza a prostą idealnego rozkładu do powierzcni całego obszaru pod prosta idealnego rozkładu może mierzyć nierównomierność rozkładu wartości atrybutu decyzyjnego wewnątrz węzła drzewa 80% ludzi posiada 80% docodów 80% ludzi posiada 50% docodów Witold Andrzejewski & aweł Boiński, olitecnika oznańska, Wydział Informatyki 264/633

30 Gini index 2 Formalnie współczynnik Giniego to: miara nierównomierności rozkładu zmiennej losowej Gini S = 1 p 2 i i=1 gdzie m to liczba klas, a p i to prawdopodobieństwo, że przykład należy do klasy C i Rozważany jest binarny podział na zbiory S 1 i S 2 Gini S, a = S 1 S Gini S 1 + S 2 S Gini S 2 ważona suma nieuporządkowania partycji Ostatecznie Gini S, a = Gini S Gini S, a Cecy wartości z przedziału <0;1>, gdzie 0 oznacza pełną równomierność nieprzystosowany dla dużej liczby klas faworyzuje partycje o podobnyc rozmiarac m Witold Andrzejewski & aweł Boiński, olitecnika oznańska, Wydział Informatyki 265/633

31 Operator złożony RM: MetaCost ozwala na zdefiniowanie macierzy kosztów używanej przez algorytm będący wewnątrz operatora arametry: macierz kosztów use subset for training sampling wit replacement Witold Andrzejewski & aweł Boiński, olitecnika oznańska, Wydział Informatyki 266/633

Drzewa klasyfikacyjne algorytm podstawowy

Drzewa klasyfikacyjne algorytm podstawowy DRZEWA DECYZYJNE Drzewa klasyfikacyjne algorytm podstawowy buduj_drzewo(s przykłady treningowe, A zbiór atrybutów) { utwórz węzeł t (korzeń przy pierwszym wywołaniu); if (wszystkie przykłady w S należą

Bardziej szczegółowo

ZeroR. Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F

ZeroR. Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F ZeroR Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 5 T 7 T 5 T 5 F 2 7 F Tutaj jest więcej obiektów klasy T, więc klasyfikator ZeroR będzie zawsze odpowiadał T niezależnie

Bardziej szczegółowo

Algorytmy klasyfikacji

Algorytmy klasyfikacji Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska BUDOWA DRZEW DECYZYJNYCH Drzewa decyzyjne są metodą indukcyjnego

Bardziej szczegółowo

Algorytmy klasyfikacji

Algorytmy klasyfikacji Algorytmy klasyfikacji Konrad Miziński Politechnika Warszawska Wydział Elektroniki i Technik Informacyjnych Warszawa, Polska k.mizinski@stud.elka.pw.edu.pl Streszczenie Niniejszy dokument opisuje jedna

Bardziej szczegółowo

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2 Klasyfikacja Indeks Gini Zysk informacyjny Klasyfikacja wykład 2 Kontynuujemy prezentacje metod klasyfikacji. Na wykładzie zostaną przedstawione dwa podstawowe algorytmy klasyfikacji oparte o indukcję

Bardziej szczegółowo

Co to są drzewa decyzji

Co to są drzewa decyzji Drzewa decyzji Co to są drzewa decyzji Drzewa decyzji to skierowane grafy acykliczne Pozwalają na zapis reguł w postaci strukturalnej Przyspieszają działanie systemów regułowych poprzez zawężanie przestrzeni

Bardziej szczegółowo

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład Data Mining Wykład 5 Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny Indeks Gini Popularnym kryterium podziału, stosowanym w wielu produktach komercyjnych, jest indeks Gini Algorytm SPRINT

Bardziej szczegółowo

Wprowadzenie do klasyfikacji

Wprowadzenie do klasyfikacji Wprowadzenie do klasyfikacji ZeroR Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F Tutaj jest więcej obiektów klasy T, więc klasyfikator

Bardziej szczegółowo

INDUKCJA DRZEW DECYZYJNYCH

INDUKCJA DRZEW DECYZYJNYCH INDUKCJA DRZEW DECYZYJNYCH 1. Pojęcia podstawowe. 2. Idea algorytmów TDIT. 3. Kryteria oceny atrybutów entropia. 4. "Klasyczna" postać algorytmu ID3. 5. Przykład ilustracyjny. 6. Transformacja drzewa do

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

Drzewa decyzyjne i lasy losowe

Drzewa decyzyjne i lasy losowe Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM

Bardziej szczegółowo

Metody klasyfikacji i rozpoznawania wzorców. Najważniejsze rodzaje klasyfikatorów

Metody klasyfikacji i rozpoznawania wzorców.  Najważniejsze rodzaje klasyfikatorów Metody klasyfikacji i rozpoznawania wzorców www.michalbereta.pl Najważniejsze rodzaje klasyfikatorów Dla określonego problemu klasyfikacyjnego (tzn. dla danego zestawu danych) należy przetestować jak najwięcej

Bardziej szczegółowo

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne Reprezentacja wiedzy w postaci drzew decyzyjnych entropia, przyrost informacji algorytmy ID3, C4.5 problem przeuczenia wyznaczanie reguł rzykładowe drzewo decyzyjne

Bardziej szczegółowo

Złożoność i zagadnienia implementacyjne. Wybierz najlepszy atrybut i ustaw jako test w korzeniu. Stwórz gałąź dla każdej wartości atrybutu.

Złożoność i zagadnienia implementacyjne. Wybierz najlepszy atrybut i ustaw jako test w korzeniu. Stwórz gałąź dla każdej wartości atrybutu. Konwersatorium Matematyczne Metody Ekonomii Narzędzia matematyczne w eksploracji danych Indukcja drzew decyzyjnych Wykład 3 - część 2 Marcin Szczuka http://www.mimuw.edu.pl/ szczuka/mme/ Plan wykładu Generowanie

Bardziej szczegółowo

Metody klasyfikacji danych - część 1 p.1/24

Metody klasyfikacji danych - część 1 p.1/24 Metody klasyfikacji danych - część 1 Inteligentne Usługi Informacyjne Jerzy Dembski Metody klasyfikacji danych - część 1 p.1/24 Plan wykładu - Zadanie klasyfikacji danych - Przeglad problemów klasyfikacji

Bardziej szczegółowo

Laboratorium 6. Indukcja drzew decyzyjnych.

Laboratorium 6. Indukcja drzew decyzyjnych. Laboratorium 6 Indukcja drzew decyzyjnych. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk

Bardziej szczegółowo

INDUKCJA DRZEW DECYZYJNYCH

INDUKCJA DRZEW DECYZYJNYCH Jerzy Stefanowski Instytut Informatyki Politechniki Poznańskiej Wykład z przedmiotu Uczenie maszynowe i sieci neuronowe INDUKCJA DRZEW DECYZYJNYCH 1. Pojęcia podstawowe. 2. Idea algorytmów TDIT. 3. Kryteria

Bardziej szczegółowo

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006 SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu

Bardziej szczegółowo

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania

Bardziej szczegółowo

Określanie ważności atrybutów. RapidMiner

Określanie ważności atrybutów. RapidMiner Określanie ważności atrybutów RapidMiner Klasyfikacja (1/2) TEMP BÓL WYSYPKA GARDŁO DIAGNOZA 36.6 T BRAK NORMA NIESTRAWNOŚĆ 37.5 N MAŁA PRZEKR. ALERGIA 36.0 N BRAK NORMA PRZECHŁODZENIE 39.5 T DUŻA PRZEKR.

Bardziej szczegółowo

Klasyfikacja. Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji. Eksploracja danych. Klasyfikacja wykład 1

Klasyfikacja. Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji. Eksploracja danych. Klasyfikacja wykład 1 Klasyfikacja Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji Klasyfikacja wykład 1 Niniejszy wykład poświęcimy kolejnej metodzie eksploracji danych klasyfikacji. Na początek

Bardziej szczegółowo

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18 Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)

Bardziej szczegółowo

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

8. Drzewa decyzyjne, bagging, boosting i lasy losowe Algorytmy rozpoznawania obrazów 8. Drzewa decyzyjne, bagging, boosting i lasy losowe dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Drzewa decyzyjne Drzewa decyzyjne (ang. decision trees), zwane

Bardziej szczegółowo

Indukcja drzew decyzyjnych

Indukcja drzew decyzyjnych Konwersatorium Matematyczne Metody Ekonomii Narzędzia matematyczne w eksploracji danych Indukcja drzew decyzyjnych Wykład 3 - część 2 Marcin Szczuka http://www.mimuw.edu.pl/ szczuka/mme/ Divide et impera

Bardziej szczegółowo

Indukowane Reguły Decyzyjne I. Wykład 8

Indukowane Reguły Decyzyjne I. Wykład 8 Indukowane Reguły Decyzyjne I Wykład 8 IRD Wykład 8 Plan Powtórka Krzywa ROC = Receiver Operating Characteristic Wybór modelu Statystyka AUC ROC = pole pod krzywą ROC Wybór punktu odcięcia Reguły decyzyjne

Bardziej szczegółowo

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie Wprowadzenie Konstrukcja binarnych drzew klasyfikacyjnych polega na sekwencyjnym dzieleniu podzbiorów przestrzeni próby X na dwa rozłączne i dopełniające się podzbiory, rozpoczynając od całego zbioru X.

Bardziej szczegółowo

Wybrane zagadnienia uczenia maszynowego. Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec

Wybrane zagadnienia uczenia maszynowego. Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec Wybrane zagadnienia uczenia maszynowego Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec Przygotowane na podstawie T. Mitchell, Machine Learning S.J. Russel, P. Norvig, Artificial Intelligence

Bardziej szczegółowo

Laboratorium 4. Naiwny klasyfikator Bayesa.

Laboratorium 4. Naiwny klasyfikator Bayesa. Laboratorium 4 Naiwny klasyfikator Bayesa. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk

Bardziej szczegółowo

Algorytmy i Struktury Danych

Algorytmy i Struktury Danych Algorytmy i Struktury Danych Kopce Bożena Woźna-Szcześniak bwozna@gmail.com Jan Długosz University, Poland Wykład 11 Bożena Woźna-Szcześniak (AJD) Algorytmy i Struktury Danych Wykład 11 1 / 69 Plan wykładu

Bardziej szczegółowo

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość Dwie metody Klasyczna metoda histogramu jako narzędzie do postawienia hipotezy, jaki rozkład prawdopodobieństwa pasuje do danych Indukcja drzewa decyzyjnego jako metoda wykrycia klasyfikatora ukrytego

Bardziej szczegółowo

Elementy modelowania matematycznego

Elementy modelowania matematycznego Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski

Bardziej szczegółowo

Drzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber

Drzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber Drzewa decyzyjne Inteligentne Obliczenia Wydział Mechatroniki Politechniki Warszawskiej Anna Sztyber INO (IAiR PW) Drzewa decyzyjne Anna Sztyber / Drzewa decyzyjne w podstawowej wersji algorytm klasyfikacji

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska DRZEWO REGRESYJNE Sposób konstrukcji i przycinania

Bardziej szczegółowo

ED Laboratorium 3. Drzewa decyzyjne

ED Laboratorium 3. Drzewa decyzyjne ED Laboratorium Drzewa decyzyjne 1 Drzewa decyzyjne Algorytmy indukcji drzew decyzyjnych to jeden z klasycznych algorytmów uczenia maszynowego służący do rozwiązywania problemu klasyfikacji. Drzewa decyzyjne

Bardziej szczegółowo

< K (2) = ( Adams, John ), P (2) = adres bloku 2 > < K (1) = ( Aaron, Ed ), P (1) = adres bloku 1 >

< K (2) = ( Adams, John ), P (2) = adres bloku 2 > < K (1) = ( Aaron, Ed ), P (1) = adres bloku 1 > Typy indeksów Indeks jest zakładany na atrybucie relacji atrybucie indeksowym (ang. indexing field). Indeks zawiera wartości atrybutu indeksowego wraz ze wskaźnikami do wszystkich bloków dyskowych zawierających

Bardziej szczegółowo

Indukowane Reguły Decyzyjne I. Wykład 3

Indukowane Reguły Decyzyjne I. Wykład 3 Indukowane Reguły Decyzyjne I Wykład 3 IRD Wykład 3 Plan Powtórka Grafy Drzewa klasyfikacyjne Testy wstęp Klasyfikacja obiektów z wykorzystaniem drzewa Reguły decyzyjne generowane przez drzewo 2 Powtórzenie

Bardziej szczegółowo

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Algorytmy metaheurystyczne Wykład 11. Piotr Syga Algorytmy metaheurystyczne Wykład 11 Piotr Syga 22.05.2017 Drzewa decyzyjne Idea Cel Na podstawie przesłanek (typowo zbiory rozmyte) oraz zbioru wartości w danych testowych, w oparciu o wybrane miary,

Bardziej szczegółowo

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. Metoda CART. MiNI PW

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. Metoda CART. MiNI PW WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. Metoda CART MiNI PW Drzewa służą do konstrukcji klasyfikatorów prognozujących Y {1, 2,..., g} na podstawie p-wymiarowego wektora atrybutów (dowolne atrybuty:

Bardziej szczegółowo

Uczenie maszyn. Projekt: Porównanie algorytmów tworzenia drzew decyzyjnych. Politechnika Wrocławska. Michał Płodowski Michał Suszko

Uczenie maszyn. Projekt: Porównanie algorytmów tworzenia drzew decyzyjnych. Politechnika Wrocławska. Michał Płodowski Michał Suszko Politechnika Wrocławska Projekt: Porównanie algorytmów tworzenia drzew decyzyjnych Uczenie maszyn Michał Płodowski 163763 Michał Suszko 171132 Kamil Markuszewski 171016 1. WSTĘP... 2 2. CEL PROJEKTU...

Bardziej szczegółowo

Klasyfikacja metodą Bayesa

Klasyfikacja metodą Bayesa Klasyfikacja metodą Bayesa Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski warunkowe i bezwarunkowe 1. Klasyfikacja Bayesowska jest klasyfikacją statystyczną. Pozwala przewidzieć prawdopodobieństwo

Bardziej szczegółowo

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny

Bardziej szczegółowo

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Michał Witczak Data Mining 20 maja 2012 r. 1. Wstęp Dostarczone zostały nam 4 pliki, z których dwa stanowiły zbiory uczące

Bardziej szczegółowo

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew.

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew. PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew. Wprowadzenie Drzewo klasyfikacyjne Wprowadzenie Formalnie : drzewo

Bardziej szczegółowo

Automatyczne wyodrębnianie reguł

Automatyczne wyodrębnianie reguł Automatyczne wyodrębnianie reguł Jedną z form reprezentacji wiedzy jest jej zapis w postaci zestawu reguł. Ta forma ma szereg korzyści: daje się łatwo interpretować, można zrozumieć sposób działania zbudowanego

Bardziej szczegółowo

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów

Bardziej szczegółowo

Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta

Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta www.michalbereta.pl W tej części: Zachowanie wytrenowanego modelu w celu późniejszego użytku Filtrowanie danych (brakujące etykiety

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia

Bardziej szczegółowo

Metody teorii gier. ALP520 - Wykład z Algorytmów Probabilistycznych p.2

Metody teorii gier. ALP520 - Wykład z Algorytmów Probabilistycznych p.2 Metody teorii gier ALP520 - Wykład z Algorytmów Probabilistycznych p.2 Metody teorii gier Cel: Wyprowadzenie oszacowania dolnego na oczekiwany czas działania dowolnego algorytmu losowego dla danego problemu.

Bardziej szczegółowo

Wybrane zadania przygotowujące do egzaminu z ISO- cz. 2. dr Piotr Wąsiewicz

Wybrane zadania przygotowujące do egzaminu z ISO- cz. 2. dr Piotr Wąsiewicz Wybrane zadania przygotowujące do egzaminu z ISO- cz. 2 dr Piotr Wąsiewicz. Ze zbioru treningowego podanego w tabeli poniżej wykreować metodą zstępującej konstrukcji drzewo decyzyjne(jak najmniej rozbudowane-

Bardziej szczegółowo

Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski

Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski : idea Indeksowanie: Drzewo decyzyjne, przeszukiwania binarnego: F = {5, 7, 10, 12, 13, 15, 17, 30, 34, 35, 37, 40, 45, 50, 60} 30 12 40 7 15 35 50 Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski

Bardziej szczegółowo

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L, Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której

Bardziej szczegółowo

METODY INŻYNIERII WIEDZY

METODY INŻYNIERII WIEDZY METODY INŻYNIERII WIEDZY WALIDACJA KRZYŻOWA dla ZAAWANSOWANEGO KLASYFIKATORA KNN ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 2. Wojciech Waloszek. Teresa Zawadzka.

Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 2. Wojciech Waloszek. Teresa Zawadzka. Eksploracja danych KLASYFIKACJA I REGRESJA cz. 2 Wojciech Waloszek wowal@eti.pg.gda.pl Teresa Zawadzka tegra@eti.pg.gda.pl Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki

Bardziej szczegółowo

11. Gry Macierzowe - Strategie Czyste i Mieszane

11. Gry Macierzowe - Strategie Czyste i Mieszane 11. Gry Macierzowe - Strategie Czyste i Mieszane W grze z doskonałą informacją, gracz nie powinien wybrać akcję w sposób losowy (o ile wypłaty z różnych decyzji nie są sobie równe). Z drugiej strony, gdy

Bardziej szczegółowo

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu Wykład 11-12 Centralne twierdzenie graniczne Statystyka matematyczna: Estymacja parametrów rozkładu Centralne twierdzenie graniczne (CTG) (Central Limit Theorem - CLT) Centralne twierdzenie graniczne (Lindenberga-Levy'ego)

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Wnioskowanie statystyczne dla zmiennych numerycznych Porównywanie dwóch średnich Boot-strapping Analiza

Bardziej szczegółowo

Data Mining Wykład 4. Plan wykładu

Data Mining Wykład 4. Plan wykładu Data Mining Wykład 4 Klasyfikacja danych Klasyfikacja poprzez indukcje drzew decyzyjnych Plan wykładu Sformułowanie problemu Kryteria oceny metod klasyfikacji Metody klasyfikacji Klasyfikacja poprzez indukcje

Bardziej szczegółowo

Drzewa decyzyjne. Nguyen Hung Son. Nguyen Hung Son () DT 1 / 34

Drzewa decyzyjne. Nguyen Hung Son. Nguyen Hung Son () DT 1 / 34 Drzewa decyzyjne Nguyen Hung Son Nguyen Hung Son () DT 1 / 34 Outline 1 Wprowadzenie Definicje Funkcje testu Optymalne drzewo 2 Konstrukcja drzew decyzyjnych Ogólny schemat Kryterium wyboru testu Przycinanie

Bardziej szczegółowo

Systemy Wspomagania Decyzji

Systemy Wspomagania Decyzji Regresja Szkoła Główna Służby Pożarniczej Zakład Informatyki i Łączności January 24, 2014 1 Wprowadzenie 2 Regresja liniowa 3 Regresja nieliniowa 4 Regresja logistyczna 5 Estymacja parametrów 6 Podsumowanie

Bardziej szczegółowo

51. Wykorzystywanie sumy, iloczynu i różnicy zdarzeń do obliczania prawdopodobieństw zdarzeń.

51. Wykorzystywanie sumy, iloczynu i różnicy zdarzeń do obliczania prawdopodobieństw zdarzeń. Matematyka lekcja 5 5. Wykorzystywanie sumy, iloczynu i różnicy zdarzeń do obliczania prawdopodobieństw zdarzeń. I. rzypomnij sobie:. Jak rysujemy drzewo stochastyczne i przy jego pomocy obliczamy prawdopodobieństwo

Bardziej szczegółowo

Sortowanie. Bartman Jacek Algorytmy i struktury

Sortowanie. Bartman Jacek Algorytmy i struktury Sortowanie Bartman Jacek jbartman@univ.rzeszow.pl Algorytmy i struktury danych Sortowanie przez proste wstawianie przykład 41 56 17 39 88 24 03 72 41 56 17 39 88 24 03 72 17 41 56 39 88 24 03 72 17 39

Bardziej szczegółowo

Klasyfikacja. Obcinanie drzewa Naiwny klasyfikator Bayes a knn Dokładność klasyfikacji. Eksploracja danych. Klasyfikacja wykład 3

Klasyfikacja. Obcinanie drzewa Naiwny klasyfikator Bayes a knn Dokładność klasyfikacji. Eksploracja danych. Klasyfikacja wykład 3 Klasyfikacja Obcinanie drzewa Naiwny klasyfikator Bayes a knn Dokładność klasyfikacji Klasyfikacja wykład 3 Kontynuujemy prezentację zagadnień związanych z klasyfikacją. Na początku przedstawimy technikę

Bardziej szczegółowo

Konspekt do zajęć: Statystyczne metody analizy danych. Agnieszka Nowak-Brzezińska 14 maja 2012

Konspekt do zajęć: Statystyczne metody analizy danych. Agnieszka Nowak-Brzezińska 14 maja 2012 Drzewa klasyfikacyjne Konspekt do zajęć: Statystyczne metody analizy danych Agnieszka Nowak-Brzezińska 14 maja 2012 1 Wprowadzenie Drzewa klasyfikacyjne 1 jako reprezentacja wiedzy o klasyfikacji są dość

Bardziej szczegółowo

Rachunek prawdopodobieństwa Rozdział 3. Prawdopodobieństwo warunkowe i niezależność zdarzeń.

Rachunek prawdopodobieństwa Rozdział 3. Prawdopodobieństwo warunkowe i niezależność zdarzeń. Rachunek prawdopodobieństwa Rozdział 3. Prawdopodobieństwo warunkowe i niezależność zdarzeń. 3.1 Prawdopodobieństwo warunkowe Katarzyna Rybarczyk-Krzywdzińska Przykład 1 Alicja wylosowała jedną kartę z

Bardziej szczegółowo

Testowanie modeli predykcyjnych

Testowanie modeli predykcyjnych Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności

Bardziej szczegółowo

Podstawy Informatyki. Metody dostępu do danych

Podstawy Informatyki. Metody dostępu do danych Podstawy Informatyki c.d. alina.momot@polsl.pl http://zti.polsl.pl/amomot/pi Plan wykładu 1 Bazy danych Struktury danych Średni czas odszukania rekordu Drzewa binarne w pamięci dyskowej 2 Sformułowanie

Bardziej szczegółowo

Hierarchiczna analiza skupień

Hierarchiczna analiza skupień Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym

Bardziej szczegółowo

Drzewa klasyfikacyjne

Drzewa klasyfikacyjne Yes Refund No NO Single, Divorced MarSt Married TaxInc < 80K > 80K NO NO YES Drzewa klasyfikacyjne Agnieszka Nowak Brzezińska Zadania sztucznej inteligencji Klasyfikacja, predykcja, przewidywanie polega

Bardziej szczegółowo

Rachunek prawdopodobieństwa Rozdział 3. Prawdopodobieństwo warunkowe i niezależność zdarzeń.

Rachunek prawdopodobieństwa Rozdział 3. Prawdopodobieństwo warunkowe i niezależność zdarzeń. Rachunek prawdopodobieństwa Rozdział 3. Prawdopodobieństwo warunkowe i niezależność zdarzeń. 3.1 Prawdopodobieństwo warunkowe Katarzyna Rybarczyk-Krzywdzińska semestr zimowy 2016/2017 Przykład 1 Alicja

Bardziej szczegółowo

Uczenie się maszyn. Dariusz Banasiak. Katedra Informatyki Technicznej Wydział Elektroniki

Uczenie się maszyn. Dariusz Banasiak. Katedra Informatyki Technicznej Wydział Elektroniki Dariusz Banasiak Katedra Informatyki Technicznej Wydział Elektroniki Machine Learning (uczenie maszynowe, uczenie się maszyn, systemy uczące się) interdyscyplinarna nauka, której celem jest stworzenie

Bardziej szczegółowo

Drzewa Decyzyjne, cz.2

Drzewa Decyzyjne, cz.2 Drzewa Decyzyjne, cz.2 Inteligentne Systemy Decyzyjne Katedra Systemów Multimedialnych WETI, PG Opracowanie: dr inŝ. Piotr Szczuko Podsumowanie poprzedniego wykładu Cel: przewidywanie wyniku (określania

Bardziej szczegółowo

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE UNIWERSYTET WARMIŃSKO-MAZURSKI W OLSZTYNIE PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE http://matman.uwm.edu.pl/psi e-mail: psi@matman.uwm.edu.pl ul. Słoneczna 54 10-561

Bardziej szczegółowo

Metody selekcji cech

Metody selekcji cech Metody selekcji cech A po co to Często mamy do dyspozycji dane w postaci zbioru cech lecz nie wiemy które z tych cech będą dla nas istotne. W zbiorze cech mogą wystąpić cechy redundantne niosące identyczną

Bardziej szczegółowo

ZASADY PROGRAMOWANIA KOMPUTERÓW ZAP zima 2014/2015. Drzewa BST c.d., równoważenie drzew, kopce.

ZASADY PROGRAMOWANIA KOMPUTERÓW ZAP zima 2014/2015. Drzewa BST c.d., równoważenie drzew, kopce. POLITECHNIKA WARSZAWSKA Instytut Automatyki i Robotyki ZASADY PROGRAMOWANIA KOMPUTERÓW ZAP zima 204/205 Język programowania: Środowisko programistyczne: C/C++ Qt Wykład 2 : Drzewa BST c.d., równoważenie

Bardziej szczegółowo

Drzewo. Drzewo uporządkowane ma ponumerowanych (oznaczonych) następników. Drzewo uporządkowane składa się z węzłów, które zawierają następujące pola:

Drzewo. Drzewo uporządkowane ma ponumerowanych (oznaczonych) następników. Drzewo uporządkowane składa się z węzłów, które zawierają następujące pola: Drzewa Drzewa Drzewo (ang. tree) zbiór węzłów powiązanych wskaźnikami, spójny i bez cykli. Drzewo posiada wyróżniony węzeł początkowy nazywany korzeniem (ang. root). Drzewo ukorzenione jest strukturą hierarchiczną.

Bardziej szczegółowo

Metody probabilistyczne klasyfikatory bayesowskie

Metody probabilistyczne klasyfikatory bayesowskie Konwersatorium Matematyczne Metody Ekonomii narzędzia matematyczne w eksploracji danych First Prev Next Last Go Back Full Screen Close Quit Metody probabilistyczne klasyfikatory bayesowskie Wykład 8 Marcin

Bardziej szczegółowo

Indeksy. Wprowadzenie. Indeksy jednopoziomowe indeks podstawowy indeks zgrupowany indeks wtórny. Indeksy wielopoziomowe

Indeksy. Wprowadzenie. Indeksy jednopoziomowe indeks podstawowy indeks zgrupowany indeks wtórny. Indeksy wielopoziomowe 1 Plan rozdziału 2 Indeksy Indeksy jednopoziomowe indeks podstawowy indeks zgrupowany indeks wtórny Indeksy wielopoziomowe Indeksy typu B-drzewo B-drzewo B+ drzewo B* drzewo Wprowadzenie 3 Indeks podstawowy

Bardziej szczegółowo

Klasyfikacja i regresja Wstęp do środowiska Weka

Klasyfikacja i regresja Wstęp do środowiska Weka Klasyfikacja i regresja Wstęp do środowiska Weka 19 listopada 2015 Opis pliku z zadaniami Wszystkie zadania na zajęciach będą przekazywane w postaci plików pdf sformatowanych podobnie do tego dokumentu.

Bardziej szczegółowo

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne Przypominajka: 152 drzewo filogenetyczne to drzewo, którego liśćmi są istniejące gatunki, a węzły wewnętrzne mają stopień większy niż jeden i reprezentują

Bardziej szczegółowo

Drzewa decyzyjne w SAS Enterprise Miner

Drzewa decyzyjne w SAS Enterprise Miner Drzewa decyzyjne w SAS Enterprise Miner Aneta Ptak-Chmielewska Instytut Statystyki i Demografii Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych www.sgh.waw.pl/zaklady/zahziaw 1 struktura ćwiczeń

Bardziej szczegółowo

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. METODA CART. Zaawansowane Metody Uczenia Maszynowego

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. METODA CART. Zaawansowane Metody Uczenia Maszynowego WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. METODA CART Zaawansowane Metody Uczenia Maszynowego Drzewa służą do konstrukcji klasyfikatorów prognozujących Y {1, 2,..., g} na podstawie p-wymiarowego wektora

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. METODA CART. Zaawansowane Metody Uczenia Maszynowego

WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. METODA CART. Zaawansowane Metody Uczenia Maszynowego WYKŁAD: DRZEWA KLASYFIKACYJNE I REGRESYJNE. METODA CART Zaawansowane Metody Uczenia Maszynowego Drzewa służą do konstrukcji klasyfikatorów prognozujących Y {1, 2,..., g} na podstawie p-wymiarowego wektora

Bardziej szczegółowo

Laboratorium 5. Adaptatywna sieć Bayesa.

Laboratorium 5. Adaptatywna sieć Bayesa. Laboratorium 5 Adaptatywna sieć Bayesa. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk Dalej>.

Bardziej szczegółowo

Metody Eksploracji Danych. Klasyfikacja

Metody Eksploracji Danych. Klasyfikacja Metody Eksploracji Danych Klasyfikacja w wykładzie wykorzystano: 1. materiały dydaktyczne przygotowane w ramach projektu Opracowanie programów nauczania na odległość na kierunku studiów wyższych Informatyka

Bardziej szczegółowo

Wybrane zagadnienia uczenia maszynowego

Wybrane zagadnienia uczenia maszynowego Przygotowane na podstawie Wybrane zagadnienia uczenia maszynowego Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec 1. T. Mitchell, Machine Learning 2. S.J. Russel, P. Norvig, Artificial Intelligence

Bardziej szczegółowo

Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II

Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II Wykład 6. Drzewa cz. II 1 / 65 drzewa spinające Drzewa spinające Zliczanie drzew spinających Drzewo T nazywamy drzewem rozpinającym (spinającym) (lub dendrytem) spójnego grafu G, jeżeli jest podgrafem

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

Uniwersytet Mikołaja Kopernika Wydział Fizyki, Astronomii i Informatyki Stosowanej. Drzewa decyzyjne. Łukasz Bujak

Uniwersytet Mikołaja Kopernika Wydział Fizyki, Astronomii i Informatyki Stosowanej. Drzewa decyzyjne. Łukasz Bujak Uniwersytet Mikołaja Kopernika Wydział Fizyki, Astronomii i Informatyki Stosowanej Drzewa decyzyjne Łukasz Bujak Toruń 2008 1 Wstęp W działalności badawczej, a w szczególności w teorii decyzji, drzewa

Bardziej szczegółowo

Algorytmy i struktury danych. wykład 5

Algorytmy i struktury danych. wykład 5 Plan wykładu: Wskaźniki. : listy, drzewa, kopce. Wskaźniki - wskaźniki Wskaźnik jest to liczba lub symbol który w ogólności wskazuje adres komórki pamięci. W językach wysokiego poziomu wskaźniki mogą również

Bardziej szczegółowo

Reguły asocjacyjne w programie RapidMiner Michał Bereta

Reguły asocjacyjne w programie RapidMiner Michał Bereta Reguły asocjacyjne w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Reguły asocjacyjne mają na celu odkrycie związków współwystępowania pomiędzy atrybutami. Stosuje się je często do danych

Bardziej szczegółowo

WSTĘP DO INFORMATYKI. Drzewa i struktury drzewiaste

WSTĘP DO INFORMATYKI. Drzewa i struktury drzewiaste Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej WSTĘP DO INFORMATYKI Adrian Horzyk Drzewa i struktury drzewiaste www.agh.edu.pl DEFINICJA DRZEWA Drzewo

Bardziej szczegółowo

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Kompresja danych Streszczenie Studia Dzienne Wykład 10, 1 Kwantyzacja wektorowa Kompresja danych Streszczenie Studia Dzienne Wykład 10, 28.04.2006 Kwantyzacja wektorowa: dane dzielone na bloki (wektory), każdy blok kwantyzowany jako jeden element danych. Ogólny

Bardziej szczegółowo

Wyk lad 7: Drzewa decyzyjne dla dużych zbiorów danych

Wyk lad 7: Drzewa decyzyjne dla dużych zbiorów danych Wyk lad 7: Drzewa decyzyjne dla dużych zbiorów danych Funkcja rekurencyjna buduj drzewo(u, dec, T): 1: if (kryterium stopu(u, dec) = true) then 2: T.etykieta = kategoria(u, dec); 3: return; 4: end if 5:

Bardziej szczegółowo

KODY SYMBOLI. Kod Shannona-Fano. Algorytm S-F. Przykład S-F

KODY SYMBOLI. Kod Shannona-Fano. Algorytm S-F. Przykład S-F KODY SYMBOLI Kod Shannona-Fano KODOWANIE DANYCH, A.Przelaskowski Metoda S-F Kod Huffmana Adaptacyjne drzewo Huffmana Problemy implementacji Kod Golomba Podsumowanie Kod drzewa binarnego Na wejściu rozkład:

Bardziej szczegółowo

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap Magdalena Frąszczak Wrocław, 21.02.2018r Tematyka Wykładów: Próba i populacja. Estymacja parametrów z wykorzystaniem metody

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 2 κ-nn i Naive Bayes autorzy: M. Zięba, J.M. Tomczak, A. Gonczarek, S. Zaręba Cel zadania Celem zadania jest implementacja klasyfikatorów

Bardziej szczegółowo

Algorytmy i struktury danych

Algorytmy i struktury danych Algorytmy i struktury danych Zaawansowane algorytmy sortowania Witold Marańda maranda@dmcs.p.lodz.pl 1 Sortowanie za pomocą malejących przyrostów metoda Shella Metoda jest rozwinięciem metody sortowania

Bardziej szczegółowo

Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki

Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki Mateusz Kobos, 10.12.2008 Seminarium Metody Inteligencji Obliczeniowej 1/46 Spis treści Działanie algorytmu Uczenie Odtwarzanie/klasyfikacja

Bardziej szczegółowo