Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Podobne dokumenty
SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Metody klasyfikacji danych - część 1 p.1/24

Klasyfikacja LDA + walidacja


Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

Wprowadzenie do klasyfikacji

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

Drzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Algorytmy metaheurystyczne Wykład 6. Piotr Syga

Rozpoznawanie obrazów

Elementy modelowania matematycznego

Testowanie hipotez statystycznych.

Rozpoznawanie obrazów

Wybrane zagadnienia uczenia maszynowego. Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec

Wykład 8 Dane kategoryczne

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce

Systemy uczące się Lab 4

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

ALGORYTM RANDOM FOREST

STATYSTYKA MATEMATYCZNA

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017

KLASYFIKACJA. Słownik języka polskiego

Elementy inteligencji obliczeniowej

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Fuzja sygnałów i filtry bayesowskie

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Value at Risk (VaR) Jerzy Mycielski WNE. Jerzy Mycielski (Institute) Value at Risk (VaR) / 16

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Analiza danych. TEMATYKA PRZEDMIOTU

Złożoność i zagadnienia implementacyjne. Wybierz najlepszy atrybut i ustaw jako test w korzeniu. Stwórz gałąź dla każdej wartości atrybutu.

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Drzewa Decyzyjne, cz.2

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

Drzewa decyzyjne i lasy losowe

Systemy uczące się wykład 2

Elementy statystyki wielowymiarowej

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Wprowadzenie do uczenia maszynowego

Własności statystyczne regresji liniowej. Wykład 4

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

SZTUCZNA INTELIGENCJA

Wykład 9 Wnioskowanie o średnich

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Rozmyte drzewa decyzyjne. Łukasz Ryniewicz Metody inteligencji obliczeniowej

ED Laboratorium 3. Drzewa decyzyjne

Weryfikacja hipotez statystycznych

Porównanie modeli regresji. klasycznymi modelami regresji liniowej i logistycznej

WYKŁAD 8 ANALIZA REGRESJI

SZTUCZNA INTELIGENCJA

Metody selekcji cech

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Metody systemowe i decyzyjne w informatyce

Testowanie hipotez statystycznych.

Agnieszka Nowak Brzezińska

Metody klasyfikacji dla nielicznej próbki wektorów o wielkim wymiarze

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Teoria systemów uczacych się i wymiar Vapnika-Chervonenkisa

Wykład 12 ( ): Testy dla dwóch prób w rodzinie rozkładów normalnych

WYKŁAD 6. Reguły decyzyjne

Algorytmy klasyfikacji

Algorytmy genetyczne w optymalizacji

mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.

Indukcja drzew decyzyjnych

Natalia Neherbecka. 11 czerwca 2010

Kolokwium ze statystyki matematycznej

Algorytmy genetyczne w interpolacji wielomianowej

Statystyka matematyczna i ekonometria

Projekt Sieci neuronowe

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Testowanie hipotez statystycznych.

PDF created with FinePrint pdffactory Pro trial version

SPOTKANIE 3: Regresja: Regresja liniowa

Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Prawdopodobieństwo i statystyka r.

Testowanie hipotez statystycznych.

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

EGZAMIN MAGISTERSKI, Biomatematyka

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Indukowane Reguły Decyzyjne I. Wykład 8

Zadania laboratoryjne i projektowe - wersja β

Algorytmy stochastyczne, wykład 02 Algorytmy genetyczne

KORELACJE I REGRESJA LINIOWA

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 11 i 12 - Weryfikacja hipotez statystycznych

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Transkrypt:

Algorytmy metaheurystyczne Wykład 11 Piotr Syga 22.05.2017

Drzewa decyzyjne Idea Cel Na podstawie przesłanek (typowo zbiory rozmyte) oraz zbioru wartości w danych testowych, w oparciu o wybrane miary, budujemy (jak najpłytsze) drzewo decyzyjne określające przynależność do jednego z dwóch rozłącznych zbiorów partycjonujących przestrzeń. Następnie dla dowolnych danych sprawdzając jedynie wymagane warunki zgadujemy do którego zbioru należy.

Drzewa decyzyjne Iterative Dichotomiser 3 J.R. Quinlan 1 Rozpatrujemy przypadki brzegowe (pusty zbiór przesłanek, wszystkie dane testowe zwracają przynależność do tego samego zbioru) 2 Wyliczamy entropię każdego x D 3 Dzielimy D na zbiory względem x o minimalnej entropii (lub maksymalnej informacji wzajemnej) 4 Tworzymy węzeł zawierający x, D D \ {x} 5 Działamy rekurencyjnie dopóki 1. nie zakończy algorytmu.

Drzewa decyzyjne ID3 problemy zmienne ciągłe brakujące wartości overfitting (cf. Koewolucja - współzawodnictwo) atrybuty z wieloma możliwymi wartościami

Drzewa decyzyjne Rozszerzenie ID3 C4.5 1 Rozpatrujemy przypadki brzegowe (pusty zbiór przesłanek, wszystkie dane testowe zwracają przynależność do tego samego zbioru, nowa klasa) 2 Dla każdego x D wyliczamy znormalizowany zysk informacji przy podziale D względem x 3 Oznaczamy atrybut o najwyższym znormalizowanym zysku informacji przez x max 4 Tworzymy węzeł zawierający x max i dzielimy D na podzbiory względem x max 5 Działamy rekurencyjnie na każdym z podzbiorów i dodajemy węzły podziału jako dzieci x max

Drzewa decyzyjne C4.5 Przypadki brzegowe Wszystkie próbki D należą do tego zbioru X - tworzymy liść zwracający przynależność do X Żadna z próbek nie daje zysku informacji - tworzymy węzeł poziom wyżej, z określeniem wartości oczekiwanej klasy Pojawia się nowa klasa - tworzymy węzeł poziom wyżej, z określeniem wartości oczekiwanej klasy

Regresja logistyczna Zarys Ustalmy funkcję F (t) = 1 1+e x(t). Chcemy dobrać parametry tak, by funkcja F określała prawdopodobieństwo należenia obiektu do jednego z dwóch rozłącznych zbiorów, których suma daje całą przestrzeń. 1 Przypadek liniowy zakładamy x(t) = αt + β oraz F (t) = ) Obliczamy funkcję regresji logit(f (t)) = ln = αt + β. ( F (t) 1 F (t) 1+e (αt+β). Określamy parametr nachylenia α oraz punkt przecięcia β (np. MLE) oraz testujemy istotność wyniku (odpowiednie p value). Otrzymany wynik pozwala szacować prawdopodobieństwo zgodnie z założonym modelem F dla dowolnego t.

Regresja logistyczna Przypadek nie-binarny Załóżmy, że zamiast dwóch rozłącznych zbirów, przestrzeń jest podzielona na n uporządkowanych części, np. region dobrych rozwiązań, region ponadprzeciętnych rozwiązań, region przeciętnych rozwiązań i region słabych rozwiązań. Wtedy szanse przynależności do k-tego zbioru określamy jako logit = ln ( k i=1 p i n j=k+1 p j rozwiązaniem wynoszą ln ( p1+p 2 p 3+p 4 ). ), np. szanse, że x jest co najmniej przeciętnym

Dopasowanie do rozkładu Idea szacowanie rozkładu 1 Zbuduj początkowy rozkład (nieskończonej) populacji D 2 Do spełnienia warunku końca: Wygeneruj populację P zgodnie z D Wylicz funkcję dopasowania dla każdego osobnika, zapamiętaj najlepszego osobnika Uaktualnij rozkład D w oparciu o aktualny rozkład i populację P (selekcja) Problemy z reprezentacją rozkładu: n wymiarowy rozkład ciągły dyskretyzacja - grid o rozdzielczości a (a n ) krzywe Gaussa (m krzywych, wektory średnich µ (n), macierze kowariancji Σ = n 2 ) rozkłady brzegowe

Dopasowanie do rozkładu Iteracyjne uczenie populacyjne 1 Inicjalizujemy: m - rozmiar populacji, b - liczbę osobników do wybrania z wygenerowanych grup, α - tempo uczenia, D {D 1,..., D n } zbiór rozkładów brzegowych (początkowo jednostajnych) 2 Do spełnienia warunku końcowego: P Wybieramy m osobników zgodnie z D i dodajemy do P Wybieramy z P b najlepszych osobników Dla każdego genu j tworzymy rozkład N j w oparciu o wartości genów u osobników z P, a następnie D j αn j + (1 α)d j

Motywacja Podejmowanie decyzji na podstawie wcześniejszych danych 1 Analiza danych uczących 2 Stawianie hipotez 3 Budowanie modelu 4 Predykcja 5 Weryfikacja i modyfikacja modelu

Motywacja Najczęściej używane modele sieci neuronowe SVM drzewa decyzyjne k-nn (k-means 1-NN)