Algorytmy metaheurystyczne Wykład 11 Piotr Syga 22.05.2017
Drzewa decyzyjne Idea Cel Na podstawie przesłanek (typowo zbiory rozmyte) oraz zbioru wartości w danych testowych, w oparciu o wybrane miary, budujemy (jak najpłytsze) drzewo decyzyjne określające przynależność do jednego z dwóch rozłącznych zbiorów partycjonujących przestrzeń. Następnie dla dowolnych danych sprawdzając jedynie wymagane warunki zgadujemy do którego zbioru należy.
Drzewa decyzyjne Iterative Dichotomiser 3 J.R. Quinlan 1 Rozpatrujemy przypadki brzegowe (pusty zbiór przesłanek, wszystkie dane testowe zwracają przynależność do tego samego zbioru) 2 Wyliczamy entropię każdego x D 3 Dzielimy D na zbiory względem x o minimalnej entropii (lub maksymalnej informacji wzajemnej) 4 Tworzymy węzeł zawierający x, D D \ {x} 5 Działamy rekurencyjnie dopóki 1. nie zakończy algorytmu.
Drzewa decyzyjne ID3 problemy zmienne ciągłe brakujące wartości overfitting (cf. Koewolucja - współzawodnictwo) atrybuty z wieloma możliwymi wartościami
Drzewa decyzyjne Rozszerzenie ID3 C4.5 1 Rozpatrujemy przypadki brzegowe (pusty zbiór przesłanek, wszystkie dane testowe zwracają przynależność do tego samego zbioru, nowa klasa) 2 Dla każdego x D wyliczamy znormalizowany zysk informacji przy podziale D względem x 3 Oznaczamy atrybut o najwyższym znormalizowanym zysku informacji przez x max 4 Tworzymy węzeł zawierający x max i dzielimy D na podzbiory względem x max 5 Działamy rekurencyjnie na każdym z podzbiorów i dodajemy węzły podziału jako dzieci x max
Drzewa decyzyjne C4.5 Przypadki brzegowe Wszystkie próbki D należą do tego zbioru X - tworzymy liść zwracający przynależność do X Żadna z próbek nie daje zysku informacji - tworzymy węzeł poziom wyżej, z określeniem wartości oczekiwanej klasy Pojawia się nowa klasa - tworzymy węzeł poziom wyżej, z określeniem wartości oczekiwanej klasy
Regresja logistyczna Zarys Ustalmy funkcję F (t) = 1 1+e x(t). Chcemy dobrać parametry tak, by funkcja F określała prawdopodobieństwo należenia obiektu do jednego z dwóch rozłącznych zbiorów, których suma daje całą przestrzeń. 1 Przypadek liniowy zakładamy x(t) = αt + β oraz F (t) = ) Obliczamy funkcję regresji logit(f (t)) = ln = αt + β. ( F (t) 1 F (t) 1+e (αt+β). Określamy parametr nachylenia α oraz punkt przecięcia β (np. MLE) oraz testujemy istotność wyniku (odpowiednie p value). Otrzymany wynik pozwala szacować prawdopodobieństwo zgodnie z założonym modelem F dla dowolnego t.
Regresja logistyczna Przypadek nie-binarny Załóżmy, że zamiast dwóch rozłącznych zbirów, przestrzeń jest podzielona na n uporządkowanych części, np. region dobrych rozwiązań, region ponadprzeciętnych rozwiązań, region przeciętnych rozwiązań i region słabych rozwiązań. Wtedy szanse przynależności do k-tego zbioru określamy jako logit = ln ( k i=1 p i n j=k+1 p j rozwiązaniem wynoszą ln ( p1+p 2 p 3+p 4 ). ), np. szanse, że x jest co najmniej przeciętnym
Dopasowanie do rozkładu Idea szacowanie rozkładu 1 Zbuduj początkowy rozkład (nieskończonej) populacji D 2 Do spełnienia warunku końca: Wygeneruj populację P zgodnie z D Wylicz funkcję dopasowania dla każdego osobnika, zapamiętaj najlepszego osobnika Uaktualnij rozkład D w oparciu o aktualny rozkład i populację P (selekcja) Problemy z reprezentacją rozkładu: n wymiarowy rozkład ciągły dyskretyzacja - grid o rozdzielczości a (a n ) krzywe Gaussa (m krzywych, wektory średnich µ (n), macierze kowariancji Σ = n 2 ) rozkłady brzegowe
Dopasowanie do rozkładu Iteracyjne uczenie populacyjne 1 Inicjalizujemy: m - rozmiar populacji, b - liczbę osobników do wybrania z wygenerowanych grup, α - tempo uczenia, D {D 1,..., D n } zbiór rozkładów brzegowych (początkowo jednostajnych) 2 Do spełnienia warunku końcowego: P Wybieramy m osobników zgodnie z D i dodajemy do P Wybieramy z P b najlepszych osobników Dla każdego genu j tworzymy rozkład N j w oparciu o wartości genów u osobników z P, a następnie D j αn j + (1 α)d j
Motywacja Podejmowanie decyzji na podstawie wcześniejszych danych 1 Analiza danych uczących 2 Stawianie hipotez 3 Budowanie modelu 4 Predykcja 5 Weryfikacja i modyfikacja modelu
Motywacja Najczęściej używane modele sieci neuronowe SVM drzewa decyzyjne k-nn (k-means 1-NN)