Wprowadzenie do programu RapidMiner, część 4 Michał Bereta

Wprowadzenie do programu RapidMiner, część 4 Michał Bereta www.michalbereta.pl 1. Wybór atrybutów (ang. attribute selection, feature selection). Jedną z podstawowych metod analizy współoddziaływania / zależności atrybutów jest analiza korelacji. Możemy sprawdzid czy atrybuty nie niosą w pewnym sensie podobnej informacji. Współczynnik korelacji między atrybutem x oraz y można wyliczyd ze wzoru gdzie s x oraz s y to odchylenia standardowe, n to liczba przykładów. Powyższy współczynnik to współczynnik Pearsona i przyjmuje wartości z przedziału *-1, 1+. Duże bezwzględne wartości tego współczynnika wskazują na dużą korelację (dodatnią lub ujemną) x i y. Takie atrybuty często są nadmiarowe. Wykorzystaj operator Correlation Matrix i bazę danych Indian Pima. W wyniku otrzymamy macierz korelacji, gdzie możemy sprawdzid korelację pomiędzy dowolną parą atrybutów. 1

Wartości te mogą służyd do określenia wartości wag atrybutów (większa wartośd wagi oznacza większe znaczenie atrybutu). Sprawdź, że jeśli w opcjach operatora CorrelationMatrix nie jest zaznaczone normalize weights to wagi te nie są tak wyraźnie oceniające atrybuty. Wagi atrybutów mogą posłużyd do decyzji, które z nich odrzucid, np. wykorzystując operator Select by Weights by wybrad tylko te atrybuty, które mają wagę większą niż np. 0.5. 2

Wynik: z oryginalnego zestawu ośmiu atrybutów pozostały jedynie trzy atrybuty (att9 jest tu etykietą klasy): 3

Zadanie: Jak sprawdzid korelację każdego z atrybutów z etykietą klasy? a.) W przypadku dwóch klas należy zakodowad etykiety klas numerycznie, np. jako 0 i 1 b.) W przypadku liczby klas większej niż dwa, procedura ta nie jest wskazana (dlaczego?). c.) Czy atrybuty, które są w tym przykładzie najbardziej skorelowane z etykietą klasy (att9) są tymi samymi, które zostały najlepiej ocenione (otrzymały najwyższe wagi) w poprzednim przykładzie? (Dlaczego?) Wynik (pamiętaj, że istotna jest bezwzględna wartośd): Uwaga: operator Weight by Correlation umożliwia oszacowanie wag dla atrybutów na podstawie ich korelacji z etykietą klasy. Wypróbuj go i porównaj z wynikami z powyższej tabli. Z dokumentacji: This operator calculates the relevance of the attributes by computing the value of correlation for each attribute of the input ExampleSet with respect to the label attribute. This weighting scheme is based upon correlation and it returns the absolute or squared value of correlation as attribute weight. 4

Zadanie: Porównaj działanie Select by Weights z Correlation Matrix z poprzedniego przykładu z operatorem Remove Correlated Attributes : Zwród uwagę na znaczenie wartości 0.5 oraz 0.3 w poniższych ustawieniach: 5

Przykładowy wynik: Select by Weights z Correlation Matrix : Remove Correlated Attributes : Powyższą tabelkę porównaj z Correlation Matrix : 6

Zadanie: Zbadaj korzyści płynące z wykorzystania powyższych metod analizy istotności atrybutów a problemie klasyfikacji szkła. Dodatkowo zastosuj operator Weight by Relief oraz jeden dodatkowy z zestawu dostępnego w RM. Zwród uwagę, że nie wszystkie nadają się do problemów klasyfikacji z wieloma klasami. 7

2. Wybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora. Przy ocenie wartości atrybutu kierowad można się empiryczną oceną jakości działania konkretnego klasyfikatora, który wykorzystuje dany atrybut, a raczej cały zestaw atrybutów. Istnieją dwa główne podejścia: a.) Forward selection - dodawaj kolejne atrybuty jeśli ich dodanie poprawia działanie klasyfikatora danego typu b.) Backward elimination - usuwaj po kolei kolejne atrybuty, i akceptuj usunięcie, jeśli wytrenowany na pozostających atrybutach klasyfikator danego typu poprawia się / nie pogarsza swojego działania Porównaj działanie tych dwóch operatorów czy jest duża różnica w ostatecznym wyborze? : Dla ForwardSelection : 8

Dla Backward Elimination : Przykładowe wybrane atrybuty: Dla ForwardSelection : 9

Dla Backward Elimination : 10