Marcin Szupke Wydział Matematyki i Informatyki UMK w Toruniu

Transkrypt

1 LDA Linear Discriminant Analysis Marcin Szupke Wydział Matematyki i Informatyki UMK w Toruniu

2 1 Wstęp Liniowa Analiza Dyskryminacyjna (ang. Linear Discriminant Analysys, LDA) należy do metod statystycznych, dokonuje podziału na obszary graniczne funkcjami liniowymi, spisuje się dobrze na prostych w analizie danych. Jest jedną z metod klasyfikacji danych. Zadaniem takich metod jest określenie przynależności do klas innych badanych obiektów opisanych tymi samymi cechami. Na przykład mając dane mydeł (np. ich kształt, zapach, preferencje ludzi, etc.), które zostały sklasyfikowane jako dobre możemy określić, czy jakieś inne mydło także jest dobre. Oczywiście klasyfikacja nie zawsze jest bezbłędna może się zdarzyć, że złe mydło zostanie sklasyfikowane jako dobre. Wszystko zależy od tego ile podobnych mydeł jak to jest wśród wcześniej zbadanych. Klas, do których przydzielane są badane obiekty może być nieskończenie wiele. Do poprawnej klasyfikacji należy wykonać podstawowe kroki, takie jak: standaryzacja i podział danych analiza jednowymiarowa analiza wielowymiarowa analiza korelacji pomiędzy zmiennymi i dobór najlepszych zmiennych predykcyjnych klasyfikacja za pomocą wybranych zmiennych analiza wyników i wybór optymalnego modelu 2 Zagadnienie klasyfikacji Przez pojęcie klasyfikacji rozumie się dzielenie dowolnego zbioru elementów na grupy, do których zalicza się elementy różniące się, ale podobne, tj. mające własności wyróżniające daną grupę. Zbiór elementów należących do jednej grupy nazywany jest klasą, a jej elementy obiektami. Elementy klasy mogą się różni ć z wyjątkiem tych własności, na których opiera się klasyfikacja. Ogólna zasada postępowania przy klasyfikacji wygląda tak: standaryzacja danych wykonuje się aby każda ze zmiennych była tak samo istotna przy klasyfikacji. Dokonuje się tego przez obliczenie średniej oraz wariancji dla każdej zmiennej ciągłej. Następnie dla każdej zmiennej należy odjąć od niej średnią i podzielić przez odchylenie standardowe. Należy to zrobić na całym, niepodzielonym zbiorze danych. W dalszej kolejności dzieli się dane na zbiór uczący oraz testowy.

3 wstępna analiza próba sprawdzenia, które zmienne dobrze różnicują obiekty, tj. dla tej zmiennej obiekty w różnych klasach mają różną jej wartość. W przypadku pojedynczych zmiennych najlepiej stosować wykresy pudełkowe lub histogramy. Na przykład mając klasy płazów i ptaków dobrze różnicuje te klasy posiadanie opierzenia wiadomo, że wszystkie ptaki je mają, a płazy nie. porównywanie różnicowania klas przez dwie lub więcej cech w przypadku dwóch lub trzech zmiennych możemy porównywać wykresy rozrzutu. Często takie oddzielanie klas przynosi dużo lepsze efekty niż branie pod uwagę tylko jednej cechy, gdyż klasy mogą być rozdzielone funkcją prawie dowolnego stopnia i dwuwymiarowe wykresy są w stanie podzielić obszar na poszczególne klasy. sprawdzenie czy zmienne nie są skorelowane tworzymy macierz korelacji i z wybranych wcześniej zmiennych usuwamy te, które są ze sobą skorelowane. Postępuje się tak ponieważ występowanie skorelowanych zmiennych nie poprawia prawie w ogóle jakości klasyfikacji, natomiast zwiększa złożoność modelu i utrudnia klasyfikację. Na przykład, jeśli klasyfikujemy zwierzęta i mamy na przykład zmienne: ma płetwy, potrafi pływać, to jest bardzo prawdopodobne, że jeśli dane zwierzę ma płetwy to potrafi też pływać, a więc rozdzielają one obiekty w taki sam sposób. Wyeliminowanie jednej z nich nie pogorszy w związku z tym klasyfikacji. klasyfikacja na wybranych zmiennych w wyniku działania metod otrzymujemy obiekty przyporządkowane na jej podstawie do konkretnych klas. wybranie najlepszej reguły klasyfikacyjnej robi się to porównując błędy klasyfikacji oraz czułość i specyficzność dla danej reguły. Klasyfikację należy przeprowadzić na wybranym zbiorze danych, najlepiej dla kilku różnych reguł wybranych na podstawie wstępnej selekcji. 3 Wstępna analiza danych i wybór zmiennych Aby określić, które ze zmiennych najlepiej nadają się do konstrukcji reguły klasyfikacyjnej należy dokonać wstępnej analizy tych danych za pomocą wykresów pudełkowych, histogramów, wykresów rozrzutu oraz macierzy korelacji. Wykresy pudełkowe Najpierw wykonuje się serię wykresów pudełkowych.

4 Z punktu widzenia testów jednowymiarowych zmienna Flavanoids dobrze różnicuje klasy, gdyż wykresy pudełkowe nie zachodzą na siebie. Jeśli przykładowo dla klasy K1 wykres pudełkowy byłby taki sam jak dla klasy K2, wówczas ta zmienna nie będzie dobrym predyktorem, gdyż nie umożliwia rozróżnienia tych dwóch rejonów. A więc zawsze będą pożądane takie zmienne, w których wykresy pudełkowe będą dla różnych wysokościach dla poszczególnych klas. Histogramy W przypadku zmiennych binarnych wykresy pudełkowe będą zupełnie nieprzydatne, ponieważ możliwe są tutaj jedynie dwie wartości. Dobre efekty daje w tym przypadku zastosowanie wykresów histogramowych. Tak mogą wyglądać histogramy dla zmiennych binarnych, jeśli mamy do czynienia z dużą liczbą klas.

5 Powyższe histogramy pokazują separację klas przez zmienne predator i backbone. Jeśli słupek dla danej klasy jest pojedynczy to znaczy, że wszystkie obiekty danej klasy mają taką samą wartość tej zmiennej. Wniosek dobrze charakteryzuje ona daną klasę i może być wykorzystana w klasyfikacji, jeśli dla większości zmiennych mamy właśnie takie pojedyncze słupki. Natomiast wykres po prawej stronie przedstawia zmienną, która nie będzie dobrym predyktorem, ponieważ dla każdej klasy istnieje niejednoznaczność jej wartości zdarza się, że jedna połowa obiektów klasy ma wartość zmiennej true a druga false. Wykresy rozrzutu Widać na wykresach, że nie zawsze można uzyskać dobrą separację klas za pomocą jednej zmiennej. Bardziej efektywne są wykresy rozrzutu, które jednak nie są przydatne dla zmiennych kategorycznych i binarnych. Na podstawie wykresów można stwierdzić, że wybrane pary zmiennych dobrze różnicują dane obiekty. Widać, że wykres z prawej jest nieco lepszy ponieważ obiekty z poszczególnych klas są mniej wymieszane. Zawsze poszukuje się takie pary zmiennych, które na wykresach tworzą możliwe najbardziej oddalone od siebie skupiska. Istnieją także wykresy rozrzutu w trzech wymiarach, ale trudno o poprawną ich interpretację.

6 4 Klasyfikacja za pomocą metody LDA Aby przeprowadzić analizę należy dokonać losowego podziału zbioru na uczący (2/3 danych) i testowy (1/3 danych). Następnie korzystając z wybranej metody przeprowadza się klasyfikację obiektów ze zbioru testowego porównuje się rzeczywistą przynależność do klasy z tą, którą otrzymaliśmy za pomocą metody LDA. Przy liczeniu czułości i specyficzności dla większej niż dwie liczby klas, jedną z klas uznaje się jako uprzywilejowaną, a pozostałe łączy w jedną klasę. Poniżej pokazana jest macierz kontyngencji oraz błąd, czułość i specyficzność metody LDA dla przykładowych danych przy klasyfikacji win. Zmienne kolor, fenole. Metoda LDA Przewidywana klasyfikacja Rzeczywista klasyfikacja K1 K2 K3 K K K błąd klasyfikacji = 0, czułość = 0, specyficzność = 0, Obszary decyzyjne Obszary decyzyjne pokazują jak rozdzielają klasy metody statystyczne. Poniżej znajdują się dwa obszary decyzyjne. Po lewej stronie widać obszar decyzyjny metody LDA dla klasyfikacji win. Dla porównania po lewej stronie widać obszar decyzyjny metody QDA (kwadratowa analiza dyskryminacyjna) dla tych samych danych.

7 Na wykresach widać przewagę metody QDA nad LDA. Jest to z pewnością metoda bardziej wyrafinowana niż LDA i powinna sobie radzić z trudniejszymi do klasyfikacji danymi. 6 LDA w praktyce MPEG 7 MPEG 7 jest standardem definiującym język opisu zawartości obiektów multimedialnych (ang. Multimedia Content Description Interface). O ile poprzednie standardy grupy MPEG (MPEG 1, MPEG 2 i MPEG 4) zajmowały się normowaniem zwartej reprezentacji samej zawartości obiektów multimedialnych, to standard MPEG 7 normuje opisy tej zawartości. Opisy te, tzw. deskryptory, mogą być tworzone przez operatora (np. czołówka filmu cyfrowego, czy szczegóły procesu twórczego), a część z nich może być automatycznie ekstrahowana z samego medium cyfrowego (np. identyfikacja kolorów dominujących, czy cechy obrazy twarzy). Opisy te z kolei mogą być wykorzystane do tworzenia indeksów materiałów obiektów multimedialnych by ułatwić wyszukiwanie tych obiektów w archiwach lokalnych i co ważniejsze w archiwach rozproszonych w sieci komputerowej. Standard składa się z siedmiu części: Systems, Description Definition Language, Visual, Audio, Multimedia Description Schemes, Reference Software oraz Conformance. W celu osiągnięcia kompatybilności ze standardami internetowymi grupa MPEG 7 wybrała język XML jako język zapisu deskryptorów, a język XML Schema jako język definiowania składni tych deskryptorów. Jedną z grup deskryptorów są deskryptory rozpoznawania twarzy, w skład którego wchodzą:

8 Face Recognition informacja o obrazie twarzy uzyskana na podstawie kwantowanych do 5 bitów pierwszych 48 współczynników KLT (Karhunen Loeve'go). Advanced Face Recognition informacja o obrazie twarzy uzyskana w wyniki hierarchicznej analizy LDA na informacji spektralnej uzyskanej globalnie i w lokalnych podokienkach z opcjonalną wstępną normalizacją twarzy do pozy frontalnej. Badanie zdolności kredytowej Metody statystyczne sprawdzania wiarygodności kredytów, które określa się wspólnym mianem analizy dyskryminacyjnej przedstawia następujący schemat: Analiza dyskryminacyjna Jednowymiarowa Wielowymiarowa Parametryczna Metoda Kendala Metoda Linharta Nieparametryczna Kwadratowa Liniowa

9 Po raz pierwszy liniowa analiza dyskryminacyjna była wykorzystywana w zarządzaniu finansami przez E. I. Altmana (1968). Opracował on swój model (zwany modelem Zeta Score) posługując się próbą 66 korporacji amerykańskich reprezentujących po 33 spółki z każdej grupy (bankruci, niebankruci). Dane do wyznaczenia współczynników dyskryminacji zaczerpnął ze sprawozdań finansowych sporządzonych w roku sprawozdawczym poprzedzającym bankructwo spółki. W swoich rozważaniach Altman uwzględnił początkowo 22 wskaźniki finansowe spośród których wybrał ostatecznie pięć wskaźników jako zmienne dyskryminacyjne w predykcji bankructwa. Ostatecznie przedstawiona przez Altmana funkcja dyskryminacji miała postać: gdzie: D = 1,2 * x1 + 1,4 * x2 + 3,3 * x3 + 0,6 * x4 + 1,0 * x5 x1 = (kapitał pracujący)/(aktywa ogółem) x2 = (skumulowane zyski reinwestowane)/(aktywa ogółem) x3 = (zysk brutto plus odsetki)/(aktywa ogółem) x4 = (wartość rynkowa kapitału własnego)/(wartość księgowa kapitału obcego) W tych badaniach wartością dyskryminacyjną okazała się liczba 1,81. Dla analizowanej próby Altman ustalił prawdopodobieństwa zbankrutowania badanych korporacji np. korporacja, dla której funkcja dyskryminacji wynosi 0,55 zbankrutuje z prawdopodobieństwem 75%, natomiast prawdopodobieństwo zbankrutowania korporacji, dla której funkcja dyskryminacji przyjmie wartość 2,30 wynosi 1%. Powyższe przykłady są jedynie jednymi z wielu. Obecnie LDA oraz inne metody klasyfikacji danych stosuje się w wielu dziedzinach wiedzy (w medycynie np. do szybszego wykrycia zagrożenia zawału serca). LDA i inne metody klasyfikacji nie zastąpią człowieka a jedynie mogą go wspomóc. 6 Podsumowanie LDA jest jedną z metod klasyfikacji danych. Żadna z metod nie jest idealna, każda sprawdza się lepiej w różnych warunkach (np. metoda LDA nie może być stosowana dla zmiennych kategorycznych i binarnych). Innymi podobnymi metodami są: QDA Kwadratowa Analiza Dyskryminacyjna. Również zalicza się do metod statystycznych, lecz jest metodą nieco bardziej wyrafinowaną niż LDA, gdyż dokonuje podziału zbioru za pomocą krzywych rzędu drugiego.

10 k NN Należy do grupy metod algorytmicznych. Jej działanie opiera się na obliczeniu odległości danego obiektu od innych, wybraniu k najbliższych obiektów i na tej podstawie sklasyfikowanie go (będzie należał do tej klasy, co największa liczba spośród k najbliższych sąsiadów). Metoda nie działa dla zmiennych binarnych i kategorycznych. Drzewa klasyfikacyjne Działają na zasadzie rekurencyjnego podziału obiektów na coraz mniejsze podzbiory, ze względu na wartość wybranych do klasyfikacji zmiennych. Podzbiory są rozgałęzione na coraz mniejsze podzbiory, aż do pewnego określonego momentu. Drzewa działają na wszystkich możliwych typach zmiennych (z wyjątkiem tekstowych). Zasadniczą zaletą drzew jest brak jakichkolwiek założeń wstępnych dotyczących rozkładów danych. Szczególnie przydatne są one w sytuacjach, w których występują skorelowane ze sobą dane. Ponadto wygenerowanie reguły logiczne są łatwiejsze w interpretacji niż różnego rodzaju funkcje klasyfikacyjne. Na podstawie drzew łatwo jest też opracować standardy postępowania diagnostycznego czy terapeutycznego. Jak widać LDA nie jest jedyną metodą klasyfikacyjną i aby dobrze klasyfikować dane należy poznać inne metody tak by wybrać najlepszą. Aby tego dokonać należy przeprowadzić eksperymenty z ww metodami i wybrać tę, która osiągnęła najmniejszy błąd klasyfikacji i charakteryzowała i charakteryzowała się najmniejszą złożonością modelu. Wszystko zależy od celu w jakim dokonujemy klasyfikacji.