Zagadnienie klasyfikacji (dyskryminacji)

Zagadnienie klasyfikacji (dyskryminacji) Przykład Bank chce klasyfikować klientów starających się o pożyczkę do jednej z dwóch grup: niskiego ryzyka (spłacających pożyczki terminowo) lub wysokiego ryzyka Obserwując pewne cechy charakteryzujące klienta należy skonstruować regułę postępowania klasyfikującą ewentualnych pożyczkobiorców do jednej z dwóch wymienionych grup Populacje: π 1,, π k Obiekt: X = (X 1,, X p ) Zadanie Przypisać obiekt do jednej z populacji π 1,, π k W Z Statystyka 121

Rozwiązanie: podział zbioru R p na takie obszary R 1,, R p, że k R i = R p, i=1 R i R j =, i j Reguła klasyfikacyjna (dyskryminacyjna) Jeżeli X R i, to obiekt zaliczamy do π i Problem: znaleźć zbiory R i Kryterium P {X R i obiekt pochodzi z populacji π i } = max! Rozwiązanie zagadnienia Założenia 1 Dla populacji π i : X N p (µ i, Σ i ) 2 Σ 1 = = Σ k = Σ 3 P {obiekt pochodzi z π i } = 1/k W Z Statystyka 122

Klasyfikacja dla dwóch populacji k = 2 Idea: obserwacja X pochodzi z tej populacji, dla której odległość obserwacji od wektora średnich jest mniejsza Formalnie: Niech W (X) = ( X 1 X 2 ) C 1 X 1 2 ( X 1 X 2 ) C 1 ( X 1 + X 2 ) Reguła klasyfikacyjna X zaklasyfikować do populacji π 1, jeżeli W (X) > 0 X zaklasyfikować do populacji π 2, jeżeli W (X) < 0 Funkcja W (X): funkcja dyskryminacyjna W Z Statystyka 123

Klasyfikacja dla wielu populacji k > 2 Idea: obserwacja X pochodzi z tej populacji, dla której odległość obserwacji od wektora średnich jest najmniejsza Formalnie: Niech W ij (X) = ( X i X j ) C 1 X 1 2 ( X i X j ) C 1 ( X i + X j ) Reguła klasyfikacyjna obserwację X zaklasyfikować do populacji π i, jeżeli W ij (X) > 0 dla wszystkich i j Funkcje W ij funkcje dyskryminacyjne W Z Statystyka 124

Przykład W celu oceny stopnia ryzyka udzielanych kredytów bankowych, wybrano losowo 26 klientów i 12 z nich oceniono jako klientów o niskim stopniu ryzyka (klienci spłacali pożyczki w terminie), zaś 14 klientów z wylosowanej grupy oceniono jako klientów o wysokim stopniu ryzyka (klienci ci nie spłacali pożyczek w terminie) Przyjmując, że spłata pożyczek w terminie jest funkcją następujących cech: X 1 płeć, X 2 okres współpracy z bankiem, X 3 liczba posiadanych dzieci, X 4 wielkość dochodu X 5 zaakceptowane oprocentowanie pożyczek, skonstruować funkcję pozwalającą na ocenę czy ubiegający się o pożyczkę i posiadający określone cechy należy do grupy niskiego ryzyka, czy też należy do grupy wysokiego ryzyka π 1 grupa niskiego ryzyka π 2 grupa wysokiego ryzyka Nowy klient: X = (X 1,, X 5 ) W Z Statystyka 125

Funkcja dyskryminacyjna: W (X) = 098855 + 091522X 1 + 034271X 2 + 080272X 3 020583X 4 020061X 5 Jeżeli W (X) < 0, to klasyfikujemy klienta X do π 1 Jeżeli W (X) > 0, to klasyfikujemy klienta X do π 2 Wniosek kredytowy złożył bezdzietny (X 3 = 0) mężczyzna (X 1 = 0) współpracujący z bankiem jeden rok (X 2 = 1) deklarujący uzyskiwany dochód na poziomie 500 złotych (X 4 = 5) oraz akceptujący 4% jako tygodniowe oprocentowanie pożyczki (X 5 = 4) Wartość funkcji dyskryminacyjnej W = 098855 + 091522 0 + 034271 1 + 080272 0 020583 5 020061 4 = 24041 Ponieważ jest to wartość ujemna, więc klienta klasyfikujemy do grupy małego ryzyka W Z Statystyka 126

Przykład Przykład pochodzi od Fishera i przeszedł do klasyki przykładów analizy dyskryminacji Badano trzy populacje kwiatów: Iris virginica, Iris versicolor oraz Iris setosa Dla każdego kwiatu mierzono długość i szerokość działki kielicha (SL i SW ) oraz długość i szerokość płatka (P L i P W ) Zadanie: na podstawie czterech pomiarów zaklasyfikować nowy kwiat do jednej z trzech populacji Dla każdej z populacji dokonano po 50 obserwacji i uzyskano następujące średnie próbkowe Iris SL SW P L P W Virginica 6588 2974 5552 2062 Versicolor 5936 2770 4260 1326 Setosa 5006 3428 1462 0246 Macierz średnich kwadratów i iloczynów ma postać: C = 1 150 3 10217 659 18951 7712 2831 4912 1812 46433 19305 8657 W Z Statystyka 127

Dwie funkcje dyskryminacyjne: W 12 = 3246SL 3391SW + 7553P L + 14636P W 31523 W 13 = 11076SL 19916SW + 29187P L + 38461P W 18093 Reguła klasyfikacyjna ma postać: Zaklasyfikować kwiat Iris o obserwacji X jako virginica, jeżeli W 12 (X) > 0 i W 13 (X) > 0 versicolor, jeżeli W 12 (X) < 0 i W 13 (X) > W 12 (X) setosa, jeżeli W 12 (X) < 0 i W 13 (X) < 0 W Z Statystyka 128

Analiza skupień X 1,, X n p wymiarowe obserwacje jednostek Założenie Przyjmujemy, że obserwacje X 1,, X n z nieznanej liczby k populacji pochodzą Zadanie Oszacować liczbę k populacji oraz rozpoznać, które obserwacje pochodzą z kolejnych populacji Grupy obserwacji uznane za pochodzące z tych samych populacji nazywane są skupieniami lub segmentami (ang cluster) Techniki analizy skupień zwane są procedurami segmentacji lub aglomeracji Idea Dwie obserwacje uznajemy za pochodzące z tej samej populacji, jeżeli są dostatecznie blisko siebie W Z Statystyka 129

Techniki segmentacji techniki hierarchiczne techniki optymalnego podziału techniki natężenia techniki grupowania Metody hierarchiczne Macierz odległości [d ij ] między obiektami i skupieniami Odległość d ij między obiektami X i = (X i1,, X ip ) X j = (X j1,, X jp ) d ij = p (X il X jl ) 2 l=1 W Z Statystyka 1210

Zasada działania metod hierarchicznych 1 zakładamy, że każdy z obiektów tworzy jednoelementowe skupienie 2 w macierzy odległości między skupieniami szukamy takiej pary skupień q i r (q < r) dla której odległość jest najmniejsza: d qr = min i<j d ij 3 łączymy obiekty q i r w jedno skupienie, nadajemy mu numer q i wyznaczamy nową macierz odległości 4 powyższe kroki powtarzamy aż do uzyskania jednego skupienia Metoda najbliższego sąsiedztwa d q t = min t q,r {d qt, d rt } Metoda najdalszego sąsiedztwa d q t = max t q,r {d qt, d rt } W Z Statystyka 1211

Przykład Badano 22 samochody różnych marek pod względem czterech cech: ceny (X 1 ), przyspieszenia (X 2 ), hamowania (X 3 ), trzymania się drogi (X 4 ) oraz zużycia paliwa (X 5 ) X 1 X 2 X 3 X 4 X 5 Acura 05211 04773 00066 03816 20788 Audi 08657 02080 03187 00914 06771 BMW 04959 08015 01922 00914 01538 Buick 06135 16887 09331 02096 01538 Corvette 12354 18111 04945 09729 06771 Chrysler 06135 00734 04271 02096 01538 Dodge 07060 01958 04813 01451 01538 Eagle 06135 12176 41989 02096 06771 Ford 07060 15419 09873 01451 17236 Honda 04286 04099 00066 00269 03695 Isuzu 07984 04099 00608 42301 10671 Mazda 01261 06792 01331 04999 17236 Mercedes 10505 00061 01199 00914 01538 Mitsub 06135 10035 00838 03816 07183 Nissan 04286 00734 00066 02634 09974 Olds 06135 07342 04090 03816 21136 Pontiac 06135 06792 05355 01451 01950 Porsche 34542 22149 02957 06181 10259 Saab 05883 06792 02464 02634 00206 Toyota 00588 12176 02283 07364 08515 VW 07060 01285 01019 03816 01950 Volvo 02185 06119 01380 02096 03695 W Z Statystyka 1212

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 W Z Statystyka 1213

Metoda k średnich X 1,, X n p wymiarowe obserwacje jednostek Założenie Przyjmujemy, że obserwacje X 1,, X n pochodzą z k populacji J = {I 1,, I k }: podział zbioru {1,, n} na rozłączne podzbiory X j = 1 n j i I j X i D(J ) = k i=1 i I j (X i X j ) 2 Znaleźć takie J, że D(J ) = min D(J ) W Z Statystyka 1214

Przykład (cd) Cecha Średnie 1 2 3 X 1 039307 093169 070597 X 2 029605 078231 081378 X 3 027422 009927 212984 X 4 019061 028027 221984 X 5 044191 087640 019503 1 2 3 4 5 W Z Statystyka 1215

Grupa 1: Acura Buick Chrysler Dodge Honda Mitsub Nissan Olds Pontiac Saab Toyota VW Volvo Grupa 2: Audi BMW Corvette Ford Mazda Mercedes Porsche Grupa 3: Eagle Isuzu W Z Statystyka 1216