Zagadnienie klasyfikacji (dyskryminacji)

HTML
DOWNLOAD

Wielkość: px

Rozpocząć pokaz od strony:

Download "Zagadnienie klasyfikacji (dyskryminacji)"

Łucja Kołodziejczyk
10 lat temu
Przeglądów:

1 Zagadnienie klasyfikacji (dyskryminacji) Przykład Bank chce klasyfikować klientów starających się o pożyczkę do jednej z dwóch grup: niskiego ryzyka (spłacających pożyczki terminowo) lub wysokiego ryzyka Obserwując pewne cechy charakteryzujące klienta należy skonstruować regułę postępowania klasyfikującą ewentualnych pożyczkobiorców do jednej z dwóch wymienionych grup Populacje: π 1,, π k Obiekt: X = (X 1,, X p ) Zadanie Przypisać obiekt do jednej z populacji π 1,, π k W Z Statystyka 121

klienta należy skonstruować regułę postępowania klasyfikującą ewentualnych pożyczkobiorców do jednej z dwóch wymienionych

2 Rozwiązanie: podział zbioru R p na takie obszary R 1,, R p, że k R i = R p, i=1 R i R j =, i j Reguła klasyfikacyjna (dyskryminacyjna) Jeżeli X R i, to obiekt zaliczamy do π i Problem: znaleźć zbiory R i Kryterium P {X R i obiekt pochodzi z populacji π i } = max! Rozwiązanie zagadnienia Założenia 1 Dla populacji π i : X N p (µ i, Σ i ) 2 Σ 1 = = Σ k = Σ 3 P {obiekt pochodzi z π i } = 1/k W Z Statystyka 122

Kryterium P {X R i obiekt pochodzi z populacji π i } = max!

3 Klasyfikacja dla dwóch populacji k = 2 Idea: obserwacja X pochodzi z tej populacji, dla której odległość obserwacji od wektora średnich jest mniejsza Formalnie: Niech W (X) = ( X 1 X 2 ) C 1 X 1 2 ( X 1 X 2 ) C 1 ( X 1 + X 2 ) Reguła klasyfikacyjna X zaklasyfikować do populacji π 1, jeżeli W (X) > 0 X zaklasyfikować do populacji π 2, jeżeli W (X) < 0 Funkcja W (X): funkcja dyskryminacyjna W Z Statystyka 123

( X 1 X 2 ) C 1 ( X 1 + X 2 ) Reguła klasyfikacyjna X zaklasyfikować do populacji π 1, jeżeli W (X) >

4 Klasyfikacja dla wielu populacji k > 2 Idea: obserwacja X pochodzi z tej populacji, dla której odległość obserwacji od wektora średnich jest najmniejsza Formalnie: Niech W ij (X) = ( X i X j ) C 1 X 1 2 ( X i X j ) C 1 ( X i + X j ) Reguła klasyfikacyjna obserwację X zaklasyfikować do populacji π i, jeżeli W ij (X) > 0 dla wszystkich i j Funkcje W ij funkcje dyskryminacyjne W Z Statystyka 124

C 1 X 1 2 ( X i X j ) C 1 ( X i + X j ) Reguła klasyfikacyjna obserwację X zaklasyfikować do

5 Przykład W celu oceny stopnia ryzyka udzielanych kredytów bankowych, wybrano losowo 26 klientów i 12 z nich oceniono jako klientów o niskim stopniu ryzyka (klienci spłacali pożyczki w terminie), zaś 14 klientów z wylosowanej grupy oceniono jako klientów o wysokim stopniu ryzyka (klienci ci nie spłacali pożyczek w terminie) Przyjmując, że spłata pożyczek w terminie jest funkcją następujących cech: X 1 płeć, X 2 okres współpracy z bankiem, X 3 liczba posiadanych dzieci, X 4 wielkość dochodu X 5 zaakceptowane oprocentowanie pożyczek, skonstruować funkcję pozwalającą na ocenę czy ubiegający się o pożyczkę i posiadający określone cechy należy do grupy niskiego ryzyka, czy też należy do grupy wysokiego ryzyka π 1 grupa niskiego ryzyka π 2 grupa wysokiego ryzyka Nowy klient: X = (X 1,, X 5 ) W Z Statystyka 125

cech: X 1 płeć, X 2 okres współpracy z bankiem, X 3 liczba posiadanych dzieci, X 4 wielkość dochodu X 5 zaakceptowane oprocentowanie pożyczek, skonstruować funkcję pozwalającą na ocenę czy ubiegający

6 Funkcja dyskryminacyjna: W (X) = X X X X X 5 Jeżeli W (X) < 0, to klasyfikujemy klienta X do π 1 Jeżeli W (X) > 0, to klasyfikujemy klienta X do π 2 Wniosek kredytowy złożył bezdzietny (X 3 = 0) mężczyzna (X 1 = 0) współpracujący z bankiem jeden rok (X 2 = 1) deklarujący uzyskiwany dochód na poziomie 500 złotych (X 4 = 5) oraz akceptujący 4% jako tygodniowe oprocentowanie pożyczki (X 5 = 4) Wartość funkcji dyskryminacyjnej W = = Ponieważ jest to wartość ujemna, więc klienta klasyfikujemy do grupy małego ryzyka W Z Statystyka 126

uzyskiwany dochód na poziomie 500 złotych (X 4 = 5) oraz akceptujący 4% jako tygodniowe oprocentowanie pożyczki (X 5 = 4) Wartość funkcji dyskryminacyjnej W =

7 Przykład Przykład pochodzi od Fishera i przeszedł do klasyki przykładów analizy dyskryminacji Badano trzy populacje kwiatów: Iris virginica, Iris versicolor oraz Iris setosa Dla każdego kwiatu mierzono długość i szerokość działki kielicha (SL i SW ) oraz długość i szerokość płatka (P L i P W ) Zadanie: na podstawie czterech pomiarów zaklasyfikować nowy kwiat do jednej z trzech populacji Dla każdej z populacji dokonano po 50 obserwacji i uzyskano następujące średnie próbkowe Iris SL SW P L P W Virginica Versicolor Setosa Macierz średnich kwadratów i iloczynów ma postać: C = W Z Statystyka 127

kwiat do jednej z trzech populacji Dla każdej z populacji dokonano po 50 obserwacji i uzyskano następujące średnie próbkowe Iris SL SW P L P W Virginica 6588 2974 5552 2062

8 Dwie funkcje dyskryminacyjne: W 12 = 3246SL 3391SW P L P W W 13 = 11076SL 19916SW P L P W Reguła klasyfikacyjna ma postać: Zaklasyfikować kwiat Iris o obserwacji X jako virginica, jeżeli W 12 (X) > 0 i W 13 (X) > 0 versicolor, jeżeli W 12 (X) < 0 i W 13 (X) > W 12 (X) setosa, jeżeli W 12 (X) < 0 i W 13 (X) < 0 W Z Statystyka 128

Iris o obserwacji X jako virginica, jeżeli W 12 (X) > 0 i W 13 (X) > 0 versicolor, jeżeli W

9 Analiza skupień X 1,, X n p wymiarowe obserwacje jednostek Założenie Przyjmujemy, że obserwacje X 1,, X n z nieznanej liczby k populacji pochodzą Zadanie Oszacować liczbę k populacji oraz rozpoznać, które obserwacje pochodzą z kolejnych populacji Grupy obserwacji uznane za pochodzące z tych samych populacji nazywane są skupieniami lub segmentami (ang cluster) Techniki analizy skupień zwane są procedurami segmentacji lub aglomeracji Idea Dwie obserwacje uznajemy za pochodzące z tej samej populacji, jeżeli są dostatecznie blisko siebie W Z Statystyka 129

pochodzące z tych samych populacji nazywane są skupieniami lub segmentami (ang cluster) Techniki analizy skupień zwane są procedurami

10 Techniki segmentacji techniki hierarchiczne techniki optymalnego podziału techniki natężenia techniki grupowania Metody hierarchiczne Macierz odległości [d ij ] między obiektami i skupieniami Odległość d ij między obiektami X i = (X i1,, X ip ) X j = (X j1,, X jp ) d ij = p (X il X jl ) 2 l=1 W Z Statystyka 1210

[d ij ] między obiektami i skupieniami Odległość d ij między obiektami X i =

11 Zasada działania metod hierarchicznych 1 zakładamy, że każdy z obiektów tworzy jednoelementowe skupienie 2 w macierzy odległości między skupieniami szukamy takiej pary skupień q i r (q < r) dla której odległość jest najmniejsza: d qr = min i<j d ij 3 łączymy obiekty q i r w jedno skupienie, nadajemy mu numer q i wyznaczamy nową macierz odległości 4 powyższe kroki powtarzamy aż do uzyskania jednego skupienia Metoda najbliższego sąsiedztwa d q t = min t q,r {d qt, d rt } Metoda najdalszego sąsiedztwa d q t = max t q,r {d qt, d rt } W Z Statystyka 1211

jedno skupienie, nadajemy mu numer q i wyznaczamy nową macierz odległości 4 powyższe kroki powtarzamy aż do uzyskania jednego skupienia

12 Przykład Badano 22 samochody różnych marek pod względem czterech cech: ceny (X 1 ), przyspieszenia (X 2 ), hamowania (X 3 ), trzymania się drogi (X 4 ) oraz zużycia paliwa (X 5 ) X 1 X 2 X 3 X 4 X 5 Acura Audi BMW Buick Corvette Chrysler Dodge Eagle Ford Honda Isuzu Mazda Mercedes Mitsub Nissan Olds Pontiac Porsche Saab Toyota VW Volvo W Z Statystyka 1212

00734 04271 02096 01538 Dodge 07060 01958 04813 01451 01538 Eagle 06135 12176 41989 02096 06771 Ford 07060 15419 09873 01451 17236 Honda 04286 04099 00066 00269 03695 Isuzu 07984 04099 00608 42301

13 W Z Statystyka 1213

14 Metoda k średnich X 1,, X n p wymiarowe obserwacje jednostek Założenie Przyjmujemy, że obserwacje X 1,, X n pochodzą z k populacji J = {I 1,, I k }: podział zbioru {1,, n} na rozłączne podzbiory X j = 1 n j i I j X i D(J ) = k i=1 i I j (X i X j ) 2 Znaleźć takie J, że D(J ) = min D(J ) W Z Statystyka 1214

}: podział zbioru {1,, n} na rozłączne podzbiory X j = 1 n j i I j X i D(J )

15 Przykład (cd) Cecha Średnie X X X X X W Z Statystyka 1215

027422 009927 212984 X 4 019061 028027 221984

16 Grupa 1: Acura Buick Chrysler Dodge Honda Mitsub Nissan Olds Pontiac Saab Toyota VW Volvo Grupa 2: Audi BMW Corvette Ford Mazda Mercedes Porsche Grupa 3: Eagle Isuzu W Z Statystyka 1216

Podobne dokumenty

Hierarchiczna analiza skupień

Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym