Zagadnienie klasyfikacji (dyskryminacji)



Podobne dokumenty
Hierarchiczna analiza skupień

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH

METODY INŻYNIERII WIEDZY

METODY INŻYNIERII WIEDZY

Wprowadzenie do analizy dyskryminacyjnej

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

Analiza wariancji. dr Janusz Górczyński

opis sprzęgło alternatora zastosowanie: OPEL opis sprzęgło alternatora zastosowanie: FORD opis sprzęgło alternatora zastosowanie: FORD opis

Co to jest grupowanie

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona

ALGORYTM RANDOM FOREST

Analiza Skupień - Grupowanie Zaawansowana Eksploracja Danych

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Porównanie wielu rozkładów normalnych

ABARTH ACURA ACURA SIP22 HON49, HON37, HON38 HON66

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

ALGORYTMY SZTUCZNEJ INTELIGENCJI

1.1 Wstęp Literatura... 1

Metody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania

Agnieszka Nowak Brzezińska

Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n)

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Analiza danych. TEMATYKA PRZEDMIOTU

Inteligentna analiza danych

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

Wprowadzenie. Data Science Uczenie się pod nadzorem

Klasyfikacja metodą Bayesa

Rozglądanie się w przestrzeni Iris czyli kręcenie (głową/płaszczyzną) w czterech wymiarach

Ekonometria Analiza dyskryminacyjna

Podstawowe pojęcia statystyczne

STATYSTYKA I DOŚWIADCZALNICTWO

Testowanie hipotez statystycznych.

Porównanie dwóch rozkładów normalnych

F POMPA 11 x 25 x 6,4/6,4 1PM RYS.1 przeciwkurzowy z jedną sprężynką BMW serie , Peugeot Boxer

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Moduł szkoleniowy 4. dla nowych rynków projektów PEE

Uszczelniacze do Przekładni Kierowniczych ze WSPOMAGANIEM

rolka prowadząca paska rozrządu CHRYSLER rolka prowadząca paska pomocniczego FIAT, LANCIA rolka prowadząca paska pomocniczego AUDI, VW, SEAT, SKODA

Statystyka w pracy badawczej nauczyciela

Elementy statystyki STA - Wykład 5

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

CLUSTERING. Metody grupowania danych

5. Analiza dyskryminacyjna: FLD, LDA, QDA

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

STATYSTYKA

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Estymacja punktowa i przedziałowa

Estymacja parametrów rozkładu cechy

Indukowane Reguły Decyzyjne I. Wykład 8

POMPA WALEK AUTO ZAWOR ZME QualityScan Naprawa pomp CP4 na oryginalnych częściach Bosch

Tabela Zaleceń Motul Oleje do samochodów osobowych i dostawczych

Agnieszka Nowak Brzezińska Wykład III

Przegląd rynku bankowych produktów detalicznych

Grupowanie danych. Wprowadzenie. Przykłady

Elementarne metody statystyczne 9

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin. Henryk Bujak

Wykład 10 Skalowanie wielowymiarowe

Agnieszka Nowak Brzezińska Wykład III

Jądrowe klasyfikatory liniowe

STATYSTYKA I DOŚWIADCZALNICTWO

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

V Zestaw do testowania ciśnienia w chłodnicy i zestaw do wytwarzania próżni w chłodnicy (25 części) Instrukcja stosowania

Metody systemowe i decyzyjne w informatyce

Przegląd rynku bankowych produktów detalicznych

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

ESTYMACJA PRZEDZIAŁOWA WYBRANYCH PARAMETRÓW

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Zestawienie sporządzono według danych na dzień r.

Metrologia: powtarzalność i odtwarzalność pomiarów. dr inż. Paweł Zalewski Akademia Morska w Szczecinie

Citroen C5 FV23%! PLN netto Al. Krakowska S sz06

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

Samochód Cena Lokalizacja Stanowisko

Statystyczne metody analizy danych

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Czym jest analiza skupień?

OPEL FORD FORD VOLVO FIAT

Scoring kredytowy w pigułce

SRL - NAJLEPSZY NA RYNKU STOSUNEK JAKO

Przegląd rynku bankowych produktów detalicznych

Prawdopodobieństwo. Prawdopodobieństwo. Jacek Kłopotowski. Katedra Matematyki i Ekonomii Matematycznej SGH. 16 października 2018

Nowa funkcja dodana w wersji R3-2011

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Data Mining Wykład 6. Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa.

Samochody w Polsce posiadanie, plany zakupu

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Gdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k 1).

Przegląd rynku bankowych produktów detalicznych

Przegląd rynku bankowych produktów detalicznych

Testowanie hipotez statystycznych.

MASZ TO JAK W BANKU, CZYLI PO CO NAM KARTY I INNE PRODUKTY BANKOWE.

Zestaw do testowania ciśnienia w chłodnicy i zestaw do wytwarzania próżni w chłodnicy (25 części)

BANK SPÓŁDZIELCZY W OTMUCHOWIE

Regresyjne metody łączenia klasyfikatorów

Transkrypt:

Zagadnienie klasyfikacji (dyskryminacji) Przykład Bank chce klasyfikować klientów starających się o pożyczkę do jednej z dwóch grup: niskiego ryzyka (spłacających pożyczki terminowo) lub wysokiego ryzyka Obserwując pewne cechy charakteryzujące klienta należy skonstruować regułę postępowania klasyfikującą ewentualnych pożyczkobiorców do jednej z dwóch wymienionych grup Populacje: π 1,, π k Obiekt: X = (X 1,, X p ) Zadanie Przypisać obiekt do jednej z populacji π 1,, π k W Z Statystyka 121

Rozwiązanie: podział zbioru R p na takie obszary R 1,, R p, że k R i = R p, i=1 R i R j =, i j Reguła klasyfikacyjna (dyskryminacyjna) Jeżeli X R i, to obiekt zaliczamy do π i Problem: znaleźć zbiory R i Kryterium P {X R i obiekt pochodzi z populacji π i } = max! Rozwiązanie zagadnienia Założenia 1 Dla populacji π i : X N p (µ i, Σ i ) 2 Σ 1 = = Σ k = Σ 3 P {obiekt pochodzi z π i } = 1/k W Z Statystyka 122

Klasyfikacja dla dwóch populacji k = 2 Idea: obserwacja X pochodzi z tej populacji, dla której odległość obserwacji od wektora średnich jest mniejsza Formalnie: Niech W (X) = ( X 1 X 2 ) C 1 X 1 2 ( X 1 X 2 ) C 1 ( X 1 + X 2 ) Reguła klasyfikacyjna X zaklasyfikować do populacji π 1, jeżeli W (X) > 0 X zaklasyfikować do populacji π 2, jeżeli W (X) < 0 Funkcja W (X): funkcja dyskryminacyjna W Z Statystyka 123

Klasyfikacja dla wielu populacji k > 2 Idea: obserwacja X pochodzi z tej populacji, dla której odległość obserwacji od wektora średnich jest najmniejsza Formalnie: Niech W ij (X) = ( X i X j ) C 1 X 1 2 ( X i X j ) C 1 ( X i + X j ) Reguła klasyfikacyjna obserwację X zaklasyfikować do populacji π i, jeżeli W ij (X) > 0 dla wszystkich i j Funkcje W ij funkcje dyskryminacyjne W Z Statystyka 124

Przykład W celu oceny stopnia ryzyka udzielanych kredytów bankowych, wybrano losowo 26 klientów i 12 z nich oceniono jako klientów o niskim stopniu ryzyka (klienci spłacali pożyczki w terminie), zaś 14 klientów z wylosowanej grupy oceniono jako klientów o wysokim stopniu ryzyka (klienci ci nie spłacali pożyczek w terminie) Przyjmując, że spłata pożyczek w terminie jest funkcją następujących cech: X 1 płeć, X 2 okres współpracy z bankiem, X 3 liczba posiadanych dzieci, X 4 wielkość dochodu X 5 zaakceptowane oprocentowanie pożyczek, skonstruować funkcję pozwalającą na ocenę czy ubiegający się o pożyczkę i posiadający określone cechy należy do grupy niskiego ryzyka, czy też należy do grupy wysokiego ryzyka π 1 grupa niskiego ryzyka π 2 grupa wysokiego ryzyka Nowy klient: X = (X 1,, X 5 ) W Z Statystyka 125

Funkcja dyskryminacyjna: W (X) = 098855 + 091522X 1 + 034271X 2 + 080272X 3 020583X 4 020061X 5 Jeżeli W (X) < 0, to klasyfikujemy klienta X do π 1 Jeżeli W (X) > 0, to klasyfikujemy klienta X do π 2 Wniosek kredytowy złożył bezdzietny (X 3 = 0) mężczyzna (X 1 = 0) współpracujący z bankiem jeden rok (X 2 = 1) deklarujący uzyskiwany dochód na poziomie 500 złotych (X 4 = 5) oraz akceptujący 4% jako tygodniowe oprocentowanie pożyczki (X 5 = 4) Wartość funkcji dyskryminacyjnej W = 098855 + 091522 0 + 034271 1 + 080272 0 020583 5 020061 4 = 24041 Ponieważ jest to wartość ujemna, więc klienta klasyfikujemy do grupy małego ryzyka W Z Statystyka 126

Przykład Przykład pochodzi od Fishera i przeszedł do klasyki przykładów analizy dyskryminacji Badano trzy populacje kwiatów: Iris virginica, Iris versicolor oraz Iris setosa Dla każdego kwiatu mierzono długość i szerokość działki kielicha (SL i SW ) oraz długość i szerokość płatka (P L i P W ) Zadanie: na podstawie czterech pomiarów zaklasyfikować nowy kwiat do jednej z trzech populacji Dla każdej z populacji dokonano po 50 obserwacji i uzyskano następujące średnie próbkowe Iris SL SW P L P W Virginica 6588 2974 5552 2062 Versicolor 5936 2770 4260 1326 Setosa 5006 3428 1462 0246 Macierz średnich kwadratów i iloczynów ma postać: C = 1 150 3 10217 659 18951 7712 2831 4912 1812 46433 19305 8657 W Z Statystyka 127

Dwie funkcje dyskryminacyjne: W 12 = 3246SL 3391SW + 7553P L + 14636P W 31523 W 13 = 11076SL 19916SW + 29187P L + 38461P W 18093 Reguła klasyfikacyjna ma postać: Zaklasyfikować kwiat Iris o obserwacji X jako virginica, jeżeli W 12 (X) > 0 i W 13 (X) > 0 versicolor, jeżeli W 12 (X) < 0 i W 13 (X) > W 12 (X) setosa, jeżeli W 12 (X) < 0 i W 13 (X) < 0 W Z Statystyka 128

Analiza skupień X 1,, X n p wymiarowe obserwacje jednostek Założenie Przyjmujemy, że obserwacje X 1,, X n z nieznanej liczby k populacji pochodzą Zadanie Oszacować liczbę k populacji oraz rozpoznać, które obserwacje pochodzą z kolejnych populacji Grupy obserwacji uznane za pochodzące z tych samych populacji nazywane są skupieniami lub segmentami (ang cluster) Techniki analizy skupień zwane są procedurami segmentacji lub aglomeracji Idea Dwie obserwacje uznajemy za pochodzące z tej samej populacji, jeżeli są dostatecznie blisko siebie W Z Statystyka 129

Techniki segmentacji techniki hierarchiczne techniki optymalnego podziału techniki natężenia techniki grupowania Metody hierarchiczne Macierz odległości [d ij ] między obiektami i skupieniami Odległość d ij między obiektami X i = (X i1,, X ip ) X j = (X j1,, X jp ) d ij = p (X il X jl ) 2 l=1 W Z Statystyka 1210

Zasada działania metod hierarchicznych 1 zakładamy, że każdy z obiektów tworzy jednoelementowe skupienie 2 w macierzy odległości między skupieniami szukamy takiej pary skupień q i r (q < r) dla której odległość jest najmniejsza: d qr = min i<j d ij 3 łączymy obiekty q i r w jedno skupienie, nadajemy mu numer q i wyznaczamy nową macierz odległości 4 powyższe kroki powtarzamy aż do uzyskania jednego skupienia Metoda najbliższego sąsiedztwa d q t = min t q,r {d qt, d rt } Metoda najdalszego sąsiedztwa d q t = max t q,r {d qt, d rt } W Z Statystyka 1211

Przykład Badano 22 samochody różnych marek pod względem czterech cech: ceny (X 1 ), przyspieszenia (X 2 ), hamowania (X 3 ), trzymania się drogi (X 4 ) oraz zużycia paliwa (X 5 ) X 1 X 2 X 3 X 4 X 5 Acura 05211 04773 00066 03816 20788 Audi 08657 02080 03187 00914 06771 BMW 04959 08015 01922 00914 01538 Buick 06135 16887 09331 02096 01538 Corvette 12354 18111 04945 09729 06771 Chrysler 06135 00734 04271 02096 01538 Dodge 07060 01958 04813 01451 01538 Eagle 06135 12176 41989 02096 06771 Ford 07060 15419 09873 01451 17236 Honda 04286 04099 00066 00269 03695 Isuzu 07984 04099 00608 42301 10671 Mazda 01261 06792 01331 04999 17236 Mercedes 10505 00061 01199 00914 01538 Mitsub 06135 10035 00838 03816 07183 Nissan 04286 00734 00066 02634 09974 Olds 06135 07342 04090 03816 21136 Pontiac 06135 06792 05355 01451 01950 Porsche 34542 22149 02957 06181 10259 Saab 05883 06792 02464 02634 00206 Toyota 00588 12176 02283 07364 08515 VW 07060 01285 01019 03816 01950 Volvo 02185 06119 01380 02096 03695 W Z Statystyka 1212

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 W Z Statystyka 1213

Metoda k średnich X 1,, X n p wymiarowe obserwacje jednostek Założenie Przyjmujemy, że obserwacje X 1,, X n pochodzą z k populacji J = {I 1,, I k }: podział zbioru {1,, n} na rozłączne podzbiory X j = 1 n j i I j X i D(J ) = k i=1 i I j (X i X j ) 2 Znaleźć takie J, że D(J ) = min D(J ) W Z Statystyka 1214

Przykład (cd) Cecha Średnie 1 2 3 X 1 039307 093169 070597 X 2 029605 078231 081378 X 3 027422 009927 212984 X 4 019061 028027 221984 X 5 044191 087640 019503 1 2 3 4 5 W Z Statystyka 1215

Grupa 1: Acura Buick Chrysler Dodge Honda Mitsub Nissan Olds Pontiac Saab Toyota VW Volvo Grupa 2: Audi BMW Corvette Ford Mazda Mercedes Porsche Grupa 3: Eagle Isuzu W Z Statystyka 1216