Metody klasyfikacji dla nielicznej próbki wektorów o wielkim wymiarze

Wielkość: px

Rozpocząć pokaz od strony:

Download "Metody klasyfikacji dla nielicznej próbki wektorów o wielkim wymiarze"

Danuta Kania
5 lat temu
Przeglądów:

1 Metody klasyfikacji dla nielicznej próbki wektorów o wielkim wymiarze

2 Small n large p problem Problem w analizie wielu zbiorów danych biologicznych: bardzo mała liczba obserwacji (rekordów, próbek) rzędu dziesiątek, ale bardzo duża liczba zmiennych (cech) rzędu tysięcy (tzw. small n large p problem). Typowe przykłady: mikromacierze ekspresji genów, QTL, dane powstające przy projektowaniu leków, dane finansowe o wysokiej częstotliwości. Czasem głównym zadaniem jest nie predykcja czy klasyfikacja jako taka, ale raczej selekcja najbardziej informatywnych cech, co może być czym innym niż zadanie znalezienia grupy cech pozwalających na konstrukcję najlepszego klasyfikatora czy predyktora.

3 Znane rezultaty Klasyfikacja: Dramiński M., Rada-Iglesias A., Enroth S., Wadelius C., Koronacki J., Komorowski J.: Monte Carlo feature selection for supervised classification. Bioinformatics 24(1), 2008, pp Predykcja: Mielniczuk J., Teisseyre P., Using random subspace method for prediction and variable importance assessment in regression. Computational Statistics and Data Analysis, Vol. 71, 2014, pp

4 Dane gra w golfa

5 Drzewa C4.5

6 Entropia Definicja Dla dyskretnej zmiennej losowej X o wartościach x 1,..., x k przyjmowanych z prawdopodobieństwami odpowiednio p 1,..., p k entropia H(X ) jest definiowana jako H(X ) = k p j log 2 p j. j=1 Im bardziej jednorodny rozkład, tym entropia większa p 1 = 0, 5, p 2 = 0, 5 = H(X ) = 1, p 1 = 1/4, p 2 = 3/4 = H(X ) 0, 8113, p 1 = 0, p 2 = 1 = H(X ) = 0.

7 Zysk informacji Dla danego podziału S zbioru uczącego T na podzbiory T 1,..., T k H S (T ) = k P i H s (T i ), i=1 gdzie P i procent rekordów w podzbiorze T i. Definicja Zysk informacji jest definiowany jako różnica Z(S) = H(T ) H S (T ). Algorytm C4.5 w każdym węźle wybiera podział dający największy zysk informacji.

8 Indeks Giniego G(t) = i j c(i j)p(i t)p(j t) (0, 1), gdzie c(i j) koszt błędnej klasyfikacji przypadku z klasy j jako przypadek z klasy i (domyślnie 1), p(i t) prawdopodobieństwo, że przypadek został zaklasyfikowany jako i przy założeniu, że znalazł się w wierzchołku t.

9 Monte Carlo Feature Selection (MCFS)

10 Względna ważność RI Ważona dokładność wacc = 1 c c n ii n i=1 i1 + n i n ic to średnia c odsetków klasyfikacji pozytywnych (c liczba klas, n ij liczba próbek z klasy i zaliczonych do klasy j). Względna ważność (ang. relative importance) zmiennej X k : RI Xk = st τ=1 (wacc) u n Xk (τ) ( ) no. in nxk (τ) ν IG(n Xk (τ)). no. in τ

11 Ustawienia parametrów u = v = 1, jeżeli p od kilku do kilkudziesięciu tysięcy, to m od 300 do 500 a t od 5 do 20, s = s 1, s , s ,... dopóki rankingi najlepszych cech (pewnego ich odsetka) nie dadzą tego samego dla kolejnych wartości s.

12 Miara współzależności Dep(X i, X j ) = st τ=1 ξ τ Domyślnie maksymalna dopuszczalna odległość pomiędzy wierzchołkami to 3. Wyniki prezentowane w postaci grafu 20% krawędzi. n Xi (ξ τ ),n Xj (ξ τ ) 1 dist(n Xi (ξ τ ), n Xj (ξ τ )).

13 Metoda losowych podprzestrzeni (Random Subspace Method) Zaproponowana przez Ho (1998) i niezależnie przez Breimana (2001). (Y, X) zbiór danych, X = (X 1,..., X p ), n liczba obserwacji, n < p. Główna idea: wybieramy losowy podzbiór m złożony z m cech, m < n, i rozwiązujemy problem w zredukowanej przestrzeni wybranych predyktorów, z każdą rozważaną cechą stowarzyszamy wagę, bazując na jej przydatności w skonstruowanym modelu, powtarzamy procedurę B razy i obliczamy skumulowaną wagę każdej cechy, porządkujemy zmienne zgodnie z przypisanymi im wagami.

14 Prosta regresja logistyczna Model prostej regresji logistycznej: P(Y = 1 X = x) = eβ 0+β 1 x 1 + e β 0+β 1 x.

15 RSM dla regresji logistycznej Y = (y 1,..., y n ) wektor odpowiedzi n niezależnych binarnych zmiennych losowych. X n p wymiarowa macierz, wiersze x 1,..., x n tworzą n-wymiarową realizację p-wymiarowego wektora o dowolnym rozkładzie. P(Y i = 1 x i ) = p(x iβ) = exp(x i β) 1 + exp(x i β), gdzie β = (β 1,..., β p ) jest nieznanym wektorem parametrów. ˆβ m = ( ˆβ i1,m,..., ˆβ i m,m) ENW β m. Statystyka Walda W j,m = ˆβ j,m SE( ˆ ˆβ j,m ).

16 Dlaczego statystyka Walda? Przeciw Test Walda ma tendencję do zawyżania błędu standardowego dużych współczynników, a co za tym idzie może być zbyt konserwatywny. Za Score test niedostępny w standardowym oprogramowaniu. Test ilorazu wiarogodności wymaga wielokrotnego budowania modeli (ze zmienną i bez niej). Test Walda standardowo liczony w każdym oprogramowaniu, nie wymaga budowania modeli bez zmiennej, przy dużej próbie nie ma problemu z konserwatywnością, przy H 0 : β i = 0 statystyka Walda ma rozkład N(0, 1).

17 Algorytm logrsm Wejście: (Y, X), wymiar podprzestrzeni m < min{n, p}, liczba losowań B (lub czas, lub min C i ). Dla k = 1,..., B, startując z C i,0 = 0 dla każdego i = 1,..., p, powtarzamy: wybieramy losowo model m = {i1,..., i m } z oryginalnej przestrzeni cech, dopasowujemy model y x m i obliczamy Wi,m 2 i m, przyjmujemy Wi,m 2 = 0, jeśli i / m, aktualizujemy licznik C i,k = C i,k {i m }. Dla każdej zmiennej X i obliczamy wynik końcowy WSi = 1 C i,b m :i m W i,m 2. dla każdego Sortujemy listę zmiennych zgodnie z wynikami WS i : WS i 1... WS i p. Wyjście: posortowana lista zmiennych o indeksach i 1,..., i p.

18 Wymagania regresji logistycznej W regresji logistycznej zbyt mała próba może dawać niepewne współczynniki korelacji charakteryzujące się dużym błędem standardowym. Wymagania: Aldrich, Nelson (1984): minimum 50 obserwacji na jedną zmienną predykcji, Peduzzi, Concato, Kemper, Holford, Feinstein (1996): liczba predyktorów nie powinna przekraczać 1/10 liczby obserwacji tej kategorii zmiennej Y, która ma najmniejszą częstość, van Belle (2002): 10 obserwacji na każdy predyktor.

19 Wymagana liczba losowań B Wymagana liczba losowań, przy której z prawdopodobieństwem 0,999 dana zmienna zostanie wylosowana więcej niż l razy: l m /p , , , , , ,

20 Ważony logrsm Dla każdej zmiennej obliczamy t-statystykę t i (i = 1,..., p) testu t-studenta dla dwóch prób niezależnych dla hipotezy zerowej: średnia wartość zmiennej dla obserwacji z Y = 0 jest równa średniej wartości dla obserwacji z Y = 1. Obliczamy wagi w i = t i p i=1 t i. W logrsm wybieramy losowo model m z prawdopodobieństwem wylosowania i-tej zmiennej równym w i.

21 Eksperymenty numeryczne X 500 niezależnych zmiennych, każda o rozkładzie N(0, 1). Model logistyczny z: 1. β = (0, 7; 0, 5; 0;... ; 0), }{{} β = (0, 5; 0, 3, 0;... ; 0), }{{} β = (0, 7; 0, 6; 0, 5; 0;... ; 0), }{{} β = (0, 5; 0, 4; 0, 3; 0;... ; 0), }{{} β = (0, 7; 0, 6; 0, 5; 0, 4; 0, 3; 0;... ; 0), }{{} β = (0, 7; 0, 6; 0, 5; 0, 4; 0, 3; 0, 2; 0;... ; 0). }{{} obserwacji. 100 zbiorów danych. logrsm z m = 4.

22 Eksperyment 1., bez wag, 6000 losowań

23 Eksperyment 1., z wagami, 600 losowań

24 Eksperyment 5., bez wag, 6000 losowań

25 Eksperyment 5., z wagami, 600 losowań

26 logrsm a MCFS X zmiennych, 50 obserwacji podzielonych na dwie klasy z Y = 0 i Y = zmiennych niosących informację: EX i = 0 dla Y = 0, EX i = δ dla Y = 1 (i = 1,..., 20). Skorelowane, z macierzą kowariancji 1 ρ... ρ ρ 1... ρ... ρ ρ... 1 dla Y = 0 i dla Y = 1. δ = 0, 5; 1; 1, 5, ρ = 0; 0, 2; 0, 4. Pozostałe zmienne niezależne o rozkładzie N(0, 1). 100 zbiorów danych.

27 MCFS dla δ = 1 i ρ = projekcji, wymiar podprzestrzeni=5%

28 logrsm dla δ = 1 i ρ = losowań, wymiar podprzestrzeni=2, z wagami

29 MCFS dla δ = 1 i ρ = projekcji, wymiar podprzestrzeni=5%

30 logrsm dla δ = 1 i ρ = losowań, wymiar podprzestrzeni=2, z wagami

31 MCFS dla δ = 1 i ρ = 0, projekcji, wymiar podprzestrzeni=5%

32 logrsm dla δ = 1 i ρ = 0, losowań, wymiar podprzestrzeni=2, z wagami

33 MCFS dla δ = 1 i ρ = 0, projekcji, wymiar podprzestrzeni=5%

34 logrsm dla δ = 1 i ρ = 0, losowań, wymiar podprzestrzeni=2, z wagami

35 Dane Goluba Zbiór danych Golub et al. (1999) zawiera dane 47 pacjentów z ostrą białaczką limfoblastyczną (ALL) i 25 pacjentów z ostrą białaczką szpikową (AML). Każdy z 72 pacjentów miał pobraną próbkę szpiku kostnego w momencie diagnozy. W zbiorze znajduje się 7129 zmiennych (poziomy ekspresji genów). Jest to prawdopodobnie najczęściej badany i opisywany zbiór danych mikromacierzowych. Na tych danych testowano algorytm logrsm z m = 2 i B = , bez wag. Wyniki porównano z wynikami z pracy Goluba (1999), Dramińskiego (2008) i Dudoit (2002).

36 Dane Goluba wyniki Gen G Dr Du Gen G Dr Du X17042 at X12447 at M55150 at X16546 at M11147 at U50136 rna1 at U46499 at HG1612-HT X62654 rna1 at U10868 at M62762 at L47738 at D49950 at M93056 at X15414 at X64072 s at Y07604 at M22960 at M65214 at X95735 at M31211 s at X07743 at M32304 s at M63959 at L41559 at U82759 at X61587 at L09717 at U22376 cds2 s at U57094 at 0 0 0

37 Dziękuję za uwagę! Badania zostały sfinansowane ze środków Narodowego Centrum Nauki przyznanych w ramach finansowania stażu po uzyskaniu stopnia naukowego doktora na podstawie decyzji numer DEC-2013/08/S/ST1/00543.

Podobne dokumenty

Konferencja Statystyka Matematyczna Wisła 2013

Konferencja Statystyka Matematyczna Wisła 2013 Wykorzystanie metod losowych podprzestrzeni do predykcji i selekcji zmiennych Paweł Teisseyre Instytut Podstaw Informatyki, Polska Akademia Nauk Paweł Teisseyre