Metody klasyfikacji dla nielicznej próbki wektorów o wielkim wymiarze
Small n large p problem Problem w analizie wielu zbiorów danych biologicznych: bardzo mała liczba obserwacji (rekordów, próbek) rzędu dziesiątek, ale bardzo duża liczba zmiennych (cech) rzędu tysięcy (tzw. small n large p problem). Typowe przykłady: mikromacierze ekspresji genów, QTL, dane powstające przy projektowaniu leków, dane finansowe o wysokiej częstotliwości. Czasem głównym zadaniem jest nie predykcja czy klasyfikacja jako taka, ale raczej selekcja najbardziej informatywnych cech, co może być czym innym niż zadanie znalezienia grupy cech pozwalających na konstrukcję najlepszego klasyfikatora czy predyktora.
Znane rezultaty Klasyfikacja: Dramiński M., Rada-Iglesias A., Enroth S., Wadelius C., Koronacki J., Komorowski J.: Monte Carlo feature selection for supervised classification. Bioinformatics 24(1), 2008, pp. 110 117. Predykcja: Mielniczuk J., Teisseyre P., Using random subspace method for prediction and variable importance assessment in regression. Computational Statistics and Data Analysis, Vol. 71, 2014, pp. 725 742.
Dane gra w golfa
Drzewa C4.5
Entropia Definicja Dla dyskretnej zmiennej losowej X o wartościach x 1,..., x k przyjmowanych z prawdopodobieństwami odpowiednio p 1,..., p k entropia H(X ) jest definiowana jako H(X ) = k p j log 2 p j. j=1 Im bardziej jednorodny rozkład, tym entropia większa p 1 = 0, 5, p 2 = 0, 5 = H(X ) = 1, p 1 = 1/4, p 2 = 3/4 = H(X ) 0, 8113, p 1 = 0, p 2 = 1 = H(X ) = 0.
Zysk informacji Dla danego podziału S zbioru uczącego T na podzbiory T 1,..., T k H S (T ) = k P i H s (T i ), i=1 gdzie P i procent rekordów w podzbiorze T i. Definicja Zysk informacji jest definiowany jako różnica Z(S) = H(T ) H S (T ). Algorytm C4.5 w każdym węźle wybiera podział dający największy zysk informacji.
Indeks Giniego G(t) = i j c(i j)p(i t)p(j t) (0, 1), gdzie c(i j) koszt błędnej klasyfikacji przypadku z klasy j jako przypadek z klasy i (domyślnie 1), p(i t) prawdopodobieństwo, że przypadek został zaklasyfikowany jako i przy założeniu, że znalazł się w wierzchołku t.
Monte Carlo Feature Selection (MCFS)
Względna ważność RI Ważona dokładność wacc = 1 c c n ii n i=1 i1 + n i2 +... + n ic to średnia c odsetków klasyfikacji pozytywnych (c liczba klas, n ij liczba próbek z klasy i zaliczonych do klasy j). Względna ważność (ang. relative importance) zmiennej X k : RI Xk = st τ=1 (wacc) u n Xk (τ) ( ) no. in nxk (τ) ν IG(n Xk (τ)). no. in τ
Ustawienia parametrów u = v = 1, jeżeli p od kilku do kilkudziesięciu tysięcy, to m od 300 do 500 a t od 5 do 20, s = s 1, s 1 + 10, s 1 + 20,... dopóki rankingi najlepszych cech (pewnego ich odsetka) nie dadzą tego samego dla kolejnych wartości s.
Miara współzależności Dep(X i, X j ) = st τ=1 ξ τ Domyślnie maksymalna dopuszczalna odległość pomiędzy wierzchołkami to 3. Wyniki prezentowane w postaci grafu 20% krawędzi. n Xi (ξ τ ),n Xj (ξ τ ) 1 dist(n Xi (ξ τ ), n Xj (ξ τ )).
Metoda losowych podprzestrzeni (Random Subspace Method) Zaproponowana przez Ho (1998) i niezależnie przez Breimana (2001). (Y, X) zbiór danych, X = (X 1,..., X p ), n liczba obserwacji, n < p. Główna idea: wybieramy losowy podzbiór m złożony z m cech, m < n, i rozwiązujemy problem w zredukowanej przestrzeni wybranych predyktorów, z każdą rozważaną cechą stowarzyszamy wagę, bazując na jej przydatności w skonstruowanym modelu, powtarzamy procedurę B razy i obliczamy skumulowaną wagę każdej cechy, porządkujemy zmienne zgodnie z przypisanymi im wagami.
Prosta regresja logistyczna Model prostej regresji logistycznej: P(Y = 1 X = x) = eβ 0+β 1 x 1 + e β 0+β 1 x.
RSM dla regresji logistycznej Y = (y 1,..., y n ) wektor odpowiedzi n niezależnych binarnych zmiennych losowych. X n p wymiarowa macierz, wiersze x 1,..., x n tworzą n-wymiarową realizację p-wymiarowego wektora o dowolnym rozkładzie. P(Y i = 1 x i ) = p(x iβ) = exp(x i β) 1 + exp(x i β), gdzie β = (β 1,..., β p ) jest nieznanym wektorem parametrów. ˆβ m = ( ˆβ i1,m,..., ˆβ i m,m) ENW β m. Statystyka Walda W j,m = ˆβ j,m SE( ˆ ˆβ j,m ).
Dlaczego statystyka Walda? Przeciw Test Walda ma tendencję do zawyżania błędu standardowego dużych współczynników, a co za tym idzie może być zbyt konserwatywny. Za Score test niedostępny w standardowym oprogramowaniu. Test ilorazu wiarogodności wymaga wielokrotnego budowania modeli (ze zmienną i bez niej). Test Walda standardowo liczony w każdym oprogramowaniu, nie wymaga budowania modeli bez zmiennej, przy dużej próbie nie ma problemu z konserwatywnością, przy H 0 : β i = 0 statystyka Walda ma rozkład N(0, 1).
Algorytm logrsm Wejście: (Y, X), wymiar podprzestrzeni m < min{n, p}, liczba losowań B (lub czas, lub min C i ). Dla k = 1,..., B, startując z C i,0 = 0 dla każdego i = 1,..., p, powtarzamy: wybieramy losowo model m = {i1,..., i m } z oryginalnej przestrzeni cech, dopasowujemy model y x m i obliczamy Wi,m 2 i m, przyjmujemy Wi,m 2 = 0, jeśli i / m, aktualizujemy licznik C i,k = C i,k 1 + 1 {i m }. Dla każdej zmiennej X i obliczamy wynik końcowy WSi = 1 C i,b m :i m W i,m 2. dla każdego Sortujemy listę zmiennych zgodnie z wynikami WS i : WS i 1... WS i p. Wyjście: posortowana lista zmiennych o indeksach i 1,..., i p.
Wymagania regresji logistycznej W regresji logistycznej zbyt mała próba może dawać niepewne współczynniki korelacji charakteryzujące się dużym błędem standardowym. Wymagania: Aldrich, Nelson (1984): minimum 50 obserwacji na jedną zmienną predykcji, Peduzzi, Concato, Kemper, Holford, Feinstein (1996): liczba predyktorów nie powinna przekraczać 1/10 liczby obserwacji tej kategorii zmiennej Y, która ma najmniejszą częstość, van Belle (2002): 10 obserwacji na każdy predyktor.
Wymagana liczba losowań B Wymagana liczba losowań, przy której z prawdopodobieństwem 0,999 dana zmienna zostanie wylosowana więcej niż l razy: l m /p 0 10 20 30 0,0001 95 486 256 499 393 950 523 598 0,0005 19 090 51 291 78 780 104 708 0,001 9 540 25 640 39 383 52 347 0,005 1 900 5 119 7 866 10 458 0,01 945 2 554 3 927 5 222 0,05 181 502 775 1 033
Ważony logrsm Dla każdej zmiennej obliczamy t-statystykę t i (i = 1,..., p) testu t-studenta dla dwóch prób niezależnych dla hipotezy zerowej: średnia wartość zmiennej dla obserwacji z Y = 0 jest równa średniej wartości dla obserwacji z Y = 1. Obliczamy wagi w i = t i p i=1 t i. W logrsm wybieramy losowo model m z prawdopodobieństwem wylosowania i-tej zmiennej równym w i.
Eksperymenty numeryczne X 500 niezależnych zmiennych, każda o rozkładzie N(0, 1). Model logistyczny z: 1. β = (0, 7; 0, 5; 0;... ; 0), }{{} 498 2. β = (0, 5; 0, 3, 0;... ; 0), }{{} 498 3. β = (0, 7; 0, 6; 0, 5; 0;... ; 0), }{{} 497 4. β = (0, 5; 0, 4; 0, 3; 0;... ; 0), }{{} 497 5. β = (0, 7; 0, 6; 0, 5; 0, 4; 0, 3; 0;... ; 0), }{{} 495 6. β = (0, 7; 0, 6; 0, 5; 0, 4; 0, 3; 0, 2; 0;... ; 0). }{{} 494 100 obserwacji. 100 zbiorów danych. logrsm z m = 4.
Eksperyment 1., bez wag, 6000 losowań
Eksperyment 1., z wagami, 600 losowań
Eksperyment 5., bez wag, 6000 losowań
Eksperyment 5., z wagami, 600 losowań
logrsm a MCFS X 5 000 zmiennych, 50 obserwacji podzielonych na dwie klasy z Y = 0 i Y = 1. 20 zmiennych niosących informację: EX i = 0 dla Y = 0, EX i = δ dla Y = 1 (i = 1,..., 20). Skorelowane, z macierzą kowariancji 1 ρ... ρ ρ 1... ρ... ρ ρ... 1 dla Y = 0 i dla Y = 1. δ = 0, 5; 1; 1, 5, ρ = 0; 0, 2; 0, 4. Pozostałe zmienne niezależne o rozkładzie N(0, 1). 100 zbiorów danych.
MCFS dla δ = 1 i ρ = 0 3 000 projekcji, wymiar podprzestrzeni=5%
logrsm dla δ = 1 i ρ = 0 12 000 losowań, wymiar podprzestrzeni=2, z wagami
MCFS dla δ = 1 i ρ = 0 3 000 projekcji, wymiar podprzestrzeni=5%
logrsm dla δ = 1 i ρ = 0 12 000 losowań, wymiar podprzestrzeni=2, z wagami
MCFS dla δ = 1 i ρ = 0, 4 3 000 projekcji, wymiar podprzestrzeni=5%
logrsm dla δ = 1 i ρ = 0, 4 12 000 losowań, wymiar podprzestrzeni=2, z wagami
MCFS dla δ = 1 i ρ = 0, 4 3 000 projekcji, wymiar podprzestrzeni=5%
logrsm dla δ = 1 i ρ = 0, 4 12 000 losowań, wymiar podprzestrzeni=2, z wagami
Dane Goluba Zbiór danych Golub et al. (1999) zawiera dane 47 pacjentów z ostrą białaczką limfoblastyczną (ALL) i 25 pacjentów z ostrą białaczką szpikową (AML). Każdy z 72 pacjentów miał pobraną próbkę szpiku kostnego w momencie diagnozy. W zbiorze znajduje się 7129 zmiennych (poziomy ekspresji genów). Jest to prawdopodobnie najczęściej badany i opisywany zbiór danych mikromacierzowych. Na tych danych testowano algorytm logrsm z m = 2 i B = 175 000 5, bez wag. Wyniki porównano z wynikami z pracy Goluba (1999), Dramińskiego (2008) i Dudoit (2002).
Dane Goluba wyniki Gen G Dr Du Gen G Dr Du X17042 at 1 0 1 X12447 at 0 0 0 M55150 at 1 1 1 X16546 at 0 0 0 M11147 at 0 0 0 U50136 rna1 at 1 1 1 U46499 at 0 1 0 HG1612-HT1612 0 0 1 X62654 rna1 at 0 1 1 U10868 at 0 0 0 M62762 at 1 0 1 L47738 at 1 0 1 D49950 at 0 1 0 M93056 at 0 0 0 X15414 at 0 0 0 X64072 s at 0 0 0 Y07604 at 0 0 0 M22960 at 0 0 1 M65214 at 0 0 0 X95735 at 1 1 1 M31211 s at 1 0 1 X07743 at 0 0 1 M32304 s at 0 0 0 M63959 at 0 0 0 L41559 at 0 0 0 U82759 at 1 0 1 X61587 at 0 0 1 L09717 at 0 0 0 U22376 cds2 s at 1 1 1 U57094 at 0 0 0
Dziękuję za uwagę! Badania zostały sfinansowane ze środków Narodowego Centrum Nauki przyznanych w ramach finansowania stażu po uzyskaniu stopnia naukowego doktora na podstawie decyzji numer DEC-2013/08/S/ST1/00543.