Metody klasyfikacji dla nielicznej próbki wektorów o wielkim wymiarze

Podobne dokumenty
Konferencja Statystyka Matematyczna Wisła 2013

Selekcja modelu liniowego i predykcja metodami losowych podprzestrzeni

Monte Carlo, bootstrap, jacknife

Testowanie hipotez statystycznych

METODY STATYSTYCZNE W BIOLOGII

Weryfikacja hipotez statystycznych

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

ALGORYTM RANDOM FOREST

Drzewa decyzyjne i lasy losowe

Testowanie hipotez statystycznych.

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

STATYSTYKA MATEMATYCZNA

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Własności statystyczne regresji liniowej. Wykład 4

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Analiza składowych głównych. Wprowadzenie

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Porównanie modeli regresji. klasycznymi modelami regresji liniowej i logistycznej

Metody klasyfikacji danych - część 1 p.1/24

STATYSTYKA MATEMATYCZNA

Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu liniowym, scenariusz p bliskie lub większe od n

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Hierarchiczna analiza skupień

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Agnieszka Nowak Brzezińska Wykład III

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Agnieszka Nowak Brzezińska

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

STATYSTYKA MAŁYCH OBSZARÓW I. WPROWADZENIE

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Elementy statystyki wielowymiarowej

Rozpoznawanie obrazów

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Redukcja wariancji w metodach Monte-Carlo

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD STATYSTYK Z PRÓBY

Wykład 12 Testowanie hipotez dla współczynnika korelacji


Ekonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej

Spis treści 3 SPIS TREŚCI

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Prawdopodobieństwo i statystyka r.

STATYSTYKA MAŁYCH OBSZARÓW IV. EMPIRYCZNY NAJLEPSZY PREDYKTOR

Wnioskowanie statystyczne. Statystyka w 5

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Agnieszka Nowak Brzezińska Wykład III

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Statystyka matematyczna dla kierunku Rolnictwo w SGGW. BADANIE WSPÓŁZALEśNOŚCI DWÓCH CECH. ANALIZA KORELACJI PROSTEJ.

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Testowanie hipotez statystycznych cd.

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Analiza danych. TEMATYKA PRZEDMIOTU

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

Optymalizacja ciągła

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Rozkłady statystyk z próby. Statystyka

STATYSTYKA MATEMATYCZNA

Rozkłady statystyk z próby

Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa

Rozpoznawanie obrazów

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

ρ siła związku korelacyjnego brak słaba średnia silna bardzo silna

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

PDF created with FinePrint pdffactory Pro trial version

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

MODELE LINIOWE. Dr Wioleta Drobik

Wykład 10 Testy jednorodności rozkładów

STATYSTYKA

Stosowana Analiza Regresji

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Rozpoznawanie obrazów

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.

Algorytmy klasyfikacji

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Szacowanie wartości hodowlanej. Zarządzanie populacjami

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Zmienne losowe, statystyki próbkowe. Wrocław, 2 marca 2015

Testowanie hipotez statystycznych

Metody Statystyczne. Metody Statystyczne.

RACHUNEK PRAWDOPODOBIEŃSTWA I STATYSTYKA MATEMATYCZNA

Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n)

Prawdopodobieństwo i statystyka

Transkrypt:

Metody klasyfikacji dla nielicznej próbki wektorów o wielkim wymiarze

Small n large p problem Problem w analizie wielu zbiorów danych biologicznych: bardzo mała liczba obserwacji (rekordów, próbek) rzędu dziesiątek, ale bardzo duża liczba zmiennych (cech) rzędu tysięcy (tzw. small n large p problem). Typowe przykłady: mikromacierze ekspresji genów, QTL, dane powstające przy projektowaniu leków, dane finansowe o wysokiej częstotliwości. Czasem głównym zadaniem jest nie predykcja czy klasyfikacja jako taka, ale raczej selekcja najbardziej informatywnych cech, co może być czym innym niż zadanie znalezienia grupy cech pozwalających na konstrukcję najlepszego klasyfikatora czy predyktora.

Znane rezultaty Klasyfikacja: Dramiński M., Rada-Iglesias A., Enroth S., Wadelius C., Koronacki J., Komorowski J.: Monte Carlo feature selection for supervised classification. Bioinformatics 24(1), 2008, pp. 110 117. Predykcja: Mielniczuk J., Teisseyre P., Using random subspace method for prediction and variable importance assessment in regression. Computational Statistics and Data Analysis, Vol. 71, 2014, pp. 725 742.

Dane gra w golfa

Drzewa C4.5

Entropia Definicja Dla dyskretnej zmiennej losowej X o wartościach x 1,..., x k przyjmowanych z prawdopodobieństwami odpowiednio p 1,..., p k entropia H(X ) jest definiowana jako H(X ) = k p j log 2 p j. j=1 Im bardziej jednorodny rozkład, tym entropia większa p 1 = 0, 5, p 2 = 0, 5 = H(X ) = 1, p 1 = 1/4, p 2 = 3/4 = H(X ) 0, 8113, p 1 = 0, p 2 = 1 = H(X ) = 0.

Zysk informacji Dla danego podziału S zbioru uczącego T na podzbiory T 1,..., T k H S (T ) = k P i H s (T i ), i=1 gdzie P i procent rekordów w podzbiorze T i. Definicja Zysk informacji jest definiowany jako różnica Z(S) = H(T ) H S (T ). Algorytm C4.5 w każdym węźle wybiera podział dający największy zysk informacji.

Indeks Giniego G(t) = i j c(i j)p(i t)p(j t) (0, 1), gdzie c(i j) koszt błędnej klasyfikacji przypadku z klasy j jako przypadek z klasy i (domyślnie 1), p(i t) prawdopodobieństwo, że przypadek został zaklasyfikowany jako i przy założeniu, że znalazł się w wierzchołku t.

Monte Carlo Feature Selection (MCFS)

Względna ważność RI Ważona dokładność wacc = 1 c c n ii n i=1 i1 + n i2 +... + n ic to średnia c odsetków klasyfikacji pozytywnych (c liczba klas, n ij liczba próbek z klasy i zaliczonych do klasy j). Względna ważność (ang. relative importance) zmiennej X k : RI Xk = st τ=1 (wacc) u n Xk (τ) ( ) no. in nxk (τ) ν IG(n Xk (τ)). no. in τ

Ustawienia parametrów u = v = 1, jeżeli p od kilku do kilkudziesięciu tysięcy, to m od 300 do 500 a t od 5 do 20, s = s 1, s 1 + 10, s 1 + 20,... dopóki rankingi najlepszych cech (pewnego ich odsetka) nie dadzą tego samego dla kolejnych wartości s.

Miara współzależności Dep(X i, X j ) = st τ=1 ξ τ Domyślnie maksymalna dopuszczalna odległość pomiędzy wierzchołkami to 3. Wyniki prezentowane w postaci grafu 20% krawędzi. n Xi (ξ τ ),n Xj (ξ τ ) 1 dist(n Xi (ξ τ ), n Xj (ξ τ )).

Metoda losowych podprzestrzeni (Random Subspace Method) Zaproponowana przez Ho (1998) i niezależnie przez Breimana (2001). (Y, X) zbiór danych, X = (X 1,..., X p ), n liczba obserwacji, n < p. Główna idea: wybieramy losowy podzbiór m złożony z m cech, m < n, i rozwiązujemy problem w zredukowanej przestrzeni wybranych predyktorów, z każdą rozważaną cechą stowarzyszamy wagę, bazując na jej przydatności w skonstruowanym modelu, powtarzamy procedurę B razy i obliczamy skumulowaną wagę każdej cechy, porządkujemy zmienne zgodnie z przypisanymi im wagami.

Prosta regresja logistyczna Model prostej regresji logistycznej: P(Y = 1 X = x) = eβ 0+β 1 x 1 + e β 0+β 1 x.

RSM dla regresji logistycznej Y = (y 1,..., y n ) wektor odpowiedzi n niezależnych binarnych zmiennych losowych. X n p wymiarowa macierz, wiersze x 1,..., x n tworzą n-wymiarową realizację p-wymiarowego wektora o dowolnym rozkładzie. P(Y i = 1 x i ) = p(x iβ) = exp(x i β) 1 + exp(x i β), gdzie β = (β 1,..., β p ) jest nieznanym wektorem parametrów. ˆβ m = ( ˆβ i1,m,..., ˆβ i m,m) ENW β m. Statystyka Walda W j,m = ˆβ j,m SE( ˆ ˆβ j,m ).

Dlaczego statystyka Walda? Przeciw Test Walda ma tendencję do zawyżania błędu standardowego dużych współczynników, a co za tym idzie może być zbyt konserwatywny. Za Score test niedostępny w standardowym oprogramowaniu. Test ilorazu wiarogodności wymaga wielokrotnego budowania modeli (ze zmienną i bez niej). Test Walda standardowo liczony w każdym oprogramowaniu, nie wymaga budowania modeli bez zmiennej, przy dużej próbie nie ma problemu z konserwatywnością, przy H 0 : β i = 0 statystyka Walda ma rozkład N(0, 1).

Algorytm logrsm Wejście: (Y, X), wymiar podprzestrzeni m < min{n, p}, liczba losowań B (lub czas, lub min C i ). Dla k = 1,..., B, startując z C i,0 = 0 dla każdego i = 1,..., p, powtarzamy: wybieramy losowo model m = {i1,..., i m } z oryginalnej przestrzeni cech, dopasowujemy model y x m i obliczamy Wi,m 2 i m, przyjmujemy Wi,m 2 = 0, jeśli i / m, aktualizujemy licznik C i,k = C i,k 1 + 1 {i m }. Dla każdej zmiennej X i obliczamy wynik końcowy WSi = 1 C i,b m :i m W i,m 2. dla każdego Sortujemy listę zmiennych zgodnie z wynikami WS i : WS i 1... WS i p. Wyjście: posortowana lista zmiennych o indeksach i 1,..., i p.

Wymagania regresji logistycznej W regresji logistycznej zbyt mała próba może dawać niepewne współczynniki korelacji charakteryzujące się dużym błędem standardowym. Wymagania: Aldrich, Nelson (1984): minimum 50 obserwacji na jedną zmienną predykcji, Peduzzi, Concato, Kemper, Holford, Feinstein (1996): liczba predyktorów nie powinna przekraczać 1/10 liczby obserwacji tej kategorii zmiennej Y, która ma najmniejszą częstość, van Belle (2002): 10 obserwacji na każdy predyktor.

Wymagana liczba losowań B Wymagana liczba losowań, przy której z prawdopodobieństwem 0,999 dana zmienna zostanie wylosowana więcej niż l razy: l m /p 0 10 20 30 0,0001 95 486 256 499 393 950 523 598 0,0005 19 090 51 291 78 780 104 708 0,001 9 540 25 640 39 383 52 347 0,005 1 900 5 119 7 866 10 458 0,01 945 2 554 3 927 5 222 0,05 181 502 775 1 033

Ważony logrsm Dla każdej zmiennej obliczamy t-statystykę t i (i = 1,..., p) testu t-studenta dla dwóch prób niezależnych dla hipotezy zerowej: średnia wartość zmiennej dla obserwacji z Y = 0 jest równa średniej wartości dla obserwacji z Y = 1. Obliczamy wagi w i = t i p i=1 t i. W logrsm wybieramy losowo model m z prawdopodobieństwem wylosowania i-tej zmiennej równym w i.

Eksperymenty numeryczne X 500 niezależnych zmiennych, każda o rozkładzie N(0, 1). Model logistyczny z: 1. β = (0, 7; 0, 5; 0;... ; 0), }{{} 498 2. β = (0, 5; 0, 3, 0;... ; 0), }{{} 498 3. β = (0, 7; 0, 6; 0, 5; 0;... ; 0), }{{} 497 4. β = (0, 5; 0, 4; 0, 3; 0;... ; 0), }{{} 497 5. β = (0, 7; 0, 6; 0, 5; 0, 4; 0, 3; 0;... ; 0), }{{} 495 6. β = (0, 7; 0, 6; 0, 5; 0, 4; 0, 3; 0, 2; 0;... ; 0). }{{} 494 100 obserwacji. 100 zbiorów danych. logrsm z m = 4.

Eksperyment 1., bez wag, 6000 losowań

Eksperyment 1., z wagami, 600 losowań

Eksperyment 5., bez wag, 6000 losowań

Eksperyment 5., z wagami, 600 losowań

logrsm a MCFS X 5 000 zmiennych, 50 obserwacji podzielonych na dwie klasy z Y = 0 i Y = 1. 20 zmiennych niosących informację: EX i = 0 dla Y = 0, EX i = δ dla Y = 1 (i = 1,..., 20). Skorelowane, z macierzą kowariancji 1 ρ... ρ ρ 1... ρ... ρ ρ... 1 dla Y = 0 i dla Y = 1. δ = 0, 5; 1; 1, 5, ρ = 0; 0, 2; 0, 4. Pozostałe zmienne niezależne o rozkładzie N(0, 1). 100 zbiorów danych.

MCFS dla δ = 1 i ρ = 0 3 000 projekcji, wymiar podprzestrzeni=5%

logrsm dla δ = 1 i ρ = 0 12 000 losowań, wymiar podprzestrzeni=2, z wagami

MCFS dla δ = 1 i ρ = 0 3 000 projekcji, wymiar podprzestrzeni=5%

logrsm dla δ = 1 i ρ = 0 12 000 losowań, wymiar podprzestrzeni=2, z wagami

MCFS dla δ = 1 i ρ = 0, 4 3 000 projekcji, wymiar podprzestrzeni=5%

logrsm dla δ = 1 i ρ = 0, 4 12 000 losowań, wymiar podprzestrzeni=2, z wagami

MCFS dla δ = 1 i ρ = 0, 4 3 000 projekcji, wymiar podprzestrzeni=5%

logrsm dla δ = 1 i ρ = 0, 4 12 000 losowań, wymiar podprzestrzeni=2, z wagami

Dane Goluba Zbiór danych Golub et al. (1999) zawiera dane 47 pacjentów z ostrą białaczką limfoblastyczną (ALL) i 25 pacjentów z ostrą białaczką szpikową (AML). Każdy z 72 pacjentów miał pobraną próbkę szpiku kostnego w momencie diagnozy. W zbiorze znajduje się 7129 zmiennych (poziomy ekspresji genów). Jest to prawdopodobnie najczęściej badany i opisywany zbiór danych mikromacierzowych. Na tych danych testowano algorytm logrsm z m = 2 i B = 175 000 5, bez wag. Wyniki porównano z wynikami z pracy Goluba (1999), Dramińskiego (2008) i Dudoit (2002).

Dane Goluba wyniki Gen G Dr Du Gen G Dr Du X17042 at 1 0 1 X12447 at 0 0 0 M55150 at 1 1 1 X16546 at 0 0 0 M11147 at 0 0 0 U50136 rna1 at 1 1 1 U46499 at 0 1 0 HG1612-HT1612 0 0 1 X62654 rna1 at 0 1 1 U10868 at 0 0 0 M62762 at 1 0 1 L47738 at 1 0 1 D49950 at 0 1 0 M93056 at 0 0 0 X15414 at 0 0 0 X64072 s at 0 0 0 Y07604 at 0 0 0 M22960 at 0 0 1 M65214 at 0 0 0 X95735 at 1 1 1 M31211 s at 1 0 1 X07743 at 0 0 1 M32304 s at 0 0 0 M63959 at 0 0 0 L41559 at 0 0 0 U82759 at 1 0 1 X61587 at 0 0 1 L09717 at 0 0 0 U22376 cds2 s at 1 1 1 U57094 at 0 0 0

Dziękuję za uwagę! Badania zostały sfinansowane ze środków Narodowego Centrum Nauki przyznanych w ramach finansowania stażu po uzyskaniu stopnia naukowego doktora na podstawie decyzji numer DEC-2013/08/S/ST1/00543.