Konferencja Statystyka Matematyczna Wisła 2013

Podobne dokumenty
Selekcja modelu liniowego i predykcja metodami losowych podprzestrzeni

Metody klasyfikacji dla nielicznej próbki wektorów o wielkim wymiarze

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

Natalia Neherbecka. 11 czerwca 2010

Weryfikacja hipotez statystycznych

Statystyczna analiza danych 1

Rozpoznawanie obrazów

Monte Carlo, bootstrap, jacknife

Stosowana Analiza Regresji

Stosowana Analiza Regresji

Testy własności składnika losowego Testy formy funkcyjnej. Diagnostyka modelu. Część 2. Diagnostyka modelu

Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa.

STATYSTYKA MAŁYCH OBSZARÓW I. WPROWADZENIE

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Metody systemowe i decyzyjne w informatyce

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Drzewa decyzyjne i lasy losowe

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

ALGORYTM RANDOM FOREST

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu liniowym, scenariusz p bliskie lub większe od n

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Porównanie modeli regresji. klasycznymi modelami regresji liniowej i logistycznej

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Własności statystyczne regresji liniowej. Wykład 4

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych

Wykład 9 Testy rangowe w problemie dwóch prób

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Mikroekonometria 14. Mikołaj Czajkowski Wiktor Budziński

Redukcja wariancji w metodach Monte-Carlo

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Stanisław Cichocki. Natalia Nehrebecka

Prawdopodobieństwo i statystyka r.

Wprowadzenie do analizy korelacji i regresji

Uogolnione modele liniowe

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Jądrowe klasyfikatory liniowe

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

Ekonometria. Ćwiczenia nr 3. Jakub Mućk. Katedra Ekonomii Ilościowej

1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2.

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Estymatory regresji rangowej oparte na metodzie LASSO

Model regresji wielokrotnej Wykład 14 ( ) Przykład ceny domów w Chicago

Własności estymatorów regresji porządkowej z karą LASSO

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Analiza danych. TEMATYKA PRZEDMIOTU

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Opis wykonanych badań naukowych oraz uzyskanych wyników

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

JEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY

Metoda najmniejszych kwadratów

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Testowanie hipotez statystycznych.

Stanisław Cichocki. Natalia Nehrebecka

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Problem równoczesności w MNK

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

METODY STATYSTYCZNE W BIOLOGII

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

STATYSTYKA MATEMATYCZNA WYKŁAD listopada 2009

Regresyjne metody łączenia klasyfikatorów

Wykład 10 Testy jednorodności rozkładów

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

Centralne twierdzenie graniczne

Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Metody Ekonometryczne

Testowanie hipotez statystycznych

Sterowanie wielkością zamówienia w Excelu - cz. 3

Funkcje charakterystyczne zmiennych losowych, linie regresji 1-go i 2-go rodzaju

STATYSTYKA MAŁYCH OBSZARÓW IV. EMPIRYCZNY NAJLEPSZY PREDYKTOR

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

STATYSTYKA MATEMATYCZNA

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

Stanisław Cichocki. Natalia Nehrebecka

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

STATYSTYKA MATEMATYCZNA

ρ siła związku korelacyjnego brak słaba średnia silna bardzo silna

Testowanie hipotez statystycznych.

Statystyka w przykładach

Elementy statystyki wielowymiarowej

Heteroscedastyczność. Zjawisko heteroscedastyczności Uogólniona Metoda Najmniejszych Kwadratów Stosowalna Metoda Najmniejszych Kwadratów

Mikroekonometria 4. Mikołaj Czajkowski Wiktor Budziński

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Testy adaptacyjne dla problemu k prób

Metoda największej wiarogodności

Transkrypt:

Konferencja Statystyka Matematyczna Wisła 2013 Wykorzystanie metod losowych podprzestrzeni do predykcji i selekcji zmiennych Paweł Teisseyre Instytut Podstaw Informatyki, Polska Akademia Nauk Paweł Teisseyre Metoda RSM 1 / 30

Plan prezentacji 1 Dwustopniowe procedury wyboru modelu regresji. Metoda Zhenga i Loha (p < n). Metoda Losowych Podprzestrzeni (RSM) i jej warianty (p n). 2 Metody wyboru końcowego modelu. 3 Przykłady symulacyjne. Paweł Teisseyre Metoda RSM 2 / 30

Model regresji liniowej. Model regresji liniowej Obiekty opisane parą (x, y), gdzie: y R - zmienna odpowiedzi, x R p - wektor atrybutów. W modelu liniowym zakładamy, że: gdzie: y = x β + ε, β = (β 1,..., β p ) R p jest wektorem parametrów, ε błędem losowym o rozkładzie N(0, σ 2 ). Uwaga: Dopuszczamy sytuację: p n. Paweł Teisseyre Metoda RSM 3 / 30

Model regresji liniowej. Wybór modelu Minimalny model prawdziwy: t := {k : β k 0}, t.j. dla regresji liniowej: minimalny model taki, że E(y x) = x tβ t, gdzie: dolny indeks t oznacza wybór współrzędnych odpowiadających modelowi t. Cel: Identyfikacja zbioru t na podstawie niezależnych obserwacji (x i, y i ), i = 1,..., n. Paweł Teisseyre Metoda RSM 4 / 30

Dwustopniowe procedury wyboru modelu. Procedury dwustopniowe wyboru modelu 1 Zmienne {1,..., p} są porządkowane wg pewnej miary istotności: W i1 W i2... W ip. 2 Wybieramy model z zagnieżdżonej rodziny: {{0}, {i 1 }, {i 1, i 2 },..., {i 1,..., i p }} Uwaga: W drugim kroku sprawdzamy p + 1 modeli zamiast 2 p (przy pełnym przeszukiwaniu). Paweł Teisseyre Metoda RSM 5 / 30

Dwustopniowe procedury wyboru modelu. Procedura Zhenga i Loha dla modelu liniowego 1 Dopasuj model liniowy zawierający wszystkie zmienne 1,..., p. 2 Zmienne {1,..., p} są porządkowane wg kwadratu statystyki T : T 2 i 1 T 2 i 2... T 2 i p. 3 Wybieramy model z zagnieżdżonej rodziny: {{0}, {i 1 }, {i 1, i 2 },..., {i 1,..., i p }}. Uwagi: Użycie w drugim kroku kryterium GIC (Generalized Information Citerion) prowadzi do zgodnej procedury selekcji (przy odpowiednich założeniach). Procedura nie może być zastosowana gdy p n. Paweł Teisseyre Metoda RSM 6 / 30

Dwustopniowe procedury wyboru modelu. Procedura Zhenga i Loha dla modelu liniowego Kryterium GIC GIC(m) := 2l(ˆβ m ) + a n m min, gdzie: l( )- funkcja log-wiarogodności, a n - kara, m - liczba zmiennych w modelu m. Założenia: 1 p n = o(a n ) 2 a n = o(b n ), b n = min m t Xβ H X (m)xβ 2, gdzie: H X (m) macierz rzutu na podprzestrzeń rozpiętą przez kolumny z m. 3 b n = O(n) Twierdzenie (Mielniczuk, Teisseyre, 2012) Przy założeniach 1-3 dwustopniowa procedura Zhenga i Loha jest zgodna. Paweł Teisseyre Metoda RSM 7 / 30

Metoda Losowych Podprzestrzeni (RSM). Metoda RSM dla klasyfikacji Metoda zaproponowana w pracy: T. K. Ho, The Random Subspace Method for Constructing Decision Forests, IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL. 20, NO. 8, 1998. Budowa komitetu klasyfikatorów na bazie losowo wybranych podzbiorów atrybutów. Efektywne narzędzie w przypadku dużego wymiaru przestrzeni cech. Modyfikacje: M. Draminski, J. Koronacki et. al. Monte carlo feature selection for supervised classification, BIOINFORMATICS, 24(1):110-117, 2008. Paweł Teisseyre Metoda RSM 8 / 30

Metoda Losowych Podprzestrzeni (RSM). Metoda RSM dla modelu liniowego Algorytm RSM 1 Wejście: Dane (Y, X), liczba symulacji B, wielkość podprzestrzeni m < min(p, n). 2 Powtarzaj procedurę dla k = 1,..., B z C i,0 = 0 dla każdego i. Wylosuj zbiór zmiennych m = {i1,..., i m } z przestrzeni cech. Dopasuj model y x m i oblicz wagi w n(i, m ) 0 dla zmiennych i m. Ustaw w n(i, m ) = 0 jeżeli i / m. C i,k = C i,k 1 + I {i m }. 3 Dla wszystkich zmiennych i oblicz końcowe wagi: Wi = 1 w n(i, m ). C i,b m :i m 4 Posortuj zmienne wg końcowych wag W i : W i 1 W i 2... W i p. 5 Wyjście: uporządkowana lista zmiennych {i 1,..., i p}. Paweł Teisseyre Metoda RSM 9 / 30

Metoda Losowych Podprzestrzeni (RSM). Metoda RSM dla modelu liniowego m << p B random subsets attributes model 1 weights of attributes p attributes m << p attributes model 2 weights of attributes final scores of attributes......... m << p attributes model B weights of attributes Paweł Teisseyre Metoda RSM 10 / 30

Metoda Losowych Podprzestrzeni (RSM). Metoda RSM dla modelu liniowego Algorytm WRSM 1 Wejście: Dane (Y, X), liczba symulacji B, wielkość podprzestrzeni m < min(p, n). 2 Dla każdej zmiennej i dopasuj model jednokrotny y x i i oblicz wagi początkowe w (0) n (i) 0. 3 Dla każdej zmiennej i oblicz π i = w n (0) (i)/ p w (0) l=1 n 4 Wykonaj procedurę RSM, w ten sposób że prawdopodobieństwo wylosowania zmiennej i do losowej podprzestrzeni jest równe π i. 5 Wyjście: uporządkowana lista zmiennych {i 1,..., i p}. (l). Paweł Teisseyre Metoda RSM 11 / 30

Metoda Losowych Podprzestrzeni (RSM). Metoda RSM- wybór wag w n (i, m) Wybór wag: w n (i, m) := T 2 i,m, gdzie T i,m oznacza statystykę T dla zmiennej i, obliczoną na podstawie dowolnego podmodelu m. Zauważmy, że: T 2 i,m n m = (R2 m Rm\{i} 2 ) }{{} istotność zm. i 1 1 Rm 2, }{{} dopasowanie modelu m gdzie R 2 m jest współczynnikiem determinacji dla modelu m. Paweł Teisseyre Metoda RSM 12 / 30

Metoda Losowych Podprzestrzeni (RSM). Asymptotyczna postać wag końcowych W i Można pokazać (przy B/p ) asymptotyczną równoważność: W i 1 M i, m MSEP(m \ {i}) MSEP(m) MSEP(m) m M i, m P 0. P miara na rodzinie modeli. M i, m to liczba modeli o liczności m które zawierają zmienną i. Błąd predykcji dla modelu m: MSEP(m) := lim n n 1 E[ Y X m ˆβ m 2 X], gdzie Y = Xβ + ε, ε niezależna kopia ε. Paweł Teisseyre Metoda RSM 13 / 30

Metoda Losowych Podprzestrzeni (RSM). Procedura wyboru modelu: 1 Dane (Y, X) dzielone na część treningową: (Y t, X t ) oraz walidacyjną (Y v, X v ). 2 Procedura RSM jest realizowana na części treningowej. Zmienne są porządkowane wg. wag końcowych: W i 1..., W i p. 3 Z zagnieżdżonej listy modeli {{0}, {i 1 }, {i 1, i 2 },..., {i 1,..., i min(n,p) 1 }} wybieramy model m opt dla którego błąd na próbie walidacyjnej n 1 Y v X v ˆβ mopt 2 jest najmniejszy. (tutaj: ˆβ mopt - estymator ML oparty na modelu m opt, obliczony na próbie (Y t, X t )). Paweł Teisseyre Metoda RSM 14 / 30

Metoda RSM + kryteria informacyjne. Kryteria Informacyjne Wada procedury opisanej powyżej: konieczność wydzielenia próby walidacyjnej (duży problem w sytuacji małej liczby obserwacji). Procedura oparta na GIC: z zagnieżdżonej rodziny {{0}, {i 1 }, {i 1, i 2 },..., {i 1,..., i min(n,p) 1 }} wyznaczonej na podstawie metody RSM wybieramy model które minimalizuje GIC. Problem: kryteria informacyjne działają poprawnie gdy liczba atrybutów jest mniejszego rzędu niż liczba obserwacji. Paweł Teisseyre Metoda RSM 15 / 30

Metoda RSM + kryteria informacyjne. Kryteria Informacyjne- problem Model 2 BIC 200 0 200 400 600 BIC FIT PENALTY 0 20 40 60 80 100 Variables Rysunek : Problem: BIC działa niepoprawnie gdy liczba zmiennych jest duża w porównaniu z n (model prawdziwy t zawiera 3 zmienne). Paweł Teisseyre Metoda RSM 16 / 30

Metoda RSM + kryteria informacyjne. Kryteria Informacyjne- problem Model 3 BIC 200 0 200 400 600 BIC FIT PENALTY 0 20 40 60 80 100 Variables Rysunek : Problem: BIC działa niepoprawnie gdy liczba zmiennych jest duża w porównaniu z n (model prawdziwy t zawiera 10 zmiennych). Paweł Teisseyre Metoda RSM 17 / 30

Metoda RSM + kryteria informacyjne. Wyniki symulacji- metody Metoda lasso. Metoda RSM + BIC. Metoda WRSM + BIC. Metoda Univariate + BIC. Metoda CAR + BIC [CAR = corr(y, P 1/2 X std ), P- macierz korelacji dla atrybutów]. Punkt odcięcia: Sztywny punkt odcięcia: (n 1)/2. Paweł Teisseyre Metoda RSM 18 / 30

Metoda RSM + kryteria informacyjne. Modele symulacyjne Wybrane 10 modeli z prac dotyczących selekcji zmiennych (liczba zmiennych istotnych t [1, 50]). Wiersze macierzy X generowane z rozkładu normalnego o średniej 0 i macierzy kowariancji Σ i,j := ρ i j, ρ = 0.5. Liczba obserwacji n = 200, liczba atrybutów p = 1000. Liczba symulacji: L = 500. Paweł Teisseyre Metoda RSM 19 / 30

Metoda RSM + kryteria informacyjne. Wyniki symulacji- miary oceny (CS): poprawny wybór modelu t: I [ˆt = t], (TPR): ˆt t / t, (FDR): ˆt \ t / ˆt, (PE): Błąd predykcji na niezależnym zbiorze testowym. (CO): poprawne uporządkowanie w pierwszym kroku procedury dwustopniowej. P[max i t Ti,f 2 < min i t Ti,f 2 ]. Paweł Teisseyre Metoda RSM 20 / 30

Metoda RSM + kryteria informacyjne. Wyniki symulacji- błąd predykcji Model t lasso rsmbic wrsmbic unibic carbic Min 1 1 100.05 112.43 118.58 109.49 109.61 lasso 2 3 109.72 100.26 111.86 100.06 100.07 UNI 3 10 115.24 101.05 101.15 101.79 101.54 RSM 4 5 114.81 100.30 107.29 100.43 100.41 RSM 5 15 110.32 110.44 102.00 114.69 112.25 WRSM 6 15 111.12 117.45 101.42 124.62 124.00 WRSM 7 20 116.66 117.49 103.94 136.58 132.97 WRSM 8 8 110.45 101.07 111.87 100.40 100.37 CAR 9 50 127.89 123.00 100.88 149.91 139.59 WRSM 10 50 125.48 145.53 102.07 208.14 192.58 WRSM Tabela : 100*PE/min(PE) (średnie z 500 symulacji). Paweł Teisseyre Metoda RSM 21 / 30

Metoda RSM + kryteria informacyjne. Wyniki symulacji- TPR Model t lasso rsmbic wrsmbic unibic carbic Max. TPR 1 1 0.000 0.367 0.433 0.467 0.467 UNI, CAR 2 3 1.000 1.000 1.000 1.000 1.000 wszystkie 3 10 1.000 1.000 1.000 1.000 1.000 wszystkie 4 5 1.000 1.000 1.000 1.000 1.000 wszystkie 5 15 0.996 0.838 0.973 0.816 0.829 lasso 6 15 0.998 0.769 0.940 0.731 0.733 lasso 7 20 1.000 0.982 0.995 0.963 0.967 lasso 8 8 0.854 0.817 0.888 0.829 0.833 WRSM 9 50 0.995 0.922 0.979 0.845 0.870 lasso 10 50 1.000 0.960 0.991 0.893 0.908 lasso Tabela : Wskaźniki TPR (średnie z 500 symulacji). Paweł Teisseyre Metoda RSM 22 / 30

Metoda RSM + kryteria informacyjne. Wyniki symulacji- FDR Model t lasso rsmbic wrsmbic unibic carbic Min. FDR 1 1 1.000 0.954 0.980 0.926 0.931 UNI 2 3 0.124 0.021 0.608 0.033 0.025 RSM 3 10 0.410 0.290 0.074 0.384 0.358 WRSM 4 5 0.329 0.069 0.454 0.123 0.109 RSM 5 15 0.216 0.179 0.199 0.203 0.220 RSM 6 15 0.297 0.260 0.156 0.231 0.191 WRSM 7 20 0.271 0.217 0.018 0.312 0.260 WRSM 8 8 0.111 0.074 0.467 0.050 0.059 WRSM 9 50 0.419 0.208 0.100 0.233 0.198 WRSM 10 50 0.427 0.327 0.097 0.302 0.275 WRSM Tabela : Wskaźniki FDR (średnie z 500 symulacji). Paweł Teisseyre Metoda RSM 23 / 30

Metoda RSM + kryteria informacyjne. Przykład: dane rzeczywiste QSAR dataset (n=274,p=839) Prediction Error 0.14 0.15 0.16 0.17 0.18 0.19 RSM: 11.3 CAR: 10.9 UNI: 3.8 LASSO: 34.7 RSM+BIC CAR+BIC UNI+BIC LASSO+CV Rysunek : Model zależności temperatury topnienia substancji od deskryptorów cząstek (liczność zbioru treningowego: 182, liczność zbioru testowego: 92). Paweł Teisseyre Metoda RSM 24 / 30

Metoda RSM + kryteria informacyjne. Pakiet R regrsm (P. Teisseyre, R. A. Kłopotek) 3 wersje: sekwencyjna, równoległa (MPI), równoległa (POSIX). Algorytmy: RSM, WRSM, SRSM wybór modelu w oparciu o BIC lub próbę walidaycjną Metody: predict, update, print, summary, plot, ImpPlot roc. Paweł Teisseyre Metoda RSM 25 / 30

Metoda RSM + kryteria informacyjne. Czas obliczeń dla p = 1000, n = 100, m = 50. Elapsed time Elapsed time [sec] 0 50 100 150 200 250 300 1 slave 2 slaves 4 slaves 8 slaves 16 slaves 32 slaves 5 6 7 8 9 10 11 log(b) Rysunek : Maszyna:2x Intel(R) Xeon(R) CPU E5-2630L @ 2.00GHz (6 cores, 12 threads) - 24 logical cores in total, 64 GB RAM Paweł Teisseyre Metoda RSM 26 / 30

Wnioski RSM- wnioski WRSM zazwyczaj działa lepiej niż konkurencyjne metody (biorąc pod uwagę PE). FDR jest zazwyczaj mniejsze dla RSM/WRSM niż dla metody lasso oraz metody univariate. Stosując metodę RSM/WRSM otrzymujemy mniej złożone modele (jest to potwierdzone przez eksperymenty na zbiorach rzeczywistych). Zastosowanie wersji ważonej (WRSM) pozwala zmniejszyć liczbę symulacji i w ten sposób zredukować koszt obliczeniowy. Paweł Teisseyre Metoda RSM 27 / 30

Literatura Literatura 1 J. Mielniczuk, P. Teisseyre, Using Random Subspace Method for Prediction and Variable Importance Assessment in Linear Regression, Computational Statistics and Data Analysis, Volume: 71, 725-742, 2014. 2 T. K. Ho, The Random Subspace Method for constructing decision forests, IEEE Trans. Pattern Anal. Machine Intell., Vol. 20, No. 8, pages 832 844, 1998. 3 L. Breiman, Random forests, Machine Learning, Vol. 45, No. 1, pages 5 32, 2001. 4 C. Lai, M. J. T. Reinders, L. Wessels, Random Subspace Method for multivariate feature selection, Pattern Recognition Letters, Vol. 27, pages 1067-1076, 2006. 5 M. Draminski et. al., Monte carlo feature selection for supervised classification, BIOINFORMATICS, 24(1):110-117, 2008. Paweł Teisseyre Metoda RSM 28 / 30

Dziękuje za uwagę! Dziękuje za uwagę! Paweł Teisseyre Metoda RSM 29 / 30