Selekcja modelu liniowego i predykcja metodami losowych podprzestrzeni

Wielkość: px
Rozpocząć pokaz od strony:

Download "Selekcja modelu liniowego i predykcja metodami losowych podprzestrzeni"

Transkrypt

1 Selekcja modelu liniowego i predykcja metodami losowych podprzestrzeni Paweł Teisseyre Instytut Podstaw Informatyki, Polska Akademia Nauk Paweł Teisseyre Selekcja modelu liniowego i predykcja 1 / 29

2 Plan prezentacji 1 Wysoko-wymiarowy model regresji liniowej. 2 Dwustopniowe procedury wyboru modelu. 3 Metoda Losowych Podprzestrzeni (RSM). 4 Metoda RSM + kryteria informacyjne. Paweł Teisseyre Selekcja modelu liniowego i predykcja 2 / 29

3 Motywacja Motywacja- modele 1 Regresja liniowa to najpopularniejszy model w sytuacji, gdy zmienna odpowiedzi jest ilościowa. 2 Wybrane obszary zastosowań: bioinformatyka (dane mikro-macierzowe, QTL, GWAS, QSAR), finanse, nauki społeczne i ekonomiczne (modelowanie wskaźników makro i mikro-ekonomicznych), analiza danych tekstowych (przewidywanie cech osób na podstawie wypowiedzi), i wiele innych... Paweł Teisseyre Selekcja modelu liniowego i predykcja 3 / 29

4 Motywacja Motywacja- wybór modelu Dlaczego selekcja modelu (u nas: pewnego podzbioru zmiennych objaśniających) jest ważna? odkrycie nieznanej zależności funkcyjnej na podstawie dostępnych danych, wybór modelu o dobrych własnościach predykcyjnych, ocena istotności zmiennych objaśniających. Paweł Teisseyre Selekcja modelu liniowego i predykcja 4 / 29

5 Wysoko-wymiarowy model regresji liniowej. Model regresji liniowej Obiekty opisane parą (x, y), gdzie: y R - zmienna odpowiedzi, x R p - wektor atrybutów. W modelu liniowym zakładamy, że: gdzie: y = x β + ε, β R p jest wektorem parametrów, ε błędem losowym o rozkładzie N(0, σ 2 ). Uwaga: Dopuszczamy sytuację: p n. Paweł Teisseyre Selekcja modelu liniowego i predykcja 5 / 29

6 Wysoko-wymiarowy model regresji liniowej. Selekcja zmiennych Minimalny model prawdziwy: t := {k : β k 0}, t.j. dla regresji liniowej: minimalny model taki, że E(y x) = x tβ t, gdzie: dolny indeks t oznacza wybór współrzędnych odpowiadających modelowi t. Cel: Identyfikacja zbioru t na podstawie niezależnych obserwacji (x i, y i ), i = 1,..., n. Paweł Teisseyre Selekcja modelu liniowego i predykcja 6 / 29

7 Dwustopniowe procedury wyboru modelu. Procedury dwustopniowe wyboru modelu 1 Zmienne {1,..., p} są porządkowane wg pewnej miary istotności: W i1 W i2... W ip. 2 Wybieramy model z zagnieżdżonej rodziny: M nested := {{0}, {i 1 }, {i 1, i 2 },..., {i 1,..., i p }} Uwaga: W drugim kroku sprawdzamy p + 1 modeli zamiast 2 p (przy pełnym przeszukiwaniu). Paweł Teisseyre Selekcja modelu liniowego i predykcja 7 / 29

8 Dwustopniowe procedury wyboru modelu. Procedura Zhenga i Loha dla modelu liniowego 1 Dopasuj model liniowy zawierający wszystkie zmienne 1,..., p. 2 Zmienne {1,..., p} są porządkowane wg kwadratu statystyki T : T 2 i 1 T 2 i 2... T 2 i p. 3 Wybieramy model z zagnieżdżonej rodziny: M nested := {{0}, {i 1 }, {i 1, i 2 },..., {i 1,..., i p }}. Uwagi: Użycie w drugim kroku Bayesowskiego kryterium wybory zmiennych (BIC) prowadzi do zgodnej procedury selekcji. Procedura nie może być zastosowana gdy p n. Paweł Teisseyre Selekcja modelu liniowego i predykcja 8 / 29

9 Metoda Losowych Podprzestrzeni (RSM). Metoda RSM dla klasyfikacji Metoda zaproponowana w pracy: T. K. Ho, The Random Subspace Method for Constructing Decision Forests, IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL. 20, NO. 8, Budowa komitetu klasyfikatorów na bazie losowo wybranych podzbiorów atrybutów. Efektywne narzędzie w przypadku dużego wymiaru przestrzeni cech. Paweł Teisseyre Selekcja modelu liniowego i predykcja 9 / 29

10 Metoda Losowych Podprzestrzeni (RSM). Metoda RSM dla modelu liniowego Algorytm RSM 1 Wejście: Dane (Y, X), liczba symulacji B, wielkość podprzestrzeni m < min(p, n). 2 Powtarzaj procedurę dla k = 1,..., B z C i,0 = 0 dla każdego i. Wylosuj zbiór zmiennych m = {i1,..., i m } z przestrzeni cech. Dopasuj model y x m i oblicz wagi w n(i, m ) 0 dla zmiennych i m. Ustaw w n(i, m ) = 0 jeżeli i / m. C i,k = C i,k 1 + I {i m }. 3 Dla wszystkich zmiennych i oblicz końcowe wagi: Wi = 1 w n(i, m ). C i,b m :i m 4 Posortuj zmienne wg końcowych wag W i : W i 1 W i 2... W i p. 5 Wyjście: uporządkowana lista zmiennych {i 1,..., i p}. Paweł Teisseyre Selekcja modelu liniowego i predykcja 10 / 29

11 Metoda Losowych Podprzestrzeni (RSM). Metoda RSM dla modelu liniowego m << p B random subsets attributes model 1 weights of attributes p attributes m << p attributes model 2 weights of attributes final scores of attributes m << p attributes model B weights of attributes Paweł Teisseyre Selekcja modelu liniowego i predykcja 11 / 29

12 Metoda Losowych Podprzestrzeni (RSM). Czas obliczeń dla p = 1000, n = 100, m = 50. Elapsed time Elapsed time [sec] slave 2 slaves 4 slaves 8 slaves 16 slaves 32 slaves log(b) Rysunek : Maszyna:2x Intel(R) Xeon(R) CPU 2.00GHz (6 cores, 12 threads) - 24 logical cores in total, 64 GB RAM Paweł Teisseyre Selekcja modelu liniowego i predykcja 12 / 29

13 Metoda Losowych Podprzestrzeni (RSM). Metoda RSM- wybór wag w n (i, m) Wybór wag: w n (i, m) := T 2 i,m, gdzie T i,m oznacza statystykę T dla zmiennej i, obliczoną na podstawie dowolnego podmodelu m. Zauważmy, że: T 2 i,m n m = (R2 m Rm\{i} 2 ) }{{} istotność zm. i 1 1 Rm 2, }{{} dopasowanie modelu m gdzie R 2 m jest współczynnikiem determinacji dla modelu m. Paweł Teisseyre Selekcja modelu liniowego i predykcja 13 / 29

14 Metoda Losowych Podprzestrzeni (RSM). Asymptotyczna postać wag końcowych W i Można pokazać asymptotyczną równoważność: W i 1 M i, m MSEP(m \ {i}) MSEP(m) MSEP(m) m M i, m, M i, m to liczba modeli o liczności m które zawierają zmienną i, Błąd predykcji dla modelu m: MSEP(m) := lim n n 1 E[ Y X m ˆβ m 2 X], gdzie Y = Xβ + ε, ε niezależna kopia ε. Paweł Teisseyre Selekcja modelu liniowego i predykcja 14 / 29

15 Metoda Losowych Podprzestrzeni (RSM). Procedura wyboru modelu: 1 Dane (Y, X) dzielone na część treningową: (Y t, X t ) oraz walidacyjną (Y v, X v ). 2 Procedura RSM jest realizowana na części treningowej. Zmienne są porządkowane wg. wag końcowych: W i 1..., W i p. 3 Z zagnieżdżonej listy modeli {{0}, {i 1 }, {i 1, i 2 },..., {i 1,..., i min(n,p) 1 }} wybieramy model m opt dla którego błąd na próbie walidacyjnej n 1 Y v X v ˆβ mopt 2 jest najmniejszy. (tutaj: ˆβ mopt - estymator ML oparty na modelu m opt, obliczony na próbie (Y t, X t )). Paweł Teisseyre Selekcja modelu liniowego i predykcja 15 / 29

16 Metoda Losowych Podprzestrzeni (RSM). Procedura wyboru modelu validation set final scores of attributes ranking of attributes selection on hierarchical list of models Final model Paweł Teisseyre Selekcja modelu liniowego i predykcja 16 / 29

17 Metoda RSM + kryteria informacyjne. Kryteria Informacyjne Wada procedury opisanej powyżej: konieczność wydzielenia próby walidacyjnej (duży problem w sytuacji małej liczby obserwacji). Kryterium Bayesowskie: BIC(m) = 2l(ˆβ m ) + log(n) m min, }{{}}{{} dopasowanie modelu kara za liczbę parametrów gdzie: l( ) to funkcja log-wiarogodności, m to liczba parametrów w modelu m. Procedura oparta na BIC: z zagnieżdżonej rodziny {{0}, {i 1 }, {i 1, i 2 },..., {i 1,..., i min(n,p) 1 }} wyznaczonej na podstawie metody RSM wybieramy model które minimalizuje BIC. Paweł Teisseyre Selekcja modelu liniowego i predykcja 17 / 29

18 Metoda RSM + kryteria informacyjne. Kryteria Informacyjne- problem Model 2 BIC BIC FIT PENALTY Variables Rysunek : Problem: BIC działa niepoprawnie gdy liczba zmiennych jest duża w porównaniu z n (model prawdziwy t zawiera 3 zmienne). Paweł Teisseyre Selekcja modelu liniowego i predykcja 18 / 29

19 Metoda RSM + kryteria informacyjne. Kryteria Informacyjne- problem Model 3 BIC BIC FIT PENALTY Variables Rysunek : Problem: BIC działa niepoprawnie gdy liczba zmiennych jest duża w porównaniu z n (model prawdziwy t zawiera 10 zmiennych). Paweł Teisseyre Selekcja modelu liniowego i predykcja 19 / 29

20 Metoda RSM + kryteria informacyjne. Wyniki symulacji- metody Metoda lasso. Metoda RSM + BIC. Metoda WRSM + BIC. Metoda Univariate + BIC. Metoda CAR + BIC [CAR = corr(y, P 1/2 X std ), P- correlation matrix of attributes]. Punkt odcięcia: Sztywny punkt odcięcia: (n 1)/2. 5% spermutowanych kopii originalnych zmiennych ma większą korelacje z y niż zmienne oryginalne. Paweł Teisseyre Selekcja modelu liniowego i predykcja 20 / 29

21 Metoda RSM + kryteria informacyjne. Wyniki symulacji- miary oceny (CS): pstwo wyboru modelu t: P(ˆt = t), (PSR): E( ˆt t / t ), (FDR): E( ˆt \ t / ˆt ), (PE): Błąd predykcji na niezależnym zbiorze testowym. (CO): pstwo poprawnego uporządkowania w pierwszym kroku procedury dwustopniowej: P[max i t Ti,f 2 < min i t Ti,f 2 ]. Paweł Teisseyre Selekcja modelu liniowego i predykcja 21 / 29

22 Metoda RSM + kryteria informacyjne. Wyniki symulacji Model lasso rsmbic wrsmbic unibic carbic Rysunek : Błędy predykcji dla wybranego modelu (model prawdziwy t zawiera 50 zmiennych). Paweł Teisseyre Selekcja modelu liniowego i predykcja 22 / 29

23 Metoda RSM + kryteria informacyjne. Wyniki symulacji Model 1 miejsce 2 miejsce 3 miejsce 4 miejsce 5 miejsce 1 lasso carbic unibic rsmbic wrsmbic 2 rsmbic unibic carbic lasso wrsmbic 3 wrsmbic rsmbic carbic unibic lasso 4 rsmbic carbic unibic wrsmbic lasso 5 wrsmbic rsmbic lasso carbic unibic 6 wrsmbic lasso rsmbic unibic carbic 7 wrsmbic rsmbic lasso carbic unibic 8 carbic unibic rsmbic wrsmbic lasso 9 wrsmbic rsmbic lasso carbic unibic 10 wrsmbic lasso rsmbic carbic unibic Tabela : Ranking badanych metod ze względu na błąd predykcji. Paweł Teisseyre Selekcja modelu liniowego i predykcja 23 / 29

24 Metoda RSM + kryteria informacyjne. Wyniki symulacji- PSR Model t lasso rsmbic wrsmbic unibic carbic Max. PSR UNI, CAR wszystkie wszystkie wszystkie lasso lasso lasso WRSM lasso lasso Tabela : Wskaźniki PSR. Paweł Teisseyre Selekcja modelu liniowego i predykcja 24 / 29

25 Metoda RSM + kryteria informacyjne. Wyniki symulacji- FDR Model lasso rsmbic wrsmbic unibic carbic Min. FDR UNI RSM WRSM RSM RSM WRSM WRSM WRSM WRSM WRSM Tabela : Wskaźniki FDR. Paweł Teisseyre Selekcja modelu liniowego i predykcja 25 / 29

26 Wnioski RSM- wnioski WRSM zazwyczaj działa lepiej niż konkurencyjne metody (biorąc pod uwagę PE). FDR jest zazwyczaj mniejsze dla RSM niż dla metody lasso oraz metody univariate. Stosując metodę RSM otrzymujemy mniej złożone modele (jest to potwierdzone przez eksperymenty na zbiorach rzeczywistych). Zastosowanie wersji ważonej (WRSM) pozwala zmniejszyć liczbę symulacji i w ten sposób zredukować koszt obliczeniowy. Paweł Teisseyre Selekcja modelu liniowego i predykcja 26 / 29

27 Wnioski RSM- plany Zastosowanie metody RSM dla innych modeli (n.p. modelu logistycznego). Połączenie metody RSM i metod wyboru zmiennych wykorzystujących kryteria informacyjne (zastosowanie innych kryteriów informacyjnych, modyfikacja metody znajdującej punkt odcięcia). Nowe warianty metody WRSM (n.p. użycie wag końcowych RSM jako wag zmiennych w WRSM). Dopracowanie pakietu zawierającego implementacje równoległą. Paweł Teisseyre Selekcja modelu liniowego i predykcja 27 / 29

28 Literatura Literatura 1 J. Mielniczuk, P. Teisseyre Using Random Subspace Method for Prediction and Variable Importance Assessment in Linear Regression, Computational Statistics and Data Analysis, 2 T. K. Ho, The Random Subspace Method for constructing decision forests, IEEE Trans. Pattern Anal. Machine Intell., Vol. 20, No. 8, pages , L. Breiman, Random forests, Machine Learning, Vol. 45, No. 1, pages 5 32, C. Lai, M. J. T. Reinders, L. Wessels, Random Subspace Method for multivariate feature selection, Pattern Recognition Letters, Vol. 27, pages , M. Draminski et. al. Monte carlo feature selection for supervised classification, BIOINFORMATICS, 24(1): , Paweł Teisseyre Selekcja modelu liniowego i predykcja 28 / 29

29 Dziękuje za uwagę! Dziękuje za uwagę! Paweł Teisseyre Selekcja modelu liniowego i predykcja 29 / 29

Konferencja Statystyka Matematyczna Wisła 2013

Konferencja Statystyka Matematyczna Wisła 2013 Konferencja Statystyka Matematyczna Wisła 2013 Wykorzystanie metod losowych podprzestrzeni do predykcji i selekcji zmiennych Paweł Teisseyre Instytut Podstaw Informatyki, Polska Akademia Nauk Paweł Teisseyre

Bardziej szczegółowo

Metody klasyfikacji dla nielicznej próbki wektorów o wielkim wymiarze

Metody klasyfikacji dla nielicznej próbki wektorów o wielkim wymiarze Metody klasyfikacji dla nielicznej próbki wektorów o wielkim wymiarze Small n large p problem Problem w analizie wielu zbiorów danych biologicznych: bardzo mała liczba obserwacji (rekordów, próbek) rzędu

Bardziej szczegółowo

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA Jan Mielniczuk Wisła, grudzień 2009 PLAN Błędy predykcji i ich podstawowe estymatory Estymacja błędu predykcji w modelu liniowym. Funkcje kryterialne Własności

Bardziej szczegółowo

Rozpoznawanie obrazów

Rozpoznawanie obrazów Rozpoznawanie obrazów Laboratorium Python Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest implementacja liniowego zadania

Bardziej szczegółowo

Mikroekonometria 14. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 14. Mikołaj Czajkowski Wiktor Budziński Mikroekonometria 14 Mikołaj Czajkowski Wiktor Budziński Symulacje Analogicznie jak w przypadku ciągłej zmiennej zależnej można wykorzystać metody Monte Carlo do analizy różnego rodzaju problemów w modelach

Bardziej szczegółowo

Natalia Neherbecka. 11 czerwca 2010

Natalia Neherbecka. 11 czerwca 2010 Natalia Neherbecka 11 czerwca 2010 1 1. Konsekwencje heteroskedastyczności i autokorelacji 2. Uogólniona MNK 3. Stosowalna Uogólniona MNK 4. Odporne macierze wariancji i kowariancji b 2 1. Konsekwencje

Bardziej szczegółowo

Statystyczna analiza danych 1

Statystyczna analiza danych 1 Statystyczna analiza danych 1 Regresja liniowa 1 Ewa Szczurek szczurek@mimuw.edu.pl Instytut Informatyki Uniwersytet Warszawski Ewa Szczurek Regresja liniowa 1 1 / 41 Dane: wpływ reklam produktu na sprzedaż

Bardziej szczegółowo

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I Wojciech Kotłowski Instytut Informatyki Politechniki Poznańskiej email: imię.nazwisko@cs.put.poznan.pl pok. 2 (CW) tel. (61)665-2936 konsultacje:

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z liniowym zadaniem najmniejszych

Bardziej szczegółowo

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x ZJAZD 4 KORELACJA, BADANIE NIEZALEŻNOŚCI, ANALIZA REGRESJI Analiza korelacji i regresji jest działem statystyki zajmującym się badaniem zależności i związków pomiędzy rozkładami dwu lub więcej badanych

Bardziej szczegółowo

Porównanie modeli regresji. klasycznymi modelami regresji liniowej i logistycznej

Porównanie modeli regresji. klasycznymi modelami regresji liniowej i logistycznej Porównanie modeli logicznej regresji z klasycznymi modelami regresji liniowej i logistycznej Instytut Matematyczny, Uniwersytet Wrocławski Małgorzata Bogdan Instytut Matematyki i Informatyki, Politechnika

Bardziej szczegółowo

Testy własności składnika losowego Testy formy funkcyjnej. Diagnostyka modelu. Część 2. Diagnostyka modelu

Testy własności składnika losowego Testy formy funkcyjnej. Diagnostyka modelu. Część 2. Diagnostyka modelu Część 2 Test Durbina-Watsona Test Durbina-Watsona Weryfikowana hipoteza H 0 : cov(ε t, ε t 1 ) = 0 H 1 : cov(ε t, ε t 1 ) 0 Test Durbina-Watsona Weryfikowana hipoteza H 0 : cov(ε t, ε t 1 ) = 0 H 1 : cov(ε

Bardziej szczegółowo

Drzewa decyzyjne i lasy losowe

Drzewa decyzyjne i lasy losowe Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM

Bardziej szczegółowo

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka Statystyka opisowa. Wykład V. e-mail:e.kozlovski@pollub.pl Spis treści 1 Prosta regresji cechy Y względem cech X 1,..., X k. 2 3 Wyznaczamy zależność cechy Y od cech X 1, X 2,..., X k postaci Y = α 0 +

Bardziej szczegółowo

Monte Carlo, bootstrap, jacknife

Monte Carlo, bootstrap, jacknife Monte Carlo, bootstrap, jacknife Literatura Bruce Hansen (2012 +) Econometrics, ze strony internetowej: http://www.ssc.wisc.edu/~bhansen/econometrics/ Monte Carlo: rozdział 8.8, 8.9 Bootstrap: rozdział

Bardziej szczegółowo

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18 Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)

Bardziej szczegółowo

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej Ekonometria Wprowadzenie do modelowania ekonometrycznego Estymator Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Wykład 1 Estymator 1 / 16 Agenda 1 Literatura Zaliczenie przedmiotu 2 Model

Bardziej szczegółowo

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego Łukasz Kończyk WMS AGH Plan prezentacji Model regresji liniowej Uogólniony model liniowy (GLM) Ryzyko ubezpieczeniowe Przykład

Bardziej szczegółowo

Metoda najmniejszych kwadratów

Metoda najmniejszych kwadratów Model ekonometryczny Wykształcenie a zarobki Hipoteza badawcza: Istnieje zależność między poziomem wykształcenia a wysokością zarobków Wykształcenie a zarobki Hipoteza badawcza: Istnieje zależność między

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu liniowym, scenariusz p bliskie lub większe od n

Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu liniowym, scenariusz p bliskie lub większe od n Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu iowym, scenariusz p bliskie lub większe od n Przemyslaw.Biecek@gmail.com, MIM Uniwersytet Warszawski Plan prezentacji: 1 Motywacja;

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta

Bardziej szczegółowo

Metody klasyfikacji danych - część 1 p.1/24

Metody klasyfikacji danych - część 1 p.1/24 Metody klasyfikacji danych - część 1 Inteligentne Usługi Informacyjne Jerzy Dembski Metody klasyfikacji danych - część 1 p.1/24 Plan wykładu - Zadanie klasyfikacji danych - Przeglad problemów klasyfikacji

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka

Stanisław Cichocki. Natalia Nehrebecka Stanisław Cichocki Natalia Nehrebecka 1 1. Wstęp a) Binarne zmienne zależne b) Interpretacja ekonomiczna c) Interpretacja współczynników 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników

Bardziej szczegółowo

Stosowana Analiza Regresji

Stosowana Analiza Regresji Stosowana Analiza Regresji Wykład VI... 16 Listopada 2011 1 / 24 Jest to rozkład zmiennej losowej rozkład chi-kwadrat Z = n i=1 X 2 i, gdzie X i N(µ i, 1) - niezależne. Oznaczenie: Z χ 2 (n, λ), gdzie:

Bardziej szczegółowo

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Wprowadzenie do teorii ekonometrii Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Zajęcia Wykład Laboratorium komputerowe 2 Zaliczenie EGZAMIN (50%) Na egzaminie obowiązują wszystkie informacje

Bardziej szczegółowo

Wojciech Skwirz

Wojciech Skwirz 1 Regularyzacja jako metoda doboru zmiennych objaśniających do modelu statystycznego. 2 Plan prezentacji 1. Wstęp 2. Część teoretyczna - Algorytm podziału i ograniczeń - Regularyzacja 3. Opis wyników badania

Bardziej szczegółowo

Opis wykonanych badań naukowych oraz uzyskanych wyników

Opis wykonanych badań naukowych oraz uzyskanych wyników Opis wykonanych badań naukowych oraz uzyskanych wyników 1. Analiza danych (krok 2 = uwzględnienie epistazy w modelu): detekcja QTL przy wykorzystaniu modeli dwuwymiarowych z uwzględnieniem różnych modeli

Bardziej szczegółowo

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,

Bardziej szczegółowo

Regresja liniowa w R Piotr J. Sobczyk

Regresja liniowa w R Piotr J. Sobczyk Regresja liniowa w R Piotr J. Sobczyk Uwaga Poniższe notatki mają charakter roboczy. Mogą zawierać błędy. Za przesłanie mi informacji zwrotnej o zauważonych usterkach serdecznie dziękuję. Weźmy dane dotyczące

Bardziej szczegółowo

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno WSTĘP DO REGRESJI LOGISTYCZNEJ Dr Wioleta Drobik-Czwarno REGRESJA LOGISTYCZNA Zmienna zależna jest zmienną dychotomiczną (dwustanową) przyjmuje dwie wartości, najczęściej 0 i 1 Zmienną zależną może być:

Bardziej szczegółowo

Ekonometria. Ćwiczenia nr 3. Jakub Mućk. Katedra Ekonomii Ilościowej

Ekonometria. Ćwiczenia nr 3. Jakub Mućk. Katedra Ekonomii Ilościowej Ekonometria Ćwiczenia nr 3 Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Ćwiczenia 3 Własności składnika losowego 1 / 18 Agenda KMNK przypomnienie 1 KMNK przypomnienie 2 3 4 Jakub Mućk

Bardziej szczegółowo

METODY STATYSTYCZNE W BIOLOGII

METODY STATYSTYCZNE W BIOLOGII METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne

Bardziej szczegółowo

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora. imię, nazwisko, nr indeksu: Ekonometria egzamin 0/0/0. Egzamin trwa 90 minut.. Rozwiązywanie zadań należy rozpocząć po ogłoszeniu początku egzaminu a skończyć wraz z ogłoszeniem końca egzaminu. Złamanie

Bardziej szczegółowo

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018 Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład II bogumil.konopka@pwr.edu.pl 2017/2018 Określenie rzeczywistej dokładności modelu Zbiór treningowym vs zbiór testowy Zbiór treningowy

Bardziej szczegółowo

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej

Bardziej szczegółowo

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak 1 Wprowadzenie. Zmienne losowe Podczas kursu interesować nas będzie wnioskowanie o rozpatrywanym zjawisku. Poprzez wnioskowanie rozumiemy

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

Własności estymatorów regresji porządkowej z karą LASSO

Własności estymatorów regresji porządkowej z karą LASSO Własności estymatorów regresji porządkowej z karą LASSO Uniwersytet Mikołaja Kopernika w Toruniu Uniwersytet Warszawski Badania sfinansowane ze środków Narodowego Centrum Nauki przyznanych w ramach finansowania

Bardziej szczegółowo

Budowa modelu i testowanie hipotez

Budowa modelu i testowanie hipotez Problemy metodologiczne Gdzie jest problem? Obciążenie Lovella Dysponujemy oszacowaniami parametrów następującego modelu y t = β 0 + β 1 x 1 +... + β k x k + ε t Gdzie jest problem? Obciążenie Lovella

Bardziej szczegółowo

Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki

Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki Mateusz Kobos, 10.12.2008 Seminarium Metody Inteligencji Obliczeniowej 1/46 Spis treści Działanie algorytmu Uczenie Odtwarzanie/klasyfikacja

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka

Stanisław Cichocki. Natalia Nehrebecka Stanisław Cichocki Natalia Nehrebecka 1 2 3 1. Wprowadzenie do danych panelowych a) Charakterystyka danych panelowych b) Zalety i ograniczenia 2. Modele ekonometryczne danych panelowych a) Model efektów

Bardziej szczegółowo

METODY INŻYNIERII WIEDZY

METODY INŻYNIERII WIEDZY METODY INŻYNIERII WIEDZY WALIDACJA KRZYŻOWA dla ZAAWANSOWANEGO KLASYFIKATORA KNN ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1. tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1

Bardziej szczegółowo

Testowanie modeli predykcyjnych

Testowanie modeli predykcyjnych Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności

Bardziej szczegółowo

Problem równoczesności w MNK

Problem równoczesności w MNK Problem równoczesności w MNK O problemie równoczesności mówimy, gdy występuje korelacja między wartościa oczekiwana ε i i równoczesnym x i Model liniowy y = Xβ + ε, E (u) = 0 Powiedzmy, że występuje w

Bardziej szczegółowo

Ćwiczenie 5 PROGNOZOWANIE

Ćwiczenie 5 PROGNOZOWANIE Ćwiczenie 5 PROGNOZOWANIE Prognozowanie jest procesem przewidywania przyszłych zdarzeń. Obszary zastosowań prognozowania obejmują np. analizę danych giełdowych, przewidywanie zapotrzebowania na pracowników,

Bardziej szczegółowo

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski Narzędzia statystyczne i ekonometryczne Wykład 1 dr Paweł Baranowski Informacje organizacyjne Wydział Ek-Soc, pok. B-109 pawel@baranowski.edu.pl Strona: baranowski.edu.pl (w tym materiały) Konsultacje:

Bardziej szczegółowo

3. Modele tendencji czasowej w prognozowaniu

3. Modele tendencji czasowej w prognozowaniu II Modele tendencji czasowej w prognozowaniu 1 Składniki szeregu czasowego W teorii szeregów czasowych wyróżnia się zwykle następujące składowe szeregu czasowego: a) składowa systematyczna; b) składowa

Bardziej szczegółowo

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej Ekonometria Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Wykład 4 Prognozowanie, stabilność 1 / 17 Agenda

Bardziej szczegółowo

JEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY

JEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY JEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY Będziemy zapisywać wektory w postaci (,, ) albo traktując go jak macierz jednokolumnową (dzięki temu nie będzie kontrowersji przy transponowaniu wektora ) Model

Bardziej szczegółowo

Zastosowanie optymalizacji rojem cząstek (PSO) w procesie uczenia wielowarstwowej sieci neuronowej w problemie lokalizacyjnym, kontynuacja badań

Zastosowanie optymalizacji rojem cząstek (PSO) w procesie uczenia wielowarstwowej sieci neuronowej w problemie lokalizacyjnym, kontynuacja badań Zastosowanie optymalizacji rojem cząstek (PSO) w procesie uczenia wielowarstwowej sieci neuronowej w problemie lokalizacyjnym, kontynuacja badań Jan Karwowski Wydział Matematyki i Nauk Informacyjnych PW

Bardziej szczegółowo

Stosowana Analiza Regresji

Stosowana Analiza Regresji prostej Stosowana Wykład I 5 Października 2011 1 / 29 prostej Przykład Dane trees - wyniki pomiarów objętości (Volume), średnicy (Girth) i wysokości (Height) pni drzew. Interesuje nas zależność (o ile

Bardziej szczegółowo

Estymacja gęstości prawdopodobieństwa metodą selekcji modelu

Estymacja gęstości prawdopodobieństwa metodą selekcji modelu Estymacja gęstości prawdopodobieństwa metodą selekcji modelu M. Wojtyś Wydział Matematyki i Nauk Informacyjnych Politechnika Warszawska Wisła, 7 grudnia 2009 Wstęp Próba losowa z rozkładu prawdopodobieństwa

Bardziej szczegółowo

Rozpoznawanie obrazów

Rozpoznawanie obrazów Rozpoznawanie obrazów Laboratorium Python Zadanie nr 3 Regresja logistyczna autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest zaimplementowanie modelu

Bardziej szczegółowo

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE Joanna Sawicka Plan prezentacji Model Poissona-Gamma ze składnikiem regresyjnym Konstrukcja optymalnego systemu Bonus- Malus Estymacja

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych 9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :

Bardziej szczegółowo

Estymatory regresji rangowej oparte na metodzie LASSO

Estymatory regresji rangowej oparte na metodzie LASSO Estymatory regresji rangowej oparte na metodzie LASSO Wojciech Rejchel UMK Toruń Wisła 2013 Z = (X, Y ), Z = (X, Y ) - niezależne wektory losowe o tym samym rozkładzie P X, X X R m, Y, Y R Z = (X, Y ),

Bardziej szczegółowo

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów

Bardziej szczegółowo

Ekonometryczne modele nieliniowe

Ekonometryczne modele nieliniowe Ekonometryczne modele nieliniowe Wykład 10 Modele przełącznikowe Markowa Literatura P.H.Franses, D. van Dijk (2000) Non-linear time series models in empirical finance, Cambridge University Press. R. Breuning,

Bardziej szczegółowo

Regresja logistyczna (LOGISTIC)

Regresja logistyczna (LOGISTIC) Zmienna zależna: Wybór opcji zachodniej w polityce zagranicznej (kodowana jako tak, 0 nie) Zmienne niezależne: wiedza o Unii Europejskiej (WIEDZA), zamieszkiwanie w regionie zachodnim (ZACH) lub wschodnim

Bardziej szczegółowo

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla Bogumiła Koprowska Elżbieta Kukla 1 Wstęp Czym są efekty losowe? Przykłady Model mieszany 2 Estymacja Jednokierunkowa klasyfikacja (ANOVA) Metoda największej wiarogodności (ML) Metoda największej wiarogodności

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 2 Detekcja twarzy autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się algorytmem gradientu prostego

Bardziej szczegółowo

Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa.

Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa. Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa. Paweł Strawiński Uniwersytet Warszawski Wydział Nauk Ekonomicznych 16 stycznia 2006 Streszczenie W artykule analizowane są właściwości

Bardziej szczegółowo

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007 Modele regresji wielorakiej - dobór zmiennych, szacowanie Paweł Cibis pawel@cibis.pl 1 kwietnia 2007 1 Współczynnik zmienności Współczynnik zmienności wzory Współczynnik zmienności funkcje 2 Korelacja

Bardziej szczegółowo

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re Wykład 4 Wybór najlepszej procedury. Estymacja parametrów regresji z wykorzystaniem metody bootstrap. Wrocław, 22.03.2017r Wybór najlepszej procedury - podsumowanie Co nas interesuje przed przeprowadzeniem

Bardziej szczegółowo

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne Wprowadzenie Prostym podejściem do klasyfikacji jest estymacja funkcji regresji r(x) =E(Y X =x)zpominięciemestymacjigęstościf k. Zacznijmyodprzypadkudwóchgrup,tj.gdy Y = {1,0}. Wówczasr(x) =P(Y =1 X =x)ipouzyskaniuestymatora

Bardziej szczegółowo

Metoda najmniejszych kwadratów

Metoda najmniejszych kwadratów Metoda najmniejszych kwadratów Przykład wstępny. W ekonomicznej teorii produkcji rozważa się funkcję produkcji Cobba Douglasa: z = AL α K β gdzie z oznacza wielkość produkcji, L jest nakładem pracy, K

Bardziej szczegółowo

STATYSTYKA MAŁYCH OBSZARÓW I. WPROWADZENIE

STATYSTYKA MAŁYCH OBSZARÓW I. WPROWADZENIE 1 STATYSTYKA MAŁYCH OBSZARÓW I. WPROWADZENIE 1.1 Podejścia w statystyce małych obszarów Randomizacyjne Wektor wartości badanej cechy traktowany jest jako nielosowy. Szacowana charakterystyka jest nielosowa

Bardziej szczegółowo

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa Weryfikacja hipotez statystycznych Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o prawdziwości lub fałszywości którego wnioskuje się na podstawie

Bardziej szczegółowo

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość Idea Niech θ oznacza parametr modelu statystycznego. Dotychczasowe rozważania dotyczyły metod estymacji tego parametru. Teraz zamiast szacować nieznaną wartość parametru będziemy weryfikowali hipotezę

Bardziej szczegółowo

SPOTKANIE 2: Wprowadzenie cz. I

SPOTKANIE 2: Wprowadzenie cz. I Wrocław University of Technology SPOTKANIE 2: Wprowadzenie cz. I Piotr Klukowski Studenckie Koło Naukowe Estymator piotr.klukowski@pwr.edu.pl 17.10.2016 UCZENIE MASZYNOWE 2/27 UCZENIE MASZYNOWE = Konstruowanie

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka

Stanisław Cichocki. Natalia Nehrebecka Stanisław Cichocki Natalia Nehrebecka 1 1. Wstęp a) Binarne zmienne zależne b) Interpretacja ekonomiczna c) Interpretacja współczynników 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników

Bardziej szczegółowo

Hierarchiczna analiza skupień

Hierarchiczna analiza skupień Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym

Bardziej szczegółowo

Ekonometria. Weryfikacja liniowego modelu jednorównaniowego. Jakub Mućk. Katedra Ekonomii Ilościowej

Ekonometria. Weryfikacja liniowego modelu jednorównaniowego. Jakub Mućk. Katedra Ekonomii Ilościowej Ekonometria Weryfikacja liniowego modelu jednorównaniowego Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Wykład 2 Weryfikacja liniowego modelu jednorównaniowego 1 / 28 Agenda 1 Estymator

Bardziej szczegółowo

Stosowana Analiza Regresji

Stosowana Analiza Regresji Stosowana Analiza Regresji Wykład VIII 30 Listopada 2011 1 / 18 gdzie: X : n p Q : n n R : n p Zał.: n p. X = QR, - macierz eksperymentu, - ortogonalna, - ma zera poniżej głównej diagonali. [ R1 X = Q

Bardziej szczegółowo

Wprowadzenie. Data Science Uczenie się pod nadzorem

Wprowadzenie. Data Science Uczenie się pod nadzorem Wprowadzenie Wprowadzenie Wprowadzenie Wprowadzenie Machine Learning Mind Map Historia Wstęp lub uczenie się z przykładów jest procesem budowy, na bazie dostępnych danych wejściowych X i oraz wyjściowych

Bardziej szczegółowo

Metody oparte na logicznej regresji. zastosowaniu do wykrywania interakcji SNPów

Metody oparte na logicznej regresji. zastosowaniu do wykrywania interakcji SNPów w zastosowaniu do wykrywania interakcji SNPów Instytut Matematyczny, Uniwersytet Wrocławski Wisła, 9 grudnia 2009 DNA Zmienność genetyczna Polimorfizm to zmiana w strukturze DNA, obecna u co najmniej 1%

Bardziej szczegółowo

Statystyka i Analiza Danych

Statystyka i Analiza Danych Warsztaty Statystyka i Analiza Danych Gdańsk, 20-22 lutego 2014 Zastosowania wybranych technik regresyjnych do modelowania współzależności zjawisk Janusz Wątroba StatSoft Polska Centrum Zastosowań Matematyki

Bardziej szczegółowo

Regresyjne metody łączenia klasyfikatorów

Regresyjne metody łączenia klasyfikatorów Regresyjne metody łączenia klasyfikatorów Tomasz Górecki, Mirosław Krzyśko Wydział Matematyki i Informatyki Uniwersytet im. Adama Mickiewicza XXXV Konferencja Statystyka Matematyczna Wisła 7-11.12.2009

Bardziej szczegółowo

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska e-mail: bartosz.krawczyk@pwr.wroc.pl Czym jest klasyfikacja

Bardziej szczegółowo

Modelowanie glikemii w procesie insulinoterapii

Modelowanie glikemii w procesie insulinoterapii Dawid Kaliszewski Modelowanie glikemii w procesie insulinoterapii Promotor dr hab. inż. Zenon Gniazdowski Cel pracy Zbudowanie modelu predykcyjnego przyszłych wartości glikemii diabetyka leczonego za pomocą

Bardziej szczegółowo

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Jacek Szcześniak Jerzy Błaszczyński Roman Słowiński Poznań, 5.XI.2013r. Konspekt Wstęp Wprowadzenie Metody typu wrapper Nowe metody

Bardziej szczegółowo

Klasyfikator liniowy Wstęp Klasyfikator liniowy jest najprostszym możliwym klasyfikatorem. Zakłada on liniową separację liniowy podział dwóch klas między sobą. Przedstawia to poniższy rysunek: 5 4 3 2

Bardziej szczegółowo

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl

Bardziej szczegółowo

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Algorytmy metaheurystyczne Wykład 11. Piotr Syga Algorytmy metaheurystyczne Wykład 11 Piotr Syga 22.05.2017 Drzewa decyzyjne Idea Cel Na podstawie przesłanek (typowo zbiory rozmyte) oraz zbioru wartości w danych testowych, w oparciu o wybrane miary,

Bardziej szczegółowo

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA Powtórka Powtórki Kowiariancja cov xy lub c xy - kierunek zależności Współczynnik korelacji liniowej Pearsona r siła liniowej zależności Istotność

Bardziej szczegółowo

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna), Zależność przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna), funkcyjna stochastyczna Korelacja brak korelacji korelacja krzywoliniowa korelacja dodatnia korelacja ujemna Szereg korelacyjny numer

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 3 Detekcja twarzy autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba Cel zadania Celem zadania jest zaimplementowanie algorytmów

Bardziej szczegółowo

Uogolnione modele liniowe

Uogolnione modele liniowe Uogolnione modele liniowe Jerzy Mycielski Uniwersytet Warszawski grudzien 2013 Jerzy Mycielski (Uniwersytet Warszawski) Uogolnione modele liniowe grudzien 2013 1 / 17 (generalized linear model - glm) Zakładamy,

Bardziej szczegółowo

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności. TEST STATYSTYCZNY Testem statystycznym nazywamy regułę postępowania rozstrzygająca, przy jakich wynikach z próby hipotezę sprawdzaną H 0 należy odrzucić, a przy jakich nie ma podstaw do jej odrzucenia.

Bardziej szczegółowo

Edward Sawiłow Analiza dokładności określenia jednostkowej wartości nieruchomości metodą korygowania ceny średniej

Edward Sawiłow Analiza dokładności określenia jednostkowej wartości nieruchomości metodą korygowania ceny średniej Edward Sawiłow Analiza dokładności określenia jednostkowej wartości nieruchomości metodą korygowania ceny średniej Acta Scientiarum Polonorum. Administratio Locorum 5/1/2, 63-71 2006 .J jm rot ł? J2 %

Bardziej szczegółowo

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński Mikroekonometria 5 Mikołaj Czajkowski Wiktor Budziński Zadanie 1. Wykorzystując dane me.medexp3.dta przygotuj model regresji kwantylowej 1. Przygotuj model regresji kwantylowej w którym logarytm wydatków

Bardziej szczegółowo

Ekonometria egzamin 07/03/2018

Ekonometria egzamin 07/03/2018 imię, nazwisko, nr indeksu: Ekonometria egzamin 07/03/2018 1. Egzamin trwa 90 minut. 2. Rozwiązywanie zadań należy rozpocząć po ogłoszeniu początku egzaminu a skończyć wraz z ogłoszeniem końca egzaminu.

Bardziej szczegółowo

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska Anna Stankiewicz Izabela Słomska Wstęp- statystyka w politologii Rzadkie stosowanie narzędzi statystycznych Pisma Karla Poppera

Bardziej szczegółowo

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej

Bardziej szczegółowo

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej Paweł Cibis pawel@cibis.pl 23 lutego 2007 1 Regresja liniowa 2 wzory funkcje 3 Korelacja liniowa

Bardziej szczegółowo

Heteroscedastyczność. Zjawisko heteroscedastyczności Uogólniona Metoda Najmniejszych Kwadratów Stosowalna Metoda Najmniejszych Kwadratów

Heteroscedastyczność. Zjawisko heteroscedastyczności Uogólniona Metoda Najmniejszych Kwadratów Stosowalna Metoda Najmniejszych Kwadratów Formy heteroscedastyczności Własności estymatorów MNK wydatki konsumpcyjne 0 10000 20000 30000 40000 14.4 31786.08 dochód rozporz¹dzalny Zródlo: Obliczenia wlasne, dane BBGD 2004 Formy heteroscedastyczności

Bardziej szczegółowo

Quick Launch Manual:

Quick Launch Manual: egresja Odds atio Quick Launch Manual: regresja logistyczna i odds ratio Uniwesytet Warszawski, Matematyka 28.10.2009 Plan prezentacji egresja Odds atio 1 2 egresja egresja logistyczna 3 Odds atio 4 5

Bardziej szczegółowo