Podejście modelowe w statystyce małych obszarów i jego zastosowania w badaniach ekonomicznych mgr Małgorzata Krzciuk Zebranie Katedry Statystyki, Ekonometrii i Matematyki Uniwersytet Ekonomiczny w Katowicach 18.10.2017
Plan prezentacji Zebranie Katedry SEM, 18.10.2017 1 propozycje tematu 2 uzasadnienie wyboru tematu pracy 3 cele pracy teoretyczno-poznawcze praktyczne 4 przedmiot badań 5 metodyka badawcza 6 proponowana struktura pracy
Plan prezentacji Zebranie Katedry SEM, 18.10.2017 1 propozycje tematu 2 uzasadnienie wyboru tematu pracy 3 cele pracy teoretyczno-poznawcze praktyczne 4 przedmiot badań 5 metodyka badawcza 6 proponowana struktura pracy
Plan prezentacji Zebranie Katedry SEM, 18.10.2017 1 propozycje tematu 2 uzasadnienie wyboru tematu pracy 3 cele pracy teoretyczno-poznawcze praktyczne 4 przedmiot badań 5 metodyka badawcza 6 proponowana struktura pracy
Plan prezentacji Zebranie Katedry SEM, 18.10.2017 1 propozycje tematu 2 uzasadnienie wyboru tematu pracy 3 cele pracy teoretyczno-poznawcze praktyczne 4 przedmiot badań 5 metodyka badawcza 6 proponowana struktura pracy
Plan prezentacji Zebranie Katedry SEM, 18.10.2017 1 propozycje tematu 2 uzasadnienie wyboru tematu pracy 3 cele pracy teoretyczno-poznawcze praktyczne 4 przedmiot badań 5 metodyka badawcza 6 proponowana struktura pracy
Plan prezentacji Zebranie Katedry SEM, 18.10.2017 1 propozycje tematu 2 uzasadnienie wyboru tematu pracy 3 cele pracy teoretyczno-poznawcze praktyczne 4 przedmiot badań 5 metodyka badawcza 6 proponowana struktura pracy
Plan prezentacji Zebranie Katedry SEM, 18.10.2017 1 propozycje tematu 2 uzasadnienie wyboru tematu pracy 3 cele pracy teoretyczno-poznawcze praktyczne 4 przedmiot badań 5 metodyka badawcza 6 proponowana struktura pracy
Plan prezentacji Zebranie Katedry SEM, 18.10.2017 1 propozycje tematu 2 uzasadnienie wyboru tematu pracy 3 cele pracy teoretyczno-poznawcze praktyczne 4 przedmiot badań 5 metodyka badawcza 6 proponowana struktura pracy
Propozycje tematu Podejście modelowe w statystyce małych obszarów i jego zastosowania w badaniach ekonomicznych Wykorzystanie podejścia modelowego w statystyce małych obszarów Podejście modelowe w statystyce małych obszarów Wykorzystanie podejścia modelowego w statystyce małych obszarów w badaniach ekonomicznych Podejście modelowe w statystyce małych obszarów wraz z zastosowaniami w badaniach ekonomicznych
Propozycje tematu Podejście modelowe w statystyce małych obszarów i jego zastosowania w badaniach ekonomicznych Wykorzystanie podejścia modelowego w statystyce małych obszarów Podejście modelowe w statystyce małych obszarów Wykorzystanie podejścia modelowego w statystyce małych obszarów w badaniach ekonomicznych Podejście modelowe w statystyce małych obszarów wraz z zastosowaniami w badaniach ekonomicznych
Propozycje tematu Podejście modelowe w statystyce małych obszarów i jego zastosowania w badaniach ekonomicznych Wykorzystanie podejścia modelowego w statystyce małych obszarów Podejście modelowe w statystyce małych obszarów Wykorzystanie podejścia modelowego w statystyce małych obszarów w badaniach ekonomicznych Podejście modelowe w statystyce małych obszarów wraz z zastosowaniami w badaniach ekonomicznych
Propozycje tematu Podejście modelowe w statystyce małych obszarów i jego zastosowania w badaniach ekonomicznych Wykorzystanie podejścia modelowego w statystyce małych obszarów Podejście modelowe w statystyce małych obszarów Wykorzystanie podejścia modelowego w statystyce małych obszarów w badaniach ekonomicznych Podejście modelowe w statystyce małych obszarów wraz z zastosowaniami w badaniach ekonomicznych
Propozycje tematu Podejście modelowe w statystyce małych obszarów i jego zastosowania w badaniach ekonomicznych Wykorzystanie podejścia modelowego w statystyce małych obszarów Podejście modelowe w statystyce małych obszarów Wykorzystanie podejścia modelowego w statystyce małych obszarów w badaniach ekonomicznych Podejście modelowe w statystyce małych obszarów wraz z zastosowaniami w badaniach ekonomicznych
Uzasadnienie wyboru tematu pracy wzrastające zapotrzebowanie na analizy w przekroju lokalnym; zapotrzebowanie na metody niewymagające dużych nakładów finansowych a pozwalające na szybkie uzyskanie dokładnych oszacowań charakterystyk podpopulacji; mnogość dziedzin, w których metody statystyki małych obszarów znajdują zastosowanie;
Uzasadnienie wyboru tematu pracy (1) wzrastające zapotrzebowanie na analizy w przekroju lokalnym rosnące znaczenie regionów oraz polityki regionalnej rozwój programów regionalnych, uczestnictwo w programach Unii Europejskiej, rozwój samorządności regionalnej, wzrost znaczenia narodowych baz danych (np. PESEL, POLTAX, POMOST, ZUS).
Uzasadnienie wyboru tematu pracy (2) zapotrzebowanie na metody niewymagające dużych nakładów finansowych a pozwalające na szybkie uzyskanie dokładnych oszacowań charakterystyk podpopulacji metody statystyki małych obszarów: umożliwiają estymację lub predykcję w warunkach, w których klasyczne metody estymacji okazują się być nieefektywne lub zbyt kosztowne, pozwalają na estymację nawet w przypadku prób o bardzo małej liczebności, a nawet gdy liczebność próby w podpopulacji jest zerowa.
Uzasadnienie wyboru tematu pracy (3) mnogość dziedzin, w których metody statystyki małych obszarów już znalazły zastosowanie m.in. analizy rynkowe, np. prognoza sprzedaży w przedsiębiorstwie (Domański, Pruska 1997), szacowanie średnich kosztów osiągnięcia założonego standardu mieszkania (Longford 2005); polityka regionalna, np. ocena rozwoju ekonomicznego regionów (Dehnel 1997, 2003); analizy rynku pracy, np. szacowanie rozmiarów bezrobocia oraz estymacja liczby bezrobotnych i pracujących (Gołata 2004); badania dotyczące ubóstwa, np. ocena liczby dzieci ubogich na poziomie okręgów szkolnych oraz liczby osób ubogich w wieku 65 lat i więcej na poziomie stanów i hrabstw w USA (Datta 2009); ekonomika rolnictwa, np. predykcja obszaru upraw z wykorzystaniem informacji dodatkowych pochodzących ze zdjęć satelitarnych (Battese, Harter, Fuller 1988); ekonomiczne aspekty polityki zdrowotnej, np. szacowanie liczby osób niepełnosprawnych, wykorzystania usług medycznych (programy federalne w USA).
Cele pracy Zebranie Katedry SEM, 18.10.2017 teoretyczno-poznawcze zaproponowanie metod predykcji charakterystyk podpopulacji i analiza własności predyktorów przy uwzględnieniu różnych zależności korelacyjnych pomiędzy zmiennymi losowymi, i gdy macierz wariancji-kowariancji wektora zmiennych losowych nie jest blokowo-diagonalna;
Cele pracy Zebranie Katedry SEM, 18.10.2017 praktyczne zaadaptowanie metod statystyki małych obszarów - podejścia modelowego na potrzeby danych o charakterze ekonomicznym, w tym uzyskiwanych w badaniach wielookresowych; przedstawienie i zastosowanie autorskich propozycji modeli nadpopulacji należących do klasy liniowych modeli mieszanych; zaprezentowanie i wykorzystanie autorskich propozycji metod weryfikacji modeli; przedstawienie i zastosowanie metod predykcji i oceny dokładności predykcji charakterystyk podpopulacji dla zaproponowanej klasy modeli; wykorzystanie zaproponowanych metod z użyciem danych rzeczywistych, w tym badania symulacyjne prowadzone metodą Monte Carlo.
Cele pracy Zebranie Katedry SEM, 18.10.2017 praktyczne zaadaptowanie metod statystyki małych obszarów - podejścia modelowego na potrzeby danych o charakterze ekonomicznym, w tym uzyskiwanych w badaniach wielookresowych; przedstawienie i zastosowanie autorskich propozycji modeli nadpopulacji należących do klasy liniowych modeli mieszanych; zaprezentowanie i wykorzystanie autorskich propozycji metod weryfikacji modeli; przedstawienie i zastosowanie metod predykcji i oceny dokładności predykcji charakterystyk podpopulacji dla zaproponowanej klasy modeli; wykorzystanie zaproponowanych metod z użyciem danych rzeczywistych, w tym badania symulacyjne prowadzone metodą Monte Carlo.
Cele pracy Zebranie Katedry SEM, 18.10.2017 praktyczne zaadaptowanie metod statystyki małych obszarów - podejścia modelowego na potrzeby danych o charakterze ekonomicznym, w tym uzyskiwanych w badaniach wielookresowych; przedstawienie i zastosowanie autorskich propozycji modeli nadpopulacji należących do klasy liniowych modeli mieszanych; zaprezentowanie i wykorzystanie autorskich propozycji metod weryfikacji modeli; przedstawienie i zastosowanie metod predykcji i oceny dokładności predykcji charakterystyk podpopulacji dla zaproponowanej klasy modeli; wykorzystanie zaproponowanych metod z użyciem danych rzeczywistych, w tym badania symulacyjne prowadzone metodą Monte Carlo.
Cele pracy Zebranie Katedry SEM, 18.10.2017 praktyczne zaadaptowanie metod statystyki małych obszarów - podejścia modelowego na potrzeby danych o charakterze ekonomicznym, w tym uzyskiwanych w badaniach wielookresowych; przedstawienie i zastosowanie autorskich propozycji modeli nadpopulacji należących do klasy liniowych modeli mieszanych; zaprezentowanie i wykorzystanie autorskich propozycji metod weryfikacji modeli; przedstawienie i zastosowanie metod predykcji i oceny dokładności predykcji charakterystyk podpopulacji dla zaproponowanej klasy modeli; wykorzystanie zaproponowanych metod z użyciem danych rzeczywistych, w tym badania symulacyjne prowadzone metodą Monte Carlo.
Cele pracy Zebranie Katedry SEM, 18.10.2017 praktyczne zaadaptowanie metod statystyki małych obszarów - podejścia modelowego na potrzeby danych o charakterze ekonomicznym, w tym uzyskiwanych w badaniach wielookresowych; przedstawienie i zastosowanie autorskich propozycji modeli nadpopulacji należących do klasy liniowych modeli mieszanych; zaprezentowanie i wykorzystanie autorskich propozycji metod weryfikacji modeli; przedstawienie i zastosowanie metod predykcji i oceny dokładności predykcji charakterystyk podpopulacji dla zaproponowanej klasy modeli; wykorzystanie zaproponowanych metod z użyciem danych rzeczywistych, w tym badania symulacyjne prowadzone metodą Monte Carlo.
Przedmiot badań Zebranie Katedry SEM, 18.10.2017 Statystyka małych obszarów pozwala na wnioskowanie o analizowanych cechach w wyróżnionych podpopulacjach z wykorzystaniem informacji pochodzących z badań reprezentacyjnych, dotyczących całej populacji nawet w przypadku prób o bardzo małej liczebności. Przedmiotem badań będzie wykorzystanie jednego z głównych, obok randomizacyjnego oraz mieszanego, podejść w metodzie reprezentacyjnej podejścia modelowego, w statystyce małych obszarów na potrzeby danych o charakterze ekonomicznym. Podejście to pozwala na wnioskowanie nie tylko na podstawie prób losowych. W analizach zostaną uwzględnione zarówno dane pochodzące z badań jedno- jak i wielookresowych. W ramach tego problemu rozważane będzie zagadnienie predykcji charakterystyk podpopulacji i analizy własności predyktorów w przypadku występowania różnych zależności korelacyjnych pomiędzy zmiennymi losowymi. W rozważaniach zostanie uwzględniona również kwestia wykorzystania informacji z poprzednich okresów.
Przedmiot badań Zebranie Katedry SEM, 18.10.2017 Zostaną przedstawione autorskie propozycje modeli nadpopulacji oraz metod ich weryfikacji. Dla zaproponowanych modeli zostaną zaprezentowane wraz z przykładami i analizami symulacyjnymi, metody predykcji i oceny dokładności predykcji charakterystyk podpopulacji.
Przedmiot badań Zebranie Katedry SEM, 18.10.2017 Planowane jest wykorzystanie danych pochodzących z: Badania Budżetów Gospodarstw Domowych, pozwalających na analizę warunków życia ludności a także ocenę wpływu określonych czynników na kształtowanie się sytuacji bytowej podstawowych grup gospodarstw domowych, jak również badanie ubóstwa; Narodowego Spisu Powszechnego Ludności i Mieszkań 2011 i Powszechnego Spisu Rolnego 2010, zapewniających bazę informacyjną dotyczącą gospodarstw domowych i gospodarstw rolnych, m.in. w zakresie stanu i struktury demograficzno-społecznej oraz wybranych aspektów charakterystyki ekonomicznej, na poziomie ogólnopolskim i w przekrojach regionalnych; Banku Danych Lokalnych będącego największym w Polsce uporządkowanym zbiorem informacji dotyczących m.in. sytuacji społeczno-gospodarczej, demograficznej, stanu środowiska, umożliwiającym prowadzenie wielowymiarowych analiz statystycznych w układach regionalnych i lokalnych; US Census Bureau będącego rządową agencją (Departament Handlu) odpowiedzialną za spis ludności USA. Baza US Census Bureau zawiera m.in. dane dotyczące gospodarstw domowych, zasobów siły roboczej, zarobków, gospodarstw rolnych, banków, wydatków rządu federalnego.
Metodyka badawcza: metody statystyki matematycznej; metody wielowymiarowej analizy statystycznej; techniki symulacji komputerowej.
Proponowana struktura pracy Wstęp Rozdział I. Podstawy teoretyczne statystyki małych obszarów 1.1. Rozwój metod statystyki małych obszarów - główne podejścia 1.2. Podejście modelowe - podstawowe definicje i oznaczenia 1.3. Specyfikacja, estymacja i weryfikacja modelu nadpopulacji 1.4. Zastosowania metod statystyki małych obszarów Rozdział II. Badania jedno- i wielookresowe o charakterze ekonomicznym 2.1. Badania prowadzone w jednym okresie 2.2. Istota badań wielookresowych 2.3. Rodzaje badań wielookresowych 2.4. Zalety oraz wady badań wielookresowych
Proponowana struktura pracy Wstęp Rozdział I. Podstawy teoretyczne statystyki małych obszarów 1.1. Rozwój metod statystyki małych obszarów - główne podejścia 1.2. Podejście modelowe - podstawowe definicje i oznaczenia 1.3. Specyfikacja, estymacja i weryfikacja modelu nadpopulacji 1.4. Zastosowania metod statystyki małych obszarów Rozdział II. Badania jedno- i wielookresowe o charakterze ekonomicznym 2.1. Badania prowadzone w jednym okresie 2.2. Istota badań wielookresowych 2.3. Rodzaje badań wielookresowych 2.4. Zalety oraz wady badań wielookresowych
Proponowana struktura pracy Wstęp Rozdział I. Podstawy teoretyczne statystyki małych obszarów 1.1. Rozwój metod statystyki małych obszarów - główne podejścia 1.2. Podejście modelowe - podstawowe definicje i oznaczenia 1.3. Specyfikacja, estymacja i weryfikacja modelu nadpopulacji 1.4. Zastosowania metod statystyki małych obszarów Rozdział II. Badania jedno- i wielookresowe o charakterze ekonomicznym 2.1. Badania prowadzone w jednym okresie 2.2. Istota badań wielookresowych 2.3. Rodzaje badań wielookresowych 2.4. Zalety oraz wady badań wielookresowych
Proponowana struktura pracy Rozdział III. Empiryczne najlepsze liniowe predyktory 3.1. Badania prowadzone w jednym okresie 3.2. Badania wielookresowe 3.3. Przykłady z wykorzystaniem danych empirycznych 3.4. Badanie symulacyjne Rozdział IV. Empiryczne najlepsze predyktory 4.1. Badania jednookresowe 4.2. Badania wielookresowe 4.3. Przykłady z wykorzystaniem danych empirycznych 4.4. Badanie symulacyjne Podsumowanie
Proponowana struktura pracy Rozdział III. Empiryczne najlepsze liniowe predyktory 3.1. Badania prowadzone w jednym okresie 3.2. Badania wielookresowe 3.3. Przykłady z wykorzystaniem danych empirycznych 3.4. Badanie symulacyjne Rozdział IV. Empiryczne najlepsze predyktory 4.1. Badania jednookresowe 4.2. Badania wielookresowe 4.3. Przykłady z wykorzystaniem danych empirycznych 4.4. Badanie symulacyjne Podsumowanie
Proponowana struktura pracy Rozdział III. Empiryczne najlepsze liniowe predyktory 3.1. Badania prowadzone w jednym okresie 3.2. Badania wielookresowe 3.3. Przykłady z wykorzystaniem danych empirycznych 3.4. Badanie symulacyjne Rozdział IV. Empiryczne najlepsze predyktory 4.1. Badania jednookresowe 4.2. Badania wielookresowe 4.3. Przykłady z wykorzystaniem danych empirycznych 4.4. Badanie symulacyjne Podsumowanie
Wykaz publikacji Zebranie Katedry SEM, 18.10.2017 Publikacje recenzowane M. K. Krzciuk, T. Stachurski, T. Żądło (2017), On empirical best predictors of poverty measures based on Polish household budget survey, Studia i Materiały Miscellanea Oeconomicae, s. 33-44 (MNiSW lista B). M. K. Krzciuk, M. Furmankiewicz, P. Ziuziański (2016), Zastosowanie metody reprezentacyjnej w analizie danych ankietowych. Studium przypadku monitorowania epidemii przez internautów. Zeszyty Naukowe Politechniki Śląskiej. Organizacja i Zarządzanie, Gliwice, 119-134 (MNiSW lista B). M. K. Krzciuk (2015), On the simulation study of the properties of MSE estimators in small area statistics. Conference Proceedings. 33rd International Conference Mathematical Methods in Economics 2015. Plzeň, 413-418 (Web of Science ISSHP i ISSHP/ISI Proceedings). M. K. Krzciuk (2014), On the design accuracy of Royall s predictor of domain total for longitudinal data. Conference Proceedings. 32 International Conference Mathematical Methods in Economics 2014. Olomouc, 512-517 (Web of Science ISSHP i ISSHP/ISI Proceedings). M. K. Krzciuk, T. Żądło (2014a), On some tests of fixed effects for linear mixed models. Studia Ekonomiczne, 189, 49-57 (MNiSW lista B).
Wykaz publikacji Zebranie Katedry SEM, 18.10.2017 M. K. Krzciuk, T. Żądło (2014b), On some tests of variance components for linear mixed models. Studia Ekonomiczne. Zeszyty Naukowe Uniwersytetu Ekonomicznego w Katowicach, 189, 77-85 (MNiSW lista B). M. Krzciuk, T. Żądło (2013), O testach istotności parametrów liniowych modeli mieszanych w badaniach wielookresowych w pakiecie R. w: Z. Zieliński (red.), Rola informatyki w naukach ekonomicznych i społecznych. Innowacje i implikacje interdyscyplinarne, Zeszyty Naukowe Wyższej Szkoły Handlowej w Kielcach, Wydawnictwo WSH Kielce, 2/2013, s. 197-213 (MNiSW lista B). M. Krzciuk, J.L. Wywiał, M. Mierzwa (2013), Symulacyjne badanie szybkości zbieżności rozkładu statystyk do rozkładu normalnego, w: Śląski Przegląd Statystyczny, 11(17)/2013, s. 201-208 (MNiSW lista B). M. Krzciuk, P. Ziuziański (2012), O teście niezależności trzech zmiennych na pewnym przykładzie empirycznym, w: Z. Zieliński (red.), Rola informatyki w naukach ekonomicznych i społecznych. Innowacje i implikacje interdyscyplinarne, Zeszyty Naukowe Wyższej Szkoły Handlowej w Kielcach, Tom 2, Wydawnictwo WSH Kielce, s. 179-191 (MNiSW lista B).
Wykaz publikacji Zebranie Katedry SEM, 18.10.2017 M. Krzciuk (2011), Symulacyjna analiza szeregu czasowego połączenie możliwości IBM SPSS i R, w: Z. Zieliński (red.), Rola informatyki w naukach ekonomicznych i społecznych. Innowacje i implikacje interdyscyplinarne, Zeszyty Naukowe Wyższej Szkoły Handlowej w Kielcach, Wydawnictwo WSH Kielce, 2011, s. 183-190 (MNiSW lista B). P. Domański, M. Krzciuk, M. Miłek, P. Ziuziański (2011), Badania ankietowe w oparciu o próby nielosowe z wykorzystaniem programu SPSS, w: Z. Zieliński (red.), Rola informatyki w naukach ekonomicznych i społecznych. Innowacje i implikacje interdyscyplinarne, Zeszyty Naukowe Wyższej Szkoły Handlowej w Kielcach, Wydawnictwo WSH Kielce, s. 191-203 (MNiSW lista B). W druku M. Krzciuk (2016), On the simulation study of jackknife and bootstrap MSE estimators of some domain mean predictor for Fay-Herriot model. Folia Oeconomica (MNiSW lista B).
O badaniu symulacyjnym własności estymatorów MSE w statystyce małych obszarów w przypadku występowania heteroscedastyczności efektów losowych
Cel: Zebranie Katedry SEM, 18.10.2017 Statystyka małych obszarów Symulacyjne zbadanie własności wybranych estymatorów MSE średniej w domenie, przy uwzględnieniu: - różnej liczby domen, - błędnej specyfikacji modelu - heteroscedastyczności efektów losowych. - błędnej specyfikacji modelu - korelacja efektów losowych
Cel: Zebranie Katedry SEM, 18.10.2017 Statystyka małych obszarów Symulacyjne zbadanie własności wybranych estymatorów MSE średniej w domenie, przy uwzględnieniu: - różnej liczby domen, - błędnej specyfikacji modelu - heteroscedastyczności efektów losowych. - błędnej specyfikacji modelu - korelacja efektów losowych
Statystyka małych obszarów - podstawowe pojęcia - estymator/predyktor bezpośredni - estymator/predyktor wykorzystujący informacje o zmiennej badanej tylko z domeny podlegającej analizie; - estymator/predyktor pośredni - estymator/predyktor wykorzystujący informacje o zmiennej badanej z i spoza domeny podlegającej analizie (por. Wawrowski 2012: 250-251; Żądło 2008: 42); - mały obszar - obszar, którego liczebność w próbie nie jest wystarczająca, by za pomocą metod bezpośrednich ocenić charakterystyki w domenach z odpowiednią dokładnością (Rao 2003: 1).
Statystyka małych obszarów - przykłady zastosowań - ocena liczby dzieci ubogich na poziomie okręgów szkolnych oraz liczby osób ubogich w wieku 65 lat i więcej na poziomie stanów i hrabstw w USA (Datta 2009); - ocena rozwoju ekonomicznego regionów, estymacja wskaźników rozwoju gospodarczego regionów (Dehnel 1997, 2003); - szacowanie rozmiarów bezrobocia oraz estymacja liczby bezrobotnych i pracujących (Gołata 2004); - prognoza sprzedaży w przedsiębiorstwie (Domański, Pruska 1997); - szacowanie średnich kosztów osiągnięcia założonego standardu mieszkania (Longford 2005).
Ogólny liniowy model mieszany Ogólny liniowy model mieszany (cf. Jiang 2007: 1-2; Rao, Molina 2015: 98): Y = Xβ + Zv + ɛ (1) gdzie: - Y losowy wektor wartości zmiennej zależnej; - X, Z znane macierze zmiennych dodatkowych; - β wektor nieznanych parametrów. Ponadto, efekty losowe (v) i składniki losowe (ɛ) o macierzach wariancji-kowariancji odpowiednio G(δ) i R(δ) są niezależne.
Model Faya-Herriota (1979) Rozważany model, szczególny przypadek (1), ma postać (cf. Prasad, Rao 1990, Lahiri 2003: 206): ˆθ d = θ d + e d (2) gdzie: θ d = x T d β + v d (3) - ˆθ d bezpośredni estymator θ w d-tej domenie (d = 1,..., D); - x d - wektor p wartości zmiennej dodatkowej w d-tej domenie; - β - wektor p nieznanych parametrów; - v d i e d są niezależne dla d = 1,...,D; - v d N(0, A) i e d N(0, W d ) (zakładamy, że W d są znane). Ponadto: G = AI D D, R = diag 1<d<D (W d ).
Najlepszy liniowy nieobciążony predyktor (BLUP) Empiryczny naljepszy liniowy nieobciążony predyktor (EBLUP) Zgodnie z twierdzeniem Henderson a (1950) i (1), BLUP dla liniowej kombinacji ma postać: gdzie: i ˆβ = θ = l T β + m T v ˆθ BLUP = l T ˆβ + m Tˆv (4) ( X T V 1 X) 1 X T V 1 Y (5) ˆv = GZV 1 (Y Xβ) (6) Macierz kowariancji dla wektora Y dana jest wzorem (Rao 2003: 96-97): V(δ) = ZG(δ)Z T + R(δ) (7)
BLUP i EBLUP dla modelu Faya-Herriota Dla (2) i δ = A BLUP ma postać (Rao, Molina, 2015: 101): ˆθ d BLUP = ˆθ d B d (A) (ˆθd xd T ˆβ ) (8) gdzie: B d (A) = W d (A + W d ) 1 (9) oraz ˆβ = ( D d=1 ) 1 ( B d (A) x d xd T D W d d=1 ) B d (A) x d ˆθ d W d (10)
Błąd średniokwadratowy BLUP i EBLUP - model Faya-Herriota MSE dla (8) jest dane wzorem (Rao, Molina, 2015: 101) : gdzie: MSE (ˆθBLUP ) ξ d = g1d (A) + g 2d (A) (11) g 1d (A) = AW d (A + W d ) 1, (12) ( D ) 1 g 2d (A) = Wd 2 (A + W d ) 2 xd T (A + W d ) 1 x uxu T x d (13) Ogólna postać błędu średniokwadratowego EBLUP dla (8) (Datta, Lahiri 2000: 618): d=1 MSE (ˆθEBLUP ) ξ d = g1d (A) + g 2d (A) + g 3d (A) + o ( D 1) (14) gdzie g 3d (A) dla A oszacowanego metodą REML dane jest wzorem: g 3d (A) = 2W 2 d(a + W d ) 3 ( D d=1 (A + W d ) 2 ) 1 (15)
Błąd średniokwadratowy BLUP i EBLUP - model Faya-Herriota MSE dla (8) jest dane wzorem (Rao, Molina, 2015: 101) : gdzie: MSE (ˆθBLUP ) ξ d = g1d (A) + g 2d (A) (11) g 1d (A) = AW d (A + W d ) 1, (12) ( D ) 1 g 2d (A) = Wd 2 (A + W d ) 2 xd T (A + W d ) 1 x uxu T x d (13) Ogólna postać błędu średniokwadratowego EBLUP dla (8) (Datta, Lahiri 2000: 618): d=1 MSE (ˆθEBLUP ) ξ d = g1d (A) + g 2d (A) + g 3d (A) + o ( D 1) (14) gdzie g 3d (A) dla A oszacowanego metodą REML dane jest wzorem: g 3d (A) = 2W 2 d(a + W d ) 3 ( D d=1 (A + W d ) 2 ) 1 (15)
Klasyczne estymatory MSE Estymator naiwny (Kackar, Harville 1984: 854-855): MŜE N(ˆθ d EBLUP ) = g 1d (Â) + g2d(â) (16) E ξ (MŜE N(ˆθ EBLUP (Â))) MSE ξ (ˆθ EBLUP (Â)) = O(D 1 ) (17) Estymator zaproponowany przez Datta, Lahiri (2000): MŜE DL(ˆθ EBLUP d ) = g 1d (Â) + g 2d (Â) + 2g 3d (Â) (18) E ξ (MŜE DL(ˆθ EBLUP (Â))) MSE ξ (ˆθ EBLUP (Â)) = o(d 1 ) (19)
Estymator MSE bazujący na metodzie jackknife (1) Estymator rozważany przez Jiang, Lahiri, Wan (2002): MŜE jack (ˆθ EBLUP ) = g 1 (ˆδ) D 1 D gdzie: D 1 D D (g 1 (ˆδ d ) g 1 (ˆδ)) + (20) d=1 D (ˆθ EBLUP (ˆδ d ) ˆθ EBLUP (ˆδ)) 2 d=1 - g 1 (ˆδ d ) dane jest wzorem (12) dla ˆδ d ; - ˆδ d wyznaczane jest dla s s d. Asymptotycznie nieobciążony: E ξ (MŜE jack (ˆθ EBLUP )) MSE ξ (ˆθ EBLUP ) = o(d 1 ɛ ) (21) (0 < ɛ < 0.5)
Estymator MSE bazujący na metodzie jackknife (2) Ważona metoda jackknife w estymacji MSE (Chen, Lahiri, (2002, 2003)): MŜE wjack (ˆθ EBLUP ) = g 1 (ˆδ) + g 2 (ˆδ) + (22) D w d (g 1 (ˆδ d ) + g 2 (ˆδ d ) (g 1 (ˆδ) + g 2 (ˆδ))) + d=1 D d=1 w d (ˆθ EBLUP (ˆδ d ) ˆθ EBLUP (ˆδ)) 2. a) w d = D 1 D (23) D b) w d = xd T ( x u xu T ) 1 x d (24) u=1
Parametryczna metoda bootstrap w estymacji MSE - model Rozważane estymatory bazują na generowaniu wektora Y w oparciu o model bootstrapowy (cf. Chatterjee, Lahiri, Li 2008, 1229-1230): gdzie: - v N(0, G(ˆδ)); - e N(0, R(ˆδ)); Y = Xˆβ + Zv + e (25) - ˆδ jest estymatorem δ uzyskanym metodą REML lub ML; - ˆβ jest estymatorem β uzyskanym metodą najmniejszych kwadratów.
Parametryczna metoda bootstrap w estymacji MSE - estymator (1) Estymator prezentowany przez Gonzales-Manteiga, et. al. (2008): MSE boot (ˆθ EBLUP ) = E (ˆθ EBLUP (ˆβ(ˆδ ), ˆδ ) θ ) 2 = (26) B 1 B b=1 (ˆθ EBLUP (ˆβ(ˆδ (b) ), ˆδ (b) ) θ (b) ) 2 - ˆδ (b) dana wzorem dla δ gdzie Y jest zastępowane przez Y ; - ˆδ i ˆβ estymatory wyznaczane z użyciem metody REML; - θ (b) wartość θ uzyskana w b-tej realizacji modelu (25); - E (.) wartość oczekiwane w rozkładzie bootstrapowym. W badaniu symulacyjnym: rozważamy także estymator β uzyskany metodą najmniejszych kwadratów zgodnie z Chatterjee, Lahiri, Li (2008).
Parametryczna metoda bootstrap w estymacji MSE - estymator (2) Estymator rozważany przez Butar, Lahiri (2003): MSE boot BL (ˆθ EBLUP ) = g 1 (ˆδ) + g 2 (ˆδ) + (27) E (g 1 (ˆδ ) + g 2 (ˆδ ) (g 1 (ˆδ) + g 2 (ˆδ))) + E (ˆθ EBLUP (ˆβ(ˆδ ), ˆδ ) ˆθ EBLUP (ˆδ)) 2 gdzie g 1 (ˆδ ) i g 2 (ˆδ ) dane są wzorami (12) i (13) gdzie ˆδ jest zastępowane przez ˆδ. Asymptotycznie nieobciążony: E ξ (MŜE boot BL (ˆθ EBLUP )) MSE ξ (ˆθ EBLUP ) = o(d 1 ) (28)
Badanie symulacyjne założenia względne obciążenia estymatorów MSE względne RMSE estymatorów MSE podsumowanie
Badanie symulacyjne - założenia (1) Dane: rzeczywiste dane z Banku Danych Lokalnych (GUS); elementy populacji powiaty w Polsce (NUTS 4), w roku 2013 (N = 379); podział na D=16 podpopulacji zgodnie z przynależnością do województw (NUTS 2). Próba: próba warstwowa (losowanie proste bez zwracania z warstw); założona przybliżona alokacja proporcjonalna (ok. 15% elementów z każdej warstwy). Model (2): ˆθ d przeciętne wydatki na ochronę zdrowia w domenie; zmienna dodatkowa - przeciętna liczba ludności w powiatach w domenie (w tys. osób); model uwzględnia wyraz wolny.
Badanie symulacyjne - założenia (1) Dane: rzeczywiste dane z Banku Danych Lokalnych (GUS); elementy populacji powiaty w Polsce (NUTS 4), w roku 2013 (N = 379); podział na D=16 podpopulacji zgodnie z przynależnością do województw (NUTS 2). Próba: próba warstwowa (losowanie proste bez zwracania z warstw); założona przybliżona alokacja proporcjonalna (ok. 15% elementów z każdej warstwy). Model (2): ˆθ d przeciętne wydatki na ochronę zdrowia w domenie; zmienna dodatkowa - przeciętna liczba ludności w powiatach w domenie (w tys. osób); model uwzględnia wyraz wolny.
Badanie symulacyjne - założenia (1) Dane: rzeczywiste dane z Banku Danych Lokalnych (GUS); elementy populacji powiaty w Polsce (NUTS 4), w roku 2013 (N = 379); podział na D=16 podpopulacji zgodnie z przynależnością do województw (NUTS 2). Próba: próba warstwowa (losowanie proste bez zwracania z warstw); założona przybliżona alokacja proporcjonalna (ok. 15% elementów z każdej warstwy). Model (2): ˆθ d przeciętne wydatki na ochronę zdrowia w domenie; zmienna dodatkowa - przeciętna liczba ludności w powiatach w domenie (w tys. osób); model uwzględnia wyraz wolny.
Badanie symulacyjne - założenia (2) W badaniu symulacyjnym: wartości ˆθ d generowane były zgodnie z (2) gdzie β wyznaczane było w oparciu o (5) dla całego zbioru danych; wartości e d generowane były zgodnie z rozkładem normalnym o wartości oczekiwanej równej 0 i wariancji W d ; wartości v d generowane były zgodnie z rozkładem normalnym; parametr A wyznaczany był z użyciem metody REML na podstawie danych rzeczywistych; rozważano liczbę domen D = 16 i D = 32; rozważana błędna specyfikacja modelu - heteroscedastyczność efektów losowych przyjęta liczba iteracji w badaniu symulacyjnym Monte Carlo równa 5.000 i liczba iteracji dla metody bootstrap 200; badanie symulacyjne przygotowane zostało z wykorzystaniem programu R (R Development Core Team (2016)).
Badanie symulacyjne - założenia (2) W badaniu symulacyjnym: wartości ˆθ d generowane były zgodnie z (2) gdzie β wyznaczane było w oparciu o (5) dla całego zbioru danych; wartości e d generowane były zgodnie z rozkładem normalnym o wartości oczekiwanej równej 0 i wariancji W d ; wartości v d generowane były zgodnie z rozkładem normalnym; parametr A wyznaczany był z użyciem metody REML na podstawie danych rzeczywistych; rozważano liczbę domen D = 16 i D = 32; rozważana błędna specyfikacja modelu - heteroscedastyczność efektów losowych przyjęta liczba iteracji w badaniu symulacyjnym Monte Carlo równa 5.000 i liczba iteracji dla metody bootstrap 200; badanie symulacyjne przygotowane zostało z wykorzystaniem programu R (R Development Core Team (2016)).
Badanie symulacyjne - założenia (2) W badaniu symulacyjnym: wartości ˆθ d generowane były zgodnie z (2) gdzie β wyznaczane było w oparciu o (5) dla całego zbioru danych; wartości e d generowane były zgodnie z rozkładem normalnym o wartości oczekiwanej równej 0 i wariancji W d ; wartości v d generowane były zgodnie z rozkładem normalnym; parametr A wyznaczany był z użyciem metody REML na podstawie danych rzeczywistych; rozważano liczbę domen D = 16 i D = 32; rozważana błędna specyfikacja modelu - heteroscedastyczność efektów losowych przyjęta liczba iteracji w badaniu symulacyjnym Monte Carlo równa 5.000 i liczba iteracji dla metody bootstrap 200; badanie symulacyjne przygotowane zostało z wykorzystaniem programu R (R Development Core Team (2016)).
Badanie symulacyjne - założenia Heteroscedastyczność efektów losowych (1) a) brak heteroscedastyczności b) σ 2 vd = σ 2 vw r (29) gdzie: w r {1.15, 1.1, 1.05, 0.95, 0.9, 0.85} (r=1,...,6), c) σ 2 vd = σ 2 vw r (30) gdzie: w r {1.25, 1.15, 1.05, 0.95, 0.85, 0.75} (r=1,...,6),
Zebranie Katedry SEM, 18.10.2017 Rysunek 1. Podział Polski zgodnie z nomenklaturą NTS na poziomie 1 i 2. Źródło: GUS
Badanie symulacyjne - założenia Heteroscedastyczność efektów losowych (2) d) σ 2 vd = σ 2 v x d (31) e) σ 2 vd = σ 2 v xd (32)
Badanie symulacyjne - względne obciążenie estymatorów MSE Rysunek 2. Wartości względnego obciążenia estymatorów MSE w % Źródło: Opracowanie własne
Badanie symulacyjne - względne RMSE estymatorów MSE Rysunek 3. Wartości względnego RMSE estymatorów w % Źródło: Opracowanie własne
Badanie symulacyjne - założenia Heteroscedastyczność efektów losowych (3) f) σ 2 vd = σ 2 vw r (33) gdzie: w r {1.95, 1.55, 1.15, 0.85, 0.45, 0.05} (r=1,...,6), g) σ 2 vd = σ 2 vw r (34) gdzie: w r {7.3, 0.1, 0.1, 0.1, 0.1, 0.1} (r=1,...,6),
Badanie symulacyjne - względne obciążenie i względne RMSE estymatorów MSE Rysunek 4. Wartości względnego obciążenia estymatorów MSE w % Źródło: Opracowanie własne
Badanie symulacyjne - względne obciążenie i względne RMSE estymatorów MSE Rysunek 5. Wartości względnego RMSE estymatorów w % Źródło: Opracowanie własne
Wnioski - heteroscedastyczność Wyniki symulacji wskazują, że dla rozważanych danych rzeczywistych i modelu Faya-Herriota wartości względnego obciążenia i względnego RMSE estymatorów MSE maleją wraz ze wzrostem liczby domen. Uzyskane w badaniu symulacyjnym rezultaty sugerują, iż rozważane estymatory są odporne na analizowane rodzaje błędnej specyfikacji modelu, wynikające z heteroscedastyczności efektów losowych. Wyniki analiz wskazują na dobre własności estymatorów rozważanych w Datta, Lahiri (2000) i Butar, Lahiri (2003) w przypadku obu rozważanych liczb domen oraz estymatora naiwnego w przypadku odpowiednio dużej liczby domen.
Wnioski - heteroscedastyczność Wyniki symulacji wskazują, że dla rozważanych danych rzeczywistych i modelu Faya-Herriota wartości względnego obciążenia i względnego RMSE estymatorów MSE maleją wraz ze wzrostem liczby domen. Uzyskane w badaniu symulacyjnym rezultaty sugerują, iż rozważane estymatory są odporne na analizowane rodzaje błędnej specyfikacji modelu, wynikające z heteroscedastyczności efektów losowych. Wyniki analiz wskazują na dobre własności estymatorów rozważanych w Datta, Lahiri (2000) i Butar, Lahiri (2003) w przypadku obu rozważanych liczb domen oraz estymatora naiwnego w przypadku odpowiednio dużej liczby domen.
Wnioski - heteroscedastyczność Wyniki symulacji wskazują, że dla rozważanych danych rzeczywistych i modelu Faya-Herriota wartości względnego obciążenia i względnego RMSE estymatorów MSE maleją wraz ze wzrostem liczby domen. Uzyskane w badaniu symulacyjnym rezultaty sugerują, iż rozważane estymatory są odporne na analizowane rodzaje błędnej specyfikacji modelu, wynikające z heteroscedastyczności efektów losowych. Wyniki analiz wskazują na dobre własności estymatorów rozważanych w Datta, Lahiri (2000) i Butar, Lahiri (2003) w przypadku obu rozważanych liczb domen oraz estymatora naiwnego w przypadku odpowiednio dużej liczby domen.
Wyniki symulacji - względne obciążenie estymatorów MSE (korelacja) Rysunek 6. Wartości względnego obciążenia estymatorów MSE w % Źródło: Opracowanie własne
Wyniki symulacji - względne RMSE estymatorów MSE (korelacja) Rysunek 7. Wartości względnego RMSE estymatorów MSE w % Źródło: Opracowanie własne
Wnioski - korelacja Wyniki symulacji wskazują, że dla rozważanych danych rzeczywistych i modelu Faya-Herriota wartości względnego obciążenia i względnego RMSE estymatorów MSE maleją wraz ze wzrostem liczby domen. Uzyskane w badaniu symulacyjnym rezultaty sugerują, iż rozważane estymatory są odporne na analizowane rodzaje błędnej specyfikacji modelu, wynikające z korelacj efektów losowych. Wyniki analiz wskazują na dobre własności bardzo prostego estymatora rozważanego przez Gonzalez-Manteiga et al. (2008). Otrzymano wartości względnego obciążenia bliskie 0 nawet w przypadku małej liczby domen i błędnej specyfikacji modelu.
Bibliografia Zebranie Katedry SEM, 18.10.2017 Butar F.B., Lahiri P. (2003), On Measures of Uncertainty of Empirical Bayes Small-Area Estimators, Journal of Statistical Planning and Inference, vol. 112, p. 635 76. Chatterjee S., Lahiri P., Li H. (2008), Parametric Bootstrap Approximation to the Distribution of EBLUP and Related Prediction Intervals in Linear Mixed Models, The Annals of Statistics, vol. 36, no. 3, p. 1221-1245. Chen S., Lahiri P. (2002), A Weighted Jackknife MSPE Estimator in Small-Area Estimation, Proceeding of the Section on Survey Research Methods, American Statistical Association, p. 473 477. Chen S., Lahiri P. (2003), A Comparison of Different MSPE Estimators of EBLUP for the Fay-Herriot Model, Proceeding of the Section on Survey Research Methods, American Statistical Association, p. 905 911. Datta G.S. (2009), Model-Based Approach to Small Area Estimation [w:] D. Pffefermann, C.R. Rao (eds.), Handbook of Statistics, vol. 29.B, Sample Surveys: Inference and Analysis, Elsevier, New Your, s. 251-288. Datta, G., Lahiri, P. (2000). A unified measure of uncertainty of estimated best linear unbiased predictors in small area estimation problems, Statistica Sinica, vol. 10,p. 613 627. Dehnel G. (1997), Estymacja wskaźników rozwoju gospodarczego regionów za pomocą statystyki małych obszarów, w: Paradysz J. (red.) Statystyka regionalna, Sondaż i integracja baz danych. Akademia Ekonomiczna w Poznaniu, Urząd Statystyczny w Poznaniu, s. 99-109.
Bibliografia Zebranie Katedry SEM, 18.10.2017 Dehnel G. (2003), Statystyka małych obszarów jako narzędzie oceny rozwoju ekonomicznego regionów. Akademia Ekonomiczna, Poznań. Domański Cz., Pruska K. (1997), Prognozowanie w przedsiębiorstwie z wykorzystaniem statystyki małych obszarów [w:] M. Cieślak (red.), Prognozowanie w zarządzaniu firmą, Materiały konferencyjne, Akademia Ekonomiczna, Wrocław, s. 49-56. Fay R. E. III, Herriot R. A. (1979), Estimation of Incomes for Small Places: An Application of James-Stein Procedures to Census Data, Journal of the American Statistical Association, vol. 74, p. 269-277. Gołata E. (2004), Estymacja pośrednia bezrobocia na lokalnym rynku pracy. Prace habilitacyjne, Wydawnictwo Akademii Ekonomicznej w Poznaniu, Poznań. Gonzales-Manteiga W., Lombardia M., Molina I., Morales D., Santamaria L. (2008) Bootstrap Mean Squared Error of Small-Area EBLUP, Journal of Statistical Computation and Simulation, vol.78, p. 433 462. Henderson C.R. (1950) Estimation of genetic parameters (Abstracts), Annals of Mathematical Statistics, vol. 21, p. 309-310. Jiang J. (2007), Linear and Generalized Linear Mixed Models and Their Applications, Springer Science+Business Media, New York. Jiang J., Lahiri P. and Wan S.-M. (2002), Unified Jackknife Theory for Empirical Best Prediction with M-estimation, The Annals of Statistics, vol. 30, s. 1782 1810. Kackar R. N., Harville D. A. (1981), Unbiasedness of two-stage estimation prediction procedures for mixed linear models, Communications in Statistics, Series A, vol. 10, s. 1249-1261.
Bibliografia Zebranie Katedry SEM, 18.10.2017 Lahiri P. (2003), On the Impact of Bootstrap in Survey Sampling and Small-Area Estimation, Statistical Science, vol. 18, nr 2, s. 199-210. Longford N.T. (2005), Missing Data and Small Area Estimation, Springer-Verlag, New York. Nomenklatura NTS, http://stat.gov.pl/statystyka-regionalna/jednostki-terytorialne/ nomenklatura-nts/, (31.03.2017) Prasad N. G. N., Rao J. N. K. (1990), The Estimation of the Mean Squared Error of Small-Area Estimators, Journal of the American Statistical Association, vol. 85, nr 409, s. 163-171. Rao J. N. K. (2003), Small Area Estimation, John Wiley and Sons, Hoboken, new Jersey. R Development Core Team: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, 2016. Rao J.N.K, Molina I. (2015), Small Area Estimation, John Wiley and Sons, Hoboken, New Jersey. Wawrowski Ł. (2012), Analiza ubóstwa w przekroju powiatów w województwie wielkopolskim z wykorzystaniem metod statystyki małych obszarów, Przegląd statystyczny, Numer specjalny 2, 2012, s. 248-260. Żądło T. (2008), Elementy statystyki małych obszarów z programem R, Wydawnictwo Akademii Ekonomicznej w Katowicach, Katowice.
Dziękuję za uwagę
Jeśli spełnione jest złożenie (1) oraz: wartość oczekiwana EBLUP jest skończona, ˆδ jest estymatorem ) )) o własnościach parzystości (Â ( ˆθ d = Â (ˆθ d i niezmieniczości względem )) przesunięcia (Â (ˆθ d + Xb) = Â (ˆθ d, rozkłady składników i efektów losowych są symetryczne względem zera, ˆθ EBLUP jest ξ-nieobciążony (Kackar, Harville 1981: 1258-1259).
Wartości W d W d = N d n d 1 ND N d n d N d 1 i=1 Żądło(2012) ( yi Nd 1 ND i=1 yi ) 2
względne obciążenie estymatora MSE względne RMSE estymatora MSE względne obciążenie estymatora MSE 100xMSEd 1 ) B 1 B i=1 (MŜE d b MSE d gdzie: MSE d = B 1 ) B i=1 (ˆθb d θd b względne RMSE estymatora MSE 100xMSEd 1 B 1 B i=1 (MŜEd b MSE d ) 2
Proces jednoczesnej autokorelacji przestrzennej (proces SAR) zakładamy proces SAR dla wektora v (Pratesi, Salvati 2008: 115-116): gdzie: v = G = (I ρw 1 ) 1 u (35) - u - D-elementowy wektor niezależnych efektów losowych o wariancji σ 2 u; - ρ jest znanym parametrem. Macierz wariancji-kowariancji ma postać: [ 1 Dξ 2 (v) = G = σu 2 (I ρw)(i ρw )] T (36) gdzie W - macierz wag przestrzennych (D D). W badaniu symulacyjnym: do wyznaczenia W użyto wartości PKB per capita w domenie; ρ { 0.8, 0.2, 0.2, 0.8} oraz przypadek gdy efekty losowe są niezależne.
Empiryczny najlepszy liniowy nieobciążony predyktor (EBLUP) Jeśli zastąpimy δ jego estymatorem otrzymamy predyktor dwustopniowy EBLUP. Przy pewnych założeniach ˆθ EBLUP jest ξ-nieobciążony (Kackar, Harville 1981: 1258-1259).
Wykaz publikacji Zebranie Katedry SEM, 18.10.2017 Inne publikacje P. Domański, M. Krzciuk (2011), Koło Naukowe Statystyków Uniwersytetu Ekonomicznego w Katowicach, Kwartalnik Statystyczny, rok XIII, nr 3-4 wrzesień-grudzień, s. 15. P. Domański, M. Krzciuk, M. Miłek, P. Ziuziański (2011), Badania ankietowe w praktyce, w: M. Kuczera (red.), Rola dokonań studentów a możliwości osiągnięcia sukcesu po zakończeniu studiów, Wydawnictwo CreativeTime, Kraków, ISBN 978-83-63058-00-5, s.142-145 P. Domański, M. Krzciuk, P. Ziuziański (2011), Koło Naukowe Statystyków, w: M. Kuczera (red.), Rola dokonań studentów a możliwości osiągnięcia sukcesu po zakończeniu studiów, Wydawnictwo CreativeTime, Kraków ISBN 978-83-63058-00-5, s. 22