Społeczno-gospodarcze aspekty statystyki
|
|
- Halina Jadwiga Leśniak
- 8 lat temu
- Przeglądów:
Transkrypt
1 PRACE NAUKOWE Uniwersytetu Ekonomicznego we Wrocławiu nr 309 RESEARCH PAPERS of Wrocław University of Economics No. 309 Społeczno-gospodarcze aspekty statystyki Redaktorzy naukowi Zofia Rusnak Edyta Mazurek Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu Wrocław 2013
2 Redaktor Wydawnictwa: Joanna Szynal Redaktor techniczny: Barbara Łopusiewicz Korektor: Barbara Cibis Łamanie: Beata Mazur Projekt okładki: Beata Dębska Publikacja jest dostępna w Internecie na stronach: The Central and Eastern European Online Library a także w adnotowanej bibliografii zagadnień ekonomicznych BazEkon Informacje o naborze artykułów i zasadach recenzowania znajdują się na stronie internetowej Wydawnictwa Kopiowanie i powielanie w jakiejkolwiek formie wymaga pisemnej zgody Wydawcy Copyright by Uniwersytet Ekonomiczny we Wrocławiu Wrocław 2013 ISSN ISBN Wersja pierwotna: publikacja drukowana Druk: Drukarnia TOTEM
3 Spis treści Wstęp... 9 Tadeusz Bednarski: Rola Jerzego Spławy-Neymana w kształtowaniu metod statystycznej analizy przyczynowości Filip Borowicz: Ocena możliwości uzupełnienia danych BAEL informacjami ze źródeł administracyjnych w celu dokładniejszej analizy danych o bezrobociu Mariusz Donocik, Bogdan Kisiała, Mirosław Mróz, Beata Detyna, Jerzy Detyna: Przydatność testów nieparametrycznych Kruskala-Wallisa i mediany w długoterminowej ocenie parametrów kruszyw melafirowych Mariusz Donocik, Bogdan Kisiała, Mirosław Mróz, Beata Detyna, Jerzy Detyna: Karty kontrolne w ocenie jakości kruszyw dla budownictwa drogowego Czesław Domański: Uwagi o procedurach weryfikacji hipotez z brakującą informacją Stanisław Heilpern: Zależne procesy ryzyka Artur Lipieta, Barbara Pawełek, Jadwiga Kostrzewska: Badanie struktury wydatków w ramach wspólnej polityki UE z wykorzystaniem analizy korespondencji Agnieszka Marciniuk: Dwa sposoby modelowania stopy procentowej w ubezpieczeniach życiowych Beata Bieszk-Stolorz, Iwona Markowicz: Model nieproporcjonalnej intensywności Coxa w analizie bezrobocia Edyta Mazurek: Statystyczna analiza podatku dochodowego od osób fizycznych Katarzyna Ostasiewicz: Awersja do nierówności w modelowaniu użytkowania dóbr wspólnych Piotr Peternek: Porównanie kart kontrolnych indywidualnych pomiarów uzyskanych z wykorzystaniem uogólnionego rozkładu lambda oraz krzywych Johnsona Małgorzata Podogrodzka: Starzenie się ludności a płodność w Polsce w latach ujęcie regionalne Renata Rasińska, Iwona Nowakowska: Jakość życia studentów w aspekcie znajomości wskaźników zrównoważonego rozwoju
4 6 Spis treści Maria Rosienkiewicz, Jerzy Detyna: Analiza efektywności metod wyboru zmiennych objaśniających do budowy modelu regresyjnego Jerzy Śleszyński: National Welfare Index ocena nowego miernika rozwoju trwałego i zrównoważonego Maria Szmuksta-Zawadzka, Jan Zawadzki: Wykorzystanie oszczędnych modeli harmonicznych w prognozowaniu na podstawie szeregów czasowych o wysokiej częstotliwości w warunkach braku pełnej informacji Anna Zięba: O możliwościach wykorzystania metod statystycznych w badaniach nad stresem Summaries Tadeusz Bednarski: Role of Jerzy Spława-Neyman in statistical inference for causality Filip Borowicz: Assessing the possibility of supplementing the Polish LFS data with register records for more detailed unemployment data analysis.. 26 Mariusz Donocik, Bogdan Kisiała, Mirosław Mróz, Beata Detyna, Jerzy Detyna: Usefulness of nonparametric Kruskal-Wallis and median tests in long-term parameters assessment of melaphyre crushed rocks Mariusz Donocik, Bogdan Kisiała, Mirosław Mróz, Beata Detyna, Jerzy Detyna: Control charts in the assessment of aggregates quality for road construction Czesław Domański: Some remarks on the procedures of the verification of hypotheses under incomplete information Stanisław Heilpern: Dependent risk processes Artur Lipieta, Barbara Pawełek, Jadwiga Kostrzewska: Study of the structure of expenditure under the EU s common policy using correspondence analysis Agnieszka Marciniuk: Two ways of stochastic modelling of interest rate in life insurances Beata Bieszk-Stolorz, Iwona Markowicz: The Cox non-proportional hazards model in the analysis of unemployment Edyta Mazurek: Statistical assessment of Personal Income Tax Katarzyna Ostasiewicz: Inequality aversion in modeling the use of common pool resources Piotr Peternek: Comparison of control charts of individual measurements based on general Lambda distribution and Johnson curves Małgorzata Podogrodzka: The ageing of the population and fertility in Poland in the years by voivodeships Renata Rasińska, Iwona Nowakowska: Students life quality in terms of knowledge of sustainable development indicators
5 Spis treści 7 Maria Rosienkiewicz, Jerzy Detyna: Efficiency analysis of chosen methods of explanatory variables selection within the scope of regression model construction Jerzy Śleszyński: National Welfare Index assessment of a new measure of sustainable development Maria Szmuksta-Zawadzka, Jan Zawadzki: The application of harmonic models in forecasting based on high frequency time series in condition of lack of full information Anna Zięba: About statistical methods in the study on stress
6 PRACE NAUKOWE UNIWERSYTETU EKONOMICZNEGO WE WROCŁAWIU RESEARCH PAPERS OF WROCŁAW UNIVERSITY OF ECONOMICS nr Społeczno-gospodarcze aspekty statystyki ISSN Maria Rosienkiewicz, Jerzy Detyna * Politechnika Wrocławska ANALIZA EFEKTYWNOŚCI METOD WYBORU ZMIENNYCH OBJAŚNIAJĄCYCH DO BUDOWY MODELU REGRESYJNEGO Streszczenie: Podstawowym celem pracy jest zbadanie oraz porównanie kryterium informacyjnego Akaike, kryterium informacyjnego Schwarza, metody entropii krzyżowej i metody wskaźników pojemności informacji Hellwiga pod kątem efektywności konstrukcji modeli regresyjnych. Badanie przeprowadzono na podstawie symulacji komputerowych. Po wygenerowaniu zestawu danych o rozkładzie normalnym zbudowano model liniowy, w którym zmienna objaśniana jest zależna od wybranych zmiennych wcześniej wygenerowanych. W kolejnym etapie rozszerzono zbiór potencjalnych zmiennych objaśniających i zastosowano badane metody wyboru modelu. Powyższe kroki powielono, a następnie porównano, jak często każda z badanych metod wskazała właściwy zbiór zmiennych i tym samym właściwy model. Porównania metod dokonano także na danych empirycznych. Słowa kluczowe: kryteria informacyjne Akaike i Schwarza, metoda Hellwiga, entropia krzyżowa. 1. Wstęp W nauce organizacji produkcji, w celu wspomagania podejmowania decyzji, prognozowania wybranych wartości bądź szukania źródłowych przyczyn pewnych zjawisk, zaleca się stosowanie programów do modelowania i symulacji. Słuszność stosowania modeli symulacyjnych jest niepodważalna, jednak w praktyce przemysłowej bardzo często zdarza się, że firmy nie decydują się na zakup odpowiedniego oprogramowania, ze względu na bardzo wysokie koszty i skomplikowaną obsługę, która wymaga zazwyczaj znajomości programowania. Dlatego też warto zauważyć, że zastosowanie narzędzi modelowania ekonometrycznego w dziedzinie organizacji produkcji może stać się alternatywą dla drogiego i często trudnego oprogramowania * Zadanie współfinansowane ze środków Unii Europejskiej w ramach Europejskiego Funduszu Społecznego. Projekt systemowy Grant Plus Program Operacyjny Kapitał Ludzki, Priorytet VIII Regionalne Kadry Gospodarki, Działanie 8.2 Transfer Wiedzy, Poddziałania Regionalne Strategie Innowacji.
7 Analiza efektywności metod wyboru zmiennych objaśniających do symulacji. Oczywiście takie modele nie są tak uniwersalne jak modele symulacyjne zbudowane w odpowiednim środowisku informatycznym, jednak odpowiednio skonstruowane mogą wspomagać przedsiębiorców w podejmowaniu prawidłowych decyzji, prognozowaniu czy też wyjaśnianiu wystąpienia pewnych zjawisk. W celu stosowania najlepszej metody wyboru modelu w nauce organizacji produkcji w niniejszej pracy porównano wybrane metody selekcji zmiennych objaśniających bardzo popularne kryterium informacyjne Akaike (AIC) i bayesowskie kryterium informacyjne Schwarza (BIC), metodę entropii krzyżowej, zalecaną w polskich podręcznikach akademickich do ekonometrii metodę wskaźników pojemności informacji Hellwiga. Podstawowym celem pracy jest zbadanie oraz porównanie wymienionych metod selekcji zmiennych objaśniających pod kątem efektywności konstrukcji modeli regresyjnych. Aby zadanie to zrealizować, opracowano specjalny program w środowisku R (The R Project for Statistical Computing, R language). Program ten umożliwi dokonanie oceny efektywności zastosowania badanych metod do modelowania procesów zachodzących w obszarze produkcji. Na podstawie wyników generowanych z tego programu będzie można stwierdzić, która z metod jest bardziej efektywnym narzędziem wyboru zmiennych objaśniających do modelu i tym samym narzędziem wyboru modelu optymalnego. Dodatkowym celem pracy jest ocena możliwości zastosowania badanych metod w modelowaniu wybranych zależności zachodzących na różnych etapach procesu produkcyjnego. Ocena ta zostanie przeprowadzona w oparciu o analizę problemu kompensacji błędów obróbki pewnego centrum tokarskiego. 2. Przykłady możliwości zastosowania modelowania ekonometrycznego w inżynierii produkcji W inżynierii produkcji zachodzi wiele zjawisk i procesów, do których modelowania można zastosować metody ekonometryczne. Na każdy proces wpływa liczna grupa czynników. W celu analizy kształtowania się danego procesu należy rozpoznać pewne zmienne, które wnoszą określone informacje o tym procesie. Do modelowania takich zmiennych można wykorzystać analizę regresji. Każda zmienna posiada pewien rozkład prawdopodobieństwa. Za najlepiej zbadany rozkład zmiennej losowej ciągłej można uznać rozkład normalny [Firkowicz 1970, s ]. W praktyce rozkład w przybliżeniu normalny ma bardzo często cecha mierzalna danego wyrobu lub określona funkcja tej cechy (najczęściej logarytm). Cecha mierzalna ma zazwyczaj rozkład normalny, kiedy rozrzut jej wartości jest wynikiem sumowania się wpływów wielu różnych czynników, z których żaden nie jest dominujący. Taka sytuacja bardzo często występuje w praktyce inżynierskiej. Zatem budowa modelu regresyjnego pewnej cechy mierzalnej danego wyrobu może być bardzo przydatna w zarządzaniu jakością. Model taki pozwoli na zbadanie wpływu różnych czynników na wartość analizowanej cechy. Cechą taką może być pewien wymiar danego wyrobu na przy-
8 216 Maria Rosienkiewicz, Jerzy Detyna kład średnica otworu. Dokonując pomiarów takiej średnicy i mierząc jednocześnie inne czynniki towarzyszące procesowi wytwarzania wyrobu, a następnie wykorzystując badane w niniejszej pracy metody selekcji zmiennych, można zbudować model, który pozwoliłby jednoznacznie określić, jakie czynniki i w jakim stopniu wpływają na wymiar średnicy otworu w wytwarzanym wyrobie. Innym przykładem możliwości zastosowania modelowania ekonometrycznego w inżynierii produkcji jest wykorzystanie analizy regresji do budowy funkcji niezawodności czy zależnej od czasu eksploatacji funkcji intensywności uszkodzeń [Radkowski 2003, s ]. Takie funkcje posiadają rozkład Weibulla. Ekonometria w inżynierii produkcji może znaleźć zastosowanie m.in. w: modelowaniu procesu tworzenia zapasu w ujęciu wartościowym, statystycznym sterowaniu procesem (SPC), kompensacji błędów obrabiarek, problemie wyboru między modelami dotyczącymi średniego czasu pracy do pierwszego uszkodzenia, modelowaniu funkcji kosztów, spektometrii. 3. Metody dobru zmiennych objaśniających 3.1. Problem selekcji zmiennych W pewnym okresie w budowie modeli istniała niesłuszna tendencja, żeby uwzględniać w badaniach możliwie największą liczbę zmiennych objaśniających. Liczba tych zmiennych przekraczała nawet czasem liczbę obserwacji w próbie. Powodowało to konieczność wykonywania wielu uciążliwych i obszernych rachunków, natomiast uzyskane wyniki często były pozbawione większego znaczenia praktycznego. Wystąpiła potrzeba, aby ograniczać liczbę zmiennych objaśniających już we wczesnym etapie badań. Nieuwzględnione zmienne były traktowane wtedy jako quasi- -stałe. Przyjmowanie w pewnych granicach danych zmiennych jako stałych, pozwalało pomijać ich wpływ na zmienną endogeniczną. Gdyby zaszła potrzeba, można było je włączyć do badań w dalszym etapie. W efekcie eliminacja zbędnych zmiennych oparta była w głównej mierze na informacjach pozastatystycznych, doświadczeniu oraz intuicji badacza. Postępowanie takie było jednak silnie uzależnione od czynników subiektywnych. Zatem ustalenie zbioru zmiennych, które mają wejść do modelu ekonometrycznego można uznać za podstawowe zagadnienie związane z budową tego modelu. Etap ten zwykle jest najtrudniejszy i decyduje o efekcie dalszej analizy [Grabiński, Wydymus, Zeliaś 1982, s. 13]. Można stwierdzić, że ten pierwszy etap procesu budowy modelu ekonometrycznego ma charakter przygotowawczy [Mercik, Szmigiel 2000, s. 68]. Bardzo istotną kwestią przy wstępnym doborze zmiennych do modelu jest merytoryczna znajomość badanego procesu. Znajomość ta umożliwia wytypowanie zbioru potencjalnych zmiennych objaśniających. Należy wybierać tylko takie determinanty, które istotnie wpływają na kształtowanie się badanego zjawiska [Dziechciarz 2002, s. 30]. Problem optymalne-
9 Analiza efektywności metod wyboru zmiennych objaśniających go wyboru zmiennych objaśniających spośród wytypowanego wcześniej zbioru potencjalnych zmiennych objaśniających sprowadza się zatem do redukcji wstępnie ustalonego zbioru tychże zmiennych [Kukuła 1999, s.16] Kryterium informacyjne Akaike W 1971 roku Hirotsugu Akaike zaproponował kryterium wyboru modelu, które nazwane zostało kryterium informacyjnym Akaike (Akaike s information criterion AIC). Szerzej przedstawił to kryterium w pracach Information theory and an extension of the maximum likelihood principle z 1973 roku oraz A new look at the statistical model identification z 1974 roku. AIC może być interpretowane jako miara odległości pomiędzy modelem dopasowanym do zebranych, niekompletnych, danych statystycznych, a modelem efektywnym, który wygenerował te dane [Cavanaugh, Shumway 1998, s. 1]. Kryterium AIC opiera się na estymacji informacji Kullbacka-Leiblera za pomocą metody największej wiarygodności. Akaike wyprowadził kryterium informacyjne AIC, postaci: AIC( ˆ θ ) = 2ln Lˆ + 2 p, gdzie: p liczba parametrów modelu (liczba zmiennych objaśniających wraz z wyrazem wolnym), Lˆ = L( ˆ θ) = max{ L( θi, D)} maksimum funkcji wiarygodności dla estymowanego modelu. Kryterium informacyjne Akaike jest to zatem różnica podwojonej liczby parametrów modelu i podwojonego logarytmu naturalnego z maksimum funkcji wiarygodności. Spośród różnych modeli za optymalny uznany jest ten, dla którego AIC osiąga najmniejszą wartość [Peracchi 2001, s. 331]. Kiedy analiza statystyczna oparta jest na metodzie najmniejszych kwadratów, wzór na AIC można zapisać również następująco 1 : gdzie: n 2 ei i= 1 suma kwadratów reszt, K liczba parametrów modelu. n wielkość próby. n 2 ln( i ) 2 i= 1 AIC = n e + K, Obie powyższe postaci wzorów na AIC są równoważne. Kryterium Akaike jest obecnie bardzo popularne i często stosowane w różnych dziedzinach nauki. Stanowi właściwie uniwersalne kryterium wyboru optymalnego modelu. Należy jednak pamiętać, aby być ostrożnym przy stosowaniu tej metody 1 7ce921 z dnia 20 lipca 2008 r.
10 218 Maria Rosienkiewicz, Jerzy Detyna i nie przyjmować otrzymanych wyników bezkrytycznie. W artykule T.W. Arnolda Uninformative parameters and model selection using Akaike s information criterion można znaleźć ważne spostrzeżenie dotyczące kryterium informacyjnego Akaike [Arnold 2010, s ] Kryterium informacyjne Schwarza Statystycy bardzo często napotykają na problem wyboru właściwego wymiaru modelu pasującego do danego zbioru obserwacji [Schwarz 1978, s ]. Typowym przykładem takiego problemu jest wybór stopnia wielomianowego modelu regresyjnego. W takim przypadku zasada największej wiarygodności niezmiennie prowadzi do wyboru najwyższego możliwego wymiaru. Dlatego też nie może ona zostać uznana za prawidłowy sformalizowany sposób wyboru właściwego wymiaru modelu. Akaike zasugerował rozszerzenie zasady największej wiarygodności na nieco bardziej ogólny problem problem wyboru modelu z grupy modeli o różnej liczbie zmiennych. Rozwiązanie Akaike polega na maksymalizowaniu funkcji wiarygodności osobno dla każdego modelu j, otrzymując M j (X 1,, X n ), a następnie na wyborze takiego modelu, dla którego wartość log M j (X 1,, X n ) k j jest największa, gdzie k j jest wymiarem modelu (czyli informuje o liczbie parametrów modelu). Gideon Schwarz zaproponował inne podejście do omówionego problemu. Otóż przedstawił następujące kryterium wyboru modelu (Bayesian Information Criterion BIC) należy wybrać model, dla którego wartość MM jj (XX 1,, XX nn ) 1 2 kk jj log nn jest największa. Szczegółowe wyliczenia Schwarz przedstawił w artykule Estimating the dimension of a model. Jak można zauważyć, kryterium BIC różni się od kryterium Akaike (AIC) tylko drugą częścią wzoru, a dokładniej przemnożeniem rozmiaru modelu (mierzonego przez liczbę parametrów modelu k j ) przez 1 2 kk jj log nn [Acquah de-graft 2010, s. 1-6]. Pod względem jakościowym zarówno procedura Schwarza, jak i Akaike umożliwia matematyczne sformułowanie zasady skąpstwa (the principal of parsimony) w budowaniu modeli. Jednakże pod względem ilościowym kryterium Schwarza skłania się bardziej niż kryterium Akaike ku modelom o mniejszych rozmiarach (lower-dimensional models). Z perspektywy bayesowskiej kryterium BIC jest tak opracowane, aby wskazywać najbardziej prawdopodobny model dla określonego zbioru danych. Kryteria informacyjne pozwalają porównywać modele dla tej samej zmiennej objaśnianej. Za najlepszy model uznaje się ten, dla którego wartość kryterium jest najniższa. Należy zauważyć, że wartość kryteriów rośnie wraz ze wzrostem sumy kwadratów reszt (jakość dopasowania) oraz liczby parametrów. Za dobry model uznaje się model prosty posiadający możliwie najmniej parametrów i jednocześnie dobrze dopasowany.
11 Analiza efektywności metod wyboru zmiennych objaśniających Metoda entropii krzyżowej Statystyczna interpretacja pojęcia entropii została rozwinięta głównie dzięki pracom Boltzmanna, Maxwella i Smoluchowskiego. W ramach teorii informacji niepewność o nieznanej zmiennej jest określana ilościowo przez wielkość zwaną entropią. Dodatkowa wiedza o innych badanych zmiennych przyczynia się do redukcji entropii i dzięki temu informacja o nieznanej zmiennej wzrasta [Ramos, Gonzalez-Rodriguez 2008]. Dywergencja Kullbacka-Leiblera jest naturalną miarą pseudoodległości rozkładu prawdopodobieństwa P od empirycznego P e [Detyna 2007, s. 93]. Określa się ją wzorem: DD(PP ee PP) = PP ee (xx)llllll PP(xx). PP ee (xx) xxxxxx Jeśli P = P e, wówczas: DD(PP ee PP) = 0. W każdym innym wypadku, jeżeli: PP ee (xx) = PP(xx) = 1, to DD(PP ee PP) > 0. xxxxxx xxxxxx W obliczeniach praktycznych znacznie wygodniej jest posługiwać się entropią krzyżową (cross-entropy), która jest miarą odstępstwa rozkładu teoretycznego P od empirycznego P e. Entropię krzyżową definiuje wzór: HH(PP ee PP) = PP ee (xx)llllllll(xx) = HH(PP ee ) + DD(PP ee PP) 0. xxxxxx Powyższą miarę stosuje się do identyfikacji rozkładu teoretycznego. Dla ustalonych wartości rozkładu empirycznego P e minimalizowana jest wartość: HH(PP ee PP) dla PP ee = PP. W pakiecie R (R language), w którym wykonywane będą obliczenia teoretyczne, entropia krzyżowa jest wyliczana w oparciu o algorytm k najbliższych sąsiadów knn (k nearest neighbours) knn Cross Entropy Estimators. Algorytm obliczeń dostępny w języku R został opracowany na podstawie artykułu knn-based high-dimensional Kullback-Leibler distance for tracking autorstwa S. Boltza, E. Debreuve a i M. Barlauda [2007]. W artykule zaproponowano nowy estymator funkcji gęstości prawdopodobieństwa (probability density function, PDF) na podstawie algorytmu k najbliższych sąsiadów, który został wykorzystany do zdefiniowania spójnego estymatora entropii. Autorzy zaprezentowali sposób wyliczenia odległości Kullbacka- -Leiblera pomiędzy wysokowymiarowymi funkcjami gęstości prawdopodobieństwa (high-dimensional PDF) z wykorzystaniem metody knn. W tym kontekście jawna estymacja funkcji gęstości prawdopodobieństwa nie jest konieczna ze względu na fakt, że odległość jest obliczona na podstawie danych.
12 220 Maria Rosienkiewicz, Jerzy Detyna 3.5. Metoda wskaźników pojemności informacji Hellwiga Metodę wskaźników pojemności informacji przedstawił Zdzisław Hellwig w roku 1969 na łamach Przeglądu Statystycznego [Hellwig 1969]. W metodzie tej procedura wyboru optymalnego zbioru zmiennych objaśniających polega na tym, że dla każdej zmiennej z kombinacji wyznaczana jest indywidualna pojemność nośników informacji [Dziechciarz 2002, s. 33]: h kj 2 rj =, r ij gdzie: k numer kombinacji (k = 1, 2,, 2 m 1), j numer zmiennej w danej kombinacji, r j współczynnik korelacji potencjalnej zmiennej objaśniającej o numerze j ze zmienną objaśnianą, r ij współczynnik korelacji między i-tą i j-tą potencjalną zmienną objaśniającą. Wskaźnik h kj mierzy wielkość informacji, jaką zmienna X j wnosi o zmiennej objaśnianej Y w k-tej kombinacji. Po wyznaczeniu wartości h kj dla wszystkich zmiennych oblicza się pojemność integralną kombinacji nośników informacji. Wyznacza się ją dla każdej kombinacji według wzoru: H k = h. Jest ona sumą indywidualnych pojemności nośników informacji, które wchodzą w skład danej kombinacji. Kryterium wyboru odpowiedniej kombinacji zmiennych objaśniających stanowi pojemność informacji. Według tego kryterium należy wybrać kombinację zmiennych, która wnosi najwięcej informacji, czyli taką, dla której H k osiąga najwyższą wartość. W pracy D. Serwy Metoda Hellwiga jako kryterium doboru zmiennych do modeli szeregów czasowych [Serwa 2004, s. 5-17] przedstawiono analizę, której celem było rozstrzygnięcie, na ile metoda Hellwiga jest użyteczna w odniesieniu do konstruowania modeli szeregów czasowych i w jakim zakresie jest ona konkurencyjna wobec innych metod, na przykład opartych na kryterium informacyjnym Akaike czy Schwarza. Przeprowadzone tam badania wykazały, że metoda Hellwiga w pewnych przypadkach, nie prowadzi do wyboru modelu oryginalnego. Z przeprowadzonego w przywołanej pracy badania wynika również, iż przy analizie szeregów czasowych metoda Hellwiga nie zawsze pozwala na automatyczny wybór postulowanego modelu idealnego lub też model idealny nie zawsze jest równoważny modelowi oryginalnemu. W pracy D. Serwy dokonano analizy metody Hellwiga jako kryterium doboru zmiennych do modeli autoregresji. Zauważono, że przy spełnieniu pewnych prostych warunków metoda Hellwiga sugeruje wybór modelu autoregresji nieodpo- kj
13 Analiza efektywności metod wyboru zmiennych objaśniających wiedniego rzędu. Wynik ten pozwala na uogólnienie na przypadek innych liniowych modeli szeregów czasowych, zwłaszcza modeli dynamicznych. W modelach tych często występują wzajemnie skorelowane zmienne objaśniające. W wyniku zastosowania metody optymalnego doboru zmiennych objaśniających część z nich może zostać usunięta z grupy kandydatek, pomimo że faktycznie wpływają istotnie na zmienną objaśnianą. Pominięcie ważnych zmiennych objaśniających w modelu może spowodować, że model zostanie odrzucony w procesie weryfikacji z powodu: niestabilności postaci strukturalnej, obciążonych ocen parametrów strukturalnych, autokorelacji składnika losowego bądź występowania dużych błędów prognozy. Tezę tę potwierdzają badania T. Bednarskiego i F. Borowicza, przeprowadzone w pracy On inconsistency of Hellwig s variable choice method in regression models [2009, s ]. 4. Badania symulacyjne 4.1. Charakterystyka programu W celu weryfikacji, która z wybranych metod kryterium Akaike, kryterium Schwarza, metoda entropii krzyżowej, metoda Hellwiga jest najefektywniejszym narzędziem doboru zmiennych objaśniających do modelu, opracowano program w środowisku R. Koncepcję funkcjonowania programu przedstawia algorytm zamieszczony na rys. 1. Zgodnie z algorytmem po uruchomieniu programu w środowisku R należy podać wielkość próby n oraz liczbę powtórzeń i. Wielkość próby informuje o liczności próby każdej z wygenerowanych zmiennych objaśniających, a w konsekwencji także zmiennej objaśnianej. Z kolei liczba powtórzeń stanowi o tym, ile razy zostanie wykonana pętla obliczeń. Po zadaniu wielkości próby i liczby powtórzeń następuje wygenerowanie zbioru Z, zawierającego m + 1 potencjalnych zmiennych objaśniających (x 1, x 2,..., x m, e), gdzie e pełni w modelu rolę składnika losowego), charakteryzujących się rozkładem normalnym. W kolejnym kroku, w oparciu o podzbiór zbioru Z, na który składają się wybrane zmienne objaśniające (x 1,..., x k ), gdzie k < m, zostaje zbudowany model. W następnym etapie dokonywana jest selekcja zmiennych objaśniających według czterech metod: kryterium Akaike, kryterium Schwarza, metody entropii krzyżowej i metody Hellwiga. Następnie zostaje porównane, czy dana metoda wskazała zmienne tożsame z tymi, które wchodzą w skład modelu. Jeśli tak, wówczas zostaje nadana waga 1, jeśli nie wówczas 0. Ta procedura zostaje powtórzona i razy. W ostatnim kroku, po wykonaniu zadanej liczby pętli, następuje sumowanie liczby prawidłowo wyselekcjonowanych modeli (liczby prawidłowo wyselekcjonowanych zbiorów zmiennych objaśniających). Pojawia się wówczas komunikat zawierający informację o liczbie modeli prawidłowo wskazanych przez każdą z metod. Należy dodać, że po niewielkiej modyfikacji program może zostać
14 222 Maria Rosienkiewicz, Jerzy Detyna Rys. 1. Algorytm prezentujący sposób funkcjonowania programu wykorzystany do badania innych rozkładów prawdopodobieństwa (np. wykładniczego, Weibulla, logarytmiczno-normalnego), a także modeli liniowych i nieliniowych sprowadzalnych do liniowych o dowolnej strukturze. Jedynym ograniczeniem programu jest pojemność pamięci obliczeniowej.
15 Analiza efektywności metod wyboru zmiennych objaśniających Analiza otrzymanych wyników Badania symulacyjne w programie opisanym powyżej wykonano dla czterech modeli, których struktura przedstawiona została w tab. 1: Tabela 1. Typy modeli stosowanych w programie Typ modelu Liczba zmiennych w modelu Plan przeprowadzania badań symulacyjnych został zaprojektowany zgodnie z tab. 2. Dla każdego typu modelu (I-IV) wykonano 10 symulacji. Warunki wstępne (wielkość próby, liczba powtórzeń) każdej z nich zostały przedstawione w tabeli. Tabela 2. Struktura przeprowadzania badań symulacyjnych Numer symulacji Wielkość próby (n) Liczba powtórzeń (i) Liczba potencjalnych zmiennych Postać modelu I 1 3 yy = 0,8xx 1 + 0,5ee II 3 4 yy = xx 1 + 0,5xx 2 + 0,1xx 4 + 0,5ee III 4 7 yy = xx 1 + 0,5xx 3 + 0,1xx 4 + 0,7xx 6 + 0,5ee IV 6 10 yy = xx 1 + 0,5xx 4 + 0,1xx 5 + 0,7xx 7 + 0,4xx 8 + 0,9xx 9 + 0,5ee Wyniki otrzymane dla pierwszego modelu (model I z 1 zmienną objaśniającą, 3 potencjalne zmienne objaśniające) zostały przedstawione na rys. 2. Otrzymane wyniki wskazują, że dla modelu z jedną zmienną objaśniającą za najbardziej efektywną metodę selekcji zmiennych można uznać kryterium informacyjne Schwarza. Analizując wyniki dla symulacji, w których wielkość próby wynosiła co najmniej 50, można zauważyć, że za pomocą kryterium informacyjnego Schwarza właściwa postać modelu była wskazywana z częstotliwością wynoszącą co najmniej 90%. Na 10 symulacji 8 razy kryterium informacyjne Akaike wskazywało właściwą postać modelu z prawdopodobieństwem zawierającym się w przedziale 0,6-0,8. Z kolei pozostałe dwie badane metody entropii krzyżowej i Hellwiga były efektywne w mniej niż 40% w 9 na 10 symulacji. Wyniki otrzymane dla drugiego modelu (model II) zostały zamieszczone na rys. 3. Można zauważyć, że w przypadku modelu, w którym zbiór potencjalnych determinant liczy 4 zmienne, a w modelu znajdują się 3 z nich, dla symulacji, w których liczność próby wynosiła n = 500 i n = 1000, najskuteczniejszą metodą w kontekście
16 224 Maria Rosienkiewicz, Jerzy Detyna Rys. 2. Wyniki badań dla modelu I Rys. 3. Wyniki badań dla modelu II wyboru prawidłowego podzbioru zmiennych okazało się kryterium informacyjne Schwarza. Z kolei dla mniej licznych prób bardziej efektywnym narzędziem wyboru modelu okazało się kryterium informacyjne Akaike, należy jednak zaznaczyć, że efektywność ta nie przekroczyła 60%. W przypadku pozostałych metod częstotliwość wyboru prawidłowych zmiennych mających wejść do modelu nie przekroczyła 30%. Analizując wyniki otrzymane dla trzeciego modelu (rys. 4), składającego się z 4 zmiennych (7-elementowy zbiór potencjalnych zmiennych objaśniających), można
17 Analiza efektywności metod wyboru zmiennych objaśniających zaobserwować, że ponownie dla symulacji, w których liczność próby wynosiła n = 500 i n = 1000 za najskuteczniejszą metodę należy uznać kryterium Schwarza. Przy liczbie iteracji równej 100, dla mniejszych prób (50, 100) najbardziej efektywne w porównaniu z pozostałymi metodami okazało się kryterium Akaike. Jednak częstotliwość z jaką wskazywane były prawidłowe zestawy zmiennych była stosunkowo niska (28%-46%). Skuteczność pozostałych metod w 9 na 10 symulacji nie przekroczyła 10%. Na rysunku 5 przedstawiono wyniki symulacji przeprowadzonych dla czwartego modelu (model IV) z sześcioma zmiennymi. W zbiorze wejściowym znajdowało się Rys. 4. Wyniki badań dla modelu III Rys. 5. Wyniki badań dla modelu IV
18 226 Maria Rosienkiewicz, Jerzy Detyna 10 potencjalnych zmiennych objaśniających. W przypadku symulacji, w których liczba iteracji wynosiła 10, a liczność próby nie przekroczyła 100, bardziej skuteczną metodą okazało się kryterium AIC. Z kolei przy większej licznie iteracji dla prób o liczności większej lub równej 500 najczęściej prawidłowy podzbiór zmiennych wskazywało kryterium BIC, dla mniejszych prób natomiast bardziej skuteczne było kryterium AIC. Metoda Hellwiga w porównaniu z metodą entropii krzyżowej okazała się bardziej skuteczna, jednak jej efektywność nie przekroczyła 40%. Na rysunku 6 zestawiono wyniki symulacji, w których badano efektywność metod w przypadku bardzo małej próby (n = 10). Niezależnie od typu modelu skutecz- Rys. 6. Zestawienie wyników symulacji wykonanych dla małej próby Rys. 7. Kryterium informacyjne Akaike zestawienie wyników
19 Analiza efektywności metod wyboru zmiennych objaśniających ność każdej z metod jest bardzo niska. Jedynie w przypadku symulacji dla modelu I kryterium AIC i BIC wskazały prawidłowy zbiór zmiennych ze skutecznością przekraczającą 50% (odpowiednio 59% i 61%). Wykonano łącznie 32 symulacje dla małej próby. W 16 przypadkach na 32 niezależnie od rodzaju metody i typu modelu liczba prawidłowo wskazanych zmiennych nie przewyższyła 20%. Na rysunkach 7-10 zestawiono wyniki dla każdej z badanych metod osobno. Po analizie wyników można jednoznacznie stwierdzić, że kryterium BIC jest najskuteczniejszą metodą selekcji zmiennych wśród czterech ba- Rys. 8. Kryterium informacyjne Schwarza zestawienie wyników Rys. 9. Metoda entropii krzyżowej zestawienie wyników
20 228 Maria Rosienkiewicz, Jerzy Detyna Rys. 10. Metoda Hellwiga zestawienie wyników danych. Jest wysoce efektywne przede wszystkim w przypadku bardzo licznych prób (n = 500 i n = 1000). Wówczas prawdopodobieństwo wskazania przez to kryterium optymalnego zbioru zmiennych mających wejść do modelu jest bliskie 100%. Kryterium Akaike dla licznych prób sprawdza się z częstotliwością przekraczająco niemal zawsze 60%. Jednak nie jest to metoda tak skuteczna, jak kryterium BIC. Z kolei dla prób mniej licznych skuteczność kryteriów Akaike i Schwarza jest podobna. Natomiast efektywność pozostałych dwóch metod poddanych analizie jest niska (nie przekracza 50%) niezależnie od wielkości próby i struktury modelu. 5. Przykład zastosowania metod selekcji zmiennych w inżynierii produkcji analiza danych empirycznych W dalszej części badań porównano efektywność metod na podstawie analizy danych empirycznych. W tym celu wykorzystano wybrane charakterystyki towarzyszące pewnemu procesowi z obszaru inżynierii produkcji. Mianowicie poddano analizie problem kompensacji błędów obróbki na poziomie sterowania. Dane, którymi posłużono się w obliczeniach, pochodzą z pomiarów przeprowadzonych w pewnym centrum tokarskim. Ze względu na fakt, że nowoczesnym centrom obróbkowym stawiane są co raz wyższe wymagania, zachodzi konieczność zwiększania dokładności wykonania przedmiotu obrabianego. W tym celu konieczne jest opracowanie sposobu precyzyjnej kompensacji błędów obróbki. Jest to zagadnienie bardzo obszerne, dlatego w niniejszej pracy ograniczono się do wycinkowego przedstawienia problemu. Wykorzystanie omawianego problemu w niniejszej pracy służy jedynie jako przykład możliwości wykorzystania metod selekcji zmiennych w inżynierii produkcji.
21 Analiza efektywności metod wyboru zmiennych objaśniających Rozwiązanie problemu polegającego na określeniu wpływu temperatury na całkowite przemieszczenie wrzeciona jest kluczowym aspektem umożliwiającym osiągnięcie odpowiedniej dokładności obróbki. Gdyby udało się precyzyjnie określić, w jakim stopniu temperatura oddziałuje na przemieszczenie wrzeciona, można by to przemieszczenie uwzględnić przy programowaniu danej obrabiarki, dzięki czemu wpływ temperatury powodujący odchylenie wrzeciona zostałby wyeliminowany, a założona dokładność obróbki osiągnięta. Istnieje wiele czynników powodujących wzrost temperatury obrabiarki. Można do nich zaliczyć między innymi temperaturę panującą na hali produkcyjnej, straty mocy w silniku, straty mocy w napędach posuwu, straty mocy w łożyskach, typ oleju, lepkość oleju, wielkość i typ łożyska wpływające bezpośrednio na temperaturę w łożysku. Wpływ temperatury na elementy wykonane ze stali czy z żeliwa jest jak najbardziej wymierny wzrost temperatury o 1º powoduje wydłużenie o około 11 μm. W celu określenia wpływu temperatury na przemieszczenie wrzeciona należy dokonać jej pomiaru. Pomiar ten jest wykonywany za pomocą specjalnych czujników, rozmieszczonych w kilku miejscach obrabiarki. Celem prowadzonej analizy jest zbudowanie modelu, w którym zmienną objaśnianą jest błąd cieplny obróbki, a zbiór potencjalnych zmiennych objaśniających stanowią wartości odczytów temperaturowych mierzonych w różnych miejscach na obrabiarce. Model taki może zostać wykorzystany jako narzędzie do kompensacji błędu obróbki. Aby porównać i przeanalizować efektywność badanych metod selekcji zmiennych, zostaną one wykorzystane jako kryteria wyboru temperatur pełniących w konstruowanym modelu rolę zmiennych objaśniających. Zbiór potencjalnych zmiennych objaśniających liczy 10 elementów, którymi są pomiary temperatur w 10 stosownie położonych punktach pomiarowych na obrabiarce (x 1,..., x 10 ). Pomiarów temperatury dla każdego punktu i pomiarów błędu obróbki dokonano 50-krotnie (stąd próba równa n = 50). Zastosowanie efektywnej metody selekcji zmiennych pozwoli na wyznaczenie optymalnej liczby miejsc, w których należy dokonywać odczytów temperatury. Pomiary poziomu temperatur z odpowiednich miejsc umożliwią wyznaczenie cieplnego błędu obróbki. Znając prognozowaną wartość tego błędu, można poddać go kompensacji, uzyskując dzięki temu większą dokładność obróbki. W celu zbudowania możliwie najlepszego modelu przeprowadzone zostaną obliczenia dla czterech wymienionych wyżej metod selekcji zmiennych, a następnie porównane zostaną otrzymane wyniki i na tej podstawie będzie można określić, która metoda jest najefektywniejszym narzędziem ich selekcji. Dla każdego z czterech zbiorów zmiennych wytypowanych przez poszczególne metody wykonano obliczenia metodą MNK w celu oszacowania parametrów modelu oraz wyznaczenia ocen ich precyzji. W kolejnym kroku porównano cztery powstałe w ten sposób modele pod kątem dopasowania do danych empirycznych. Model wyselekcjonowany przez kryterium informacyjne AIC, zbudowany został z 7 zmiennych objaśniających. Wyniki metody MNK przedstawiono w tab. 3:
22 230 Maria Rosienkiewicz, Jerzy Detyna Tabela 3. Wyniki MNK dla modelu opartego na zmiennych wyselekcjonowanych przez AIC Błąd standardowy estymacji 0,0055 Skorygowany R 2 0,8786 Wartość oszacowana Błąd st. t(45) poziom p Wyraz wolny 9, ,4934 0,8920 0, Zmienna x 1 0,005 0,0009 5,4200 0, Zmienna x 4 0,200 0,1290 1,5500 0, Zmienna x 5 0,096 0,0617 1,5610 0, Zmienna x 6 0,021 0,0091 2,2580 0, Zmienna x 8 0,017 0,0056 2,9490 0, Zmienna x 9 0,323 0,1839 1,7550 0, Zmienna x 10 0,403 0,1818 2,2180 0, gdzie: Postać analityczna modelu po oszacowaniu parametrów jest następująca: yy = 9,365 0,005xx 1 0,200xx 4 + 0,096xx 5 0,021xx 6 +0,017xx 8 0,323xx 9 + 0,403xx 10, oszacowana wartość błędu cieplnego obróbki. Analizując wartości poziomu istotności p, należy sądzić, że jedynie 4 parametry modelu są istotne, a pozostałe należy wykluczyć z modelu (zmienne nieistotne oznaczono w tabeli szarą czcionką). Można zatem stwierdzić, że kryterium AIC nie wyselekcjonowało optymalnego zbioru zmiennych objaśniających. Otrzymany model nie może służyć jako narzędzie, które można by wykorzystać do kompensacji błędów obróbki. Wyniki uzyskane po zastosowaniu kryterium BIC wskazują, że do modelu powinny wejść 4 zmienne. Wyniki metody MNK przedstawiono w tab. 4: Tabela 4. Wyniki MNK dla modelu opartego na zmiennych wyselekcjonowanych przez BIC Błąd standardowy estymacji 0,0057 Skorygowany R 2 0,8722 Wartość oszacowana Błąd st. t(45) poziom p Wyraz wolny 3,838 1,5981 2,401 0, Zmienna x 1 0,004 0, ,477 0, Zmienna x 6 0,010 0,0019 5,309 0, Zmienna x 8 0,010 0,0015 6,741 0, Zmienna x 10 0,017 0,0055 3,051 0,
23 Analiza efektywności metod wyboru zmiennych objaśniających Postać analityczna modelu po oszacowaniu parametrów jest następująca: yy = 3,838 0,004xx 1 0,010xx 6 + 0,010xx 8 + 0,017xx 10. Po przeanalizowanie otrzymanych wyników można stwierdzić, że wszystkie parametry modelu są statystycznie istotne, o czym świadczą wartości poziomu istotności p. Standardowe błędy szacunku nie są bardzo wysokie, co oznacza, że oszacowane wartości parametrów nie różnią się znacznie od ich rzeczywistej wartości. Standardowy błąd estymacji świadczy o tym, że oszacowana wartość błędu obróbki różni się średnio o 0,0057 mm od swojej rzeczywistej wartości. Skorygowany współczynnik determinacji równy 0,8722 świadczy o dość dobrym dopasowaniu modelu do danych empirycznych, w ponad 87,2% wyjaśnia on zmienność błędu obróbki. Interpretacja parametrów modelu: jeżeli temperatura na czujniku 1 (x 1 ) wzrośnie o 1 ºK, to można sądzić, że błąd obróbki zmniejszy się średnio o 0,004 mm, przy założeniu, iż pozostałe zmienne objaśniające będą miały stałą wartość. Analogicznie jeżeli temperatura na czujniku 6 (x 6 ), czujniku 8 (x 8 ), czujniku 10 (x 10 ), wzrośnie o 1 ºK, to można sądzić, że błąd obróbki zmieni się średnio odpowiednio o: 0,010 mm, 0,010 mm, 0,017 mm), przy założeniu, iż pozostałe zmienne objaśniające będą miały stałą wartość. Do oceny dopasowania modelu do danych empirycznych posłużono się również wykresem dopasowania przedstawionym na rys. 11. Wykres dopasowania Błąd obróbki [mm] 0,04 0,03 0,02 0,01 0-0,01-0,02-0, Numer obserwacji Wartości empiryczne Wartości przewidywane Rys. 11. Wykres dopasowania dla modelu opartego na zmiennych wyselekcjonowanych przez BIC Wykres ten świadczy o dość dobrym dopasowaniu modelu błędu obróbki do danych empirycznych. Model wyselekcjonowany przez metodę entropii krzyżowej, zbudowany został z 5 zmiennych objaśniających. Wyniki metody MNK przedstawiono w tab. 5:
24 232 Maria Rosienkiewicz, Jerzy Detyna Tabela 5. Wyniki MNK dla modelu opartego na zmiennych wyselekcjonowanych przez m. entropii krzyżowej Błąd standardowy estymacji 0,0070 Skorygowany R 2 0,8086 Wartość oszacowana Błąd st. t(45) poziom p Wyraz wolny 19,646 9,8815 1,9880 0, Zmienna x 2 0,001 0,0004 2,3450 0, Zmienna x 3 0,071 0,0187 3,8190 0, Zmienna x 7 0,001 0,0005 2,6950 0, Zmienna x 9 0,259 0,1844 1,4030 0, Zmienna x 10 0,123 0,1349 0,9100 0, Postać analityczna modelu po oszacowaniu parametrów: yy = 19,646 0,001xx 2 + 0,071xx 3 0,001xx 7 0,259xx 9 + 0,123xx 10. Analizując wartości poziomu istotności p, należy sądzić, że jedynie 3 parametry modelu są istotne, a pozostałe należy wykluczyć z modelu. Można zatem stwierdzić, że metoda entropii krzyżowej nie wyselekcjonowała optymalnego zbioru zmiennych objaśniających. Otrzymany model nie może służyć jako narzędzie do kompensacji błędów obróbki. Poniżej przedstawiono wyniki obliczeń przeprowadzonych dla ostatniej z badanych metod. Model wyselekcjonowany przez metodę Hellwiga, zbudowany został w oparciu 5 zmiennych objaśniających. Wyniki metody MNK przedstawiono w tab. 6. Tabela 6. Wyniki MNK dla modelu opartego na zmiennych wyselekcjonowanych przez m. Hellwiga Błąd standardowy estymacji 0,0057 Skorygowany R 2 0,8715 Wartość oszacowana Błąd st. t(45) poziom p Wyraz wolny 5,8863 2,2944 2,5650 0, Zmienna x 1 0,1170 0,0557 2,1010 0, Zmienna x 2 0,1119 0,0534 2,0950 0, Zmienna x 6 0,0008 0,0009 0,9140 0, Zmienna x 7 0,0002 0,0010 0,1690 0, Zmienna x 10 0,0244 0,0095 2,5850 0, Postać analityczna modelu po oszacowaniu parametrów jest następująca: yy = 5, , xx 1 + 0, xx , xx 6 0, xx 7 + 0, xx 10.
25 Analiza efektywności metod wyboru zmiennych objaśniających Po dokonaniu analizy wartości poziomu istotności p należy sądzić, że 2 parametry modelu nie są istotne i należy je wykluczyć z modelu. Można zatem stwierdzić, że metoda Hellwiga nie wyselekcjonowała optymalnego zbioru zmiennych objaśniających. Otrzymany model nie może służyć jako narzędzie do kompensacji błędów obróbki. 6. Podsumowanie Podstawowym celem niniejszej pracy było porównanie kryterium informacyjnego Akaike, kryterium informacyjnego Schwarza, metody entropii krzyżowej i metody wskaźników pojemności informacji Hellwiga pod kątem efektywności konstrukcji modeli regresyjnych. Zadanie to zrealizowano dwojako. W pierwszej kolejności przeprowadzono symulacje w oparciu o program napisany w języku R, a ich celem było wskazanie, która z badanych metod więcej razy wskaże model prawdziwy. Druga analiza porównawcza przeprowadzona została w oparciu o dane empiryczne. Analiza wyników otrzymanych w wyniku przeprowadzenia symulacji w środowisku R wskazuje, że kryterium informacyjne Schwarza (BIC) jest najskuteczniejszą metodą selekcji zmiennych w porównaniu z pozostałymi trzema badanymi metodami. Kryterium to jest najefektywniejsze w budowie modeli opartych na bardzo licznych próbach (n = 500 i n = 1000). Prawdopodobieństwo wyselekcjonowania przez to kryterium optymalnego zbioru zmiennych mających wejść do modelu jest wówczas bliskie 100%. Z kolei kryterium Akaike dla licznych prób sprawdza się z częstotliwością przekraczająco niemal zawsze 60%. Nie jest jednak tak efektywną metodą, jak kryterium Schwarza. W przypadku prób mniej licznych skuteczność obu kryteriów jest porównywalna. Przeprowadzone badania wykazały także, że efektywność metody entropii krzyżowej i metody wskaźników pojemności informacji Hellwiga niezależnie od wielkości próby i struktury modelu jest bardzo niska (nie przekracza 50%). Dodatkowym celem pracy była ocena możliwości zastosowania badanych metod w modelowaniu wybranych zależności zachodzących na różnych etapach procesu produkcyjnego. Oceny tej dokonano w oparciu o analizę problemu kompensacji błędów obróbki pewnego centrum tokarskiego. Otrzymane wyniki potwierdziły wnioski pochodzące z badań teoretycznych. Ponownie kryterium informacyjne Schwarza okazało się być najskuteczniejszym narzędziem selekcji zmiennych. Model zbudowany w oparciu o cztery zmienne wytypowane przez kryterium BIC jest dobrze dopasowany do danych empirycznych, a oszacowane wartości parametrów nie różnią się znacznie od ich rzeczywistej wartości. Każda z czterech badanych metod wskazała na inny zestaw zmiennych objaśniających, które powinny wejść do modelu. Jedynie w przypadku kryterium Schwarza parametry wszystkich zmiennych i wyrazu wolnego okazały się istotne. Zarówno kryterium informacyjne Akaike, metoda entropii krzyżowej, jak i metoda wskaźników pojemności informacji Hellwiga wyselekcjonowały zestawy zmiennych i tym samym struktury modeli, które nie mogą być wykorzystane jako narzędzie do kompensacji błędów obróbki.
26 234 Maria Rosienkiewicz, Jerzy Detyna Podsumowując, należy zatem stwierdzić, że zawarte w pracy analizy, zarówno te przeprowadzone na danych wygenerowanych sztucznie w wyniku symulacji, jak i te przeprowadzone w oparciu o dane empiryczne, dowodzą, że aby skutecznie rozwiązać problem doboru optymalnego zbioru zmiennych objaśniających, który pozwoli skonstruować model efektywny, należy posługiwać się w tym celu kryterium informacyjnym Schwarza, gdyż jest to metoda zdecydowanie bardziej skuteczna niż pozostałe badane w pracy metody. Jak zostało wykazane w badaniach teoretycznych, kryterium AIC również można stosować, ale należy się liczyć z faktem, że nie zawsze jest ono efektywne. Natomiast zdecydowanie niska skuteczność metody entropii krzyżowej i metody Hellwiga sugeruje, że należy zrezygnować ze stosowania tych metod jako efektywnych kryteriów selekcji zmiennych. Wnioski te zdają się potwierdzać wyniki badań D. Serwy [2004, s. 5-17] i badania stricte analityczne, które przedstawione zostały w pracy T. Bednarskiego i F. Borowicza [2009, s ]. Wyniki otrzymane po przeprowadzeniu symulacji oraz wyniki uzyskane dzięki analizie modeli empirycznych wskazały jednoznacznie, że kryteria informacyjne, a w szczególności kryterium Schwarza, są lepszym, skuteczniejszym i bardziej wiarygodnym narzędziem wyboru optymalnego zbioru zmiennych objaśniających i tym samym prawdziwego modelu ekonometrycznego niż metoda entropii krzyżowej czy zalecana w polskich podręcznikach akademickich do ekonometrii metoda Hellwiga. Literatura Acquah de-graft H., Comparison of Akaike information criterion (AIC) and Bayesian information criterion (BIC) in selection of an asymmetric price relationship, Journal of Development and Agricultural Economics 2010, Vol. 2(1), ss Arnold T. W., Uninformative Parameters and Model Selection Using Akaike s Information Criterion, Journal of Wildlife Management 2010, 74(6): ; ss Bednarski T., Borowicz F., On inconsistency of Hellwig s variable choice method in regression models, Discussiones Mathematicae Probability and Statistics 2009, 29, ss Boltz S., Debreuve E., Barlaud M., knn-based high-dimensional Kullback-Leibler distance for tracking, Eighth International Workshop on Image Analysis for Multimedia Interactive Services (WIAMIS 07), IEEE Cavanaugh J.E., Shumway R. H., An Akaike information criterion for model selection in the presence of incomplete data, Journal of Statistical Planning and Inference 1998, Volume 67, ss Detyna J., Maksimum entropii jako teoretyczne kryterium statystycznego opisu separacji materii granulowanej, Oficyna Wydawnicza Politechniki Wrocławskiej, Wrocław Dziechciarz J., Ekonometria. Metody, przykłady, zadania, Wydawnictwo Akademii Ekonomicznej im. Oskara Langego we Wrocławiu, Wrocław Firkowicz S., Statystyczne badanie wyrobów, Wydawnictwa Naukowo-Techniczne, Warszawa 1970.
27 Analiza efektywności metod wyboru zmiennych objaśniających Grabiński T., Wydymus S., Zeliaś A., Metody doboru zmiennych w modelach ekonometrycznych, Państwowe Wydawnictwo Naukowe, Warszawa Hellwig Z., Problem optymalnego wyboru predykant, Przegląd statystyczny 1969, R.XVI zeszyt 3-4, ss Kukuła K., Wprowadzenie do ekonometrii w przykładach i zadaniach, Wydawnictwo Naukowe PWN, Warszawa Mercik J., Szmigiel C., Ekonometria, Wyższa Szkoła Zarządzania i Finansów we Wrocławiu, Wrocław Peracchi F., Econometrics, Jonh Wiley & Sons Ltd, Chichester, West Sussex Radkowski S., Podstawy bezpiecznej techniki, Oficyna Wydawnicza Politechniki Warszawskiej, Warszawa Ramos D., Gonzalez-Rodriguez J., Cross-entropy Analysis of the Information in Forensic Speaker Recognition, Proceedings of IEEE Oddysey, January Schwarz G., Estimating the dimension of a model, The Annals of Statistics 1978, Vol. 6, No. 2, ss Serwa D., Metoda Hellwiga jako kryterium doboru zmiennych do modeli szeregów czasowych, Szkoła Główna Handlowa, Kolegium Analiz Ekonomicznych, Instytut Ekonometrii, Warszawa 2004, ss EFFICIENCY ANALYSIS OF CHOSEN METHODS OF EXPLANATORY VARIABLES SELECTION WITHIN THE SCOPE OF REGRESSION MODEL CONSTRUCTION Summary: The basic aim of this paper is to compare Akaike s information criterion and Schwarz s Bayesian information criterion (BIC), cross entropy and Hellwig s method within the scope of regression model construction efficiency. The study was based on computer simulations. After generating a dataset with normal distribution, a linear model (true model, which in reality is not known) was built. In the model a response variable is dependent on the chosen variables previously generated. Next, a set of potential explanatory variables was extended and the analyzed methods of model selection were applied. These steps were repeated. Subsequently it was compared how often each of the tested methods indicated the right set of variables, and thus the right model. The methods were compared also on the basis of empirical data. Keywords: Akaike information criterion, Schwarz information criterion, Hellwig s method, cross entropy.
Metody Ilościowe w Socjologii
Metody Ilościowe w Socjologii wykład 2 i 3 EKONOMETRIA dr inż. Maciej Wolny AGENDA I. Ekonometria podstawowe definicje II. Etapy budowy modelu ekonometrycznego III. Wybrane metody doboru zmiennych do modelu
Kilka uwag o testowaniu istotności współczynnika korelacji
341 Zeszyty Naukowe Wyższej Szkoły Bankowej we Wrocławiu Nr 20/2011 Piotr Peternek Uniwersytet Ekonomiczny we Wrocławiu Marek Kośny Uniwersytet Ekonomiczny we Wrocławiu Kilka uwag o testowaniu istotności
Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów
Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,
Wprowadzenie do analizy korelacji i regresji
Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących
Metody komputerowe statystyki Computer Methods in Statistics. Matematyka. Poziom kwalifikacji: II stopnia. Liczba godzin/tydzień: 2W, 3L
Nazwa przedmiotu: Kierunek: Metody komputerowe statystyki Computer Methods in Statistics Matematyka Rodzaj przedmiotu: przedmiot obowiązkowy dla specjalności matematyka przemysłowa Rodzaj zajęć: wykład,
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl
ANALIZA DYNAMIKI DOCHODU KRAJOWEGO BRUTTO
ANALIZA DYNAMIKI DOCHODU KRAJOWEGO BRUTTO Wprowadzenie Zmienność koniunktury gospodarczej jest kształtowana przez wiele różnych czynników ekonomicznych i pozaekonomicznych. Znajomość zmienności poszczególnych
EKONOMETRIA. Prof. dr hab. Eugeniusz Gatnar.
EKONOMETRIA Prof. dr hab. Eugeniusz Gatnar egatnar@mail.wz.uw.edu.pl Sprawy organizacyjne Wykłady - prezentacja zagadnień dotyczących: budowy i weryfikacji modelu ekonometrycznego, doboru zmiennych, estymacji
Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11
Modele DSGE Jerzy Mycielski Maj 2008 Jerzy Mycielski () Modele DSGE Maj 2008 1 / 11 Modele DSGE DSGE - Dynamiczne, stochastyczne modele równowagi ogólnej (Dynamic Stochastic General Equilibrium Model)
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący
WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno
WSTĘP DO REGRESJI LOGISTYCZNEJ Dr Wioleta Drobik-Czwarno REGRESJA LOGISTYCZNA Zmienna zależna jest zmienną dychotomiczną (dwustanową) przyjmuje dwie wartości, najczęściej 0 i 1 Zmienną zależną może być:
Statystyka matematyczna i ekonometria
Statystyka matematyczna i ekonometria prof. dr hab. inż. Jacek Mercik B4 pok. 55 jacek.mercik@pwr.wroc.pl (tylko z konta studenckiego z serwera PWr) Konsultacje, kontakt itp. Strona WWW Elementy wykładu.
Społeczno-gospodarcze aspekty statystyki
PRACE NAUKOWE Uniwersytetu Ekonomicznego we Wrocławiu nr 309 RESEARCH PAPERS of Wrocław University of Economics No. 309 Społeczno-gospodarcze aspekty statystyki Redaktorzy naukowi Zofia Rusnak Edyta Mazurek
Monte Carlo, bootstrap, jacknife
Monte Carlo, bootstrap, jacknife Literatura Bruce Hansen (2012 +) Econometrics, ze strony internetowej: http://www.ssc.wisc.edu/~bhansen/econometrics/ Monte Carlo: rozdział 8.8, 8.9 Bootstrap: rozdział
Weryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta
OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp
tel.: +48 662 635 712 Liczba stron: 15 Data: 20.07.2010r OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA z wykorzystaniem programu obliczeniowego Q maxp DŁUGIE
METODY STATYSTYCZNE W BIOLOGII
METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne
Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej
Ekonometria Wprowadzenie do modelowania ekonometrycznego Estymator Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Wykład 1 Estymator 1 / 16 Agenda 1 Literatura Zaliczenie przedmiotu 2 Model
Etapy modelowania ekonometrycznego
Etapy modelowania ekonometrycznego jest podstawowym narzędziem badawczym, jakim posługuje się ekonometria. Stanowi on matematyczno-statystyczną formę zapisu prawidłowości statystycznej w zakresie rozkładu,
... prognozowanie nie jest celem samym w sobie a jedynie narzędziem do celu...
4 Prognozowanie historyczne Prognozowanie - przewidywanie przyszłych zdarzeń w oparciu dane - podstawowy element w podejmowaniu decyzji... prognozowanie nie jest celem samym w sobie a jedynie narzędziem
Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16
Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego
Ekonometria i prognozowanie Econometrics and prediction
KARTA MODUŁU / KARTA PRZEDMIOTU Kod modułu Nazwa modułu Nazwa modułu w języku angielskim Obowiązuje od roku akademickiego 2013/2014 Ekonometria i prognozowanie Econometrics and prediction A. USYTUOWANIE
Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych
Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych 3.1. Estymacja parametrów i ocena dopasowania modeli z jedną zmienną 23. Właściciel komisu w celu zbadania
STATYSTYKA MATEMATYCZNA
STATYSTYKA MATEMATYCZNA 1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5.
3. Modele tendencji czasowej w prognozowaniu
II Modele tendencji czasowej w prognozowaniu 1 Składniki szeregu czasowego W teorii szeregów czasowych wyróżnia się zwykle następujące składowe szeregu czasowego: a) składowa systematyczna; b) składowa
Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski
Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej
Teoretyczne podstawy analizy indeksowej klasyfikacja indeksów, konstrukcja, zastosowanie
Teoretyczne podstawy analizy indeksowej klasyfikacja indeksów, konstrukcja, zastosowanie Szkolenie dla pracowników Urzędu Statystycznego nt. Wybrane metody statystyczne w analizach makroekonomicznych dr
Wydział Matematyki. Testy zgodności. Wykład 03
Wydział Matematyki Testy zgodności Wykład 03 Testy zgodności W testach zgodności badamy postać rozkładu teoretycznego zmiennej losowej skokowej lub ciągłej. Weryfikują one stawiane przez badaczy hipotezy
PRZEWODNIK PO PRZEDMIOCIE
Nazwa przedmiotu: Kierunek: Statystyka komputerowa Computer statistics Zarządzanie i Inżynieria Produkcji Management and Engineering of Production Rodzaj przedmiotu: Fakultatywny - oferta Poziom studiów:
FORECASTING THE DISTRIBUTION OF AMOUNT OF UNEMPLOYED BY THE REGIONS
FOLIA UNIVERSITATIS AGRICULTURAE STETINENSIS Folia Univ. Agric. Stetin. 007, Oeconomica 54 (47), 73 80 Mateusz GOC PROGNOZOWANIE ROZKŁADÓW LICZBY BEZROBOTNYCH WEDŁUG MIAST I POWIATÓW FORECASTING THE DISTRIBUTION
Zmienne zależne i niezależne
Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }
Matematyka - Statystyka matematyczna Mathematical statistics 2, 2, 0, 0, 0
Nazwa przedmiotu: Kierunek: Matematyka - Statystyka matematyczna Mathematical statistics Inżynieria materiałowa Materials Engineering Rodzaj przedmiotu: Poziom studiów: forma studiów: obowiązkowy studia
Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.
Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru
Testy nieparametryczne
Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów
PRZEWODNIK PO PRZEDMIOCIE
Nazwa przedmiotu: PROGNOZOWANIE Z WYKORZYSTANIEM SYSTEMÓW INFORMATYCZNYCH Kierunek: Informatyka Rodzaj przedmiotu: obowiązkowy w ramach treści kierunkowych Rodzaj zajęć: wykład, laboratorium I KARTA PRZEDMIOTU
Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r
Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
Stanisław Cichocki. Natalia Neherbecka. Zajęcia 13
Stanisław Cichocki Natalia Neherbecka Zajęcia 13 1 1. Kryteria informacyjne 2. Testowanie autokorelacji 3. Modele dynamiczne: modele o rozłożonych opóźnieniach (DL) modele autoregresyjne o rozłożonych
Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.
tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1
Ekonometria. Zastosowania Metod Ilościowych 30/2011
Wroclaw Univesity of Economics From the SelectedWorks of Józef Z. Dziechciarz 2011 Ekonometria. Zastosowania Metod Ilościowych 30/2011 Jozef Z. Dziechciarz, Wroclaw Univesity of Economics Available at:
Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski
Narzędzia statystyczne i ekonometryczne Wykład 1 dr Paweł Baranowski Informacje organizacyjne Wydział Ek-Soc, pok. B-109 pawel@baranowski.edu.pl Strona: baranowski.edu.pl (w tym materiały) Konsultacje:
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.
Sprawdzian 2. Zadanie 1. Za pomocą KMNK oszacowano następującą funkcję produkcji: Gdzie: P wartość produkcji, w tys. jp (jednostek pieniężnych) K wartość kapitału zaangażowanego w proces produkcji, w tys.
Opis zakładanych efektów kształcenia na studiach podyplomowych WIEDZA
Opis zakładanych efektów kształcenia na studiach podyplomowych Nazwa studiów: BIOSTATYSTYKA PRAKTYCZNE ASPEKTY STATYSTYKI W BADANIACH MEDYCZNYCH Typ studiów: doskonalące Symbol Efekty kształcenia dla studiów
KARTA PRZEDMIOTU. 12. PRZEDMIOTOWE EFEKTY KSZTAŁCENIA Odniesienie do kierunkowych efektów kształcenia (symbol)
KARTA PRZEDMIOTU 1. NAZWA PRZEDMIOTU: Ekonometria 2. KIERUNEK: MATEMATYKA 3. POZIOM STUDIÓW: I stopnia 4. ROK/ SEMESTR STUDIÓW: III/6 5. LICZBA PUNKTÓW ECTS: 5 6. LICZBA GODZIN: 30 / 30 7. TYP PRZEDMIOTU
Rozdział 8. Regresja. Definiowanie modelu
Rozdział 8 Regresja Definiowanie modelu Analizę korelacji można traktować jako wstęp do analizy regresji. Jeżeli wykresy rozrzutu oraz wartości współczynników korelacji wskazują na istniejąca współzmienność
Analiza autokorelacji
Analiza autokorelacji Oblicza się wartości współczynników korelacji między y t oraz y t-i (dla i=1,2,...,k), czyli współczynniki autokorelacji różnych rzędów. Bada się statystyczną istotność tych współczynników.
WYZNACZANIE NIEPEWNOŚCI POMIARU METODAMI SYMULACYJNYMI
WYZNACZANIE NIEPEWNOŚCI POMIARU METODAMI SYMULACYJNYMI Stefan WÓJTOWICZ, Katarzyna BIERNAT ZAKŁAD METROLOGII I BADAŃ NIENISZCZĄCYCH INSTYTUT ELEKTROTECHNIKI ul. Pożaryskiego 8, 04-703 Warszawa tel. (0)
Recenzenci Stefan Mynarski, Waldemar Tarczyński. Redaktor Wydawnictwa Anna Grzybowska. Redaktor techniczny Barbara Łopusiewicz. Korektor Barbara Cibis
Komitet Redakcyjny Andrzej Matysiak (przewodniczący), Tadeusz Borys, Andrzej Gospodarowicz, Jan Lichtarski, Adam Nowicki, Walenty Ostasiewicz, Zdzisław Pisz, Teresa Znamierowska Recenzenci Stefan Mynarski,
Stanisław Cihcocki. Natalia Nehrebecka
Stanisław Cihcocki Natalia Nehrebecka 1 1. Kryteria informacyjne 2. Testowanie autokorelacji w modelu 3. Modele dynamiczne: modele o rozłożonych opóźnieniach (DL) modele autoregresyjne o rozłożonych opóźnieniach
Proces modelowania zjawiska handlu zagranicznego towarami
Załącznik nr 1 do raportu końcowego z wykonania pracy badawczej pt. Handel zagraniczny w województwach (NTS2) realizowanej przez Centrum Badań i Edukacji Statystycznej z siedzibą w Jachrance na podstawie
Analiza składowych głównych. Wprowadzenie
Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących
Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1
Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie
Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego
Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego Ze względu na jakość uzyskiwanych ocen parametrów strukturalnych modelu oraz weryfikację modelu, metoda najmniejszych
Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi
Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi Piotr Konieczka Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska D syst D śr m 1 3 5 2 4 6 śr j D 1
Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.
Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru
Ćwiczenia IV
Ćwiczenia IV - 17.10.2007 1. Spośród podanych macierzy X wskaż te, których nie można wykorzystać do estymacji MNK parametrów modelu ekonometrycznego postaci y = β 0 + β 1 x 1 + β 2 x 2 + ε 2. Na podstawie
Metody matematyczne w analizie danych eksperymentalnych - sygnały, cz. 2
Metody matematyczne w analizie danych eksperymentalnych - sygnały, cz. 2 Dr hab. inż. Agnieszka Wyłomańska Faculty of Pure and Applied Mathematics Hugo Steinhaus Center Wrocław University of Science and
MODELE LINIOWE. Dr Wioleta Drobik
MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą
Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2014/2015
Krakowska Akademia im. Andrzeja Frycza Modrzewskiego Karta przedmiotu obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 201/2015 WydziałZarządzania i Komunikacji Społecznej Kierunek studiów:
JEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY
JEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY Będziemy zapisywać wektory w postaci (,, ) albo traktując go jak macierz jednokolumnową (dzięki temu nie będzie kontrowersji przy transponowaniu wektora ) Model
Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH
Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego Łukasz Kończyk WMS AGH Plan prezentacji Model regresji liniowej Uogólniony model liniowy (GLM) Ryzyko ubezpieczeniowe Przykład
Stanisław Cichocki Natalia Neherbecka
Stanisław Cichocki Natalia Neherbecka 13 marca 2010 1 1. Kryteria informacyjne 2. Modele dynamiczne: modele o rozłożonych opóźnieniach (DL) modele autoregresyjne o rozłożonych opóźnieniach (ADL) 3. Analiza
Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12
Stanisław Cichocki Natalia Nehrebecka Zajęcia 11-12 1. Zmienne pominięte 2. Zmienne nieistotne 3. Obserwacje nietypowe i błędne 4. Współliniowość - Mamy 2 modele: y X u 1 1 (1) y X X 1 1 2 2 (2) - Potencjalnie
parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,
诲 瞴瞶 瞶 ƭ0 ƭ 瞰 parametrów strukturalnych modelu Y zmienna objaśniana, = + + + + + X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, α 0, α 1, α 2,,α k parametry strukturalne modelu, k+1 parametrów
STATYSTYKA MATEMATYCZNA WYKŁAD 3. Populacje i próby danych
STATYSTYKA MATEMATYCZNA WYKŁAD 3 Populacje i próby danych POPULACJA I PRÓBA DANYCH POPULACJA population Obserwacje dla wszystkich osobników danego gatunku / rasy PRÓBA DANYCH sample Obserwacje dotyczące
Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński
Mikroekonometria 13 Mikołaj Czajkowski Wiktor Budziński Endogeniczność regresja liniowa W regresji liniowej estymujemy następujące równanie: i i i Metoda Najmniejszych Kwadratów zakłada, że wszystkie zmienne
Badania eksperymentalne
Badania eksperymentalne Analiza CONJOINT mgr Agnieszka Zięba Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa Najpopularniejsze sposoby oceny wyników eksperymentu w schematach
STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.
STATYSTYKA MATEMATYCZNA WYKŁAD 4 WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X. Wysuwamy hipotezy: zerową (podstawową H ( θ = θ i alternatywną H, która ma jedną z
Podstawy ekonometrii. Opracował: dr hab. Eugeniusz Gatnar prof. WSBiF
Podstawy ekonometrii Opracował: dr hab. Eugeniusz Gatnar prof. WSBiF Cele przedmiotu: I. Ogólne informacje o przedmiocie. - Opanowanie podstaw teoretycznych, poznanie przykładów zastosowań metod modelowania
Własności estymatora parametru lambda transformacji potęgowej. Janusz Górczyński, Andrzej Zieliński, Wojciech Zieliński
Własności estymatora parametru lambda transformacji potęgowej Janusz Górczyński, Andrzej Zieliński, Wojciech Zieliński 1. Wstęp Najczęstszym powodem transformowania zmiennej losowej jest jej normalizacja,
Wykorzystanie testu t dla pojedynczej próby we wnioskowaniu statystycznym
Wiesława MALSKA Politechnika Rzeszowska, Polska Anna KOZIOROWSKA Uniwersytet Rzeszowski, Polska Wykorzystanie testu t dla pojedynczej próby we wnioskowaniu statystycznym Wstęp Wnioskowanie statystyczne
Sterowanie wielkością zamówienia w Excelu - cz. 3
Sterowanie wielkością zamówienia w Excelu - cz. 3 21.06.2005 r. 4. Planowanie eksperymentów symulacyjnych Podczas tego etapu ważne jest określenie typu rozkładu badanej charakterystyki. Dzięki tej informacji
METODY ILOŚCIOWE W ZARZĄDZANIU
1.1.1 Metody ilościowe w zarządzaniu I. OGÓLNE INFORMACJE PODSTAWOWE O PRZEDMIOCIE METODY ILOŚCIOWE W ZARZĄDZANIU Nazwa jednostki organizacyjnej prowadzącej kierunek: Kod przedmiotu: RiAF_PS5 Wydział Zamiejscowy
Modelowanie glikemii w procesie insulinoterapii
Dawid Kaliszewski Modelowanie glikemii w procesie insulinoterapii Promotor dr hab. inż. Zenon Gniazdowski Cel pracy Zbudowanie modelu predykcyjnego przyszłych wartości glikemii diabetyka leczonego za pomocą
Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:
Zadania ze statystyki cz. 7. Zad.1 Z populacji wyłoniono próbę wielkości 64 jednostek. Średnia arytmetyczna wartość cechy wyniosła 110, zaś odchylenie standardowe 16. Należy wyznaczyć przedział ufności
Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe
Wprowadzenie do teorii ekonometrii Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Zajęcia Wykład Laboratorium komputerowe 2 Zaliczenie EGZAMIN (50%) Na egzaminie obowiązują wszystkie informacje
Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007
Modele regresji wielorakiej - dobór zmiennych, szacowanie Paweł Cibis pawel@cibis.pl 1 kwietnia 2007 1 Współczynnik zmienności Współczynnik zmienności wzory Współczynnik zmienności funkcje 2 Korelacja
RÓWNOWAŻNOŚĆ METOD BADAWCZYCH
RÓWNOWAŻNOŚĆ METOD BADAWCZYCH Piotr Konieczka Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska Równoważność metod??? 2 Zgodność wyników analitycznych otrzymanych z wykorzystaniem porównywanych
Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka
Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE Joanna Sawicka Plan prezentacji Model Poissona-Gamma ze składnikiem regresyjnym Konstrukcja optymalnego systemu Bonus- Malus Estymacja
WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA
WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA Powtórka Powtórki Kowiariancja cov xy lub c xy - kierunek zależności Współczynnik korelacji liniowej Pearsona r siła liniowej zależności Istotność
Aproksymacja funkcji a regresja symboliczna
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą
METODY STATYSTYCZNE W BIOLOGII
METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne
Statystyka matematyczna i ekonometria
Statystyka matematyczna i ekonometria Wykład 9 Anna Skowrońska-Szmer lato 2016/2017 Ekonometria (Gładysz B., Mercik J., Modelowanie ekonometryczne. Studium przypadku, Wydawnictwo PWr., Wrocław 2004.) 2
EKONOMETRIA STOSOWANA PRZYKŁADOWE ZADANIA EGZAMINACYJNE
EKONOMETRIA STOSOWANA PRZYKŁADOWE ZADANIA EGZAMINACYJNE ZADANIE 1 Oszacowano zależność między luką popytowa a stopą inflacji dla gospodarki niemieckiej. Wyniki estymacji są następujące: Estymacja KMNK,
METODY STATYSTYCZNE W BIOLOGII
METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne
TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.
TESTY NIEPARAMETRYCZNE 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa. Standardowe testy równości średnich wymagają aby badane zmienne losowe
Stanisław Cichocki. Natalia Nehrebecka. Wykład 9
Stanisław Cichocki Natalia Nehrebecka Wykład 9 1 1. Dodatkowe założenie KMRL 2. Testowanie hipotez prostych Rozkład estymatora b Testowanie hipotez prostych przy użyciu statystyki t 3. Przedziały ufności
LABORATORIUM Z FIZYKI
LABORATORIUM Z FIZYKI LABORATORIUM Z FIZYKI I PRACOWNIA FIZYCZNA C w Gliwicach Gliwice, ul. Konarskiego 22, pokoje 52-54 Regulamin pracowni i organizacja zajęć Sprawozdanie (strona tytułowa, karta pomiarowa)
Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 9 marca 2007
, transformacja liniowa i estymacja modelu KMNK Paweł Cibis pawel@cibis.pl 9 marca 2007 1 Miary dopasowania modelu do danych empirycznych Współczynnik determinacji Współczynnik zbieżności Skorygowany R
Statystyka opisowa. Wykład V. Regresja liniowa wieloraka
Statystyka opisowa. Wykład V. e-mail:e.kozlovski@pollub.pl Spis treści 1 Prosta regresji cechy Y względem cech X 1,..., X k. 2 3 Wyznaczamy zależność cechy Y od cech X 1, X 2,..., X k postaci Y = α 0 +
Regresja i Korelacja
Regresja i Korelacja Regresja i Korelacja W przyrodzie często obserwujemy związek między kilkoma cechami, np.: drzewa grubsze są z reguły wyższe, drewno iglaste o węższych słojach ma większą gęstość, impregnowane
Model 1: Estymacja KMNK z wykorzystaniem 4877 obserwacji Zmienna zależna: y
Zadanie 1 Rozpatrujemy próbę 4877 pracowników fizycznych, którzy stracili prace w USA miedzy rokiem 1982 i 1991. Nie wszyscy bezrobotni, którym przysługuje świadczenie z tytułu ubezpieczenia od utraty
Niepewności pomiarów
Niepewności pomiarów Międzynarodowa Organizacja Normalizacyjna (ISO) w roku 1995 opublikowała normy dotyczące terminologii i sposobu określania niepewności pomiarów [1]. W roku 1999 normy zostały opublikowane
Mikroekonometria 14. Mikołaj Czajkowski Wiktor Budziński
Mikroekonometria 14 Mikołaj Czajkowski Wiktor Budziński Symulacje Analogicznie jak w przypadku ciągłej zmiennej zależnej można wykorzystać metody Monte Carlo do analizy różnego rodzaju problemów w modelach
Egzamin / zaliczenie na ocenę*
Zał. nr do ZW /01 WYDZIAŁ / STUDIUM KARTA PRZEDMIOTU Nazwa w języku polskim Identyfikacja systemów Nazwa w języku angielskim System identification Kierunek studiów (jeśli dotyczy): Inżynieria Systemów
ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x
ZJAZD 4 KORELACJA, BADANIE NIEZALEŻNOŚCI, ANALIZA REGRESJI Analiza korelacji i regresji jest działem statystyki zajmującym się badaniem zależności i związków pomiędzy rozkładami dwu lub więcej badanych
t y x y'y x'x y'x x-x śr (x-x śr)^2
Na podstawie:w.samuelson, S.Marks Ekonomia menedżerska Zadanie 1 W przedsiębiorstwie toczy się dyskusja na temat wpływu reklamy na wielkość. Dział marketingu uważa, że reklama daje wysoce pozytywne efekty,
Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych
dr Piotr Sulewski POMORSKA AKADEMIA PEDAGOGICZNA W SŁUPSKU KATEDRA INFORMATYKI I STATYSTYKI Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych Wprowadzenie Obecnie bardzo