EKONOMETRIA ECONOMETRICS 4(38) 2012

Podobne dokumenty
EKONOMETRIA ECONOMETRICS 4(38) 2012

EKONOMETRIA ECONOMETRICS 4(38) 2012

EKONOMETRIA ECONOMETRICS 4(38) 2012

PRZYKŁAD ZASTOSOWANIA DOKŁADNEGO NIEPARAMETRYCZNEGO PRZEDZIAŁU UFNOŚCI DLA VaR. Wojciech Zieliński

EKONOMETRIA ECONOMETRICS 4(38) 2012

STATYSTYKA MATEMATYCZNA WYKŁAD grudnia 2009

EKONOMETRIA ECONOMETRICS 4(38) 2012

Weryfikacja hipotez statystycznych

1 Podstawy rachunku prawdopodobieństwa

O ŚREDNIEJ ARYTMETYCZNEJ I MEDIANIE

EKONOMETRIA ECONOMETRICS 4(38) 2012

Kilka uwag o testowaniu istotności współczynnika korelacji

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

EKONOMETRIA ECONOMETRICS 4(38) 2012

EKONOMETRIA ECONOMETRICS 4(38) 2012

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

EKONOMETRIA ECONOMETRICS 4(38) 2012

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

EKONOMETRIA ECONOMETRICS 4(38) 2012

Wnioskowanie statystyczne. Statystyka w 5

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

O ŚREDNIEJ STATYSTYCZNEJ

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

1 Estymacja przedziałowa

Statystyka w przykładach

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Estymacja punktowa i przedziałowa

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

... prognozowanie nie jest celem samym w sobie a jedynie narzędziem do celu...

EKONOMETRIA ECONOMETRICS 4(38) 2012

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Wykład 9 Wnioskowanie o średnich

Testowanie hipotez statystycznych.

WSPÓŁCZYNNIK DWUMODALNOŚCI BC I JEGO ZASTOSOWANIE W ANALIZACH ROZKŁADÓW ZMIENNYCH LOSOWYCH

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Komputerowa Analiza Danych Doświadczalnych

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

STATYSTYKA MATEMATYCZNA

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Estymacja parametrów rozkładu cechy

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Statystyka Matematyczna Anna Janicka

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

Statystyka matematyczna dla leśników

Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa.

Monte Carlo, bootstrap, jacknife

O ŚREDNIEJ STATYSTYCZNEJ

STATYSTYKA OD PODSTAW Z SYSTEMEM SAS. wersja 9.2 i 9.3. Szkoła Główna Handlowa w Warszawie

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Sterowanie wielkością zamówienia w Excelu - cz. 3

Rozkłady statystyk z próby

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Dopasowywanie modelu do danych

WYKŁAD 5 TEORIA ESTYMACJI II

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Spis treści 3 SPIS TREŚCI

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Testowanie hipotez statystycznych.

Kolokwium ze statystyki matematycznej

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Statystyka matematyczna i ekonometria

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

Rozkłady statystyk z próby. Statystyka

Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd

STATYSTYKA MATEMATYCZNA WYKŁAD 3. Populacje i próby danych

Generowanie ciągów pseudolosowych o zadanych rozkładach przykładowy raport

W1. Wprowadzenie. Statystyka opisowa

STATYSTYKA MATEMATYCZNA WYKŁAD października 2009

Komputerowa analiza danych doświadczalnych

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Ważne rozkłady i twierdzenia c.d.

Rok akademicki: 2013/2014 Kod: ZIE n Punkty ECTS: 6. Poziom studiów: Studia I stopnia Forma i tryb studiów: -

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

STATYSTYKA

Estymacja parametrów w modelu normalnym

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

Metody matematyczne w analizie danych eksperymentalnych - sygnały, cz. 2

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

Pobieranie prób i rozkład z próby

WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO

Uogolnione modele liniowe

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 3

Matematyka - Statystyka matematyczna Mathematical statistics 2, 2, 0, 0, 0

Rozdział 8. Regresja. Definiowanie modelu

Statystyczna analiza awarii pojazdów samochodowych. Failure analysis of cars

Transkrypt:

EKONOMETRIA ECONOMETRICS 4(38) 2012 Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu Wrocław 2012

Redaktor Wydawnictwa: Aleksandra Śliwka Redaktor techniczny: Barbara Łopusiewicz Korektor: Lidia Kwiecień Łamanie: Małgorzata Czupryńska Projekt okładki: Beata Dębska Publikacja jest dostępna w Internecie na stronach: www.ibuk.pl, www.ebscohost.com, The Central European Journal of Social Sciences and Humanities http://cejsh.icm.edu.pl, The Central and Eastern European Online Library www.ceeol.com, a także w adnotowanej bibliografii zagadnień ekonomicznych BazEkonhttp://kangur.uek.krakow.pl/ bazy_ae/bazekon/nowy/index.php Informacje o naborze artykułów i zasadach recenzowania znajdują się na stronie internetowej Wydawnictwa www.wydawnictwo.ue.wroc.pl Kopiowanie i powielanie w jakiejkolwiek formie wymaga pisemnej zgody Wydawcy Copyright by Uniwersytet Ekonomiczny we Wrocławiu Wrocław 2012 ISSN 1507-3866 Wersja pierwotna: publikacja drukowana Druk: Drukarnia TOTEM Nakład: 200 egz

Spis treści Wstęp... 9 Maria Cieślak: Kilka refleksji nad prognozowaniem ekonomicznym... 11 Mariola Piłatowska: Wybór rzędu autoregresji w zależności od parametrów modelu generującego... 16 Vadim Maslij: Bezpośrednie inwestycje zagraniczne na Ukrainie próba budowy prognoz na podstawie wybranych modeli trendu... 36 Filip Chybalski: Niepewność w prognozowaniu dochodów emerytalnych... 46 Monika Papież: Wpływ cen surowców energetycznych na ceny spot energii elektrycznej na wybranych giełdach energii w Europie... 57 Anna Gondek: Rozwój województwa lubuskiego po akcesji Polski do Unii Europejskiej... 69 Katarzyna Cheba: Prognozowanie zmian wytwarzania odpadów komunalnych... 81 Iwona Dittmann: Prognozowanie cen na lokalnych rynkach nieruchomości mieszkaniowych na podstawie analogii przestrzenno-czasowych... 93 Łukasz Mach: Determinanty ekonomiczno-gospodarcze oraz ich wpływ na rozwój rynku nieruchomości mieszkaniowych... 106 Roman Pawlukowicz: Prognostyczne właściwości wartości rynkowej nieruchomości... 117 Aneta Sobiechowska-Ziegert: Prognozowanie ostrzegawcze w małej firmie. 126 Sławomir Śmiech: Analiza stabilności ocen parametrów modeli predykcyjnych dla cen energii na rynku dnia następnego... 135 Edyta Ropuszyńska-Surma, Magdalena Węglarz: Strategie zachowań przedsiębiorstw na rynku ciepła... 145 Aneta Ptak-Chmielewska: Wykorzystanie modeli przeżycia i analizy dyskryminacyjnej do oceny ryzyka upadłości przedsiębiorstw... 157 Maria Szmuksta-Zawadzka, Jan Zawadzki: O metodzie prognozowania brakujących danych w szeregach czasowych o wysokiej częstotliwości z lukami systematycznymi... 173 Maciej Oesterreich: Symulacyjne badanie wpływu częstości występowania luk niesystematycznych w szeregach czasowych na dokładność prognoz.. 186 Marcin Błażejowski: Analiza porównawcza automatycznych procedur modelowania i prognozowania... 197 Tomasz Bartłomowicz: Prognozowanie sprzedaży z wykorzystaniem modelu dyfuzji oraz programu R... 210

6 Spis treści Marcin Relich: Planowanie alternatywnych realizacji projektu informatycznego zagrożonego niepowodzeniem... 221 Monika Dyduch: Gospodarowanie kapitałem w dobie ekonomicznego i gospodarczego kryzysu na przykładzie wybranej inwestycji... 232 Bartosz Lawędziak: Wymogi kapitałowe z tytułu sekurytyzacji w świetle Nowej Umowy Kapitałowej (Bazylea II)... 241 Piotr Peternek: Przedziały ufności dla mediany w nieznanym rozkładzie... 253 Paweł Siarka: Metoda ilorazu odległości zagadnienie graficznej prezentacji obserwacji wielowymiarowych... 268 Agnieszka Sompolska-Rzechuła: Efektywność klasyfikacji a parametryczna metoda doboru cech diagnostycznych... 287 Artur Zaborski: Agregacja preferencji indywidualnych z wykorzystaniem miar odległości i programu R... 298 Justyna Wilk: Zmiany demograficzne w województwach w aspekcie rozwoju zrównoważonego... 308 Michał Świtłyk: Efektywność techniczna publicznych uczelni w latach 2001-2010... 320 Michał Urbaniak: Zastosowanie algorytmu mrówkowego do optymalizacji czasowo-kosztowej projektów informatycznych... 343 Summaries Maria Cieślak: Some remarks on the economic forecasting... 15 Mariola Piłatowska: Autoregressive order selection depending on parameters of generating model... 35 Vadim Maslij: Foreign direct investments in Ukraine an attempt to build forecasts based on the selected trend function... 45 Filip Chybalski: Uncertainty of forecasting retirement incomes... 56 Monika Papież: The impact of prices of energy sources on the electricity spot price on selected power markets in Europe... 68 Anna Gondek: Development of Lubuskie Voivodeship after the accession to the European Union... 80 Katarzyna Cheba: Forecasting changes of municipal waste production... 92 Iwona Dittmann: Forecasting prices on residential real estate local markets based on area-time analogies... 105 Łukasz Mach: Economic determinants and their impact on development of residential real estate market... 115 Roman Pawlukowicz: Terms of prognosis of property market value... 125 Aneta Sobiechowska-Ziegert: Warning forecasting in a small company... 132 Sławomir Śmiech: Analysis of the stability of parameters estimates and forecasts in the next-day electricity prices... 144

Spis treści 7 Edyta Ropuszyńska-Surma, Magdalena Węglarz: Strategies of firms behavior on heat market... 156 Aneta Ptak-Chmielewska: Application of survival models and discriminant analysis in evaluation of enterprises bankruptcy risk... 172 Maria Szmuksta-Zawadzka, Jan Zawadzki: About a method of forecasting of missing data in the high frequency time series with systematic gaps... 185 Maciej Oesterreich: Simulation study of influence of frequency of incidence of non-systematic gaps in time series on accuracy of forecasts... 196 Marcin Błażejowski: Comparative analysis of automatic modeling and prediction procedures... 209 Tomasz Bartłomowicz: Sales forecasting using Bass diffusion model and program R... 220 Marcin Relich: Planning of alternative completion of an IT project in danger of failure... 231 Monika Dyduch: Management of capital in the time of economic crisis on the example of chosen investment... 240 Bartosz Lawędziak: Capital requirements for securitisation in terms of the New Capital Agreement (Basel II)... 252 Piotr Peternek: Confidence intervals for the median in the unknown distribution... 267 Paweł Siarka: Distances ratio method the issue of graphical presentation of the multidimensional observation... 286 Agnieszka Sompolska-Rzechuła: The classification s efficiency for the parametric method of feature selection... 297 Artur Zaborski: Individual preferences aggregation by using distance measures and R program... 307 Justyna Wilk: Demographic changes in voivodeships in the aspect of sustainable development... 319 Michał Świtłyk: Technical effectiveness of public universities in the years 2001-2010... 342 Michał Urbaniak: Ant colony system application for time-cost optimization of software projects... 355

EKONOMETRIA ECONOMETRICS 4(38) 2012 ISSN 1507-3866 Piotr Peternek Uniwersytet Ekonomiczny we Wrocławiu PRZEDZIAŁY UFNOŚCI DLA MEDIANY W NIEZNANYM ROZKŁADZIE Streszczenie: W praktycznych zastosowaniach metod statystyki matematycznej często pomija się założenia, bez których spełnienia korzystanie z poszczególnych narzędzi jest dyskusyjne. Ważnym aspektem jest poszukiwanie metod, które będą odporne na zmiany założeń dotyczących rozkładów cech. W pracy rozpatruje się problem estymacji przedziałowej mediany w kontekście zastosowań do konstrukcji kart kontrolnych dla indywidualnych pomiarów. Proponuje się wykorzystanie uogólnionego rozkładu lambda do odtworzenia danych i konstrukcji przedziału na podstawie tak otrzymanego modelu. Słowa kluczowe: przedziały ufności, metoda najmniejszych kwadratów, kwantyle, karty kontrolne, optymalizacja. 1. Wstęp Problem konstrukcji przedziałów ufności w klasycznym przypadku znanego (zwykle normalnego) rozkładu zmiennej losowej jest zagadnieniem powszechnie znanym i opisanym w podręcznikach statystyki. Problem ten może się jednak znacznie skomplikować w sytuacji, kiedy założenie o znanym rozkładzie nie może być utrzymane, co więcej z racji możliwego do wystąpienia rozkładu nie powinno się konstruować przedziałów ufności wykorzystujących klasyczne statystyki, takie jak średnia czy odchylenie standardowe. W takiej sytuacji brak podstawy do przyjęcia określnego rozkładu F zmusza badaczy do wykorzystania statystyk pozycyjnych, które zwykle nie mają już tak dobrych (w kontekście wymagań dotyczących estymatorów) własności. Należy tu nadmienić, że obserwuje się coraz większe zainteresowanie wykorzystaniem statystyk pozycyjnych w zastosowaniach praktycznych. Znane jest wykorzystanie mediany do określania poziomu ubóstwa w UE czy prezentowanie rankingów wynagrodzeń z wykorzystaniem kwantyli. Ważnym i tradycyjnym zastosowaniem miar pozycyjnych jest wykorzystanie ich w konstrukcji kart kontrolnych. W artykule przedstawiona zostanie metoda umożliwiająca konstrukcję kart kontrolnych i przedziałów ufności dla mediany wykorzystująca uogólniony rozkład lambda. Praktyczną część pracy poprzedzi teoretyczny wywód uzasadniający potrzebę podjęcia tematu.

254 Piotr Peternek 2. Wykorzystanie mediany zamiast średniej Zieliński [2010] w swej pracy przedstawia problem pomiaru X i = µ + ε i, który staje się pretekstem do uzasadnienia podjęcia tematu wykorzystania mediany zamiast klasycznego parametru, jakim jest średnia. Rozpatruje on dwie sytuacje, w których znany lub nieznany jest rozkład błędu ε i popełnianego przy pomiarze. Autor przywoływanej pracy różnicuje też rozkłady, które bada. Pierwszy przypadek dotyczy sytuacji, w której rozkład błędu jest rozkładem normalnym o znanym parametrze σ i wartości oczekiwanej wynoszącej 0, a zatem: X i = µ + ε, E ε = 0, ε i ~ N(0, σ ). (1) i Jest to przykład klasyczny opisywany w podręcznikach statystyki, polegający na tym, że powtarza się i uśrednia pomiary, dzięki czemu redukuje się popełniany przy pomiarze błąd. Im więcej pomiarów, tym błąd staje się coraz mniejszy (rys. 1). 1,8 f(x) 1,6 1,4 1,2 1 0,8 0,6 n = 1 n = 4 n = 16 0,4 0,2 0 x Rys. 1. Rozkład średniej z n-elementowej próby o rozkładzie normalnym Nieco inaczej wyglądać będzie sytuacja, jeżeli założy się, że rozkład błędu będzie pochodził z rodziny rozkładów α-stabilnych, przy czym rozważania ograniczone zostaną w zasadzie wyłącznie do rozkładu Cauchy ego. Okazuje się bowiem, że w takich rozkładach zwiększanie wielkości próby i uśrednianie pomiarów prowadzić może do rozkładów o większym rozrzucie niż pierwotny rozkład. Dla rozkładu Cauchy ego średnia z próby ma dokładnie taki sam rozkład jak pierwotna zmienna.

Przedziały ufności dla mediany w nieznanym rozkładzie 255 n Zauważyć to można, wykorzystując funkcję charakterystyczną zmiennej losowej w rozkładach α-stabilnych, która przyjmuje postać: φ ( t X ) = exp ( i µ t λ t α ). Porównując ją z funkcją charakterystyczną dla średniej z tego samego rozkładu, otrzymu- α 1 α t t α 1 jemy: φ ( t) = exp iµ λ exp iµ t n λt. X = n n n Przypomnijmy, że parametr α jest parametrem skali, μ odpowiada za położenie, a rozproszenie reprezentowane jest przez parametr λ. Ograniczenie zmienności pomiarów takich rozkładów za pomocą średniej wydaje się zatem bezzasadne. Zieliński wskazuje w takim przypadku możliwość wykorzystania mediany z próby, przy czym ogranicza się do mediany z prób nieparzystych (por. [Zieliński 2010]). Mediana z próby ma rozkład dany wzorem: Γ ( n + 1) n + 1 2 2 Γ ( ) n 1 2 µ µ µ F ( x) 1 F ( x) f ( x), gdzie F µ jest rozkładem obserwacji o medianie µ. Zatem dystrybuanta mediany jest dana wzorem: n+ 1 n+ 1 P( Men x) = B F ( x µ ); ;, 2 2 gdzie B jest rozkładem Beta, natomiast F jest rozkładem błędu o medianie 0. Znając zatem rozkład mediany z próby, można przedstawić przedział ufności dla mediany: 1 1 α n+ 1 n+ 1 1 1 α n+ 1 n+ 1 Men F B 1 ; ; ; Men F B ; ;. 2 2 2 2 2 2 Przedstawiony przedział ufności jest wzorem ogólnym i może być wykorzystany dla każdego rozkładu F zmiennej ε i ~ F będącej błędem pomiaru. Wykorzystanie przedziału ufności dla mediany jest ogólniejsze i możliwe do wykorzystania również w sytuacji, gdy rozkład F jest na przykład rozkładem normalnym. Pozostaje natomiast pytanie, na ile lepszy jest przedział ufności wykorzystujący średnią, przy założeniu, że F jest rozkładem normalnym. Przeprowadzone symulacje wskazują jednoznacznie (co jest wynikiem oczekiwanym), że przedziały ufności wykorzystujące medianę są przedziałami szerszymi. Przykładowo dla 21 obserwacji wygenerowanych z rozkładu N(0, 1) dla poziomu ufności 0,95 obliczony przedział ufności dla mediany wyniósł ( 0,59; 0,47), natomiast przedział ufności dla wartości oczekiwanej wynosi ( 0,69; 0,16). Na rysunku 2 przedstawiono różnicę pomiędzy szerokością przedziału ufności dla mediany a szerokością przedziału ufności dla n (2) (3) (4)

256 Piotr Peternek wartości oczekiwanej, w sytuacji danych generowanych z rozkładu N(0, 1) w zależności od wielkości próby. Można zauważyć, że potwierdzają się wyniki o mniejszej dokładności przedziałów ufności dla mediany, jednakże różnice te maleją wraz ze wzrostem liczebności próby. 2,5 2 1,5 1 0,5 0 Liczebność próby Rys. 2. Różnice pomiędzy szerokością przedziałów dla mediany i dla średniej dla rozkładu normalnego w zależności od wielkości próby Zagadnienie wyznaczenia przedziału ufności dla mediany znacznie bardziej komplikuje się w sytuacji, gdy nie jest znany rozkład F błędu pomiaru. Wykorzystanie wzoru (4) jest niestety niemożliwe, a jedynym rozwiązaniem jest uogólnienie problemu i wykorzystanie praw rachunku prawdopodobieństwa. Jeżeli bowiem zmienna X ma rozkład o dystrybuancie F, to zmienna Y = F(X) ma rozkład jednostajny U(0, 1), a zmienna losowa F(X k:n ) ma taki sam rozkład jak k-ta statystyka pozycyjna z n-elementowej próby z rozkładu U(0, 1). Wobec tego można wyznaczyć n k n przedział ufności, korzystając z zależności: 2 n 1 α, s= k s a dokładniej poszukując takiej największej wartości k, dla której prezentowana zależność będzie spełniona. Zauważmy przy tym, że wykorzystanie tej zależności i odnajdowanie granic przedziału ufności jest niezależne od wartości zmiennych i od asymetrii rozkładów, ponieważ zależy jedynie od odpowiednich statystyk pozycyjnych. W tabeli 1 przedstawiono obliczenie niezbędne do wyznaczenia statystyk pozycyjnych dla próby 19-elementowej. I tak, aby uzyskać przedział ufności o poziomie ufności 0,95, nale-

Przedziały ufności dla mediany w nieznanym rozkładzie 257 ży jako dolną granicę tego przedziału wziąć 5 statystykę pozycyjną. Natomiast górną granicę wyznacza 15 statystyka pozycyjna. Taki wybór gwarantuje 98-procentowy przedział ufności. Tabela 1. Obliczenia niezbędne do konstrukcji przedziału ufności dla mediany z wykorzystaniem statystyk pozycyjnych dla n = 19 Numer statystyki pozycyjnej n s n k s= k n s Poziom ufności 1 19 524 286 0,999996 2 171 524 248 0,999924 3 969 523 906 0,999271 4 3 876 521 968 0,995575 5 11 628 514 216 0,980789 6 27 132 490 960 0,936432 7 50 388 436 696 0,832932 8 75 582 335 920 0,640717 9 92 378 184 756 0,352394 10 92 378 11 75 582 12 50 388 13 27 132 14 11 628 15 3 876 16 969 17 171 18 19 19 1 Analogiczny sposób postępowania (zob. tab. 2) przy próbie 5-elementowej nie pozwala uzyskać przedziału ufności o założonym prawdopodobieństwie 0,95. Zauważmy także (już bez szczegółowych obliczeń), że dla próby 65-elementowej przy poziomie ufności 0,95 należy wziąć 25 i 40 statystykę pozycyjną jako odpowiednio dolną i górną granicę przedziału ufności. Mimo pewnych niedoskonałości wynikających z ograniczenia się wyłącznie do liczebności próby przedstawiony sposób umożliwia postępowanie w przypadkach, gdy klasyczne metody statystyki matematycznej wydają się niewystarczające.

258 Piotr Peternek Tabela 2. Obliczenia niezbędne do konstrukcji przedziału ufności dla mediany z wykorzystaniem statystyk pozycyjnych dla n = 5 Numer statystyki pozycyjnej n s n k s= k n s Poziom ufności 1 5 30 0,9375 2 10 20 0,625 3 10 4 5 5 1 3. Uogólniony rozkład lambda podstawy teoretyczne Przedstawione niedoskonałości w konstrukcji przedziału ufności dla mediany dla nieznanego rozkładu stały się przyczyną poszukiwania metod, które zniwelowałyby powyższe niedogodności. Z tego względu spośród kilku propozycji, m.in. Johnsona [1949] czy Burra [1973], warto przyjrzeć się zaproponowanemu przez Ramberga i Schmeisera [1974] tzw. uogólnionemu rozkładowi lambda (General Lambda Distribution).W podejściu Burra ograniczono się w zasadzie tylko do rozkładów asymetrycznych, co jest istotnym ograniczeniem. Podstawową zaletą zaproponowanego przez Ramberga i Schmeisera podejścia, w porównaniu z propozycjami Johnsona i Pearsona, jest wykorzystanie tylko jednej funkcji. Szeroki zakres krzywych odpowiadający kształtom różnych funkcji gęstości może być zatem aproksymowany za pomocą jednej funkcji. Przez uogólniony rozkład lambda rozumie się funkcję postaci: λ3 λ4 p (1 p) Q( p) = xp = λ1 +, (5) λ gdzie x p oznacza kwantyl rozkładu rzędu p, λ1 to parametr położenia, λ 2 to parametr skali, natomiast λ3 i λ4 to parametry kształtu. Rozkład ten został zaproponowany jako uogólnienie przekształcenia proponowanego przez Tukeya w 1960 r. W roku 2000 Kanji i Arif przedstawili w swej pracy tzw. kwantylowy rozkład logistyczny (Quantile Logistic Distribution), który połączył założenie o rozkładzie logistycznym z przekształceniem Ramberga i Schmeistera. Umożliwiło to konstrukcję kart kontrolnych dla pojedynczych pomiarów. Zasadniczą wadą pracy Kanjiego i Arifa jest założenie o rozkładzie logistycznym badanej zmiennej przyjęte ze względu na łatwość estymacji parametrów tak prze- 2

Przedziały ufności dla mediany w nieznanym rozkładzie 259 kształconego rozkładu lambda. Po uwzględnieniu rozkładu logistycznego uogólniony rozkład lambda przyjmuje bowiem postać: η Q( p) = λ + ((1 δ) ln p (1 + δ) ln(1 p), (6) 2 gdzie ληδto,, parametry rozkładu reprezentujące odpowiednio parametr położenia, skali i skośności. Wykorzystanie uogólnionego rozkładu lambda w oryginalnej zaproponowanej przez Ramberga i Schmeistera formie wymaga odpowiednich metod estymacji parametrów. W literaturze wymienia się zasadniczo trzy metody estymacji. Pierwsza to metoda momentów zaproponowana przez Ramberga i Schmeistera (1974), druga to metoda najmniejszych kwadratów zaproponowana i udowodniona przez Ozturka i Dale a w 1985 r. Natomiast trzecia z wyróżnianych metod to metoda gwiezdna (Starshipmethod) przedstawiona przez Kinga i MacGillivray w 1999 r. Wady i zalety tych metod przedstawiono np. w pracy [Lakhany, Mausser 2000]. W niniejszej pracy, podobnie jak zrobiono to w pracy Kanjiego i Arifa [2000], wykorzystano klasyczną metodę najmniejszych kwadratów. Takie postępowanie nie jest jednak pozbawione wad, ponieważ nie gwarantuje uzyskania rozwiązania optymalnego. Przyjęty został sposób optymalizacji nieliniowej pozwalający znaleźć rozwiązanie w ekstremum lokalnym. Niezbędna zatem będzie analiza uzyskanych rozwiązań z uwzględnieniem dobroci dopasowania danych do wartości teoretycznych. Optymalizacji dokonano numerycznie z wykorzystaniem modułu Solver zawartego w pakiecie Excel. Posłużono się klasycznym rozumieniem metody najmniejszych kwadratów, tzn. minimalizowano sumę kwadratów różnic pomiędzy wartościami empirycznymi a wartościami teoretycznymi: 2 n 2 ˆ r i i, 1, 2, 3, 4, min. i= 1 + 1 (7) FC = e = x Q λ λ λ λ n Należy zauważyć, że w miejscu prawdopodobieństw w rozkładzie lambda pojawiły się częstości, a także, co oczywiste i niezmiernie ważne, wartości empiryczne były uporządkowane od najmniejszych do największych. Umożliwiło to porównania dla poszczególnych kwantyli. Dobroć dopasowania danych sprawdzano wzrokowo na wykresie oraz analizowano wartość funkcji celu. W przeprowadzonych symulacjach próbowano zweryfikować możliwość wykorzystania pakietu Excel z modułem optymalizacyjnym Solver do konstrukcji kart kontrolnych i przedziałów ufności dla mediany z wykorzystaniem uogólnionego rozkładu lambda. W tym celu generowano 65-elementowe próby z różnych rozkładów, a następnie do tych prób (rozkładów) dopasowywano uogólniony rozkład lambda. Ze względu na niejednoznaczność uzyskiwanego rozwiązania każda optymalizacja dokonywana była kilkukrotnie, a za punkty startowe przyjmowano zarówno mo-

260 Piotr Peternek menty z próby, jak i punkty losowe. Uzyskanie zadowalającego wyniku estymacji umożliwiało adekwatną konstrukcję kart kontrolnych czy też przedziałów ufności. 4. Wyniki przeprowadzonych symulacji Symulacyjną weryfikację możliwości zastosowania opisanego wyżej sposobu poszukiwania przedziału ufności dla mediany w dowolnym rozkładzie rozpoczęto od sprawdzenia możliwości estymacji parametrów rozkładu przy wykorzystaniu metody najmniejszych kwadratów w module Solver. W tym celu 4-krotnie wygenerowano 65 obserwacji pochodzących z rozkładu N (10, 2), a następnie z rozkładu Cauchy ego (10, 2). Na podstawie danych dokonano estymacji uogólnionego rozkładu lambda z wykorzystaniem MNK i modułu Solvera dla różnych punktów startowych wyniki zaprezentowano w tab. 3 i 4. W tabelach dla każdej z 4 prób przedstawiono rezultaty dwóch estymacji MNK (dwóch różnych punktów startowych) najbardziej zróżnicowanych pod względem wyników. Natomiast na rysunkach 3, 4, 5 i 6 przedstawiono najlepiej i najgorzej dopasowane wyniki zaobserwowane w tab. 3 i 4. Łatwo zauważyć, że w przypadku gdy estymowano parametry uogólnionego rozkładu lambda dla danych pochodzących z rozkładu normalnego, wartości funkcji celu przyjmowały rezultaty zadowalające, a różnice pomiędzy wynikami osiągniętymi dla różnych punktów startowych były niewielkie. Potwierdzają to rys. 3 i 4, na których widać wyraźnie dobre dopasowanie danych empirycznych do teoretycznych. Niestety zupełnie inaczej wygląda sytuacja w przypadku, gdy estymowany był rozkład Cauchy ego. Uzyskane wyniki dotyczące zarówno wartości funkcji celu, jak i dopasowania dla różnych punktów startowych są niesatysfakcjonujące (por. tab. 4 oraz rys. 5 i 6). Tabela 3. Wyniki symulacji GLD (General Lambda Distribution) dla danych z rozkładu normalnego N(10,2) FC λ 1 λ 2 λ 3 λ 4 1 próba 5,66 11,41 0,20 13,50 2,23 4,77 9,73 0,00 0,00 0,00 2 próba 2,79 10,19 0,00 0,00 0,00 2,79 10,20 0,00 0,00 0,00 3 próba 2,60 9,97 0,11 0,12 0,11 2,60 9,97 0,11 0,12 0,11 4 próba 1,10 1,18 0,11 0,16 0,12 1,10 10,18 0,11 0,16 0,12

Przedziały ufności dla mediany w nieznanym rozkładzie 261 Tabela 4. Wyniki symulacji GLD dla danych z rozkładu Cauchy ego Cauchy (10, 2) FC λ 1 λ 2 λ 3 λ 4 1 próba 4770,47 1985,51 0,00 0,00 97,42 3590,19 2234,83 0,00 0,00 105,60 2 próba 1388,50 2084,88 0,00 0,00 108,39 1816,98 1925,56 0,00 0,00 102,92 3 próba 962,15 9,59 0,00 54,12 43,48 11556,89 224,49 0,00 0,04 59,47 4 próba 620,52 1701,65 0,00 0,00 130,65 757,45 1527,73 0,00 0,00 123,19 Rys. 3. Dopasowanie danych empirycznych do GLD rozkład normalny Rys. 4. Dopasowanie danych empirycznych do GLD rozkład normalny

262 Piotr Peternek Rys. 5. Dopasowanie danych empirycznych do GLD rozkład Cauchy ego Rys. 6. Dopasowanie danych empirycznych do GLD rozkład Cauchy ego Jeżeli zatem uznamy, że estymacja parametrów uogólnionego rozkładu lambda z wykorzystaniem metody najmniejszych kwadratów dla danych pochodzących z rozkładu normalnego jest wystarczająco dobra, to możliwe jest skonstruowanie odpowiedniej karty kontrolnej dla mediany. Jeżeli bowiem dane przedstawione w postaci graficznej na rys. 3 zapisano za pomocą odpowiadającej funkcji kwanty- 0,16 0,12 p (1 p) lowej: Q( p) = xp = 10,18 +, to możliwe jest odtworzenia wartości 0,11 zmiennej dla zadanego prawdopodobieństwa. Przypomnijmy, że dane generowane

Przedziały ufności dla mediany w nieznanym rozkładzie 263 były z rozkładu normalnego o wartości oczekiwanej równej 10, zatem dla prawdopodobieństwa p = 0,5 wartość odpowiadającego temu prawdopodobieństwu kwantyla wynosi 10, a z uogólnionego rozkładu lambda uzyskuje się: 0,16 0,12 0,5 (1 0,5) Q(0,5) = 10,18 + = 9,99. 0,11 Bez problemu można zatem skonstruować, podobnie jak robili to Kanji i Arif, granice kart kontrolnych, przyjmując np. tzw. przedziały 3-sigmowe, zawierające 99,73% obserwacji, czy też prezentowane w tab. 5 przedziały 95-procentowe. Tabela 5. Granice 95-procentowych kart kontrolnych dla mediany N(10,2) DLK GLK 1 próba 6,62 15,02 6,30 14,86 2 próba 5,39 14,67 5,39 14,66 3 próba 5,07 14,76 5,07 14,76 4 próba 6,16 13,51 6,16 13,51 W tym celu do uogólnionego rozkładu lambda w miejscu prawdopodobieństwa wstawia się odpowiednio wartości p = 0,025 dla wyliczenia dolnej linii kontrolnej (DLK) oraz p = 0,975 dla górnej linii kontrolnej (GLK). Przy wykorzystaniu uogólnionego rozkładu lambda możliwa jest także inna konstrukcja przedziału ufności dla mediany. Jeżeli bowiem, jak to opisano wcześniej, dla n = 65 obserwacji 95-procentowy przedział ufności realizowany jest odpowiednio przez 25 i 40 statystykę pozycyjną, to dla 65 obserwacji stanowią one kwantyle odpowiednio: 25/65 = 0,38416 oraz 40/65 = 0,6154. Korzystając teraz z uogólnionego rozkładu lambda, można wyznaczyć granice przedziału ufności dla poszczególnych wartości parametrów lambda. Wyniki te przedstawione w tab. 6 wskazują, że różne wyniki estymacji parametrów pozwalają na uzyskanie stosunkowo bliskich wartości dolnej (DGP) i górnej (GGP) granicy przedziałów ufności. Tabela 6. Granice 95-procentowego przedziału ufności dla danych generowanych z rozkładu normalnego N(10,2) FC λ 1 λ 2 λ 3 λ 4 DGP GGP 1 próba 5,66 11,41 0,20 13,50 2,23 9,69 10,82 4,77 9,73 0,00 0,00 0,00 9,51 10,61 2 próba 2,79 10,19 0,00 0,00 0,00 9,53 10,72 2,79 10,20 0,00 0,00 0,00 9,53 10,73 3 próba 2,60 9,97 0,11 0,12 0,11 9,41 10,49 2,60 9,97 0,11 0,12 0,11 9,41 10,49 4 próba 1,10 10,18 0,11 0,16 0,12 9,43 10,53 1,10 10,18 0,11 0,16 0,12 9,43 10,53

264 Piotr Peternek Tak dobre wyniki uzyskane dla rozkładu normalnego skonfrontowano z wynikami, które uzyskano dla rozkładu Cauchy ego (przypomnijmy, że wyniki estymacji uznano za niesatysfakcjonujące). Niestety, potwierdzone zostały wcześniejsze wnioski o braku dopasowania uogólnionego rozkładu lambda do danych pochodzących z rozkładu Cauchy ego (zob. tab. 7). Tabela 7. Granice 95-procentowego przedziału ufności dla danych generowanych z rozkładu normalnego Cauchy (10, 2) FC λ 1 λ 2 λ 3 λ 4 DGP GGP 1 próba 4 770,47 1985,51 0,00 0,00 97,42 11,19 11,68 3 590,19 2234,83 0,00 0,00 105,60 10,85 12,35 2 próba 1 388,50 2084,88 0,00 0,00 108,39 10,70 12,56 1 816,98 1925,56 0,00 0,00 102,92 10,88 12,62 3 próba 962,15 9,59 0,00 54,12 43,48 9,59 9,59 11 556,89 224,49 0,00 0,04 59,47 11,08 15,12 4 próba 620,52 1701,65 0,00 0,00 130,65 10,66 13,13 757,45 1527,73 0,00 0,00 123,19 10,77 13,08 Tabela 8. Granice 95-procentowego przedziału ufności dla danych generowanych z rozkładu chi-kwadrat Chi 2( 10) FC λ 1 λ 2 λ 3 λ 4 DGP GGP 1 próba 20,23 19,47 0,07 31,00 0,49 8,06 10,41 34,38 6,59 0,00 0,00 0,00 8,05 10,32 2 próba 14,54 7,74 0,14 0,16 0,34 7,84 10,00 14,54 7,74 0,14 0,16 0,34 7,84 10,00 3 próba 54,31 14,61 0,05 24,50 0,24 6,98 9,57 7,98 6,64 0,00 0,00 0,00 7,57 10,19 4 próba 10,27 13,19 0,10 7,62 1,47 8,38 11,02 7,40 5,84 0,04 0,03 0,27 8,19 11,07 Powstało zatem pytanie, czy tak zły wynik dla rozkładu Cauchy ego to przypadek czy też grube ogony tego rozkładu uniemożliwiają dokładniejszą estymację parametrów uogólnionego rozkładu lambda, co skutkuje brakiem możliwości wykorzystania uogólnionego rozkładu lambda do konstrukcji przedziałów ufności. Zdecydowano się zatem na powtórzenie tego typu symulacji dla rozkładu chi-kwadrat o 10 stopniach swobody, a następnie dla rozkładów typu dyskretnego, tzn. dla rozkładu dwumianowego oraz rozkładu Poissona. Wyniki prezentują tab. 8, 9 i 10.

Przedziały ufności dla mediany w nieznanym rozkładzie 265 Tabela 9. Granice 95-procentowego przedziału ufności dla danych generowanych z rozkładu Poissona Poisson (10) FC λ 1 λ 2 λ 3 λ 4 DGP GGP 1 próba 10,16 8,04 0,03 0,03 0,10 8,44 10,23 9,14 11,79 0,14 10,50 1,65 8,57 10,36 2 próba 12,47 8,53 0,05 0,06 0,10 8,30 9,97 Poisson (2) 17,30 11,75 0,13 12,35 1,72 8,34 10,25 1 próba 5,30 5,04 0,19 90,90 0,64 1,16 2,17 6,63 3,13 0,30 1,29 0,21 1,11 2,19 2 próba 8,30 3,38 0,26 0,96 0,21 1,45 2,64 7,08 3,31 0,25 12,39 1,74 1,62 2,58 Tabela 10. Granice 95-procentowego przedziału ufności dla danych generowanych z rozkładu dwumianowego Dwumianowy (200; 0,05) FC λ 1 λ 2 λ 3 λ 4 DGP GGP 1 próba 5,68 8,95 0,17 0,44 0,53 8,27 10,19 5,87 9,16 0,19 2,86 3,02 8,30 10,16 2 próba 15,96 6,63 0,09 0,09 0,44 7,92 10,11 Dwumianowy (100; 0,1) 15,57 9,92 0,15 4,37 2,42 8,00 10,05 1 próba 5,30 5,04 0,19 90,90 0,64 8,73 10,29 6,63 3,13 0,30 1,29 0,21 8,84 10,38 2 próba 19,17 10,34 0,27 0,27 0,30 9,84 11,05 15,74 9,62 0,12 4,75 13,75 9,70 10,47 Należy zauważyć, że z wyjątkiem jednego przypadku wszystkie pozostałe przedziały ufności zawierały znaną teoretyczną wartość mediany. Zatem wyniki uzyskane dla rozkładu Cauchy ego muszą być związane z charakterystycznymi własnościami tego rozkładu. 5. Podsumowanie Wykorzystanie uogólnionego rozkładu lambda jest interesującą propozycją umożliwiającą konstrukcję przedziałów ufności dla dowolnych rozkładów. Znaczące ograniczenie jego zastosowania wynika z możliwości i dokładności estymacji parametrów modelu. Dla klasycznych rozkładów optymalizacje uzyskiwane z wykorzy-

266 Piotr Peternek staniem modułu Solver zawartego w pakiecie MS Excel wydawały się wystarczająco dobre. Niestety, w przypadku analizowanych rozkładów o grubych ogonach wyniki estymacji parametrów rozkładu lambda były dalekie od oczekiwań i tym samym bezzasadne było ich stosowanie. Niezwykle ważne w tej sytuacji wydaje się poszukiwanie takiej metody estymacji parametrów uogólnionego rozkładu lambda, która zapewniałaby najdokładniejsze dopasowanie modelu do danych, ponieważ tylko taki wynik gwarantuje poprawność konstrukcji przedziałów ufności i kart kontrolnych. Warto by porównać wyniki estymacji parametrów uzyskiwane za pomocą opisywanych w literaturze metod z wynikami uzyskanymi za pomocą prezentowanej klasycznej metody najmniejszych kwadratów. Ważne wydaje się także przeprowadzenie większej liczby symulacji tak, by można było ocenić odporność uzyskiwanego estymatora przedziałowego. Mimo opisanych niedogodności wydaje się, że opisana metoda konstrukcji przedziałów ufności i kart kontrolnych w przypadku nieznajomości rozkładu może okazać się skuteczna. Potwierdzeniem tego są przeprowadzone w pracy symulacje. Zauważmy jednak, że aby skutecznie korzystać z opisanego podejścia, uogólniony rozkład lambda musi być wystarczająco dobrze dopasowany do danych empirycznych. Literatura Alloway J.A., Raghavachari M., Control chart based on the Hodges-Lehmann estimator, Journal of Quality Technology 1991. Burr I.W., Parameters for a general system of distributions to match a grid of α 3 and α 4, Communications in Statistics 1973, vol. 2. Janacek G.J., Meikle S.E., Control charts based on medians, Journal of Royal Statistical Society series D, 1997. Johnson N.L., Systems of frequency curves generated by methods of translation, Biometrika 1949, v. 36. Kanji G.K., Arif O.K., Median rankit control chart by the quantile approach, Journal of Applied Statistics 2000. King R.A, MacGillivray H.L., A starship estimation method for the generalized Lambda distribution, Australian and New Zealand Journal of Statistic 1999, no 41(3). Lakhany A., Mausser H., Estimating the parameters of the generalized lambda distribution, Algo Research Quarterly vol. 3, no 3, December 2000. Montgomery D.C., Introduction to Statistical Quality Control, 2000. Ramberg J.S.,Tadikmalla P.R., Dudewicz E.J., Mykytka E.F., A probability distribution and its uses in fitting data, Technometrics 1979, vol. 21. Ramberg J.S., Schmeiser B.W., An approximate method for generating asymmetric random variable, Communications of the ACM, 1974. Tukey J.W., The future of data analysis, Ann. Math. Statist. 1962, V. 33. Zieliński R., O średniej arytmetycznej i medianie, Matematyka Stosowana tom 11/52, 2010.

Przedziały ufności dla mediany w nieznanym rozkładzie 267 CONFIDENCE INTERVALS FOR THE MEDIAN IN THE UNKNOWN DISTRIBUTION Summary: In practical applications of methods of mathematical statistics the assumptions without which the use of each tool is debatable are often passed over. An important aspect is the search for methods that will be resistant to the change of the assumptions about the distributions. It is proposed to use generalized Lambda distribution to fit distribution and to construct control charts for median. Keywords: confidence intervals, metod of the smallest squares, quantiles, control charts, optimization.