B A D A N I A O P E R A C Y J N E I D E C Y Z J E Nr 3 2009 Robert KAPŁON* ROZKŁAD A PRIORI W CZYNNIKU BAYEOWKIM A WYBÓR MODELU KLA UKRYTYCH Na etapie wyboru liczby egmentów w analizie kla ukrytych kryteria informacyjne ą częto toowane. zczególne miejce zajmuje tutaj kryterium bayeowkie BIC, które można wyprowadzić dokonując pewnych uprozczeń z koncepcji czynnika bayeowkiego. W czynniku tym pojawia ię rozkład a priori parametrów, którego nie ma w BIC. Z tego względu w pracy podjęto próbę znalezienia takiego rozkładu a priori, aby kuteczność tak powtałego kryterium była więkza niż kuteczność BIC. łowa kluczowe: analiza kla ukrytych, czynnik bayeowki, rozkład a priori, kryterium informacji BIC, wybór modelu. Wprowadzenie Wyboru między kilkoma modelami konkurencyjnymi można dokonać, poługując ię metodami wniokowania tatytycznego. Przykładem ą dość częto toowane tety, oparte na ilorazie funkcji wiarygodności. Jeśli pełnione ą warunki regularności, to rozkład chi-kwadrat jet rozkładem granicznym tatytyki tetowej. Gdy te warunki nie ą pełnione a tak jet w wypadku analizy kla ukrytych rozkład jet nieznany, co utrudnia weryfikację hipotez. Utrudnia, lecz nie uniemożliwia, gdyż można, wykorzytując podejście boottrapowe, aprokymować rozkład nieznanej tatytyki [4]. Biorąc pod uwagę czaochłonność tych obliczeń, rezygnuje ię z takiego podejścia i touje ię kryteria informacyjne. Jednak i tutaj pojawia ię problem, gdyż itnieje wiele kryteriów, o odmiennej podtawie koncepcyjnej, których ocena rozważanych modeli może być odmienna. Z tego też względu prowadzi ię badania ymulacyjne, * Intytut Organizacji i Zarządzania Politechniki Wrocławkiej, ul. moluchowkiego 25, 50-372 Wrocław, e-mail: robert.kaplon@pwr.wroc.pl
88 R KAPŁON zmierzające do roztrzygnięcia, które kryteria i dla jakich modeli ą najbardziej wiarygodne. W pracy [2] przeprowadzono takie badania dla binarnego modelu kla ukrytych. Okazało ię m.in., że kryterium Akaike a AIC częściej wkazywało model właściwy (wzorcowy) niż kryterium bayeowkie BIC. Ponieważ BIC jet przybliżeniem, przypadkiem zczególnym czynnika bayeowkiego, pojawia ię więc pytanie, czy możliwe jet poprawienie wyników dla kryterium BIC poprzez dodatkowe/odpowiednie uwzględnienie rozkładu a priori parametrów? W kontekście tak potawionego pytania celem opracowania jet dobór takiego rozkładu a priori parametrów binarnego modelu kla ukrytych w czynniku bayeowkim, aby dla rozważanych w pracy [2] modeli zwiękzyć liczbę poprawnych wkazań w tounku do kryterium BIC. 2. Czynnik bayeowki a BIC Dokonując wyboru między dwoma konkurencyjnymi modelami M 0 i M przy założeniu, że preferencje odnośnie do wkazania któregoś z nich ą identyczne można połużyć ię czynnikiem bayeowkim (baye factor): f ( Y M 0) BF =. f ( Y M ) Jeśli BF >, to model M 0 zotaje wybrany. Kluczową kwetią w obliczeniu tego czynnika jet znalezienie rozkładu a poteriori dla każdego modelu. Rozkład ten definiuje ię natępująco: f ( Y M ) = f ( Y Θ, M ) p( Θ M ) dθ. () Parametry modelu M reprezentowane ą przez wektor Θ = (Θ,..., Θ r ); p(θ M) jet rozkładem a priori i odzwierciedla on wiedzę badacza o nieznanych parametrach modelu, zanim próba zotanie pobrana. Ze względu na trudności w obliczeniu całki we wzorze (), dokonuje ię aprokymacji. W tym celu rozkład a poteriori przedtawia ię w potaci (por. [7], [5]): f ( Y M ) = exp[ h( Θ)] dθ, (2) gdzie h(θ) = log f(y, Θ M). Rozwijając h(θ) w zereg Taylora z reztą Peana w punkcie Θ ~ otrzymujemy: ~ ~ T ~ ~ T ~ ~ ~ h( Θ) = h( Θ) + ( Θ Θ) h ( Θ) 0.5( Θ Θ) H ( Θ)( Θ Θ) + o( Θ Θ) ),
Rozkład a priori w czynniku bayeowkim... 89 ~ gdzie macierz heianu H ( Θ ~ ) = h ( Θ). Ponieważ Θ ~ jet wartością, w której funkcja przyjmuje makimum (moda a poteriori), wzór (2) można więc zapiać w potaci: ~ T ~ f ( Y M ) = exp[ h( Θ)] dθ exp[ h( Θ ~ )] exp[0.5( Θ Θ) H ( Θ ~ )( Θ Θ)] dθ. (3) Przez podobieńtwo funkcji podcałkowej (3) do wielowymiarowego rozkładu normalnego można ją zapiać w potaci: ~ ~ r / 2 ~ / 2 f ( Y M ) f ( Y Θ, M ) p( Θ M )(2π ) H ( Θ). (4) Jet to tzw. aprokymacja Laplace a, której błąd jet rzędu O(n )(por. [7], [6]). Znalezienie wartości Θ ~ bywa kłopotliwe, dlatego pewnym rozwiązaniem jet zatąpienie ich etymatorami najwiękzej wiarygodności (MLE) Θˆ. Okazuje ię, że błąd tej aprokymacji jet tego amego rzędu co (4), jednak należy pamiętać, że jet ona mniej dokładna zwłazcza wtedy, gdy wzrata wpływ rozkładu a priori w tounku do funkcji wiarygodności [3]. Biorąc pod uwagę MLE, rząd błędu, dokonując jednocześnie monotonicznego przekztałcenia (4) otrzymujemy: 2log f ( Y M ) = 2log f ( Y Θˆ, M ) 2log p( Θˆ M ) r log 2π log ( ˆ + H Θ) O( n ). Jeśli oberwacje ą niezależne i pochodzą z tego amego rozkładu, próba jet duża, H ( Θ ~ ) ni, gdzie I jet macierzą informacji Fihera wyznaczoną dla jednej oberwacji, to powyżze równanie można zapiać w potaci: 2log f ( Y M ) = 2log f ( Y Θˆ, M ) 2log p( Θˆ M ) r log 2π + r log n + log I O( n / 2 lub wykorzytując definicję kryterium bayeowkiego BIC: ˆ / 2 2log f ( Y M ) = BIC 2log p( Θ M ) r log 2π + log I O( n ). (5) Z równania (5) można wniokować, że zatąpienie czynnika bayeowkiego, a dokładnie rozkładu a poteriori przez BIC, zwiękza błąd aprokymacji do rzędu pierwzego, czyli O(). Oznacza to, że przy n ozacowanie zbiega do prawdziwej wartości 2log f (Y M) powiękzonej o pewną tałą. Okazuje ię jednak (por. [6]), że jeśli za rozkład a priori przyjąć wielowymiarowy rozkład normalny o wartościach średnich Θˆ oraz macierzy kowariancji I, to równanie (5) redukuje ię wtedy do BIC, a błąd aprokymacji do O(n /2 ). W kontekście otatniej uwagi nauwa ię pytanie, czy możemy zaproponować jakiś inny rozkład a priori parametrów, którego uwzględnienie może poprawić kutecz- ),
90 R KAPŁON ność kryterium BIC. Chodzi więc o to, aby znaleźć taki rozkład a priori, dla którego kryterium zdefiniowane natępująco: BICP = BIC 2log p( Θˆ M ) (6) będzie odznaczało ię więkzą kutecznością we wkazywaniu najlepzych modeli niż kryterium BIC. 3. Rozkład a priori w czynniku bayeowkim W analizie kla ukrytych, w której wytępują zmienne binarne, należy ozacować prawdopodobieńtwa tego, że zmienna o indekie j ( j =,..., J ) przyjmie wartość pod warunkiem, że należy do klay ( =,..., ) oraz prawdopodobieńtwa przynależności do tejże klay. Niech te prawdopodobieńtwa wynozą odpowiednio θ j oraz π. Za rozkład a priori parametrów, przy założeniu ich niezależności, można przyjąć rozkład Dirichleta (por. []): p( θ a) = = J j = a θ j B( a, a ) Γ( a +... + a ) p( π a) = Γ( a )... Γ( a ) ( θ ) = π a j, a Na nieznane parametry a = (a,..., a ) nałożono ograniczenie, tzn. przyjęto, że będą one równe w każdej klaie w obrębie rozważanego modelu. Dodatkowo, a to już wynika ze pecyfiki rozkładu, każdy parametr jet więkzy od zera. Uwzględniając to, logarytm rozkładu łącznego dla modelu o klaach można zapiać natępująco: gdzie: log p ( Θ a ) = log p ( θ, π a ) = Δ ( a ) + ( a ) Φ ( Θ, a ), (7) Γ ( a ) Γ( a ) Δ ( a ) = log, Φ ( Θ, a ) = log θ ( θ ) + π. B( a, a ) J. j j = j = = 4. Opi ekperymentu W pracy [2] przeprowadzono ekperyment kuteczności kryteriów informacyjnych, w tym kryterium BIC. Plan ekperymentu zakładał, że znany jet model na-
Rozkład a priori w czynniku bayeowkim... 9 zwano go modelem wzorcowym. W konekwencji obliczone kryteria dla tego modelu powinny być mniejze niż dla modeli konkurencyjnych. Im częściej taka ytuacja wytępowała, tym bardziej wiarygodne było kryterium informacyjne. Model wzorcowy otrzymywano w ten poób, że generowano parametry modelu kla ukrytych (prawdopodobieńtwa warunkowe), uwzględniając takie kładowe ekperymentu jak: wielkość próby, liczbę zmiennych, podobieńtwo kla, liczba kla ukrytych oraz ich wielkość. Różne kombinacje poziomów powyżzych kładowych pozwoliły na otrzymanie 20, 24 i 36 modeli wzorcowych odpowiednio o, 2 i 3 klaach ukrytych. To z kolei dało podtawę do wygenerowania oberwacji i ozacowania parametrów modelu wzorcowego o liczbie kla w (w =, 2, 3) oraz modelu o jedną klaę więcej w + i jedną klaę mniej w. Oczywiście, jeśli w =, to ozacowano tylko model z dwiema klaami. Procedurę generowania prawdopodobieńtw powtórzono 50 razy dla każdego modelu, zacując jednocześnie parametry ty. modeli. Zgromadzony materiał tatytyczny, w oparciu o (6) i (7), pozwolił obliczyć intereujące kryterium informacyjne w funkcji nieznanego parametru a dla klay : BICP = BIC 2log p ( Θˆ a ), (8) gdzie Θˆ jet etymatorem najwiękzej wiarygodności parametrów modelu. Jeśli w jet modelem wzorcowym, to obliczona dla niego wartość kryterium BICP powinna być mniejza od wartości tego kryterium obliczonego dla modeli konkurencyjnych, co odpowiada natępującemu warunkowi: BICPw + t {,} w> lub t = w= t > BICP w, w =, 2, 3. Z kolei uwzględniając (8) i (9), pozukuje ię takich wartości a, a 2, a 3, a 4, aby poniżza nierówność p ( Θˆ a ) w+ t w+ t log < BICPw t w, gdzie BICw w BICw t t w p ˆ +, +, = + {,} > t w w( Θ a 2 w) lub = = BIC zachodziła jak najczęściej. Pozukiwania prowadzone ą przy natępujących warunkach: a) wartości parametrów należą do przedziału (0, 2] i wyliczane ą z dokładnością do części etnych; b) parametry a, a 2, a 3, a 4 tworzą ciąg monotoniczny; w (9) (0) W przywołanej pracy modelu wzorcowego z jedną klaą ukrytą nie rozważano. Tutaj jet to konieczne, gdyż pozukuje ię wartości parametrów rozkładu a priori. Jeśliby z tego zrezygnować, to mogłoby ię okazać, że pozukiwane parametry przyjmą wartość gwarantującą wybór modelu z dwiema klaami niezależnie od tego, czy model z jedną klaą byłby bardziej odpowiedni.
92 R KAPŁON c) uwzględnia ię tylko taki zbiór wartości parametrów, dla których efektywność kryterium BICP w jet nie mniejza niż dla BIC w, Biorąc pod uwagę komplikowaną naturę warunku (0), wykorzytano metodę przezukiwania ieciowego (grid earch) przetrzeni parametrów. Założono więc, zgodnie z punktem a), że a i ={0.0, 0.02,..., 2} dla każdego i =, 2, 3, 4. Przetrzeń parametrów zdefiniowano jako iloczyn kartezjańki: a a 2, a a 2 a 3, i a 2 a 2 a 4 odpowiednio dla modelu wzorcowego z, 2 i 3 klaami ukrytymi. Dla każdej zdefiniowanej kombinacji parametrów zliczano, ile razy nierówność (0) zachodzi. Makymalne wartości, wiążące ię ze tuprocentową kutecznością kryterium BICP, ą równe liczbie modeli wzorcowych przemnożonej przez liczbę powtórzeń, a więc: 000, 200 i 800. W tym miejcu należy wpomnieć, że przyjęcie jako makymalnej wartości parametru liczby 2 nie jet w itocie ważnym ograniczeniem. Wtępne badania ymulacyjne pokazały, że zwiękzenie zakreu zaadniczo nie wpływa na wyniki. Ta ama uwaga dotyczy rzędu dokładności parametrów. Ważne natomiat jet to, że w tym przedziale znajduje ię wartość, czyli wartość, dla której rozważane kryterium redukuje ię w przybliżeniu do kryterium BIC. Nałożona monotoniczności w punkcie b) jet itotna, gdyż bez niej optymalne wartości parametru a 4 będą wyznaczane przy warunku, że model z 4 klaami nie będzie wybierany. Tym amym próba rozzerzenia zagadnienia na więkzą liczbę kla i włączenia modelu wzorcowego z 4 klaami pokazałaby, że otrzymane wartości ą niewłaściwe. Inaczej jet w wypadku pozotałych parametrów. Przykładowo, z jednej trony a 3 dobierany jet tak, aby model z 3 klaami nie zotał wybrany, z drugiej natomiat wręcz odwrotnie. Nowe kryterium nie powinno być mniej efektywne niż kryterium BIC. Wtedy jet en jego wprowadzenia. Dlatego ze zbioru potencjalnych wartości parametrów wybrano te, dla których liczba poprawnych wkazań modeli wzorcowych dla BICP jet więkza od BIC. 5. Ekperyment i jego wyniki Otrzymano pokaźny zbiór wartości parametrów, pełniający warunki opiane w rozdziale trzecim. Aby dokonać ich wyboru, należy roztrzygnąć, dla których z nich umaryczna poprawność wkazań jet najwiękza. Trzeba jednak pamiętać, że różne kombinacje kładowych ekperymentu dotarczyły różnej liczby modeli wzorcowych, dlatego przed zumowaniem otrzymane wyniki podzielono przez 20, 24 i 36 odpowiednio dla modelu wzorcowego z, 2 i 3 klaami ukrytymi. Zdecydowano również, że nie zotaną wybrane te wartości parametrów, dla których oiągnięto makymalny wynik, gdyż jak w każdym badaniu tatytycznym powtórzenie ekperymentu nie gwarantuje otrzymania tych amych wartości parame-
Rozkład a priori w czynniku bayeowkim... 93 trów. Mając to na względzie, wybrano wzytkie te a, a 2, a 3, a 4, dla których umaryczna poprawność wkazań nie różniła ię więcej niż o % od wartości najlepzej. Natępnie dla takiego zbioru zbudowano model regreji, w którym zmienną zależną były parametry, natomiat zmienna niezależna reprezentowała liczbę kla. W wyniku doboru odpowiedniego modelu i etymacji jego parametrów otrzymano aˆ = 0,26 +,72, =, 2, 3, 4, () (0,004) (0,006) gdzie oznacza liczbę kla rozważanego modelu, a wartości błędów ozacowań podano w nawiaie. Taki model jet bardzo dobrze dopaowany do danych empirycznych, na co wkazuje wyoka wartość wpółczynnika determinacji, przekraczająca 0,99. Wyznaczone na podtawie równania () wartości parametrów w rozkładzie a poteriori przyczyniają ię do więkzej kuteczności kryterium BICP niż BIC. Dokładne wartości poprawnych wkazań dla rozważanych kryteriów zawiera zamiezczona tabela. Tabela. umaryczna liczba poprawnych wkazań Model Liczba poprawnych wkazań dla modelu wzorcowego klaa 2 klay 3 klay BICP 000 947 50 BIC 000 9 37 Ź ródł o: Opracowanie włane. Wzrot kuteczności kryterium BICP dla modelu wzorcowego z 2 klaami jet nieznaczny (niecałe 4%), gdyż BIC dość dobrze radziło obie ze wkazywaniem właściwego modelu. Jednak efektywność BIC dratycznie ię obniżyła, gdy model wzorcowy poiadał 3 klay. Toteż dodanie do BIC rozkładu a priori powodowało wzrot kuteczności o 58%. Bibliografia [] CONGDON P., Bayeian Model for Categorical Data, Wiley 2005. [2] KAPŁON R., Liczba kupień w binarnym modelu kla ukrytych, Raport erii PRE, Politechnika Wrocławka, 2009. [3] KA R.E., RAFTERY A.E., Baye Factor, Journal of the American tatitical Aociation, 995, 90(430),. 773 795. [4] MCLACHLAN, G.J., On boottrapping the likelihood ratio tet tatitic for the number of component in a normal mixture, Journal of the Royal tatitical ociety erie C (Applied tatitic), 987, 36,. 38 324. [5] RAFTERY A.E., Baye factor and BIC Comment on A critique of the Bayeian information criterion for model election, ociological Method and Reearch, 999, 27,. 4 427.
94 R KAPŁON [6] RAFTERY A.E., Bayeian model election in ocial reearch (with dicuion), ociological Methodology, 995, 25,. 96. [7] TIERNEY L., KADANE J.B., Accurate approximation for poterior moment and marginal ditribution, Journal of the American tatitical Aociation, 986, 8(393),. 82 86. Prior ditribution for Baye factor and latent cla model election Etimating the value of parameter in latent cla analyi, one need to know the number of cluter in advance. It i crucial to determine a criterion which enable confirmation of the uperiority of one number of clae over the other. A tatitical approach, which i baed on a likelihood ratio tet (LRT), contend with the difficultie of aeing the null ditribution of LRT tatitic. A a remedy, information criteria like the Bayeian information criterion (BIC) can be ued. Thi criterion i an approximation of a Baye factor that depend on the prior ditribution. Apparently, if one combine BIC and a uitable prior, the effectivene of uch a criterion increae in comparion to the tandard BIC. In thi article we propoe uch a prior ditribution. In order to do thi, a imulation tudy i carried out and the data collected enable the contruction of a nonlinear regreion model. The number of clae and the value of the required parameter are choen a the predictor and the dependent variable, repectively. uch an approach enable the etimation of the value of the parameter a priori given the number of cluter. The performance of the new criterion i better than the Bayeian information criterion by up to 58%. Keyword: latent cla analyi, Baye factor, prior ditribution, BIC information criterion, model election