Identyfikacja determinant bogactwa dochodowego z zastosowaniem modelu logitowego

Podobne dokumenty
Stanisław Cichocki Natalia Nehrebecka. Zajęcia 4

Natalia Nehrebecka. Zajęcia 4

STATYSTYKA MATEMATYCZNA WYKŁAD 5 WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH

Stanisław Cichocki. Natalia Nehrebecka. Wykład 7

65120/ / / /200

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Weryfikacja hipotez dla wielu populacji

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Stanisław Cichocki. Natalia Nehrebecka. Wykład 7

Natalia Nehrebecka. Wykład 2

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Ntli Natalia Nehrebecka. Dariusz Szymański. Zajęcia 4

Natalia Nehrebecka. Zajęcia 3

W praktyce często zdarza się, że wyniki obu prób możemy traktować jako. wyniki pomiarów na tym samym elemencie populacji np.

Egzamin ze statystyki/ Studia Licencjackie Stacjonarne/ Termin I /czerwiec 2010

ZASTOSOWANIE METOD WAP DO OCENY POZIOMU PRZESTRZENNEGO ZRÓŻNICOWANIA ROZWOJU ROLNICTWA W POLSCE

KURS STATYSTYKA. Lekcja 6 Regresja i linie regresji ZADANIE DOMOWE. Strona 1

) będą niezależnymi zmiennymi losowymi o tym samym rozkładzie normalnym z następującymi parametrami: nieznaną wartością 1 4

Badanie współzależności dwóch cech ilościowych X i Y. Analiza korelacji prostej

Natalia Nehrebecka. Dariusz Szymański

ANALIZA WPŁYWU OBSERWACJI NIETYPOWYCH NA WYNIKI MODELOWANIA REGIONALNEJ WYDAJNOŚCI PRACY

ZASTOSOWANIE METOD EKONOMETRYCZNYCH DO BADANIA HETEROGENICZNOŚCI OBIEKTÓW

Problemy jednoczesnego testowania wielu hipotez statystycznych i ich zastosowania w analizie mikromacierzy DNA

KURS STATYSTYKA. Lekcja 1 Statystyka opisowa ZADANIE DOMOWE. Strona 1

Mikroekonometria 10. Mikołaj Czajkowski Wiktor Budziński

Procedura normalizacji

TAKSONOMICZNA ANALIZA ROZWOJU TRANSPORTU DROGOWEGO W POLSCE

dy dx stąd w przybliżeniu: y

DZIAŁALNOŚĆ INWESTYCYJNA GOSPODARSTW ROLNYCH


Plan wykładu: Typowe dane. Jednoczynnikowa Analiza wariancji. Zasada: porównać zmienność pomiędzy i wewnątrz grup

EKONOMETRIA Wykład 4: Model ekonometryczny - dodatkowe zagadnienia

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Analiza danych OGÓLNY SCHEMAT. Dane treningowe (znana decyzja) Klasyfikator. Dane testowe (znana decyzja)

ANALIZA KORELACJI WYDATKÓW NA KULTURĘ Z BUDŻETU GMIN ORAZ WYKSZTAŁCENIA RADNYCH

Modele wieloczynnikowe. Modele wieloczynnikowe. Modele wieloczynnikowe ogólne. α β β β ε. Analiza i Zarządzanie Portfelem cz. 4.

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Kształtowanie się firm informatycznych jako nowych elementów struktury przestrzennej przemysłu

Zjawiska masowe takie, które mogą wystąpid nieograniczoną ilośd razy. Wyrazów Obcych)

Badania sondażowe. Braki danych Konstrukcja wag. Agnieszka Zięba. Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa

PROSTO O DOPASOWANIU PROSTYCH, CZYLI ANALIZA REGRESJI LINIOWEJ W PRAKTYCE

( ) ( ) 2. Zadanie 1. są niezależnymi zmiennymi losowymi o. oraz. rozkładach normalnych, przy czym EX. i σ są nieznane. 1 Niech X

Stanisław Cichocki. Natalia Nehrebecka. Wykład 7

STATYSTYKA MATEMATYCZNA

MODELOWANIE LICZBY SZKÓD W UBEZPIECZENIACH KOMUNIKACYJNYCH W PRZYPADKU WYSTĘPOWANIA DUŻEJ LICZBY ZER, Z WYKORZYSTANIEM PROCEDURY KROSWALIDACJI

PROGNOZOWANIE SPRZEDAŻY Z ZASTOSOWANIEM ROZKŁADU GAMMA Z KOREKCJĄ ZE WZGLĘDU NA WAHANIA SEZONOWE

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

Regresja liniowa i nieliniowa

ZESZYTY NAUKOWE INSTYTUTU POJAZDÓW 5(96)/2013

Badanie współzaleŝności dwóch cech ilościowych X i Y. Analiza korelacji prostej. Badanie zaleŝności dwóch cech ilościowych. Analiza regresji prostej

Mikroekonometria 15. Mikołaj Czajkowski Wiktor Budziński

Ocena stopnia zagrożenia bezrobociem województw Polski w latach

WPROWADZENIE DO ANALIZY KORELACJI I REGRESJI

System Przeciwdziałania Powstawaniu Bezrobocia na Terenach Słabo Zurbanizowanych SPRAWOZDANIE Z BADAŃ Autor: Joanna Wójcik

VI MISTRZOSTWA POLSKI URZĘDÓW MARSZAŁKOWSKICH W PIŁCE NOŻNEJ LUBELSKIE 2013 ZAMOŚĆ, września 2013 r. KOMUNIKAT KOŃCOWY

0. Oszacowanie kilku prostych regresji, interpretacja oszacować parametrów

METODA UNITARYZACJI ZEROWANEJ Porównanie obiektów przy ocenie wielokryterialnej. Ranking obiektów.

ANALIZA PRZESTRZENNA PROCESU STARZENIA SIĘ POLSKIEGO SPOŁECZEŃSTWA

PRZESTRZENNE ZRÓŻNICOWANIE WYBRANYCH WSKAŹNIKÓW POZIOMU ŻYCIA MIESZKAŃCÓW MIAST ŚREDNIEJ WIELKOŚCI A SYSTEM LOGISTYCZNY MIASTA 1

ANALIZA PORÓWNAWCZA WYNIKÓW UZYSKANYCH ZA POMOCĄ MIAR SYNTETYCZNYCH: M ORAZ PRZY ZASTOSOWANIU METODY UNITARYZACJI ZEROWANEJ

SPOŁECZNO-DEMOGRAFICZNE UWARUNKOWANIA KSZTAŁTOWANIA SIĘ WYDATKÓW ŻYWNOŚCIOWYCH W GOSPODARSTWACH DOMOWYCH W POLSCE. Marek Gałązka

OeconomiA copernicana 2013 Nr 3. Modele ekonometryczne w opisie wartości rezydualnej inwestycji

Analiza struktury zbiorowości statystycznej

Portfele zawierające walor pozbawiony ryzyka. Elementy teorii rynku kapitałowego

Statystyka Opisowa 2014 część 2. Katarzyna Lubnauer

0 0,2 0, p 0,1 0,2 0,5 0, p 0,3 0,1 0,2 0,4

Proces narodzin i śmierci

Analiza rodzajów skutków i krytyczności uszkodzeń FMECA/FMEA według MIL STD A

Nieparametryczne Testy Istotności

Parametry zmiennej losowej

EKONOMETRYCZNA ANALIZA WPŁYWU CZYNNIKÓW SUBIEKTYWNYCH NA DZIAŁALNOŚĆ SPÓŁEK NOTOWANYCH NA GIEŁDZIE PAPIERÓW WARTOŚCIOWYCH W WARSZAWIE

BADANIA OPERACYJNE. Podejmowanie decyzji w warunkach niepewności. dr Adam Sojda

Zarządzanie ryzykiem w przedsiębiorstwie i jego wpływ na analizę opłacalności przedsięwzięć inwestycyjnych

IID = 2. i i i i. x nx nx nx

SZACOWANIE NIEPEWNOŚCI POMIARU METODĄ PROPAGACJI ROZKŁADÓW

Analiza i diagnoza sytuacji finansowej wybranych branż notowanych na Warszawskiej Giełdzie Papierów Wartościowych w latach

Modelowanie procesów i wspomaganie decyzji finansowych

Stanisław Cichocki. Natalia Nehrebecka. Wykład 11

Mikroekonometria 10. Mikołaj Czajkowski Wiktor Budziński

Propozycja modyfikacji klasycznego podejścia do analizy gospodarności

Funkcje i charakterystyki zmiennych losowych

MIARA ZRÓŻNICOWANIA WYPOSAŻENIA GOSPODARSTW ROLNYCH W TECHNICZNE ŚRODKI PRODUKCJI

MATERIAŁY I STUDIA. Zeszyt nr 286. Analiza dyskryminacyjna i regresja logistyczna w procesie oceny zdolności kredytowej przedsiębiorstw

FOLIA POMERANAE UNIVERSITATIS TECHNOLOGIAE STETINENSIS Folia Pomer. Univ. Technol. Stetin. 2011, Oeconomica 285 (62), 19 26

Rachunek prawdopodobieństwa i statystyka W 11: Analizy zależnościpomiędzy zmiennymi losowymi Model regresji wielokrotnej

SYSTEMY UCZĄCE SIĘ WYKŁAD 7. KLASYFIKATORY BAYESA. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Regionalne zróżnicowanie cen zbóż w Polsce w latach

brak podstaw do odrzucenia hipotezy zerowej.

A C T A U N I V E R S I T A T I S N I C O L A I C O P E R N I C I EKONOMIA XXXIX NAUKI HUMANISTYCZNO-SPOŁECZNE ZESZTYT 389 TORUŃ 2009.

Dobór zmiennych objaśniających

1.1. Uprość opis zdarzeń: 1.2. Uprościć opis zdarzeń: a) A B A Uprościć opis zdarzeń: 1.4. Uprościć opis zdarzeń:

Rozwiązania (lub wskazówki do rozwiązań) większości zadań ze skryptu STATYSTYKA: MATERIAŁY POMOCNICZE DO ZAJĘĆ oraz EGZAMINÓW Z LAT

Wielomianowe modele zagrożenia finansowego przedsiębiorstw

ELASTYCZNOŚĆ BEZROBOTNYCH WZGLĘDEM PRODUKCJI SPRZEDANEJ PRZEMYSŁU BRUTTO W WYBRANYCH WOJEWÓDZTWACH POLSKI

Współczynnik korelacji liniowej oraz funkcja regresji liniowej dwóch zmiennych

Statystyka Opisowa 2014 część 1. Katarzyna Lubnauer

Prawdopodobieństwo i statystyka r.

Zastosowanie wielowymiarowej analizy porównawczej w doborze spó³ek do portfela inwestycyjnego Zastosowanie wielowymiarowej analizy porównawczej...

Minister Edukacji Narodowej Pani Katarzyna HALL Ministerstwo Edukacji Narodowej al. J. Ch. Szucha Warszawa Dnia 03 czerwca 2009 r.

Analiza porównawcza rozwoju wybranych banków komercyjnych w latach

Transkrypt:

Zarządzane Fnanse Journal of Management and Fnance Vol. 13, No. 4//015 Anna Sączewska-Potrowska * Identyfkacja determnant bogactwa dochodowego z zastosowanem modelu logtowego Wstęp Przeprowadzane badana rozkładu dochodów dotyczą w głównej merze nerównośc oraz skupają sę na gospodarstwach domowych dysponujących najnższym dochodam, czyl na gospodarstwach ubogch. Przecwstawnym do ubóstwa dochodowego jest bogactwo dochodowe, które ne jest dobrze rozpoznanym zjawskem. Dotychczasowe badana bogactwa dochodowego dotyczą główne jego zasęgu. Należy podkreślć, że zasęg bogactwa w różnych grupach gospodarstw domowych ne jest tak sam, poneważ różne czynnk zwększają lub zmnejszają szanse na wystąpene tego zjawska. Celem nnejszego opracowana jest dentyfkacja czynnków wpływających na bogactwo dochodowe gospodarstw domowych, a narzędzem umożlwającym tę dentyfkację jest model logtowy (model regresj logstycznej). 1. Bogactwo dochodowe podstawowe pojęca Problemem pojawającym sę na początku badana bogactwa jest zdefnowane tego zjawska. Bogactwo może być rozumane jako stan posadana odpowadający wąskej elce majątkowej społeczeństwa, szczytom jego najzamożnejszych warstw [Żarnowsk, 199]. Bogactwo jest węc dentyfkowane z najwyższym pozomem zamożnośc, przy czym pozom dochodów ne jest tożsamy z pozomem zamożnośc [Radzukewcz, 006, s. 1]. Bogactwo dochodowe jest pojęcem węższym nż bogactwo, poneważ jest ono postrzegane jedyne przez pryzmat dochodów, będąc tym samym przecwstawnym do ubóstwa dochodowego. Po zdefnowanu bogactwa dochodowego należy przejść do wyznaczena grancy bogactwa, czyl odpowedzeć na pytane o mnmalną wysokość dochodów, jake należy osągnąć, aby zostać uznanym za bogatego. W badanach emprycznych zamożnośc można spotkać grance operające na bezwzględnej welkośc dochodów przypadających na * Dr, Katedra Metod Statystyczno-Matematycznych w Ekonom, Wydzał Ekonom, Unwersytet Ekonomczny w Katowcach, ul. 1 Maja 50, 40-87 Katowce, anna.saczewska-potrowska@ue.katowce.pl

4 Anna Sączewska-Potrowska osobę lub na gospodarstwo domowe. Przykładowo, T. Słaby [Konsumpcja, 006, s. 8] termnem elta ekonomczna określa grupę wysokodochodowych gospodarstw domowych, których dochody wynoszą powyżej 5000 zł mesęczne na osobę. W badanu przeprowadzonym przez KPMG przyjęto, że osoby bogate zamożne to osoby osągające mesęczne dochód powyżej 7100 zł brutto [KPMG w Polsce, 014]. Podejśce take ma newątplwe jedną wadę tak wyznaczona granca mus być cągle korygowana, poneważ należy każdorazowo przy jej wyznaczanu uwzględnać pozom nflacj. Kolejna metoda wyznaczana grancy bogactwa dochodowego bazuje na udzale dochodu najbogatszych p% gospodarstw domowych. W badanach emprycznych najczęścej przyjmowane jest 5% lub 1%, np. [Top, 007; Legh, 009]. Grancy bogactwa tak rozumanej ne wybrano w analze w sposób celowy, poneważ ne można wtedy analzować zman odsetka bogatych gospodarstw, gdyż w każdym okrese odsetek ten jest równy przyjętemu pozomow p%. Granca bogactwa dochodowego może być równeż ustalana jako k-krotność medany rozkładu dochodów ekwwalentnych, przy czym przyjmuje sę najczęścej dwu-, trzy- czterokrotność medany. W przeprowadzonej analze przyjęto grancę bogactwa oblczoną jako dwukrotność medany rozkładów dochodów ekwwalentnych. Przyjęce grancy bogactwa wyższej nż 00% medany powoduje, że odsetek bogatych gospodarstw domowych jest bardzo nsk, co unemożlwa przeprowadzene warygodnej analzy w grupach gospodarstw domowych ze względu na małe lczebnośc tych grup lub wręcz brak gospodarstw domowych w nektórych z wyróżnonych grup. Mając ustaloną grancę bogactwa, można oblczyć wskaźnk statystyczne, pozwalające na analzę tego zjawska. Podstawowym mernkem jest stopa bogactwa dochodowego (rchness headcount rato), określona wzorem [Pechl nn, 008]: R HC n 1 r ( x, ρ ) = I( x > ρ) =, (1) n = 1 n gdze: ρ lna bogactwa, I( ) funkcja wskaźnkowa, przyjmująca wartość 1, gdy gospodarstwo domowe jest bogate oraz 0 w przecwnym wypadku, r lczba bogatych gospodarstw domowych, n lczba gospodarstw z dochodam x, x,..., x. Stopa bogactwa nformuje o udzale 1 n bogatych gospodarstw domowych w grupe gospodarstw ogółem.

Identyfkacja determnant bogactwa dochodowego 43 Na podstawe danych projektu Dagnoza społeczna oblczono zasęg bogactwa dochodowego, wykorzystując w tym celu wspomnaną grancę bogactwa dwukrotność medany rozkładu dochodów ekwwalentnych 1. Zasęg bogactwa oblczono dla lat 000, 003, 005, 007, 009, 011 oraz 013 (są to wszystke lata, w których realzowano badane). Granca bogactwa była oblczana osobno w każdym z badanych lat. Wynk oblczeń zaprezentowano na rysunku 1. Rysunek 1. Zasęg bogactwa dochodowego w Polsce w latach 000 013 Źródło: Opracowane własne na podstawe [Rada Montorngu Społecznego, 014]. Stosując jako grancę bogactwa dochodowego trzy- czterokrotność medany, odsetk bogatych gospodarstw domowych w latach 000 013 były dosyć nske ne przekroczyły odpowedno,7% oraz 1,%. Przyjmując jako lnę 00% medany rozkładu dochodów ekwwalent- 1 Wszystke oblczena wykresy wykonano w programe R [R Development Core Team, 015].

44 Anna Sączewska-Potrowska nych, odsetk bogatych gospodarstw wahały sę w grancach od 7,0% do 9,7%. Spadek udzału bogatych gospodarstw domowych (według wszystkch trzech granc bogactwa) mał mejsce w 011 r., u podłoża czego stał newątplwe kryzys fnansowy, który wpłynął negatywne na budżety gospodarstw domowych. W kolejnym kroku zbadano, które czynnk wpływają na bogactwo dochodowe gospodarstw domowych, stosując w tym celu model logtowy.. Dwumanowy model logtowy Model logtowy może być modelem dwumanowym lub welomanowym. Dwumanowy model logtowy jest modelem, którego można użyć w celu opsana wpływu zmennych X 1, X,..., X k (jakoścowych lub loścowych) na dychotomczną zmenną Y. W przypadku modelu welomanowego zmenna objaśnana Y przyjmuje węcej nż dwe wartośc. W przeprowadzonej analze zmenna objaśnana przyjmowała dwe wartośc, stąd właścwą postacą był model dwumanowy. Nech Y oznacza zmenną dychotomczną o wartoścach: 1 jeżel dany warant wystąp, 0 jeżel dany warant ne wystąp. Wówczas [Stansz, 007, s. 19 0]: k exp a0 + a x = 1 p = P( Y = 1 X 1 = x1, X = x,..., X k = xk ) =, () k 1 + exp a0 + a x = 1 gdze a ( = 0,1,..., k) są współczynnkam regresj. Model () jest węc modelem wążącym prawdopodobeństwo jednego z dwóch możlwych wynków zmennej Y ze zmennym objaśnającym. Współczynnk regresj są zazwyczaj estymowane metodą najwększej warygodnośc. exp w modelu () są najczęścej nterpretowane za pomocą Wartośc ( ) a pojęca lorazu szans (odds rato). Szansa jest defnowana jako prawdopodobeństwo wystąpena zdarzena do prawdopodobeństwa newystąpena zdarzena. Iloraz szans dwóch porównywanych grup A B defnowany jest jako stosunek szansy wystąpena A do szansy wystąpena B. W modelu logtowym w przypadku zmennej dychotomcznej X loraz szans pokazuje, lokrotne zmena sę szansa u jednostk, dla której X = 1 względem jednostk, dla której X = 0, przy nezmenonych wartoścach pozostałych zmennych objaśnających. exp a jest równe szanse dla grupy referencyjnej, tzn. gru- Wyrażene ( ) 0

Identyfkacja determnant bogactwa dochodowego 45 py, w której wszystke zmenne objaśnające są równe zero. Gdy zmenna X jest zmenną loścową, to loraz szans mów, jak zmen sę szansa, jeżel zmenna X wzrośne o jedną jednostkę przy pozostałych zmennych ustalonych [Jackowska, 011]. Do testowana statystycznej stotnośc poszczególnych parametrów modelu można zastosować standardowy test t Studenta, natomast do testowana statystycznej stotnośc wszystkch parametrów przy zmennych objaśnających test lorazu warygodnośc (tzw. LR test). W teśce LR hpoteza zerowa głos, że wszystke parametry są równe zero, natomast hpoteza alternatywna, że przynajmnej jeden z parametrów jest różny od zera. Statystyka lorazu warygodnośc jest określona wzorem [Gruszczyńsk, 001, s. 64; Ksążek, 013, s. 60 61]: LR = ( ln L ln L ), (3) 0 FM gdze L FM jest maksymalną warygodnoścą oszacowanego modelu (zawerającego zmenne objaśnające), L 0 jest maksymalną warygodnoścą modelu ogranczonego, zawerającego jedyne wyraz wolny. Statystyka LR ma dla dużych prób rozkład χ z k stopnam swobody, gdze k jest lczbą zmennych objaśnających w modelu. Jakość zbudowanego modelu można równeż ocenć, korzystając z testu Hosmera-Lemeshowa, który dla różnych podgrup danych (najczęścej dla grup decylowych) porównuje obserwowane lczebnośc oczekwane lczebnośc występowana wartośc wyróżnonej. Hpoteza zerowa głos, że obserwowane oczekwane lczebnośc są równe we wszystkch wyróżnonych podgrupach, natomast hpoteza alternatywna, że różną sę one w przynajmnej jednej podgrupe. Statystyka testowa ma postać [Węckowska, 015, s. 319]: ( O E ) HL, (4) g= 1 E g E 1 g N g = G gdze O g to obserwowane lczebnośc, E g to oczekwane lczebnośc, N g to lczba obserwacj w grupe g, G to lczba podgrup. Statystyka ta ma asymptotyczne (dla dużych lcznośc) rozkład χ z G stopnam swobody. Należy podkreślć, że w przypadku Hosmera-Lemeshowa brak podstaw do odrzucena hpotezy zerowej jest pożądany, poneważ wskazuje na podobeństwo lcznośc obserwowanych oczekwanych. g g

46 Anna Sączewska-Potrowska Marą dopasowana modelu jest równeż mara zaproponowana R McFadden ln LFM = 1. (5) ln L przez McFaddena (tzw. pseudo- R ) określona wzorem [Stansz, 007, s. 51]: Pseudo- R bazuje na porównanu wartośc funkcj warygodnośc w oszacowanym modelu modelu bez zmennych objaśnających. Mara ta przyjmuje wartośc z zakresu [0,1], należy jednak podkreślć, że w modelach logtowych nska wartość pseudo- R, zwłaszcza przy dużych zborach danych, ne śwadczy o złym dopasowanu modelu [Gruszczyńsk, 001, s. 56]. Jak podkreśla D. McFadden [1977], wartośc z zakresu 0, 0,4 śwadczą o bardzo dobrym dopasowanu modelu do danych. Do oceny jakośc dopasowana modelu można równeż zastosować kryterum nformacyjne Akakego AIC, które pozwala porównać ze sobą modele różnące sę jedyne zestawem zmennych objaśnających. Kryterum nformacyjne Akakego wyraża sę wzorem [Ksążek, 013, s. 61]: 0 AIC = ln LFM + k. (6) Do opsu badanego zjawska należy wybrać model o mnmalnej wartośc AIC. Często najważnejszą marą dopasowana w modelach logtowych jest ch zdolność predyktywna. Należy podkreślć, ze termn prognoza w odnesenu do danych przekrojowych dotyczy pewnej jednostk obserwacj, a ne jednostk czasu. Mkroprognozy mogą dotyczyć jednostek znajdujących sę w próbe, a także jednostek spoza próby. Model logtowy pozwala ustalć mkroprognozy: prognozę pˆ prawdopodobeństwa p oraz prognozę ŷ wartośc y (1 lub 0), tzn. mkroprognozę zmennej Y dla -tej jednostk obserwacj [Gruszczyńsk, 001, s. 78]. Prognozę pˆ wyznacza sę jednoznaczne, pod warunkem dysponowana danym lczbowym o zmennych objaśnających. Wartośc teoretyczne zmennej objaśnanej ŷ można wyznaczyć według standardowej zasady prognozy: 1dla pˆ > 0, 5 yˆ =. (7) 0 dla pˆ 0, 5

Identyfkacja determnant bogactwa dochodowego 47 W próbach nezblansowanych (lczba wartośc y = 1 znaczne różn sę od lczby wartośc y = 0) do prognozowana wartośc teoretycz- nych pownno sę przyjąć zasadę [Gruszczyńsk, 001, s. 80]: 1dla pˆ > p * yˆ =, (8) 0 dla pˆ p * gdze p * jest nową wartoścą odcnającą (cut-off pont), wyznaczoną dla danej próby oraz dla danego badana. Dla wybranego punktu odcęca można zbudować tablcę trafnośc oraz oblczyć na jej podstawe następujące mernk [Gruszczyńsk, 001, s. 83 84; Dudek, Dybcak, 006; Jackowska, Wycnka, 009; Harańczyk, 010]: 1. Skuteczność reguły decyzyjnej (accuracy), zwana równeż zlczeno- wym R, określająca udzał poprawne prognozowanych przez model przypadków w łącznej lczbe przypadków: n00 + n11 ACC =, (9) n 11 = gdze n 00 jest lczbą obserwacj, dla których y = yˆ = 0, natomast n jest lczbą obserwacj, dla których y yˆ = 1, n to lczba obserwacj.. Czułość (senstvty) będąca proporcją obserwacj trafne przewdywanych przez model jedynek w ogólnej lczbe zaobserwowanych jedynek : n11 SENS =, (10) n 1 gdze n 1 jest sumą y = 1, nezależne od tego, czy y ˆ = 1 czy y ˆ = 0. 3. Specyfczność (specfty) określająca udzał trafne przewdzanych przez model zer w grupe zaobserwowanych zer : n00 SPEC =, (11) n 0 gdze n 0 jest sumą y = 0 nezależne od tego, czy y ˆ = 1 czy y ˆ = 0. Jeżel mamy do czynena z mlonem obserwacj, to stneje mlon potencjalnych punktów odcęca, czyl mlon tablc trafnośc do przeanalzowana, spośród których należy wybrać tę z najlepszym podzałem. Aby dokonać tego wyboru, warto wykorzystać krzywe ROC (recever operatng characterstc), ne tylko po to, aby znaleźć optymalny punkt, ale równeż ocenć jakość skonstruowanego modelu. Konstrukcja krzywej

48 Anna Sączewska-Potrowska ROC wygląda następująco: dla każdego z punktów odcęca należy oblczyć czułość specyfczność, a następne zaznaczyć otrzymane wynk na wykrese. Tradycyjne zaznacza sę je w układze współrzędnych, gdze na os odcętych jest 1-specyfczność, a na os rzędnych czułość. Uzyskane punkty należy ze sobą połączyć. Im węcej różnych wartośc badanego wskaźnka, tym gładsza uzyskana krzywa. Jeśl przyjmujemy równe koszty błędnych klasyfkacj, to optymalnym punktem odcęca jest punkt krzywej ROC znajdujący sę najblżej punktu o współrzędnych (0,1) [Harańczyk, 010]. Drugm, często stosowanym w praktyce prostym kryterum wyboru punktu odcęca jest przyjęce udzału jedynek w próbe [Jackowska, Wycnka, 009]. W celu oceny jakośc modelu na podstawe krzywej ROC można wylczyć pole pod wykresem krzywej, oznaczane jako AUC (area under curve), traktować go jako marę dobroc trafnośc danego modelu. Jakość klasyfkacyjna modelu jest dobra, gdy krzywa znajduje sę powyżej przekątnej y = x, czyl gdy AUC jest wększe od 0,5. W tym celu testuje sę hpotezę zerową mówącą o tym, że pole pod wykresem krzywej ROC jest równe 0,5 (czyl wartośc mnmalnej). Statystyka testowa ma postać [Węckowska, 015, s. 319]: AUC ˆ 0,5 Z = (1) Var ˆ ( AUC ˆ ) gdze V ar ˆ ( AUˆ C) jest estymatorem warancj pola A UˆC. Statystyka Z ma asymptotyczne (dla dużych lcznośc) rozkład normalny. Neodrzucene hpotezy zerowej oznacza, że model ne ma żadnej mocy predykcyjnej [Kopczewska nn, 009, s. 53 533]. 3. Determnanty bogactwa dochodowego w Polsce Analzę determnant bogactwa dochodowego przeprowadzono dla 013 r. z wykorzystanem danych projektu Dagnoza społeczna. W badanu wzęło udzał prawe 11 tys. gospodarstw domowych. Jako grancę bogactwa przyjęto dwukrotność medany rozkładu dochodów ekwwalentnych. Zmenną zależną w modelu logtowym była zmenna zerojedynkowa: 1, gdy gospodarstwo domowe jest bogate, Y = (13) 0, gdy gospodarstwo domowe ne jest bogate,

Identyfkacja determnant bogactwa dochodowego 49 Zmenne nezależne były zmennym jakoścowym, które przedstawono w postac układów zmennych zero-jedynkowych w tak sposób, że zmenna mająca warantów jest reprezentowana przez 1 zmennych zero-jedynkowych (w ten sposób unknęto zjawska współlnowośc). W modelu uwzględnone zostały zmenne dotyczące płc, weku wykształcena głowy gospodarstwa domowego, klasy mejscowośc zameszkana, lczby osób w gospodarstwe, grupy społecznoekonomcznej, statusu gospodarstwa na rynku pracy, obecnośc dzec do lat 14 oraz województwa zameszkwanego przez gospodarstwo. Model logtowy szacowano w dwóch wersjach: w modelu 1 uwzględnono wszystke wymenone zmenne, natomast w modelu usunęto zmenną, której wszystke kategore były statystyczne nestotne. Próg statystycznej stotnośc ustalono na pozome 0,1. Wynk estymacj modelu 1 przedstawono w tablcy 1. Tablca 1. Wynk estymacj modelu 1 Zmenne Współczynnk szans Iloraz Stała,497*** x Płeć głowy gospodarstwa domowego: mężczyzna kobeta 0,871*** 0,418 Wek głowy gospodarstwa domowego: 5 34 lata 35 44 lata 45 59 lat 60 węcej lat Wykształcene głowy gospodarstwa domowego: podstawowe nższe zasadncze zawodowe/gmnazjum średne podyplomowe wyższe Klasa mejscowośc zameszkana: masta powyżej 500 tys. masta 00 500 tys. masta 100 00 tys. masta 0 100 tys. masta ponżej 0 tys. weś 0,97* 0,491*** 0,454* 0,161 0,951***,303*** 0,165 0,60** 0,69*** 0,619*** 0,75*** 1,346 1,635 1,574 0,851,589 10,005 0,848 0,547 0,533 0,538 0,484

50 Anna Sączewska-Potrowska Zmenne Lczba osób w gospodarstwe domowym: 1 3 4 5 6 węcej Grupa społeczno-ekonomczna: pracowncy rolncy pracujący na własny rachunek emeryc rencśc utrzymujący sę z nezarobkowych źródeł Status gospodarstwa na rynku pracy: przynajmnej jedna osoba bezrobotna brak osób bezrobotnych Dzec w gospodarstwe domowym: gospodarstwa z dzećm do lat 14 gospodarstwa bez dzec do lat 14 Województwo: dolnośląske kujawsko-pomorske lubelske lubuske łódzke małopolske mazowecke opolske podkarpacke podlaske pomorske śląske śwętokrzyske warmńsko-mazurske welkopolske zachodnopomorske. p < 0,1;* p < 0,05;** p < 0,01;*** p < 0,001 Współczynnk 0,69* 0,85. 0,500** 1,009*** 1,147*** 0,487. 0,443** 1,61***,6** 1,476*** 0,075 0,56** 0,811*** 0,83*** 0,333 0,868*** 1,01*** 0,0 1,197*** 0,7** 0,07 0,418* 1,19*** 0,68** 0,758*** 0,515* Iloraz szans Źródło: Opracowane własne na podstawe [Rada Montorngu Społecznego, 014]. 1,309 0,75 0,607 0,365 0,318 0,614 1,557 0,83 0,108 0,8 1,078 0,591 0,444 0,435 0,717 0,40 0,360 0,803 0,30 0,486 0,813 0,659 0,34 0,506 0,469 0,598

Identyfkacja determnant bogactwa dochodowego 51 Jak można zauważyć, ne wszystke zmenne uwzględnone w modelu 1 okazały sę stotne statystyczne. Na szanse pobytu w sferze bogactwa ne ma wpływu zasadncze wykształcene głowy gospodarstw domowego (w porównanu do wykształcena podstawowego), mejsce zameszkana w mastach 00 500 tys. (w porównanu do mast 500 tys.) województwach: lubuskm, opolskm pomorskm (w porównanu do województwa mazoweckego) oraz pobyt w gospodarstwe domowym dzec do lat 14 (w porównanu do braku dzec w tym weku). Zmenną odnoszącą sę do obecnośc dzec usunęto z modelu w ten sposób uzyskano postać modelu (tablca ). Modele 1 poddano weryfkacj, której wynk zawarto w tablcy 3. Tablca. Wynk estymacj modelu Zmenne Współczynnk szans Iloraz Stała 1,976*** x Płeć głowy gospodarstwa domowego: mężczyzna kobeta 0,871*** 0,418 Wek głowy gospodarstwa domowego: 5 34 lata 35 44 lata 45 59 lat 60 węcej lat Wykształcene głowy gospodarstwa domowego: podstawowe nższe zasadncze zawodowe/gmnazjum średne podyplomowe wyższe Klasa mejscowośc zameszkana: masta powyżej 500 tys. masta 00 500 tys. masta 100 00 tys. masta 0 100 tys. masta ponżej 0 tys. weś 0,303* 0,46*** 0,46* 0,165 0,950***,304*** 0,166 0,603** 0,67*** 0,619*** 0,75*** 1,354 1,587 1,530 0,848,586 10,011 0,847 0,547 0,534 0,538 0,484

5 Anna Sączewska-Potrowska Zmenne Lczba osób w gospodarstwe domowym: 1 3 4 5 6 węcej Grupa społeczno-ekonomczna: pracowncy rolncy pracujący na własny rachunek emeryc rencśc utrzymujący sę z nezarobkowych źródeł Status gospodarstwa na rynku pracy: przynajmnej jedna osoba bezrobotna brak osób bezrobotnych Województwo: dolnośląske kujawsko-pomorske lubelske lubuske łódzke małopolske mazowecke opolske podkarpacke podlaske pomorske śląske śwętokrzyske warmńsko-mazurske welkopolske zachodnopomorske. p < 0,1;* p < 0,05;** p < 0,01;*** p < 0,001 Współczynnk 0,7* 0,6. 0,468** 0,965*** 1,095*** 0,488. 0,443** 1,57***,** 1,478*** 0,53** 0,808*** 0,88*** 0,39 0,867*** 1,0*** 0,0 1,198*** 0,7** 0,07 0,416* 1,19*** 0,687** 0,757*** 0,513* Iloraz szans Źródło: Opracowane własne na podstawe [Rada Montorngu Społecznego, 014]. 1,313 0,770 0,67 0,381 0,335 0,614 1,557 0,85 0,108 0,8 0,593 0,446 0,437 0,70 0,40 0,360 0,80 0,30 0,486 0,813 0,660 0,34 0,503 0,469 0,599

Identyfkacja determnant bogactwa dochodowego 53 Tablca 3. Zestawene wynków weryfkacj oszacowanych model logtowych Wyszczególnene Model 1 Model AIC 4445,1 4443,6 R McFadden 0,51 0,51 LR test: lczba stopn swobody χ wartość p Test Hosmera-Lemeshowa: lczba stopn swobody χ wartość p. p < 0,1;* p < 0,05;** p < 0,01;*** p < 0,001 38 1465,579 0,000*** 8 7,309 0,504 37 1465,358 0,000*** Źródło: Opracowane własne na podstawe [Rada Montorngu Społecznego, 014]. 8 10,693 0,0 Kryterum nformacyjne Akakego wskazuje, że lepszym modelem jest model. Pseudo- R nformuje, że obydwa modele są bardzo dobrze dopasowane do danych, a wartośc tego mernka są dla obydwu model praktyczne take same. W przypadku model 1 test lorazu warygodnośc wskazuje, że przynajmnej jeden z parametrów stotne różn sę od zera (wszystke parametry łączne są stotne statystyczne), natomast na podstawe testu Hosmera-Lemeshowa można stwerdzć, że lczebnośc obserwowane teoretyczne ne różną sę stotne w grupach decylowych. W dalszej częśc badana skupono sę na modelu, zawerającym mnej zmennych jednocześne wskazanym przez AIC jako lepszy model. Analzując lorazy szans w tablcy, można stwerdzć, że szansa pobytu gospodarstwa domowego w sferze bogactwa była: o 58% nższa w gospodarstwach domowych kobet nż mężczyzn, prawe,5-krotne wyższa w gospodarstwach, których głowa ma średne wykształcene 10-krotne wyższa w gospodarstwach z głową z wyższym/podyplomowym wykształcenem nż w gospodarstwach, których głowa ma co najwyżej wykształcene podstawowe, wyższa w gospodarstwach domowych, których głowa ma co najmnej 35 lat nż w gospodarstwach, których głowa ma 5 34 lata, nższa w gospodarstwach co najmnej 3-osobowych oraz wyższa w gospodarstwach -osobowych w porównanu do 1-osobowych,

54 Anna Sączewska-Potrowska wyższa w gospodarstwach pracujących na własny rachunek oraz nższa w gospodarstwach z pozostałych grup społeczno-ekonomcznych w porównanu do gospodarstw pracownków, nższa o 77% w gospodarstwach z przynajmnej jedną osobą bezrobotną nż w gospodarstwach bez osób bezrobotnych, nższa o ponad 70% w gospodarstwach zameszkujących województwa: małopolske, podkarpacke śwętokrzyske w porównanu do gospodarstw z województwa mazoweckego. Badana próba ne była zblansowana zdecydowane węcej gospodarstw było nebogatych nż bogatych. Jako punkt odcęca wybrano częstość występowana bogatych gospodarstw domowych, czyl 0,075. Dla takego punktu oblczono lczbę poprawne prognozowanych przypadków (tablca 4) oraz porównano uzyskane wynk z poprawne prognozowanym przypadkam dla standardowego punktu odcęca 0,5 (tablca 5). Tablca 4. Klasyfkacja przypadków dla punktu odcęca 0,075 Obserwowane wartośc zmennej objaśnanej Przewdywane wartośc zmennej objaśnanej y ˆ = 0 y ˆ = 1 Razem y = 0 7839 93 1013 y =1 173 648 81 Razem 801 941 10 953 Źródło: Opracowane własne na podstawe [Rada Montorngu Społecznego, 014]. Tablca 5. Klasyfkacja przypadków dla punktu odcęca 0,5 Obserwowane wartośc zmennej objaśnanej Przewdywane wartośc zmennej objaśnanej y ˆ = 0 y ˆ = 1 Razem y = 0 10069 63 1013 y =1 731 90 81 Razem 10 800 153 10 953 Źródło: Opracowane własne na podstawe [Rada Montorngu Społecznego, 014].

Identyfkacja determnant bogactwa dochodowego 55 Wykorzystując dane z tablcy 4, oblczono specyfczność, czułość oraz zlczenowy R, które pozwolły ocenć procentową trafność prognoz. Procent prawdłowych predykcj wynósł 77,5%, przy czym specyfczność wynosła 77,4%, a czułość 78,9%. Można na tej podstawe sądzć, że model przewduje w neco lepszym stopnu sukces (78,9% bogatych gospodarstw domowych zostało uznanych przez model jako bogate) nż porażkę (77,4% nebogatych gospodarstw zostało przewdzane przez model jako nebogate). W przypadku punktu odcęca 0,5 zlczenowy R wynósł 9,8%, specyfczność 99,4% oraz czułość 11%. Można węc zauważyć, że zlczenowy R jest zdecydowane lepszy w przypadku wybrana jako punktu odcęca wartośc 0,5, lecz dzeje sę to kosztem błędnego zaklasyfkowana gospodarstw bogatych (tylko co dzesąte gospodarstwo bogate zostało uznane przez model jako bogate). Uznano węc, że klasyfkacja przypadków dla punktu odcęca 0,075 jest lepsza mmo mnejszego odsetka poprawne zaklasyfkowanych gospodarstw nebogatych. Na podstawe wszystkch wartośc czułośc specyfcznośc zbudowano krzywą ROC (rysunek ). Rysunek. Krzywa ROC Źródło: Opracowane własne na podstawe [Rada Montorngu Społecznego, 014].

56 Anna Sączewska-Potrowska Można zauważyć, że krzywa ROC jest wygęta w kerunku punktu o współrzędnych (0,1), a tym samym pole AUC jest dużo wększe nż 0,5 wynos 0,856. Przeprowadzony test (na pozome p = 0, 000) potwerdza, że AUC jest stotne wększe nż 0,5, co oznacza, że jakość klasyfkacyjna modelu jest dobra model może służyć do budowy prognoz. Na podstawe modelu zbudowano przykładowe prognozy pobytu w sferze bogactwa dochodowego gospodarstw domowych o różnych cechach: głowa gospodarstwa: mężczyzna, 40 lat z wykształcenem wyższym, -osobowe gospodarstwo pracownków bez osób bezrobotnych z dużego masta (ponad 00 tys. meszkańców) w województwe pomorskm: prognozowane prawdopodobeństwo wynos p ˆ1 = 0, 67, czyl na podstawe przyjętego punktu odcęca p * = 0, 075 można sę spodzewać, że gospodarstwo będze bogate ( y ˆ 1 = 1) ; głowa gospodarstwa domowego: kobeta, 30 lat z wykształcenem średnm, 3-osobowe gospodarstwo rolnków z jedną osobą bezrobotną zameszkujące weś w województwe podlaskm: prawdopodobeństwo wynos p ˆ = 0, 04, czyl gospodarstwo ne będze należeć do sfery bogactwa ( y ˆ = 0). Zakończene Na podstawe oszacowanego modelu logtowego można stwerdzć, że szanse gospodarstwa domowego na pobyt w sferze bogactwa zależą w sposób stotny zarówno od cech samego gospodarstwa, jak jego głowy. Szczególne należy podkreślć wpływ wykształcena głowy gospodarstwa domowego, grupy społeczno-ekonomcznej gospodarstwa oraz obecnośc osób bezrobotnych w gospodarstwe domowym. W lteraturze [np. Kasprzyk, Fura, 011; Rusnak, 01] można sę spotkać z oszacowanym modelam logtowym ryzyka ubóstwa. Należy jednak zaznaczyć, że determnanty bogactwa ubóstwa ne muszą sę nawzajem uzupełnać, poneważ pewne cechy mogą zwększać szanse pobytu gospodarstwa w sferze bogactwa, ale ne muszą jednocześne zmnejszać szans na pobyt w sferze ubóstwa. Ne można bowem zapomneć, że mogą stneć grupy średnaków, których rozkłady dochodów są dosyć równomerne tym samym odsetek gospodarstw ubogch bogatych w tych grupach jest newelk. Przedmotem kolejnych badań będze porównane determnant bogactwa ubóstwa dochodowego, które pozwol zweryfkować powyższą hpotezę.

Identyfkacja determnant bogactwa dochodowego 57 Lteratura 1. Dudek H., Dybcak M. (006), Zastosowane modelu logtowego do analzy wynków egzamnu, Zeszyty Naukowe SGGW, Ekonomka Organzacja Gospodark Żywnoścowej, nr 60.. Gruszczyńsk M. (001), Modele prognozy zmennych jakoścowych w fnansach bankowośc, Szkoła Główna Handlowa, Warszawa. 3. Harańczyk G. (010), Krzywe ROC, czyl ocena jakośc klasyfkatora poszukwane optymalnego punktu odcęca, w: Medycyna analza danych, StatSoft, Kraków. 4. Jackowska B. (011), Efekty nterakcj mędzy zmennym objaśnającym w modelu logtowym w analze zróżncowana ryzyka zgonu, Przegląd Statystyczny nr 1. 5. Jackowska B., Wycnka E. (009), Modele ryzyka skreślena z lsty studentów na przykładze studentów trybu nestacjonarnego, w: Taksonoma nr 16. Klasyfkacja analza danych teora zastosowana, Jajuga K., Walesak M. (red.), Prace Naukowe Unwersytetu Ekonomcznego we Wrocławu, nr 7, Wrocław. 6. Kasprzyk B., Fura B. (011), Wykorzystane model logtowych do dentyfkacj gospodarstw domowych zagrożonych ubóstwem, Wadomośc Statystyczne nr 6. 7. Konsumpcja elt ekonomcznych w Polsce ujęce empryczne (006), Słaby T. (red.), SGH, Warszawa. 8. Kopczewska K., Kopczewsk T., Wójck P. (009), Metody loścowe w R. Aplkacje ekonomczne fnansowe, CeDeWu, Warszawa. 9. KPMG w Polsce (014), Rynek dóbr luksusowych w Polsce. Edycja 014. 10. Ksążek M. (013), Analza danych jakoścowych, w: Zaawansowane metody analz statystycznych, Frątczak E. (red.), Szkoła Główna Handlowa, Warszawa. 11. Legh A. (009), Top ncomes, w: The Oxford handbook of economc nequalty, Salverda W., Nolan B., Smeedng T. (red.), Oxford Unversty Press, Oxford. 1. McFadden D. (1977), Quanttatve methods for analyzng travel behavour of ndvduals: Some recent developments, Cowles Foundaton Dscusson Paper No. 474, Yale Unversty, New Haven. 13. Pechl A., Schaefer T., Schecher C. (008), Measurng rchness and poverty: A mcro data applcaton to Europe and Germany, IZA Dscusson Papers No. 3790, Insttute for the Study of Labor (IZA).

58 Anna Sączewska-Potrowska 14. Rada Montorngu Społecznego (014), Dagnoza społeczna 000 013: zntegrowana baza danych, http://www.dagnoza.com, dostęp dna 9.11.014. 15. Radzukewcz M. (006), Zasęg ubóstwa w Polsce, PWE, Warszawa. 16. R Development Core Team (015), R: a language and envronment for statstcal computng, R Foundaton for Statstcal Computng, Venna, http://www.r-project.org. 17. Rusnak Z. (01), Logstc regresson model n poverty analyses, Ekonometra nr 1. 18. Stansz A. (007), Przystępny kurs statystyk z zastosowanem STATI- STICA PL na przykładach z medycyny, t., Modele lnowe nelnowe, StatSoft, Kraków. 19. Top ncomes over the twenteth century (007), Atknson A., Pketty T. (red.), Oxford Unversty Press, Oxford. 0. Węckowska B (015), Podręcznk użytkownka PQStat, PQStat Software. 1. Żarnowsk J. (199), Beda dostatek 1918 1939, w: Nędza dostatek na zemach polskch od średnowecza po wek XX, Sztetyłła J. (red.), Sera: Instytut Hstor Kultury Materalnej PAN, Semper, Warszawa. Streszczene Celem artykułu była dentyfkacja czynnków objaśnających bogactwo gospodarstw domowych. W analze zastosowano model logtowy, w którym rolę zmennej zależnej pełnła zmenna bnarna przynależność do sfery bogactwa, przyjmująca wartość jeden, gdy gospodarstwo domowe należało do sfery bogactwa oraz wartość zero, gdy gospodarstwo domowe ne należało do sfery bogactwa. Wśród potencjalnych czynnków uwzględnono zarówno cechy głowy gospodarstwa domowego (np. płeć, wek, wykształcene), jak cechy samego gospodarstwa (np. mejsce zameszkana, lczba osób). Oszacowany model poddano weryfkacj statystycznej polegającej na badanu statystycznej stotnośc parametrów oraz na określenu stopna dopasowana modelu do danych emprycznych. Słowa kluczowe bogactwo, determnanty bogactwa dochodowego, model regresj logstycznej Identfcaton of determnants of ncome rchness usng logstc regresson model (Summary) The am of the paper was dentfyng the factors explanng ncome rchness. The logt model n whch the dependent varable was bnary was used varable equals to 1 f household was rch and equals to 0 f household was not

Identyfkacja determnant bogactwa dochodowego 59 rch. Among the potental factors there were taken nto account characterstcs of household (e.g. place of resdent, number of persons n household) and household s head (e.g. gender, age, educaton). The goodness of ft and statstcal sgnfcance of estmated parameters were evaluated. Keywords rchness, determnants of ncome rchness, logstc regresson model