WSKAŹNIK KONDYCJI FINANSOWEJ KREDYTOBIORCY. ASPEKTY METODOLOGICZNE
|
|
- Paweł Krawczyk
- 6 lat temu
- Przeglądów:
Transkrypt
1 WSKAŹNIK KONDYCJI FINANSOWEJ KREDYTOBIORCY. ASPEKTY METODOLOGICZNE Anna Nowak-Czarnocka, Kolegium Zarządzania i Finansów, Szkoła Główna Handlowa Wprowadzenie Wraz z początkiem globalnego kryzysu finansowego wywołanego między innymi brakiem ostrożności w udzielaniu kredytów podwyższonego ryzyka subprime przez instytucje finansowe w Stanach Zjednoczonych banki zaczęły w większym stopniu obserwować modele służące do szacowania zdolności kredytowej klientów detalicznych. Doświadczenia z 2006 i 2007 roku, kiedy nastąpił nagły spadek cen nieruchomości, wskazały na błędność założeń niektórych banków o możliwości koncentrowania się podczas udzielania kredytu głównie na wartości zabezpieczenia, a dopiero w drugiej kolejności na sytuacji finansowej kredytobiorcy. Pomimo podstawowej zasady udzielania kredytów mówiącej, że ryzyko każdej ekspozycji kredytowej zależy przede wszystkim od kondycji finansowej kredytobiorcy i jego zdolności do spłaty, niektóre instytucje bankowe były skłonne udzielać kredytów podmiotom niemającym wystarczającej zdolności kredytowej na podstawie właściwego zabezpieczenia spłaty kredytu. Instytucje te nie wzięły jednak pod uwagę konsekwencji prowadzenia zbyt liberalnej polityki kredytowej i jej możliwego wpływu na przyszłą wartość zabezpieczeń, zapominając o istnieniu zależności, zgodnie z którą wszelkiego rodzaju załamania gospodarki, zarówno polskiej, jak i światowej, mogą znaleźć odzwierciedlenie na rynku Copyright StatSoft Polska 2016, info@danewiedzasukces.pl 37
2 nieruchomości. W rzeczywistości post-kryzysowej potrzebna zatem stała się konieczność dalszej szczegółowej weryfikacji zdolności kredytowej klientów banku ubiegających się o kredyt oraz walidacji obecnie stosowanych modeli. Efektywne zarządzanie ryzykiem kredytowym w bankach jest konieczne ze względu na stabilność finansową tych instytucji. Należy jednak wziąć pod uwagę fakt, że banki to podmioty zorientowane na osiąganie zysku. Klientów zdobywają te instytucje, które w cenie usług umieszczają koszt ryzyka, jednak w takiej wysokości, aby ich oferta była atrakcyjna na tle konkurencji. Wzrost liczby instytucji kredytowych oraz rozwój rynku usług finansowych doprowadziły do tego, że banki, aby osiągnąć zamierzony zysk, zmuszone są do kooperacji z coraz słabszymi klientami, z którymi związane jest większe ryzyko. Istotne jest zatem dalsze doskonalenie stosowanych metod do oceny zdolności kredytowej, polegające między innymi na analizie cech swoich klientów, w szczególności tych, które opisują ich sytuację dochodową. Niniejsza publikacja wpisuje się w nurt ciągłych poszukiwań rozwiązań nadążających za zmianami zarówno w bezpośrednim otoczeniu kredytobiorcy, jak i w ogólnej sytuacji społeczno-gospodarczej. Obiektem badań jest kredytobiorca kredytów konsumpcyjnych, jego cechy oraz siła, z jaką wpływają one na jego kondycję finansową, a tym samym na jego wiarygodność kredytową. Przedmiotem pracy jest analiza możliwości wyboru optymalnego zestawu cech kredytobiorcy, na podstawie którego możliwa będzie ocena jego sytuacji finansowej. Do badań wybrano dane dotyczące kredytów konsumpcyjnych oraz kart kredytowych, gdyż właśnie tego typu produkty kredytowe charakteryzują się najgorszą spłacalnością, co może być związane z niedostatecznie precyzyjnym sposobem oceny zdolności kredytowej. Analiza kondycji finansowej poszczególnych kredytobiorców została przeprowadzona w oparciu o wartość wskaźnika zbudowanego na podstawie cech kredytobiorców 38 Copyright StatSoft Polska 2016, info@danewiedzasukces.pl
3 szczegółowo opisanych w dalszej części publikacji. Wskaźnik kondycji finansowej kredytobiorcy zdefiniowano jako wartość funkcji W(X). Zapis wskaźnika jest następujący: ( XW ij ) 1 XXX j 22 j 3 j... nnm X (1) gdzie: X ij to poszczególne i-te cechy j-tego kredytobiorcy natomiast α i to wagi przypisane do tych cech, i=1,, n, j=1,, m. Biorąc pod uwagę fakt, że w większości przypadków w skład wskaźnika wchodzą cechy takie jak: dochód kredytobiorcy, wiek bądź liczba osób na utrzymaniu które dla poszczególnych osób wnioskujących o kredyt mogą być dowolne wartości, które przyjmuje wskaźnik są również nieograniczone. Należy jednak podkreślić, że w praktycznych zastosowaniach wartości wskaźnika kształtują się w określonych przedziałach zależnych od zbioru danych oraz wybranego modelu. Im wyższa wartość wskaźnika, tym kondycja finansowa kredytobiorcy jest lepsza, a co za tym idzie większe jest prawdopodobieństwo spłaty kredytu. Funkcja W(X) została zbudowana za pomocą kilku metod statystycznych, między innymi analizy dyskryminacyjnej, regresji logistycznej oraz analizy głównych składowych w połączeniu z liniową regresją wieloraką, w celu porównania efektywności ich stosowania do klasyfikacji kredytobiorców. Zastosowano również metodę epsilon, która dotychczas nie była wykorzystywana do analizy cech kredytobiorcy w kontekście jego kondycji finansowej. Na podstawie punktów odcięcia wyznaczonych za pomocą krzywej ROC (Receiver Operating Characteristic) poszczególni klienci banku zostali zaklasyfikowani do grupy dobrych bądź złych kredytobiorców. 1 Jakość modeli oceniono za pomocą trafności klasyfikacji, tzn. sprawdzono, czy kredytobiorca uznany za dobrego faktycznie spłacił 1 Punkty odcięcia zostały tak wybrane, aby minimalizować popełnienie obu błędów klasyfikacji, tzn. błędnego przypisania klienta dobrego do klasy złych oraz niewskazania klienta niesolidnego i przypisania go do grupy dobrych, zamiast złych. Copyright StatSoft Polska 2016, info@danewiedzasukces.pl 39
4 kredyt, natomiast klient zaklasyfikowany do grupy złych nie wywiązał się z zobowiązania wobec banku. Trafność klasyfikacji znajduje się w przedziale od 0 do 100%. W rozprawie skoncentrowano się na podejściu statycznym, głównie ze względu na poważne ograniczenia związane z pozyskaniem danych w postaci szeregów czasowych niezbędnych do przeprowadzenia badań opartych o modele dynamiczne. Należy podkreślić, że podczas oceny kondycji kredytobiorcy występują często problemy związane z wysoką korelacją zmiennych objaśniających. Ocena wpływu skorelowanych zmiennych objaśniających na wyjaśnienie kształtowania zmiennej objaśnianej jest utrudniona i może nie być dostatecznie precyzyjna. Ponadto ograniczenia wielu standardowych metod statystycznych prowadzą do eliminacji silnie skorelowanych zmiennych, co wiąże się z utratą części informacji. W pracy do zbioru znanych modeli włączono nie stosowaną dotychczas metodę epsilon, która omija ten problem poprzez przekształcenie zbioru regresorów do zmiennych ortogonalnych. Dodatkowo, zaproponowana przez J. W. Johnsona (2000) metoda epsilon pozwala ustalić poziom wpływu poszczególnych zmiennych objaśniających na zmienną objaśnianą zarówno z punktu widzenia każdego regresora oddzielnie, jak i w interakcji z pozostałymi regresorami. 2 Cel i zakres pracy Celem rozprawy było podjęcie próby odpowiedzi na pytanie, czy istnieje możliwość określenia wartości wskaźnika kondycji finansowej kredytobiorcy, pozwalającego na wybór metody, która dla dowolnego zbioru cech opisujących kredytobiorców będzie charakteryzowała się najwyższą trafnością klasyfikacji klientów banku do grupy dobrych bądź złych kredytobiorców. 2 Johnson J. W. (2000), A Heuristic Method for Estimating the Relative Weight of Predictor for Variables in Multiple Regression, Multivariate Behavioral Research, No 35 (1). 40 Copyright StatSoft Polska 2016, info@danewiedzasukces.pl
5 W pracy postawiono następującą hipotezę główną: 1. Wybór właściwego wskaźnika, opartego na zmiennych charakteryzujących kredytobiorcę oraz wyznaczonego za pomocą metod statystycznych zwiększa trafność oceny kondycji kredytobiorcy. Sformułowano ponadto następujące hipotezy szczegółowe: 1. Zastosowanie tradycyjnych metod oceny kondycji finansowej kredytobiorcy, takich jak analiza dyskryminacyjna czy regresja logistyczna, może być niewystarczające do oceny kondycji kredytobiorcy w kontekście trafności klasyfikacji; 2. Analiza korelacji cech ma wpływ na jakość modeli statystycznych, co rzutuje na efektywność wskaźników kondycji finansowej budowanych na podstawie tych modeli. W przypadku wystąpienia silnej korelacji zmiennych objaśniających uniezależnienie się w metodzie od tego zjawiska zwiększa trafność oceny kondycji finansowej kredytobiorcy. Opis danych W celu przeprowadzenia obszernych badań wykorzystane zostały dwie grupy klientów banków z różnych regionów geograficznych oraz odmiennych okresów czasu. Mając jednak na uwadze wyniki badań Instytutu Badań Rynku Konsumpcji i Koniunktur, wskazujące na występowanie w Polsce megatrendów w zachowaniach konsumpcyjnych, rezultaty badań mogą okazać się pomocne w przyszłości również do ewentualnych analiz cech polskich kredytobiorców. 3 Pierwszy ze zbiorów zestaw informacji pochodzących z 1000 wniosków kredytowych jednego z dużych banków południowych Niemiec, dostępny za pośrednictwem witryny internetowej Uniwersytetu w Monachium zawierał informacje o kredytobiorcach, którym 3 D. Szapieniec Puchalska, Polscy konsumenci w obliczu megatrendów w konsumpcji, Konsumpcja i Rozwój, nr. 1/2012 (2), s. 98. Copyright StatSoft Polska 2016, info@danewiedzasukces.pl 41
6 przyznano kredyt konsumpcyjny. 4 Druga baza obejmująca klientów, którzy korzystali z limitu w karcie kredytowej, pochodziła z brazylijskiego centrum kredytowego. Baza danych została udostępniona przez International Institute of Information Technology w ramach konkursu PAKDD-2010 Data Maining Competition. 5 Oba zbiory poza standardowymi danymi o klientach (wiek, miejsce zamieszkania, średnie miesięczne dochody itd.) zawierały również informację, czy kredytobiorcy wywiązali się ze zobowiązań wobec banku. 6 Dodatkowo, do zbioru cech brazylijskich kredytobiorców wprowadzono nowe zmienne charakteryzujące stany tego kraju. Mając na uwadze fakt, że większość z analizowanych cech ma charakter jakościowy, oraz pamiętając, że nie wszystkie z zastosowanych metod estymacji są najefektywniejsze do analizy zmiennych binarnych, stwierdzono, że zasadne jest przeprowadzenie równoległych badań na kilka sposobów. Pierwsze podejście polegało na przekształceniu zmiennych jakościowych w binarne oraz pozostawieniu zmiennych mierzalnych bez zmian. Drugi sposób polegał na przekształceniu zmiennych jakościowych w cechy skategoryzowane za pomocą transformacji WoE (Weight of Evidence). W trzecim zestawie cechy mierzalne poddano dyskretyzacji, uzyskując zbiór zmiennych binarnych. Zarówno dane brazylijskie, jak i niemieckie, zostały przeanalizowane za pomocą 3 zestawów zmiennych utworzonych na podstawie powyższych założeń. Ostatecznie otrzymano zatem 6 zestawów zmiennych. Przed przystąpieniem do budowy zestawów zmiennych, będących podstawą dalszej analizy, ze zbioru 1000 kredytobiorców German credit data wylosowano 200 przypadków i odłożono w celu przyszłego testowania modelu. Udział kredytobiorców dobrych i złych w próbie podstawowej nie uległ zmianie w porównaniu do próby pełnej, tzn. wyniósł odpowiednio 70% i 30%. Dla danych brazylijskich kredytobiorców wystąpił problem kredit_e.html. 5 =load. 6 W przypadku danych brazylijskich klient uznany został za złego, gdy opóźnienie spłaty karty kredytowej było dłuższe niż 60 dni. Nie udostępniono informacji, w jaki sposób kredytobiorcy niemieccy zostali zaklasyfikowani do odpowiednich grup, tj. czy do kategorii złych zaliczono klientów, którzy w ogóle nie spłacili kredytu, czy również klientów niespłacających rat terminowo. 42 Copyright StatSoft Polska 2016, info@danewiedzasukces.pl
7 próby niezbilansowanej, dlatego też podjęto decyzję o zastosowaniu próby dobieranej (choice-based sample). Próba pełna zawierała równą liczbę przypadków dobrych i złych klientów, natomiast próba podstawowa odpowiednio 50,1% i 49,9%. Metodologia wykorzystana w pracy Weryfikacja statystyczna zmiennych Istotnym punktem budowy modelu scoringowego jest wybór zbioru czynników egzogenicznych, które wywołują zróżnicowanie pojedynczych klientów banku pod względem ryzyka niedotrzymania warunków umowy kredytowej. W rozprawie uwzględniono następujące grupy zmiennych objaśniających: zmienne opisujące cechy osobowe i demograficzne kredytobiorcy; zmienne charakteryzujące zawód; zmienne ekonomiczne dotyczące zamożności kredytobiorcy; zmienne finansowe opisujące dotychczasowe relacje klienta z bankami; inne zmienne (np. cel kredytu, występowanie gwarantów itd.). 7 Zmienną objaśnianą w modelu scoringowym jest zmienna rodzaj klienta przyjmująca dwie wartości: klient dobry bądź klient zły. W zależności od zbioru danych zły klient definiowany jest jako ten, który nie spłacił kredytu bądź charakteryzował się opóźnieniami w płatności rat kredytowych. Wybór zmiennych objaśniających wykorzystanych do budowy modeli oparto ponadto na trzech kryteriach: zdolności dyskryminacyjnej, asymetrii rozkładu oraz pojemności informacyjnej zmiennych. Do analizy cech jakościowych zastosowano odrębne narzędzia 7 M. Gruszczyński, Modele i prognozy zmiennych jakościowych w finansach i bankowości, Oficyna Wydawnicza Szkoły Głównej Handlowej, Warszawa 2002, s Copyright StatSoft Polska 2016, info@danewiedzasukces.pl 43
8 niż dla zmiennych mierzalnych przedstawiono m.in. współczynnik skojarzenia Yule a, test różnicy średnich oraz zmodyfikowaną macierz współzależności. 8 Analiza dyskryminacyjna Pierwszą z metod wykorzystanych do budowy wskaźników kondycji finansowej kredytobiorcy była analiza dyskryminacyjna klasyfikująca obserwacje do jednej z dwóch grup: wypłacalnych bądź niewypłacalnych kredytobiorców, w oparciu o wcześniej ustalone kryterium dyskryminacji. Stosowanie analizy dyskryminacyjnej wiąże się ze spełnieniem szeregu warunków. Przede wszystkim zakłada się występowanie wielowymiarowego rozkładu normalnego zmiennych oraz jednorodność wariancji i kowariancji w grupach testowych. Ostateczna liczba zmiennych została ustalona po weryfikacji ich statystycznej istotności za pomocą współczynnika λ Wilksa testowanego przy użyciu statystyki o rozkładzie chi-kwadrat. Regresja logistyczna Kolejną metodą wykorzystaną w badaniach była regresja logistyczna stosowana w modelach do analizy niewypłacalności kredytobiorców od 1980 r. Zaletą tej metody jest brak wymagań odnośnie założeń o rozkładzie normalnym zmiennych oraz jednorodności wariancji tych zmiennych w obu klasach podmiotów ( dobrych i złych ), jak miało to miejsce w analizie dyskryminacyjnej. Wadą jest brak odporności na silną korelację regresorów. W niniejszej rozprawie do estymacji parametrów modelu wykorzystano metodę największej wiarygodności. Po wyeliminowaniu silnie skorelowanych ze sobą regresorów przeprowadzono test hipotezy o całkowitej nieistotności zmiennych objaśniających. Do oceny istotności całego modelu zastosowano statystykę ilorazu wiarygodności, natomiast wartość 8 M. Gruszczyński, Dobór zmiennych objaśniających do modelu logitowego, Przegląd Statystyczny, Zeszyt 1-2, 2000, s Copyright StatSoft Polska 2016, info@danewiedzasukces.pl
9 krytyczna została wyznaczona za pomocą statystyki chi-kwadrat. Kolejno przeprowadzono testy na istotność poszczególnych parametrów β j za pomocą statystyki Walda mającej rozkład chi-kwadrat. Analiza głównych składowych Analiza głównych składowych, chociaż nie jest powszechnie wykorzystywana w modelach scoringowych, w niniejszych badaniach okazała się pomocna. Dzięki implementacji tej metody do modelu w znaczący sposób zredukowano liczbę zmiennych objaśniających i, co nie mniej ważne, uniknięto problemu silnej korelacji predyktorów. Do budowy wskaźnika kondycji finansowej kredytobiorcy wykorzystano liniową regresję wieloraką, przy czym za zmienne objaśniane przyjęto główne składowe otrzymane po zastosowaniu algorytmu analizy głównych składowych. Metoda epsilon Metoda epsilon, nie stosowana dotychczas do analizy kondycji finansowej kredytobiorcy, spośród przedstawionych w pracy narzędzi statystycznych wyróżnia się zdolnością wyznaczenia wielkości udziału poszczególnych zmiennych objaśniających w wyjaśnieniu zmiennej objaśnianej, zarówno z punktu widzenia każdego regresora oddzielnie, jak i w interakcji z pozostałymi zmiennymi. Ponadto odporność metody na silną korelację zmiennych wyklucza ryzyko utraty informacji przenoszonych przez zmienne, które byłyby wyeliminowane z modelu budowanego przy użyciu klasycznych metod statystycznych, np. regresji logistycznej czy analizy dyskryminacyjnej. Główna idea metody epsilon polega na przekształceniu zbioru regresorów X 1, X 2,, X n do zmiennych ortogonalnych Z 1, Z 2,, Z n. Nowe sztuczne zmienne są nieskorelowane i powinny w jak najlepszym stopniu odzwierciedlać zasób informacyjny oraz strukturę rozkładu i powiązań pomiędzy oryginalnymi zmiennymi. Biorąc pod uwagę fakt, że problem korelacji został wyeliminowany, nie ma przeszkód do zastosowania współczynników regresji do oszacowania wkładu danego regresora w R 2 modelu. Copyright StatSoft Polska 2016, info@danewiedzasukces.pl 45
10 Rys. 1. Schemat powiązań pomiędzy zmiennymi w metodzie epsilon w modelu z trzema predykatorami. Źródło: opracowanie własne na podstawie J. W. Johnson, J. M. Lebreton, History and Use of Relative Importance Indices in Organizational Research, Organizational Research Methods, No 3, 2004, s Dzięki ortogonalizacji zmiennych oryginalnych możliwe jest przedstawienie każdej ze zmiennych sztucznych Z 1, Z 2,, Z n jako kombinacji liniowej zmiennych pierwotnych X 1, X 2,, X n. Działanie to pozwala na rozdzielenie wariancji zmiennej Y na poszczególne zmienne oryginalne. Graficzna prezentacja zależności pomiędzy zmiennymi Z 1, Z 2,..,Z n, X 1, X 2,., X n oraz Y została przedstawiona na rys. 1. Zastosowanie algorytmu metody epsilon umożliwiło wyznaczenie relatywnych wag, przyporządkowanych do każdej z pierwotnych zmiennych modelu. Suma otrzymanych wag jest równa współczynnikowi R 2. Poszczególne wagi mogą być interpretowane jako relatywny wkład powiązanej zmiennej w wyjaśnienie wariancji zmiennej objaśnianej Y. 9 9 N. Nehrebecka, S. Grudkowska, Wykorzystanie metody epsilon do badania wpływu czynników determinujących opinie konsumentów, Wiadomości Statystyczne nr 5/2009, s Copyright StatSoft Polska 2016, info@danewiedzasukces.pl
11 Wyniki i charakterystyka przeprowadzonych badań Celem przeprowadzonej weryfikacji empirycznej była budowa wskaźnika kondycji finansowej kredytobiorcy, którego wartość dla konkretnego klienta banku pozwoliłaby zaklasyfikować go do grupy dobrych bądź złych kredytobiorców. Za pomocą zaprezentowanych metod statystycznych oraz na podstawie liniowego modelu postaci (1) zbudowano 24 wskaźniki kondycji finansowej kredytobiorcy, a następnie poddano je weryfikacji empirycznej w celu sprawdzenia ich trafności klasyfikacji klientów do grupy złych bądź dobrych kredytobiorców. Poszczególne wskaźniki wyznaczono dla wszystkich klientów znajdujących się w analizowanych bazach danych. Przykład składowych jednego ze zbudowanych wskaźników otrzymanego dla II zestawu zmiennych niemieckich kredytobiorców i charakteryzującego się najwyższą trafnością klasyfikacji klientów należących do próby odłożonej zaprezentowano w tabeli 1. Zgodnie z przedstawionymi wynikami najwyższy wkład w wyjaśnienie poziomu spłacalności kredytów na podstawie danych niemieckich kredytobiorców mają kolejno zmienne Z 1, Z 3, Z 2, Z 4, Z 6 oraz Z 5 odpowiadające zmiennym oryginalnym X 1 (aktualne saldo na rachunku bankowym), X 3 (historia kredytowa), X 2 (okres kredytowania), X 4 (cel kredytu), X 6 (suma aktywów) oraz X 5 (kwota kredytu). Na podstawie wartości funkcji W(X) oraz punktu odcięcia klienci zostali przypisani do grupy dobrych bądź złych kredytobiorców. W kolejnym kroku sprawdzono, czy klienci przypisani do grupy dobrych faktycznie wywiązali się ze zobowiązania wobec banku i na tej podstawie wyznaczono trafność klasyfikacji. Należy podkreślić, że jakość wyznaczonych wskaźników kondycji kredytobiorcy analizowana była za pomocą danych z prób podstawowych oraz odłożonych. Poszczególne próby podstawowe obejmowały około 80% losowo wybranych klientów i na ich podstawie zbudowane zostały modele. Próby odłożone składały się z pozostałej części populacji i zostały wydzielone w celu testowania modeli za pomocą zbiorów danych, które nie były wykorzystane do ich budowy. Copyright StatSoft Polska 2016, info@danewiedzasukces.pl 47
12 Tabela 1. Współczynniki β, wagi, względne oraz współczynniki α we wskaźniku kondycji finansowej kredytobiorcy dane niemieckie, analiza dla II zestawu zmiennych. Nazwa zmiennej Współczynnik β Wagi względne Udział zmiennej w sumie wag względnych Nazwa zmiennej Wagi α we wskaźniku Współczynnik β Wagi względne Udział zmiennej w sumie wag względnych Wagi α we wskaźniku Z 1 0,12 0,015 26,7% 0,27 Z 10 0,03 0,001 1,8% 0,02 Z 2-0,08 0,006 10,3% -0,10 Z 12 0,03 0,001 2,1% 0,02 Z 3 0,09 0,008 14,5% 0,15 Z 13 0,04 0,001 2,5% 0,03 Z 4 0,07 0,005 8,6% 0,09 Z 14 0,04 0,002 2,8% 0,03 Z 5-0,06 0,003 6,2% -0,06 Z 15 0,04 0,002 2,8% 0,03 Z 6 0,07 0,005 8,4% 0,08 Z 16 0,00 0,000 0,5% 0,01 Z 7 0,04 0,001 2,5% 0,02 Z 19 0,03 0,001 2,2% 0,02 Z 8-0,04 0,002 3,3% -0,03 Z 20 0,03 0,001 2,1% 0,02 Z 9 0,04 0,002 2,8% 0,03 Biorąc pod uwagę fakt, że próby odłożone były niejako niezależnymi zbiorami danych, trafności klasyfikacji otrzymane na podstawie tych zbiorów danych nazwano prognozami i uznano za ważniejsze mierniki podczas oceny jakości modeli w porównaniu do rezultatów otrzymanych na podstawie prób podstawowych. Tabela 2. Tablica trafności wskaźników kondycji finansowej dla próby podstawowej metoda epsilon dane niemieckie, analiza dla II zestawu zmiennych. Przewidywane Y=1 Y=0 suma Procent poprawnych Y= ,6% Obserwowane Y= ,5% suma ,9% 48 Copyright StatSoft Polska 2016, info@danewiedzasukces.pl
13 Tabela 3. Tablica trafności wskaźników kondycji finansowej dla próby odłożonej metoda epsilon dane niemieckie, analiza dla II zestawu zmiennych. Przewidywane Y=1 Y=0 suma Procent poprawnych Y= ,7% Obserwowane Y= ,6% suma ,5% Zgodnie z oczekiwaniami trafność klasyfikacji kredytobiorców należących do próby odłożonej była w większości przypadków niższa w porównaniu do próby podstawowej. Przykłady tablic trafności dla modelu charakteryzującego się najwyższą poprawnością generowanych prognoz (trafność klasyfikacji przypadków z próby odłożonej) zbudowanego za pomocą metody epsilon na podstawie II zestawu zmiennych, tj. cech mierzalnych i skategoryzowanych zaprezentowano w tabelach 2 i 3. Zgodnie z wynikami zamieszczonymi w tabeli 3 model poprawnie zaklasyfikował 87,7% dobrych oraz 51,6% złych kredytobiorców. Ogólna trafność klasyfikacji przeprowadzona dla próby podstawowej wyniosła 77,9%, natomiast odłożonej 76,5%. Wyniki badań przeprowadzonych dla wszystkich zbudowanych wskaźników kondycji finansowej kredytobiorcy zaprezentowano w tabeli 4. Trafność klasyfikacji najlepszego modelu zbudowanego dla danych niemieckich kredytobiorców na podstawie próby podstawowej wyniosła 79,3% (analiza głównych składowych i analiza dyskryminacyjna), natomiast na podstawie próby odłożonej 76,5% (metoda epsilon). Podobne badania przeprowadzone przez M. Gruszczyńskiego na tym samym zbiorze danych wskazały 77,6% skuteczność klasyfikacji przypadków należących do próby podstawowej (model logitowy) oraz poprawność klasyfikacji, mierzoną również za pomocą tablicy trafności klasyfikacji, Copyright StatSoft Polska 2016, info@danewiedzasukces.pl 49
14 na poziomie 74,5% dla próby odłożonej. 10 Biorąc pod uwagę powyższe można stwierdzić, że jakość otrzymanych modeli jest wysoka i warta dalszych rozważań. Tabela 4. Porównanie trafności klasyfikacji analizowanych metod dla prób podstawowych oraz odłożonych dane niemieckich i brazylijskich kredytobiorców. Numer zestawu zmiennych Rodzaj danych Analiza dyskryminacyjna Regresja logistyczna Dane niemieckie Metoda epsilon Analiza głównych składowych + regresja wieloraka I zestaw II zestaw III zestaw próba podstawowa 77,3% 74.8% 72,9% 78,6% prognoza 76,0% 74,5% 72,5% 70,5% próba podstawowa 77,8% 77,4% 77,9% 78,1% prognoza 74,5% 74,0% 76,5% 72,0% próba podstawowa 79,3% 79,0% 72,4% 79,3% prognoza 74,0% 75,0% 71,0% 57,5% Dane brazylijskie I zestaw II zestaw III zestaw próba podstawowa 55,9% 55,8% 54,1% 55,8% prognoza 56,2% 56,2% 53,5% 47,8% próba podstawowa 58,0% 58,0% 57,6% 56,5% prognoza 58,2% 57,9% 57,7% 46,2% próba podstawowa 58,6% 58,5% 53,3% 55,6% prognoza 58,2% 57,5% 53,0% 48,2% Podobne porównanie zostało przeprowadzone w kontekście oceny trafności klasyfikacji wskaźników zbudowanych na podstawie danych brazylijskich kredytobiorców. Jak już wcześniej wspomniano baza danych została udostępniona w ramach międzynarodowego 10 M. Gruszczyński, Modele i prognozy zmiennych jakościowych op. cit., s Copyright StatSoft Polska 2016, info@danewiedzasukces.pl
15 konkursu PAKDD-2010 Data Mining Competition. Uczestnicy znajdujący się w pierwszej 10 zwycięzców otrzymali miarę AUC mierzącą jakość modelu na poziomie około 0,629 0, Analogiczna miara dla zbudowanego modelu logitowego (najwyższą miarę AUC otrzymano dla III zestawu zmiennych) wyniosła 0,6167. Biorąc pod uwagę powyższe, można stwierdzić, że modele otrzymane na podstawie danych brazylijskich chociaż ich poprawność klasyfikacji jest niższa w porównaniu do wskaźników niemieckich kredytobiorców charakteryzują się wysoką trafnością klasyfikacji w kontekście konfrontacji modelu z wynikami otrzymanymi przez innych autorów na tym samym zbiorze danych. Wyniki uzyskane na podstawie danych niemieckich kredytobiorców (tabela 4) wskazują, że najlepsza klasyfikacja przypadków należących do próby podstawowej dla wszystkich zestawów zmiennych została przeprowadzona za pomocą analizy głównych składowych. Najlepszą z prognoz otrzymano na podstawie modelu zbudowanego za pomocą metody epsilon dla II zestawu zmiennych (zmienne mierzalne i skategoryzowane). Należy podkreślić, że metoda epsilon oparta jest na estymacji metodą najmniejszych kwadratów, stąd lepsze wyniki generuje dla zmiennych ilościowych i skategoryzowanych niż dla zmiennych binarnych. Biorąc pod uwagę fakt, że spośród wszystkich metod statystycznych stosowanych w niniejszej pracy tylko analiza głównych składowych i metoda epsilon są odporne na silną korelację zmiennych objaśniających, oraz mając na uwadze powyższe wyniki badań, można stwierdzić, że analiza korelacji cech ma wpływ na jakość modeli statystycznych, co rzutuje na efektywność wskaźników kondycji finansowej kredytobiorcy budowanych na podstawie tych modeli. Uniezależnienie się w metodzie od tego zjawiska zwiększa trafność oceny kondycji kredytobiorcy, co dowodzi prawdziwości drugiej hipotezy szczegółowej niniejszej pracy =load. Copyright StatSoft Polska 2016, info@danewiedzasukces.pl 51
16 Trafność klasyfikacji brazylijskich kredytobiorców za pomocą analizy głównych składowych nie była już wyższa w porównaniu do pozostałych metod. Również metoda epsilon, chociaż daje prognozę na poziomie 57,7% (II zestaw), nie była już najefektywniejszą z metod. Powodem rozbieżności w zachowaniu się analizy głównych składowych oraz metody epsilon dla różnych zbiorów danych był poziom skorelowania zmiennych objaśniających. Zmienne charakteryzujące cechy brazylijskich kredytobiorców w znaczącej większości nie były ze sobą skorelowane. Dla danych niemieckich kredytobiorców korelacja zmiennych objaśniających chociaż nie na wysokim poziomie - była już bardziej widoczna. Dotychczasowe zastosowania metody epsilon, w odniesieniu do zagadnień innych niż badanie zdolności kredytowej, wskazują, że metoda epsilon nie przynosi lepszych rezultatów przy stosowaniu jej do danych nieskorelowanych. Jakość modelu zbudowanego z takich zmiennych nie zostanie znacząco poprawiona poprzez zastosowanie przybliżenia za pomocą metody epsilon, natomiast istnieje ryzyko pogorszenia jego innych własności statystycznych. Zgodnie z uwagą A. Młodaka oraz T. Słaby metoda epsilon nie posiada własności niezmienniczości ze względu na ortogonalne przekształcenia macierzy zmiennych objaśniających oraz liniowe transformacje niektórych spośród nich. 12 Dla danych nieskorelowanych część informacji zgubiona przez wspomniany brak własności niezmienniczości może być większa w porównaniu z informacjami zyskanymi dzięki uniezależnieniu się od silnej korelacji zmiennych objaśniających. Mając na uwadze powyższe można stwierdzić, że metoda epsilon jest efektywna, jednak należy jej umiejętnie używać. Jednak niewątpliwe korzyści z implementacji metody można uzyskać pod warunkiem zastosowania jej do danych skorelowanych oraz wyrażonych na skali co najmniej porządkowej. 12 A. Młodak, T. Słaby, Jedna czy kilka op. cit., s Copyright StatSoft Polska 2016, info@danewiedzasukces.pl
17 Podsumowanie W oparciu o wyniki weryfikacji empirycznej przeprowadzonej za pomocą 24 modeli zbudowanych na bazie dwóch niezależnych zbiorów danych stwierdzono, że żadna z analizowanych metod nie stanowi uniwersalnego podejścia, które każdorazowo, dla dowolnego zbioru cech kredytobiorcy gwarantowałoby najwyższą poprawną trafność klasyfikacji. Wybór odpowiedniej metody, a co za tym idzie wskaźnika kondycji finansowej kredytobiorcy jest uwarunkowany charakterem badanych zmiennych oraz ich własnościami statystycznymi i dopiero spełnienie tych założeń gwarantuje najwyższą trafność klasyfikacji. Mając na uwadze powyższy wniosek, dowiedziono hipotezę główną mówiącą o tym, że wybór właściwego wskaźnika, opartego na zmiennych charakteryzujących kredytobiorcę oraz wyznaczonego za pomocą metod statystycznych, zwiększa trafność oceny kondycji kredytobiorcy. Ponadto na podstawie zbudowanych modeli stwierdzono, że uniezależnienie się od zjawiska korelacji zmiennych za pomocą metody epsilon i analizy głównych składowych zwiększa trafność oceny kondycji kredytobiorcy, co dowodzi tezy postawionej w drugiej hipotezie szczegółowej. Z tego wynika, że zgodnie z pierwszą hipotezą szczegółową zastosowanie tradycyjnych metod oceny kondycji kredytobiorcy, takich jak analiza dyskryminacyjna czy regresja logistyczna, może być niewystarczające do oceny kondycji kredytobiorcy w kontekście najwyższej trafności klasyfikacji klientów do grupy dobrych i złych kredytobiorców. W oparciu o przeprowadzone badania dodatkowo sformułowano następujące wnioski: Metoda epsilon charakteryzuje się najwyższą trafnością klasyfikacji przypadków należących do próby odłożonej w porównaniu do analizy dyskryminacyjnej, regresji logistycznej oraz analizy głównych składowych połączonej z liniową regresją wieloraką, pod warunkiem zastosowania metody do danych charakteryzujących się umiarkowaną bądź silną korelacją, wyrażonych na skali porządkowej bądź przedziałowej. Copyright StatSoft Polska 2016, info@danewiedzasukces.pl 53
18 Analiza głównych składowych połączona z liniową regresją wieloraką pozwala uzyskać najlepsze wyniki klasyfikacji przypadków należących do próby podstawowej w porównaniu do metody epsilon, analizy dyskryminacyjnej i regresji logistycznej, pod warunkiem zastosowania metody do danych charakteryzujących się umiarkowaną bądź silną korelacją. Jakość prognoz wykonywanych za pomocą metody epsilon nie odbiega znacząco od wyników trafności klasyfikacji na podstawie przypadków należących do próby podstawowej. Prognozy wykonywane za pomocą analizy głównych składowych w połączeniu z liniową regresją wieloraką charakteryzują się niższą jakością w porównaniu do miar trafności klasyfikacji otrzymanych na podstawie próby podstawowej. Modele oparte na analizie głównych składowych mogą być przedmiotem dalszych badań. Metoda epsilon oparta na estymacji metodą najmniejszych kwadratów generuje gorsze wyniki, gdy zmienne przedstawione są w postaci binarnej w porównaniu z cechami wyrażonymi na skali porządkowej bądź przedziałowej. Dla danych charakteryzujących się niską korelacją zmiennych objaśniających metody, takie jak: analiza dyskryminacyjna i regresja logistyczna, generują nieco lepsze wyniki w porównaniu do metody epsilon oraz analizy głównych składowych w kontekście trafności oceny kredytobiorców. Należy również podkreślić, że wyniki uzyskane za pomocą metody epsilon są zadowalające, co może zachęcać do stosowania tej metody w ocenie zdolności kredytowej, szczególnie gdy zmienne opisujące cechy kredytobiorców charakteryzują się silną korelacją. Bibliografia 1. Gruszczyński M. (2000), Dobór zmiennych objaśniających do modelu logitowego, Przegląd Statystyczny, nr 1-2/ Copyright StatSoft Polska 2016, info@danewiedzasukces.pl
19 2. Gruszczyński M. (2002), Modele i prognozy zmiennych jakościowych w finansach i bankowości, Warszawa, Szkoła Główna Handlowa w Warszawie Oficyna Wydawnicza. 3. Janc A., Kraska M. (2001), Credit-scoring: nowoczesna metoda oceny zdolności kredytowej, Biblioteka Menedżera i Bankowca "Zarządzanie i finanse", Warszawa. 4. Johnson J. W. (2000), A Heuristic Method for Estimating the Relative Weight of Predictor for Variables in Multiple Regression, Multivariate Behavioral Research, vol 35(1). 5. Nehrebecka N., Grudkowska S.(2009), Wykorzystanie metody epsilon do badania wpływu czynników determinujących opinie konsumentów, Wiadomości Statystyczne nr 5/ Panek T. (2008), Statystyczne metody wielowymiarowej analizy porównawczej, Warszawa, Szkoła Główna Handlowa w Warszawie Oficyna Wydawnicza. 7. Słaby T., Młodak A. (2010), Jedna czy kilka metod analizy statystycznej - studia metodologiczne. Studia i Prace Kolegium Zarządzania i Finansów SGH, Zeszyt Naukowy 102, Warszawa, Szkoła Główna Handlowa w Warszawie Oficyna Wydawnicza. Copyright StatSoft Polska 2016, info@danewiedzasukces.pl 55
Wskaźnik kondycji finansowej kredytobiorcy. Aspekty metodologiczne.
Wskaźnik kondycji finansowej kredytobiorcy. Aspekty metodologiczne. dr Anna Nowak-Czarnocka Zastosowania statystyki i data mining w badaniach naukowych Warszawa, 12 października 2016 Pole badawcze Ryzyko
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski
Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej
WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno
WSTĘP DO REGRESJI LOGISTYCZNEJ Dr Wioleta Drobik-Czwarno REGRESJA LOGISTYCZNA Zmienna zależna jest zmienną dychotomiczną (dwustanową) przyjmuje dwie wartości, najczęściej 0 i 1 Zmienną zależną może być:
Analiza składowych głównych. Wprowadzenie
Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących
Opis zakładanych efektów kształcenia na studiach podyplomowych WIEDZA
Opis zakładanych efektów kształcenia na studiach podyplomowych Nazwa studiów: BIOSTATYSTYKA PRAKTYCZNE ASPEKTY STATYSTYKI W BADANIACH MEDYCZNYCH Typ studiów: doskonalące Symbol Efekty kształcenia dla studiów
Scoring kredytowy w pigułce
Analiza danych Data mining Sterowanie jakością Analityka przez Internet Scoring kredytowy w pigułce Mariola Kapla Biuro Informacji Kredytowej S.A. StatSoft Polska Sp. z o.o. ul. Kraszewskiego 36 30-110
Spis treści 3 SPIS TREŚCI
Spis treści 3 SPIS TREŚCI PRZEDMOWA... 1. WNIOSKOWANIE STATYSTYCZNE JAKO DYSCYPLINA MATEMATYCZNA... Metody statystyczne w analizie i prognozowaniu zjawisk ekonomicznych... Badania statystyczne podstawowe
Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość
Idea Niech θ oznacza parametr modelu statystycznego. Dotychczasowe rozważania dotyczyły metod estymacji tego parametru. Teraz zamiast szacować nieznaną wartość parametru będziemy weryfikowali hipotezę
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Spis treści I. Wzory ogólne... 2 1. Średnia arytmetyczna:... 2 2. Rozstęp:... 2 3. Kwantyle:... 2 4. Wariancja:... 2 5. Odchylenie standardowe:...
Konstrukcja miernika szans na bankructwo firmy
Natalia Nehrebecka / Departament Statystyki Konstrukcja miernika szans na bankructwo firmy Statystyka Wiedza Rozwój, 17-18 października 2013 r. w Łodzi Konstrukcja miernika szans na bankructwo firmy 2
Wprowadzenie do analizy korelacji i regresji
Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący
STRESZCZENIE. rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne.
STRESZCZENIE rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne. Zasadniczym czynnikiem stanowiącym motywację dla podjętych w pracy rozważań
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu
BUDOWA MODELU SCORINGOWEGO DO E-POŻYCZKI Z WYKORZYSTANIEM NARZĘDZI STATISTICA
BUDOWA MODELU SCORINGOWEGO DO E-POŻYCZKI Z WYKORZYSTANIEM NARZĘDZI STATISTICA Kamila Karnowska i Katarzyna Cioch, SKOK im. Franciszka Stefczyka Wykorzystanie metod scoringowych do oceny punktowej klientów
Badania eksperymentalne
Badania eksperymentalne Analiza CONJOINT mgr Agnieszka Zięba Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa Najpopularniejsze sposoby oceny wyników eksperymentu w schematach
Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ
Współczynnik korelacji Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Własności współczynnika korelacji 1. Współczynnik korelacji jest liczbą niemianowaną 2. ϱ 1,
Zmienne zależne i niezależne
Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }
Elementy statystyki wielowymiarowej
Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych
PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com
Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki
3. Modele tendencji czasowej w prognozowaniu
II Modele tendencji czasowej w prognozowaniu 1 Składniki szeregu czasowego W teorii szeregów czasowych wyróżnia się zwykle następujące składowe szeregu czasowego: a) składowa systematyczna; b) składowa
Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska
Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska Anna Stankiewicz Izabela Słomska Wstęp- statystyka w politologii Rzadkie stosowanie narzędzi statystycznych Pisma Karla Poppera
Własności statystyczne regresji liniowej. Wykład 4
Własności statystyczne regresji liniowej Wykład 4 Plan Własności zmiennych losowych Normalna regresja liniowa Własności regresji liniowej Literatura B. Hansen (2017+) Econometrics, Rozdział 5 Własności
MODELE LINIOWE. Dr Wioleta Drobik
MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą
Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej
Ekonometria Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Wykład 4 Prognozowanie, stabilność 1 / 17 Agenda
( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:
ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość
Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych
Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zad. 1 Średnia ocen z semestru letniego w populacji studentów socjologii w roku akademickim 2011/2012
TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.
TESTY NIEPARAMETRYCZNE 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa. Standardowe testy równości średnich wymagają aby badane zmienne losowe
Regresja i Korelacja
Regresja i Korelacja Regresja i Korelacja W przyrodzie często obserwujemy związek między kilkoma cechami, np.: drzewa grubsze są z reguły wyższe, drewno iglaste o węższych słojach ma większą gęstość, impregnowane
Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16
Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego
STANDARDY I KRYTERIA OCENY JAKOŚCI PROGRAMÓW PROMOCJI ZDROWIA I PROFILAKTYKI W RAMACH SYSTEMU REKOMENDACJI
STANDARDY I KRYTERIA OCENY JAKOŚCI PROGRAMÓW PROMOCJI ZDROWIA I PROFILAKTYKI W RAMACH SYSTEMU REKOMENDACJI 1. Ogólne dane o programie Nazwa własna Autorzy programu Organizacja/ instytucja odpowiedzialna
Stanisław Cichocki. Natalia Nehrebecka
Stanisław Cichocki Natalia Nehrebecka - adres mailowy: nnehrebecka@wne.uw.edu.pl - strona internetowa: www.wne.uw.edu.pl/nnehrebecka - dyżur: wtorek 18.30-19.30 sala 302 lub 303 - 80% oceny: egzaminy -
W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.
W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne. dr hab. Jerzy Nakielski Katedra Biofizyki i Morfogenezy Roślin Plan wykładu: 1. Etapy wnioskowania statystycznego 2. Hipotezy statystyczne,
STUDIA I STOPNIA EGZAMIN Z EKONOMETRII
NAZWISKO IMIĘ Nr albumu Nr zestawu Zadanie 1. Dana jest macierz Leontiefa pewnego zamkniętego trzygałęziowego układu gospodarczego: 0,64 0,3 0,3 0,6 0,88 0,. 0,4 0,8 0,85 W okresie t stosunek zuŝycia środków
Analiza regresji - weryfikacja założeń
Medycyna Praktyczna - portal dla lekarzy Analiza regresji - weryfikacja założeń mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof.
Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1
Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie
METODY STATYSTYCZNE W BIOLOGII
METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne
Analiza współzależności zjawisk
Analiza współzależności zjawisk Informacje ogólne Jednostki tworzące zbiorowość statystyczną charakteryzowane są zazwyczaj za pomocą wielu cech zmiennych, które nierzadko pozostają ze sobą w pewnym związku.
Wnioskowanie statystyczne. Statystyka w 5
Wnioskowanie statystyczne tatystyka w 5 Rozkłady statystyk z próby Próba losowa pobrana z populacji stanowi realizacje zmiennej losowej jak ciąg zmiennych losowych (X, X,... X ) niezależnych i mających
Ekonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej
Ekonometria Modelowanie zmiennej jakościowej Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Ćwiczenia 8 Zmienna jakościowa 1 / 25 Zmienna jakościowa Zmienna ilościowa może zostać zmierzona
Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii
SPIS TREŚCI Przedmowa... 11 Wykaz symboli... 15 Litery alfabetu greckiego wykorzystywane w podręczniku... 15 Symbole wykorzystywane w zagadnieniach teorii mnogości (rachunku zbiorów)... 16 Symbole stosowane
Publikacja danych za okres czerwiec-wrzesień 2017 r. z nowego systemu sprawozdawczego statystyki monetarnej
Publikacja danych za okres czerwiec-wrzesień 2017 r. z nowego systemu sprawozdawczego statystyki monetarnej W dniu 23 października br. NBP opublikował po raz pierwszy agregaty monetarne wyliczone na podstawie
Stanisław Cichocki. Natalia Nehrebecka
Stanisław Cichocki Natalia Nehrebecka - adres mailowy: scichocki@o2.pl - strona internetowa: www.wne.uw.edu.pl/scichocki - dyżur: po zajęciach lub po umówieniu mailowo - 80% oceny: egzaminy - 20% oceny:
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl
EKONOMETRIA. Prof. dr hab. Eugeniusz Gatnar.
EKONOMETRIA Prof. dr hab. Eugeniusz Gatnar egatnar@mail.wz.uw.edu.pl Sprawy organizacyjne Wykłady - prezentacja zagadnień dotyczących: budowy i weryfikacji modelu ekonometrycznego, doboru zmiennych, estymacji
Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów
Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,
Stanisław Cichocki. Natalia Nehrebecka Katarzyna Rosiak-Lada
Stanisław Cichocki Natalia Nehrebecka Katarzyna Rosiak-Lada 1. Sprawy organizacyjne Zasady zaliczenia 2. Czym zajmuje się ekonometria? 3. Formy danych statystycznych 4. Model ekonometryczny 2 1. Sprawy
Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński
Mikroekonometria 13 Mikołaj Czajkowski Wiktor Budziński Endogeniczność regresja liniowa W regresji liniowej estymujemy następujące równanie: i i i Metoda Najmniejszych Kwadratów zakłada, że wszystkie zmienne
Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;
LABORATORIUM 4 Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona; dwie zmienne zależne mierzalne małe próby duże próby rozkład normalny
Testowanie hipotez statystycznych. Wnioskowanie statystyczne
Testowanie hipotez statystycznych Wnioskowanie statystyczne Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Hipotezy
ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x
ZJAZD 4 KORELACJA, BADANIE NIEZALEŻNOŚCI, ANALIZA REGRESJI Analiza korelacji i regresji jest działem statystyki zajmującym się badaniem zależności i związków pomiędzy rozkładami dwu lub więcej badanych
Metody Ilościowe w Socjologii
Metody Ilościowe w Socjologii wykład 2 i 3 EKONOMETRIA dr inż. Maciej Wolny AGENDA I. Ekonometria podstawowe definicje II. Etapy budowy modelu ekonometrycznego III. Wybrane metody doboru zmiennych do modelu
K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.
Sprawdzian 2. Zadanie 1. Za pomocą KMNK oszacowano następującą funkcję produkcji: Gdzie: P wartość produkcji, w tys. jp (jednostek pieniężnych) K wartość kapitału zaangażowanego w proces produkcji, w tys.
Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka
Analiza współzależności zjawisk dr Marta Kuc-Czarnecka Wprowadzenie Prawidłowości statystyczne mają swoje przyczyny, w związku z tym dla poznania całokształtu badanego zjawiska potrzebna jest analiza z
Wydział Matematyki. Testy zgodności. Wykład 03
Wydział Matematyki Testy zgodności Wykład 03 Testy zgodności W testach zgodności badamy postać rozkładu teoretycznego zmiennej losowej skokowej lub ciągłej. Weryfikują one stawiane przez badaczy hipotezy
Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności
Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności Statystyka indukcyjna pozwala kontrolować i oszacować ryzyko popełnienia błędu statystycznego
Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:
Zadania ze statystyki cz. 7. Zad.1 Z populacji wyłoniono próbę wielkości 64 jednostek. Średnia arytmetyczna wartość cechy wyniosła 110, zaś odchylenie standardowe 16. Należy wyznaczyć przedział ufności
Ekonometria. Zajęcia
Ekonometria Zajęcia 16.05.2018 Wstęp hipoteza itp. Model gęstości zaludnienia ( model gradientu gęstości ) zakłada, że gęstość zaludnienia zależy od odległości od okręgu centralnego: y t = Ae βx t (1)
STATYSTYKA MATEMATYCZNA
Zał. nr 4 do ZW WYDZIAŁ ELEKTRONIKI KARTA PRZEDMIOTU Nazwa w języku polskim STATYSTYKA MATEMATYCZNA Nazwa w języku angielskim Mathematical Statistics Kierunek studiów (jeśli dotyczy): Specjalność (jeśli
BIZNES I RYZYKO NA RYNKU CONSUMER FINANCE
BIZNES I RYZYKO NA RYNKU CONSUMER FINANCE dr Mariusz Cholewa Prezes Zarządu BIK S.A. Grudzień 2016 GRUPA BIK NAJWIĘKSZA BAZA O ZOBOWIĄZANIACH FINANSOWYCH W POLSCE Klienci Indywidualni Przedsiębiorcy Rejestr
Weryfikacja przypuszczeń odnoszących się do określonego poziomu cechy w zbiorowości (grupach) lub jej rozkładu w populacji generalnej,
Szacownie nieznanych wartości parametrów (średniej arytmetycznej, odchylenia standardowego, itd.) w populacji generalnej na postawie wartości tych miar otrzymanych w próbie (punktowa, przedziałowa) Weryfikacja
parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,
诲 瞴瞶 瞶 ƭ0 ƭ 瞰 parametrów strukturalnych modelu Y zmienna objaśniana, = + + + + + X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, α 0, α 1, α 2,,α k parametry strukturalne modelu, k+1 parametrów
Estymacja punktowa i przedziałowa
Temat: Estymacja punktowa i przedziałowa Kody znaków: żółte wyróżnienie nowe pojęcie czerwony uwaga kursywa komentarz 1 Zagadnienia 1. Statystyczny opis próby. Idea estymacji punktowej pojęcie estymatora
Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego
Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego Dorota Witkowska Szkoła Główna Gospodarstwa Wiejskiego w Warszawie Wprowadzenie Sztuczne
Regresja logistyczna (LOGISTIC)
Zmienna zależna: Wybór opcji zachodniej w polityce zagranicznej (kodowana jako tak, 0 nie) Zmienne niezależne: wiedza o Unii Europejskiej (WIEDZA), zamieszkiwanie w regionie zachodnim (ZACH) lub wschodnim
WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO
Zał. nr 4 do ZW WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO KARTA PRZEDMIOTU Nazwa w języku polskim STATYSTYKA STOSOWANA Nazwa w języku angielskim APPLIED STATISTICS Kierunek studiów (jeśli dotyczy): Specjalność
Przykład 1. (A. Łomnicki)
Plan wykładu: 1. Wariancje wewnątrz grup i między grupami do czego prowadzi ich ocena 2. Rozkład F 3. Analiza wariancji jako metoda badań założenia, etapy postępowania 4. Dwie klasyfikacje a dwa modele
Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści
Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, 2018 Spis treści Przedmowa 13 O Autorach 15 Przedmowa od Tłumacza 17 1. Wprowadzenie i statystyka opisowa 19 1.1.
weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)
PODSTAWY STATYSTYKI. Teoria prawdopodobieństwa i elementy kombinatoryki. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5. Testy parametryczne (na
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 9 i 10 1 / 30 TESTOWANIE HIPOTEZ STATYSTYCZNYCH
Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817
Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817 Zadanie 1: wiek 7 8 9 1 11 11,5 12 13 14 14 15 16 17 18 18,5 19 wzrost 12 122 125 131 135 14 142 145 15 1 154 159 162 164 168 17 Wykres
Prognozowanie na podstawie modelu ekonometrycznego
Prognozowanie na podstawie modelu ekonometrycznego Przykład. Firma usługowa świadcząca usługi doradcze w ostatnich kwartałach (t) odnotowała wynik finansowy (yt - tys. zł), obsługując liczbę klientów (x1t)
Metody scoringowe w regresji logistycznej
Metody scoringowe w regresji logistycznej Andrzej Surma Wydział Matematyki, Informatyki i Mechaniki Uniwersytetu Warszawskiego 19 listopada 2009 AS (MIMUW) Metody scoringowe w regresji logistycznej 19
REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji
Statystyka i opracowanie danych Ćwiczenia 5 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ MODEL REGRESJI LINIOWEJ Analiza regresji
Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8
Stanisław Cichocki Natalia Nehrebecka Zajęcia 8 1. Testy diagnostyczne 2. Testowanie prawidłowości formy funkcyjnej modelu 3. Testowanie normalności składników losowych 4. Testowanie stabilności parametrów
Statystyka i Analiza Danych
Warsztaty Statystyka i Analiza Danych Gdańsk, 20-22 lutego 2014 Zastosowania wybranych technik regresyjnych do modelowania współzależności zjawisk Janusz Wątroba StatSoft Polska Centrum Zastosowań Matematyki
Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część
Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część populacji, którą podaje się badaniu statystycznemu
Elementarne metody statystyczne 9
Elementarne metody statystyczne 9 Wybrane testy nieparametryczne - ciąg dalszy Test McNemary W teście takim dysponujemy próbami losowymi z dwóch populacji zależnych pewnej cechy X. Wyniki poszczególnych
Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.
Zadania ze statystyki cz. 8 I rok socjologii Zadanie 1. W potocznej opinii pokutuje przekonanie, że lepsi z matematyki są chłopcy niż dziewczęta. Chcąc zweryfikować tę opinię, przeprowadzono badanie w
Statystyka. #6 Analiza wariancji. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2015/ / 14
Statystyka #6 Analiza wariancji Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik rok akademicki 2015/2016 1 / 14 Analiza wariancji 2 / 14 Analiza wariancji Analiza wariancji jest techniką badania wyników,
1.1 Wstęp Literatura... 1
Spis treści Spis treści 1 Wstęp 1 1.1 Wstęp................................ 1 1.2 Literatura.............................. 1 2 Elementy rachunku prawdopodobieństwa 2 2.1 Podstawy..............................
Statystyka w pracy badawczej nauczyciela
Statystyka w pracy badawczej nauczyciela Wykład 1: Terminologia badań statystycznych dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka (1) Statystyka to nauka zajmująca się zbieraniem, badaniem
Sterowanie wielkością zamówienia w Excelu - cz. 3
Sterowanie wielkością zamówienia w Excelu - cz. 3 21.06.2005 r. 4. Planowanie eksperymentów symulacyjnych Podczas tego etapu ważne jest określenie typu rozkładu badanej charakterystyki. Dzięki tej informacji
Ćwiczenia IV
Ćwiczenia IV - 17.10.2007 1. Spośród podanych macierzy X wskaż te, których nie można wykorzystać do estymacji MNK parametrów modelu ekonometrycznego postaci y = β 0 + β 1 x 1 + β 2 x 2 + ε 2. Na podstawie
Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej
Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki
5. Model sezonowości i autoregresji zmiennej prognozowanej
5. Model sezonowości i autoregresji zmiennej prognozowanej 1. Model Sezonowości kwartalnej i autoregresji zmiennej prognozowanej (rząd istotnej autokorelacji K = 1) Szacowana postać: y = c Q + ρ y, t =
POLITECHNIKA OPOLSKA
POLITECHNIKA OPOLSKA WYDZIAŁ MECHANICZNY Katedra Technologii Maszyn i Automatyzacji Produkcji Laboratorium Podstaw Inżynierii Jakości Ćwiczenie nr 4 Temat: Analiza korelacji i regresji dwóch zmiennych
Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU
Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów
Statystyka Matematyczna Anna Janicka
Statystyka Matematyczna Anna Janicka wykład IX, 25.04.2016 TESTOWANIE HIPOTEZ STATYSTYCZNYCH Plan na dzisiaj 1. Hipoteza statystyczna 2. Test statystyczny 3. Błędy I-go i II-go rodzaju 4. Poziom istotności,
ANALIZA PORÓWNAWCZA JAKOŚCI MODELI PROGNOZOWANIA KONDYCJI EKONOMICZNO- FINANSOWEJ PRZEDSIĘBIORSTW WOJ. LUBELSKIEGO I PODKARPACKIEGO
115 ANALIZA PORÓWNAWCZA JAKOŚCI MODELI PROGNOZOWANIA KONDYCJI EKONOMICZNO- FINANSOWEJ PRZEDSIĘBIORSTW WOJ. LUBELSKIEGO I PODKARPACKIEGO Zbigniew Omiotek Wyższa Szkoła Zarządzania i Administracji w Zamościu
Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.
Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl Hipotezy i Testy statystyczne Każde
Testy nieparametryczne
Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów
Korelacja krzywoliniowa i współzależność cech niemierzalnych
Korelacja krzywoliniowa i współzależność cech niemierzalnych Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki Szczecińskiej
Statystyka matematyczna i ekonometria
Statystyka matematyczna i ekonometria prof. dr hab. inż. Jacek Mercik B4 pok. 55 jacek.mercik@pwr.wroc.pl (tylko z konta studenckiego z serwera PWr) Konsultacje, kontakt itp. Strona WWW Elementy wykładu.
ALGORYTM RANDOM FOREST
SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM
P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?
2 Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia czy pomiędzy zmiennymi istnieje związek/zależność. Stosujemy go w sytuacji, kiedy zmienna zależna mierzona jest na skali
Wprowadzenie do analizy dyskryminacyjnej
Wprowadzenie do analizy dyskryminacyjnej Analiza dyskryminacyjna to zespół metod statystycznych używanych w celu znalezienia funkcji dyskryminacyjnej, która możliwie najlepiej charakteryzuje bądź rozdziela