Przemysław Jaśko Wydział Ekonomii i Stosunków Międzynarodowych, Uniwersytet Ekonomiczny w Krakowie

Wielkość: px
Rozpocząć pokaz od strony:

Download "Przemysław Jaśko Wydział Ekonomii i Stosunków Międzynarodowych, Uniwersytet Ekonomiczny w Krakowie"

Transkrypt

1 MODELE SCORINGU KREDYTOWEGO Z WYKORZYSTANIEM NARZĘDZI DATA MINING ANALIZA PORÓWNAWCZA Przemysław Jaśko Wydział Ekoomii i Stosuków Międzyarodowych, Uiwersytet Ekoomiczy w Krakowie 1 WROWADZENIE Modele aplikacyjego scorigu kredytowego wykorzystywae są a etapie rozpatrywaia wiosków o kredyt. Uściślając, miaem modelu scorigu aplikacyjego określa się taki model, którego przewidywae (wyjściowe) wartości uzyskae w wyiku podstawieia wektora wartości predyktorów charakteryzującego day obiekt potecjaly kredyt służą jako podstawa do wyzaczeia progozy jakościowej (ajczęściej biarej) zmieej opisującej status kredytu, w oparciu o którą to progozę podejmowaa jest astępie decyzja kredytowa o udzieleiu bądź też odmowie przyzaia rozważaego kredytu. W przypadku rozpatrywaych w pracy idywidualych modeli scorigu kredytowego populację bazową tworzą kredyty daego typu, odoszące się do pojedyczej istytucji kredytowej. Często, jeżeli jest to zasade, jako populację bazową uzaje się populację kredytów odoszących się do pojedyczej filii istytucji kredytowej (bądź też określoej grupy filli). Zazwyczaj progozie podlegają wartości jakościowej zmieej biarej status kredytu, mogącej przyjmować astępujące dwie kategorie: dobry kredyt oraz zły kredyt (przyjęto dla ich etykiety odpowiedio 1 oraz 2 ). W takiej sytuacji, gdy klasyfikacja przewidywaa przez model jest odmiea od tej w rzeczywistości obserwowaej, moża mieć do czyieia z dwoma rodzajami błędów [4]: błąd I rodzaju /błąd 1 2/ progoza statusu dobry dla kredytu w rzeczywistości złego, błąd II rodzaju /błąd 2 1/ progoza statusu zły dla kredytu w rzeczywistości dobrego. Założoo, że zastosowae kryterium podejmowaia decyzji kredytowych powio być zdefiiowae w te sposób, aby prowadzić do miimalizacji wartości oczekiwaej kosztu związaego z dowolym (ie bierze się tutaj pod uwagę wektora wartości predyktorów charakteryzujących day kredyt) pojedyczym kredytem pochodzącym z populacji bazowej. Zmiea opisująca koszt związay z pojedyczym kredytem ma rozkład trójpuktowy, a zbiór wartości przyjmowaych przez tę zmieą to 0, C 21, C12, gdzie C 12 i C 21 to odpowiedio koszt błędu pierwszego i drugiego rodzaju, poadto 1 2 C21 C. Przyjęto dla iej ozaczeie K, atomiast przez E(K) ozacza się jej wartość oczekiwaą. 2 CEL I ZAKRES PRACY Celem pracy była budowa modelu aplikacyjego scorigu kredytowego dla idywidualych kredytów kosumpcyjych w oparciu o kokrete dae zaczerpięte z iemieckich istytucji kredytowych. Przy budowie modelu scorigowego przyjęto postępowaie stosowae w data miig. Na etapie eksploracyjego data miig po sprawdzeiu poprawości dostępych daych zbadaa została struktura dyspoowaej próby oraz wykoae zostało tzw. drążeie daych, umożliwiające odkrycie zależości pomiędzy zmieymi w dyspoowaym zbiorze daych. Natomiast a etapie predykcyjego data miig (zgłębiaia daych) oszacowaych zostało kilka modeli, a podstawie których możliwe było postawieie jakościowej progozy dotyczącej statusu kredytu. Były to kolejo: model 155

2 Modele scorigu kredytowego z wykorzystaiem arzędzi data miig aaliza porówawcza logitowy (jako przykład modelu zmieej biarej), model CART i model CHAID (jako przykładowe algorytmy metody RP), sztucza sieć euroowa MLP (skostruowao rówież sieć RBF, jedak w związku z iezadowalającymi wyikami progoz klasyfikacyjych tego modelu pomiięto jego prezetację) oraz model aalizy dyskrymiacyjej. Na podstawie powyższych modeli skostruowao rówież modele agregatowe. Przy budowie modeli uwzględioo specjalie skostruoway system wag przypadków pozwalający a uwzględieie różych kosztów błędych klasyfikacji. W modelu CART moża bezpośredio uwzględić róże koszty błędych klasyfikacji poprzez zdefiiowaie macierzy kosztów, toteż zamiast przyjęcia systemu wag przyjęto przywołae podejście. Natomiast w algorytmie CHAID ie ma możliwości uwzględieia różych kosztów błędów klasyfikacyjych. Praktycze właściwości poszczególych modeli zostały porówae oraz podjęto próbę określeia ajlepszego modelu (modeli). Przytoczoe modele przyjęto za pracą [4] określać łączie miaem statystyczo-matematyczych modeli scorigu kredytowego. Wszystkie aalizy zostały wykoae z użyciem oprogramowaia STATISTICA. 3 OPIS ZMIENNYCH ORAZ MACIERZ KOSZTÓW Dae pochodzące z jedej z iemieckich istytucji kredytowych zaczerpięto z Repozytorium Uczeia Maszyowego Uiwersytetu Kaliforijskiego w Irvie [1]. Dostępe metadae dotyczące pobraego zbioru daych azwaego iemiecki kredyt były bardzo ubogie. Zbiór zawierał wartości zmieej zależej Y oraz 20 potecjalych predyktorów opisujących 1000 obiektów będących kredytami kosumpcyjymi dla osób fizyczych. Potecjalym predyktorom zmieym objaśiającym przypisao koleje ozaczeia od X1 do X20. Trzyaście z potecjalych predyktorów miało charakter zmieych jakościowych, pozostałych 7 to zmiee ilościowe. Moża miemać, że wartości części z potecjalych zmieych objaśiających pochodziły z wiosków kredytowych wypełioych przez aplikatów, atomiast dae dotyczące wartości pozostałych (potecjalych) zmieych objaśiających zaczerpięto odpowiedio z Biura Iformacji Kredytowej, bądź też z bazy daych rozpatrywaej istytucji kredytowej. Metadae ie zawierały iformacji o tym, czy próba składa się wyłączie z kredytów, które zostały zgodie ze stosowaą w okresie kompletowaia próby metodą uzaiową udzieloe, czy też zostały do iej włączoe rówież kredyty, dla których wioski zostały przez scorig uzaiowy odrzucoe. Zmiea zależa to jakościowa zmiea biara Y opisująca status kredytu. Poiżej przedstawia się opis dostępych potecjalych predyktorów ( X m ) dla wartości zmieej zależej Y (skróty ozaczają: T typ zmieej: ilościowa lub jakościowa, LK liczba kategorii (wartości) zmieej jakościowej, K etykiety i azwy poszczególych kategorii cech jakościowych). X1 - Sta istiejącego rachuku bieżącego w DEM (T: jakościowa, LK 4, K: X11 - poiżej 0, X12 - <0,200), X13 - ie miej iż 200/pesja a rachuek przez miimum rok, X14 - brak rachuku bieżącego); X2 - Czas trwaia w miesiącach (T: ilościowa); X3 - Historia kredytowa (T: jakościowa, LK 5, K: X30 - bez kredytów/wszystkie kredyty spłacoe, X31 - wszystkie kredyty w tym baku spłacoe, X32 - istiejące kredyty spłacae regularie, X33 - opóźieie w spłatach w przeszłości, X34 - rachuek krytyczy/istieją kredyty w iych bakach); X4 - Cel kredytu (T: jakościowa, LK 10, K: X40 - samochód (owy), X41 - samochód (używay), X42 - meble/wyposażeie, X43 - RTV, X44 - AGD, X45 - remot, X46 - edukacja, X47 - zmiaa kwalifikacji, X48 - bizes, X49 - iy cel); X5 - Kwota kredytu (T: ilościowa); X6 - Rachuki oszczędościowe/obligacje, wartości w DEM (T: jakościowa, LK 5, K: X61 - poiżej 100, X62 - <100,500), X63 - <500, 1000), X i więcej, X65 - brak daych/brak rachuku oszczędościowego); X7 - Długość obecego zatrudieia, w latach (T: jakościowa, LK 5, K: X71 - bezroboty, X72 - poiżej 1, X73 - <1, 4), X74 - <4, 7), X75-7 i więcej); X8 - Rata kredytu jako procet rozporządzalego dochodu (T: ilościowa); X9 - Sta cywily i płeć (T: jakościowa, LK 4, K: X91 - mężczyza: rozwiedzioy/w separacji, X92 - kobieta: rozwiedzioa/w separacji/mężatka, X93 - mężczyza: sta woly, X94 - mężczyza: żoaty/wdowiec); X10 - Ii dłużicy/poręczyciele (T: jakościowa, LK 3, K: X101 - brak, X102 - współaplikat wiosku, X103 - poręczyciel); X11 - Okres obecego Zastosowaia metod statystyczych w badaiach aukowych IV StatSoft Polska 2012

3 Modele scorigu kredytowego z wykorzystaiem arzędzi data miig aaliza porówawcza zamieszkaia w latach (T: ilościowa); X12 - Własość (T: jakościowa, LK 4, K: X121 ieruchomość, X122 - jeżeli ie X121: wkład do spółdzieli mieszkaiowej/polisa ubezpieczeiowa a życie, X123 - jeżeli ie X121 oraz X122: samochód lub ia, X124 - iezaa/brak własości); X13 - Wiek w latach (T: ilościowa); X14 - Ie powiości ratale (T: jakościowa, LK 3, K: X141 - bak, X142 - sklepy, X143 - brak); X15 - Mieszkaie (T: jakościowa, LK 3, K: X151 - wyajmowae, X152 - własościowe, X153 - za darmo); X16 - Liczba istiejących kredytów w tym baku (T: ilościowa); X17 - Praca (T: jakościowa, LK 4, K: X171 - bezroboty/iewykwalifikoway - ierezydet, X172 - iewykwalifikoway - rezydet, X173 wykwalifikoway pracowik/urzędik, X174 zarządca/samozatrudieie/wysoko wykwalifikoway pracowik); X18 - Liczba osób a utrzymaiu (T: ilościowa); X19 - Telefo (T: jakościowa, LK 2, K: X191 - brak, X192 - tak, zarejestroway a azwisko klieta); X20 - Pracowik zagraiczy (T: jakościowa, LK 2, X201 - tak, X202 - ie). Do zbioru daych dołączoo astępująco zdefiiowaą macierz kosztów błędych klasyfikacji (P wartość progozowaa, O wartość obserwowaa): Tabela 1. Macierz kosztów P\O 1 2 P\O C C C 1 0 1,7 C 2 0,7 0 4 EKSPLORACYJNY DATA MINING W tym momecie przytoczoe zostaą wybrae czyości wykoae w ramach eksploracyjego data miig. 4.1 Rozkład zmieej Y w całości dyspoowaej próby Rozkład empiryczy zmieej zależej Y w całości dyspoowaej próby przedstawiał się astępująco: frakcja dobrych kredytów wyosiła 0,7 (700 obiektów), a odsetek złych kredytów rówy był 0,3 (300 obiektów). Poza tym ie występowały braki daych dla omawiaej zmieej. Dostępe dae, obejmujące wartości potecjalych predyktorów X m oraz zmieej zależej Y ozaczającej status kredytu, odoszą się (ajprawdopodobiej) wyłączie do kredytów, które zostały przyzae w oparciu o decyzję podjętą a podstawie scorigu uzaiowego. Struktura względem Y obserwowaa w dostępej próbie zdawałaby się świadczyć o tym, że mechaizm stosoway przy doborze próby ie był losowy. W przypadku losowego doboru próby ajprawdopodobiej udział poszczególych klas Y w strukturze byłby bardziej rówomiery. Przy założeiu 100% trafości w uzupełiaiu brakujących wartości Y, wśród kredytów, do których odoszą się odrzucoe wioski, szacuki frakcji w pewej populacji bazowej są astępujące: klasa 1 0,54, klasa 2 0,46. Oszacowań tych dokoao w oparciu o dae pochodzące z pracy [4]. W związku z czym wartości parametrów, oszacowae w oparciu o próbę składającą się wyłączie z kredytów (obiektów), o które wioski zostały zaakceptowae w ramach metody uzaiowej, byłyby obciążoe, a progozy takiego modelu stawiae dla obiektów (kredytów) o własościach podobych do tych z grupy odrzucoych przez scorig uzaiowy, opierałby się a ieuzasadioej ekstrapolacji, przez co mogłyby być ietrafe. W tabeli 2 przedstawioo, jak mogłaby wyglądać hipotetycza struktura ze względu a Y próby pobraej z populacji bazowej. Tę przykładową strukturę względem Y rozbito a wioski przyjęte oraz odrzucoe zgodie z metodą uzaiową. Tabela 2. Przykładowa struktura próby pobraej z populacji bazowej w zależości od decyzji podjętej w oparciu o model uzaiowy. Decyzja scorigu uzaiowego (wioski)\y Y klasa 1 (Y=1) Y klasa 2 (Y=2) Wiersz Przyjęte ( a 1) % z kolumy 77,78% 50,00% % z wiersza 70,00% 30,00% % z całości 46,67% 20,00% 66,67% Odrzucoe ( a 2 ) % z kolumy 22,22% 50,00% % z wiersza 40,00% 60,00% % z całości 13,33% 20,00% 33,33% Ogół % z całości 60,00% 40,00% 100,00% Zastosowaia metod statystyczych w badaiach aukowych IV StatSoft Polska

4 Modele scorigu kredytowego z wykorzystaiem arzędzi data miig aaliza porówawcza W tej hipotetyczej strukturze 60% kredytów w próbie to kredyty dobre, pozostałe 40% staowią kredyty złe. Struktura ze względu a Y (status kredytu) różi się, w zależości od tego, czy jest to grupa wiosków przyjętych czy też odrzucoych przez scorig uzaiowy. I tak wśród wiosków przyjętych a podstawie decyzji opartej a przewidywaiach modelu uzaiowego 70% dotyczy kredytów o statusie dobry, a pozostałe 30% odosi się do kredytów złych. W przypadku wiosków odrzucoych przez model uzaiowy status odpowiadających im kredytów jest ieobserwowaly. Jedak dla uproszczeia założoo tutaj, że jest o zay, lub iaczej, że metody uzupełiaia brakujących wartości Y są ieomyle. Przy przyjętych założeiach w tym hipotetyczym przykładzie struktura statusu kredytów, do których odoszą się wioski odrzucoe, jest astępująca: kredyty dobre ( Y 1) 40%, kredyty złe ( Y 2 ) 60%. Miary jakości klasyfikacji (predykcji przyależości klasowej ze względu a Y ) dla modelu scorigu uzaiowego przedstawiają się astępująco: błąd ,00%, błąd ,22%, łączy błąd 33,33%, E K 0, Przedstawioa struktura jest tylko przykładowym domiemaiem tej, którą moża by zaobserwować w reprezetatywej próbie (w skład której wchodzą kredyty odoszące się do wiosków przyjętych, a także te z wiosków odrzucoych przez metodę uzaiową) pobraej z populacji bazowej. Choć jest to zabieg iezbyt poprawy i uzasadioy dla uproszczeia przyjęto w pracy, że dostępy zbiór daych/próba, to zaczy te o strukturze Y: klasa 1 0,7, klasa 2 0,3, obejmuje kredyty odoszące się ie tylko do wiosków przyjętych przez model uzaiowy, ale także te kredyty, dla których wioski zostały przez model uzaiowy odrzucoe. Przy takich założeiach (choć w wymuszoy sposób uzaych za prawdziwe dla rozpatrywaej próby) moża oczekiwać, że przy zastosowaiu prawidłowej metodologii budowy i weryfikacji modeli, oszacowaia ich parametrów w oparciu o dostępą próbę powiy być ieobciążoe, oraz tego, że modele te będą umożliwiały prawidłową progozę wartości Y dla dowolego obiektu pochodzącego (pobraego) z populacji bazowej. 4.2 Podział całości próby a próbę uczącą oraz próbę testową Dokoao losowego podziału całości próby (1000 obiektów) a próbę uczącą U oraz próbę testową T w taki sposób, aby uzyskać przybliżoe proporcje: 80% wszystkich obiektów w próbie U oraz 20% z całości w próbie T. W te sposób otrzymao próbę uczącą U liczącą N 807 obiektów oraz próbę testową T o liczebości N 193 obiektów. Próba uczącą T posłuży do oszacowaia parametrów poszczególych modeli, a a podstawie próby testowej zweryfikowaa zostaie ich jakość predykcyja wartości zmieej zależej Y. Struktura zmieej zależej Y w poszczególych próbach została przedstawioa w tabeli 3. Tabela 3. Podsumowująca tabela dwudzielcza: częstości obserwowae (iemiecki kredyt). Y: Status kredytu Próba ucząca Próba testowa Wiersz (ods. próby) 70,01% 69,95% (ods. próby) 29,99% 30,05% Ogół W związku z losowym podziałem zbioru wszystkich dostępych obserwacji struktura ze względu a zmieą Y w obu próbach ie powia się istotie różić. Jak widać, różice w strukturze ie są zaczące, co potwierdza rówież wartość testu iezależości chi-kwadrat Pearsoa zestawiającego zmieą Y ze zmieą reprezetującą przyależości obiektu do daej próby, dla którego wartość p wyiosła 0,99, w związku z czym ie ma podstaw do odrzuceia hipotezy o iezależości. 4.3 Zdefiiowaie systemu wag W celu umożliwieia uwzględieia różych kosztów błędych klasyfikacji zdecydowao się a zdefiiowaie specjalego systemu wag. W stworzoym systemie wagi przypadków zbioru uczącego U były przyporządkowywae w oparciu o rzeczywistą wartość (przyależość klasową) zmieej Y dla daego obiektu, tak aby uwzględiały oe poziomy kosztów związaych z błędym przypisaiem określoego statusu kredytu. Stworzoy system wag był od tego mometu uwzględiay w drążeiu daych, co pozwoliło Zastosowaia metod statystyczych w badaiach aukowych IV StatSoft Polska 2012

5 Modele scorigu kredytowego z wykorzystaiem arzędzi data miig aaliza porówawcza a wykrywaie zależości pomiędzy zmieymi przy jedoczesym uwzględieiu faktu, że przy budowie modelu poszczególe obserwacje zmieych będą miały iy iż by to wyikało z empiryczego rozkładu wpływ a uzyskae wyiki. W związku z tym, że iektóre moduły, za pomocą których budowao późiej modele wymagały, aby wagi były całkowitymi liczbami dodatimi, zdecydowao się przyjąć wagi rówe dziesięciokrotościom kosztów błędych klasyfikacji wyoszących odpowiedio dla błędów I i II rodzaju 0,7 oraz 1,7. I tak każdemu obiektowi zbioru U, dla którego wartość Y rówa była 1 (każdemu dobremu kredytowi) przypisao wagę 7 ( 10 C , 7), atomiast każdemu obiektowi o wartości Y rówej 2 (każdemu złemu kredytowi) adao wagę 17 ( 10 C , 7), co moża formalie zapisać: w 7, gdy Y 1 17, gdy Y 2, przy czym w to waga dla -tego obiektu zbioru U. Zabieg taki miał a celu zwiększeie trafości predykcji klasyfikacyjej obiektów przyależących do klasy 2 zmieej Y, czyli złych kredytów, a podstawie skostruowaych modeli, a więc mówiąc iaczej, redukcję poziomu błędu 1 2. Struktura Y w zależości od próby w przypadku uwzględieia wag w obu próbach przedstawia się astępująco: Tabela 4. Podsumowująca tabela dwudzielcza: częstości obserwowae (iemiecki kredyt uwzględioo wagi). Y: Status kredytu Próba ucząca Próba testowa Wiersz (ods. próby) 49,01% 48,94% (ods. próby) 50,99% 51,06% Ogół Po uwzględieiu wag proporcje obu klas stały się zbliżoe (po ok. 50%). Ozacza to w stosuku do ieważoej struktury wzrost względego udziału obiektów, dla których Y 2 (czyli kredytów złych ), a tym samym spadek proporcji obiektów o Y 1 (kredytów dobrych ). Struktura Y w próbie testowej przy uwzględieiu wag rówież ie wykazuje istotych różic w porówaiu ze strukturą w próbie uczącej (wartość p testu iezależości rówa 0,95). 4.4 Testy iezależości zestawiające Y z potecjalymi predyktorami W tabeli 5 przytoczoe zostaą wartości p (poziomy istotości) testów iezależości chikwadrat Pearsoa pomiędzy zmieą zależą Y a poszczególymi potecjalymi predyktorami X m. Aby wykoać testy iezależości pomiędzy Y a zmieymi ilościowymi, ależało je uprzedio przekształcić w zmiee jakościowe. Dokoao tego poprzez podział zakresu zmieości cechy a przedziały, które traktuje się jako kategorie zmieej jakościowej. Takie działaie względem cech ilościowych umożliwiło wykrycie za pomocą rozważaych testów ewetualych zależości, w tym także iemootoiczych pomiędzy jakościową cechą zależą a poszczególymi zmieymi ilościowymi. W tej sytuacji postać związku możliwego do wykrycia za pomocą testu iezależości zależy od liczby kategorii, a które została podzieloa cecha ilościowa. Zmiee X m uporządkowae zostały według rosącej wartości p, gdyż iższe wartości p świadczą o wyższym stopiu zależości pomiędzy zestawiaymi zmieymi. Uzyskae iskie wartości p pozwalają sądzić, że związki pomiędzy zmieą zależą Y a rozpatrywaymi z osoba potecjalymi zmieymi objaśiającymi są sile. Na uzyskaie tak iskich wartości p miał rówież wpływ zastosoway system ważeia obserwacji. Pięć ajsiliej związaych z Y cech objaśiających, gdy za kryterium pomiaru siły związku przyjmuje się wartości p wykoaych testów to kolejo: X1 iformująca o staie rachuku bieżącego, X3 reprezetująca historię kredytową aplikata, ilościowa zmiea X2 mówiąca o czasie trwaia kredytu, X6 rachuki oszczędościowe oraz X4 cel kredytu. Przywołae zmiee odoszą się do statusu majątkowego: X2, X6 lub reprezetują cechy obecie postulowaego bądź uprzedio uzyskaych kredytów: X3, X2, X4. Najwyższe wartości p uzyskao w teście dla zmieych X11, X18, co może świadczyć, że związki tych cech z Y ie są tak sile jak pozostałych zmieych X m. Jedak dobór predyktorów ie może odbywać się wyłączie w oparciu o wyiki testów iezależości zmieej Y z poszczególymi cechami. Zastosowaia metod statystyczych w badaiach aukowych IV StatSoft Polska

6 Modele scorigu kredytowego z wykorzystaiem arzędzi data miig aaliza porówawcza Metoda ta pozwala zbadać związki między zmieymi i jest świetym wyjściem do metod doboru zmieych stosowaych w poszczególych modelach. Przy doborze zmieych objaśiających do modelu ależy brać rówież pod uwagę ewetuale zależości występujące pomiędzy potecjalymi predyktorami. Rolę zmieych objaśiających w modelu powiy pełić zmiee silie zależe ze zmieą objaśiaą oraz słabo związae pomiędzy sobą (aby ie powtarzały oe tej samej iformacji dotyczącej zmieej zależej). Tabela 5. Testy iezależości chi-kwadrat pomiędzy zmieą zależą Y a poszczególymi potecjalymi predyktorami (iemiecki kredyt: próba ucząca uwzględioo wagi). Zmiea Chi-kwadrat df Wartość p Nazwa zmieej X1 1418,206 3 Sta istiejącego 3,3E-307 rachuku bieżącego X3 559, ,0E-120 Historia kredytowa X2 476, ,0E-97 Czas trwaia w miesiącach X6 403, ,3E-86 Rachuki oszczędościowe/obligacje X4 322, ,4E-64 Cel kredytu X5 283, ,6E-56 Kwota kredytu X12 193, ,2E-41 Własość X14 175, ,2E-39 Ie powiości ratale X13 145, ,1E-27 Wiek w latach X20 100, ,3E-23 Pracowik zagraiczy X7 98, ,2E-20 Długość obecego zatrudieia (w latach) X15 73, ,3E-16 Mieszkaie X8 70, ,9E-15 Rata kredytu jako procet rozp. doch. X10 62, ,5E-14 Ii dłużicy/poręczyciele X9 60, ,0E-13 Sta cywily i płeć Liczba istiejących X16 38, ,7E-08 kredytów w tym baku X19 23, ,5E-06 Telefo X17 22, ,5E-05 Praca X11 14, ,0029 Okres obecego zamieszkaia w latach X18 3, ,0665 Liczba osób a utrzymaiu Poprzez pogrubieie ozaczoo zmiee ilościowe ciągłe, które zostały poddae kategoryzacji. W przypadku skokowych zmieych ilościowych, każda z ich wartości została potraktowaa jako osoba kategoria tworzoej cechy jakościowej wyróżieie poprzez podkreśleie. Po wykoaiu liczych aaliz pozwalających a wykrycie wzajemych związków pomiędzy potecjalymi predyktorami stwierdzoo, że występują pomiędzy imi zależości (często sile). Wyiki tych aaliz zostały wzięte pod uwagę przy oceie zasadości włączeia daej zmieej do modelu jako predyktora. Przy doborze zmieych objaśiających dla iektórych modeli zastosowao metody krokowe, które to badają i uwzględiają wkład, jaki wosi do modelu zmiea, iewyikający z jej zależości z iymi predyktorami modelu. 5 PREDYKCYJNY DATA MINING. PRZE- GLĄD I PRAKTYCZNE PORÓWNANIE MODELI APLIKACYJNEGO SCORINGU KREDYTOWEGO W ramach predykcyjego zgłębiaia daych oszacowao kilka modeli mogących pełić rolę modeli aplikacyjego scorigu kredytowego. Po czym zostały oe statystyczie zweryfikowae, a astępie zostały oceioe ich zdolości predykcyje w odiesieiu do statusu kredytu dla omawiaego w pracy kokretego przypadku praktyczego. 5.1 Modele zmieej biarej: model logitowy Modele zmieej biarej są przykładem uogólioych modeli liiowych. W uogólioych modelach liiowych dopuszcza się, aby zmiea objaśiaa Y miała rozkład iy iż ormaly. Związek zmieej zależej od liiowej kombiacji predyktorów day jest astępująco: EY Fx T β, przy czym F jest określoą, zazwyczaj ieliiową fukcją. Fukcję odwrotą do F ozaczaą formalie F azywa się 1 fukcją wiążącą. Spełioa jest dla iej poiższa 1 zależość: F E( Y ) x T β. W rozważaej sytuacji zmiea Y, reprezetująca status kredytu opisywaego przez wektor predyktorów x, ma rozkład Beroullego. Wartość oczekiwaa zmieej Y rówa jest prawdopodobieństwu p bycia dobrym kredytu, który charakteryzoway jest przez wektor wartości predyktorów x. W przypadku modelu logitowego, dla którego x e E 1 e moża wyrazić przez: x T Y p x β T x β T β 1 1 EY p T β, fukcję wiążącą p l 1 p. Fukcja ta Zastosowaia metod statystyczych w badaiach aukowych IV StatSoft Polska 2012

7 Modele scorigu kredytowego z wykorzystaiem arzędzi data miig aaliza porówawcza osi azwę logitu, stąd też azwa rozważaego modelu. W celu specyfikacji modelu, estymacji oraz weryfikacji jego parametrów w programie STATISTICA zastosowao moduł Uogólioe modele liiowe i ieliiowe, w którym wybrao wariat Model logitowy. Przy budowie modelu i jego weryfikacji statystyczej uwzględioy został specjalie stworzoy system wag. Ze zbioru zmieych X1-X20 za pomocą metody krokowej postępującej wybrae zostały predyktory do modelu logitowego, w którym rolę zmieej zależej pełił Y. Parametry sterujące metodą krokowego doboru predyktorów ustaloo a astępujących poziomach: p do wprowadzaia 0, 01 (jest to wartość p statystyki puktowej odoszącej się do cechy, której włączeie rozważa się a daym etapie działaia metody krokowej, poiżej której to wartości rozpatrywaa cecha zostaje wprowadzoa do modelu), p do usuięcia 0, 02 (jest to wartość p statystyki Walda odoszącej się do zmieej rozważaej do usuięcia a daym etapie działaia metody krokowej, powyżej której to wartości rozważaa zmiea zostaje wyłączoa z modelu). Metoda krokowa postępująca przebiegała w 18 krokach. W wyiku tej procedury do modelu włączoo 18 zmieych (w tym wszystkie z 13 jakościowych oraz 5 ilościowych). Do modelu ie weszły zmiee: X18 (liczba osób a utrzymaiu) oraz X11 (okres obecego zamieszkaia w latach). W kolejych krokach procedury były wprowadzae zmiee, atomiast w żadym z ich ie została usuięta zmiea uprzedio wprowadzoa. Zmiee objaśiające w modelu logitowym, który został zbudoway, to w kolejości włączaia: X1, X3, X2, X4, X6, X14, X10, X20, X8, X5, X9, X19, X13, X7, X12, X16, X17, X15. Uporządkowaie cech jest zbliżoe do kolejości wyzaczoej według rosącej wartości p dla testów iezależości chikwadrat pomiędzy poszczególymi (potecjalymi) predyktorami a zmieą zależą Y. Nieuwzględieie zmieych X11 oraz X18 przez metodę krokową zdaje się potwierdzać, iż wartości tych zmieych ie są zbytio użytecze w przewidywaiu przyależości obiektów do klas zmieej Y. 5.2 Drzewa klasyfikacyje i regresyje (CART) l l R l Model oparty a drzewie CART, służący do predykcji przyależości obiektów do klas zmieej zależej Y, budoway jest w oparciu o wyzaczoe wcześiej drzewo właściwej wielkości D h* *. I jest fukcją wskaźikową: I(p) = 1, gdy p to prawda, oraz I(p) = 0, gdy p to fałsz. Wartości parametrów dla aproksymaty y a I x modelu wyzacza się w astępujący sposób: 1 za parametry a l modelu przyjmuje się etykiety klas przypisaych poszczególym liściom: al jd Rl, l 1,2,..., L, przy czym h ** jd h ** R l jest fukcją przyporządkowującą określoym podzbiorom przestrzei predyktorów X (odpowiadającym defiicjom liści drzewa D h* * ) etykietę określoej klasy zależej zmieej jakościowej Y, 2 dla l 1,2,..., L zbiór R l wyzaczoy jest przez defiicję l-tego liścia drzewa D h* *, przykładowo R l x : x1 C x2 B, gdzie C jest stałą, a B podzbiorem zbioru wartości pewego predyktora jakościowego X 2. W celu stworzeia odpowiediego drzewa CART użyto modułu Ogóle modele drzew klasyfikacyjych i regresyjych. Jako jakościową zmieą zależą wybrao Y. Moduł te umożliwia bezpośredie uwzględieie różych kosztów błędych klasyfikacji poprzez zdefiiowaie kosztów błędych klasyfikacji użytkowika. W związku z tym, zamiast stosować system wag przypadków w algorytmie CART, zdefiiowao macierz kosztów odpowiadającą przywołaej wcześiej. Przyjęto, że fukcję kryterium podziału węzła będzie pełiła statystyka 2 G (G-kwadrat). Opis miary G-kwadrat moża zaleźć w pracy [2]. Poza oceą błędu resubstytucji drzewa R D h, która jest wraz z poziomem złożoości drzewa podstawą działaia procedury przyciaia, w wyiku której tworzoa jest sekwecja drzew optymalie przyciętych, wyzaczoo także oceę błędu drzewa a podstawie V-krotego sprawdziau krzyżowego R SK D h, w oparciu o którą wybiera się drzewo właściwej wielkości ( D h* *) spośród otrzymaej sekwecji drzew. Przyjęto wartość V rówą 10 oraz regułę jedego błędu stadardowego (c = 1). Zastosowaia metod statystyczych w badaiach aukowych IV StatSoft Polska

8 Modele scorigu kredytowego z wykorzystaiem arzędzi data miig aaliza porówawcza Za kryteria zatrzymaia procedury podziału węzła przyjęto: miimalą liczebość węzła iższą od N 80 0,1 807, tz. N k 80, k, mi maksymalą liczbę wszystkich węzłów przekraczającą 30, jedorodość rozpatrywaego węzła: j k 1 j 1,2,..., J : p. Day węzeł ie podlegał podziałowi, gdy spełioa była dla iego alteratywa powyższych waruków. W tabeli 6 przedstawioo sekwecję optymalie przyciętych drzew uzyskaych w wyiku procedury przyciaia drzewa maksymalego a podstawie kosztu (błędu) i złożoości. Tabela 6. Sekwecja drzew (iemiecki kredyt: próba ucząca). Zmiea zależa: Y Drzewo Liczba liści L SK koszt R SK (D h ) Błąd std. SK Koszt resubstytucji R(D h ) Węzeł (złożoość) D1 16 0,3131 0,0163 0,2238 0,0000 *D2 13 0,2867 0,0159 0,2282 0,0014 D3 9 0,2874 0,0159 0,2465 0,0046 D4 8 0,2874 0,0159 0,2520 0,0055 D5 6 0,2906 0,0160 0,2660 0,0070 **D6 2 0,3009 0,0161 0,3009 0,0087 D7 1 0,4902 0,0176 0,4902 0,1892 SK Drzewo o R D mi h ozaczoo * h Najlepsze drzewo ozaczoo ** Wartości ocey błędu resubstytucji R D h oraz błędu a podstawie V-krotego sprawdziau krzyżowego R SK D h dla poszczególych drzew wchodzących w skład sekwecji drzew optymalie przyciętych przedstawioo rówież a wykresie. Koszt 0,55 0,50 0,45 0,40 0,35 0,30 0,25 0,20 Sekwecja kosztów Zmiea zależa: Y 0, Drzewo umer Koszt resubst. Koszt SK Na wykresie widać wyraźie wzrost błędu resubstytucji wraz ze spadkiem złożoości drzew (drzewa o wyższych umerach w sekwecji), co jest zjawiskiem aturalym. Jeżeli chodzi o oceę błędu SK, to ma oa ajiższy poziom dla drzewa r 2. Początkowo astępuje spadek poziomu R SK D h, błąd dla drzewa D 2 jest iższy od tego dla drzewa D 1 (co może świadczyć o silym przeuczeiu D 1). Następie błąd dla kolejych drzew wzrasta o zbliżoą iewielką wartość w stosuku do poziomu otowaego dla drzewa poprzediego w sekwecji, tyczy się to drzew o umerach od 3 do 6. W końcu ocea błędu a podstawie V-krotego sprawdziau krzyżowego gwałtowie wzrasta dla drzewa r 7, składającego się wyłączie z korzeia. Zgodie z regułą jedego błędu stadardowego za drzewo właściwej wielkości D h* * ależałoby uzać drzewo r 6 z sekwecji drzew optymalie przyciętych. Drzewo to składa się z 3 węzłów, w tym 2 końcowych. Struktura tego drzewa wydaje się być zbytio uproszczoa, w związku z czym model może być iedouczoy, tz. może ie radzić sobie z poprawą klasyfikacją obiektów, które ie brały udziału w procesie budowy drzewa. W związku ze zbytio zredukowaą strukturą drzewa 6 zdecydowao się a wybór iego drzewa z sekwecji optymalie przyciętych drzew. Drzewo o ajiższej wartości ocey błędu a podstawie SK to drzewo r 2 ( R SK D 2 0, 287), tym samym byłoby oo drzewem właściwej wielkości w przypadku przyjęcia c 0 (reguła 0 błędów stadardowych). Drzewo to atomiast ma złożoą strukturę. Składa się z 25 węzłów, w tym z 13 liści. W związku z jego złożoością, drzewo r 2 może być przeuczoe, czyli ie mieć zdolości do uogóliaia wiedzy zdobytej w procesie budowy drzewa a przypadki iebiorące w im udziału. Tym samym zdecydowao się a arbitraly wybór drzewa, a podstawie którego zbudoway został model służący do predykcji. Porówao struktury drzew, dla których poziom ocey błędu SK ie przekracza błędu miimalego D 2 dardowego se R SK o więcej iż wartość błędu sta- D 2, czyli drzew od 2 do 6. Wybrao drzewo r 5, które charakteryzowało się iezbyt złożoą strukturą, ale ie tak skrajie uproszczoą jak drzewo 6 (drzewo właściwej wielkości dla reguły jedego błędu stadardowego). Poiżej omówioo drzewo r 5, a podstawie którego zbudowao model predykcyjy, który Zastosowaia metod statystyczych w badaiach aukowych IV StatSoft Polska 2012

9 Modele scorigu kredytowego z wykorzystaiem arzędzi data miig aaliza porówawcza posłużył do wyzaczeia progoz wartości Y dla obiektów iebiorących udziału w procesie budowy drzewa. Podział węzłów astępuje w drzewie 5 w oparciu o zmiee X1 sta istiejącego rachuku bieżącego, X2 czas trwaia kredytu, X3 historia kredytowa, X4 cel kredytu. Przy czym wartości X2 dwukrotie staowią podstawę podziału węzła. Zdaje się to kolejy raz potwierdzać zaczącą rolę tych cech w dyskrymiowaiu wartości zmieej Y. Drzewo r 5 składa się łączie z 11 węzłów, przy czym 5 z ich jest węzłami końcowymi (liśćmi). Drzewo CART jest drzewem biarym toteż z każdego węzła dzieloego odchodzą wyłączie dwie gałęzie (dzieloy węzeł-przodek ma zawsze dwa węzły-potomki). 5.3 Drzewo CHAID Algorytm CHAID ie uwzględia w procesie budowy drzewa zdefiiowaych przez użytkowika (różych) kosztów błędych klasyfikacji, ie pozwala a defiiowaie prawdopodobieństw a priori iaczej iż jako szacowae a podstawie próby, a także igoruje wprowadzoy system wag. W związku z tym drzewo CHAID zostało zbudowae w oparciu o strukturę daych występującą pierwotie w zbiorze uczącym (brak systemu wag czy też skorygowaych prawdopodobieństw a priori bądź zdefiiowaych kosztów błędych klasyfikacji). Algorytm CHAID jest procedurą trójetapową. Składają się a ią etapy: łączeia, podziału oraz zatrzymaia. Więcej a temat algorytmu moża przeczytać m. i. w pracach: [2, 3]. Do budowy drzewa CHAID ( Automatycze wykrywaie iterakcji za pomocą chi-kwadrat ) użyto modułu Ogóle modele CHAID. Ustaloo astępujące poziomy dla parametrów sterujących odpowiedio procesem (etapem) łączeia oraz etapem dzieleia: p dla łączeia 0, 02, p dla dzieleia 0, 01. Przy obliczaiu skorygowaej wartości p ( p ') zastosowao poprawkę Boferroiego. Nie jest atomiast stosowae tzw. dzieleie po połączeiu. Jako kryteria zatrzymaia podziału węzła przyjęto: miimalą liczebość węzła rówą 80 (w przybliżeiu 10% liczebości próby uczącej) maksymalą liczbę wszystkich węzłów wyższą iż 30. Kryteria podziału węzłów były utworzoe a etapie łączeia kategorii agregatowych astępujących zmieych: X1, X3, X8, X6, X14. Pomimo braku stosowaia systemu ważącego lub iych metod uwzględiaia kosztów model uwzględił w większości te same zmiee, które zostały wprowadzoe w iych modelach. 5.4 Sztucze sieci euroowe: perceptro wielowarstwowy (MLP) Zgodie z wyikami doświadczeń [5] moża stwierdzić, że w celu rozwiązaia dowolego problemu klasyfikacyjego wystarczające jest zastosowaie sieci MLP z jedą warstwą ukrytą. W procesie uczeia perceptrou wielowarstwowego prezetowae są wzorce obejmujące zarówo wartości wejściowe (wektor x ), jak i wartości żądae ( z ), ma się więc do czyieia z uczeiem adzorowaym. W celu zbudowaia sieci MLP skorzystao z modułu Automatycze sieci euroowe. Jako przezaczeie budowaej sieci wybrao Klasyfikację. Przy budowie modelu uwzględioy został specjalie utworzoy system wag. Rolę zmieej wyjściowej pełiła jakościowa zmiea Y. W celu ograiczeia złożoości (w związku z iewielką liczebością dostępej próby) jako zmiee wejściowe zdecydowao się wybrać 15 predyktorów, dla których wartość p w teście iezależości zestawiającym je z Y była ajiższa. Wśród ilościowych zmieych wejściowych zalazły się: X2, X5, X8 oraz X13, atomiast jakościowe zmiee wejściowe to: X1, X3, X4, X6, X7, X9, X10, X12, X14, X15, X20. Z próby liczącej 807 obiektów losowo wyodrębioo w przybliżeiu 10% obiektów (80 obiektów), które utworzyły próbę walidacyją V, pozostałe obiekty przypisae zostały do zbioru uczącego U (727 obiektów). 193 obiekty przezaczoe zostały a próbę testową T (te same obiekty, które pełiły rolę testowych w pozostałych modelach). Jako metodę tworzeia sieci wybrao Automatyczego projektata sieci. Po liczych uprzedich eksperymetach z użyciem Projektu sieci użytkowika zdecydowao, że liczba euroów ukrytych sieci powia być ie miejsza iż 5 oraz ie większa iż 30. Spośród stworzoych sieci wybrao jedą, dającą ajbardziej zadowalające wyiki klasyfikacyje, był to perceptro wielowarstwowy o 52 euroach warstwy wejściowej, 5 euroach warstwy ukrytej oraz 2 warstwy wyjściowej: MLP Zastosowaia metod statystyczych w badaiach aukowych IV StatSoft Polska

10 Modele scorigu kredytowego z wykorzystaiem arzędzi data miig aaliza porówawcza Zwięzły opis wybraej sieci MLP przedstawioo w tabeli 7. Tabela 7. Podsumowaie sieci (iemiecki kredyt). Nazwa sieci Jakość Jakość Algorytm (uczeie) (walidacja) uczeia MLP , ,7500 BFGS 24 Fukcja błędu Aktywacja (ukryte) Aktywacja (wyjściowe) Etropia Logistycza Softmax Warstwa wejściowa sieci składa się z 52 euroów. Każdej kategorii poszczególych jakościowych zmieych wejściowych został przyporządkoway odpowiadający jej euro wejściowy (łączie 48 kategorii i tyle samo odpowiadających im euroów). Każdej ze zmieych ilościowych uwzględioych w modelu został przypisay jede euro wejściowy (łączie 4 euroy). Neuro wejściowy odpowiadający określoej kategorii daej cechy jakościowej przyjmuje wartość 1 w przypadku, gdy rozpatrywaa zmiea przyjmuje dla obiektu, którego wartości zmieych prezetowae są sieci, kategorię, której przypisay jest te euro wejściowy, w przeciwym razie przyjmuje o wartość 0. W euroach wejściowych odpowiadających cechom ilościowym astępuje liiowe przekształceie ich wartości. Natomiast warstwa ukryta zbudowaa jest wyłączie z 5 euroów. Taka liczba euroów ukrytych pozwala uzyskać dobre wyiki w klasyfikacji oraz uikąć przeuczeia związaego z iewielkimi rozmiarami stosowaej w uczeiu próby (U obiektów) oraz z dużą liczbą euroów wejściowych, których liczba jest a tym etapie ustaloa. Warstwę wyjściową zbudowao w oparciu o zasadę jede-z-j, tz. każdej klasie zmieej wyjściowej Y odpowiada jede euro, w tym przypadku a warstwę wyjściową składają się 2 euroy ( J 2 ). Jako fukcję celu podlegającą miimalizacji ze względu a W, wyzaczaą dla wartości wzorcowych odpowiadających obiektom zbioru uczącego U przyjęto etropię wzajemą: N J y j EW z j l, 1 j1 z j przy czym z j, y j to wartości (0 lub 1) j-tego elemetu odpowiedio wektora z oraz y (wektor wartości wyjściowych sieci). W euroach warstwy ukrytej zastosowao logistyczą fukcję aktywacji, a w euroach warstwy wyjściowej fukcję Softmax. Procedurą umeryczą zastosowaą w procesie uczeia sieci była odmiaa BFGS metody zmieej metryki. Jako rozwiązaie zagadieia miimalizacji przyjęto wartość wektora wag ( W ) uzyskaą w 24 iteracji zastosowaej procedury umeryczej (ozaczeie BFGS 24). 5.5 Aaliza dyskrymiacyja Przy budowie modelu aalizy dyskrymiacyjej uwzględioo specjalie stworzoy system wag. Założeie o tym, że próba ucząca pochodzi z wielowymiarowego rozkładu ormalego ie było w tym praktyczym przypadku spełioe. Jedak po wizualej aalizie odpowiedich histogramów stwierdzoo, że odchyleia empiryczych rozkładów zmieych ilościowych ie są aż tak drastyczie róże od postulowaych hipotetyczych rozkładów ormalych i postaowioo kotyuować aalizę dyskrymiacyją. Łagodiej potraktowao także założeie o jedorodości wariacji zmieych wejściowych (predyktorów) w poszczególych grupach zmieej Y. W celu budowy modelu skorzystao z modułu Ogóle modele aalizy dyskrymiacyjej. Jako zmieą zależą zdefiiowao zmieą Y. Narzędziem doboru wejściowych zmieych dyskrymiacyjych była metoda krokowa wstecza. Dla parametrów sterujących metodą krokową przyjęto astępujące wartości: p do wprowadzeia 0, 01, p do usuięcia 0, 02. W wyiku działaia krokowej wsteczej metody doboru zmieych do modelu ie weszły zmiee X11 oraz X18. Wszystkie z pozostałych 18 zmieych zostały do iego włączoe. Potwierdzałoby to iewielką użyteczość tych dwóch zmieych (X11, X18) przy rozróżiaiu klas zmieej Y dla poszczególych obiektów. W związku z tym, że liczba wszystkich kaoiczych fukcji dyskrymiacyjych rówa jest pomiejszoej o 1 liczbie wszystkich klas zmieej jakościowej Y, jeżeli wartość ta jest miejsza od liczby wejściowych zmieych dyskrymiacyjych (predyktorów), toteż w tym przypadku otrzymao jedą fukcję dyskrymiacyją (kaoiczą zmieą dyskrymiacyją). Pomimo, że ie zostało spełioe założeie dotyczące braku istotych różic pomiędzy macierzami wewątrzgrupowych sum Zastosowaia metod statystyczych w badaiach aukowych IV StatSoft Polska 2012

11 Modele scorigu kredytowego z wykorzystaiem arzędzi data miig aaliza porówawcza kwadratów dla poszczególych klas, zdecydowao się zastosować liiowe fukcje klasyfikacyje. W rozważaym przypadku liczba fukcji klasyfikacyjych rówa liczbie klas zmieej Y wyiosła 2. Porówaie wartości fukcji klasyfikacyjych dla wektorów opisujących kredyty staowiło podstawę stawiaia progoz klasyfikacyjych. 5.6 Wyiki zbiorcze dla modeli budowaych z uwzględieiem systemu wag Miary pozwalające oceić jakość klasyfikacji (predykcji) obiektów zbioru uczącego do określoych klas zmieej zależej Y dla każdego ze zbudowaych modeli scorigowych zebrao w tabeli, którą zamieszczoo poiżej. Tabela 8. Zbiorcze wyiki klasyfikacji (iemiecki kredyt: próba ucząca przy budowie modeli uwzględioo system wag). Miara Logit CART CHAID MLP GDA błąd (12) [%] 20,66 22,73 74,79 9,09 19,83 błąd (21) [%] 25,31 30,62 4,07 18,41 26,19 łączy błąd [%] 23,92 28,25 25,28 15,61 24,29 E K 0,2294 0,2659 0,4012 0,1366 0,2295 Należy jedak pamiętać, że ocey uzyskae dla zbioru U są iedoszacowae, gdyż wyzaczae są oe w oparciu o te sam zbiór, który był używay w celu oszacowaia parametrów modeli. Najiższy poziom ocey E K w próbie U rówy 0,1366 uzyskała sieć MLP, za ią plasował się model logitowy z oceą E K a poziomie 0,2294 oraz model aalizy dyskrymiacyjej (GDA), dla którego E K 0, Dla obu rodzajów zastosowaych drzew klasyfikacyjych: CART i CHAID uzyskae wartości E K były wyższe. W przypadku CART było to 0,2659, a dla modelu CHAID wartość E K wyiosła aż 0,4012. Niższą wartość E K uzyskały modele, w których został siliej zredukoway poziom bardziej kosztowego błędu 1 2. Najlepiej jest to widocze przy zestawieiu modelu opartego a CHAID/wysokie E K /z modelami o ajiższych poziomach błędu I rodzaju. Pomimo, że dla modelu CHAID otuje się w próbie uczącej bardzo iski poziom błędu 2 1 4,07%, to ie pozwala to zrekompesować wysokiego poziomu droższego błędu 1 2. Już po przejrzeiu przytoczoych miar uzyskaych dla próby uczącej odrzucoo model CHAID, jako mało użytecze arzędzie służące do predykcji statusu kredytu. Rakig modeli ze względu a poziom łączego błędu w próbie uczącej wyglądał astępująco: MLP 15,61%, Logit 23,92%, GDA 24,29%, CHAID 25,28%, CART 28,25%. W rzeczywistości jedyą miarodają oceą jakości klasyfikacji (predykcji) a podstawie modelu są miary uzyskae dla iezależego zbioru obiektów, tz. takiego, który ie był w żade sposób używay w procesie budowy modelu (estymacji parametrów czy też walidacji). Przytoczoe założeie spełia odłożoy zbiór testowy T. Oparte a próbie testowej miary jakości przewidywań poszczególych modeli zebrao w tabeli 9. Tabela 9. Zbiorcze wyiki klasyfikacji (iemiecki kredyt: próba testowa przy budowie modeli uwzględioo system wag). Miara Logit CART CHAID MLP GDA błąd (12) [%] 27,59 32,76 82,76 27,59 27,59 błąd (21) [%] 33,33 37,04 11,11 33,33 31,11 łączy błąd [%] 31,61 35,75 32,64 31,61 30,05 E K 0,3041 0,3487 0,4772 0,3041 0,2933 Najiższą wartość ocey K E w oparciu o próbę testową uzyskao (iaczej iż w próbie U ) dla modelu aalizy dyskrymiacyjej, a wyiosła oa 0,2933. Drugą w kolejości ajiższą wartość ocey K E rówą 0,3041 osiągęły: model logitowy oraz perceptro wielowarstwowy. W próbie T wyższe wartości oce E K odotowao dla modeli opartych a drzewach CART i CHAID, były to odpowiedio 0,3487 oraz 0,4772. Wartość ocey E K uzyskaa dla CHAID w próbie T potwierdza słuszość odrzuceia tego modelu już po aalizie jego wyików klasyfikacyjych (predykcyjych) w zbiorze uczącym. Dla modelu aalizy dyskrymiacyjej w próbie testowej uzyskao wartość ocey E K większą o 0,0638 w porówaiu z tą dla próby U. W przypadku modelu logitowego różica ta wyiosła 0,0747, tymczasem jeżeli chodzi o MLP to wartości oce K E a podstawie zbioru T oraz zbioru U różią się bardziej, bo o 0,1675 (ie jest to jedak spowodowae Zastosowaia metod statystyczych w badaiach aukowych IV StatSoft Polska

12 Modele scorigu kredytowego z wykorzystaiem arzędzi data miig aaliza porówawcza wysoką wartością dla próby T, lecz wyjątkowo iską dla próby U ). Rozpatrując z osoba poziomy poszczególych błędów, stwierdza się, że ajmiejszy poziom błędu 1 2 odotowao w próbie T dla trzech modeli: aalizy dyskrymiacyjej (GDA), modelu logitowego oraz MLP, a wartość ta wyiosła 27,59%. Pozostałe modele charakteryzowały się wyższym poziomem tego błędu. W przypadku błędu 2 1, to ajmiejszy jego poziom w zbiorze T zaobserwowao dla modelu opartego a drzewie CHAID (11,11%). Jedak istotiejszym celem stawiaym przed postulowaym restrykcyjym modelem jest osiągięcie możliwie jak ajmiejszego poziomu kosztowiejszego błędu 1 2, co pozwalałoby a siliejszą redukcję wartości E K. Poieważ model CHAID odzacza się wysokim poziomem ocey E K a podstawie próby T, sam iski poziom błędu II rodzaju 2 1 ie sprawia, że będzie dobrym arzędziem służącym do predykcji statusu kredytu. Wśród pozostałych modeli w próbie testowej ajiższy poziom błędu 2 1 osiągęły kolejo: model aalizy dyskrymiacyjej (31,11%), model logitowy oraz perceptro wielowarstwowy (po 33,33%). Natomiast model CART mylił się częściej co do statusu kredytów dobrych, poieważ dla poad 37% z ich progozował status zły. W próbie T poziom łączego błędu był ajiższy dla GDA (30,05%), astępie dla modelu logitowego i MLP (po 31,61%). Dla modeli drzew poziom rozważaego błędu okazał się być wyższy. W przypadku przyjęcia progoz jakościowych poszczególych modeli jako kryterium decyzji kredytowej w próbie testowej odsetek przyzaych kredytów wyiósłby odpowiedio: CART 53,89%, Logit i MLP po 54,92%, GDA 56,48%, co patrząc a rzeczywisty odsetek kredytów dobrych w próbie T (ok. 70%), świadczy o restrykcyjości tych modeli (awet zbyt silej). W przypadku progoz modelu CHAID, który ie uwzględia wag, aż 87,05% kredytów powio zostać przyzaych, jedak wiązałoby się to z poważymi stratami związaymi z częstym występowaiem błędu I rodzaju. W związku z tym, że główym kryterium ocey modeli jest wartość ocey E K uzyskaa a podstawie próby testowej T za ajlepszy model ależałoby uzać GDA (ogóly model aalizy dyskrymiacyjej). W drugiej kolejości ajlepszymi modelami okazały się być: model logitowy oraz perceptro wielowarstwowy (MLP ). W tym szczególym przypadku modele oparte a drzewach klasyfikacyjych CART oraz CHAID okazały się być ieajlepszym arzędziem predykcji przyależości klasowej Y. 5.7 Modele agregatowe Agregacja modeli polega a wyzaczaiu jedej wspólej progozy w oparciu o przewidywaia kilku modeli różego typu budowaych z użyciem daych pochodzących z tej samej próby uczącej. Agregatowa progoza wyzaczaa jest w oparciu o tzw. głosowaie, polegające a przypisaiu jako agregatowej progozy dla daego obiektu tej klasy zmieej zależej, która była przewidywaa przez ajwiększą liczbę modeli, w oparciu o które wyzacza się agregatową wartość progozowaą. W sytuacji, gdy liczba modeli progozujących dla daego obiektu określoą klasę zmieej zależej rówa jest liczbie modeli, które przewidują dla tego obiektu ią klasę zmieej zależej, za agregatową progozę przyjmuje się tą spośród rozważaych klas, która jest ajlicziejsza wśród obiektów zbioru uczącego. Należy zauważyć, że przy ustalaiu liczości poszczególych klas zmieej zależej w procesie głosowaia ie są uwzględiae wagi. Postaowioo wyzaczyć dla obiektów zbioru testowego agregatowe progozy oparte a przewidywaiach trzech modeli, dla których. Stworzoo modele złożoe oparte a wszystkich możliwych dwu- i trzyelemetowych kombiacjach tych trzech modeli. uzyskao ajiższe wartości oce E K Tabela 10. Miary jakości klasyfikacji dla modeli agregatowych przy budowie modeli składowych uwzględioo system wag (iemiecki kredyt: próba testowa). Miara GDA + Logit GDA + MLP MLP + Logit GDA + Logit + MLP błąd (12) [%] 27,59 32,76 32,76 27,59 błąd (21) [%] 30,37 22,96 25,19 32,59 łączy błąd [%] 29,53 25,91 27,46 31,09 E(K) 0,2896 0,2798 0,2907 0,3005 udzieloo kredytów [%] 56,99 63,73 62,18 55, Zastosowaia metod statystyczych w badaiach aukowych IV StatSoft Polska 2012

13 Modele scorigu kredytowego z wykorzystaiem arzędzi data miig aaliza porówawcza Miary jakości klasyfikacji w oparciu o agregatowe progozy każdego ze zbudowaych modeli złożoych dla próby testowej zestawioo w tabeli 10. Dodatkowo w tabeli podao odsetek udzieloych kredytów próby testowej, gdyby za podstawę decyzji kredytowej przyjąć progozę agregatową daego modelu złożoego. Najiższą wartość ocey kosztu kredytu rówą 0,2798 uzyskao dla modelu złożoego, którego agregatowe progozy wyzaczoe zostały poprzez głosowaie przewidywań modelu ogólej aalizy dyskrymiacyjej (GDA) oraz perceptrou wielowarstwowego (MLP). W związku z tym, że model wyzaczał swe progozy a przewidywaiach dwóch pojedyczych modeli, to w przypadku iejedozaczości (odmiee statusy kredytu progozowae przez każdy z modeli pojedyczych) model złożoy przewidywał klasę 1 zmieej Y (status dobry kredyt). W przypadku ieuwzględieia systemu wag była to w próbie uczącej klasa licziejsza. W przypadku, gdyby agregatowa progoza tego modelu była kryterium decyzji kredytowej, prawie 64% kredytów ze zbioru testowego zostałoby przyzaych. Przytoczoa wcześiej sytuacja spowodowała, że poziom błędu 2 1 spadł do 22,96%, gdyż model złożoy chętiej przewidywał klasę 1 zmieej Y. Tym samym astąpił wzrost kosztowiejszego błędu 1 2 do poziomu 32,76%, lecz był to wzrost a tyle umiarkoway, że ocea kosztu pojedyczego kredytu K E dla próby testowej wyosi 0,2798, co jest wartością ajiższą spośród wszystkich otrzymaych dla modeli rozważaych w pracy. Dwa z pozostałych modeli złożoych, tz. te oparty a GDA i modelu logitowym oraz te, a który składały się Logit i MLP, ie uzyskały tak dużego spadku wartości ocey K E a podstawie próby testowej w odiesieiu do poziomów dla modeli pojedyczych. Natomiast dla modelu złożoego GDA+Logit+MLP wartość ocey E K opartej a próbie testowej wyosząca 0,3005 była gorsza (wyższa) iż ta uzyskaa dla pojedyczego modelu GDA (0,2933). 5.8 Porówaie modeli ieważoych i ważoych Zasadość wprowadzeia systemu wag pozwalającego a uwzględieie różych kosztów błędych klasyfikacji, braego pod uwagę przy szacowaiu parametrów modeli została potwierdzoa poprzez porówaie wyików klasyfikacyjych (predykcyjych) modeli uwzględiających w procesie szacowaia parametrów specjalie stworzoy system wag z modelami tego samego rodzaju, przy budowie których system wag ie był stosoway (z wiadomych, przytaczaych wcześiej względów ie było to możliwe dla modelu CHAID). Okazało się, że w porówaiu do modeli ważoych, liczba użytych zmieych objaśiających w modelach ieważoych była miejsza (co uwidaczia wpływ systemu wag a działaie zastosowaych metod doboru predyktorów). Porówując dla modeli ieważoych poziomy poszczególych błędów odotowae w próbie uczącej U oraz w próbie testowej T, zaobserwowao m.i., że dla modelu logitowego błąd 1 2 był w próbie testowej o 14 puktów procetowych iższy od tego, który odotoway został w próbie uczącej. Nie wyikało to jedak z adzwyczaj iskiego poziomu tego błędu w próbie testowej (ok. 31%), lecz z jego wysokiej wartości dla próby uczącej (ok. 45%). Z drugiej stroy błąd 2 1 dla modelu logitowego był wyższy w zbiorze T o prawie 19 puktów procetowych w porówaiu z próbą uczącą. Dla modelu aalizy dyskrymiacyjej (GDA) wystąpiła odwrota sytuacja: błąd 2 1 był w próbie testowej o 10 puktów procetowych iższy, a błąd 1 2 o poad 25 puktów procetowych wyższy w porówaiu z próbą U. Taki sta rzeczy ie zdawał się wyikać z dopasowaia tych modeli do daych zbioru uczącego, lecz miał charakter losowy (przypadkowy), a modele uzao za iestabile, w związku z czym ie moża było być pewym wyików dotyczących poziomów błędów dla owego, iego iż testowy zbioru. W celu miarodajego porówaia wyików jakości (predykcji) klasyfikacji dla modeli ieważoych i ważoych od poziomów każdej z miar odotowaych dla daego modelu ieważoego w próbie testowej odjęto wartość rozważaej miary w próbie testowej dla ważoego odpowiedika rozpatrywaego modelu. Uzyskae wyiki zebrao w tabeli 11. Każdy z modeli ieważoych uzyskał w próbie T gorsze wyiki dotyczące ocey wartości K E od swojego ieważoego odpowiedika. I tak dla modelu ogólej aalizy dyskrymiacyjej, zbudowaego z pomiięciem systemu wag, ocea wartości oczekiwaej kosztu pojedyczego kredytu była o 0,0383 wyższa Zastosowaia metod statystyczych w badaiach aukowych IV StatSoft Polska

14 Modele scorigu kredytowego z wykorzystaiem arzędzi data miig aaliza porówawcza od tej uzyskaej dla ważoego odpowiedika (co było ajwyższą różicą spośród wszystkich oszacowaych tutaj typów modeli). Najmiejszą różicę w wartościach oce K E pomiędzy modelami tego samego typu budowaymi z zastosowaiem odmieych podejść zaobserwowao dla modelu logitowego wartość tej ocey była wyższa o 0,0032 dla modelu ieważoego. Dla modelu MLP rozważaa różica wyiosła 0,0254. Tabela 11. Porówaie miar jakości klasyfikacji pomiędzy modelami ieważoymi a ważoymi (iemiecki kredyt: próba testowa). Miara Logit CART MLP GDA błąd (12) 3,44 pp 27,58 pp 24,13 pp 22,41 pp błąd (21) -2,96 pp -21,48 pp -20,00 pp -15,55 pp łączy błąd -1,04 pp -6,73 pp -6,74 pp -4,14 pp E(K) 0,0032 0,0358 0,0254 0,0383 Jeżeli chodzi o poszczególe rodzaje błędów, to zazaczyła się astępująca tedecja: modele ieważoe cechowały się wyższym w stosuku do swoich ważoych odpowiedików poziomem kosztowiejszego błędu 1 2 oraz iższym poziomem błędu drugiego rodzaju 2 1. Pomijając CART (które w obu podejściach okazały się iezbyt dobrym arzędziem predykcji klasyfikacji obiektów), błąd 1 2 okazał się być wyższy wśród modeli ieważoych o: 24,13 pp perceptro wielowarstwowy (MLP), 22,41 pp model ogólej aalizy dyskrymiacyjej (GDA), 3,44 pp model logitowy. Tylko w przypadku modelu logitowego wzrost te moża określić jako iezaczy. W przypadku błędu 2 1 ajwiększy jego spadek odotowao dla ieważoego modelu perceptrou wielowarstwowego (20 pp) oraz kolejo GDA (15,55 pp) oraz modelu logitowego (2,96 pp). Takie zmiay w poziomach błędu 1 2 oraz 2 1 w odiesieiu do tych otowaych dla modeli ważoych, przy uwzględieiu kosztów poszczególych błędów, spowodowały, że uzyskae ocey wartości oczekiwaej kosztów kredytów okazały się wśród modeli ieważoych wyższe. Dla modeli ieważoych odotowao poziomy łączego błędu od 1,04 do 6,74 puktów procetowych iższe iż te dla modeli odpowiedików, których parametry oszacowao a podstawie ważoych daych. Jedak kryterium łączego błędu ie jest główym uwzględiaym przy oceie jakości predykcyjej modeli. 6 PODSUMOWANIE Spośród skostruowaych w pracy modeli ajlepszymi, czyli takimi, dla którego ieobciążoa ocea (tutaj a podstawie próby testowej) wartości oczekiwaej kosztu dowolego pojedyczego kredytu była ajiższa, okazały się być: model ogólej aalizy dyskrymiacyjej oraz model wielowarstwowego perceptrou. Przy budowie obu tych modeli uwzględioo specjalie stworzoy system wag przypadków. W przypadku modeli agregatowych ajiższy poziom wartości oczekiwaej kosztu pojedyczego kredytu (jego ocey a podstawie próby testowej) osiągięto dla modelu wyzaczającego swe progozy w oparciu o głosowaie wartości przewidywaych przez dwa ajlepsze modele idywiduale, które zostały przytoczoe powyżej. Uzyskay spadek poziomu rozważaego kryterium dla przytoczoego modelu agregatowego związay był z tym, że w przypadku iejedozaczego wyiku (sprzecze progozy jedego i drugiego modelu składowego) kredytowi przypisyway był status dobry. Moża więc stwierdzić, że tak działający model agregatowy łączy w sobie cechy, mówiąc w uproszczeiu, modelu ważoego oraz ieważoego. Wybray ajlepszy model w postaci wyzaczoej w pracy ie mógłby być jedak w praktyce wdrożoy w celu predykcji statusu owych (potecjalych) kredytów. Propouje się wybór jedego z trzech przytoczoych wcześiej modeli. Dzieje się tak z astępujących przyczy: próba, która posłużyła do estymacji parametrów modeli, ajprawdopodobiej obejmowała wyłączie kredyty udzieloe w ramach metody uzaiowej, w której akceptacja wiosków zdawała się mieć charakter ielosowy, przez co oszacowae zależości ie są reprezetatywe dla całej populacji bazowej, w przypadku predykcji przyależości klasowej kredytów (obiektów) odoszących się do grupy tych, które scorig uzaiowy odrzucił, których to wzorce ie brały udziału w procesie oszacowaia modelu, ekstrapolacja a jego podstawie byłaby ieuprawioa, Zastosowaia metod statystyczych w badaiach aukowych IV StatSoft Polska 2012

15 Modele scorigu kredytowego z wykorzystaiem arzędzi data miig aaliza porówawcza awet w przypadku przyjęcia prawdziwości założeia, że dyspoowaa próba jest reprezetatywa dla populacji bazowej, ależałoby w większym stopiu zredukować poziomy obu błędów, w tym w szczególości błędu II rodzaju, który jest wyższy. Lepsze wyiki predykcyje moża by próbować osiągąć poprzez zwiększeie próby uczącej o owe przypadki lub poprzez zastosowaie metauczeia - polega oo a kostrukcji modelu sieci euroowej, w której rolę zmieej wyjściowej pełi cecha opisująca rzeczywisty status kredytu (Y), atomiast rolę zmieych wejściowych pełią zmiee, których wartościami są predykcje dotyczące statusu kredytu wyzaczoe przez różego typu modele. Poza przytoczoymi w pracy modelami rolę arzędzia progostyczego w scorigu kredytowym mogą pełić rówież te oparte a metodzie k-ajbliższych sąsiadów, MARSplies, metodzie wektorów ośych (SVM) i ie. BIBLIOGRAFIA 1) Asucio, A., Newma, D.J. (2007). UCI Machie Learig Repository [ Irvie, CA: Uiversity of Califoria, School of Iformatio ad Computer Sciece. 2) Gatar, E. (2001). Nieparametrycza metoda dyskrymiacji i regresji. Warszawa: PWN. 3) Gatar, E. (1998). Symbolicze metody klasyfikacji daych. Warszawa: Wydawictwa Naukowe PWN. 4) Matuszyk, A. (2004). Credit scorig. Metoda zarządzaia ryzykiem kredytowym. Warszawa: CeDeWu. 5) StatSoft (2006). Elektroiczy Podręczik Statystyki PL. Kraków: StatSoft Polska. Zastosowaia metod statystyczych w badaiach aukowych IV StatSoft Polska

Metrologia: miary dokładności. dr inż. Paweł Zalewski Akademia Morska w Szczecinie

Metrologia: miary dokładności. dr inż. Paweł Zalewski Akademia Morska w Szczecinie Metrologia: miary dokładości dr iż. Paweł Zalewski Akademia Morska w Szczeciie Miary dokładości: Najczęściej rozkład pomiarów w serii wokół wartości średiej X jest rozkładem Gaussa: Prawdopodobieństwem,

Bardziej szczegółowo

Rachunek prawdopodobieństwa i statystyka W12: Statystyczna analiza danych jakościowych. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.

Rachunek prawdopodobieństwa i statystyka W12: Statystyczna analiza danych jakościowych. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu. Rachuek prawdopodobieństwa i statystyka W12: Statystycza aaliza daych jakościowych Dr Aa ADRIAN Paw B5, pok 407 ada@agh.edu.pl Wprowadzeie Rozróżia się dwa typy daych jakościowych: Nomiale jeśli opisują

Bardziej szczegółowo

3. Regresja liniowa Założenia dotyczące modelu regresji liniowej

3. Regresja liniowa Założenia dotyczące modelu regresji liniowej 3. Regresja liiowa 3.. Założeia dotyczące modelu regresji liiowej Aby moża było wykorzystać model regresji liiowej, muszą być spełioe astępujące założeia:. Relacja pomiędzy zmieą objaśiaą a zmieymi objaśiającymi

Bardziej szczegółowo

PODSTAWY OPRACOWANIA WYNIKÓW POMIARÓW Z ELEMENTAMI ANALIZY NIEPEWNOŚCI POMIAROWYCH

PODSTAWY OPRACOWANIA WYNIKÓW POMIARÓW Z ELEMENTAMI ANALIZY NIEPEWNOŚCI POMIAROWYCH PODSTAWY OPRACOWANIA WYNIKÓW POMIARÓW Z ELEMENTAMI ANALIZY NIEPEWNOŚCI POMIAROWYCH POMIAR FIZYCZNY Pomiar bezpośredi to doświadczeie, w którym przy pomocy odpowiedich przyrządów mierzymy (tj. porówujemy

Bardziej szczegółowo

Elementy modelowania matematycznego

Elementy modelowania matematycznego Elemety modelowaia matematyczego Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Modelowaie daych (ilościowe): Metody statystycze: estymacja parametrów modelu,

Bardziej szczegółowo

WERSJA TESTU A. Komisja Egzaminacyjna dla Aktuariuszy. LX Egzamin dla Aktuariuszy z 28 maja 2012 r. Część I. Matematyka finansowa

WERSJA TESTU A. Komisja Egzaminacyjna dla Aktuariuszy. LX Egzamin dla Aktuariuszy z 28 maja 2012 r. Część I. Matematyka finansowa Matematyka fiasowa 8.05.0 r. Komisja Egzamiacyja dla Aktuariuszy LX Egzami dla Aktuariuszy z 8 maja 0 r. Część I Matematyka fiasowa WERJA EU A Imię i azwisko osoby egzamiowaej:... Czas egzamiu: 00 miut

Bardziej szczegółowo

INWESTYCJE MATERIALNE

INWESTYCJE MATERIALNE OCENA EFEKTYWNOŚCI INWESTYCJI INWESTCJE: proces wydatkowaia środków a aktywa, z których moża oczekiwać dochodów pieiężych w późiejszym okresie. Każde przedsiębiorstwo posiada pewą liczbę możliwych projektów

Bardziej szczegółowo

ma rozkład złożony Poissona z oczekiwaną liczbą szkód równą λ i rozkładem wartości pojedynczej szkody takim, że Pr( Y

ma rozkład złożony Poissona z oczekiwaną liczbą szkód równą λ i rozkładem wartości pojedynczej szkody takim, że Pr( Y Zadaie. Łącza wartość szkód z pewego ubezpieczeia W = Y + Y +... + YN ma rozkład złożoy Poissoa z oczekiwaą liczbą szkód rówą λ i rozkładem wartości pojedyczej szkody takim, że ( Y { 0,,,3,... }) =. Niech:

Bardziej szczegółowo

BADANIA DOCHODU I RYZYKA INWESTYCJI

BADANIA DOCHODU I RYZYKA INWESTYCJI StatSoft Polska, tel. () 484300, (60) 445, ifo@statsoft.pl, www.statsoft.pl BADANIA DOCHODU I RYZYKA INWESTYCJI ZA POMOCĄ ANALIZY ROZKŁADÓW Agieszka Pasztyła Akademia Ekoomicza w Krakowie, Katedra Statystyki;

Bardziej szczegółowo

Metoda analizy hierarchii Saaty ego Ważnym problemem podejmowania decyzji optymalizowanej jest często występująca hierarchiczność zagadnień.

Metoda analizy hierarchii Saaty ego Ważnym problemem podejmowania decyzji optymalizowanej jest często występująca hierarchiczność zagadnień. Metoda aalizy hierarchii Saaty ego Ważym problemem podejmowaia decyzji optymalizowaej jest często występująca hierarchiczość zagadień. Istieje wiele heurystyczych podejść do rozwiązaia tego problemu, jedak

Bardziej szczegółowo

Prawdopodobieństwo i statystyka r.

Prawdopodobieństwo i statystyka r. Zadaie 1 Rzucamy 4 kości do gry (uczciwe). Prawdopodobieństwo zdarzeia iż ajmiejsza uzyskaa a pojedyczej kości liczba oczek wyiesie trzy (trzy oczka mogą wystąpić a więcej iż jedej kości) rówe jest: (A)

Bardziej szczegółowo

MINIMALIZACJA PUSTYCH PRZEBIEGÓW PRZEZ ŚRODKI TRANSPORTU

MINIMALIZACJA PUSTYCH PRZEBIEGÓW PRZEZ ŚRODKI TRANSPORTU Przedmiot: Iformatyka w logistyce Forma: Laboratorium Temat: Zadaie 2. Automatyzacja obsługi usług logistyczych z wykorzystaiem zaawasowaych fukcji oprogramowaia Excel. Miimalizacja pustych przebiegów

Bardziej szczegółowo

STATYSTYKA I ANALIZA DANYCH

STATYSTYKA I ANALIZA DANYCH TATYTYKA I ANALIZA DANYCH Zad. Z pewej partii włókie weły wylosowao dwie próbki włókie, a w każdej z ich zmierzoo średicę włókie różymi metodami. Otrzymao astępujące wyiki: I próbka: 50; średia średica

Bardziej szczegółowo

Ćwiczenia nr 5. TEMATYKA: Regresja liniowa dla prostej i płaszczyzny

Ćwiczenia nr 5. TEMATYKA: Regresja liniowa dla prostej i płaszczyzny TEMATYKA: Regresja liiowa dla prostej i płaszczyzy Ćwiczeia r 5 DEFINICJE: Regresja: metoda statystycza pozwalająca a badaie związku pomiędzy wielkościami daych i przewidywaie a tej podstawie iezaych wartości

Bardziej szczegółowo

PODSTAWY MATEMATYKI FINANSOWEJ

PODSTAWY MATEMATYKI FINANSOWEJ PODSTAWY MATEMATYKI INANSOWEJ WZORY I POJĘCIA PODSTAWOWE ODSETKI, A STOPA PROCENTOWA KREDYTU (5) ODSETKI OD KREDYTU KWOTA KREDYTU R R- rocza stopa oprocetowaia kredytu t - okres trwaia kredytu w diach

Bardziej szczegółowo

Trzeba pokazać, że dla każdego c 0 c Mc 0. ) = oraz det( ) det( ) det( ) jest macierzą idempotentną? Proszę odpowiedzieć w

Trzeba pokazać, że dla każdego c 0 c Mc 0. ) = oraz det( ) det( ) det( ) jest macierzą idempotentną? Proszę odpowiedzieć w Zad Dae są astępujące macierze: A =, B, C, D, E 0. 0 = = = = 0 Wykoaj astępujące działaia: a) AB, BA, C+E, DE b) tr(a), tr(ed), tr(b) c) det(a), det(c), det(e) d) A -, C Jeśli działaia są iewykoale, to

Bardziej szczegółowo

z przedziału 0,1. Rozważmy trzy zmienne losowe:..., gdzie X

z przedziału 0,1. Rozważmy trzy zmienne losowe:..., gdzie X Matematyka ubezpieczeń majątkowych.0.0 r. Zadaie. Mamy day ciąg liczb q, q,..., q z przedziału 0,. Rozważmy trzy zmiee losowe: o X X X... X, gdzie X i ma rozkład dwumiaowy o parametrach,q i, i wszystkie

Bardziej szczegółowo

Estymacja przedziałowa

Estymacja przedziałowa Metody probabilistycze i statystyka Estymacja przedziałowa Dr Joaa Baaś Zakład Badań Systemowych Istytut Sztuczej Iteligecji i Metod Matematyczych Wydział Iformatyki Politechiki Szczecińskiej Metody probabilistycze

Bardziej szczegółowo

1. Wnioskowanie statystyczne. Ponadto mianem statystyki określa się także funkcje zmiennych losowych o

1. Wnioskowanie statystyczne. Ponadto mianem statystyki określa się także funkcje zmiennych losowych o 1. Wioskowaie statystycze. W statystyce idetyfikujemy: Cecha-Zmiea losowa Rozkład cechy-rozkład populacji Poadto miaem statystyki określa się także fukcje zmieych losowych o tym samym rozkładzie. Rozkłady

Bardziej szczegółowo

P = 27, 8 27, 9 27 ). Przechodząc do granicy otrzymamy lim P(Y n > Y n+1 ) = P(Z 1 0 > Z 2 X 2 X 1 = 0)π 0 + P(Z 1 1 > Z 2 X 2 X 1 = 1)π 1 +

P = 27, 8 27, 9 27 ). Przechodząc do granicy otrzymamy lim P(Y n > Y n+1 ) = P(Z 1 0 > Z 2 X 2 X 1 = 0)π 0 + P(Z 1 1 > Z 2 X 2 X 1 = 1)π 1 + Zadaia róże W tym rozdziale zajdują się zadaia ietypowe, często dotyczące łańcuchów Markowa oraz własości zmieych losowych. Pojawią się także zadaia z estymacji Bayesowskiej.. (Eg 8/) Rozważamy łańcuch

Bardziej szczegółowo

Ćwiczenia rachunkowe TEST ZGODNOŚCI χ 2 PEARSONA ROZKŁAD GAUSSA

Ćwiczenia rachunkowe TEST ZGODNOŚCI χ 2 PEARSONA ROZKŁAD GAUSSA Aaliza iepewości pomiarowych w esperymetach fizyczych Ćwiczeia rachuowe TEST ZGODNOŚCI χ PEARSONA ROZKŁAD GAUSSA UWAGA: Na stroie, z tórej pobrałaś/pobrałeś istrucję zajduje się gotowy do załadowaia arusz

Bardziej szczegółowo

STATYSTYCZNA OCENA WYNIKÓW POMIARÓW.

STATYSTYCZNA OCENA WYNIKÓW POMIARÓW. Statytycza ocea wyików pomiaru STATYSTYCZNA OCENA WYNIKÓW POMIARÓW CEL ĆWICZENIA Celem ćwiczeia jet: uświadomieie tudetom, że każdy wyik pomiaru obarczoy jet błędem o ie zawze zaej przyczyie i wartości,

Bardziej szczegółowo

8. Optymalizacja decyzji inwestycyjnych

8. Optymalizacja decyzji inwestycyjnych 8. Optymalizacja decyzji iwestycyjych 8. Wprowadzeie W wielu różych sytuacjach, w tym rówież w czasie wyboru iwestycji do realizacji, podejmujemy decyzje. Sytuacje takie azywae są sytuacjami decyzyjymi.

Bardziej szczegółowo

X i. X = 1 n. i=1. wartość tej statystyki nazywana jest wartością średnią empiryczną i oznaczamy ją symbolem x, przy czym x = 1. (X i X) 2.

X i. X = 1 n. i=1. wartość tej statystyki nazywana jest wartością średnią empiryczną i oznaczamy ją symbolem x, przy czym x = 1. (X i X) 2. Zagadieia estymacji Puktem wyjścia badaia statystyczego jest wylosowaie z całej populacji pewej skończoej liczby elemetów i zbadaie ich ze względu a zmieą losową cechę X Uzyskae w te sposób wartości x,

Bardziej szczegółowo

SIGMA KWADRAT LUBELSKI KONKURS STATYSTYCZNO- DEMOGRAFICZNY

SIGMA KWADRAT LUBELSKI KONKURS STATYSTYCZNO- DEMOGRAFICZNY SIGMA KWADRAT LUBELSKI KONKURS STATYSTYCZNO- DEMOGRAFICZNY Weryfikacja hipotez statystyczych WNIOSKOWANIE STATYSTYCZNE Wioskowaie statystycze, to proces uogóliaia wyików uzyskaych a podstawie próby a całą

Bardziej szczegółowo

Struktura czasowa stóp procentowych (term structure of interest rates)

Struktura czasowa stóp procentowych (term structure of interest rates) Struktura czasowa stóp procetowych (term structure of iterest rates) Wysokość rykowych stóp procetowych Na ryku istieje wiele różorodych stóp procetowych. Poziom rykowej stopy procetowej (lub omialej stopy,

Bardziej szczegółowo

Uwarunkowania rozwojowe województw w Polsce analiza statystyczno-ekonometryczna

Uwarunkowania rozwojowe województw w Polsce analiza statystyczno-ekonometryczna 3 MAŁGORZATA STEC Dr Małgorzata Stec Zakład Statystyki i Ekoometrii Uiwersytet Rzeszowski Uwarukowaia rozwojowe województw w Polsce aaliza statystyczo-ekoometrycza WPROWADZENIE Rozwój społeczo-gospodarczy

Bardziej szczegółowo

STATYSTYKA OPISOWA WYKŁAD 1 i 2

STATYSTYKA OPISOWA WYKŁAD 1 i 2 STATYSTYKA OPISOWA WYKŁAD i 2 Literatura: Marek Cieciura, Jausz Zacharski, Metody probabilistycze w ujęciu praktyczym, L. Kowalski, Statystyka, 2005 2 Statystyka to dyscyplia aukowa, której zadaiem jest

Bardziej szczegółowo

Korelacja i regresja. Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych. Wykład 12

Korelacja i regresja. Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych. Wykład 12 Wykład Korelacja i regresja Dr Joaa Baaś Zakład Badań Systemowych Istytut Sztuczej Iteligecji i Metod Matematyczych Wydział Iformatyki Politechiki Szczecińskiej Wykład 8. Badaie statystycze ze względu

Bardziej szczegółowo

ROZDZIAŁ 5 WPŁYW SYSTEMU OPODATKOWANIA DOCHODU NA EFEKTYWNOŚĆ PROCESU DECYZYJNEGO

ROZDZIAŁ 5 WPŁYW SYSTEMU OPODATKOWANIA DOCHODU NA EFEKTYWNOŚĆ PROCESU DECYZYJNEGO Agieszka Jakubowska ROZDZIAŁ 5 WPŁYW SYSTEMU OPODATKOWANIA DOCHODU NA EFEKTYWNOŚĆ PROCESU DECYZYJNEGO. Wstęp Skąplikowaie współczesego życia gospodarczego powoduje, iż do sterowaia procesem zarządzaia

Bardziej szczegółowo

ZAGADNIENIE ESTYMACJI. ESTYMACJA PUNKTOWA I PRZEDZIAŁOWA

ZAGADNIENIE ESTYMACJI. ESTYMACJA PUNKTOWA I PRZEDZIAŁOWA ZAGADNIENIE ESTYMACJI. ESTYMACJA PUNKTOWA I PRZEDZIAŁOWA Mamy populację geeralą i iteresujemy się pewą cechą X jedostek statystyczych, a dokładiej pewą charakterystyką liczbową θ tej cechy (p. średią wartością

Bardziej szczegółowo

Matematyka ubezpieczeń majątkowych r.

Matematyka ubezpieczeń majątkowych r. Matematyka ubezpieczeń majątkowych 6..003 r. Zadaie. W kolejych okresach czasu t =,, 3, 4, 5 ubezpieczoy, charakteryzujący się parametrem ryzyka Λ, geeruje szkód. Dla daego Λ = λ zmiee N, N,..., N 5 są

Bardziej szczegółowo

oznaczają łączne wartości szkód odpowiednio dla k-tego kontraktu w t-tym roku. O składnikach naszych zmiennych zakładamy, że:

oznaczają łączne wartości szkód odpowiednio dla k-tego kontraktu w t-tym roku. O składnikach naszych zmiennych zakładamy, że: Zadaie. Niech zmiee losowe: X t,k = μ + α k + β t + ε t,k, k =,2,, K oraz t =,2,, T, ozaczają łącze wartości szkód odpowiedio dla k-tego kotraktu w t-tym roku. O składikach aszych zmieych zakładamy, że:

Bardziej szczegółowo

Statystyka i Opracowanie Danych. W7. Estymacja i estymatory. Dr Anna ADRIAN Paw B5, pok407

Statystyka i Opracowanie Danych. W7. Estymacja i estymatory. Dr Anna ADRIAN Paw B5, pok407 Statystyka i Opracowaie Daych W7. Estymacja i estymatory Dr Aa ADRIAN Paw B5, pok407 ada@agh.edu.pl Estymacja parametrycza Podstawowym arzędziem szacowaia iezaego parametru jest estymator obliczoy a podstawie

Bardziej szczegółowo

MODELE MATEMATYCZNE W UBEZPIECZENIACH. 1. Renty

MODELE MATEMATYCZNE W UBEZPIECZENIACH. 1. Renty MODELE MATEMATYCZNE W UBEZPIECZENIACH WYKŁAD 2: RENTY. PRZEPŁYWY PIENIĘŻNE. TRWANIE ŻYCIA 1. Rety Retą azywamy pewie ciąg płatości. Na razie będziemy je rozpatrywać bez żadego związku z czasem życiem człowieka.

Bardziej szczegółowo

Jak obliczać podstawowe wskaźniki statystyczne?

Jak obliczać podstawowe wskaźniki statystyczne? Jak obliczać podstawowe wskaźiki statystycze? Przeprowadzoe egzamiy zewętrze dostarczają iformacji o tym, jak ucziowie w poszczególych latach opaowali umiejętości i wiadomości określoe w stadardach wymagań

Bardziej szczegółowo

Matematyka finansowa 08.10.2007 r. Komisja Egzaminacyjna dla Aktuariuszy. XLIII Egzamin dla Aktuariuszy z 8 października 2007 r.

Matematyka finansowa 08.10.2007 r. Komisja Egzaminacyjna dla Aktuariuszy. XLIII Egzamin dla Aktuariuszy z 8 października 2007 r. Matematyka fiasowa 08.10.2007 r. Komisja Egzamiacyja dla Aktuariuszy XLIII Egzami dla Aktuariuszy z 8 paździerika 2007 r. Część I Matematyka fiasowa WERSJA TESTU A Imię i azwisko osoby egzamiowaej:...

Bardziej szczegółowo

Modele tendencji rozwojowej STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 18 listopada 2017

Modele tendencji rozwojowej STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 18 listopada 2017 STATYSTYKA OPISOWA Dr Alia Gleska Istytut Matematyki WE PP 18 listopada 2017 1 Metoda aalitycza Metoda aalitycza przyjmujemy założeie, że zmiay zjawiska w czasie moża przedstawić jako fukcję zmieej czasowej

Bardziej szczegółowo

Wykład. Inwestycja. Inwestycje. Inwestowanie. Działalność inwestycyjna. Inwestycja

Wykład. Inwestycja. Inwestycje. Inwestowanie. Działalność inwestycyjna. Inwestycja Iwestycja Wykład Celowo wydatkowae środki firmy skierowae a powiększeie jej dochodów w przyszłości. Iwestycje w wyiku użycia środków fiasowych tworzą lub powiększają majątek rzeczowy, majątek fiasowy i

Bardziej szczegółowo

Zeszyty naukowe nr 9

Zeszyty naukowe nr 9 Zeszyty aukowe r 9 Wyższej Szkoły Ekoomiczej w Bochi 2011 Piotr Fijałkowski Model zależości otowań giełdowych a przykładzie otowań ołowiu i spółki Orzeł Biały S.A. Streszczeie Niiejsza praca opisuje próbę

Bardziej szczegółowo

EGZAMIN MATURALNY Z INFORMATYKI MAJ 2011 POZIOM ROZSZERZONY WYBRANE: CZĘŚĆ I. Czas pracy: 90 minut. Liczba punktów do uzyskania: 20 WPISUJE ZDAJĄCY

EGZAMIN MATURALNY Z INFORMATYKI MAJ 2011 POZIOM ROZSZERZONY WYBRANE: CZĘŚĆ I. Czas pracy: 90 minut. Liczba punktów do uzyskania: 20 WPISUJE ZDAJĄCY Cetrala Komisja Egzamiacyja Arkusz zawiera iformacje prawie chroioe do mometu rozpoczęcia egzamiu. Układ graficzy CKE 2010 KOD WISUJE ZDAJĄCY ESEL Miejsce a aklejkę z kodem EGZAMIN MATURALNY Z INORMATYKI

Bardziej szczegółowo

TESTY LOSOWOŚCI. Badanie losowości próby - test serii.

TESTY LOSOWOŚCI. Badanie losowości próby - test serii. TESTY LOSOWOŚCI Badaie losowości próby - test serii. W wielu zagadieiach wioskowaia statystyczego istotym założeiem jest losowość próby. Prostym testem do weryfikacji tej własości jest test serii. 1 Dla

Bardziej szczegółowo

Elementy statystyki opisowej Izolda Gorgol wyciąg z prezentacji (wykład I)

Elementy statystyki opisowej Izolda Gorgol wyciąg z prezentacji (wykład I) Elemety statystyki opisowej Izolda Gorgol wyciąg z prezetacji (wykład I) Populacja statystycza, badaie statystycze Statystyka matematycza zajmuje się opisywaiem i aalizą zjawisk masowych za pomocą metod

Bardziej szczegółowo

Znajdowanie pozostałych pierwiastków liczby zespolonej, gdy znany jest jeden pierwiastek

Znajdowanie pozostałych pierwiastków liczby zespolonej, gdy znany jest jeden pierwiastek Zajdowaie pozostałych pierwiastków liczby zespoloej, gdy zay jest jede pierwiastek 1 Wprowadzeie Okazuje się, że gdy zamy jede z pierwiastków stopia z liczby zespoloej z, to pozostałe pierwiastki możemy

Bardziej szczegółowo

0.1 ROZKŁADY WYBRANYCH STATYSTYK

0.1 ROZKŁADY WYBRANYCH STATYSTYK 0.1. ROZKŁADY WYBRANYCH STATYSTYK 1 0.1 ROZKŁADY WYBRANYCH STATYSTYK Zadaia 0.1.1. Niech X 1,..., X będą iezależymi zmieymi losowymi o tym samym rozkładzie. Obliczyć ES 2 oraz D 2 ( 1 i=1 X 2 i ). 0.1.2.

Bardziej szczegółowo

Ćwiczenie nr 14. Porównanie doświadczalnego rozkładu liczby zliczeń w zadanym przedziale czasu z rozkładem Poissona

Ćwiczenie nr 14. Porównanie doświadczalnego rozkładu liczby zliczeń w zadanym przedziale czasu z rozkładem Poissona Ćwiczeie r 4 Porówaie doświadczalego rozkładu liczby zliczeń w zadaym przedziale czasu z rozkładem Poissoa Studeta obowiązuje zajomość: Podstawowych zagadień z rachuku prawdopodobieństwa, Zajomość rozkładów

Bardziej szczegółowo

Matematyka ubezpieczeń majątkowych 9.10.2006 r. Zadanie 1. Rozważamy proces nadwyżki ubezpieczyciela z czasem dyskretnym postaci: n

Matematyka ubezpieczeń majątkowych 9.10.2006 r. Zadanie 1. Rozważamy proces nadwyżki ubezpieczyciela z czasem dyskretnym postaci: n Maemayka ubezpieczeń mająkowych 9.0.006 r. Zadaie. Rozważamy proces adwyżki ubezpieczyciela z czasem dyskreym posaci: U = u + c S = 0... S = W + W +... + W W W W gdzie zmiee... są iezależe i mają e sam

Bardziej szczegółowo

3. Tworzenie próby, błąd przypadkowy (próbkowania) 5. Błąd standardowy średniej arytmetycznej

3. Tworzenie próby, błąd przypadkowy (próbkowania) 5. Błąd standardowy średniej arytmetycznej PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elemety kombiatoryki 2. Zmiee losowe i ich rozkłady 3. Populacje i próby daych, estymacja parametrów 4. Testowaie hipotez 5. Testy parametrycze 6. Testy

Bardziej szczegółowo

EGZAMIN MATURALNY Z INFORMATYKI MAJ 2012 POZIOM PODSTAWOWY CZĘŚĆ I WYBRANE: Czas pracy: 75 minut. Liczba punktów do uzyskania: 20 WPISUJE ZDAJĄCY

EGZAMIN MATURALNY Z INFORMATYKI MAJ 2012 POZIOM PODSTAWOWY CZĘŚĆ I WYBRANE: Czas pracy: 75 minut. Liczba punktów do uzyskania: 20 WPISUJE ZDAJĄCY Cetrala Komisja Egzamiacyja Arkusz zawiera iformacje prawie chroioe do mometu rozpoczęcia egzamiu. Układ graficzy CKE 2010 KOD WPISUJE ZDAJĄCY PESEL Miejsce a aklejkę z kodem EGZAMIN MATURALNY Z INFORMATYKI

Bardziej szczegółowo

Jarosław Wróblewski Analiza Matematyczna 1A, zima 2012/13. Ciągi.

Jarosław Wróblewski Analiza Matematyczna 1A, zima 2012/13. Ciągi. Jarosław Wróblewski Aaliza Matematycza 1A, zima 2012/13 Ciągi. Ćwiczeia 5.11.2012: zad. 140-173 Kolokwium r 5, 6.11.2012: materiał z zad. 1-173 Ćwiczeia 12.11.2012: zad. 174-190 13.11.2012: zajęcia czwartkowe

Bardziej szczegółowo

Ekonometria Mirosław Wójciak

Ekonometria Mirosław Wójciak Ekoometria Mirosław Wójciak Literatura obowiązkowa Barczak A, ST. Biolik J, Podstawy Ekoometrii, Wydawictwo AE Katowice, Katowice 1998 Dziechciarz J. Ekoometria Metody, przykłady, zadaia (wyd. ) Kukuła

Bardziej szczegółowo

Niepewności pomiarowe

Niepewności pomiarowe Niepewości pomiarowe Obserwacja, doświadczeie, pomiar Obserwacja zjawisk fizyczych polega a badaiu ych zjawisk w warukach auralych oraz a aalizie czyików i waruków, od kórych zjawiska e zależą. Waruki

Bardziej szczegółowo

Lista 6. Estymacja punktowa

Lista 6. Estymacja punktowa Estymacja puktowa Lista 6 Model metoda mometów, rozkład ciągły. Zadaie. Metodą mometów zaleźć estymator iezaego parametru a w populacji jedostajej a odciku [a, a +. Czy jest to estymator ieobciążoy i zgody?

Bardziej szczegółowo

Zadanie 2 Niech,,, będą niezależnymi zmiennymi losowymi o identycznym rozkładzie,.

Zadanie 2 Niech,,, będą niezależnymi zmiennymi losowymi o identycznym rozkładzie,. Z adaie Niech,,, będą iezależymi zmieymi losowymi o idetyczym rozkładzie ormalym z wartością oczekiwaą 0 i wariacją. Wyzaczyć wariację zmieej losowej. Wskazówka: pokazać, że ma rozkład Γ, ODP: Zadaie Niech,,,

Bardziej szczegółowo

SYSTEM OCENY STANU NAWIERZCHNI SOSN ZASADY POMIARU I OCENY STANU RÓWNOŚCI PODŁUŻNEJ NAWIERZCHNI BITUMICZNYCH W SYSTEMIE OCENY STANU NAWIERZCHNI SOSN

SYSTEM OCENY STANU NAWIERZCHNI SOSN ZASADY POMIARU I OCENY STANU RÓWNOŚCI PODŁUŻNEJ NAWIERZCHNI BITUMICZNYCH W SYSTEMIE OCENY STANU NAWIERZCHNI SOSN ZAŁĄCZNIK B GENERALNA DYREKCJA DRÓG PUBLICZNYCH Biuro Studiów Sieci Drogowej SYSTEM OCENY STANU NAWIERZCHNI SOSN WYTYCZNE STOSOWANIA - ZAŁĄCZNIK B ZASADY POMIARU I OCENY STANU RÓWNOŚCI PODŁUŻNEJ NAWIERZCHNI

Bardziej szczegółowo

Optymalizacja sieci powiązań układu nadrzędnego grupy kopalń ze względu na koszty transportu

Optymalizacja sieci powiązań układu nadrzędnego grupy kopalń ze względu na koszty transportu dr hab. iż. KRYSTIAN KALINOWSKI WSIiZ w Bielsku Białej, Politechika Śląska dr iż. ROMAN KAULA Politechika Śląska Optymalizacja sieci powiązań układu adrzędego grupy kopalń ze względu a koszty trasportu

Bardziej szczegółowo

INSTRUKCJA NR 06-2 POMIARY TEMPA METABOLIZMU METODĄ TABELARYCZNĄ

INSTRUKCJA NR 06-2 POMIARY TEMPA METABOLIZMU METODĄ TABELARYCZNĄ LABORATORIUM OCHRONY ŚRODOWISKA - SYSTEM ZARZĄDZANIA JAKOŚCIĄ - INSTRUKCJA NR 06- POMIARY TEMPA METABOLIZMU METODĄ TABELARYCZNĄ 1. Cel istrukcji Celem istrukcji jest określeie metodyki postępowaia w celu

Bardziej szczegółowo

KURS STATYSTYKA. Lekcja 3 Parametryczne testy istotności ZADANIE DOMOWE. Strona 1

KURS STATYSTYKA. Lekcja 3 Parametryczne testy istotności ZADANIE DOMOWE.  Strona 1 KURS STATYSTYKA Lekcja 3 Parametrycze testy istotości ZADANIE DOMOWE www.etrapez.pl Stroa Część : TEST Zazacz poprawą odpowiedź (tylko jeda jest prawdziwa). Pytaie Statystykę moża rozumieć jako: a) próbkę

Bardziej szczegółowo

WYBRANE METODY DOSTĘPU DO DANYCH

WYBRANE METODY DOSTĘPU DO DANYCH WYBRANE METODY DOSTĘPU DO DANYCH. WSTĘP Coraz doskoalsze, szybsze i pojemiejsze pamięci komputerowe pozwalają gromadzić i przetwarzać coraz większe ilości iformacji. Systemy baz daych staowią więc jedo

Bardziej szczegółowo

Strategie finansowe przedsiębiorstwa

Strategie finansowe przedsiębiorstwa Strategie fiasowe przedsiębiorstwa Grzegorz Michalski 2 Różice między fiasami a rachukowością Rachukowość to opowiadaie [sprawozdaie] JAK BYŁO i JAK JEST Fiase zajmują się Obecą oceą tego co BĘDZIE w PRZYSZŁOŚCI

Bardziej szczegółowo

Statystyka opisowa. () Statystyka opisowa 24 maja / 8

Statystyka opisowa. () Statystyka opisowa 24 maja / 8 Część I Statystyka opisowa () Statystyka opisowa 24 maja 2010 1 / 8 Niech x 1, x 2,..., x będą wyikami pomiarów, p. temperatury, ciśieia, poziomu rzeki, wielkości ploów itp. Przykład 1: wyiki pomiarów

Bardziej szczegółowo

L.Kowalski zadania ze statystyki matematycznej-zestaw 3 ZADANIA - ZESTAW 3

L.Kowalski zadania ze statystyki matematycznej-zestaw 3 ZADANIA - ZESTAW 3 L.Kowalski zadaia ze statystyki matematyczej-zestaw 3 ZADANIA - ZESTAW 3 Zadaie 3. Cecha X populacji ma rozkład N m,. Z populacji tej pobrao próbę 7 elemetową i otrzymao wyiki x7 = 9, 3, s7 =, 5 a Na poziomie

Bardziej szczegółowo

O pewnych zastosowaniach rachunku różniczkowego funkcji dwóch zmiennych w ekonomii

O pewnych zastosowaniach rachunku różniczkowego funkcji dwóch zmiennych w ekonomii O pewych zastosowaiach rachuku różiczkowego fukcji dwóch zmieych w ekoomii 1 Wielkość wytwarzaego dochodu arodowego D zależa jest od wielkości produkcyjego majątku trwałego M i akładów pracy żywej Z Fukcję

Bardziej szczegółowo

Charakterystyki liczbowe zmiennych losowych: wartość oczekiwana i wariancja

Charakterystyki liczbowe zmiennych losowych: wartość oczekiwana i wariancja Charakterystyki liczbowe zmieych losowych: wartość oczekiwaa i wariacja dr Mariusz Grządziel Wykłady 3 i 4;,8 marca 24 Wartość oczekiwaa zmieej losowej dyskretej Defiicja. Dla zmieej losowej dyskretej

Bardziej szczegółowo

WYDZIAŁ ELEKTRYCZNY POLITECHNIKI WARSZAWSKIEJ INSTYTUT ELEKTROENERGETYKI ZAKŁAD ELEKTROWNI I GOSPODARKI ELEKTROENERGETYCZNEJ

WYDZIAŁ ELEKTRYCZNY POLITECHNIKI WARSZAWSKIEJ INSTYTUT ELEKTROENERGETYKI ZAKŁAD ELEKTROWNI I GOSPODARKI ELEKTROENERGETYCZNEJ WYDZIAŁ ELEKTRYCZNY POLITECHNIKI WARSZAWSKIEJ INSTYTUT ELEKTROENERGETYKI ZAKŁAD ELEKTROWNI I GOSPODARKI ELEKTROENERGETYCZNEJ LABORATORIUM RACHUNEK EKONOMICZNY W ELEKTROENERGETYCE INSTRUKCJA DO ĆWICZENIA

Bardziej szczegółowo

a n 7 a jest ciągiem arytmetycznym.

a n 7 a jest ciągiem arytmetycznym. ZADANIA MATURALNE - CIĄGI LICZBOWE - POZIOM PODSTAWOWY Opracowała mgr Dauta Brzezińska Zad.1. ( pkt) Ciąg a określoy jest wzorem 5.Wyzacz liczbę ujemych wyrazów tego ciągu. Zad.. ( 6 pkt) a Day jest ciąg

Bardziej szczegółowo

40:5. 40:5 = 500000υ5 5p 40, 40:5 = 500000 5p 40.

40:5. 40:5 = 500000υ5 5p 40, 40:5 = 500000 5p 40. Portfele polis Poieważ składka jest ustalaa jako wartość oczekiwaa rzeczywistego, losowego kosztu ubezpieczeia, więc jest tym bliższa średiej wydatków im większa jest liczba ubezpieczoych Polisy grupuje

Bardziej szczegółowo

Miary położenia (tendencji centralnej) to tzw. miary przeciętne charakteryzujące średni lub typowy poziom wartości cechy.

Miary położenia (tendencji centralnej) to tzw. miary przeciętne charakteryzujące średni lub typowy poziom wartości cechy. MIARY POŁOŻENIA I ROZPROSZENIA WYNIKÓW SERII POMIAROWYCH Miary położeia (tedecji cetralej) to tzw. miary przecięte charakteryzujące średi lub typowy poziom wartości cechy. Średia arytmetycza: X i 1 X i,

Bardziej szczegółowo

Testowanie hipotez. H 1 : µ 15 lub H 1 : µ < 15 lub H 1 : µ > 15

Testowanie hipotez. H 1 : µ 15 lub H 1 : µ < 15 lub H 1 : µ > 15 Testowaie hipotez ZałoŜeia będące przedmiotem weryfikacji azywamy hipotezami statystyczymi. KaŜde przypuszczeie ma swoją alteratywę. Jeśli postawimy hipotezę, Ŝe średica pia jedoroczych drzew owej odmiay

Bardziej szczegółowo

Kluczowy aspekt wyszukiwania informacji:

Kluczowy aspekt wyszukiwania informacji: Wyszukiwaieiformacjitoproceswyszukiwaiawpewymzbiorze tychwszystkichdokumetów,którepoświęcoesąwskazaemuw kweredzietematowi(przedmiotowi)lubzawierająiezbędedla Wg M. A. Kłopotka: użytkowikafaktyiiformacje.

Bardziej szczegółowo

ELEKTROTECHNIKA I ELEKTRONIKA

ELEKTROTECHNIKA I ELEKTRONIKA UNIWERSYTET TECHNOLOGICZNO-PRZYRODNICZY W BYDGOSZCZY WYDZIAŁ INŻYNIERII MECHANICZNEJ INSTYTUT EKSPLOATACJI MASZYN I TRANSPORTU ZAKŁAD STEROWANIA ELEKTROTECHNIKA I ELEKTRONIKA ĆWICZENIE: E20 BADANIE UKŁADU

Bardziej szczegółowo

TRANSFORMACJA DO UKŁADU 2000 A PROBLEM ZGODNOŚCI Z PRG

TRANSFORMACJA DO UKŁADU 2000 A PROBLEM ZGODNOŚCI Z PRG Tomasz ŚWIĘTOŃ 1 TRANSFORMACJA DO UKŁADU 2000 A ROBLEM ZGODNOŚCI Z RG Na mocy rozporządzeia Rady Miistrów w sprawie aństwowego Systemu Odiesień rzestrzeych już 31 grudia 2009 roku upływa termi wykoaia

Bardziej szczegółowo

co wskazuje, że ciąg (P n ) jest ciągiem arytmetycznym o różnicy K 0 r. Pierwszy wyraz tego ciągu a więc P 1 z uwagi na wzór (3) ma postać P

co wskazuje, że ciąg (P n ) jest ciągiem arytmetycznym o różnicy K 0 r. Pierwszy wyraz tego ciągu a więc P 1 z uwagi na wzór (3) ma postać P Wiadomości wstępe Odsetki powstają w wyiku odjęcia od kwoty teraźiejszej K kwoty początkowej K, zatem Z = K K. Z ekoomiczego puktu widzeia właściciel kapitału K otrzymuje odsetki jako zapłatę od baku za

Bardziej szczegółowo

Twoja firma. Podręcznik użytkownika. Aplikacja Grupa. V edycja, kwiecień 2013

Twoja firma. Podręcznik użytkownika. Aplikacja Grupa. V edycja, kwiecień 2013 Twoja firma Podręczik użytkowika Aplikacja Grupa V edycja, kwiecień 2013 Spis treści I. INFORMACJE WSTĘPNE I LOGOWANIE...3 I.1. Wstęp i defiicje...3 I.2. Iformacja o możliwości korzystaia z systemu Aplikacja

Bardziej szczegółowo

Wpływ warunków eksploatacji pojazdu na charakterystyki zewnętrzne silnika

Wpływ warunków eksploatacji pojazdu na charakterystyki zewnętrzne silnika POLITECHNIKA BIAŁOSTOCKA WYDZIAŁ MECHANICZNY Katedra Budowy i Eksploatacji Maszy Istrukcja do zajęć laboratoryjych z przedmiotu: EKSPLOATACJA MASZYN Wpływ waruków eksploatacji pojazdu a charakterystyki

Bardziej szczegółowo

Statystyka opisowa - dodatek

Statystyka opisowa - dodatek Statystyka opisowa - dodatek. *Jak obliczyć statystyki opisowe w dużych daych? Liczeie statystyk opisowych w dużych daych może sprawiać problemy. Dla przykładu zauważmy, że aiwa implemetacja średiej arytmetyczej

Bardziej szczegółowo

Estymacja. Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych. Wykład 7

Estymacja. Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych. Wykład 7 Metody probabilistycze i statystyka Estymacja Dr Joaa Baaś Zakład Badań Systemowych Istytut Sztuczej Iteligecji i Metod Matematyczych Wydział Iformatyki Politechiki Szczecińskiej Metody probabilistycze

Bardziej szczegółowo

Analiza potencjału energetycznego depozytów mułów węglowych

Analiza potencjału energetycznego depozytów mułów węglowych zaiteresowaia wykorzystaiem tej metody w odiesieiu do iych droboziaristych materiałów odpadowych ze wzbogacaia węgla kamieego ależy poszukiwać owych, skutecziej działających odczyików. Zdecydowaie miej

Bardziej szczegółowo

MATEMATYKA (poziom podstawowy) przykładowy arkusz maturalny wraz ze schematem oceniania dla klasy II Liceum

MATEMATYKA (poziom podstawowy) przykładowy arkusz maturalny wraz ze schematem oceniania dla klasy II Liceum MATEMATYKA (poziom podstawowy) przykładowy arkusz maturaly wraz ze schematem oceiaia dla klasy II Liceum Propozycja zadań maturalych sprawdzających opaowaie wiadomości i umiejętości matematyczych z zakresu

Bardziej szczegółowo

Algorytmy I Struktury Danych Prowadząca: dr Hab. inż. Małgorzata Sterna. Sprawozdanie do Ćwiczenia 3 Algorytmy grafowe ( )

Algorytmy I Struktury Danych Prowadząca: dr Hab. inż. Małgorzata Sterna. Sprawozdanie do Ćwiczenia 3 Algorytmy grafowe ( ) Poiedziałki 11.45 Grupa I3 Iformatyka a wydziale Iformatyki Politechika Pozańska Algorytmy I Struktury Daych Prowadząca: dr Hab. iż. Małgorzata Stera Sprawozdaie do Ćwiczeia 3 Algorytmy grafowe (26.03.12)

Bardziej szczegółowo

ANALIZA DANYCH DYSKRETNYCH

ANALIZA DANYCH DYSKRETNYCH ZJAZD ESTYMACJA Jest to metoda wioskowaia statystyczego. Umożliwia oa oszacowaie wartości iteresującego as parametru a podstawie badaia próbki. Estymacja puktowa polega a określeiu fukcji zwaej estymatorem,

Bardziej szczegółowo

Estymacja: Punktowa (ocena, błędy szacunku) Przedziałowa (przedział ufności)

Estymacja: Punktowa (ocena, błędy szacunku) Przedziałowa (przedział ufności) IV. Estymacja parametrów Estymacja: Puktowa (ocea, błędy szacuku Przedziałowa (przedział ufości Załóżmy, że rozkład zmieej losowej X w populacji geeralej jest opisay dystrybuatą F(x;α, gdzie α jest iezaym

Bardziej szczegółowo

Ćwiczenie 2 ESTYMACJA STATYSTYCZNA

Ćwiczenie 2 ESTYMACJA STATYSTYCZNA Ćwiczeie ETYMACJA TATYTYCZNA Jest to metoda wioskowaia statystyczego. Umożliwia oszacowaie wartości iteresującego as parametru a podstawie badaia próbki. Estymacja puktowa polega a określeiu fukcji zwaej

Bardziej szczegółowo

ALGORYTM OPTYMALIZACJI PARAMETRÓW EKSPLOATACYJNYCH ŚRODKÓW TRANSPORTU

ALGORYTM OPTYMALIZACJI PARAMETRÓW EKSPLOATACYJNYCH ŚRODKÓW TRANSPORTU Łukasz WOJCIECHOWSKI, Tadeusz CISOWSKI, Piotr GRZEGORCZYK ALGORYTM OPTYMALIZACJI PARAMETRÓW EKSPLOATACYJNYCH ŚRODKÓW TRANSPORTU Streszczeie W artykule zaprezetowao algorytm wyzaczaia optymalych parametrów

Bardziej szczegółowo

Materiał ćwiczeniowy z matematyki Marzec 2012

Materiał ćwiczeniowy z matematyki Marzec 2012 Materiał ćwiczeiowy z matematyki Marzec 0 Klucz puktowaia do zadań zamkiętych oraz schemat oceiaia do zadań otwartych POZIOM PODSTAWOWY Marzec 0 Klucz puktowaia do zadań zamkiętych Nr zad 3 5 6 7 8 9 0

Bardziej szczegółowo

INSTRUKCJA DO ĆWICZEŃ LABORATORYJNYCH Z WYTRZYMAŁOŚCI MATERIAŁÓW

INSTRUKCJA DO ĆWICZEŃ LABORATORYJNYCH Z WYTRZYMAŁOŚCI MATERIAŁÓW INSTYTUT MASZYN I URZĄDZEŃ ENERGETYCZNYCH Politechika Śląska w Gliwicach INSTRUKCJA DO ĆWICZEŃ LABORATORYJNYCH Z WYTRZYMAŁOŚCI MATERIAŁÓW BADANIE ODKSZTAŁCEŃ SPRĘŻYNY ŚRUBOWEJ Opracował: Dr iż. Grzegorz

Bardziej szczegółowo

będą niezależnymi zmiennymi losowymi z rozkładu jednostajnego na przedziale ( 0,

będą niezależnymi zmiennymi losowymi z rozkładu jednostajnego na przedziale ( 0, Zadaie iech X, X,, X 6 będą iezależymi zmieymi losowymi z rozkładu jedostajego a przedziale ( 0, ), a Y, Y,, Y6 iezależymi zmieymi losowymi z rozkładu jedostajego a przedziale ( 0, ), gdzie, są iezaymi

Bardziej szczegółowo

1 Układy równań liniowych

1 Układy równań liniowych Katarzya Borkowska, Wykłady dla EIT, UTP Układy rówań liiowych Defiicja.. Układem U m rówań liiowych o iewiadomych azywamy układ postaci: U: a x + a 2 x 2 +... + a x =b, a 2 x + a 22 x 2 +... + a 2 x =b

Bardziej szczegółowo

Kolorowanie Dywanu Sierpińskiego. Andrzej Szablewski, Radosław Peszkowski

Kolorowanie Dywanu Sierpińskiego. Andrzej Szablewski, Radosław Peszkowski olorowaie Dywau ierpińskiego Adrzej zablewski, Radosław Peszkowski pis treści stęp... Problem kolorowaia... Róże rodzaje kwadratów... osekwecja atury fraktalej...6 zory rekurecyje... Przekształcaie rekurecji...

Bardziej szczegółowo

Instrukcja do ćwiczeń laboratoryjnych z przedmiotu: Badania operacyjne. Temat ćwiczenia: Problemy transportowe cd, Problem komiwojażera

Instrukcja do ćwiczeń laboratoryjnych z przedmiotu: Badania operacyjne. Temat ćwiczenia: Problemy transportowe cd, Problem komiwojażera Istrukcja do ćwiczeń laboratoryjych z przedmiotu: Badaia operacyje Temat ćwiczeia: Problemy trasportowe cd Problem komiwojażera Zachodiopomorski Uiwersytet Techologiczy Wydział Iżyierii Mechaiczej i Mechatroiki

Bardziej szczegółowo

Wykład 5 Przedziały ufności. Przedział ufności, gdy znane jest σ. Opis słowny / 2

Wykład 5 Przedziały ufności. Przedział ufności, gdy znane jest σ. Opis słowny / 2 Wykład 5 Przedziały ufości Zwykle ie zamy parametrów populacji, p. Chcemy określić a ile dokładie y estymuje Kostruujemy przedział o środku y, i taki, że mamy 95% pewości, że zawiera o Nazywamy go 95%

Bardziej szczegółowo

KADD Metoda najmniejszych kwadratów

KADD Metoda najmniejszych kwadratów Metoda ajmiejszych kwadratów Pomiary bezpośredie o rówej dokładości o różej dokładości średia ważoa Pomiary pośredie Zapis macierzowy Dopasowaie prostej Dopasowaie wielomiau dowolego stopia Dopasowaie

Bardziej szczegółowo

Zasada indukcji matematycznej. Dowody indukcyjne.

Zasada indukcji matematycznej. Dowody indukcyjne. Zasada idukcji matematyczej Dowody idukcyje Z zasadą idukcji matematyczej i dowodami idukcyjymi sytuacja jest ajczęściej taka, że podaje się w szkole treść zasady idukcji matematyczej, a astępie omawia,

Bardziej szczegółowo

Harmonogramowanie linii montażowej jako element projektowania cyfrowej fabryki

Harmonogramowanie linii montażowej jako element projektowania cyfrowej fabryki 52 Sławomir Herma Sławomir HERMA atedra Iżyierii Produkcji, ATH w Bielsku-Białej E mail: slawomir.herma@gmail.com Harmoogramowaie liii motażowej jako elemet projektowaia cyfrowej fabryki Streszczeie: W

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA STATYSTYKA MATEMATYCZNA. Wykład wstępy. Teoria prawdopodobieństwa i elemety kombiatoryki 3. Zmiee losowe 4. Populacje i próby daych 5. Testowaie hipotez i estymacja parametrów 6. Test t 7. Test 8. Test

Bardziej szczegółowo

Wykład 11. a, b G a b = b a,

Wykład 11. a, b G a b = b a, Wykład 11 Grupy Grupą azywamy strukturę algebraiczą złożoą z iepustego zbioru G i działaia biarego które spełia własości: (i) Działaie jest łącze czyli a b c G a (b c) = (a b) c. (ii) Działaie posiada

Bardziej szczegółowo

2. ANALIZA BŁĘDÓW I NIEPEWNOŚCI POMIARÓW

2. ANALIZA BŁĘDÓW I NIEPEWNOŚCI POMIARÓW . ANALIZA BŁĘDÓW I NIEPEWNOŚCI POMIARÓW Z powodu iedokładości przyrządów i metod pomiarowych, iedoskoałości zmysłów, iekotrolowaej zmieości waruków otoczeia (wielkości wpływających) i iych przyczy, wyik

Bardziej szczegółowo

D. Miszczyńska, M.Miszczyński KBO UŁ, Badania operacyjne (wykład 6 _ZP) [1] ZAGADNIENIE PRZYDZIAŁU (ZP) (Assignment Problem)

D. Miszczyńska, M.Miszczyński KBO UŁ, Badania operacyjne (wykład 6 _ZP) [1] ZAGADNIENIE PRZYDZIAŁU (ZP) (Assignment Problem) D. Miszczyńska, M.Miszczyński KBO UŁ, Badaia operacyje (wykład 6 _ZP) [1] ZAGADNIENIE PRZYDZIAŁU (ZP) (Assigmet Problem) Bliskim "krewiakiem" ZT (w sesie podobieństwa modelu decyzyjego) jest zagadieie

Bardziej szczegółowo

Zestaw II Odpowiedź: Przeciętna masa ciała w grupie przebadanych szczurów wynosi 186,2 g.

Zestaw II Odpowiedź: Przeciętna masa ciała w grupie przebadanych szczurów wynosi 186,2 g. Zadaia przykładowe z rozwiązaiami Zadaie Dokoao pomiaru masy ciała 8 szczurów laboratoryjych. Uzyskao astępujące wyiki w gramach: 70, 80, 60, 90, 0, 00, 85, 95. Wyzaczyć przeciętą masę ciała wśród zbadaych

Bardziej szczegółowo

2.1. Studium przypadku 1

2.1. Studium przypadku 1 Uogóliaie wyików Filip Chybalski.. Studium przypadku Opis problemu Przedsiębiorstwo ŚRUBEX zajmuje się produkcją wyrobów metalowych i w jego szerokim asortymecie domiują różego rodzaju śrubki i wkręty.

Bardziej szczegółowo