MODELOWANIE KONIUNKTURY GOSPODARCZEJ Z WYKORZYSTANIEM DANYCH TEKSTOWYCH Szymon Chojnack Zakład Wspomagana Analzy Decyzj, Szkoła Główna Handlowa, Warszawa 1 WPROWADZENIE Gospodarka krajów rozwnętych podlega fluktuacjom. Po okrese szybkego rozwoju następuje okres spowolnena stagnacj. Podczas fazy dobrej konunktury spada bezroboce rosną dochody [1]. Z kole słaby stan konunktury zwązany jest ze spadkem popytu obnżenem ndeksów gełdowych. Umejętność oceny aktualnego stanu gospodark jest ważna dla prezesa banku centralnego mnstra fnansów, którzy poprzez dostępne narzędza starają sę nwelować odchylena gospodark od długookresowego trendu wzrostowego. Równeż przedsęborstwa gospodarstwa domowe zanteresowane są stanem konunktury. Dostosowują one swoje nwestycje zakupy do oczekwanych przychodów w przyszłośc. Wśród narzędz służących do prognozowana konunktury szczególną popularnoścą ceszą sę barometry konunktury modele ekonometryczne [2]. Perwsze pozwalają budować wskaźnk dagnozujące aktualną konunkturę, druge dopasowują welkośc agregatów gospodarczych do równań opsujących prawa ekonomczne pokazują kerunek rozwoju gospodark. W pracy zostały użyte dane tekstowe do modelowana konunktury. Podobne próby podejmowano wcześnej w celu wyznaczena zależnośc pomędzy komunkatam prasowym a kształtowanem sę ndeksów gełdowych. Cho [3] zbadał, jak wpływ na kurs akcj na gełdze w Hong Kongu ma pojawene sę w komunkatach gełdowych jednego z około 300 predefnowanych zwrotów ekonomcznych. Lavrenko [6] skonstruował program, który przewduje zmanę trendu 130 walorów na gełdze w Nowym Jorku, wykorzystując komunkaty prasowe na tej podstawe podejmuje opłacalne decyzje nwestycyjne. Kroha [6] sprawdzł, jake słowa są charakterystyczne dla okresów wzrostu spadku nemeckego ndeksu DAX 30. Istneje szereg analog pomędzy modelowanem ndeksów gełdowych modelowanem konunktury. Różnca pomędzy obydwoma podejścam jest technczna polega na konecznośc zawężena tekstów służących do analzy gełdy do tych, które dotyczą spółek budujących dany ndeks. Do oceny stanu konunktury wykorzystano welkość dynamk PKB. W latach od 1997 do 2004 melśmy dwe fazy spowolnena dwe fazy ożywena gospodarczego, wdoczne na rys. 1. Rys. 1. Dynamka PKB względem analogcznego kwartału poprzednego roku. Jako źródło tekstów wykorzystano stronę nternetową dzennka Rzeczpospolta. Do przetworzena tekstów użyto makra w aplkacjach Excel Access. Analzy loścowe budowa model prognostycznych została przeprowadzona w programe STATISTICA. Zastosowana metod statystycznych w badanach naukowych III StatSoft Polska 2008 www.statsoft.pl/czytelna.html 119
2 CEL PRACY Podstawowym celem pracy jest weryfkacja hpotezy o stnenu zwązku pomędzy słowam występującym w tytułach artykułów ekonomcznych a stanem konunktury. W celu sprawdzena, czy tak zwązek ma mejsce, wyznaczono słowa, których częstość wystąpeń w okresach z dobrą konunkturą stotne różn sę od częstośc wystąpeń w okresach złej konunktury. Drugm celem pracy jest próba zbudowana model prognozujących konunkturę, które można nterpretować konfrontować z ntucją. Zbudowane modele to drzewo klasyfkacyjne oraz funkcja dyskrymnacyjna. Trzecm celem pracy jest sprawdzene, czy można na częśc dostępnych danych zbudować model klasyfkacyjny, który z wysoką dokładnoścą będze potrafł przewdzeć konunkturę w nowych mesącach. Zbudowany model prognostyczny jest secą neuronową. wstym. Problem ten jest szczegółowo opsany przez K. Nørvåg R. Øyr [7] zwązany jest z poszukwanem w kodze html strony charakterystycznych wzorców (na przykład URL- Tytuł-URL, <A HREF=Tytuł> </A>, <B> Tytuł </B>). W naszym przypadku tytuły zaczynały sę zawsze w tym samym mejscu na strone. 3 PRZETWORZENIE TEKSTÓW Celem ponższego rozdzału jest opsane procedury pozyskana tytułów wadomośc ekonomcznych z Internetu oraz ch przetworzena do postac umożlwającej loścową analzę. Do modelowana konunktury wykorzystano tytuły wadomośc gospodarczych umeszczonych na stronach nternetowych dzennka Rzeczpospolta w latach 1997-2004. Najperw ścągnęto 244 895 tytułów, które obejmowały 126 kategor tematycznych. Następne wydzelono 27 551 tytułów zawartych w dzale Ekonoma 18. W kolejnym kroku usunęto tytuły, które wystąpły w baze ponad dzesęć razy, co mogło być zwązane z ch stałym mejscem na łamach dzennka (tj. notowana gełdowe). W rezultace uzyskano 26 310 tytułów, które zagregowano względem 95 mesęcy od lutego 1997 do grudna 2004. Przykładowa strona nternetowa pokazana jest na rys. 2. Znalezene tytułów na strone archwalnej było zadanem prostym w porównanu z wyszukwanem tytułów w czase rzeczy- 18 Najbardzej popularnym kategoram artykułów były: doda-tek/notowana (50 259 wystąpeń), gazeta/ekonoma (27 551), gazeta/prawo (25 483), gazeta/kraj (17 091), gazeta/śwat (15 055), gazeta/sport (14 426), gazeta/publcystyka (14 000), gazeta/kultura (12 673). Rys. 2. Kopa strony nternetowej ze spsem artykułów z 5 lutego 1997 r. pobrana z wtryny www.rzeczpospolta.pl/szukaj/ sps.pl?t=1997020519970205 w dnu 23.03.2005. Tytuły wadomośc ekonomcznych zdentyfkowane na strone archwum zostały oczyszczone z cyfr, znaków nterpunkcyjnych nnych znaków (na przykład procent, tylda, cudzysłów, nawas okrągły, nawas kwadratowy, ampersand, hash, plus). Następne zastąpono odmenone formy wyrazów przez formy rdzenne (na przykład słowo wzrosło zamenono na wzrastać ). Tabela 1 pokazuje co stało sę w wynku tej operacj z tytułam z rys. 2. Do znalezena form podstawowych wyrazów wykorzystano dwa słownk bezpłatne dostępne w nternece: słownk ortografczny języka polskego PWN, słownk odman wyrazów TIP. 120 www.statsoft.pl/czytelna.html Zastosowana metod statystycznych w badanach naukowych III StatSoft Polska 2008
Czasam dana forma odmany zwązana była z różnym słowam perwotnym (na przykład słowo mam może być dopełnaczem rzeczownka mama, bądź formą czynną perwszej osoby czasu teraźnejszego czasownka meć ). W takch sytuacjach zawsze następowała zmana na jedno to samo słowo perwotne, jednakże słowo to było wyberane w sposób losowy. Tabela 1. Tytuły z dzału Ekonoma z dna 5 lutego 1997, po przetworzenu. Data Tytuł 05.02.1997 sesja gełda 05.02.1997 Jak Kołodko PZU oddawać 05.02.1997 Lberalzm bez wzajemność 05.02.1997 Notowane 05.02.1997 Notowane gełda 05.02.1997 Bezroboce spadać 05.02.1997 Prawo co dzeń sps treść W dalszym etape przetwarzana danych tekstowych do postac umożlwającej zastosowane algorytmów loścowych rozdzelono tytuły na neuporządkowane zbory słów w każdym mesącu. W tym momence pojawły sę lczne wątplwośc, czy tak znaczące przetworzene danych tekstowych pozwol nam zachować treść zwązaną z tytułam. Wydaje sę, że poprzez sprowadzene słów do formy rdzennej (ang. stemmng) oraz rozbce słów na neuporządkowany zbór słów (ang. bag of words) trac sę bezpośredne znaczene zdań. Jednocześne lczne eksperymenty psycholngwstyczne [5] dowodzą, że udaje sę zachować głęboke odczuca zwązane z czytanem tych słów bez względu na kontekst ch formę w zdanu [4]. A zatem, jeżel stan konunktury jest opsywany w tytułach poprzez słowa o nnym wydźwęku emocjonalnym w okresach ożywena stagnacj, to eksperymenty statystyczne z następnego rozdzału mają szansę wykryć tak zwązek. 4 ANALIZY STATYSTYCZNE Tabela z danym do analzy składała sę z 95 werszy odpowadających mesącom od lutego 1997 do grudna 2004 oraz 6 614 kolumn odpowadających formom podstawowym słów. Na przecęcu słów mesęcy znajdują sę unormowane częstośc występowana słowa w danym mesącu. Do każdego mesąca została dodana etyketa określająca, czy konunktura w mesącu była dobra czy zła. Dane w takej postac były już gotowe do analz statystycznych. Poneważ jednak lczba cech była zbyt duża pozostawono tylko te słowa, które występowały w badanym okrese co najmnej 95 razy, co pozwolło zredukować lczbę cech do 156. Jednakże nadal lczba ta była wększa od lczby obektów. Z tego powodu przeprowadzono analzę czynnkową do redukcj lczby cech. Pommo zastosowana pęcu różnych metod wyznaczana czynnków, ne udało sę przekroczyć 22% wyjaśnonej warancj przez perwsze dzesęć czynnków w żadnej metodze. Z tego powodu koneczne było zastosowane metody redukcj lczby cech, która korzysta z wedzy o klase, do jakej należał każdy obekt. Jedną z takch metod jest analza warancj. 4.1 Analza warancj Aby ogranczyć lczbę cech (słów) opsujących analzowane mesące, sprawdzono, które słowa stotne różncują mesące z dobrą złą konunkturą. Do porównana zróżncowana użyto średnej unormowanej częstośc wystąpena słowa w mesącach z dobrą złą konunkturą. Do weryfkacj hpotezy zerowej o równośc średnch w obu grupach oblczono dla każdego słowa wartość statystyk F jako ważony loraz zmennośc mędzy- wewnątrzgrupowej: F = k = 1 k n ( x = 1 j = 1 2 x ) n ( x j x ) 2 n k k, 1 gdze: n lczba obserwacj (95), k lczba grup (2), x j unormowana częstość wystąpeń danego słowa w j-tym mesącu -tej grupy, x średna unormowana częstość wystąpeń danego słowa we wszystkch mesącach, x średna unormowana częstość wystąpeń danego słowa w -tej grupe. Jeżel wartość statystyk F jest wększa od wartośc progowej, wówczas odrzuca sę hpotezę zerową o braku różnc średnch pomędzy grupam mesęcy z dobrą złą konunkturą. Wartość progowa jest poberana z rozkładu F-Snedecora o (k-1) (n-k) stopnach swobody. Zastosowana metod statystycznych w badanach naukowych III StatSoft Polska 2008 www.statsoft.pl/czytelna.html 121
Rys. 3. Słowa z najwększą wartoścą statystyk F. Na podstawe modułu ANOVA procedury jednoczynnkowej. Na rys. 3 znajdują sę wynk analzy warancj dla słów z najwyższą wartoścą statystyk F. Dla analzowanych danych w przypadku 22 słów wartość statystyk F przekroczyła wartość progową (por. rys. 3). Wartość p nformująca o ryzyku odrzucena hpotezy zerowej w przypadku, gdy jest ona prawdzwa, znalazła sę dla tych słów ponżej pozomu 5%. W rezultace różnce w występowanu tych słów w mesącach z dobrą złą konunkturą są stotne. Oznacza to, że stneją stotne zwązk pomędzy wystąpenam słów (ożywene, polsk, cena, nadal, klent, rosnąć, byce, prywatyzacja, euro, wolno, kaptał, czy, ale, droga, poprawa, nflacja, podwyżka, rząd, na, europejsk, rynek, reforma) w tytułach a stanem konunktury. Wynk analzy warancj mogą być mylące w przypadku naruszena założeń o normalnośc rozkładów zmennych w grupach oraz w sytuacj, gdy warancja jest różna pomędzy grupam. W module ANOVA sprawdzono, że dla 22 wybranych słów założene o normalnośc rozkładu jest w wększośc przypadków naruszone. Jednocześne dla 15 słów wartość testu Barletta ne przekroczyła wartośc krytycznej. Oznacza to, że dla tych słów ne ma podstaw do odrzucena hpotezy zerowej o równośc warancj pomędzy grupam. Borąc pod uwagę fakt, że test F jest mocno odporny na naruszene założeń o normalnośc równośc warancj, uznano, że dalsza analza danych zostane ogranczona do wytypowanych 22 słów. 4.2 Interpretacja model klasyfkacyjnych W ponższym podrozdzale zbudowano drzewo klasyfkacyjne funkcję dyskrymnacyjną do poznana bezpośrednch zwązków pomędzy słowam występującym w mesącach a stanem konunktury. W celu wykryca zwązków w całej dostępnej populacj uczene model przeprowadzono na pełnym zborze obektów. W rezultace utworzone modele można wykorzystać do lepszego zrozumena analzowanych danych. Jednocześne trzeba meć na uwadze, że dokładność klasyfkacyjna tych model na neobserwowalnych danych jest z reguły nższa nż na danych uczących. Lnowa analza dyskrymnacyjna, przeprowadzana dla zmennej objaśnanej przyjmującej dwe wartośc, polega na wyznaczenu takch 122 www.statsoft.pl/czytelna.html Zastosowana metod statystycznych w badanach naukowych III StatSoft Polska 2008
współczynnków funkcj klasyfkacyjnych, które zapewnają wysoką jakość klasyfkacj. Y j = α K + 0 + α 1 X 1 + α 2 X 2 + α 22 X 22 W powyższym wzorze Y j oznacza zmenną grupująca zwązaną z klasą j (konunkturą), natomast X odpowada zmennym objaśnającym (słowom). Algorytm poszukuje takch wartośc współczynnków, które maksymalzują loraz zmennośc mędzygrupowej wartośc funkcj klasyfkacyjnej przez zmenność wewnątrzgrupową wartośc funkcj klasyfkacyjnej. A zatem kryterum wyboru parametrów funkcj klasyfkacyjnej bazuje na analze warancj opsanej wcześnej. Tabela 2. Współczynnk przy zmennych w funkcj klasyfkacyjnej, na podstawe modułu analza klasyfkacyjna. Zmenna Stan konunktury zły dobry prywatyzacja 0,399245-0,65432 polsk 0,334194-0,54771 ale 0,322457-0,52850 nadal 0,292504-0,47938 rynek 0,179061-0,29346 cena 0,175337-0,28736 reforma 0,144642-0,23705 podwyżka 0,101121-0,16573 nflacja 0,038001-0,06228 czy 0,033923-0,05560 wolno -0,051350 0,08416 europejsk -0,053216 0,08722 klent -0,056391 0,09242 na -0,108434 0,17771 euro -0,231335 0,37913 droga -0,292610 0,47021 poprawa -0,293012 0,48021 rząd -0,344058 0,56387 kaptał -0,375775 0,61585 rosnąć -0,430220 0,70508 byce -0,481952 0,78987 ożywene -0,559530 0,91701 Stała -0,989090-2,34758 Tabela 2 zawera współczynnk stojące przy zmennych w funkcjach klasyfkacyjnych. Przyjmuje sę, że obekt należy do tej klasy, dla której funkcja klasyfkacyjna przyjęła wększą wartość. Dokładność klasyfkacyjna tak skonstruowanego modelu wynos 90%. Sła dyskrymnacj zmennych dagnostycznych merzona współczynnkem korelacj kanoncznej wynosła 0,79, a zatem była znaczna. Natomast stopeń zakłóceń modelu nnym czynnkam merzony przy, pomocy wskaźnka λ Wlksa wynósł jedyne 0,36. Statystyka ch-kwadrat badająca hpotezę zerową: H 0 : λ = 1 wynosła 81,95, a zwązany z ną pozom stotnośc p wynósł 0,0. Co oznacza, że ryzyko popełnena błędu przy odrzucenu hpotezy zerowej na rzecz hpotezy alternatywnej: H 1 : λ < 1 jest znkome. Poneważ dane wykorzystane do budowy modelu zostały wcześnej wystandaryzowane, zatem współczynnk stojące przy zmennych są porównywalne. Wdzmy, że z dobrą konunkturą zwązane są słowa ożywene, rosnąć, poprawa. Natomast słowa charakterystyczne dla złej konunktury to ale, nadal, czy. Jednocześne zwązek słów cena, podwyżka nflacja ze złą konunkturą jest sprzeczny z ntucją ekonomczną, poneważ w okresach złej konunktury ceny spadają psze sę o nch rzadzej nż w okresach dobrej konunktury. Drzewa klasyfkacyjne buduje sę w celu wyznaczena kryterów podzału obektów na jednorodne grupy. Kryterum podzału obektów może być cęce welowymarowe lub cęce jednowymarowe. Jeżel jeden warunek podzału ne wystarczy do wyznaczena jednorodnych grup obektów, to dla wyznaczonych grup powtarza sę rekurencyjne poszukwane najlepszego kryterum podzału. Czynność tę powtarza sę do czasu wyznaczena zadowalających podgrup obektów. Do oceny jakośc warunku znajdującego sę w tzw. węzłach drzewa klasyfkacyjnego korzysta sę z heurystycznych mar zróżncowana rozkładu (np. współczynnk Gnego, statystyka ch-kwadrat, entropa, rozróżnalność). W rezultace szybko można otrzymać krytera podzału obektów na jednorodne grupy. Rys. 4 przedstawa drzewo zbudowane w module Drzewa nterakcyjne paketu STATISTICA z wykorzystanem domyślnych ustaweń dla metody CHAID. Drzewo to poprawne klasyfkuje 81% obektów. Informuje ono nas, że jeżel w danym mesącu słowo ożywene występuje rzadzej nż pewen pozom, to mamy złą konunkturę. Jeżel słowo to występuje wystarczająco często, wówczas aby określć, czy mamy dobrą konunkturę, potrzebna nam jest dodatkowo nformacja o wystąpenach słowa rosnąć. Jeżel oba słowa występują wystarczająco często, wówczas z dużą pewnoścą możemy przyjąć, że w mesącu była dobra konunktura. Zastosowana metod statystycznych w badanach naukowych III StatSoft Polska 2008 www.statsoft.pl/czytelna.html 123
Rys. 4. Drzewo klasyfkacyjne utworzone przez algorytm CHAID, na podstawe modułu Drzewa nterakcyjne. Sprawdzono, że trzy drzewa zbudowane przy pomocy algorytmu C&RT mają w korzenu równeż słowo ożywene. Jednakże kolejny warunek był oparty na słowach klent lub prywatyzacja. Jakość klasyfkacyjna tych drzew przy głębokośc takej jak na rys. 4 była średno nższa o 5% od jakośc algorytmu CHAID. Równeż algorytm exhaustve-chaid w korzenu umeścł słowo ożywene, lecz wybrane kryterum podzału składało sę z dwóch cęć. 4.3 Klasyfkacja nowych mesęcy Oba modele z poprzednego podrozdzału dają sę w łatwy sposób nterpretować. Cechuje je równeż zadowalająca skuteczność klasyfkacyjna na danych trenngowych. Jeżel jednak chcelbyśmy poznać potencjał naszych danych w prognozowanu konunktury w nowych mesącach, należy podzelć zbór dostępnych mesęcy na nezależne częśc: uczącą testującą oraz zastosować bardzej złożone modele, tj. sec neuronowe. Sztuczne sec neuronowe są klasą algorytmów prognostycznych, klasyfkacyjnych grupujących, których dzałane nsprowane jest dzałanem mózgu. Szacuje sę, że w mózgu człoweka znajduje sę około 10 mlardów neuronów. Do przecętnego neuronu dochodz klka tysęcy połączeń od nnych neuronów (dendrytów) wychodz z nego jedno włókno (akson) rozgałęzające sę do welu neuronów. Elektrochemczne sygnały wchodzące do neuronu są przetwarzane przesyłane dalej lub ulegają wygaśnęcu. Neurony są połączone ze sobą w seć o skomplkowanej topolog, jednakże można określć wejśca do sec (nerwy sensoryczne) oraz wyjśca z sec (nerwy motoryczne). Rzeczywsta seć neuronowa jest w dużym stopnu odporna na uszkodzena ma zdolność do szybkej nauk. Sztuczne sec neuronowe zostaną wykorzystane do sprawdzena, jak przy ch pomocy można prognozować konunkturę. W celu zapewnena reprezentatywnośc uzyskanych wynków podzelono zbór wszystkch obserwacj na trzy częśc. Perwsza część składała sę z obektów uczących seć. Druga grupa została wykorzystana do waldacj uczącej sę sec, czyl do określena, kedy seć pownna przestać sę uczyć, bo następuje jej przeuczene. Trzec zbór obektów ma na celu sprawdzene, jak dokładne nauczona seć prognozuje konunkturę obektów neborących udzału w uczenu waldacj. Najbardzej popularnym, a zarazem wykorzystanym w pracy modelem sztucznej sec neuronowej jest perceptron welowarstwowy (ang. MultLayer perceptron) uczący sę poprzez wsteczną propagację błędu. Seć MLP składa sę z jednej warstwy neuronów wejścowych, co najmnej jednej warstwy neuronów ukrytych oraz neuronu wyjścowego. A zatem kształt sec MLP stanow znaczne uproszczene rzeczywstej sec neuronowej. Neurony w kolejnych warstwach są połączone na zasadze każdy z każdym. Natomast sygnały wchodzące do neuronów są mnożone przez wag dendrytów sumowane. Na wyjścu następuje transformacja loczynu skalarnego z wejśca przy pomocy funkcj przejśca (aktywacj). W badanu stosowano logstyczną funkcję przejśca: 1 f ( x ) =. x 1 e Kształt funkcj f(x) przypomna lterę S, a sama funkcja przekształca wartość wejścową w lczbę z przedzału (0;1). Do najważnejszych cech dobrej funkcj przejśca należy łatwość w oblczanu jej pochodnej, co ma duże znaczene w procese uczena sec. Uczene przebega w epokach. Podczas jednej epok wprowadzane są do neuronów wejścowych wartośc cech dla każdego obektu porównywana jest wartość neuronu wyjścowego z klasą obektu uczącego seć. Po każdej epoce następuje zamana wag przy wejścach do neuronów na wag najlepej lokalne poprawające jakość klasyfkacyjną 124 www.statsoft.pl/czytelna.html Zastosowana metod statystycznych w badanach naukowych III StatSoft Polska 2008
całej sec. Najczęścej stosowanym kryterum do zakończena uczena sec jest spadek jakośc klasyfkacyjnej na zborze waldacyjnym. sec o najwyższej jakośc klasyfkacj na zborze waldacyjnym, por. rys. 5. Sec te zostały automatyczne wybrane przez program spośród sec RBF MLP. Wszystke analzowane sec składały sę z jednej warstwy ukrytej, sec RBF mały w nej ne węcej nż 24 neurony, a sec MLP ne węcej nż 15 neuronów. Najwyższą dokładność na zborze testującym uzyskała seć RBF z czterema neuronam w warstwe ukrytej. Najnższą dokładność mała seć RBF z dwoma ukrytym neuronam. Sec MLP charakteryzują sę wyższą stablnoścą wynków nż sec RBF. Dokładność sec MLP była zblżona do 4/5. Wysoka jakość klasyfkacyjna zbudowanych sec na zborach testujących pokazuje, że przy ch pomocy można z wysoką dokładnoścą prognozować stan konunktury. 5 UWAGI KOŃCOWE Rys. 5. Jakość sztucznych sec neuronowych na zborach uczącym, waldacyjnym testowym, na podstawe modułu Automatyczny projektant. Drugm modelem sec neuronowej wykorzystanym w nnejszej pracy jest seć o radalnych funkcjach bazowych (ang. Radal Bass Functon). Podstawowa różnca pomędzy secą MLP RBF polega na nnym sposobe dzałana neuronów. W sec MLP wartośc wejścowe są mnożone przez wag, dodawane przekształcane przez funkcję przejśca. W sec RBF wag zwązane z neuronem reprezentują współrzędne punktu. Interpretując wartośc wejść do neuronu jako współrzędne drugego punktu, można oblczyć odległość pomędzy obydwoma punktam. Przyjmując, że punkt określony przez wag jest centrum funkcj o welowymarowym rozkładze normalnym, można dokonać nelnowej transformacj odległośc punktu wejścowego od centrum. W ten sposób otrzymuje sę wyjśce neuronu w sec RBF. W rezultace obszar decyzyjny zostaje podzelony przy pomocy okręgów (hpersfer), podczas gdy w secach MLP podzał następuje przy pomocy prostych (płaszczyzn). Uczene sec RBF następuje z reguły szybcej nż analogcznej sec MLP, jednakże dzała ona wolnej wymaga wększych zasobów pamęc. Do budowy sec neuronowych wykorzystano Automatycznego projektanta sec w programe STATISTICA. Do prezentacj wybrano sedem W pracy opsano, jak można modelować pojęca gospodarcze poprzez wadomośc nternetowe. W perwszym kroku następuje pozyskane danych tekstowych z Internetu przetworzene ch do postac umożlwającej loścową analzę. W drugm kroku można skorzystać z technk opsu statystycznego do zrozumena dostępnych danych, bądź bezpośredno przejść do konstrukcj model prognostycznych. Proponowany sposób dzałana został zobrazowany na przykładze modelowana konunktury gospodarczej z wykorzystanem tytułów artykułów ekonomcznych dzennka Rzeczpospolta w latach 1997-2004. Jednakże postępując analogczne, można spróbować zbadać nne pojęca ekonomczne (tj. bezroboce, nflacja, kurs walutowy, ndeks gełdowy). Jednocześne warto meć na uwadze, że postrzegane stanu konunktury jako dobra lub zła jest podejścem klasyfkacyjnym. Jeżel poprzez stan konunktury będzemy rozumeć pewną lczbę na os, to należałoby stosować podejśce prognostyczne. Przeprowadzone analzy statystyczne mały na celu odkryce nowych relacj w danych oraz sprawdzene, czy teksty są dobrym źródłem danych w modelowanu konunktury. Na wstępe spróbowano zmnejszyć lczbę słów opsujących mesące. Ze względu na nske współczynnk korelacj pomędzy słowam, analza czynnkowa ne pozwolła zmnejszyć lczby cech. Z tego powodu zastosowano analzę warancj Zastosowana metod statystycznych w badanach naukowych III StatSoft Polska 2008 www.statsoft.pl/czytelna.html 125
do wyznaczena słów występujących stotne częścej w okresach z jednym typem konunktury. Przy 5% pozome stotnośc znalezono 22 słowa znacząco różncowane przez konunkturę. Bardzo cekawe wynk przedstawają zbudowane drzewo klasyfkacyjne funkcja dyskrymnacyjna. Współczynnk stojące przy zmennych w funkcj dyskrymnacyjnej pokazują, w jak sposób poszczególne słowa wpływają na konunkturę. Natomast utworzone drzewo klasyfkacyjne pozwolło podzelć zbór mesęcy ze względu na konunkturę z dokładnoścą ponad 80% przy pomocy jedyne dwóch słów ( ożywene, rosnąć ). Następne porównano jakość sec neuronowych przy prognozowanu konunktury na zborze mesęcy neborącym udzału w uczenu sec. Średna dokładność 7 sec o najwyższej dokładnośc klasyfkacyjnej na zborze waldacyjnym wynosła na zborze testującym ponad 3/4, co wskazuje na potencjalne możlwośc prognozowana konunktury poprzez słowa z tytułów prasowych. Barerą w rozwoju proponowanej procedury dzałana pozostaje fakt, że przekształcając zdana w neuporządkowane zbory słów, zachowujemy jedyne pewne głęboke odczuca zwązane z czytanem tych słów, a tracmy praktyczne całą treść zdań. BIBLIOGRAFIA 1) Burda M., Wyplosz C.,(2000): Makroekonoma podręcznk europejsk PWE, Warszawa. 2) Barczyk R.,(2004): Teora praktyka poltyk antycyklcznej, AE, Poznań. 3) Cho V., Wutrch B., Zhang J., (1998): Text processng for classfcaton, Techncal report, The Hong Kong Unversty of Scence and Technology. 4) Gleason J.B., Ratner N.B., (2005): Psycholngwstyka, GWP, Gdańsk. 5) Kroha P., Baeza-Yates R.,(2004): Classfcaton of Stock Exchange News, Techncal Report, Engneerng School, Unversdad de Chle. 6) Lavrenko V., Schmll M., Lawre D., Oglve P., Jensen D., Allan J.,(2000): Language models for fnancal news recommendaton, Proceedngs of the 9th ICIKM. 7) Norvag K., Oyr R.,(2005): News Item Extracton for Text Mnng n Web Newspapers, Proceedngs of Internatonal Workshop on Challenges n Web Informaton Retreval and Integraton. 126 www.statsoft.pl/czytelna.html Zastosowana metod statystycznych w badanach naukowych III StatSoft Polska 2008