PRACA DYPLOMOWA MAGISTERSKA. Wyznaczanie grup genów zależnych przy użyciu technologii mikromacierzy

Wielkość: px
Rozpocząć pokaz od strony:

Download "PRACA DYPLOMOWA MAGISTERSKA. Wyznaczanie grup genów zależnych przy użyciu technologii mikromacierzy"

Transkrypt

1 POLITECHNIKA WARSZAWSKA WYDZIAŁ ELEKTRONIKI I TECHNIK INFORMACYJNYCH INSTYTUT INFORMATYKI Rok akademck 2003/2004 PRACA DYPLOMOWA MAGISTERSKA Paweł Terleck Wyznaczane grp genów zależnych przy życ technolog mkromacerzy Opekn pracy: dr hab. nż. Krzysztof Walczak Ocena.. Podps Przewodnczącego Komsj Egzamn Dyplomowego 1

2 Specjalność Informatyka Inżynera oprogramowana systemy nformacyjne Data rodzena 7 marzec 1980 Data rozpoczęca stdów 01 paźdzernka 1999 ŻYCIORYS Urodzłem sę r. w Warszawe. Po kończen szkoły podstawowej, kontynowałem nakę w XIV L.O. m. Stansława Staszca w Warszawe. W szkole średnej częszczałem do klasy o profl matematyczno-fzycznym z rozszerzonym programem nformatyk. W paźdzernk 1999 r. rozpocząłem stda na Wydzale Elektronk Technk Informacyjnych Poltechnk Warszawskej. W paźdzernk 2003 r. rozpocząłem stda na Wydzale Nak Ekonomcznych Unwersytet Warszawskego.. podps stdenta EGZAMIN DYPLOMOWY Złożył egzamn dyplomowy w dn r. z wynkem.... Ogólny wynk stdów... Dodatkowe wnosk wag Komsj 2

3 STRESZCZENIE Nnejsza praca ma na cel wprowadzene w tematykę badana ekspresj genów za pomocą technolog mkrotablc. Objaśna podstawowe pojęca charakterystyczne dla dzedzny oraz przedstawa ogólny sposób prowadzena eksperymentów. Najstotnejszą częścą pracy jest propozycja śceżk analzy danych zyskwanych z dośwadczeń. Obejmje ona statystyczne badane znaczena genów, dyskretyzację wartośc cągłych, wyznaczane redktów oraz wzorców wyskakjących. Celem oblczeń jest porównane wynków otrzymywanych przy stosowan różnych metod w zakrese oceny pojedynczych genów oraz znajdowana grp genów powązanych. Jednocześne przeprowadzone są rozważana formalne eksperymentalne dotyczące pojęca redkt wzorca wyskakjącego. Istotnym elementem pracy jest aplkacja Mcroarray Analyser. Pozwala ona na analzę danych zgodne z opsaną śceżkę analzy. Implementacja obejmje wszystke przedstawone w pracy algorytmy. Słowa klczowe: ekspresja genów, mkromacerz, analza warancj, redkt, wzorzec wyłanający Fndng of assocated genes grops sng mcroarray technology ABSTRACT The prpose of ths thess s to present the topc of gene expresson analyss sng mcroarray technology. It explans the prncpals of the doman and gves an otlook for and experment condctng. The most sgnfcant part contans a proposton of an analyss path for the data obtaned n experments. It comprses of statstcal evalaton of gene mportance, dscretsaton of contnos vales, fndng of redcts and emergng patterns. The man dea s to compare reslts of dfferent methods n problems of gene evalaton and assocated genes grops fndng. The notons of redct and jmpng emergng pattern are taken nder formal and expermental consderaton. The mportant part of ths thess s Mcroarray Analyser applcaton. It allows condctng analyss accordng to the descrbed path. All presented algorthms are covered by the mplementaton. Key words: gene expresson, mcroarray, analyss of varance, redct, emergng pattern 3

4 Sps treśc 1. Wstęp Wprowadzene Umejscowene w dzedzne Cel pracy Zawartość merytoryczna Bologczny zarys problem Podstawy bochemczne Bałka Kwasy nklenowe Kod genetyczny Ekspresja genów Bblotek genowe Badane ekspresj genów Dostępne technologe oparte o mkromacerze Schemat eksperyment Pomar pozom ekspresj Normalzacja Rodzaje analzy danych Dane dostępne pblczne Przykład eksperyment Standaryzacja ops Koncepcja bazy danych mkromacerzy Specyfkacja MIAME Formalny ops danych Wprowadzene Defncje Wyznaczane zbor genów znaczących Wprowadzene Znaczene Statystyczna ocena atrybtów Wprowadzene Jednoczynnkowa analza warancj Statystyka χ Pojęce zbor znaczącego Ocena znaczena zbor atrybtów Przypadek atrybtów dowolnych Przypadek atrybtów cągłych Przypadek atrybtów dyskretnych Ocena znaczena zbor atrybtów ze względ na podzbory Wyznaczane zborów znaczących Wyznaczane zbor λ,1-smacyjne znaczącego Dobór parametrów zborów znaczących Dyskretyzacja Wprowadzene Defncje Podstawowe metody Równa szerokość przedzałów Równa głębokość przedzałów

5 Podejśce zstępjące Wyznaczane rozróżnających grp genów Wprowadzene Elementy teor zborów przyblżonych Realzacja wybranych pojęć Strktry rozróżnalnośc obektów Fnkcja rozróżnalnośc Metody znajdowana wszystkch redktów Podejśce dokładne Podejśce zachłanne Podejśce herystyczne Dekompozycja przestrzen Metody wyszkwana mnmalnych k-zborów trafenowych Wprowadzene Podejśce dokładne Podejśce losowe Podejśce ewolcyjne Wyznaczane charakterystycznych wzorców ekspresj Wprowadzene Znaczene dla badana ekspresj Defncje twerdzena Wyznaczane wzorców wyskakjących Wprowadzene Przestrzeń wsparca wzorców Podstawowe metody wyznaczana wzorców wyłanających Wyznaczane płotów horyzontalnych Wyznaczane różncy płotów Wyznaczane przestrzen wzorców wyskakjących Analza efektywnośc Zależność redktów wzorców wyskakjących Wprowadzene Rozważana formalne Prowadzene analzy wynków Wprowadzene Przypadek redktów Przypadek wzorców wyskakjących Porównane mar stotnośc genów Analza postac zborów wynkowych Wynk eksperymentalne Sposób prowadzena analzy Wynk eksperymentów Zbór danych Ontaro Zbór danych Prnceton Omówene wynków Ocena pojedynczych genów Grpy genów współzależnych Zbór redktów przestrzeń wzorców wyskakjących Ops program testowego Mcroarray Analyser Informacje ogólne Format danych wejścowych

6 10.3. Prowadzene analzy zbor danych Propozycje rozwoj Podsmowane Materały Bblografa Zasoby nternetowe

7 1. Wstęp 1.1. Wprowadzene W ostatnej dekadze obserwjemy szczególne slny rozwój bonformatyk. Jest ona dzedzną nterdyscyplnarną, która wykorzystje współczesne metody analzy danych do zagadneń bologcznych. Dodatkowy rozpęd nadaje badanom postęp w zakrese nżyner genetycznej, której zdobycze wykorzystywane są także w genetyce, bochem bolog moleklarnej. Hpoteza postawona przez Watsona Crcka, wskazjąca łańcch kwas nklenowego zawarty w komórkach organzm jako nośnk nformacj dzedzcznej, wprowadzła genetykę na nowe tory. Jednym z perwszych zadań, które postawła przed sobą bonformatyka, było poznane strktry fnkcjonalnośc elementów łańccha DNA różnych organzmów. Cel zaowocował wykształcenem zaawansowanych metod dentyfkacj genów oraz zasad klasyfkacj gromadzonych nformacj. Dla wel gatnków stneją obecne kompletne bblotek opsjące poszczególne elementy ch DNA. Z tematyką slne powązana jest analza modyfkacj nformacj dzedzcznej zachodząca pomędzy pokolenam. Do analzy wykorzystywane są różne metody lnawana sekwencj oraz drzewa flogenetyczne pokazjące kolejne przemany DNA osobnków posadających wspólnego przodka. Identyfkacja genów poszczególnych gatnków otworzyła drogę do analzy fnkcj pełnonych przez ne w komórkach. Geny determnją syntezę bałek, które odpowadają za dzałane całego organzm. Ze względ na złożoność procesów życowych wyznaczane powązań pomędzy aktywnoścą określonych grp genów a obserwowalnym stanem organzm odbywa sę najczęścej z pomnęcem etapów pośrednch. Aktywność określonych genów kojarzona jest bezpośredno z konkretnym stanam komórek. Wedza ta pozwala na znajdowane grp fnkcjonalnych genów odpowedzalnych za rozważane zjawska. Wśród wel zastosowań praktycznych należy wymenć poznawane podłoża chorób genetycznych, testowane dzałana leków oraz toksykologę. Obecne najbogatszej wedzy na temat rol genów dostarczają eksperymenty, które wykorzystją technologę mkromacerzy. Kolejny etap badań dotyczy bdowy fnkcj bałek syntetyzowanych w komórkach organzm. Zagadnene to jest o wele bardzej złożone od analzy kwasów nklenowych, gdyż przestrzenna strktra bałka ma klczowe znaczene dla jego właścwośc pełnonych przezeń fnkcj. Zdobywana wedza jest szczególne stotna w dzedznach zwązanych z odbdową określonych organów oraz wytwarzanem materałów organcznych o zadanych właścwoścach. Postęp w prężne rozwjającej sę dzedzne w znaczący sposób wpływa na kształt obecnego śwata. Jednym z najbardzej spektaklarnych skcesów jest kończene w 2003 rok projekt dotyczącego poznana genom ldzkego (Hman Genome Project). Projekt został kończony w cąg 13 lat, w czase o dwa lata krótszym nż perwotne założony. Obecne znamy kompletną mapę genów człoweka. Następne wyzwane dotyczy odkryca znaczena poszczególnych genów w obserwowanych procesach życowych. 7

8 Pommo dżej ntensywnośc badań na całym śwece bonformatyka kryje wele nerozwązanych dotąd zagadneń. Najblższe lata z całą pewnoścą otworzą przed nam nowe horyzonty możlwośc Umejscowene w dzedzne Praca nnejsza zajmje sę analzą danych opsjących ekspresję genów. Badane ekspresj odbywa sę obecne za pomocą trzech podstawowych technk: szeregowej analzy ekspresj genów, mkromacerzy olgonkletydowych mkromacerzy cdna. W ostatnch latach szczególną poplarność zdobyły dwe ostatne spośród wymenonych metod. Ze względ na ogólne podobeństwo ob podejść zakładam w pracy, że pnktem wyjśca do dalszego przetwarzana jest eksperyment przeprowadzony zgodne z dowolną z nch. Ogromna lość danych pochodzących z dośwadczeń zaowocowała dżym możlwoścam pozyskwana wedzy na temat genów. Zgodne ze sposobem prowadzena analzy rozpatrywane zagadnena można podzelć na klka podstawowych grp. Technologa mkromacerzy jest powszechne żywana do dentyfkacj genów [2]. Sekwencje nklenowe rozważanego organzm są rozpoznawane poprzez hybrydyzację ze znanym genam organzmów prostszych. Podejśce to ne jest nakernkowane na badane ntensywnośc ekspresj. W zależnośc od sposob przedstawena danych opsjących welkość ekspresj otrzymjemy dwe różne rodzny zagadneń. W ob przypadkach możemy stosować metody czena bez nadzor pod nadzorem [9]. W perwszym przypadk z rozpatrywanym genam zwązane są wektory pozomów ekspresj zyskanych w kolejnych eksperymentach [9,40]. Podejśce to skpa sę na wykrywan genów o podobnych wzorcach aktywnośc. W ten sposób dentyfkowane są grpy genów legających koekspresj w określonych warnkach. Do analzy bez nadzor wykorzystywane jest najczęścej grpowane herarchczne, algorytm k-ś rednch, samoorganzjące sę mapy (SOM Self-organzng maps) metoda składowych głównych (PCA Prncpal Component Analyss). Uczene pod nadzorem wykorzystje posadaną wedzę bologczną do nakerowywana algorytmów grpjących. Szczególne znaczene dla znajdowana powązań mędzy genam odgrywa klasyfkacja oparta o nformacje na temat grp genów o zbeżnej ekspresj. Spotykane w lteratrze propozycje bazją na różnych poplarnych klasyfkatorach, przy czym najczęścej wykorzystywanym rozwązanem jest maszyna wektorów nośnych (SVM Spport Vector Machne). Zpełne nnego spojrzena dostarcza potraktowane każdej hybrydyzacj jako pnkt w przestrzen, którego współrzędne odpowadają pozomom ekspresj kolejnych genów. Dże rozmary genomów decydją o wysokej wymarowośc przestrzen. Z tego względ analza wynków wymaga stosowana wyłączne algorytmów o dobrej skalowalnośc. W perwszej kolejnośc podejśce jest nastawone na znajdowane powązań pomędzy hybrydyzacjam, które odpowadają różnym stanom badanych komórek. Najczęstszym zastosowanem praktycznym jest bdowa klasyfkatorów wykorzystjących pomar ekspresj dla stalena czy badana tkanka posada określone cechy. Przykładowo, może ono dotyczyć wykrywana nowotworów [19], sktków zastosowanego leczena lb skażena toksynam. 8

9 Za pomocą metod statystycznych możlwe jest też wyznaczene pojedynczych genów, które znacząco zmenają swoją ekspresję dla różnych stanów organzmów. W ten sposób otrzymjemy nformacje o genach, które mogą być zwązane z badanym zjawskem. Głębsza analza pozwala na wyznaczene powązań pomędzy określonym wzorcam ekspresj oraz odpowadającym m cecham. Wzorce ne tylko mogą być wykorzystywane do klasyfkacj. Stanową one równeż podstawę do wyznaczana zależnośc mędzygenowych bardzej złożonych nż koekspresja. Metody analzy wykorzystją mędzy nnym deę wzorców wyłanających [31] oraz znane klasyfkatory, w tym oparte o teorę zborów przyblżonych [21]. W pracy zajmję sę analzą danych pochodzącą z ostatnej z prezentowanych t klas zagadneń. Skpam sę na dentyfkacj stotnych genów oraz grp genów, które są slne zwązane z danym zjawskem Cel pracy Praca ma podstawowe zadane wprowadzena czytelnka w tematykę badana ekspresj genów. Porsza elementarne zagadnena dotyczące prowadzena eksperymentów analzy ch rezltatów. Pokazje obecne zaawansowane dzedzny oraz cele, jake w jej zakrese stawa przed sobą bonformatyka. Rozpatrywana jest klasa eksperymentów, które wykorzystją do badana ekspresj genów technologę mkromacerzy. W szczególnośc skpam sę na dośwadczenach dających pnkt wyjśca do czena pod nadzorem. W pracy zaprezentowana została śceżka analzy danych zwązanych z ekspresją, której celem jest określene grp genów zależnych odpowedzalnych za reglację określonych procesów. Obejmje ona kolejno: wstępny wybór genów znaczących za pomocą metod statystycznych, dyskretyzację wartośc cągłych oraz wyznaczane relacj pomędzy grpam genów określoną w eksperymence klasą decyzyjną. Do badana grp genów wykorzystane zostały nezależne podejśca zwązane z teorą zborów przyblżonych pojęcem wzorców wyłanających. Ponadto dane na temat ekspresj zostały wykorzystane jako tło do porównana postac własnośc zbor redktów względnych otrzymanych dla pewnej tablcy decyzyjnej z przestrzeną wzorców wyskakjących wyznaczonych dla rodzny baz danych odpowadających tej tablcy. W szczególnośc na podstawe ob pojęć zaproponowano mary stotnośc pojedynczych genów, które zostały następne porównane z oszacowanam statystycznym Zawartość merytoryczna Rozdzał 2 daje ogólne rozeznane w bologcznych podstawach analzy ekspresj genów. Dżo mejsca pośwęcone jest technolog mkromacerzy oraz sposobow prowadzena dokmentowana dośwadczeń. Rozdzał 3 precyzje formalny ops danych otrzymywanych w wynk eksperymentów. Stanow on pnkt wyjśca do kolejnych etapów analzy danych. W rozdzale tym wprowadzony jest równeż główny przykład, który będze śledzony w całej pracy. 9

10 Rozdzał 4 dotyczy zagadnena znajdowana zbor genów znaczących. Zawera propozycję ogólnego podejśca do problem wyłonena zestaw atrybtów stotnych dla dalszej analzy oraz omawa powszechne stosowane w praktyce metody statystyczne dla atrybtów cągłych dyskretnych. Ogranczene zbor genów jest ważnym etapem poprzedzającym zastosowane metod bardzej zaawansowanych, gdyż są one zwykle mało efektywne dla problemów o dżej wymarowośc. Dane dotyczące ekspresj genów mają charakter cągły. Rozdzał 5 szczegółowo omawa poplarne algorytmy dyskretyzacj. Ich zastosowane możlwa analzę z wykorzystanem metod odkrywana wedzy. W rozdzale 6 rozważane jest zagadnene znajdowana grp genów o dżej zdolnośc rozróżnana obektów. Do tego cel wykorzystane zostały elementy teor zborów przyblżonych. Dżo mejsca pośwęcone jest wyznaczan redktów względnych tablcy decyzyjnej. Dla tego problem przytoczone zostały podejśca spotykane w lteratrze, a także zaproponowany algorytm przyblżony oparty o dekompozycję przestrzen możlwych podzborów atrybtów. Rozdzał 7 opsje deę wzorców wyłanających. Szczegółowo omówone jest wyznaczane przestrzen wzorców wyskakjących jej zastosowane do wyznaczana charakterystycznych profl ekspresj genów. W rozdzale 8 zajmjemy sę porównanem pojęca redkt wzorca wyskakjącego. Przedstawone są podstawowe przesłank teoretyczne przemawające za powązanem tych pojęć oraz eksperymentalne metody słżące odnesen właścwośc zbor redktów do przestrzen wzorców wyskakjących. W tym cel zdefnowane zostały odpowedne fnkcje oceny stotnośc atrybtów. Rozdzał 9 zawera ops analzy danych oraz jej rezltaty dla dwóch rzeczywstych zborów danych zyskanych za pomocą technk mkromacerzy. Dla badanych zestawów przeprowadzono porównane wyznaczonych redktów wzorców wyskakjących za pomocą metod zaproponowanych w rozdzale 8. Otrzymane wynk empryczne zostały podsmowane omówenem odnesenem do analz prowadzonych przez nne zespoły. Rozdzał 10 obejmje ogólny ops aplkacj wykorzystywanej do wykonana testów. Omówony został przede wszystkm format plków wejścowych oraz sposób prowadzena analzy. Rozdzał 11 zawera podsmowane całej pracy. Podkreślone zostały podstawowe elementy pracy, osobsty wkład oraz płynące z badań wnosk. Rozdzał 12 zawera wykaz pblkacj zasobów nternetowych wykorzystanych w pracy. 10

11 2. Bologczny zarys problem 2.1. Podstawy bochemczne Bałka Fndamentalne znaczene dla fnkcjonowana organzmów żywych mają bałka. Są one złożonym zwązkam chemcznym o charakterze polmerycznym. Na łańcch zwązk składają sę amnokwasy połączone wązanam peptydowym. Z tego względ bałko możemy postrzegać równeż jako polpeptyd. Amnokwasy są prostym zwązkam organcznym. Na pojedynczy polpeptyd przypada od 100 do 1500 amnokwasów. W bałkach bogennych występją one dokładne w 20 różnych rodzajach [44]. Kolejność występowana amnokwasów w łańcch określana jest manem strktry perwszorzędowej. Defncje wyższych strktr bałkowych zwązane są z przestrzenną bdową łańccha oraz zależnoścam pomędzy oddzelnym łańccham. Rys Przykładowa strktra przestrzenna bałka Bałka pełną welorake fnkcje w organzme. Pod postacą enzymów katalzją nemal wszystke reakcje bochemczne przyspeszając czas ch zajśca o klka rzędów welkośc. Jednocześne w wel złożonych procesach odgrywają rolę reglacyjną. Jako przecwcała tworzą podstawową barerę odpornoścową dla bakter, wrsów nnych sbstancj obcych. Z kole jako składnk błon komórek nerwowych są natralnym receptoram sygnalzjącym stan środowska zewnętrznego. Transportją oraz magazynją sbstancje organczne neorganczne poprzez tworzene z nm zwązków tymczasowych. Dla skóry, kośc tkank łącznej bałka są głównym elementem bdlcowym. Jeśl w organzme brakje nnych źródeł energ zżywane są one równeż w wysokoenergetycznych procesach spalana. Ze względ na swoją wszechobecność bałka stanową podstawową dzedznę zanteresowań badaczy. Szczególny nacsk kładzony jest na analzę fnkcj sterjących, gdyż właśne one mplkją zachowane organzm w określonych warnkach Kwasy nklenowe Informacja o wszelkch bałka prodkowanych przez organzm zapsana jest w łańcch kwas nklenowego. W zależnośc od stopna skomplkowana organzm nośnk stanow nny kwas. 11

12 W prostych organzmach jednokomórkowych (prokaryota) powyższą fnkcje pełn kwas rybonklenowy RNA. Jego cząsteczka często stanow jądro komórk. Ma on strktrę polmeryczną, przy czym pojedynczym monomerem jest nkleotyd. Każdy nkleotyd składa sę z 5-węglowego ckr (rybozy), reszty fosforanowej zasady azotowej. Ze względ na różne typy zasad azotowych występją cztery rodzaje nkleotydów: adenna (A), ganna (G), cytozyna (C) racyl (U). Dwe perwsze określa sę manem pryn, a pozostałe prymdyn. Cząsteczk RNA odgrywają także stotną rolę przy dekodowan nformacj genetycznej zarówno organzmów prostych, jak bardzej złożonych. U organzmów wyższych (ekaryota) nformacja o bałkach zakodowana jest w kwase dezoksyrybonklenowym DNA. Podobne, jak RNA jest on polmerem nkleotydów, przy czym racyl zastępje nna prymdyna tymna (T). Dla bdowy replkacj kwas stotną cechą nkleotydów jest ch komplementarność. Termnem tym określa sę możlwość powstawana slnych wązań wodorowych w konfgracjach: adenna tymna (równeż racyl) oraz ganna cytozyna. W stane natralnym kwas DNA występje w dwóch komplementarnych ncach połączonych mostkam wodorowym przyjmje w przestrzen kształt podwójnej helsy. Do odtworzene pełnej nformacj wystarczy jedna z nch. Rys Schemat podwójnej helsy kwas DNA Organzmy wyższe składają sę z komórek o dobrze wyodrębnonym jądrze komórkowym. Ze względ na dłgość nc kwas DNA jest mocno poskręcany pakowany do postac strktr takch jak chromatyna lb chromosomy. Strktry te znajdją sę w jądrach komórkowych jądrzastych komórek organzm. Bez względ na własne przeznaczene, każda z tych komórek posada pełną nformację o bałkach syntetyzowanych w całym organzme. Strktra przestrzenna kwasów, podobne jak bałek, jest skomplkowana. Obserwje sę mędzy nnym różne stopne skręcena cząsteczk oraz występowane dodatkowych słabych wązań pomędzy przylegającym regonam nc. Najstotnejsza dla syntezy bałek jest perwszorzędowa strktra kwas, która określa lnową kolejność nkleotydów w łańcch. Z rozmnażanem sę komórek nerozerwalne zwązany jest proces replkacj DNA. Zachodz on tż przed podzałem jądra komórkowego na jądra potomne zapewna dentyczność przekazywanej m nformacj genetycznej. Replkacja polega na podwajan sę cząsteczk kwas dezoksyrybonklenowego. Jego perwszym etapem jest rozwjane rozdzelane komplementarnych łańcchów polnkleotyd. Następne każdy pojedynczy łańcch staje sę 12

13 matrycą do bdowy nowego łańccha komplementarnego. W ten sposób z perwotnej podwójnej helsy DNA powstają dwe nowe, przy czym każda zawera po jednym łańcch orygnalnym po jednym nowym. Poneważ dla dalszych rozważań ne jest stotne, który z kwasów jest nośnkem nformacj, węc ze względ na przejrzystość dalsze rozważana będą prowadzone dla kwas DNA. Jeśl ne zostane wyraźne zaznaczona różnca, to mplcte należy przyjąć, że odnoszą sę one równeż do organzmów prostszych. Szersze omówene strktry kwasów nklenowych można znaleźć w pracy [44] Kod genetyczny Badana nad moleklarną strktrą kwasów nklenowych rozpoczął głośny artykł Watsona Crcka pod tytłem Moleclar Strctre of Nclec Acds", który kazał sę w Natre w kwetn 1953 rok. Dzęk tej pracy genetyka zyskała dla dalszych badań bogate zaplecze bochemczne pozwalające na weryfkację formłowane nowych hpotez. Od tego moment powszechne przyjmje sę, że cała nformacja dzedzczna organzm zapsana jest w cząsteczce DNA. Za podstawową jednostkę nformacj dzedzcznej ważany jest gen. Perwotne pojęce to mało charakter abstrakcyjny, obecne odnos sę ono do określonego odcnka kwas nklenowego. Mejsce w ramach sekwencj, gdze znajdje sę gen nazywane jest locs. Geny ne są cągłym odcnkam DNA. Odcnk kwas ne kodjące żadnego element końcowego prodkt gen są nazywane ntronam. Odpowedno pozostałe odcnk składające sę na nformacje nesoną przez geny nazywamy eksonam [44]. Zespół genów zawarty w pojedynczej nc kwas nklenowego organzm określamy manem genom. Zaważmy, że organzm ekarotyczny posada dwa genomy, gdyż jego materał genetyczny zawarty jest w podwójnej helse DNA. Zbór wszystkch genów organzm nazywany jest genotypem. Poneważ pojedynczy gen kodje jedno określone bałko, węc cały genotyp zawera nformacje o wszystkch bałkach, które mogą być syntetyzowane w organzme. Zbór cech organzm określa sę manem fenotyp. Przyjmje sę, że genotyp mplkje fenotyp Ekspresja genów Ekspresja gen jest procesem wykorzystywana nformacj zawartej w gene do prodkcj określonego bałka. Składają sę na ną: transkrypcja genowa sekwencj DNA lb RNA oraz, dla wększośc genów, translacja sekwencj RNA do bałka. Pod pojęce to często zalcza sę składane RNA oraz transport prodktów genów do odpowednch mejsc w komórce. Z pnkt wdzena otrzymywanych prodktów proces określa sę równeż manem bosyntezy bałek. Składane RNA (splcng) obejmje proces swana ntronów z cząsteczk RNA łączena eksonów tak, by powstał fnkcjonalny RNA. Jest to etap przygotowjący łańcch do transkrypcj [43]. Transkrypcja jest syntezą jednoncowego RNA na matrycy DNA. Proces zachodz przy obecnośc odpowednego dla danego gen enzym polmerazy RNA. Odpowada ona za odnalezene początk gen, rozplecene helsy DNA przeprowadzene samego przepsana. Transkrypcja nformacj genetycznej możlwa wynesene jej z obszar jądra do cytoplazmy komórk [43,44]. 13

14 Następne kod genetyczny otrzymanego RNA jest przetłmaczany na cząsteczkę bałka. Etap ten nazywany jest translacją zachodz w specjalnych strktrach komórk zwanych rybosomam. Rys Schemat bosyntezy bałek Wytwarzane prodktów genów przez organzm określane jest reglacją aktywnośc genów. U bakter reglacja sprowadza sę do prodkcj tylko tych bałek, które są w danej sytacj nezbędne. W tym wypadk śledzene zmany lośc prodkt może być potencjalne oszacowane przez zmanę tempa transkrypcj, okres półtrwana matrycowej postac RNA zmanę wydajnośc translacj. W przypadk organzmów ekarotycznych komórk są specjalzowane średno tylko 15% genom lega ekspresj. Zestaw genów aktywnych określa cechy rolę komórk. Reglacja ekspresj odbywa sę główne poprzez zmanę szybkośc transkrypcj. Szersze omówene można znaleźć w pracy [48]. Reakcję komórk na daną sytację można analzować poprzez śledzene proces transkrypcj. Z kole ntensywność zachodzena tego etap łatwo sprowadzć do pomar stężena RNA w cytoplazme. Mówmy wtedy o badan pozom ekspresj gen. Podejśce take pozwala na analzę zachowana organzm w danej sytacj Bblotek genowe Dla systematycznego badana organzmów nezbędne okazało sę zbdowane bblotek zawerających ch pełen materał genetyczny. W przypadk wększośc organzmów ne jest możlwe bezpośredne ekstraktowane genom ze względ na brak wystarczającej lośc materał badawczego. Z tego względ stotną rolę w tworzen repozytorów odgrywa proces klonowana sekwencj DNA. Klonowane DNA łatwa manplację fragmentam genom dzęk ch nezależnem namnażan. W faze początkowej łańcch DNA jest wyprowadzany z organzm dawcy, a następne jest rozdzelany na zolowane fragmenty za pomocą technk elektroforetycznych. Wybrany fragment wprowadzany jest do organzm borcy, najczęścej bakter, za pomocą wektorów newelkch cząsteczek DNA zdolnych do atonomcznej replkacj w środowsk komórk borcy lb ntegracj z jego materałem genetycznym. Właścwe namnażane zachodz w organzme borcy. Szerzej w pracy [44]. Bblotekę genową sporządza sę dla wybranego gatnk organzm jest ona zborem sekwencj jego sklonowanego DNA. Istotne jest oszacowane, czy dana bbloteka faktyczne opsje cały materał genetyczny organzm, cechę tę określa sę manem reprezentatywnośc. Jej zapewnene zwązane jest ze sporządzenem określonej lczby klonów, tak aby prawdopodobeństwo zapsana całego genom było odpowedno wysoke. Wyróżnamy dwa zasadncze rodzaje bblotek genowych. Perwszy z nch to bbloteka genomowa, która bdowana jest bezpośredno na genomowym DNA organzm. Łańcch jest zolowany z organzm losowo rozcnany na odcnk o welkośc odpowednej dla klonowana. 14

15 Drg typ stanow bbloteka cdna. Jest ona poplacją specyfcznych, jednoncowych cząsteczek kwas DNA, określanych manem cdna. Cząsteczk te zyskje sę poprzez odwrotną transkrypcję kwas DNA na matrycowym RNA wytwarzanym w komórkach danego organzm. Łańcchy RNA można prosto wyzolować ze środowska komórk poprzez wykorzystane ch własnośc magnetycznych. Istotną cechą stosowanego podejśca jest neobecność w zyskanym prodkce tych sekwencj łańccha, które zostały wycęte na etape składana. W ten sposób cdna zawera wyłączne materał efektywny z pnkt wdzena syntezy bałek. Zaważmy dodatkowo, że badając określone narządy lb tkank rozpatrywanego organzm zyskjemy bardzej wyrazsty obraz tej częśc genom, który lega w nch najslnejszej ekspresj. W ten sposób dla wybranej grpy komórek otrzymjemy wększe stężene kop zestaw genów, które są zwązane z jej fnkcjonowanem w aktalnym stane. Fakt ten dostarcza wedzy na temat powązana określonych genów z rolą pełnoną przez komórkę, ale jednocześne trdna stworzene reprezentatywnej bblotek. Dla organzmów prokarotycznych na ogół bdje sę bblotek genomowe. Uzasadnone to jest zarówno stosnkowo małym rozmarem całośc materał genetycznego, jak dżą nestablnoścą matrycowego RNA, która trdna otrzymywane cdna. W przypadk organzmów ekarotycznych dżo bardzej żyteczne jest sporządzane bblotek cdna, gdyż zawerają one wyłączne sekwencje transkrybowane, a węc opsją profl syntetyzowanych w komórce bałek. Z tego względ bblotek te są powszechne wykorzystywane w badanach nad ekspresją genów Badane ekspresj genów Pomar welkośc ekspresj jest podstawowym źródłem nformacj na temat znaczena oraz fnkcj genów. Informacja na temat wysokośc pozomów ekspresj może być wykorzystywana welorako. Po perwsze stanow podstawę do ops zachowana komórk wobec danych warnków środowskowych lb zastosowanego leczena, co pozwala na konstrkcję sktecznych klasyfkatorów. Z drgej strony pomar jest dobrym pnktem wyjśca do bezpośrednego odkrywana wedzy na temat fnkcjonalnośc poszczególnych genów. Obok rozszerzena zakres nformacj dotyczących dzałana organzmów żywych, badana mają znakomty zakres zastosowań praktycznych. Są one szczególne cenne dla medycyny pozwalając na dentyfkację przyczyn chorób (równeż o podłoż genetycznym), a także na dokładne testowane wpływ proponowanych lekarstw na organzmy chore. W przemyśle często wykorzystywane są do wykrywana toksyn na podstawe reakcj mkroorganzmów na dane środowsko. Poprawny pomar ekspresj pownen jednocześne dawać odpowedź na temat stotnego dla danej sytacj zakres genom. Wczesne metody, mędzy nnym szeregowa analza ekspresj genów (Seral Analyss of Gene Expreson, SEGA), mogły śledzć wyłączne zachowane pojedynczych genów. Okazją sę one neprzydatne w badan złożonych zależnośc mędzygenowych. Wymóg jednoczesnego pomar dla dżej lczby genów spełnła dopero technologa oparta o analzę mkromacerzy (GEMA Gene Expresson Mcroarray Analyss). W pracy badane ekspresj genów jest tożsamane z GEMA, gdyż jest to obecne jedyne efektywne stosowane podejśce. Mkromacerze znajdją równeż zastosowane w dentyfkacj sekwencj genetycznych, np. wyodrębnan genów. Technologa mkromacerzy pozwala montorować transkrypcję genów w danej sytacj badać jak aktywność określonych genów objawa sę w fenotype. Dla pojedynczego pomar wynkem jest wektor wartośc, które odpowadają genom organzm. W zależnośc od cel 15

16 eksperyment pomary są powtarzane dla organzmów w określonych stanach środowskach. Dośwadczene może dotyczyć badana kolejnych stadów cykl życa komórk, porównana tkanek o różnej charakterystyce, np. posadanych schorzenach, chemcznym skażen. Nestety jż samo podejśce pocąga za sobą stotne problemy. Po perwsze przygotowane eksperyment jest skomplkowane kosztowne. Po drge, pommo cągłego rozwoj rozwązań techncznych, otrzymywane dane są slne zaszmone. Dodatkowo, sama dzedzna kryje w sobe o wele poważnejsze trdnośc natry netechncznej. Przede wszystkm stneje bardzo wele czynnków, równeż negenetycznych, mających wpływ na obserwowane zachowane organzm. W konsekwencj eksperymenty zwązane są z dżą lczbą danych wynkowych. Obecne tylko nektóre dostępne algorytmy mogą być stosowane do efektywnej analzy tych rezltatów. Ponadto, pomędzy badanym czynnkam stneje złożona seć zależnośc, co skteczne trdna zolowane badane ops ch faktycznego znaczena. Współdzałające geny należy traktować, jako jednolte grpy fnkcjonalne. Przy czym grpy te często ne są rozłączne Dostępne technologe oparte o mkromacerze Mkromacerz jest prostokątną płytką wykonaną ze szkła lb z sbstratów nylonowych. Jest ona podzelona na komórk, w których meszczane są odcnk kwas nklenowego. W zależnośc od rozmar komórek czasem stosje sę dwa oddzelne pojęca: makromacerze (przekątna komórk ok. 300 mkronów) oraz mkromacerze (przekątna ponżej 200 mkronów). Mnejszy rozmar komórk trdna nanoszene kwas, ale możlwa meszczane wększego zakres genom na macerzy. Pommo wspólnej zasady dzałana postac otrzymywanych danych wyjścowych stneją różne technologe zwązane z eksperymentam dotyczącym mkromacerzy. Defnją one zarówno bdowę płytk, sposób meszczena na nej kwas, jak odczyt nformacj końcowej. W praktycznych zastosowanach domnją dwe metody. Perwsza została zaproponowana na nwersytece w Stanford. Wykorzystje ona odpowedno oznaczone sekwencje cdna, które mogą być nałożone bezpośredno na powerzchne płytk. Nanoszene materał może odbywać sę ręczne lb atomatyczne w zależnośc od rozmar komórek płytk. Do pomar jest stosowany laser dwkanałowy. Ogólne technka zapewna elastyczność w projektowan eksperymentów jest relatywne tana. Drge rozwązane orygnalne zostało zaproponowane przez frmę Affymetrx, Inc. jest przez ną sprzedawane pod marką GeneChp. Przewdje ono wykorzystane olgonkleotydów, których synteza odbywa sę jż na macerzy. Płytka wykonana jest ze szkła, ma mnejsze rozmary o wele bardzej skomplkowaną strktrę. Do odczyt wartośc wykorzystywany jest laser jednokanałowy. Generalne eksperymenty są kosztowne, wymagają zakp prodkt spośród określonego w oferce zakres lb na drodze specjalnego zamówena. Poneważ praca dotyczy główne analzy otrzymanych danych, dlatego dalej pojęce mkromacerzy będze stosowane dla określena ogólnej de postępowana Schemat eksperyment Eksperyment wykonywany jest dla pewnej poplacj komórek, których beżący stan zamerzamy badać. Zasadnczo dla wykonana pomar ekspresj genów danej komórk wykorzystywana jest oddzelna mkromacerz. Przy zastosowan różnego znakowana 16

17 sekwencj możlwe jest dokonane pomar dla wększej lczby komórek przy wykorzystan jednej macerzy. Rys Schemat pomar ekspresj genów komórk za pomocą mkromacerzy w technolog proponowanej przez Affymetrx [51] Na rysnk znajdje sę schemat przykładowego sposob pomar aktywnośc genów badanej komórk. Założono, że mkromacerz z sondam została przygotowana wcześnej, nezależne od dośwadczena. Przedstawoną procedrę często tożsama sę z jej najstotnejszym etapem, jakm jest hybrydyzacja. W lteratrze spotyka sę także określene próba lb przykład (ang. sample). Można powedzeć, że eksperyment składa sę z ser hybrydyzacj, po których następje analza danych pomarowych wzalzacja otrzymanych wynków. Zanm przejdzemy do omówena pojedynczej hybrydyzacj zaznaczmy, że w lteratrze panje pewna nejednoznaczność w określan sekwencj znajdjących sę na płytce sekwencj badanych. Przykładowo rozbeżne nazewnctwo żywane jest w organzacjach KBRIN [53] Affymetrx [51]. W pracy przyjmemy nomenklatrę wykorzystywaną w Affymetrx, gdyż jest ona równeż zalecana przez Natre Genetcs [56]. Zgodne z ną sekwencja znana określana jest jako sonda (ang. probe), a sekwencja badana jako cel (ang. target). W rozpatrywanych przez nas technologach sondy nanoszone są na płytkę, a cele pobrane z komórek meszczane są w roztworze. Jest to stotne, gdyż w zastosowanach spotyka sę równeż odwrotny sposób rozmeszczena ob zestawów łańcchów, np. ONF (Olgoncleotde FngerPrntng). Wybór odpowednej technolog dla eksperyment znacząco wpływa na sposób pomar ekspresj. Pommo to procedra ma zasadnczo podobny przebeg. 1. Przygotowane sond Na początk eksperyment wyberany jest pewen zestaw genów danego organzm. Zakres selekcj zależy od cel przeprowadzanego badana może obejmować nawet cały genom. 17

18 Źródłem materał genetycznego są dostępne bblotek genowe. Dla każdej wybranej sekwencj syntetyzowane są sekwencje komplementarne, które nazywa sę sondam. W zależnośc od specyfk przyjętej technolog sondy mogą być sekwencjam cdna lb olgonkleotydów. 2. Przygotowane mkromacerzy Etap ten może być przeprowadzony przez zespół prowadzący eksperyment lb wykonany przez specjalstyczną organzację zewnętrzną. Zbory dentycznych kop sond są meszczane w oddzelnych komórkach płytk. Komórk są adresowane poprzez nmer wersza kolmny, co jest szczególne stotne dla późnejszej analzy ekspresj konkretnych sekwencj. W zależnośc od typ macerzy sondy są przygotowywane nezależne następne nakładane na płytkę lb są syntetyzowane n st. W wększośc przypadków z pnkt wdzena analzy danych wynkowych najlepej jest móc skojarzyć każdą komórkę mkromacerzy z dokładne jednym genem. Nestety często zyskane takej fragmentaryzacj materał genetycznego ne jest możlwe sekwencje składające sę na pojedynczy gen znajdją sę w różnych lokacjach. Ponadto ze względ na późnejszą weryfkację celowe jest meszczane materał dotyczącego tego samego gen (replkantów) w klk osobnych komórkach płytk. Sposób rozłożena materał genetycznego ms być odpowedno względnony po pomarze ntensywnośc ekspresj w cel wyznaczena jej pozomów dla poszczególnych sekwencj. 3. Przygotowane sekwencj badanych W cel pomar ntensywnośc ekspresj genów danej komórk w perwszej kolejnośc należy wyprowadzć z jej środowska całe transkrybowane matrycowe RNA. Następne materał jest odwrotne transkrybowany do postac cdna. Zaważmy, że etap ten jest analogczny do opsanego wcześnej klonowana materał genetycznego, dokonywanego np. w cel bdowy bblotek cdna. Otrzymane sekwencje cdna są specjalne znakowane poprzez chemczną modyfkację ch łańcchów. Znakowane ne ngerje w perwszorzędową strktrę kwas. Proces może być realzowany w czase odwrotnej transkrypcj lb jż na otrzymanym cdna. Perwsze rozwązane jest zalecane ze względ na bardzej równomerną nkorporację barwnka przez cząsteczk. Celem znakowana jest możlwene odnotowana przez rządzena merncze zajśca hybrydyzacj pomędzy sekwencjam badanym sondam. Przykładowe znakowane może być zwązane ze zjawskam o charakterze florescencyjnym lb radoaktywnym. Pojedyncza nć oznakowanego kwas jest fragmentaryzowana na odcnk, które będą dołączać sę do komplementarnych odcnków na płytce. Ze względ na późnejszą weryfkację pomar często przygotowje sę równeż zestaw sekwencj kontrolnych, które są późnej wykorzystywane w procese normalzacj. 4. Hybrydyzacja Płytka z sondam jest meszczana w środowsk sekwencj badanych. Może sę to odbywać przez kontakt ze sporządzoną mkstrą lb odseparowanym grpam sekwencj. Hybrydyzacja jest przeprowadzana przy życ różnych technk, np. florocytometr lb elektroforezy. Na etape tym dochodz do powązana sę badanych sekwencj z komplementarnym sondam. Połączene dwóch odpowadających sobe sekwencj genetycznych możlwa późnejszą rejestrację żytego znacznka. 18

19 5. Oczyszczene płytk Mkromacerz po hybrydyzacj ms zostać przygotowana do pomar ntensywnośc promenowana. Przede wszystkm należy snąć sekwencje badane, które ne legły hybrydyzacj, gdyż zawarty w nch barwnk mógłby zabrzyć pomar emsj pochodzącej z cząsteczek dwncowych. Płytka zostaje meszczona w odpowednm roztworze, następne myta welokrotne ostateczne sszona. 6. Odczyt pozomów ekspresj Dże stężene wolnych sekwencj badanych w roztworze prowadz do otrzymana w wynk hybrydyzacj dżego stężena połączonych hels w odpowednej komórce płytk. Fakt ten objawa sę ntensywnejszym oznakowanem danej komórk. W cel pomar ntensywnośc promenowana płytka jest skanowana przy pomocy odpowednego lasera. Odczytane wartośc są zapsywane zgodne z przyjętą jednostką człoścą rządzeń pomarowych, a następne przyporządkowywane opsom sond, które znajdowały sę w określonych komórkach. Odczyt wynków ze wszystkch płytek ser kończy część zwązaną z pomarem pozomów ekspresj. Kolejne etapy dotyczą przetwarzana danych wynkowych są slne zwązane z celem całego dośwadczena. Dla poprawnej nterpretacj pomarów stotne jest prowadzene szczegółowego protokoł laboratoryjnego oraz zaps wynków pośrednch, np. zeskanowane obrazy płytek. W ten sposób możlwe jest powtórzene analzy poczynając od wybranego etap. Wększość śceżek analzy danych rozpoczyna sę czyszczenem normalzacją danych. Czyszczene odpowada za zgrbną kontrolę poprawnośc danych pomarowych. Zawera mędzy nnym elmnację błędów grbych oraz oznakowane wartośc brakjących. Normalzacja wykorzystje nformacje kontrolne do odpowednej modyfkacj rozkładów wartośc pochodzących z każdej płytk. Umożlwa ona porównywane wynków otrzymanych w kolejnych hybrydyzacjach. Proces ten jest szczegółowo omówony w rozdzale 2.6. Po wstępnej obróbce danych następje bardzej zaawansowana analza właścwa, która często kończy sę grafczną prezentacją wynków Pomar pozom ekspresj Eksperymenty wykonywane są w różnych warnkach, przy życ różnego rodzaj mkromacerzy oraz sprzęt pomarowego. Z tego względ nezbędne jest podejśce, które pozwol na jakekolwek porównane otrzymywanych wynków. Ogólne zastosowane mkromacerzy pozwala na pomar wartośc pozom ekspresj genów. Ze względ na brak standard dla sposob prowadzena eksperymentów najczęścej przedmotem analzy ne są otrzymywane wartośc bezwzględne, lecz wartośc odnesone do określonego pozom. W praktyce postlat ten realzowany jest poprzez jednoczesną hybrydyzację na pojedynczej macerzy dwóch różne oznakowanych zestawów próbek. Oba zestawy dotyczą tego samego zakres genom. Jeden ma charakter kontrolny jest tak przygotowany, aby dawać w przyblżen stały pozom ekspresj dla wszystkch genów. Drg jest właścwym zestawem badanym. Ze względ na różne znakowane aparatra pomarowa może zmerzyć ekspresję osobno dla każdego zestaw. Na podstawe tych wartośc dla każdego gen wyznaczany jest względny pozom ekspresj sekwencj badanych w stosnk do ekspresj sekwencj kontrolnych. Zaważmy, że jednoczesność pomar dla ob zestawów jest szczególne stotna 19

20 dla mnmalzacj błęd zwązanego z różnym otoczenam pomarowym. Z tego względ zestaw kontrolny stosje sę w każdej hybrydyzacj eksperyment. Rys Fragment zeskanowanej mkromacerzy zawerającej pełny genom drożdży 2.6. Normalzacja Pomar ntensywnośc promenowana emtowanego przez wykorzystany w eksperymence materał znakjący obarczony jest pewnym błędem. W przypadk pomar ekspresj przy życ mkromacerzy błąd ten może osągać wysok pozom. Składa sę na nego wele czynnków, wśród których należy wymenć charakterystykę zastosowanej płytk, cechy materał znakjącego (wrażlwość na cepło śwatło, okres połowcznego rozpad), równomerność namnażana oznakowana sekwencj, przypadkowość proces hybrydyzacj oraz parametry skanera merzącego promenowane. Rozpatrzmy eksperyment wykorzystjący dwa znakowana, jedno dla sekwencj badanych (R) jedno dla kontrolnych (G). Celem etap normalzacj jest mnmalzacja błęd systematycznego towarzyszącego pomarow względnego pozom ekspresj genów. Dalej będzemy zakładać, że dla każdego gen posadamy parę pomarów emsj pochodzących z ob znakowań oraz nformacje, w którym śladze głowcy nakładającej materał genetyczny znajdje sę komórka płytk zawerająca gen. Prezentowane transformacje dotyczyć będą zbor wartośc log(r/g) dla wszystkch genów mkromacerzy. Zamerzona normalzacja jest slne powązana ze sposobem prowadzena eksperyment. Zgodne z [50] metoda normalzacj może być oparta o wszystke geny znajdjące sę w macerzy, o geny legające stałej ekspresj (ang. hosekeepng genes) lb o specjalne mejscowone sekwencje kontrolne. Proces normalzacj może dotyczyć jednej lb wel macerzy. Wśród metod stosowanych dla pojedynczej macerzy najpoplarnejsza jest normalzacja globalna. Opera sę ona na założen, że stosnek ntensywnośc ob barwnków dla każdego gen jest stały. Środek rozkład wartośc jest przeswany na 0. Za środek rozkład przyjmje sę najczęścej średną lb medanę. Bardzej zaawansowane metody normalzjące położene rozkład względnych pozomów ekspresj wykorzystją regresję lnową. W tym przypadk stotne jest dobrane odpowednego model statystycznego. Propozycja w zakrese tego podejśca zawarta jest w pracy [26]. 20

21 Przykład ([40]) Rozważamy eksperyment, w którym dla kanał R obserwjemy generalne nższą ntensywność nż dla kanał G. Na rysnk znajdje sę hstogram przedstawający częstotlwość występowana w danych wynkowych odpowednch wartośc log(r/g). W zwązk z nerówną ntensywnoścą kanałów środek hstogram jest przesnęty w lewo w stosnk do pnkt 0. Zastosowana została normalzacja położena, która przesnęła rozkład wartośc tak, aby jego środek pokrył sę z pnktem zero. Źródło ne podaje, czy za środek rozkład została przyjęta średna, czy medana. Obserwowalna zamana kształt rozkład jest artefaktem procedry tworzena hstogram wymagającej stalena przyporządkowana wartośc do określonych przedzałów. Przeprowadzona transformacja została dodatkowo zlstrowana na rysnk zawerającym wykres zależnośc pomędzy logarytmam ntensywnośc emsj w ob kanałach. Rys Hstogram dla rozkład logarytm stosnk ntensywnośc kanał R do G. Kolor czerwony odpowada rozkładow perwotnem, a nebesk znormalzowanem Rys Wykres pnktowy zależnośc logarytmów ntensywnośc w kanałach R G. Kolor czerwony odpowada rozkładow perwotnem, a nebesk znormalzowanem 21

22 Specyfka technolog mkromacerzy wymaga wykształcena metod względnających najważnejsze źródła błędów. Jednym z nch jest wzęce pod wagę sposob nakładana materał genetycznego na płytkę. Uzasadnone jest oddzelne traktowane prostokątnych obszarów płytk, które odpowadają śladom głowcy drkjącej. Dla każdej z tych grp może być przeprowadzona oddzelna normalzacja położena rozkład wartośc odpowadających zawartych w nej genom. Aby otrzymać wartośc znormalzowane dla całej macerzy należy przeprowadzć normalzację skal pomędzy obszaram. Najczęścej opera sę ją o założene, że wartośc w każdym obszarze mają rozkład normalny o wylczanych dla danego obszar parametrach. Normalzacja wel macerzy jest wymagana, gdy chcemy meć możlwość porównywana wynków otrzymywanych przy kolejnych hybrydyzacjach. Postępowane jest analogczne do normalzacj względnającej obszary macerzy. W perwszym krok należy przeprowadzć osobną normalzację każdej z rozpatrywanych macerzy. Następne przeprowadzana jest normalzacja skal przy założen, że wartośc z każdej macerzy mają odpowedn rozkład normalny Rodzaje analzy danych Właścwa analza danych może być zwązana zarówno z czenem sę bez nadzor, jak z nadzorem. W kontekśce badana ekspresj genów rozróżnene to zwązane jest z pytanem, czy przygotowjąc dośwadczene dysponjemy wedzą na temat klas badanych organzmów. Klasa jest t ścśle zwązana z tematyką eksperyment, może ona przykładowo dotyczyć typów leczena, jake przeszły poszczególne organzmy, posadanych przez ne schorzeń tp. Celem jest zbadane powązana nformacj o ekspresj genów z konkretnym zjawskam fenotypowym. Zgodne z założenam z rozdzał 1.2 w pracy skpmy sę wyłączne na przypadk, gdy klasa organzmów jest znana, czyl na czen z nadzorem. Zgodne z powyższym możemy wyróżnć dwa główne typy eksperymentów [31]. Perwszy typ zwązany jest z jednoczesnym pomarem genów dla ser różnych warnków, np. dla kolejnych stadów cykl życowego komórk lb stan po określonej stymlacj. W ten sposób można śledzć trendy reglarnośc w zachowan poszczególnych genów. Rezltaty mają charakter temporalny. Drg typ obserwje geny różnych komórek, które znajdją sę w tym samym środowsk. Badana mogą dotyczyć poplacj komórek organzm danego gatnk, której osobnk przeszły odmenne procesy leczena, zostały skażone toksynam lb cerpą na pewne schorzena, np. nowotwory. Uzyskane nformacje dotyczą relacj pomędzy genam a określonym zestawem cech fenotypowych, które mogą być wykorzystane do klasyfkacj nowych komórek oraz do dentyfkacj genów o dżym znaczen dagnostycznym. Dane wynkowe mają charakter przestrzenny Dane dostępne pblczne Rezltaty eksperymentów dostępne są na stronach zwązanych z placówkam badawczym gromadzone w bazach mkromacerzy. Dośwadczena w wel placówka prowadzone są zgodne z przyjętym na potrzeby projekt założenam. Ne stneją ogólne przyjęte zasady prowadzena eksperyment, dokmentowana wynków oraz ch wstępnego przetworzena przed bardzej zaawansowaną analzą. Pommo wel podobeństw w schematach eksperymentów stosowana podobnych 22

23 algorytmów czyszczena normalzacj pblczne dostępne dane mogą różnć sę w sposób znaczący. Najczęścej prezentowane są wynk eksperymentów, które ne przeszły pełnego przetwarzana wstępnego. W pblkowanych rezltatach napotykamy na następjące problemy: Wynk podane dla sekwencj, które znajdowały sę na macerzy zamast dla faktycznych genów badanego organzmów Brak wartośc pozomów ekspresj genów dla częśc przykładów Ne względnene replkantów Neodnesene wartośc badanych do kontrolnych Neznormalzowane wartośc Nekompletna dokmentacja eksperyment zameszczanych danych Przed rozpoczęcem właścwej analzy nezbędne jest doprowadzene danych do odpowednej postac. Wymaga to dokończena etap przetwarzana wstępnego Przykład eksperyment W rozdzale tym przyjrzymy sę eksperymentow przeprowadzonego przez zespół badawczy z Unversty of Toronto Health Network. Dotyczy on zbadana możlwośc klasyfkacj tkanek zdrowych zrakowacałych za pomocą profl ekspresj genów. Dośwadczene zostało dokładne omówone w pracy [46]. Komórk pobrano od 39 pacjentów chorych na raka, którzy przeszl leczene znajdowal sę pod obserwacją. Po rok 24 osób stwerdzono nawrót nowotwor, podczas gdy 15 okazało sę zdrowych. W dośwadczen wykorzystano mkromacerze cdna z ldzkm genomem (ok sekwencj). Pojedyncza próba dotyczyła jednego pacjenta. Z komórek pacjenta został pobrany matrycowy RNA, z którego otrzymano cdna za pomocą odwrotnej transkrypcj. Poza sekwencjam badanym wykorzystane zostały sekwencje kontrolne o możlwe stałej ekspresj dla całego genom. Sekwencje badane cdna zostały oznakowane barwnkem Cy5 (czerwony, R), a kontrolne barwnkem Cy3 (zelony, G). Cele zostały poddane hybrydyzacj na mkromacerzach. Emsja zwązana ze znakowanem została zmerzona za pomocą skanera Genepx Otrzymane wartośc bezwzględne znormalzowano. W macerzy wynkowej dla każdego gen podano wartość log 2 R/G. Dane bezpośredno otrzymane z pomar charakteryzowały sę dżym odsetkem wartośc brakjących. Do dalszej analzy został wybrany podzbór 2880 genów (wg artykł 2899), dla których odczytano pozom ekspresj dla co najmnej 80% przypadków oraz dla których przynajmnej w dwóch przypadkach stwerdzono co najmnej 4-krotną zmanę wartośc badanej do kontrolnej. Zaawansowana analza danych zwązana była z czenem bez nadzor. Profle ekspresj pacjentów zostały poddane grpowan herarchcznem. Otrzymane dwa główne klastry odpowadały dwóm klasom (zdrowy, chory), do których przydzelono pacjentów po rocznej obserwacj. Fakt ten zasadna podejśce moleklarne do klasyfkacj tkanek z nowotworam. Główne klastry wskazały równeż geny, które mogą być zwązane ze schorzenam onkologcznym. Geny te mogą być dobrym wskaźnkam do klasyfkacj tkanek. Dane wynkowe są dostępne pblczne na strone [55]. Atorzy dostępnają zarówno dane z pełnym zestawem genów, jak po wstępnej elmnacj genów z slne nekompletnym 23

24 pozomam ekspresj dla wszystkch przykładów. Wszystke plk zostały zapsane w forme tekstowej w formace program Mcrosoft Excel (XLS). Wynk są zorganzowane następjąco: Plk zawerający tabelę ekspresj, której wersze opsane są symbolam sekwencj genetycznych, a kolmny dentyfkatoram przykładów (tabela ) Plk zawerający tabelę ekspresj po elmnacj genów Plkem zawerający powązane każdego dentyfkatora przykład z rozszerzonym danym na temat pacjenta. Do danych tych należą szczegóły prowadzonej obserwacj oraz ostateczne wybrana klasa decyzyjna (tabela ) UNIQID NAME B_020T_218091_ADC_2B rec B_022T_218144_LCUC_1B rec :Hs.79:ACY1 0,195 0, :Hs :RHO 0,15 0, :Hs :not avalable Tab Fragment arksza opsjącego ekspresję genów w badanych przypadkach TB-d Hstopathology Recr ~% T c Stage Srg date LFU Stats Rec Date P038T1 ADC N 70% 1A 06-sty kw-97 A - P153T1 ADC N 80% 1A 21-maj cze-99 A - P188T2 ADC N 50% 1A 26-ls maj-01 A - P174T1 carcnod N 50% 1A 22-wrz kw-00 A - P149T1 SQCC N 80% 1A 23-kw maj-00 A - P204T2 SQCC N 40% 1A 15-lt sty-01 A - B024T1 ADC Y 60% 1B 05-kw mar-00 A 03-maj-96 B051T1 ADC Y 50% 1B 01-se kw-97 D 24-mar-97 Tab Fragment arksza opsjącego badane przypadk Nestety nawet dane po przetworzen wcąż zawerają pewną lczbę wartośc brakjących. W przypadk wel bardzej zaawansowanych metod, a także w przypadk prezentowanej w pracy śceżk analzy nezbędne jest zpełnene nekompletnych danych Standaryzacja ops Rozproszony charakter badań towarzyszący szybkem rozwojow kolejnych gałęz bonformatyk rodz problemy standaryzacyjne. Stanową one pnkt wyjśca do porządkowana skojarzonych z eksperymentam danych. W przypadk najstarszej gałęz, jaką są badana sekwencj genetycznych dość wcześne zaczęły powstawać bazy danych skpone wokół placówek nakowych. Najważnejszym wśród nch są EMBL w Erope GenBank w Stanach Zjednoczonych. Obecne proces standaryzacj danych dotyczących sekwencj genów jest mocno zaawansowany. Dokmentacja wynków otrzymywanych w klk domnjących organzacjach jęta jest w bazy, które ntensywne ze sobą współpracją. W tej dzedzne współstneje, co prawda klka formatów zwązanych z najważnejszym organzacjam narzędzam (GenBank, EMBL, Clstal n.), jednak są one wzajemne respektowane podlegają cągłej 24

25 konwergencj. Akceptację zdobył równeż tekstowy standard BSML (Bonformatc Markp Langage), syntaktyczne oparty o XML. Perwotne był on zwązany właśne z opsem sekwencj genetycznych pommo ogólnego charakter, jak zawarty jest w jego nazwe pozostaje wcąż zwązany z tą tematyką. Bogate nformacje na temat standard można pobrać ze strony [52]. Warto dodać, że o dynamcznym tempe rozwoj badań nad sekwencjam zdecydował w wększośc pblczny charakter zasobów oraz podstawowych narzędz do ch obsłg. Badana nad ekspresją genów są o wele młodsze, co pocąga za sobą brak jednoltośc dokmentowana danych. Obecne dostępne opsy mają postać dokmentów tekstowych opracowanych zgodne z własnym założenam grp badawczych. Powstają także perwsze bazy danych zwązane slne z aktywnym w dzedzne placówkam badawczym. Podstawowym celem jest doprowadzene do powstana powszechnego repozytorm wynków eksperymentów. W tej kwest na perwszym mejsc sto problem jednolcena wymagań dotyczących ops stworzena wedłg nch strktry bazy danych Koncepcja bazy danych mkromacerzy Istneją dwe zasadncze grpy repozytorów danych na temat ekspresj genów. Perwsza grpa zawera bazy określane tradycyjne manem baz ekspresj genów (ang. gene expresson database), które przechowją wynk otrzymywane za pomocą starszych technolog, takch jak SAGE. Drga zwązana jest wyłączne z eksperymentam wykorzystjącym mkromacerze obejmje bazy danych nazywane bazam mkromacerzy (ang. mcroarray database). Dża różnca pomędzy najnowszą technologą a rozwązanam wcześnejszym wpływa na odmenną strktrę baz ob grp. W rozdzale tym rozważymy ogólne podejśce do tworzena bazy danych na temat ekspresj genów otrzymywanych z dośwadczeń w technolog mkromacerzy. Dane z pojedynczej hybrydyzacj można nterpretować jako wektor wartośc zyskanych dla określonych genów. Same hybrydyzacje mogą pochodzć z wel różnych eksperymentów. Sytacja taka sgerje dwwymarową strktrę bazy danych. Baza zbdowana jest wokół zbor wartośc pozomów ekspresj, a jej wymaram są geny hybrydyzacje. Poneważ eksperymenty prowadzone są dla różnych gatnków organzmów o określonych genomach, węc macerz ekspresj genów jest rzadka. Ideowy schemat strktry został przedstawony na rysnk

26 Rys Konceptalna strktra bazy danych na temat ekspresj genów Zastanówmy sę, jake dane pownny być przechowywane dla każdego wymar bazy, aby mogła ona dzelać żytecznych nformacj na temat zachowana genów w określonych warnkach. Dobry ops genów zapewnają stnejące zewnętrzne bazy sekwencj, węc w tym zakrese możemy ogranczyć sę do wskazana nkalnych dentyfkatorów. W przypadk prowadzonych eksperymentów stotny jest jednoznaczny ops kontekst laboratoryjnego dla każdej hybrydyzacj. Nestety ne dysponjemy gotowym bazam wzorców prowadzena dośwadczeń możemy powoływać sę jedyne na źródła porszające analzowane gatnk organzmów oraz dokmentację żywanego sprzęt oprogramowana. Z wyjątkem pblkacj taksonomcznych dane te ne znajdją sę w pblcznych repozytorach należałoby je dołączać do ops każdego przykład. Drg problem stanow nfkacja jednostek, w których merzy sę pozomy ekspresj genów. Wynka on główne z różnych sposobów znakowana sekwencj pomar ch pozom ekspresj. Dodatkowo na rynk brak wspólnych standardów określających parametry mkromacerzy. Obecne koneczne jest dołączane do eksperyment ser zeskanowanych obrazów pozwalających na przyjęce różnych sposobów pomar ntensywnośc. Pomjając względy praktyczne otwarta pozostaje kwesta, czy w ogóle stneje wspólna mara, która pozwolłaby jednoznaczne reprezentować pozom ekspresj genów czy technologa mkromacerzy pozwala na pomar wartośc tej mary. Podsmowjąc, nformacja na temat sposob pomar pozom ekspresj ms zostać dołączona do ops wymar przykładów. Dalszy rozwój technolog mkromacerzy pozwol na określene dokładnych parametrów błęd pomar dla każdej komórk. Informacja ta może zostać dołączona do każdego przechowywanego pozom ekspresj. Lstę wel dostępnych baz mkromacerzy można znaleźć na strone [59]. 26

27 2.12. Specyfkacja MIAME Proces standaryzacyjny w dzedzne ekspresj genów zwązany jest z mędzynarodowym stowarzyszenem MGED Socety (Mcroarray Gene Expresson Data Socety). W lstopadze 1999 z jego ncjatywy powstała grpa odpowedzalna za opracowane specyfkacj pod nazwą MIAME (Mnmm Informaton Abot a Mcroarray Experment). Obecne jest dostępna wersja 1.1 Draft 6. Opracowywana specyfkacja ma za zadane możlwć bdowę powszechnego format wymany oraz tworzene rozproszonego system baz danych. W beżącym stane prac ma ona charakter neformalny. Jest zborem podstawowych wymogów oraz zaleceń dotyczących sposob dokmentowana eksperymentów. Z pnkt wdzena syntaktyk dopszczany jest zaps wolnym tekstem przy zachowan pewnych wytycznych. Ops parametrów pownen być w notacj trypletowej o postac: Przykład (nazwa parametr, wartość, źródło) Ponższy tryplet może opsywać pewną komórkę organzm: (typ komórk, komórka męśnowa, Anatoma człoweka (Jose Parramon, Galaktyka )) Najstotnejszą częścą specyfkacj jest ogólny plan dokmentowana eksperyment z wyszczególnenem nformacj, które pownen zawerać. Schemat obejmje kolejno: Ops eksperyment o Ogólne dane (typ, testowane parametry, lsta organzmów) o Lsta przykładów, tablc, hybrydyzacj o Wskaźnk jakośc o Dokładny ops Ops macerzy o Dokładny ops każdej mkromacerzy jej komórek o Przyporządkowane dentyfkatorów mkromacerzom Ops przykładów o Użyty organzm (zgodne z taksonomą NCBI) o Informacje o stane organzmów (faza rozwoj, leczene tp.) o Protokół laboratoryjny z przygotowana roztwor do hybrydyzacj o Protokół laboratoryjny z znakowana sekwencj Ops hybrydyzacj o Protokół laboratoryjny (procedra parametry) Wynk ops pomarów o Zeskanowane obrazy wynków hybrydyzacj (format TIFF, DAT) o Dane przejścowe po analze obrazów o Dane końcowe po względnen replkantów Ops normalzacj o Podejśce żyty algorytm o Wynk normalzacj Beżących nformacj na temat MIAME dostarcza strona [54]. 27

28 3. Formalny ops danych 3.1. Wprowadzene Badając fragment rzeczywstośc msmy zdecydować sę na przyjęce pewnego ścsłego model dla możlwena abstrakcyjnej reprezentacj realnych pojęć. Model ten pozwala na formłowane weryfkację hpotez, które późnej mogą być aplkowane z powrotem do rzeczywstośc. W perwszej kolejnośc należy zdecydować sę na wybór pewnej przestrzen obektów odpowadających realnym faktom. Wybór ten pownen względnać wszystke możlwe fakty. Po drge trzeba wybrać przestrzeń atrybtów, które będą określały cechy obektów. W rozpatrywanym zagadnen wedza dotyczy organzmów żywych jest oparta o analzę materał genetycznego oraz obserwację cech negenetycznych, np. fenotypowych. Obekty reprezentją konkretne komórk, tkank lb proste organzmy, które są rozpatrywane w ścsłym zwązk ze swom beżącym stanem. Dla przejrzystośc beżącej pracy przyjmjemy, że obekt reprezentje organzm. W perwszej kolejnośc obekt określony jest przez klasę organzm w skal makro, która może wynkać z etap cykl życowego, przeprowadzonej wcześnej terap lb charakter otaczającego środowska. Atrybt ten ma charakter nomnalny. Przykładowo może określać podzał na komórk zdrowe zrakowacałe albo organzmy skażone toksynam A, B lb C. Należy zaznaczyć, że pommo klczowego znaczena atrybt decyzyjnego dla dalszej analzy zmszen jesteśmy polegać na jego zgrbnym określen. Jego wybór bezpośredno zasadnony jest celem prowadzonej analzy, a stalene przecwdzedzny wynka z beżącej wedzy na temat zagadnena. Może to doprowadzć do wspólnej dentyfkacj znacząco różnych przypadków. Przykładowo dwa zrakowacałe organzmy mogą dodatkowo różnć sę pod względem charakter nowotwor, co skteczne zabrza nterpretację ch stanów genetycznych. Możlwe, że przy newelkej lczbe obektów zwązanych z eksperymentem ne będze można znaleźć klarownej hpotezy. Ponadto organzm charakteryzowany jest poprzez szereg atrybtów odpowadających aktywnośc jego poszczególnych genów. Dany model precyzje rozpatrywany zakres genów. Uścślając, dla każdego z tych genów stneje atrybt określający pozom ekspresj tego gen. Eksperyment obejmje zbadane pewnego zbor możlwych nstancj organzmów poprzez określene ch stan. W ramach model jest on opsywany przez zbór obektów o wartoścach atrybtów odpowadających pomarom parametrów składających sę na stan. Reprezentacja ta odpowada strktrze tablcy decyzyjnej, której atrybtam warnkowym są pozomy ekspresj, a atrybtem decyzyjnym klasa komórk. Trzeba meć śwadomość, że jesteśmy w stane obserwować jedyne podzbór możlwych organzmów. Ze względ na słszność wysnwanych wnosków ważne jest, aby był on reprezentatywny Defncje W rozdzale tym podajemy defncje podstawowych pojęć wykorzystywanych w kolejnych rozdzałach. Ttaj także wprowadzony jest przewodn przykład, za pomocą którego zlstrowana zostane proponowana w pracy śceżka analzy danych. 28

29 Przykład Zajmjmy sę analzą danych pochodzących z hpotetycznego eksperyment dotyczącego badana nowotworów. Rozważmy prosty organzm, którego genom złożony jest z 8 genów dentyfkowanych przez symbole G 1,..,G 8. Za pomocą technolog mkromacerzy badany jest pozom ekspresj wszystkch genów dla komórek pochodzących z tkanek tego samego typ z klk wybranych organzmów. Eksperyment obejmje serę 8 hybrydyzacj, oznaczonych przez H 1,..,H 8, przy czym 4 perwsze hybrydyzacje przeprowadzane są na materale pobranym z komórek zdrowych, a 4 pozostałe na materale z komórek zrakowacałych. Fakt ten odnotowany jest dla każdej hybrydyzacj poprzez klasę Z(Zdrowy) lb R(Rak). Załóżmy dalej, że aparatra pomarowa podaje wynk dla każdej komórk macerzy w postac znormalzowanej, przy czym skala jest przedzałem (0,10). Wynk dotyczące pozomów ekspresj genów dla kolejnych hybrydyzacj zgromadzone zostały w tabel Sposób przedstawena danych jest powszechne przyjęty przy zapse wynków eksperymentów z życem mkromacerzy. H 1 H 2 H 3 H 4 H 5 H 6 H 7 H 8 G 1 1,01 1,74 1,52 1,02 3,17 4,12 8,17 9,65 G 2 0,21 0,11 0,12 0,03 1,00 1,53 0,99 0,89 G 3 2,41 3,12 5,22 6,33 0,37 0,36 0,91 0,51 G 4 5,51 8,34 3,32 6,02 1,17 3,12 5,17 1,65 G 5 6,44 6,26 4,12 8,02 3,02 3,18 2,11 3,33 G 6 9,14 6,56 1,38 1,66 8,67 4,52 9,21 9,25 G 7 4,41 5,17 7,16 8,36 4,22 7,16 8,90 5,16 G 8 2,41 3,12 5,22 6,33 2,56 5,22 6,98 4,21 d Z Z Z Z R R R R Tab Tablca wynków dla eksperyment zawerająca pozomy ekspresj genów Dla przejrzystośc wprowadzone symbolczne oznaczena pojęć rzeczywstych zostaną bez żadnych zman zastosowane dla pojęć abstrakcyjnych ops formalnego. Defncja Unwersm (U) oznacza zbór obektów. Przykład U={H1,..,H8} Defncja Atrybt oznacza fnkcję Przykład a : U V. a Dla każdego =1,..,8 mamy atrybty określające pozom ekspresj -tego gen G : U V. Przecwdzedzna każdego z tych atrybtów jest stalona jako przedzał, którego lewym krańcem jest najmnejsza wartość ekspresj odpowadającego m gen, a prawym krańcem najwększa. 29

30 Atrybt Przecwdzedzna atrybt V G 1 <1,01;9,65> G 2 <0,03;1,53> G 3 <0,36;6,33> G 4 <1,17;8,34> G 5 <2,11;8,02> G 6 <1,38;9,25> G 7 <4,22;8,9> G 8 <2,41;6,98> Tab Przecwdzedzny atrybtów opsjących ekspresję genów Atrybt określający klasę jest równy d U { Z, R} :. Defncja Atrybt a jest: dyskretny, jeśl V a jest dyskretny. nomnalny, jeśl V a jest neporządkowanym zborem wartośc dyskretnych porządkowy, jeśl V a jest porządkowanym zborem wartośc dyskretnych nmeryczny, jeśl V a R cągły, jeśl V a R V a ne jest dyskretny skończony, jeśl V a jest skończony. Przykład Atrybty określające geny są nmeryczne, cągłe skończone. Atrybt określający klasę jest dyskretny, nomnalny skończony. Defncja System nformacyjny (IS) oznacza parę (U, A), taką że: U jest nepstym, skończonym zborem obektów A nepstym, skończonym zborem atrybtów Przykład Zgodne z poprzednm rozważanam system nformacyjny zawerający nformacje pochodzące z eksperyment ma postać: ({H 1,..,H 10 },{G 1,..,G 8,d}). Defncja Tablca decyzyjna (DT) oznacza czwórkę (U,A,C,D), taką że: (U, A) jest systemem nformacyjnym {C,D} jest podzałem A Defncja Nech dana będze tablca decyzyjna (U,A,C,D). Atrybt a jest: warnkowy, jeśl a C decyzyjny, jeśl a D 30

31 Najczęścej rozpatrje sę tablce decyzyjne, dla których D =1. Tak charakter mają na przykład tablce wykorzystywane do problemów klasyfkacj. Z tego względ będzemy dalej rozpatrywać wyłączne tablce decyzyjne postac (U,A,C,{d}), gdze d jest jedynym atrybtem decyzyjnym. Dla dalszej wygody wprowadzam dla tablcy decyzyjnej (U,A,C,{d}) następjące oznaczena: m= U n= C p= Vd U={ 1,.., m } C={a 1,..,a n }. Przykład Analogczne do zbdowanego system nformacyjnego w cel zapsana wynk eksperyment możemy wykorzystać tablcę decyzyjną. Charakter atrybtów podswa podzał zbor atrybtów na atrybty warnkowe {G 1,..,G 8 } opsjące pomary pozom ekspresj poszczególnych genów oraz na jednoelementowy zbór atrybtów decyzyjnych {d} zawerających atrybt określający klasę komórk. Tablca decyzyjna przyjmje postać: DT 1 =({H 1,..,H 10 },{G 1,..,G 8,d},{G 1,..,G 8 },{d}). Dla przejrzystośc atrybty system nformacyjnego lb tablcy decyzyjnej możemy przedstawć w postac tabel. G 1 G 2 G 3 G 4 G 5 G 6 G 7 G 8 d H 1 1,01 0,21 2,41 5,51 6,44 9,14 4,41 2,41 Z H 2 1,74 0,11 3,12 8,34 6,26 6,56 5,17 3,12 Z H 3 1,52 0,12 5,22 3,32 4,12 1,38 7,16 5,22 Z H 4 1,02 0,03 6,33 6,02 8,02 1,66 8,36 6,33 Z H 5 3,17 1,00 0,37 1,17 3,02 8,67 4,22 2,56 R H 6 4,12 1,53 0,36 3,12 3,18 4,52 7,16 5,22 R H 7 8,17 0,99 0,91 5,17 2,11 9,21 8,90 6,98 R H 8 9,65 0,89 0,51 1,65 3,33 9,25 5,16 4,21 R Tab Tablca decyzyjna DT 1 opsjąca dane wynkowe eksperyment W tabel wyróżnono zbory atrybtów warnkowych decyzyjnych. Tablca została zapsana w tradycyjnej postac, dla której wersze odpowadają obektom, a kolmny atrybtom. W stosnk do tablcy z tabel jest ona transponowana. W dalszej częśc pracy perwotne dane wynkowe eksperyment zapsane będą za pomocą tablcy decyzyjnej. Zgodne z oznaczenam zmenne przyjmją następjące wartośc: m=8, n=8, p=2. 31

32 4. Wyznaczane zbor genów znaczących 4.1. Wprowadzene Defnjąc model decydjemy sę na wybór przestrzen atrybtów, które mogą wnosć stotne dla zagadnena nformacje. Wele względów przemawa za zawężenem tej przestrzen do zbor atrybtów faktyczne zwązanych lb zwązanych odpowedno slne z badanym hpotezam. Będze on dalej nazywany zborem znaczącym. Dla poprawnośc całej analzy klczowy jest wybór rozpatrywanej przestrzen, jako górnego ogranczena na zbór znaczący. Pomjając część czynnków może sę okazać, że zaproponowany model ne przystaje do rzeczywstośc. Nestety ne posadamy aprorycznej wedzy na temat ogół możlwych czynnków dlatego msmy zdecydować sę na pewne przyblżena. Perwsze trywalne oszacowane odpowada wyborow wszystkch czynnków merzalnych loścowo lb jakoścowo. Może ono zostać skteczne poprawone przy względnen zdobytej wcześnej wedzy na temat badanego zagadnena. Szerszego komentarza wymaga dobór atrybtów dla analzy danych o ekspresj. Eksperyment jest dalej reprezentowany przez tablcę decyzyjną. W tym wypadk mamy do stalena szereg atrybtów warnkowych oraz jeden atrybt odpowadający klase danego obekt. Atrybt decyzyjny jest zwązany z celem analzy jego obecność ne podlega dysksj. Problem znalezena zbor znaczącego możemy dalej rozpatrywać tylko dla atrybtów warnkowych. Ogólne różne zbory tych atrybtów mogą być porównywane przez ocenane, jak dobrze reprezentją nformację o pojęc decyzyjnym w stosnk do nformacj zawartej perwotne w eksperymence. W naszym przypadk każdy atrybt warnkowy określa pozom ekspresj odpowednego gen. Trzeba zaznaczyć, że wybór ten jest oparty na pewnych założenach, które mogą w przyszłośc okazać sę zbyt ostre. Na wstępe warto przypomneć, że charakteryzowane stan organzm poprzez ops ekspresj jego genów posada slną podbdowę bochemczną. Spośród wel nnych dostępnych parametrów geny ważane są za nośnk kompletnej nformacj o bałkach prodkowanych w organzme, które z kole odgrywają klczową rolę w reglacj sterowan. Drgm aspektem, jest szczegółowość ops ekspresj każdego gen. Przyjmje sę, że wystarczająca jest nformacja na temat pozom ekspresj rozmanego przez stężene kop danego gen w środowsk komórek organzm. Stężene to jest przekładane na lość prodkowanego bałka danego typ. Obecne wszelke podejmowane krok dotyczą jedyne rozbdowy nformacj na temat pozom ekspresj np. o oszacowane błęd pomar. Założena te prawnają do stalena zbor atrybtów warnkowych na wszystke geny genom danego organzm. Dalsze ogranczena zbor znaczącego wymagają dodatkowej wedzy na temat badanego zagadnena. Może ona pochodzć z zewnątrz lb być oparta na wnoskach wysntych z samej tablcy decyzyjnej. Przykładem perwszego podejśca może być wyklczene zbadanych jż grp fnkcjonalnych genów, albo materał z chromosomów płc człoweka. Dalej rozpatrjemy wyłączne dane wynkowe eksperyment zakładamy, że podejśce to zostało wykorzystane na etape planowana przez zespół bologczny. 32

33 W rozdzale skpmy sę na metodach wybor atrybtów poprzez analzę tablcy decyzyjnej. Mejmy jednocześne na wadze, że kolejne etapy analzy, które wykorzystją metody odkrywana wedzy, zmerzają do wykryca grp genów o szczególnym znaczen dla badanej hpotezy. Przeprowadzona przez nas elmnacja atrybtów nestotnych ne pownna nekorzystne wpłynąć na wynk otrzymywane za pomocą tych metod. Załóżmy, że pojęce sły powązana zbor atrybtów jest dobrze zdefnowane. W przypadk dealnym, dla określonego pozom sły powązana, znalezony zbór znaczący pownen być nadzborem dla wszystkch grp atrybtów odpowedno slne zwązanych z badaną hpotezą, które zostałyby wyznaczone bez ogranczana ops obektów. W praktyce oczekjemy wyraźnego podobeństwa pomędzy wynkam otrzymanym przy pełnym ogranczonym zestawe atrybtów Znaczene Wyznaczene atrybtów stotnych dla reprezentacj pojęca decyzyjnego ma zarówno znaczene nformacyjne, jak praktyczne. Zbór atrybtów znaczących zawera bezpośredno wedzę o tym, jake geny decydją o różnym zachowan organzm. Wedza stanow jż pewen stotny wkład w badane zagadnena. Nawet w przypadk prymtywnych organzmów rozmary genom welokrotne przewyższają rozmary wyznaczanych zborów genów znaczących. Częstym zastosowanem praktycznym jest rozłożene badana danej hpotezy na klka etapów. Podstawowym kryterm jest t koszt czas przeprowadzena pojedynczego eksperyment. Dża lość materał genetycznego pocąga za sobą droższą technologę. Etapy prowadzą do znalezena odpowedno małego górnego ogranczena zbor znaczącego. Badana często rozpoczynają sę od newel pomarów stan organzm dla całego genom stalena, które geny są najmnej znaczące. Kolejne teracje operją na coraz węższym zborze atrybtów warnkowych pozwalają na przeprowadzene coraz wększej lczby pomarów stan. Dopero ostatn eksperyment jest pnktem wyjśca do szczegółowej analzy badanej w dośwadczen hpotezy. Mała lczba atrybtów warnkowych w tablcy decyzyjnej jest także klczowa dla efektywnośc wel zaawansowanych algorytmów, w szczególnośc dla lcznych strateg odkrywana wedzy. Wstępna elmnacja częśc atrybtów warnkowych okazje sę koneczna, jeśl problem charakteryzje sę wysoką wymarowoścą. W przypadk eksperymentów z wykorzystanem mkromacerzy zakres badanego genom jest zwykle wele wększy nż lczba przeprowadzonych hybrydyzacj. Z tego względ w wynk otrzymjemy tablcę decyzyjną o bardzo dżej lczbe atrybtów stosnkowo małej lczbe obektów. Różnca ta wynos najczęścej dwa rzędy welkośc Statystyczna ocena atrybtów Wprowadzene Tablca decyzyjna jest zapsem pojedynczego eksperyment. Rozważane przez nas nwersm stanow wyłączne próbę losową spośród możlwych stanów organzmów. Do przeprowadzena analzy wartośc atrybtów obektów próby możemy posłżyć sę podstawowym aparatem statystycznym. Dalej stosowane są pojęca oznaczena zgodne z wprowadzonym w rozdzale 3.2. Ze względ na przyjęte ogólne nazewnctwo termn grpa będze żywany wymenne z klasą. 33

34 W tym rozdzale porszone jest wyłączne problem oszacowywane zwązk pojedynczego atrybt warnkowego z atrybtem decyzyjnym, pomnęte jest zagadnene oceny podzborów atrybtów. Pommo swojej prostoty oceny tego typ są obecne podstawowym narzędzem znajdowana genów znaczących Jednoczynnkowa analza warancj Jednoczynnkowa analzy warancj, znana z angelskego pod nazwą One-way ANOVA (ANalyss Of Varance) jest powszechne stosowanym testem statystycznym. Na pol badana ekspresj genów po raz perwszy zastosowal ją Kerr Kathleen Gary Chrchll w 2000 rok [26]. W ogólnośc może ona być wykorzystana do oszacowana wpływ pojedynczego atrybt na wartość atrybt decyzyjnego. Rozpatrjemy wybrany atrybt warnkowy a 1 atrybt decyzyjny d. Podzelmy poplację wartośc atrybt a 1 dla wszystkch obektów nwersm na p poplacj odpowadających kolejnym wartoścom atrybt decyzyjnego. W ramach każdej poplacj wprowadźmy osobną nmeracje. Przyjęte oznaczena podstawowe welkośc: n lcznośc poplacj -tej y j j-ta wartość atrybt w ramach -tej poplacj p n 1 y średna wszystkch wartośc, przy czym y = y n y średna grpowa poplacj -tej klasy, przy czym v warancja poplacj -tej klasy, przy czym v = = 1 j= 1 y ( n 1) 1 j 1 = n n j= 1 y j n ( yj y ) Istotą analzy warancj jest oddzelne rozpatrywane dwóch rodzajów zróżncowana wartośc atrybt: Różnc pomędzy klasam spowodowanych badanym atrybtem Różnc występjących wewnątrz klas spowodowanych błędam dośwadczalnym j= 1 Perwszy składnk, zwany mędzygrpowym, merzy odchylena średnch klas względem średnej ogólnej przyjmje postać: SS between = n p ( y y) Drg składnk, zwany wewnątrzgrpowym, merzy odchylena wartośc w klasach względem średnej tych dla klas. Przyjmje on postać: wthn = = 1 p n ( yj y ) = 1 j= 1 Całkowta zmenność atrybt wyrażona jest przez: SS

35 SS total = p n ( yj y) = 1 j= 1 2 Lczby stopn swobody dla poszczególnych źródeł zmennośc wynoszą odpowedno: df between = p 1 df wthn = p( n 1) = pn 1 df total Neobcążonym maram odpowednch warancj z próby są średne kwadraty odchyleń: MS / between = SSbetween df between MS wthn = SS wthn / df wthn MS total = SStotal / df total Statystyka F merzy stopeń rozbeżnośc pomędzy hpotezą, że wartośc średnch grpowych p poplacj wartośc atrybtów są take same, a sytacją rzeczywstą: F = MS / MS a1 between Statystyka może zostać wykorzystana do oszacowana zależnośc atrybt decyzyjnego od badanego atrybt warnkowego. Im wększa wartość F tym wpływ na klasę jest slnejszy. Dla F=1 rozważany atrybt ne ma wpływ na klasę. Warto dodać, że powyższe podejśce jest ogólnenem test t. Statystyka t pozwala wyłączne na oszacowane zwązk atrybt warnkowego z atrybtem decyzyjnym przyjmjącym dwe wartośc. W badanach nad ekspresją ogranczene to często ne jest stotne. Metoda znajdje szeroke zastosowane w lcznych eksperymentach [4,50], które dotyczą przykładów z dwóch klas decyzyjnych. v v t a + Statystyka t ma postać: = ( y y ) n1 n 2 Zastosowane bezpośredno statystyk t dla każdej możlwej 2-elementowej kombnacj klas jest odradzane z klk względów: Lczba statystyk t do oblczena rośne kwadratowo z lczbą klas, konkretne dla p klas p należy przeprowadzć oblczeń statystyk 2 Z lczbą oblczonych statystyk rośne prawdopodobeństwo zajśca błęd perwszego rodzaj, czyl odrzcena hpotezy prawdzwej Brak zasadnonej formalne metody odnesena do sebe statystyk dla różnych klas Dla przypadk dwóch klas decyzyjnych stneje prosty zwązek pomędzy porszonym 2 statystykam, który przyjmje postać F = t. a1 a 1 Indeksy przy statystykach F t wskazją na atrybt warnkowy tablcy decyzyjnej, dla którego zostały wyznaczone. Dla przejrzystośc zaps ndeks tak został pomnęty przy opsywan welkośc cząstkowych. Przykład Rozważmy tablcę decyzyjną DT 1. Dla ocenena znaczena atrybtów zostane wykorzystana jednoczynnkowa analza warancj. Zaważmy, że przypadek dotyczy dwóch klas decyzyjnych, węc do dentycznych wynków końcowych doprowadz równeż oblczene statystyk t. Ze względ na przejrzystość schemat przykład prześledz oblczena dla metody analzy warancj. wthn 35

36 Tabela zawera wynk wspólne dla wszystkch atrybtów oraz cząstkowe dla gen G 1. Dla pozostałych genów oblczena są analogczne. Tabela zawera stotnejsze wynk cząstkowe oraz ostateczne dla wszystkch atrybtów. y j ,01 1,74 1,52 1,02 2 3,17 4,12 8,17 9,65 I n y v 1 4 1,32 32, ,28 52,25 y 3,80 SS between 49,10 SS wthn 255,75 SS 157,55 total Tab Wynk cząstkowe dla atrybt G 1 (a 2 =d) Atrybt G 1 G 2 G 3 G 4 G 5 G 6 G 7 G 8 df between df wthn df total MS between 49,10 1,94 27,86 18,24 21,78 20,83 0,014 0,446 MS wthn 42,63 1,38 21,95 19,64 17,39 33,55 7,656 7,034 MS total 22,51 0,63 10,85 11,62 8,68 22,80 6,558 5,901 t 1,15 1,40 1,27 0,93 1,25 0,62 0,001 0,063 F 1,07 1,18 1,13 0,96 1,12 0,79 0,043 0,251 Tab Wynk ostateczne dla atrybtów warnkowych Wyznaczone wartośc statystyk F wskazją, że atrybty mogą zostać porządkowane zgodne z welkoścą zwązk z hpotezą docelową w następjący sposób: G 2,G 3,G 5,G 1,G 4,G 6,G 8,G Statystyka χ 2 Statystyka χ 2 jest poplarną metodą stosowaną do oceny prawdopodobeństwa, że dwe zmenne dyskretne są od sebe nezależne. Statystyka merzy różncę mędzy faktycznym rozkładem poszczególnych par wartośc dwóch atrybtów, a ch rozkładem oczekwanym przy założen nezależnośc atrybtów. Im bardzej różną sę oba rozkłady, tym wększa jest wartość statystyk. W przypadk ocenena zależnośc warnkowego atrybt cągłego dyskretnego atrybt decyzyjnego nezbędny jest etap wstępnej dyskretyzacj. Tematyka dyskretyzacj jest przedmotem rozdzał 5. Ttaj będzemy operować na wybranej zdyskretyzowanej tablcy decyzyjnej. Załóżmy, że badamy zależność dwóch atrybtów dyskretnych a 1 a 2, take że a1 : U V1 a 2 : U V 2. Oznaczmy przez: k W zbór wartośc atrybt a, przy czym W = a (U ), W { } = w 1,.., w, dla k = W k f lczbę wystąpeń -tej wartośc atrybt k f j lczbę wystąpeń -tej wartośc atrybt 1 j-tej wartośc atrybt 2 jednocześne e j oczekwaną lczbę wystąpeń -tej wartośc atrybt 1 j-tej wartośc atrybt 2 jednocześne przy założen nezależnośc atrybtów 36

37 Statystyka ma postać: Welkośc wyznaczamy przez: χ 2 a1, a2 = W W j ( f j e ) e j j 2 k { U : a ( w } = { U : a ( ) = w } a ( = w j f = ) = k k f j ) 2 e j = f 1 f m 2 j Statystyka χ 2 jest zmenną losową mającą przyblżony rozkład χ 2 o ( W 1-1)( W 2-1) stopnach swobody. Przy zadanym pozome stotnośc h można wyznaczyć na podstawe tablc wartość progową statystyk taką, że prawdopodobeństwo jej zyskana lb przekroczena dla nezależnych atrybtów wynos h. Można równeż posłżyć sę znormalzowaną postacą statystyk χ 2 w postac współczynnka Cramera: χ V a 1, a = 2 m( t 1) 2, przy czym t = mn ( W W ) 1, 2 Postać ta jest zwązana z maksymalnym pozomem stotnośc, a otrzymywana jest przy założen, że statystyka χ 2 ma wartość 0 dla równośc rozkład faktycznego oczekwanego częstośc występowana wartośc atrybtów. Powyższa statystyka szacje zależność pomędzy dwoma atrybtam. W szczególnośc może ona być żyta do zbadana zależnośc wybranego atrybt warnkowego z atrybtem decyzyjnym. Postępowane to można zastosować do wszystkch atrybtów tablcy decyzyjnej. Otrzymjemy wtedy ogólną nformację na temat wpływ każdego atrybt warnkowego na decyzje. Indeksy przy statystykach χ 2 V wskazją na parę atrybtów tablcy decyzyjnej, których zwązek jest szacowany. Dla przejrzystośc zaps ndeks tak został pomnęty przy opsywan welkośc cząstkowych. Przykład Znaczena atrybtów zostane ocenone za pomocą znormalzowanej statystyk χ 2. Wyznaczene statystyk wymaga wstępnej dyskretyzacj tablcy decyzyjnej. Z tego względ rozważymy tablcę decyzyjną DT 3, która została otrzymana w wynk dyskretyzacj tablcy DT 1 z równą szerokoścą przedzałów. Wykorzystana metoda dyskretyzacj została szerzej przedstawona w rozdzale Po zakończen proces mamy W 1 ={0,1} W 2 ={Z,R}. Dla przejrzystośc przykład tablca ta została zameszczona równeż w tabel Tabela zawera wynk cząstkowe dla gen G 1, dla pozostałych genów oblczena są analogczne. Tabela zawera wartośc statystyk, lczby stopn swobody współczynnka Cramera dla wszystkch genów. Wyznaczone oceny zostaną wykorzystane do podsmowana znaczena genów w rozdzale 8. 37

38 G 1 G 2 G 3 G 4 G 5 d H Z H Z H Z H Z H R H R H R H R Tab Zdyskretyzowana tablca decyzyjna DT 3 przy zachowan równej szerokośc przedzałów k=1 k=2 =1 6 4 =2 2 4 f k f j j=1 j=2 =1 4 2 =2 0 2 e j j=1 j=2 =1 3,0 3,0 =2 1,0 1,0 Tab Wynk cząstkowe dla atrybt G 1 (a 2 =d) Atrybt G 1 G 2 G 3 G 4 G 5 t χ 2 2,67 8,00 2,67 2,00 4,80 V 0,58 1,00 0,58 0,50 0,77 Tab Wynk ostateczne dla atrybtów warnkowych Wyznaczone wartośc statystyk χ 2 wskazją, że atrybty mogą zostać porządkowane zgodne z welkoścą zwązk z hpotezą docelową w następjący sposób: G 2,G 5,G 3,G 1,G 4. Wdać, że porządek ten różn sę od porządk pomędzy odpowednm atrybtam cągłym wskazanego przez statystykę F Pojęce zbor znaczącego Ocena znaczena zbor atrybtów Rozpatrzmy tablcę decyzyjną (U,A,C,{d}). Przestrzeń możlwych zborów atrybtów równa sę 2 C posada rozmar wynoszący 2 C. Akceptjemy t zbór psty, który może być poprawnym rozwązanem dla pewnych zdegenerowanych przypadków tablcy decyzyjnej, np. tablca o jednoelementowym nwersm. Zaważmy na wstępe, że zbor atrybtów znaczących ne można bdować na podstawe badana znaczena każdego atrybt z osobna. Stąd, wybrane pewnej lczby najbardzej znaczących atrybtów zgodne z pewną marą potraktowane ch jako zbor, który najlepej będze reprezentował pojęce decyzyjne jest nezasadnone. Poprawne podejśce pownno zbadać, jak zwązek z klasą mają kolejne podzbory atrybtów. 38

39 Dla analzy stotnośc zborów wprowadzmy fnkcję setval wyrażającą słę zwązk danego zbor atrybtów z hpotezą badaną. Ważny jest fakt, że mara dotyczy hpotezy reprezentowanej przez cały rozważany zbór atrybtów. W wel przypadkach wyznaczene znaczena pojedynczego atrybt jest przeprowadzane odmenne nż wyznaczane znaczena podzbor atrybtów. Uzasadna to zdefnowane fnkcj oceny za pomocą dwóch różnych fnkcj. Defncja Fnkcja oceny znaczena zbor atrybtów oznacza fnkcję setval:2 C <0,1>: gdze: attrval: C R + {0} attrsetval: 2 C R + {0} 0 setval '( X ) = attrval( x) attrsetval X M = max setval' X ( ) ( ( )) setval C X 2 setval 1 M ( X ) = setval' ( X ) X = X = { x} X > 1 setval W dalszej częśc rozdzał wartość danego zbor atrybtów będze tożsamana z wartoścą fnkcj setval dla tego zbor. W cel ogranczena zbor wartośc do przedzał <0,1> fnkcja została znormalzowana względem wartośc zbor atrybtów najbardzej zwązanego z hpotezą. Ne wprowadza to stotnego ogranczena żytecznośc defncj, gdyż w rozpatrywanych dalej zastosowanach koneczne jest wyznaczene wartośc fnkcj dla całej dzedzny. Zaznaczmy, że wybór zbor <0,1> na przecwdzedznę fnkcj jest arbtralny, zamast nego można zaproponować dowolny nny zbór porządkowany lnowo. Wybór zasadnony jest łatwoścą operowana wartoścam znormalzowanym. Fnkcja attrval wyraża zwązek pojedynczego atrybt z badaną hpotezą. Znaczene podzbor atrybtów opsywane jest przez fnkcję attrsetval. Podkreślmy, że powyższa defncja fnkcj setval wynka często ze stosowana różnych strateg dla oceny pojedynczych atrybtów ch zborów. Pomjając to założene fnkcja attrval mogłaby być wyrażona w szczególnośc za pomocą fnkcj attrsetval, co prowadzłoby do równoważnośc fnkcj setval znormalzowanej fnkcj attrsetval. Zaważmy, że wartośc wskazywane przez fnkcję attrsetval dla zbor pstego jednoelementowych zborów atrybtów są nestotne dla ostatecznej wartośc znaczena danego podzbor oblczonej przy pomocy fnkcj setval. Wynka stąd, że do zdefnowana setval wystarczy fnkcja obcęta attrsetval {X 2 C : X >1}. Zdefnowane fnkcj attrval attrsetval tak, aby odzwercedlały zwązek odpowedno pojedynczego atrybt ch zbor zależy od charakter jej atrybtów. W pracy przedstawmy ogólne podejśce dla tablcy decyzyjnej zawerającej dowolne atrybty, a następne rozważymy dwa szczególne przypadk tablcy z wszystkm atrybtam warnkowym cągłym dyskretnym. Dla przypadków szczególnych zaproponjemy podejśca alternatywne w stosnk do podejśca ogólnego. 39

40 Przypadek atrybtów dowolnych Do oceny znaczena zbor atrybtów można wykorzystać algorytmy czena pod nadzorem. W zależnośc od charakter atrybtów należy dobrać tak klasyfkator, aby przekształcene atrybtów do akceptowanej przez nego postac wprowadzało mnmalną stratę nformacj. Ocena zbor jest równa średnej dokładnośc wybranego klasyfkatora. Poneważ tablca zawera wszystke dostępne nam obekty, węc należy zdecydować sę na odpowedną poltykę podzał nwersm na zbór trenjący testowy. Przykładowo można zastosować waldację krzyżową. Ocena pojedynczego atrybt jest równa ocene zbor jednoelementowego zawerającego ten atrybt Przypadek atrybtów cągłych Do badana znaczena pojedynczego atrybt w wel przypadkach wykorzystywane jest podejśce statystyczne. W szczególnośc dla znajdowana genów znaczących najczęścej stosowana jest przedstawona w rozdzale metoda analzy warancj. Dla wygody wprowadzmy fnkcję attrval F : C R + {0}, zdefnowaną dla dowolnego a C 1 następjąco: attrval F ( a) = Fa, przy czym Fmax = max( Fa ). F a C max W pracy ne jest dysktowana możlwość rozszerzena tej mary na podzbory atrybtów Przypadek atrybtów dyskretnych Podobne jak w przypadk atrybtów cągłych szacowane znaczena atrybtów dyskretnych równeż często odwołje sę do metod statystycznych. W rozdzale do tego cel zaproponowalśmy statystykę χ 2. Dla wygody wprowadzmy fnkcję attrval χ : C R + {0}, zdefnowaną dla dowolnego a C następjąco: attrval ( a) = V a, d χ. Fnkcja attrsetval pownna być tak zdefnowana, aby jej wartośc można było porównywać z ocenam pojedynczych atrybtów. Do osągnęca tego cel posłżymy sę modyfkacją tablcy decyzyjnej, która ne wprowadz straty nformacj w stosnk do postac perwotnej. Defncja Nech dana będze tablca decyzyjna (U,A,C,D). Połączene M atrybtów warnkowych a,.., a polega na wyznaczen tablcy decyzyjnej 1 M ( U, A', C',{ d} ) = ( U, A { a' }\ { a,.., a }, C { a' }\ { a a } { d} ) M,.., M,, gdze a ': U V.. V M Połączene atrybtów polega na tworzen na podstawe atrybtów a,.., a nowego 1 M atrybt zastąpen tych atrybtów atrybtem a. Otrzymana tablca decyzyjna ma mnejszą lczbę atrybtów warnkowych, dokładne C = C -M+1. Dokładnejsze omówene znajdje sę w pracy [10]. Dla wygody zdefnjemy fnkcję pomocnczą merge: 2 C C, gdze C jest zborem możlwych atrybtów połączonych dla zbor atrybtów perwotnych C. Fnkcja merge przyporządkowje danem zborow M atrybtów nowy atrybt tworzony w wynk ch połączena. 40

41 Wykorzystjąc powyższe pojęca możemy zaproponować defncję fnkcj attrsetval w postac: attrsetval ( X ) 0 = attrval attrval χ χ ( x) ( merge( X )) X = X = { x} X > 1 Przykład Rozpatrzmy tablcę decyzyjną DT 3 o wartoścach dyskretnych. Tablca ta została wykorzystana do wyznaczena statystyk χ 2 dla wszystkch atrybtów jest przedstawona w tabel Dokonajmy połączena 2 atrybtów warnkowych G 3,G 5. G 1 G 2 G 4 G 35 d H (0,1) Z H (0,1) Z H (1,0) Z H (1,1) Z H (0,0) R H (0,0) R H (0,0) R H (0,0) R Tab Tablca decyzyjna po połączen 2 atrybtów warnkowych: G 3,G 5 Dodajmy, że podobnego spojrzena na problem dostarczają prace [23,24]. Ator tych prac porównje podzały zbor obektów tablcy decyzyjnej wprowadzane odpowedno przez ocenany zbór atrybtów przez atrybt decyzyjny Ocena znaczena zbor atrybtów ze względ na podzbory W poprzednm rozdzale zdefnowalśmy fnkcję setval, która opsje zwązek danego zbor atrybtów z klasą decyzyjną. Podkreślmy, że ocena ta dotyczy zwązk hpotezy reprezentowanej dokładne tym zborem atrybtów. Etap wyznaczena zbor znaczącego jest wstępem do zastosowana metod bardzej zaawansowanych. Metody te mogą odwoływać sę do różnych podzborów wybranego zbor atrybtów. Z tego względ jesteśmy zanteresowan znalezenem zbor, który będze zawerał wszystke podzbory dostateczne slne zwązane z badaną hpotezą. W cel formalnego sprecyzowana pojęca zbor znaczącego zaproponjemy dwa podejśca. W perwszym podejśc zdefnjemy zbór znaczący w tak sposób, aby zawerał wszystke zbory o wartośc ne gorszej nż określony próg. Defncja Nech dana będze tablca decyzyjna (U,A,C,{d}) lczba rzeczywsta λ <0,1>. Zbór λ-rankngowo znaczący oznacza zbór U X dla F( λ) = { X 2 C : setval( X ) λ}. X F 41

42 Zaważmy, że zgodne z defncją przyjęce odpowednego prog λ może doprowadzć do elmnacj pewnego atrybt a, wtedy tylko wtedy, gdy ne znajdje sę on w żadnym podzborze X, którego ocena znaczena jest co najmnej λ. W drgm podejśc w cel badana stotnośc danego podzbor atrybtów dla hpotezy wprowadzmy fnkcję oceny val: 2 C <0,1>. Dla danego argment X wartość szkanej fnkcj pownna względnać powązane dowolnego podzbor X z pojęcem decyzyjnym. Wymagane to sprecyzjemy w postac założena dla fnkcj val. Założene 1 Fnkcja val jest nemalejąca względem częścowo porządkjącej relacj nklzj zborów w przestrzen 2 C C : ( X, Y 2 ): X Y val( X ) val( Y ). Zbór psty jest elementem najmnejszym dla relacj nklzj zborów, dlatego odpowada m najmnejsza wartość fnkcj val. Dla wygody wartość ta stalona została na 0, co wyrażone jest w kolejnym założen. Założene 2 val( )=0 Poneważ zbór C jest elementem najwększym dla relacj nklzj zborów, węc fnkcja val jest ogranczona z góry przez swoją wartość maksymalną przyjmowaną dla pełnego zbor sp val( X ) = max val( X ) = val C. Ponadto, wartość ta może atrybtów warnkowych C: ( ) ( ) ( ) C X 2 C X 2 być wykorzystana jako odnesene dla wartośc pozostałych pozwolć na stworzene względnej mary, która byłaby nezależna od zbor C. Istneje neskończene wele fnkcj spełnających powyższe dwa wymagana. W pracy ogranczymy sę do podana dwóch przykładów. Obe propozycje wykorzystją wprowadzoną wcześnej fnkcję setval: 2 C R + {0}. Przypomnjmy, że wartość fnkcj setval dla danego zbor atrybtów X określa słę zwązk pojęca reprezentowanego dokładne przez zbór X z pojęcem decyzyjnym. val 1 1 ( X ) = val1' ( X ) gdze val1 '( X ) = val '( C) max( setval( Y )) 1 X Y 2 0 X X = val 1 2 ( X ) = val2 '( X ) gdze val '( X ) val '( C) 2 = C X Y Y 2 0 setval( Y 2 ) X X = Fnkcja val 1 ocena wartość zbor X wyberając najwększą z ocen wszystkch podzborów X. Może ona być zastosowana do sytacj, w której poszkjemy najmnejszego zbor zawerającego podzbór najslnej zwązany z badaną hpotezą. Z kole fnkcja val 2 ocena wartość zbor X smjąc oceny wszystkch podzborów X promjąc dodatkowo zbory krótke. W dalszej analze skpać sę będzemy na badan różnych podzborów atrybtów potrzebjemy metody, która wyłon zbór o podzborach 42

43 slne zwązanych z hpotezą. Z tego względ do ops zbor znaczącego wykorzystamy fnkcję val 2. Obe fnkcje zostały znormalzowane za pomocą swojej wartośc dla zbor C. W ten sposób otrzymjemy ogranczene zbor wartośc tych fnkcj do przedzał <0,1>. Powyższe rozważana prowadzą do nnego sformłowana pojęca zbor znaczącego. Defncja Nech dana będze tablca decyzyjna (U,A,C,{d}) lczba rzeczywsta λ <0,1>. Zbór X C nazywamy λ-smacyjne znaczącym, jeśl jest najmnejszym zborem takm, że val 2 (X) λ ne stneje zbór Y tak, że X Y val 2 (Y) λ. Parametr λ może być traktowany, jako próg stotnośc zbor dla badanej hpotezy. Ze względ na znormalzowaną postać fnkcj oceny wygodne jest wyrażać go w procentach. Zastanówmy sę teraz, jak złożonym problemem jest wyznaczene zbor znaczącego rozmanego zgodne defncją W przypadk ob podejść do znalezena zbor znaczącego dla danej wartośc λ nezbędne jest oblczene wartośc fnkcj setval dla całej jej dzedzny. Potraktjmy złożoność tego podproblem jako dolne ogranczene na złożoność wyznaczena całej fnkcj val 2. W rozważanach przyjmjmy oblczene fnkcj attrval dla konkretnego atrybt jako operację jednostkową. Wyznaczene zbor wartośc setval wymaga rozważena wszystkch elementów przestrzen 2 C, w tym przeprowadzena połączeń atrybtów dla zborów o lczbe elementów przekraczającej 1. Obserwacja ta elmnje podejśce wyczerpjące, jako praktyczną drogę do ocenana wartośc zborów atrybtów. Z tego względ zmszen jesteśmy do wybor metody przyblżonej. W cel wyznaczena zbor λ-rankngowo znaczącego zaproponjemy rozważene jedyne wybranej rodzny podzborów C. Wybór rodzny zasadnony jest względam efektywnoścowym będze brał pod wagę kolejno coraz lcznejsze kombnacje atrybtów z X. Wprowadźmy następjące oznaczene zbor kombnacj: ( X ) = { Y X : Y M } Defncja Nech dana będze tablca decyzyjna (U,A,C,{d}), lczba rzeczywsta λ <0,1>, lczba natralna M {0,..,n} oraz fnkcja setval: 2 C R + {0}. Zbór λ,m-rankngowo znaczący oznacza U X dla FM ( λ) = { X K M ( C) : setval( X ) λ}. X F M Analogczny zabeg można zastosować w drgm podejśc przedefnowjąc fnkcję val 2 tak, aby rozważała wyłączne określoną rodznę podzborów argment X. Defncja Nech dana będze tablca decyzyjna (U,A,C,{d}), lczba rzeczywsta λ>0, lczba natralna M {0,..,n} oraz fnkcja setval: 2 C R + {0}. K M 43

44 Zbór X C nazywamy λ,m-smacyjne znaczącym, jeśl jest najmnejszym zborem takm, że val 2 (X) λ ne stneje zbór Y tak, że X Y val 2 (Y) λ. Przy czym val 2 :2 C R + {0} jest zdefnowana następjąco: val 1 ' ( X ) = val' ( X ) gdze val' ( X ) val ( C) = Y K M ( X ) 0 C setval( Y ) Y X X = W ob podejścach parametr M można nterpretować jako dokładność oceny zbor X, a λ jako marę stotnośc zbor. Zastosowane zbor K M ( X ) do wyznaczena przyblżonej wartośc zborów znaczących jest zasadnone łatwą kontrolą złożonośc oblczeń dla określonych M. Możlwe są nne stratege dobor elementów przestrzen 2 C, w szczególnośc herystyk rozważające podzbory różnego rozmar operające swoje dzałane na oblczenach wykonanych jż dla nnych zborów. Podsmowjąc, problem wyznaczene zbor znaczącego możemy rozmeć formalne jako problem wyznaczena zbor λ,m-rankngowo znaczącego lb λ,m-smacyjne znaczącego dla określonego prog λ dokładnośc oszacowana M. Dla zachowana jednoznacznośc zaps do rozdzelena parametrów często będzemy stosować średnk w mejsce przecnka. Przykład Rozważmy tablcę decyzyjną DT 1. Wyznaczymy zbory znaczące dla M=1 operając sę na wartoścach fnkcj attrval F oblczonych na podstawe wartośc statystyk F zawartych w tabel Dla przejrzystośc welkośc te zostały przytoczone w tablcy Wartośc λ zostały dobrane eksperymentalne na podstawe rozkład wartośc statystyk dla atrybtów. Dokładnej problem dobor parametrów zbor znaczącego porszony jest w rozdzale Atrybt G 1 G 2 G 3 G 4 G 5 G 6 G 7 G 8 F 1,07 1,18 1,13 0,96 1,12 0,79 0,043 0,251 attrval F 0,82 1,00 0,90 0,66 0,89 0,44 0,00 0,05 Tab Wartośc statystyk F fnkcj attrval F dla atrybtów tablcy TD 1 Zbór atrybtów warnkowych {G 1,G 2,G 3,G 4,G 5 } jest 0,5;1-rankngowo znaczący, przy czym F 1 ( 0,5) = { G1},{ G2 }, { G3},{ G4 }, { G5 }. Pozostałe atrybty mały stotne nższą wartość statystyk F, stąd ch elmnacja wydaje sę zasadnona. Zbór atrybtów warnkowych {G 1,G 2,G 3,G 4,G 5 } jest 0,92;1-smacyjne znaczący, przy czym val ({ G1, G2, G3, G4, G5} ) = 4, 72. Współczynnk λ został tak dobrany, aby stnał zbór znaczący różny od C. Można pokazać na drodze eksperyment, że oba podejśca wskazją te same atrybty dla wększego zakres odpowednch współczynnków λ. Tabela zawera zredkowaną tablcę decyzyjną zawerającą atrybty warnkowe ze wskazanego przez oba podejśca zbor znaczącego. Otrzymana tablca zostane wykorzystana do dalszej analzy oznaczona przez DT 2. 44

45 G 1 G 2 G 3 G 4 G 5 d H 1 1,01 0,21 2,41 5,51 6,44 Z H 2 1,74 0,11 3,12 8,34 6,26 Z H 3 1,52 0,12 5,22 3,32 4,12 Z H 4 1,02 0,03 6,33 6,02 8,02 Z H 5 3,17 1,00 0,37 1,17 3,02 R H 6 4,12 1,53 0,36 3,12 3,18 R H 7 8,17 0,99 0,91 5,17 2,11 R H 8 9,65 0,89 0,51 1,65 3,33 R Tab Tablca decyzyjna DT 2 o znaczącym zborze atrybtów Wyznaczane zborów znaczących Rozpatrzmy problem wyznaczana zbor λ,m-rankngowo znaczącego. Jak zostało zaznaczone w poprzednm rozdzale potrzebne jest oblczene wartośc fnkcj setval dla elementów K M ( C). Na podstawe nformacj o wartośc zborów atrybtów możemy zgodne z defncją skonstrować rodznę F M, a następne wyznaczyć szkany zbór znaczący przez zsmowane jej elementów. Procedra została przedstawona ponżej, przy czym ne posłżono sę w nej bezpośredno krokem bdowana rodzny F M. fnkcja calclate-rankng-sgnfcant-set(λ,m) S wyznacz rodznę K M (C) dla każdego X K M (C) jeśl setval(x) λ to S S X zwróć S Koszt wykonana zależy od welkośc rodzny ( C) kolejnośc należy skonstrować rodznę K M ( C) K M lcznośc jej elementów. W perwszej, a następne wylczane są wartośc fnkcj M n setval dla jej elementów. Wymaga to przeprowadzena połączeń oraz wylczena k= 2 k M n wartośc fnkcj attrval dla rozpatrywanych atrybtów. Należy dodatkowo k = 0 k względnć koszt wykonana każdego połączena, który zależy od charakter atrybtów zastosowanego algorytm. Zajmjmy sę teraz wyznaczenem zbor λ,m-smacyjne znaczącego. Zgodne z defncją należy znaleźć ne tylko zbór X, dla którego val 2 (X) λ, ale także zbadać nne zbory posadające tę cechę. Bez dodatkowej wedzy na temat właścwośc zborów λ,m-smacyjne znaczących jedyną metodą na wyznaczene szkanego zbor pozostaje oblczene wartośc fnkcj val 2 dla jej dzedzny dentyfkacja zbor o odpowednch cechach w całej rodzne. Zaważmy, że aby ne powtarzać oblczana wartośc poszczególnych zborów atrybtów warto na wstępe wyznaczyć fnkcję setval dla całej dzedzny. Powyższe rozmowane zostało sprecyzowane w procedrze: 45

46 fnkcja calclate-smmng-sgnfcant-set(λ,m) S wyznacz fnkcję setval dla K M (C) wyznacz fnkcję val 2 dla K M (C) F {X K M (C):val 2 (X) λ} {X 1,..,X F } zbór elementów F porządkowany nemalejąco wg val 2 (X ) dla każdego od 1 do F jeśl stneje X j :X j X to X X X j zwróć S Ne będzemy sę t zajmować poszkwanem efektywnejszych metod wyznaczana zbor λ,m-smacyjne znaczącego dla dowolnego M. Dodamy tylko, że wyznaczane stotnośc dla wększych zborów w kolejnych krokach głównej pętl może być przeprowadzone dopero, gdy będze to koneczne. Pesymstyczny przypadek zachodz, gdy zborem λ,m-smacyjne znaczącym jest C Wyznaczane zbor λ,1-smacyjne znaczącego W rozdzale zajmemy sę szczególnym przypadkem wyznaczana zbor λ,1-smacyjne znaczącego podamy dla nego efektywny algorytm. Przypomnjmy, że dla M=1 przy oblczen wartośc fnkcj val 2 (X) msmy przeanalzować rodznę K 1 ( X ) złożoną z jednoelementowych zborów, z których każdy zawera nny atrybt spośród elementów C. Dży wpływ na efektywność algorytm proponowanego rozwązana rozważanego przypadk mają następjące obserwacje: K X = C 1 ( ) + 1 ( X Y K ( C) ): X Y =, 1 Wyznaczene fnkcj setval wymaga wyłączne wyznaczena fnkcj attrval Najmnejszy względem rozmar możlwy zbór λ,1-smacyjne znaczący X ( X =k) zawera k najstotnejszych elementów zbor C ocenonych zgodne z fnkcją attrval fnkcja calclate-1-smmng-sgnfcant-set(λ) wyznacz fnkcję setval dla K 1 (C) jeśl setval( ) λ to zwróć wyznacz val 2 (C) dla celów normalzacyjnych S F zbór {X 1,..,X C +1 } porządkowany nerosnąco wg setval(x ) dla każdego od 1 do F S S X jeśl val 2 (S) λ to przerwj jeśl val2 ' C \ arg mn( setval( X )) λ to X S S C zwróć S Zaprezentowany algorytm jest klasy ( nlog n) O, co wynka z operacj sortowana rodzny F. Pozostałe krok mają koszt lnowy. Wyznacza on w perwszej kolejnośc najmnejszy zbór S, 46

47 dla którego setval(s) λ. Następne bdje możlwe najwartoścowszy zgodne z fnkcją val 2 zbór elementów, który ne jest nadzborem S. Oznaczmy go przez T. Jeśl val 2 (T) λ, to oznacza, że zbór S ne jest zbórem λ,1-smacyjne znaczącym odpowedzą jest C Dobór parametrów zborów znaczących Oddzelnym problemem jest odpowedn dobór parametrów λ,m przy wyznaczan zbor znaczącego dla konkretnej tablcy decyzyjnej. Zagadnene to ne jest przedmotem pracy, węc rozdzał ten tylko zarysje najstotnejsze kweste. Dokładność szacowana wartośc zbor znaczącego jest doberana w zależnośc od rozmar analzowanej tablcy decyzyjnej. Zaważmy, że badane wszystkch kombnacj K M ( C) dla danego M jest bardzo kosztowne. Ze względ na złożoność czasową wartość M należy ogranczyć sę do 2 lb 3. Przy dżym rozmarze C możlwe jest rozpatrywane wyłączne jednoelementowych zborów atrybtów. Znaczene parametr λ jest slne zwązane z obranym podejścem. W przypadk zborów λ,m-rankngowo znaczących wartość λ można dobrać po rozważen rozkład wartośc dla zborów rodzny K M ( C). Dla zborów λ,m-smacyjne znaczących należałoby oblczyć przeanalzować rozkład wartośc fnkcj val 2 dla przestrzen 2 C. W pracy ne będzemy zajmować sę tym zagadnenem w ogólnośc. W poprzednm rozdzale zaprezentowalśmy zwęzły efektywny algorytm wyznaczana zbor λ,1-smacyjne znaczącego. Zaważmy, że w tym przypadk nteresjące są wyłączne take pozomy λ, które prowadzą do znalezena zbor znaczącego różnego od C. 47

48 5. Dyskretyzacja 5.1. Wprowadzene Dane dotyczące pozomów ekspresj mają charakter cągły. Wele algorytmów słżących analze danych, w tym propozycje znajdjące sę w dalszej częśc pracy, potrzebje welkośc o charakterze dyskretnym. Z tego względ celowe jest znalezene dla tablcy decyzyjnej reprezentjącej eksperyment tablcy o wartoścach dyskretnych, która możlwe dobrze opsje nformacje zawarte w tablcy perwotnej, a co za tym dze równeż sam eksperyment. Podejśce take jest szeroko stosowane w metodach odkrywana wedzy. W przypadk rozpatrywanej dzedzny najczęścej stosje sę dyskretyzację bnarną. Przy czym dla każdego atrybt wartość 0 oznacza ogólne nsk pozom ekspresj odpowadającego m gen, a wartość 1 pozom wysok Defncje Ponższe defncje odnoszą sę do dyskretyzacj globalnej. Każdy atrybt jest rozpatrywany nezależne od pozostałych. Ignorowany jest ewentalne nejednorodny charakter nwersm ze względ na dany atrybt. Nech: a: U V a będze atrybtem cągłym I a będze podzałem V a na przedzały Ia I a 2 będze relacją porządk w zborze I a Defncja Dyskretyzacja atrybt cągłego a oznacza znalezene atrybt porządkowego a :U V a, takego że: a' = ao go h a V, I I I = g( a) a I g: V a I a, taka że ( a a )( ) h: I a V a, taka że ( I I I )( I I h( I ) h( )) 1, 2 a 1 Ia 2 1 I 2 Defncja Dyskretyzacja zbor atrybtów A oznacza znalezene takego zbor A, który zawera dokładne: każdy atrybt dyskretny a A atrybty dyskretne zyskane po dyskretyzacj każdego atrybt cągłego a A Defncja Dyskretyzacja system nformacyjnego (U, A) oznacza znalezene system (U,A ), takego że zbór A jest wynkem dyskretyzacj zbor atrybtów A Defncja Dyskretyzacja tablcy decyzyjnej (U,A,C,D) oznacza wyznaczene tablcy (U,A,C,D ), gdze: zbór C jest wynkem dyskretyzacj zbor atrybtów C zbór D jest wynkem dyskretyzacj zbor atrybtów D A =C D 48

49 Przykład Rozpatrzmy tablcę decyzyjną DT 2. W cel podana przykładowej dyskretyzacj rozpatrzymy zbór atrybtów warnkowych {G 1,G 2,G 3,G 4,G 5 } tablcy decyzyjnej. Rezltat dyskretyzacj zależy od dobor dla każdego atrybt określonego podzał jego zbor wartośc oraz fnkcj g h. Atrybt perwotny Podzał przecwdzedzny atrybt perwotnego I a Atrybt zdyskretyzowany Przecwdzedzna atrybt zdyskretyzowanego V a G 1 {<1,01;3,25>,(3,25;9,65>} G 1 {0,1} G 2 {<0,03;0,53),<0,53;1,12), <1,12;1,53>} G 2 {0,1,2} G 3 {<0,36;3,67),<3,67;5,15>, (5,15;6,33>} G 3 {0,1,2} G 4 {<1,17; 5,27),<5,27;8,34>} G 4 {0,1} G 5 {<2,11;4,77>,(4,77;8,02>} G 5 {0,1} Tab Welkośc wyznaczone przy dyskretyzacj Zaproponowane podzały fnkcje wyznaczają jednoznaczne zbór atrybtów {G 1,G 2,G 3,G 4,G 5 }. W ten sposób zdyskretyzowana tablca decyzyjna dla tablcy DT 2 przyjmje postać: ({H 1,H 2,H 3,H 4,H 5, H 6,H 7,H 8 },{G 1,G 2,G 3,G 4,G 5,d},{G 1,G 2,G 3,G 4,G 5 },{d}). Została ona zlstrowana w tabel G 1 G 2 G 3 G 4 G 5 d H Z H Z H Z H Z H R H R H R H R Tab Tablca decyzyjna DT 2 po dyskretyzacj zgodne z welkoścam z tabel Podstawowe metody Dyskretyzacja system nformacyjnego (U, A) sprowadza sę do dyskretyzacj atrybtów cągłych należących do zbor A. W przypadk tablcy decyzyjnej dyskretyzacja odnos sę wyłączne do atrybtów warnkowych. Dostępna lteratra dotycząca dzedzny ne wspomna o stosowan zaawansowanych metod dyskretyzacj lokalnej, dlatego dalej rozważam przypadek globalny. Dyskretyzacja globalna atrybt polega na zastąpen go atrybtem porządkowym, którego wartośc odpowadają przedzałom wartośc atrybt orygnalnego. Przyporządkowane zachowje relację porządk pomędzy przedzałam. Metody sprowadzają sę do wyznaczena podzał zbor wartośc I a atrybt orygnalnego. Podzał ten jest jednoznaczne 49

50 reprezentowany przez zbór końców przedzałów należących do I a, które często określa sę manem wartośc progowych. Jeśl rozpatrjemy tablcę decyzyjną, to dyskretyzacja może przebegać bez nadzor lb z nadzorem. Nadzór oznacza w tym wypadk względnene przy przekształcen atrybt jego zwązk z wyróżnonym atrybtem decyzyjnym. Dyskretyzacja dla każdego atrybt wprowadza pewen podzał jego zbor wartośc. Prace [23,24] wskazją, że podzały take mogą być bezpośredno nterpretowane, jako nośnk nformacj na temat klasy decyzyjnej. Podsmowjąc, celem metod z nadzorem jest wyznaczene takego nowego zestaw atrybtów, który zapewn jak najlepszą reprezentację pojęca decyzyjnego. Celem nnejszej pracy ne jest analza różnych metod dyskretyzacj, dlatego ogranczam sę do przedstawena metod, które są powszechne stosowane w badan ekspresj genów Równa szerokość przedzałów Metoda jest jedną z najprostszych propozycj [10,20], pommo to bywa często stosowana w rozważanej dzedzne [28]. Parametrem wejścowym rozważany atrybt lczba przedzałów w szkanym podzale I a. Prog są stalane arbtralne tak, aby przedzały mały tę samą szerokość. Dżą wadą rozwązana jest gnorowane rozkład wartośc w przecwdzedzne atrybt V a. Przykład Rozważmy dyskretyzację bnarną tablcy decyzyjnej DT 2, każdy atrybt dyskretyzowany jest przy założen podzał jego przecwdzedzny na dwa przedzały o jednakowej szerokośc. Podzały oraz przecwdzedzny odpowednch atrybtów zdyskretyzowanych przedstawone zostały w tabel , a zdyskretyzowana tablca decyzyjna w tabel Atrybt perwotny Podzał przecwdzedzny atrybt perwotnego I a Atrybt zdyskretyzowany G 1 {<1,01;5,33),<5,33;9,65>} G 1 {0,1} G 2 {<0,03;0,78),<0,78;1,53>} G 2 {0,1} G 3 {<0,36;3,345),<3,345;6,33>} G 3 {0,1} G 4 {<1,17;4,755),<4,755;8,34>} G 4 {0,1} G 5 {<2,11;5,065),<5,065;8,02>} G 5 {0,1} Przecwdzedzna atrybt zdyskretyzowanego V a Tab Welkośc wyznaczone przy dyskretyzacj dla równej szerokośc przedzałów G 1 G 2 G 3 G 4 G 5 d H Z H Z H Z H Z H R H R H R H R Tab Tablca decyzyjna po dyskretyzacj zgodne z welkoścam z tab

51 Otrzymana tablca zostane wykorzystana do dalszej analzy oznaczona przez DT 3. Dla przejrzystośc nowe atrybty będą w następnych rozdzałach oznaczane symbolam odpowadających m atrybtów perwotnych Równa głębokość przedzałów Metoda jest pewnym doskonalenem podzał zbor wartośc atrybt na przedzały równej szerokośc. Jest ona opsana mędzy nnym w pracach [10,20]. Podobne jak w poprzednm podejśc, parametrem wejścowym jest rozważany atrybt lczba przedzałów k w szkanym podzale I a. Dla danego system nformacyjnego podzał jest dokonywany tak, aby do każdego z przedzałów należała możlwe taka sama lczba wartośc spośród zbor wartośc atrybt. W tym przypadk prog są zwązane z rozkładem wartośc atrybt w jego przecwdzedzne. a ( U ) Metoda zmerza do osągnęca podzał I a zawerającego k przedzałów o dłgośc. k Ze względ na charakter zbor wartośc atrybt w rozpatrywanym systeme nformacyjnym, może być nemożlwe osągnęce równej lczby wartośc w każdym przedzale lb założonej lczby przedzałów. Przykład Rozważmy dyskretyzację bnarną tablcy decyzyjnej DT 2, każdy atrybt dyskretyzowany jest przy założen podzał jego przecwdzedzny na dwa przedzały o jednakowej głębokośc. Podzały oraz przecwdzedzny odpowednch atrybtów zdyskretyzowanych przedstawone zostały w tabel , a zdyskretyzowana tablca decyzyjna w tabel Atrybt perwotny G 1 G 2 G 3 G 4 G 5 Podzał przecwdzedzny atrybt perwotnego I a {<1,01;1,74),< 1,74;8,17), <8,17;9,65>} {<0,03;0,21),<0,21;1,00), <1,00;1,53>} {<0,36;0,91),< 0,91;5,22), <5,22;6,33>} {<1,17;3,32),<3,32;6,02), <6,02;8,34>} {<2,11;3,33),<3,33;6,44), <6,44;8,02>} Atrybt zdyskretyzowany Przecwdzedzna atrybt zdyskretyzowanego V a G 1 {0,1,2} G 2 {0,1,2} G 3 {0,1,2} G 4 {0,1,2} G 5 {0,1,2} Tab Welkośc wyznaczone przy dyskretyzacj dla równej głębokośc przedzałów 51

52 G 1 G 2 G 3 G 4 G 5 d H Z H Z H Z H Z H R H R H R H R Tab Tablca decyzyjna DT 2 po dyskretyzacj zgodne z welkoścam z tab Podejśce zstępjące Metoda jest jedynym prezentowanym ttaj algorytmem dyskretyzacj z nadzorem została szczegółowo opsana w pracach [10,16]. Obok rozważanego atrybt warnkowego analzowane są równeż wartośc atrybt decyzyjnego dla odpowednch obektów. Dodatkowe parametry wejścowe zależą od wybranego warnk stop. Wyjścem jest zbór wartośc progowych. Algorytm dzel rozpatrywany zbór obektów na dwa podzbory, przy czym wybór prog podzał θ zależy od zarówno od wartośc atrybt, jak klasy obektów. Następne procedra wykonywana jest rekrencyjne dla każdego z zyskanych wzorów. Zwracana jest sma zborów progów z ob rekrencyjnych wywołań procedry jednoelementowego zbor zawerającego próg θ. Algorytm nazywany jest zstępjącym, gdyż jego dzałane opera sę o rekrencyjne sformłowane rozważanego zadana. Problem wyznaczena podzał dla określonego zbor wartośc atrybt można sprowadzć do problem wyznaczena dwelementowego podzał tego zbor, a następne znalezena rozwązana dla każdego z dwóch zborów tego podzał. Rozważmy tablcę decyzyjną (U,A,C,{d}). Schemat algorytm wyznaczana podzał dla zbor wartośc atrybt warnkowego a C dla obektów zbor U ma postać: fnkcja dscretze-top-down(p,a) jeśl warnek-stop (P,a) to zwróć θ wyberz-próg (P,a) Θ 0 dyskretyzj-zstępjąco (P a θ,a) Θ 1 dyskretyzj-zstępjąco (P a>θ,a) zwróć Θ 0 {θ} Θ 1 Przy czym: θ próg wybrany dla zbor P Θ 0, Θ 1 zbór progów podzał P T(a,θ) podzbór obektów P, dla których prawdzwa jest fnkcja zdanowa T(a,θ) T(a,θ)={ a θ, a>θ } Podzał wynkowy slne zależy od warnk stop sposob wyberana prog. Często obe te fnkcje odwołją sę do tych samych welkośc określających zbór P, stąd poprzedzane są wstępnym etapem wyznaczana tych ch wartośc. 52

53 Dla danego zbor P możlwych jest ( P -1) różnych podzałów. Spośród nch wyberany jest ten, który dostarcza najwęcej nformacj na temat pojęca decyzyjnego. Realzjąca wybór fnkcja wyberz-próg zwraca wartość jednoznaczne mplkjącą podzał. Powszechne przyjmje sę, że dla danego podzał dobrą marą wnoszonej nego nformacj jest ważona entropa zbor obektów P ze względ na ten podzał. Entropa względem podzał E a,θ jest wyrażona poprzez dwe entrope zborów obektów P a θ P a>θ o wartoścach odpowedno E a θ E a>θ. Zgodne z powyższym kryterm wyberany jest podzał o mnmalnej entrop. P P a θ a> θ a, θ ( P = Ea θ + Ea> θ ET a, θ ) ( P) = P P d E ) d PT ( a, θ ) ( log P V d T ( a, θ ) 2 P d T ( a, θ ) P T ( a, θ ) Przy czym: = { P : T ( a, θ ) d( P) )} P d T ( a, θ ) = d. Warnek stop na danym pozome zagłębena algorytm jest slne zwązany z entropam możlwych podzałów dwelementowych. Decyzje o podzelen rozważanego zbor obektów można podjąć posłgjąc sę pojęcem zysk nformacj wynkającym z wprowadzena podzał. Zysk g a,θ jest wyznaczany na podstawe entrop zbor nepodzelnego I entrop względem najkorzystnejszego podzał kandydjącego E T(a,θ). g U P) = I( P) ET ( a, θ ( ) ( P) = U a, θ ( ) P d I log 2 d V d U U d Sformłowane warnk sprowadza sę do określena prog, od którego zysk jest znawany za wystarczający dla rezygnacj z przeprowadzena podzał. Najprostszym kryterm jest g a, θ 0 lb zaproponowanej nnej maksymalnej wartośc, np. operając sę o zadane parametry wejścowe. W pracy [16] zaproponowany jest algorytm zstępjący, który formłje warnek stop w oparc o zasadę mnmalnej dłgośc kod [10]. g a, θ log 2 ( N 1) ( P) + N δ a, θ k P) = log ( 3 2) ki k E ( P) k E ( P) Przy czym: N= P k= d(p) k T(a,θ) = d(p T(a,θ) ) N ( ) δ a, θ ( 2 a θ a θ a> θ a> θ Warto dodać, że prezentowana metoda może równeż wskazywać na stotność atrybtów dla badanej hpotezy. Jeśl dany atrybt został zdyskretyzowany do jednego przedzał, to oznacza to, że żaden podzał jego zbor wartośc ne dawał wystarczająco wysokego wzrost nformacj na temat klasy decyzyjnej. Atrybty take można pomnąć w dalszej analze. W nektórych przypadkach metoda ta jest stosowana bezpośredno, bez wstępnego zawężana zbor atrybtów warnkowych. 53

54 Metoda zstępjąca odwołjąca sę do pojęca entrop zasady mnmalnej dłgośc kod zaproponowana w [16] została wykorzystana w pracach [27,30,31] dotyczących wyznaczana wzorców wyłanających. Przykład Rozważmy dyskretyzację tablcy decyzyjnej DT 2. Podzały oraz przecwdzedzny odpowednch atrybtów zdyskretyzowanych przedstawone zostały w tabel , a zdyskretyzowana tablca decyzyjna w tabel Zaważmy, że poza zmaną charakter atrybtów metoda wskazała, że atrybt G 4 jest słabo zwązany z hpotezą. Atrybt perwotny Podzał przecwdzedzny atrybt perwotnego I a Atrybt zdyskretyzowany G 1 {<1,01;2,455),<2,455;9,65>} G 1 {0,1} G 2 {<0,03;0,55),<0,55;1,53>} G 2 {0,1} G 3 {<0,36;1,66),<1,66;6,33>} G 3 {0,1} G 4 {<1,17;8,34>} G 4 {0} G 5 {<2,11;3,725),<3,725;8,02>} G 5 {0,1} Przecwdzedzna atrybt zdyskretyzowanego V a Tab Welkośc wyznaczone przy dyskretyzacj dla równej głębokośc przedzałów G 1 G 2 G 3 G 4 G 5 d H Z H Z H Z H Z H R H R H R H R Tab Tablca decyzyjna DT 2 po dyskretyzacj zgodne z welkoścam z tab

55 6. Wyznaczane rozróżnających grp genów 6.1. Wprowadzene Informację nesoną przez dany zbór atrybtów często rozme sę przez ch zdolność do rozróżnana obektów zgodne z rozróżnenem wprowadzanym przez klasę decyzyjną. Take podejśce prezentowane jest mędzy nnym w zaproponowanej przez Zdzsława Pawlaka teor zborów przyblżonych [39] oraz w pblkacjach zwązanych z syntezą kładów logcznych [23,24]. W pracy stosję formalzm zborów przyblżonych, przy czym skpam sę na koncepce redkt. Redkt jest mnmalnym zborem atrybtów nezbędnych do rozróżnena wszystkch obektów danej tablcy decyzyjnej pomędzy klasy decyzyjne. Podejśce oparte o teorę zborów przyblżonych jest powszechne wykorzystywane do redkcj systemów nformacyjnych. W badan ekspresj genów wykorzystywane jest najczęścej do konstrkcj klasyfkatorów opartych o zbory regł [21]. W przypadk badana ekspresj genów koneczna jest elmnacja atrybtów nestotnych oraz dyskretyzacja atrybtów cągłych. Bezpośredna analza tablcy decyzyjnej o wysokej wymarowośc małym zborze obektów może doprowadzć do znalezena bardzo dżej lczby mało lcznych redktów. Częstym zarztem w stosnk do koncepcj redkt jest fakt, że redkt wyznaczony dla określonej tablcy decyzyjnej w ogólnośc ne ms być redktem dla tablcy o nwersm rozszerzonym o nowe obekty. Odpowedzą na tę nedogodność jest propozycja redkt dynamcznego. Wyznaczene tego pojęca wymaga rozważena pewnej rodzny tablc decyzyjnych o zborach obektów zawartych w nwersm tablcy decyzyjnej. Dla każdej z tablc wyznaczane są redkty względne. Szkanym redktam dynamcznym są redkty względne dla najwększej lczby tablc rozpatrywanej rodzny. W pracy ne zajmjemy sę pojęcem redkt dynamcznego 6.2. Elementy teor zborów przyblżonych Ponższe defncje twerdzena będą sformłowane w stosnk do tablc decyzyjnych, a ne systemów nformacyjnych. Przy nazwach pojęć mplcte zakłada sę, że są one rozmane względem decyzj. Równeż defncje podstawowych problemów są natralnym przenesenem na przypadek tablc decyzyjnych problemów sformłowanych perwotne dla systemów nformacyjnych. Podstawowym źródłem dla nnejszego wstęp teoretycznego są prace [7,12]. Twerdzena formłowane na potrzeby pracy zostaną poparte dowodam. Defncja Nech DT=(U,A,C,{d}) będze tablcą decyzyjną zbór atrybtów B C. Relacja nerozróżnalnośc IND DT (B) dla tablcy decyzyjnej (U,A,C,{d}) oznacza dwargmentową relację w zborze U generowaną przez zbór atrybtów B, która ma postać IND DT ( B) = {(, v) U U : ( a B : a( ) = a( v) ) d( ) = d( v) }. 55

56 Defncja Macerz rozróżnalnośc dla tablcy decyzyjnej (U,A,C,{d}) oznacza kwadratową macerz M o M = a C a( ) a( ) d( ) d( ). rozmarze nxn, taką że: { } j : j j Podsmowjąc, każdy element macerzy jest zborem tych atrybtów, które mają różną wartość dla wybranych obektów z nwersm. W szczególnośc na przekątnej macerzy znajdją sę zbory pste. Ze względ na natralną symetryczność relacj w przecwdzedznach atrybtów powyższe strktry zawerają redndancję nformacj na temat rozróżnalnośc obektów. Macerz jest symetryczna względem swojej przekątnej, zamenene ndeksów oraz j daje w wynk dentyczne strktry. Przykład Dla przyblżena pojęć będzemy w tym rozdzale rozważać tablcę decyzyjną DT 3 otrzymaną w rozdzale G 1 G 2 G 3 G 4 G 5 D H Z H Z H Z H Z H R H R H R H R Tab Tablca decyzyjna DT 3 Przykładowe relacje nerozróżnalnośc dla tablcy DT 3 dla różnych zborów atrybtów: IND DT (C)={(H 1,H 1 ),(H 1,H 2 ),(H 1,H 3 ),(H 1,H 4 ),(H 2,H 1 ),(H 2,H 2 ),(H 2,H 3 ),(H 2,H 4 ), (H 3,H 1 ),(H 3,H 2 ),(H 3,H 3 ),(H 3,H 4 ),(H 4,H 1 ),(H 4,H 2 ),(H 4,H 3 ),(H 4,H 4 ), (H 5,H 5 ),(H 5,H 6 ),(H 5,H 7 ),(H 5,H 8 ),(H 6,H 5 ),(H 6,H 6 ),(H 6,H 7 ),(H 6,H 8 ), (H 7,H 5 ),(H 7,H 6 ),(H 7,H 7 ),(H 7,H 8 ),(H 8,H 5 ),(H 8,H 6 ),(H 8,H 7 ),(H 8,H 8 )} IND DT ({G 5 })=IND DT (C) {(H 3,H 5 ),(H 3,H 6 ),(H 3,H 7 ),(H 3,H 8 ), (H 5,H 3 ),(H 6,H 3 ),(H 7,H 3 ),(H 8,H 3 )} Macerz rozróżnalnośc dla tablcy DT 3 jest przedstawona w tabel Dla przejrzystośc w komórkach tabel ne zostały meszczone symbole atrybtów, lecz ch ndeksy. Przykładowo zbór {2,4,5} opsje zbór atrybtów {G 2,G 4,G 5 }. 56

57 H 1 H 2 H 3 H 4 H 5 H 6 H 7 H 8 H 1 {2,4,5} {2,4,5} {1,2,5} {1,2,4,5} H 2 {2,4,5} {2,4,5} {1,2,5} {1,2,4,5} H 3 {2,3} {2,3} {1,2,3,4} {1,2,3} H 4 {2,3,4,5} {2,3,4,5} {1,2,3,5} {1,2,3,4,5} H 5 {2,4,5} {2,4,5} {2,3} {2,3,4,5} H 6 {2,4,5} {2,4,5} {2,3} {2,3,4,5} H 7 {1,2,5} {1,2,5} {1,2,3,4} {1,2,3,5} H 8 {1,2,4,5} {1,2,4,5} {1,2,3} {1,2,3,4,5} Tab Macerz rozróżnalnośc dla tablcy DT 3 Łatwo można dostrzec, że relacja nerozróżnalnośc zawera wszystke te pary obektów (,j), dla których M j =. Defncja Nech (U,A,C,{d}) będze tablcą decyzyjną, M jej macerzą rozróżnalnośc zbór atrybtów P C. Zbór atrybtów P pokrywa parę obektów (, j ) macerzy M, jeśl P,. Defncja Nech (U,A,C,{d}) będze tablcą decyzyjną, M jej macerzą rozróżnalnośc zbór atrybtów P C. (, ) U U : P M. M j Zbór pokrywający dla zbor atrybtów P oznacza zbór { } Zbór pokrywający oznaczamy przez CS(P). Przykład j, j Analzjąc macerz rozróżnalnośc dla DT 3 możemy powedzeć, że: Zbór atrybtów {G 2,G 3 } pokrywa mędzy nnym pary obektów (H 3,H 5 ),(H 8,H 4 ) Zbór atrybtów {G 2,G 4,G 5 } pokrywa mędzy nnym pary obektów (H 2,H 8 ),(H 8,H 4 ) Przejrzene całej macerzy pozwala na wyznaczene zborów pokrywających, przykładowo: CS({G 1 })={(H 1,H 7 ),(H 1,H 8 ),(H 2,H 7 ),(H 2,H 8 ),(H 3,H 7 ),(H 3,H 8 ),(H 4,H 7 ),(H 4,H 8 ), (H 7,H 1 ),(H 8,H 1 ),(H 7,H 2 ),(H 8,H 2 ),(H 7,H 3 ),(H 8,H 3 ),(H 7,H 4 ),(H 8,H 4 )} CS({G 2,G 3 })=UxU Defncja Nech DT=(U,A,C,{d}) będze tablcą decyzyjną zbór atrybtów P C. Atrybt a C jest: zbędny w zborze P, jeśl IND DT (C)= IND DT (C\{a}) nezbędny w zborze P, jeśl ne jest zbędny Defncja Nech DT=(U,A,C,{d}) będze tablcą decyzyjną zbór atrybtów P C. Zbór atrybtów jest nezależny w DT, jeśl każdy atrybt a P jest nezbędny. 57

58 Przykład Atrybt G 4 jest zbędny dla zbor atrybtów C, gdyż po jego snęc zbór ten wcąż tak samo rozróżna obekty pomędzy klasy decyzyjne, IND DT3 (C)= IND DT3 (C\{G4}). Dla zbor atrybtów {G 1,G 2 } atrybt G 1 jest zbędny, a G 2 nezbędny. Fakty te wynkają z wartośc następjących relacj rozróżnalnośc: IND DT3 (C) = {(H 1,H 1 ),(H 1,H 2 ),(H 1,H 3 ),(H 1,H 4 ),(H 2,H 1 ),(H 2,H 2 ),(H 2,H 3 ),(H 2,H 4 ), (H 3,H 1 ),(H 3,H 2 ),(H 3,H 3 ),(H 3,H 4 ),(H 4,H 1 ),(H 4,H 2 ),(H 4,H 3 ),(H 4,H 4 ), (H 5,H 5 ),(H 5,H 6 ),(H 5,H 7 ),(H 5,H 8 ),(H 6,H 5 ),(H 6,H 6 ),(H 6,H 7 ),(H 6,H 8 ), (H 7,H 5 ),(H 7,H 6 ),(H 7,H 7 ),(H 7,H 8 ),(H 8,H 5 ),(H 8,H 6 ),(H 8,H 7 ),(H 8,H 8 )} IND DT3 ({G 1,G 2,G 3,G 4 }) = IND DT3 (C) IND DT3 ({G 1,G 2 }) = IND DT3 (C) IND DT3 ({G 1 }) = IND DT3 (C) {(H 1,H 5 ),(H 1,H 6 ),(H 2,H 5 ),(H 2,H 6 ), (H 3,H 5 ),(H 3,H 6 ),(H 4,H 5 ),(H 4,H 6 ), (H 5,H 1 ),(H 5,H 2 ),(H 5,H 3 ),(H 5,H 4 ), (H 6,H 1 ),(H 6,H 2 ),(H 6,H 3 ),(H 6,H 4 )} IND DT3 ({G 2 }) = IND DT3 (C) Defncja Nech DT=(U,A,C,{d}) będze tablcą decyzyjną zbór atrybtów P C. Zbór rozróżnający zbor atrybtów P w tablcy DT jest równy Q, jeśl: Q P IND DT (P)= IND DT (Q) Defncja Nech DT=(U,A,C,{d}) będze tablcą decyzyjną zbór atrybtów P C. Nadredkt zbor atrybtów P w tablcy DT jest równy Q, jeśl: Q jest zborem rozróżnającym zbor atrybtów P zbór atrybtów Q zawera atrybty zbędne Defncja Nech DT=(U,A,C,{d}) będze tablcą decyzyjną zbór atrybtów P C. Redkt zbor atrybtów P w tablcy DT jest równy Q, jeśl: Q jest zborem rozróżnającym zbor atrybtów P zbór atrybtów Q jest nezależny w DT Zbór wszystkch redktów zbor atrybtów P w tablcy decyzyjnej DT oznaczamy przez RED DT (P). Przykład Zboram rozróżnającym zbor atrybtów C dla tablcy DT 3 są mędzy nnym: {G 1,G 2 },{G 1,G 3,G 4,G 5 },{G 2 },{G 3,G 5 },{G 1,G 3,G 4 }. Przy czym: {G 1,G 2 } jest nadredktem, gdyż atrybt G 1 jest zbędny {G 1,G 3,G 4,G 5 } jest nadredktem, gdyż atrybt G 5 jest zbędny RED DT (C)={{G 2 },{G 3,G 5 },{G 1,G 3,G 4 }} 58

59 Defncja Nech DT=(U,A,C,{d}) będze tablcą decyzyjną zbór atrybtów P C. Rdzeń zbor atrybtów P w tablcy DT, jest zborem Q wszystkch nezbędnych atrybtów w zborze P, przy czym Q P. Rdzeń zbor atrybtów P w tablcy decyzyjnej DT oznaczamy przez CORE DT (P). Twerdzene [7] = R. Jeśl DT=(U,A,C,{d}) jest tablcą decyzyjną P C, to COREDT ( P) I Przykład Rdzeń zborów atrybtów dla tablcy DT 3 : CORE DT (C)= CORE DT ({G 1,G 3,G 4,G 5 })={G 3 } R REDDT ( P ) Twerdzene (oszacowane lczby redktów, [7]) m Jeśl DT=(U,A,C,{d}) jest tablcą decyzyjną m= C, to 1 card ( RED ( )) m DT C. 2 Przykład Twerdzene jest prawdzwe dla zbor redktów tablcy DT 3 : 5 5 ( ) 5 1 card RED ( ) 3 DT C = = = Defncja Redkcja tablcy decyzyjnej (U,A,C,D) do zbor atrybtów warnkowych C C oznacza znalezene tablcy decyzyjnej (U, C D,C,D). Defncja Problem wyznaczana wszystkch redktów (Redct Set Problem) dla tablcy decyzyjnej DT=(U,A,C,{d}) polega na znalezen zbor RED DT (C). Twerdzene (złożoność problem wyznaczana wszystkch redktów, [7]) Problem wyznaczana wszystkch redktów jest NP-trdny. Defncja Problem wyznaczana mnmalnego redkt (Mnmal Redct Problem) dla tablcy decyzyjnej DT=(U,A,C,{d}) polega na znalezen zbor R C, takego że card ( R) = mn { card( B) }. B REDDT ( C ) Twerdzene (złożoność problem wyznaczana mnmalnego redkt, [7]) Problem wyznaczana mnmalnego redkt jest NP-trdny. Ze względ na stnene wel nteresjących algorytmów proponowanych dla różnych problemów NP-trdnych warto zastanowć sę nad sformłowanem powyższych problemów w język dzedzn, które ne powstały na grnce teor zborów przyblżonych. 59

60 Eleganckego aparat dla wyrażena częśc wprowadzonych wyżej pojęć dostarcza algebra Boole a. W szczególnośc problem wyznaczana wszystkch redktów może zostać sprowadzony do problem wyznaczana wszystkch mplkantów perwszych pewnej fnkcj. Defncja Fnkcja boolowska oznacza fnkcję postac f :{0,1} n {0,1 }. Defncja Implkant fnkcj boolowskej f(x 1,,x n ) oznacza term (0) (1) x k k, x k k x = x = wartoścowana V nerówność g(v) f(v). g = x x Lx, gdze ϕ k {0,1}, ( ϕ1 ) ( ϕ2 ) 1 2 ( ϕr ) r, k {1,2,,n}, k = 1,,r, jeżel jest prawdzwa dla każdego Defncja Implkant perwszy oznacza mplkant g, z którego ne można snąć żadnej zmennej. Defncja Fnkcję boolowską f nazywamy monotonczną, jeśl (α 1,,α n ) (β 1,,β n ) (to znaczy α β dla każdego ) mplkje f(α 1,,α n ) f (β 1,,β n ) dla każdego (α 1,,α n ),(β 1,,β n ) {0,1} n. Twerdzene ([12]) Każda fnkcja monotonczna da sę przedstawć w postac alternatywy wszystkch mplkantów perwszych tej fnkcj. Zbór mplkantów perwszych danej fnkcj monotoncznej będzemy oznaczać przez PI f. Twerdzene (prawa pochłanana, [12]) Dla każdych zdań logcznych a b zachodz: a a = a a ( a b) = a. Defncja Fnkcja rozróżnalnośc f DT tablcy decyzyjnej DT=(U,{a 1,..,a n,d},{a 1,..,a n },{d}) oznacza fnkcję boolowską zmennych B={b 1,..,b n } odpowadających poszczególnym atrybtom a 1,..,a n zdefnowaną jako: b, gdze M = b B : a M }., j= 1... nbk M j M j k j { k k j Fnkcja przyporządkowje wybranem zborow atrybtów zadanem przez stawene na 1 odpowednch argmentów b 1,..,b n wartość 1, jeśl zbór ten pozwala rozróżnć wszystke obekty U. Ponższe twerdzene podkreśla fakt, że macerz rozróżnalnośc może być traktowana jako reprezentacja fnkcj rozróżnalnośc odwrotne. Przykład Fnkcja rozróżnalnośc dla tablcy DT 3 jest wyznaczana poprzez przejrzene macerzy rozróżnalnośc. Poneważ macerz jest symetryczna, węc można zrezygnować z termów odpowadających zborom atrybtów z M j, dla >j. 60

61 61 ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b f DT = Wyznaczona fnkcja może być jeszcze proszczona zgodne z prawam pochłanana. Twerdzene ([12]) Nech (U,A,C,{d}) będze tablcą decyzyjną, a f jej fnkcją rozróżnalnośc. Dla dowolnego C B zachodz równoważność 1 = = ) B ( f IND IND C B. Twerdzene ([12]) Nech DT będze tablcą decyzyjną, a f jej fnkcją rozróżnalnośc. Zachodz równoważność f DT PI b b C RED a a p p )... ( ) ( ),.., ( 1 1. Innego spojrzena dostarcza teora zborów. Pojęce redkt często odnoszone jest do pojęca mnmalnego pokryca zbor lb zborów trafenowych. Ttaj skpmy sę na przypadk zborów trafenowych. Ponadto wyrazmy problem wyznaczana wszystkch redktów tablcy decyzyjnej za pomocą równoważnego problem wyznaczana wszystkch mnmalnych zborów trafenowych. Defncja Nech S będze dowolnym zborem skończonym, a F dowolną rodzną podzborów S. Zbór trafenowy dla F oznacza zbór H, tak że H D F D :. Defncja Nech S będze dowolnym zborem skończonym, a F dowolną rodzną podzborów S. Zbór trafenowy H dla F jest mnmalny, jeśl żaden podzbór właścwy H ne jest trafenowy. Zbór wszystkch mnmalnych zborów trafenowych dla rodzny F podzborów zbor S oznaczamy przez HS(F). Przykład Nech: S={a,b,c,d} F={{a,b,d},{b,c},{a,b,c}} Zboram trafenowym są mędzy nnym: {a,b,c,d},{a,b,c},{a,c,d},{b}. Rodzna mnmalnych zborów trafenowych wynos: HS(F)={{b},{c,d}}. Defncja Problem wyznaczana wszystkch mnmalnych zborów trafenowych (Mnmal Httng-Set Set Problem) dla rodzny F podzborów zbor S polega na znalezen zbor HS(F).

62 62 Twerdzene Nech: DT=(U,A,C,{d}) będze tablcą decyzyjną M oznacza macerz rozróżnalnośc tablcy DT zbór atrybtów P C rodzna zborów atrybtów { } = = j j M m j M F,.., 1, : P jest zborem trafenowym dla F, wtedy tylko wtedy, gdy P jest zborem rozróżnającym w DT. Dowód: Na wstępe zaważmy, że zgodne z prawam de Morgana dla każdej pary (, j ) UxU prawdzwa jest równoważność ( ) = = = j j j M d d a a C a ) ( ) ( ) ( ) ( : (*). Nech P będze zborem trafenowym dla rodzny F. Rodzna F zawera zbory atrybtów, które rozróżnają wszystke pary obektów różnych ze względ na klasę decyzyjną. Zgodne z defncją mamy P D F D :. Oznacza to, że zbór P ma nepstą część wspólną z każdym elementem rodzny F, część ta zawera przynajmnej jeden rozróżnający atrybt. Innym słowy ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) j j j j d d a a P a M U U :, (**). ( ) ( ) ( ) { } ( ) ( ) { } ( ) ( ) { } ( ) ( ) ( ) ( ) { } ( ) ( ) { } ( ) ( ) { } ( ) C IND d d a a C a U U d d a a P a M U U d d a a P a d d a a C a U U d d a a P a M U U d d a a P a M U U d d a a P a U U P IND DT j j j j j j j j j j j j j j j j j j j j j j j DT = = = = = = = = = = = = = = = = = = = = ) ( ) ( ) ( ) ( : :, ) ( ) ( ) ( ) ( : :, ) ( ) ( ) ( ) ( : ) ( ) ( ) ( ) ( : :, ) ( ) ( ) ( ) ( : :, ) ( ) ( ) ( ) ( : :, ) ( ) ( ) ( ) ( : :, Drg składnk jest psty na mocy warnk (**). Ze względ na powyższe na założene, że P C, zgodne z defncją 6.2-7, zbór P jest zborem rozróżnającym w DT. Załóżmy teraz, że P jest zborem rozróżnającym w DT. Zgodne z defncja prawdzwe jest ( ) ( ) C IND P IND DT DT =, co zgodne z defncją można zapsać jako ( ) ( ) { } ( ) ( ) { } ) ( ) ( ) ( ) ( : :, ) ( ) ( ) ( ) ( : :, j j j j j j d d a a C a U U d d a a P a U U = = = = = Wnoskjemy, że dla każdej pary (, j ) UxU prawdzwe są równoważnośc: ( ) ( ) ) ( ) ( ) ( ) ( : ) ( ) ( ) ( ) ( : j j j j d d a a C a d d a a P a = = = = ( ) ( ) ) ( ) ( ) ( ) ( : ) ( ) ( ) ( ) ( : j j j j d d a a C a d d a a P a (***) Nech M j będze dowolnym elementem rodzny F. Z założena o postac rodzny F mamy, że M j, stąd zachodz ( ) ( ) ( ) ( ) ( ) j j d d a a C a :, a na podstawe równoważnośc (***) zachodz równeż ( ) ( ) ( ) ( ) ( ) j j d d a a P a :. Zgodne z defncją powyższym faktam mamy

63 M j P = { a C a( ) a( ) d( ) d( )} P = { a P : a( ) a( ) d( ) d( )} : j j j j Poneważ element M j był dowolne wybrany z rodzny F, węc na mocy defncj zbór P jest zborem trafenowym w F. Twerdzene Nech: DT=(U,A,C,{d}) będze tablcą decyzyjną M oznacza macerz rozróżnalnośc tablcy DT zbór atrybtów P C F M :, j = 1,.., m M rodzna zborów atrybtów { } = j j Zachodz: 1) P jest mnmalnym zborem trafenowym dla F, wtedy tylko wtedy, gdy P jest redktem w DT 2) RED DT (C)=HS(F) Dowód: 1) Nech P będze mnmalnym zborem trafenowym. Oznacza to, że jest on zborem trafenowym, takm że żaden jego podzbór właścwy ne jest zborem trafenowym. Zgodne z twerdzenem zbór P jest zborem rozróżnającym w tablcy DT (*). Nech X będze dowolnym zborem atrybtów takm, że: X P X P. Zbór X ne jest zborem trafenowym, stąd stneje take M j, że X =. Zgodne z defncją ostatn warnek można zapsać, jako: a C a( ) a( ) d( ) d( { : j j )} X = { a X : a( ) a( j ) d( ) d( j )} = równoważne: ( a X a( ) = a( )) d( ) = d( ) ( X ) (, ) IND (**). j DT M j : j j. Zgodne z defncją mamy Poneważ M j oraz zgodne z defncjam zachodz IND C, U U : a C : a( ) = a( ) d( ) = d( ) =, U U : M =, DT ( ) {( ) ( ) } {( ) } = j j j j j węc (, j ) INDDT ( C) (***). Poneważ zbór P jest rozróżnający w DT (*), węc IND ( P) INDDT ( C) Zgodne z (**),(***) (****) zachodz IND ( X ) IND ( P) DT = (****). DT DT. Zbór X został wybrany w sposób dowolny, węc zbór P jest nezależny. Poneważ zbór P jest rozróżnający nezależny w DT, węc na mocy defncj jest on redktem. Załóżmy teraz, że P jest redktem. Jest on zborem rozróżnającym nezależnym w DT. Zgodne z twerdzenem zbór P jest zborem trafenowym dla rodzny F. Nech X będze dowolnym zborem atrybtów takm, że: X P X P. Ze względ na nezależność zbor P mamy, że INDDT ( X ) INDDT ( P). Poneważ P jest zborem rozróżnającym, węc INDDT ( P) = INDDT ( C), a stąd INDDT ( X ) INDDT ( C). Poneważ X C, węc zgodne z defncją INDDT ( C) INDDT ( X ). W ten sposób warnek INDDT ( X ) INDDT ( C) oznacza, że stneje taka para obektów (, j ),, ) IND X (, ) IND C. że ( ( ) ( ) j DT j DT. 63

64 Poneważ z defncj mamy: IND C, U U : a C : a( ) = a( ) d( ) = d( ) =, U U : M =, DT węc M j. ( ) {( ) ( ) } {( ) } = j j j j j Zgodne z defncją mamy ( a X a( ) = a( )) d( ) = d( ) : j j równoważne możemy zapsać: ( a X : a( ) a( j )) d( ) d( j ). Zgodne z tym warnkem mamy: M X = { a C a( ) a( ) d( ) d( )} X = { a X : a( ) a( ) d( ) d( )} = j : j j j j Poneważ M j, węc M j F. Zbór X ne jest zborem trafenowym, gdyż M j X =. Poneważ zbór X został wybrany w sposób dowolny, węc zbór H jest mnmalnym zborem trafenowym dla rodzny F.. 2) Teza natychmast wynka z pnkt 1) Realzacja wybranych pojęć Strktry rozróżnalnośc obektów Algorytmy szkające redktów w tablcy decyzyjnej zwykle wykorzystją te same strktry jednoznaczne wynkające z rozpatrywanej tablcy. Podstawową strktrą określającą, jake atrybty pozwalają na rozróżnene par obektów jest macerz rozróżnalnośc. Korzystając z symetr przy wylczan całej macerzy rozróżnalnośc można ogranczyć sę wyłączne do przejrzena wszystkch dwelementowych kombnacj obektów z U. Dla każdej kombnacj obektów z różnych klas jest wyznaczany zbór atrybtów, na których te obekty sę różną. W mplementacj nadmarowe nformacje w ogóle ne są przechowywane. Bez względ na ewentalną optymalzację etap ma złożoność czasową pamęcową O(nm 2 ). Schemat wyznaczana macerzy rozróżnalnośc fnkcja fnd-dscernblty-matrx dla każdego od 1 do m M dla każdego od 1 do m dla każdego j od +1 jeśl d( ) d( j ) M j dla każdego k od 1 do n jeśl a k ( ) a k ( j ) to M j M j {a k } M j M j naczej M j zwróć M Fnkcja rozróżnalnośc Dla danej tablcy decyzyjnej jej macerzy rozróżnalnośc możemy skorzystać z konstrktywnego charakter defncj wyznaczyć fnkcję rozróżnalnośc. Z twerdzena wynka, że każdy mplkant perwszy odpowada redktow rozpatrywanej tablcy decyzyjnej. Fakt ten pozwala sprowadzć problem wyznaczana zbor 64

65 wszystkch redktów do problem mnmalzacj fnkcj boolowskej. Idea ta została wykorzystana w prezentowanym ponżej podejśc dokładnym. Poneważ fnkcja rozróżnalnośc ma postać konnkcyjno-alternatywną, węc zgodne z defncją jest ona monotonczna. Na podstawe twerdzena można dla nej znaleźć równoważną fnkcję zbdowaną z alternatywy mplkantów perwszych fnkcj wyjścowej. Ze względów efektywnoścowych etap mnmalzacj fnkcj warto poprzedzć redkcją fnkcj poprzez snęce czynnków: zawsze prawdzwych, które odpowadają pstym elementom macerzy nerozróżnalnośc zbędnych, poprzez zastosowane praw pochłanana (twerdzene 6.2-6) Krok ten ma złożoność czasową O(n 2 m 2 ) Metody znajdowana wszystkch redktów Podejśce dokładne Algorytm dokładny znajdje wszystke redkty danej tablcy decyzyjnej. Jego najstotnejszym elementem jest mnmalzacja fnkcj rozróżnalnośc. Schemat algorytm: fnkcja exact-redct-fnder M znajdź macerz rozróżnalnośc f wyznacz fnkcję rozróżnalnośc na podstawe macerzy M f zredkj postać fnkcj rozróżnalnośc f d lczba czynnków fnkcj f LR 0 = dla każdego od 1 do d C zbór atrybtów odpowada -tem czynnkow fnkcj f S = {R LR : R C } {a} R : a C,R C =,R LR T = {a}: a C LR = S T z elementów LR d sń atrybty zbędne. z LR d sń elementy powtarzające sę. zwróć LR d Algorytm zwraca zbór RED DT (C). Należy zaznaczyć, że metoda posada stotne wady. Po perwsze może być zastosowana wyłączne do nedżych tablc decyzyjnych, tzn. klkaset obektów klkadzesąt atrybtów. Dla wększych zborów danych okazje sę neefektywna. Po drge otrzymane jakchkolwek redktów tablcy wymaga zakończena całego algorytm. Na płaszczyźne rozwązań dokładnych zmagana z perwszym zarztem przenoszą oblczena do dzedzny algorytmów równoległych. Drg problem może zostać rozwązany przez pewną modyfkację zaprezentowanego wyżej podejśca, która pozwala na skcesywne powększane zbor znalezonych redktów przez czas dzałana procedry. 1 LR LR 1 1 = 65

66 Podejśce zachłanne Jedne z najprostszych metod stosowanych do wyznaczana redktów mają charakter zachłanny. Nech będze dana tablca decyzyjna (U,A,C,{d}). Procedry wyznaczają pewen zbór rozróżnający analzjąc kolejno atrybty warnkowe tablcy zgodne z stalonym porządkem Kolejność przeglądana atrybtów może być modelowana przez permtację atrybtów P = ( a 1,.., a n ). Permtacja ta jednoznaczne określa zbór wynkowy. Perwsza metoda startje ze zbor pstego dodaje do nego atrybty zgodne z permtacją P do moment, gdy zbór stane sę rozróżnający. Istotną własnoścą algorytm jest fakt, że nekoneczne cała permtacja jest wykorzystywana do znalezena zbor rozróżnającego. Schemat metody: fnkcja greedy-addng-dfferentatng-set-fnder B= =1 dopók CS(B) CS(C) x P B B {x} +1 zwróć B Drga metoda rozpoczyna dzałane z zadanym zborem początkowym zgodne z permtacją P odejmje dany atrybt, jeśl jest on zbędny. W tym wypadk do redkcj jest wykorzystywana cała permtacja, a otrzymany zbór rozróżnający jest zawsze redktem. Schemat metody: fnkcja greedy-sbtractng-dfferentatng-set-fnder B=C =1 dopók C x P jeśl CS(B\{x})=CS(C) to B B\{x} +1 zwróć B Warto zaznaczyć, że jeśl dana tablca decyzyjna posada wele redktów o małym rozmarze ne jest koneczne otrzymane optymalnego zbor rozróżnającego, to metody te okazją sę bardzo przydatne. Welokrotne powtórzene wybranej z metod pozwala na wyznaczene pewnego zbor zborów rozróżnających. Zaważmy jednak, że bezpośredne zastosowane metod do szkana wszystkch redktów ne ma sens, gdyż przestrzeń n-elementowych permtacj jest wększa nż przestrzeń możlwych podzborów atrybtów. Metody znajdją zastosowane w zaawansowanych algorytmach wyznaczana mnmalnych redktów. Po perwsze zastosowane dla całego zbor atrybtów dostarczają górnego ogranczena na rozmar mnmalnego redkt. Dodatkowo metoda drga jest żywana do 66

67 redkcj otrzymanych w czase dzałana algorytm nadredktów. W wększośc zastosowań procedry zachłanne dzałają dla przyjętej arbtralne stałej permtacj atrybtów Podejśce herystyczne Dża przestrzeń rozwązań dla problem wyznaczana redktów tablcy decyzyjnej wymsza życe metod przyblżonych. Dla problem wyznaczena pojedynczego redkt o małym rozmarze został zaproponowany algorytm Johnsona. Redkt tak może zostać przykładowo wykorzystany do zbdowana zbor krótkch regł klasyfkjących. Poprawene wynków metody można osągnąć przez wstępną optymalzację fnkcj rozróżnalnośc za pomocą praw pochłanana. Proces ten jest jednak czasochłonny czyn algorytm neefektywnym dla dżych danych. Dla problem wyznaczana mnmalnego redkt zaproponowano wele algorytmów przyblżonych. W wększośc wykorzystją one znane podejśca optymalzacyjne, w szczególnośc symlowane wyżarzane lb algorytmy ewolcyjne [49]. Bardzo często stotnym elementam tych metod są omówone w poprzednm rozdzale procedry zachłanne. Analogczne podejśce optymalzacyjne może zostać zastosowane do rozwązana nteresjącego nas problem wyznaczana wszystkch redktów tablcy decyzyjnej Dekompozycja przestrzen Wele przyblżonych metod wyznaczana redktów poszkje zborów rozróżnających w całej przestrzen możlwych podzborów atrybtów warnkowych, a następne redkje je do redktów wykorzystjąc metodę zachłanną. Nestety, dla dżych tablc decyzyjnych rozmar przestrzen poszkwań ne pozwala na życe algorytm optymalzacj bezpośredno do całej przestrzen. Dobre efekty daje stratega dekompozycj przestrzen poszkwań zaproponowana dla problem znajdowana mnmalnego kolorowana dla graf [17] oraz problem wyznaczana mnmalnego redkt [45]. Skpmy sę na drgm z wymenonych problemów. Zamast przeszkwać bezpośredno przestrzeń S=2 C, możemy rozwązać co najwyżej n podproblemów dotyczących C przeszkwana podprzestrzen S k = { X 2 : X = k}. W przypadk wspomnanych prac zostały zastosowane efektywne herystyk dla znalezena podprzestrzen zawerającej rozwązane optymalne. Zaważmy, że jeśl ogranczene górne znajdje sę w podprzestrzen S k, to na pewno rozwązane całego problem ne znajdje sę w przestrzen S m, gdze m>k. W ten sposób można skteczne zawężać przestrzeń rozwązań całego problem. Istotna różnca w stosnk do rozważanego problem wyznaczana wszystkch redktów polega na tym, że ne zawera on w sobe problem optymalzacj elementy rozwązana mogą znajdować sę w każdej z podprzestrzen. Mmo to dekompozycja przestrzen S pozwala na sktecznejsze przeglądane podprzestrzen w poszkwan redktów. Proponowany ttaj algorytm wykorzystje dekompozycję przestrzen na podprzestrzene formłje problem wyznaczana redktów za pomocą podproblemów odpowadających tym podprzestrzenom. Podproblem k-ty dotyczy wyznaczana mnmalnych k-zborów trafenowych. Dla każdego zbor z wyznaczonej rodzny k-zborów trafenowych jest znajdowany redkt. Procedra ta ma charakter zachłanny polega na swan kolejnych atrybtów zbędnych zgodne z stalonym arbtralne porządkem. Otrzymane redkty dodawane są do zbor gromadzonych redktów. 67

68 Ponższy algorytm wyznacza redkty tablcy decyzyjnej o dłgośc ne wększej nż UPPER. Jeśl przyjmemy UPPER=n, to algorytm szka wszystkch redktów. fnkcja evoltonary-redct-fnder k=1 LR 0 = dopók k UPPER H k wyznacz k-zbory trafenowe R k wyznacz redkty na podstawe H LR k = LR k-1 R k zwróć LR UPPER 6.5. Metody wyszkwana mnmalnych k-zborów trafenowych Wprowadzene Prezentowane ttaj podejśca do problem wyszkwana mnmalnych k-zborów trafenowych polegają na przeszkan przestrzen podzborów k-elementowych. Formalne n przestrzeń poszkwań zawera atrybtów. Jeśl ma ona dże rozmary, to możlwe jest k wyłączne przejrzene przyblżone. W ogólnośc można zaproponować ttaj dowolny algorytm optymalzacj. Ponżej prezentowane są przykładowe metody, które dają kontekst dla dysksj efektywnośc Podejśce dokładne Metoda sprowadza sę do przejrzena całej przestrzen podzborów k-elementowych sprawdzan, które są mnmalnym zboram trafenowym. Ze względ na wyczerpjący charakter dzałana może być zastosowana wyłączne dla wartośc k blskch 1 lb n Podejśce losowe Metoda wybera losowe k-elementowe kombnacje sprawdza, czy są mnmalnym zboram trafenowym. Może być stosowana dla dowolnych k. fnkcja random-httng-set-fnder LH= dopók (ne warnek stop) H wyberz losowo zbór jeśl H jest mnmalnym zborem trafenowym to LH= LH H zwróć LH Podejśce ewolcyjne Znaczne sktecznejsze okazją sę metody, które odwołją sę w danej chwl do hstor przeprowadzonych oblczeń oraz wyberają obszary poszkwań odwołjąc sę do mar przydatnośc rozwązań. Przykładem takego podejśca są algorytmy ewolcyjne [3,17]. Algorytmy ewolcyjne odwołją sę do teor ewolcj. Z tego względ do ops nektórych pojęć nformatycznych powszechne stosowane jest słownctwo zaczerpnęte z genetyk. Ne należy przy tym nterpretować tych pojęć dosłowne, gdyż ch obecność zwązana jest 68

69 wyłączne z stnenem pewnej analog pomędzy proponowaną metodą poszkwań, a procesam bologcznym. Przestrzeń poszkwań jest mapowana na przestrzeń osobnków. Z każdym osobnkem zwązany jest jego genotyp. Wprowadza sę wzajemne jednoznaczne kodowane rozwązań na genotypy. Stopeń przystosowana osobnka do środowska merzy jakość rozwązana, tak węc przystosowane jest bezpośredno zwązane z optymalzowaną w zadan fnkcją. Algorytm rozpatrje pewną poplację osobnków w określonym horyzonce czasowym. Wybór osobnków do poplacj początkowej jest określany, jako etap ncjacj lb sana. Jednostka czas jest zwązana ze zmaną jednego pokolena (generacj), czyl zastąpen starej poplacj, zwanej bazową, przez następną. Przemana pokoleń realzowana jest poprzez symlowaną ewolcję. Nowa poplacja powstaje ze starej przez reprodkcję osobnków sekwencyjne zastosowane określonego łańccha operatorów genetycznych. Reprodkcja zwązana jest z odpowedną selekcją osobnków, które są meszczane w poplacj tymczasowej. Selekcja jest dyktowana stopnem przystosowana osobnków ms być poprzedzona ocenenem przystosowana w całej poplacj. Pojedynczy operator dzała na wybranych osobnkach, zwanych dalej rodzcelskm, daje w wynk nowe osobnk, zwane dalej potomnym. Operator określa zależność pomędzy genotypam osobnków potomnych rodzcelskch. Tradycyjne łańcch operatorów składa sę z operatorów krzyżowana mtacj. Przy wel powszechne stosowanych kodowanach zachowją one analogę do odpowednch zjawsk genetycznych. Krzyżowane przekształca dwa osobnk rodzcelske na dwa osobnk potomne. Mtacja zaś na podstawe jednego rodzca tworzy jednego osobnka potomnego. Otrzymana poplacja wynkowa poplacja bazowa dają w procese skcesj poplację następnej generacj. Czas dzałana algorytm określony jest przez warnek stop. Może być zwązany zarówno z lczbą generacj, beżącą poplacją lb welkoścą określoną dla całej symlacj. Rozwązane otrzymje sę poprzez badane poplacj dla kolejnych generacj rejestrację określonej lośc osobnków rekordowych. W zaryse schemat algorytm można zapsać następjąco [3]: fnkcja evoltonary-algorthm t 0 ncjacja P 0 ocena P 0 R 0 rejestrj najlepsze wynk z P 0 dopók (ne warnek stop) T t reprodkcja P t O t zastosowane operatorów na T t ocena O t P t+1 skcesja z P t O t R t+1 rejestrj najlepsze wynk z P t+1 t t+1 zwróć R t Technk ewolcyjne znajdją szeroke zastosowane w problemach optymalzacj. Tym nemnej, ne został dla nch dotąd sformłowany dowód zbeżnośc. Za neformalne zasadnene przyjmje sę obserwację, że natra ne ms dzałać optymalne, ale mmo to wydaje sę dzałać dobrze. 69

70 Rozważając problem poszkwana k-zborów trafenowych msmy wperw zaproponować mapowane przestrzen poszkwań na przestrzeń osobnków. Pojedynczy osobnk reprezentje k-zbór trafenowy A. Genotyp osobnka jest wektorem n-elementowym P, takm że: 1 a A P = 0 a A Powyżej przyjęte kodowane zachowje stałą lczbę jedynek w wektorze P, równą k. Początkowo poplacja ncjowana jest osobnkam o genotypach losowanych z równomernego rozkład kombnacj k-elementowych. Operatory genetyczne mszą zachowywać nezmenną lczbę jedynek w genotypach, dlatego ne możlwe jest zastosowane standardowych operatorów dla kodowana bnarnego. Wygodne jest zastosowane kolejno dwóch operatorów. Każdy z operatorów jest stosowany z określonym prawdopodobeństwem. Operator krzyżowana dzała na 2 osobnkach rodzcelskch zwraca 2 osobnk potomne. Analzowane są kolejne geny ob osobnków, zgodne z ponższym algorytmem. Oznaczena: A,B genotypy osobnków rodzcelskch C,D genotypy osobnków potomnych ones ( A, k) k = 1 A = 1 fnkcja cross-over(a,b) dla każdego od 1 do n jeśl A =B, to C A D A naczej jeśl ones(a,)< ones(b,) to C 1 D 0 naczej jeśl ones(a,)> ones(b,) to C 0 D 1 Inaczej X losj spośród zbor {C,D} Y element zbor {C,D}/{X} X 1 Y 0 Operator mtacj dzała na daje w wynk jednego osobnka. Polega on na zamane mejscam dwóch losowo wybranych genów. Fnkcja przystosowana ms być tak zdefnowana, aby proponować osobnk reprezentjące zbory o wększej sle rozróżnana obektów. Słę tę możemy rozmeć, jako lczbę par obektów pokrytych przez zbór reprezentowany danym osobnkem. Ze względ na wygodę odnosmy tę marę do sły rozróżnającej całego zbor atrybtów, dzęk czem zbór wartośc fnkcj przystosowana zawera sę w przedzale <0,1>. Fnkcja przystosowana przyjmje postać: 70

71 ftness ( B) = CS( B) CS( A) Zadane optymalzacj poszkje rozwązana maksymalzjącego tę fnkcję cel. 71

72 7. Wyznaczane charakterystycznych wzorców ekspresj 7.1. Wprowadzene Jednym z celów stawanych przed dzedzną odkrywana wedzy jest analza danych pod kątem wykrywana pewnych charakterystycznych wzorców. W pracy zajmę sę szczególnym typem wzorców wzorcam wyłanającym. Idea wzorców wyłanających jest stosnkowo młoda. Perwsze krok w tym temace przypsje sę L, a perwszą defncję tej nowej formy zaps wedzy można znaleźć w pblkacj [13] z Pojęce zwązane jest z badanem pary dyskretnych systemów nformacyjnych o atrybtach z tym samym przecwdzedznam. Wzorzec jest zborem par (atrybt, wartość atrybt). Istotność wzorca zależy od tego, jak bardzo jest on charakterystyczny dla jednego z systemów. Precyzjąc, wzorzec jest stotny, jeśl dla newelkej częśc obektów perwszego system atrybty przyjmją jednocześne wskazywane przez wzorzec wartośc, podczas gdy dla drgego system własność ta zachodz dla relatywne wększej częśc obektów. Mów sę, że wzorzec występje z system perwszego do drgego. Stosnek częstotlwośc występowana wzorca wyraża jego słę rozróżnana pomędzy systemam jest określany manem współczynnka wzrost wsparca. Najwęcej mejsca pośwęcłem wzorcom wyskakjącym, które w ogóle ne występją w jednym systeme, ale są obecne w drgm. Mają one neskończony współczynnk wzrost wsparca. Atorzy wskazją, że wzorce mogą być wykorzystane do analzy trendów w bazach danych znakowanych czasem oraz do znajdowana kontrastów mędzy klasam. Rozważmy tablcę decyzyjną, w której: każdy obekt dotyczy pojedynczego zakponego koszyka każdy atrybt warnkowy jest bnarny odpowada zakpow pewnego artykł w sklepe atrybt decyzyjny określa rok zarejestrowana koszyków przyjmje dwe wartośc ze zbor {2000,2001} Wzorce pozwalają na dentyfkacje zestawów artykłów, które były często kpowane w jednym rok rzadko w drgm. Przykładowy wzorzec wyłanający z rok 2000 do 2001: {(żrek,1),(chleb,1),(kełbasa bała,1)}. Spadek występowana zestaw w rok następnym mógł wynkać z powszechnena nformacj o szkodlwych składnkach wykrytych w zpe żrek pochodzącej od najwększych prodcentów. W pracy [28] rozważono poplarny zestaw danych na temat grzybów jadalnych trjących [58]. Znalezono dla nego mlony wzorców o współczynnk wzrost wsparca ne mnejszym nż 2,5. Przykładowy wzorzec wyskakjący ze zbor grzybów jadalnych do grzybów trjących: {(Odor,none),(Gll_Sze,broad),(Rng_Nmber,one)}. Wzorce wyłanające posadają stotne własnośc [27]. Po perwsze badana wykazały, że są one poprawnym zapsem wedzy. Jeśl obekty odpowadają pomarom rzeczywstych pojęć, to wzorce wyznaczone dla pewnego zbor obektów pozostają z dżym prawdopodobeństwem wzorcam w zborze rozszerzonym. Fakt ten wskazje na dobre zachowane wzorców przy opse natry danego zagadnena. Zaważmy dalej, że tradycyjne metody statystyczne ne są w stane wykryć wzorców o dżej dłgośc. Wzorce take stanową zpełne nowe źródło nformacj. Co węcej postać wzorca jest łatwa do zrozmena 72

73 dla człoweka, gdyż można ją nterpretować, jako konnkcję pewnych warnków bezpośredno przełożyć na regłę. Zgodne z przykładam przytoczonym wcześnej wzorce znajdją szeroke zastosowane praktyczne. Atorzy pomysł szczególne w wel pracach omówl znakomte zdolnośc wzorców w zadanach klasyfkacj. Wymenć t należy lenwy klasyfkator DeEP [27], klasyfkator CAEP [14] oraz JEP-classfer [28]. Dla wększośc analzowanych zborów danych zaproponowane klasyfkatory wykazały sę najwyższą sktecznoścą w porównan do nnych poplarnych metod (m.n. CBA, LB, C5.0, k-nn). W zależnośc od sposob zdefnowana problem wzorcam można posłżyć sę zarówno przy znajdowan różnc pomędzy dwoma klasam, jak do predykcj trendów czasowych. Narzca sę równeż wykorzystane wzorców do znajdowana zborów regł asocjacyjnych [27]. W szczególnośc możlwe jest wyznaczene regł o nskm wsparc, które trdno wykryć za pomocą algorytmów tradycyjnych, bazjących na znajdowan zborów częstych dla określonego prog wsparca. Ponadto, wzorce wyskakjące mogą być żyte do formłowana zborów regł pewnych. Dże znaczene odgrywają ttaj wzorce o dżym wsparc, czyl take, które są szczególne charakterystyczne dla obektów jednej klasy Znaczene dla badana ekspresj Perwotne dea wzorców wyłanających została opracowana do analzy danych bznesowych. Po perwszych skcesach zakres zastosowań powol zaczął sę rozszerzać. Wykorzystane wzorców do badana ekspresj genów zaproponowal atorzy pojęca [30,31]. Metoda wymaga wstępnego oszacowana stotnośc genów elmnacj najmnej znaczących ze względów efektywnoścowych, a następne dyskretyzacj. Podejśce zmerza do dentyfkacj wzorców wyłanających. W tym przypadk są to zbory par (gen, zbór wartośc), które są charakterystyczne dla obektów jednej klasy decyzyjnej rzadke dla obektów nnych klas. Przykładowy wzorzec może meć postać: {(K03001,<89.20,+ )), (R76254,<127.16,+ )),(D31767,<63.03,+ ))}. Wzorzec ten pokazje, że trzy geny legają razem ekspresj w wększośc tkanek danego typ. Przedzały wartośc pochodzą z krok dyskretyzacj. Wzorce dostarczają nformacj o grpach fnkcjonalnych genów, które pozostają w slnym zwązk z badanym zjawskem. Mogą one być równeż z powodzenem wykorzystane do bdowy sktecznych klasyfkatorów tkanek wnoskjących na podstawe profl ekspresj. W naszej analze wykorzystamy podejśce do badana ekspresj zaproponowane przez atorów de. Rozważając zdyskretyzowaną macerz ekspresj będzemy poszkwać najczęścej występjących wzorców wyskakjących, które wskazją najstotnejsze grpy genów Defncje twerdzena Ponżej wprowadzam pojęca powszechne wykorzystywane w zagadnenach reprezentacj wedzy. Charakter pojęć odwołje sę do model zakpów w sklepe, w którym można nabyć po jednym przedmoce każdego rodzaj [20]. Zawartość pojedynczego koszyka jest rejestrowana pod postacą transakcj w prostej jednotabelowej baze danych. Transakcja jest ttaj rozmana, jako podzbór przedmotów wybranych z pewnej stalonej przestrzen. Na 73

74 grnce teor relacyjnych baz danych powyższa baza danych może być nterpretowana jako relacja, dla której każdy atrybt odpowada wzajemne jednoznaczne przedmotow oraz domena każdego atrybt jest bnarna. Arbtralne możemy przyjąć, że wartość 1 danego atrybt dla pewnej krotk oznacza obecność odpowadającego m przedmot w transakcj opsywanej tą krotką. Ogólne cel powyższego rozmowana jest dyktowany wygodą sprowadza sę do skojarzena pojedynczego obekt system nformacyjnego ze zborem wartośc, który jednoznaczne opsje wartośc wszystkch atrybtów dla rozważanego obekt. Wszystke defncje dotyczące bdowy rodzny baz danych dla tablcy decyzyjnej zostały zaproponowane w cel połączena zagadneń opartych na reprezentacj nformacj w postac tablcy decyzyjnej baz danych. Defncje część twerdzeń dotyczących wzorców wyłanających pochodz z pracy [27], przy czym zostały one przeformłowane do przyjętej w rozdzale konwencj. Twerdzena wprowadzane na potrzeby pracy zostały poparte dowodam. Rozważmy system nformacyjny (U,A) o skończonych atrybtach dyskretnych. Założene to dotyczy wszystkch rozważanych w tym rozdzale systemów nformacyjnych. Defncja Przedmot oznacza parę (a,v), gdze a A v V a. Defncja Nech IS=(U,A) będze systemem nformacyjnym. Przestrzeń przedmotów S IS oznacza zbór przedmotów S ( a, v) : a A v V } Przykład IS =. { a Dla przyblżena pojęć będzemy w tym rozdzale rozważać tablcę decyzyjną DT 3 =(U,A,C,{d}) otrzymaną w rozdzale Rozpatrzmy system nformacyjny IS=({H 1,H 2,H 3,H 4 },C), który zawera obety U, take że d()=0. G 1 G 2 G 3 G 4 G 5 H H H H Tab Tablca decyzyjna DT 3 Przestrzeń przedmotów S IS ={(G 1,0),(G 2,0),(G 2,1),(G 3,0),(G 3,1),(G 4,0),(G 4,1),(G 5,0),(G 5,1)}. Defncja Nech IS= (U,A) będze systemem nformacyjnym. Przyporządkowane transakcj T IS dla system nformacyjnego IS oznacza bjekcję S T : U 2 IS, taką że T ( ) = {( a, v) A V : a A a( ) v}. IS Przy czym IS a = A 2 oznacza zbór potęgowy dla zbor A. 74

75 Defncja Nech IS=(U,A) będze systemem nformacyjnym, T IS jego przyporządkowanem transakcj, a U przedmotem. Transakcja dla danego obekt oznacza zbór przedmotów T IS (). Przestrzeń przedmotów jest zborem wszystkch przedmotów, które mogą pojawć sę w transakcjach. Przykład Przyporządkowane transakcj dla system nformacyjnego IS przedstawone zostało w tabel Wartość przyporządkowana dla każdego obekt jest transakcją. T IS () H 1 {(G 1,0),(G 2,0),(G 3,0),(G 4,1),(G 5,1)} H 2 {(G 1,0),(G 2,0),(G 3,0),(G 4,1),(G 5,1)} H 3 {(G 1,0),(G 2,0),(G 3,1),(G 4,0),(G 5,0)} H 4 {(G 1,0),(G 2,0),(G 3,1),(G 4,1),(G 5,1)} Tab Przyporządkowane transakcj T IS Defncja Nech IS= (U,A) będze systemem nformacyjnym. Baza danych D IS dla system nformacyjnego IS oznacza mltzbór transakcj D = { T : U. IS IS ( ) } Przyporządkowane transakcj wyraża wzajemną odpowedność pomędzy systemem nformacyjnym jego bazą danych. Ze względ na tę odpowedność bazę danych często rozpatrje sę w oderwan od system nformacyjnego. Jeśl ne będze to prowadzło do nejednoznacznośc, to w oznaczen bazy danych mplcte będze przyjmowane, że dotyczy ona określonego system nformacyjnego ndeks dolny zostane pomnęty. Przykład Baza danych dla system IS jest mltzborem następjącej postac: { {(G 1,0),(G 2,0),(G 3,0),(G 4,1),(G 5,1)}, {(G 1,0),(G 2,0),(G 3,0),(G 4,1),(G 5,1)}, {(G 1,0),(G 2,0),(G 3,1),(G 4,0),(G 5,0)}, {(G 1,0),(G 2,0),(G 3,1),(G 4,1),(G 5,1)} } Baza została przedstawona przez enmerację swoch elementów. Należy pamętać, że formalne jest ona fnkcją, która wyraża lczbę wystąpeń danego zbor (pnkt dzedzny) w mltzborze. Rozważany mltzbór ma postać: 75

76 X N(x) {(G 1,0),(G 2,0),(G 3,0),(G 4,1),(G 5,1)} 2 {(G 1,0),(G 2,0),(G 3,1),(G 4,0),(G 5,0)} 1 {(G 1,0),(G 2,0),(G 3,1),(G 4,1),(G 5,1)} 1 Tab Baza danych D IS Otrzymana baza danych będze dalej oznaczana przez D 1. Defncja Nech D będze bazą danych. Lczność występowana zbor przedmotów X w baze danych D oznacza cont D ( X ) = { D : X D}. Defncja Nech D będze bazą danych. Wsparce zbor przedmotów X w baze danych D oznacza spp ( X ) cont D ( X ) D =. D Defncja Nech D będze bazą danych, a δ staloną lczbą rzeczywstą, przy czym δ <0,1>. Zbór przedmotów X w baze danych D dla stalonego pozom wsparca δ jest: częsty, jeśl spp D ( X ) δ rzadk, jeśl spp D ( X ) < δ Przykład W tabel zostały przedstawone przykładowe zbory przedmotów, dla których wyznaczono lczność wsparce oraz określono, czy zbór jest częsty czy rzadk dla δ=50%. Lczność przedmotów X cont(x) spp(x) częsty/rzadk {(G 1,0),(G 2,0)} 4 100% częsty {(G 2,0),(G 4,1)} 3 75% częsty {(G 2,0),(G 5,1)} 3 75% częsty {(G 3,1),(G 4,1),(G 5,1)} 1 25% rzadk Tab Lczność wsparce zborów przedmotów w D IS Rozważmy tablcę decyzyjną (U,A,C,{d}) o skończonych dyskretnych atrybtach warnkowych oraz skończonym atrybce decyzyjnym d. Założene to dotyczy wszystkch rozważanych w tym rozdzale tablc decyzyjnych. Defncja Relacja przynależnośc do klasy R DT dla tablcy decyzyjnej DT, jest relacją dwargmentową 2 w zborze U o postac R DT = (, ) U d( ) = d( ). { } 1 2 :

77 Twerdzene Relacja przynależnośc do klasy dla tablcy decyzyjnej DT jest relacją równoważnośc. Dowód: Dla równoważnośc relacj przynależnośc do klasy potrzeba wystarcza jej zwrotność, symetryczność przechodność. Cechy te przenoszą sę z relacj równośc w zborze V d. Weźmy dowolne U. Relacja jest zwrotna, gdyż zachodz d()=d(). Weźmy dowolne,v U. Relacja jest symetryczna, gdyż d()=d(v) d(v)=d(). Weźmy dowolne,v,w U. Relacja jest przechodna, gdyż d ( ) = d( v) d( v) = d( w) d( ) = d( w). Dla relacj R w zborze A przyjmję dalej oznaczena: a oznacza klasę abstrakcj relacj R generowaną przez element a A [ ] R A R oznacza zbór lorazowy relacj R Relacja przynależnośc do klasy R DT generje podzał zbor U na klasy abstrakcj. Zaważmy, że każda klasa abstrakcj zwązana jest wzajemne jednoznaczne z pewną wartoścą atrybt decyzyjnego. Klasy abstrakcj są nepste, dlatego stneje przynajmnej jeden obekt należący do każdej z nch. Oznaczmy: V d ={d 1,..,d p } dla każdego =1,..,p: U = [ ] przy dowolnym obekce RDT takm, że ( ) d Przykład d = W cel przyblżena kolejnych twerdzeń zostane wykorzystana tablca decyzyjna DT 3. G 1 G 2 G 3 G 4 G 5 d H Z H Z H Z H Z H R H R H R H R Relacja przynależnośc do klasy ma postać: Tab Tablca decyzyjna DT 3 R DT ={ (H 1,H 1 ),(H 1,H 2 ),(H 1,H 3 ),(H 1,H 4 ),(H 2,H 1 ),(H 2,H 2 ),(H 2,H 3 ),(H 2,H 4 ), (H 3,H 1 ),(H 3,H 2 ),(H 3,H 3 ),(H 3,H 4 ),(H 4,H 1 ),(H 4,H 2 ),(H 4,H 3 ),(H 4,H 4 ), (H 5,H 5 ),(H 5,H 6 ),(H 5,H 7 ),(H 5,H 8 ),(H 6,H 5 ),(H 6,H 6 ),(H 6,H 7 ),(H 6,H 8 ), (H 7,H 5 ),(H 7,H 6 ),(H 7,H 7 ),(H 7,H 8 ),(H 8,H 5 ),(H 8,H 6 ),(H 8,H 7 ),(H 8,H 8 ) } 77

78 Zbór lorazowy relacj przynależność R DT ma postać: A R = H, H, H, H, H, H, H H { } { } , 8 Defncja Nech DT=(U,A,C,{d}) będze tablcą decyzyjną R DT relacją przynależnośc. Rodzna systemów nformacyjnych ze względ na decyzję dla tablcy decyzyjnej DT oznacza zbór systemów nformacyjnych {(U 1,C 1 ),..,(U p,c p )}, przy czym: U,.., U p = U { 1 } RTD dla każdego =1,..,p zachodz C { a,.., a } a j : U V j =, przy czym dla każdego j=1,..,n mamy 1 Defncja Nech DT=(U,A,C,{d}) będze tablcą decyzyjną {(U 1,C 1 ),..,(U p,c p )} będze rodzną systemów nformacyjnych ze względ na decyzję dla tej tablcy. Rodzna baz danych ze względ na decyzję DBF dla tablcy decyzyjnej DT oznacza zbór baz danych {D 1,..,D p }, tak że dla każdego =1,..,p: D jest bazą danych dla system nformacyjnego (U,C ). Dla jasnośc zaps warto podsmować zachodzące odpowednośc pomędzy omówonym pojęcam. Rozważając tablcę decyzyjną DT=(U,A,C,{d}) wprowadzamy arbtralną nmerację wartośc, które przyjmje atrybt decyzyjny d. Każdej wartośc d tego atrybt odpowada wzajemne jednoznaczne klasa abstrakcj relacj przynależnośc do klasy R DT. Dla każdej klasy abstrakcj możemy zdefnować system nformacyjny tworząc w ten sposób rodznę systemów nformacyjnych ze względ na decyzję. Poneważ nasze dalsze rozważana operować będą na bazach danych, dlatego każdy system nformacyjny rodzny kojarzymy z odpowadającą m bazą danych otrzymjemy rodznę baz danych ze względ na decyzję. Zaważmy, że ze względ na perwotną tablcę decyzyjną DT wszystke bazy danych rodzny mają wspólną przestrzeń przedmotów. Stosnkowo często mamy do czynena z przypadkem dwóch klas decyzyjnych, który zachodz dla p=2. W tym przypadk rodzna baz danych ze względ na decyzję jest zborem dwelementowym {D 1,D 2 }. Można równeż sztczne wyróżnć jedną nteresjącą nas klasę, a wszystke nne potraktować jako klasę przecwstawną. W ten sposób atrybt decyzyjny d zastępjemy nowym atrybtem d o dwelementowym zborze wartośc. Przykład Rodzna baz danych ze względ na decyzję DBF 4 ={D 1,D 2 } dla tablcy decyzyjnej DT 3 ma postać: { { {(G 1,0),(G 2,0),(G 3,0),(G 4,1),(G 5,1)}, {(G 1,0),(G 2,0),(G 3,0),(G 4,1),(G 5,1)}, {(G 1,0),(G 2,0),(G 3,1),(G 4,0),(G 5,0)}, {(G 1,0),(G 2,0),(G 3,1),(G 4,1),(G 5,1)} }, { {(G 1,0),(G 2,1),(G 3,0),(G 4,0),(G 5,0)}, {(G 1,0),(G 2,1),(G 3,0),(G 4,0),(G 5,0)}, {(G 1,1),(G 2,1),(G 3,0),(G 4,1),(G 5,0)}, {(G 1,1),(G 2,1),(G 3,0),(G 4,0),(G 5,0)} } } n 78

79 Rodzna będze dalej wykorzystywana do dalszych oblczeń. Indeks rodzny został tak dobrany, aby zobrazować kolejny etap analzy. Defncja Nech {D 1,D 2 } będze rodzną baz danych ze względ na decyzję dla tablcy decyzyjnej DT. Współczynnk wzrost wsparca z D 1 do D 2 dla zbor przedmotów X oznacza growth D 1 D2 ( X ) 0 = spp 2 spp1 ( X ) ( X ) dla spp (X) = 0 spp 1 dla spp (X) = 0 spp 1 w nnym przypadk 2 2 (X) = 0 (X) 0 Defncja Nech {D 1,D 2 } będze rodzną baz danych ze względ na decyzję dla tablcy decyzyjnej DT, a ρ lczbą rzeczywsta, dla której zachodz ρ>1. ρ-wzorzec wyłanający z D 1 do D 2 oznacza zbór przedmotów X, dla którego growth X ( ) ρ D D. 1 2 Ze względ na nomenklatrę angelską ρ-wzorzec wyłanający określa sę w skróce ρ-ep (ρ-emergng pattern). Jeśl w danym kontekśce ρ jest jawne stalone, to możemy mówć po prost o wzorc wyłanającym (EP). Ponadto, jeśl baza odnesena D 1 jest stalona, powszechne żywane jest równeż określene wzorzec wyskakjący w D 2. Defncja Nech {D 1,D 2 } będze rodzną baz danych ze względ na decyzję dla tablcy decyzyjnej DT. Wzorzec wyskakjący z D 1 do D 2 oznacza wzorzec wyłanający, dla którego growth X = ( ) D D. 1 2 Wzorzec wyskakjący odpowada angelskem jmpng emergng pattern. Dalej żywany będze skót JEP. Twerdzene Wzorzec wyłanający X jest wyskakjący z D 1 do D 2, wtedy tylko wtedy, gdy spp X = spp X. Dowód: ( ) ( ) Trywalny, wynka z defncj Przykład W tabel zameszczone są przykłady wzorców wyskakjących. Zostały wybrane najwększe wartośc parametr ρ, take że zbór X jest ρ-wzorcem wyłanającym. Dla wzorców wyskakjących wsparce w baze, z której są wyznaczane pozwala na ocenę, jak często występją w transakcjach zwązanych z daną klasą. 79

80 σ Typ wzorca Zbór przedmotów X spp 1 (X) spp 2 (X) = growth ( X ) D1 D2 {(G 1,0)} 100% 50% 2 wyłanający {(G 4,1)} 75% 25% 3 wyłanający {(G 1,0),(G 4,1)} 75% 0 wyskakjący {(G 1,0),(G 2,0),(G 3,0), (G 4,1),(G 5,1)} 50% 0 wyskakjący Tab Przykłady wzorców wyłanających Defncja Nech DBF={D 1,D 2 } będze rodzną baz danych ze względ na decyzję dla tablcy decyzyjnej DT, a ρ lczbą rzeczywsta, dla której zachodz ρ>1. Przestrzeń ρ-wzorców wyłanających z D 1 do D 2 oznacza zbór wszystkch ρ-wzorców wyłanających z D 1 do D 2. Przestrzeń ρ-wzorców wyłanających z D 1 do D 2 oznaczamy przez ρ-ep DBF (D 1,D 2 ). Defncja Nech DBF={D 1,D 2 } będze rodzną baz danych ze względ na decyzję dla tablcy DT. Przestrzeń wzorców wyskakjących z D 1 do D 2 oznacza zbór wszystkch wzorców wyskakjących z D 1 do D 2. Przestrzeń ρ-wzorców wyłanających z D 1 do D 2 oznaczamy przez JEP DBF (D 1,D 2 ). Defncja Nech S będze dowolnym zborem skończonym. Kolekcja C podzborów S jest zamknęta ze względ na podzbory, jeśl C X C Y 2 : Y C. Innym słowy, kolekcja jest zamknęta ze względ na podzbory, jeśl każdy podzbór dowolnego element kolekcj równeż należy do kolekcj. Dokładna analza rozważanych pojęć [27] pokazje, że ne wszystke przestrzene ρ-wzorców wyłanających są zamknęte ze względ na podzbory. Stąd, podzbór właścwy ρ-wzorca wyłanającego ne ms być ρ-wzorcem wyłanającym. Defncja Nech {D 1,D 2 } będze rodzną baz danych ze względ na decyzję dla tablcy decyzyjnej DT, a ρ lczbą rzeczywsta, dla której zachodz ρ>1. ρ-wzorzec wyłanający jest slny, jeśl wszystke jego nepste podzbory są ρ-wzorcam wyłanającym. Przykład Nech S={(G 1,0),(G 4,1)}. Rozważmy kolekcję C={{(G 1,0)},{(G 4,1)},{(G 1,0),(G 4,1)}}. Kolekcja C jest zamknęta ze względ na podzbory. Zgodne z powyższym 2-wzorzec wyłanający {(G 1,0),(G 4,1)} jest slny, gdyż zbory przedmotów {(G 1,0)} {(G 4,1)} są równeż 2-wzorcam wyłanającym. Z kole 3-wzorzec wyłanający {(G 1,0),(G 4,1)} ne jest slny, gdyż growth D D ({ G1,0 }) = 2 <

81 Defncja Nech S będze dowolnym zborem skończonym. Rodzna C podzborów S jest wypkła, jeśl X,Y,Z S : X,Z C X Y Z Y C. Przykład Nech S={a,b,c,d}. Rodzna {{a},{a,c},{a,d},{a,c,d}} jest wypkła. Z kole rodzna {{b},{a,b,c}} ne jest wypkła, gdyż ne zawera zborów {a,b} {b,c}. Defncja Nech S będze dowolnym zborem skończonym. Antyłańcch oznacza rodznę C podzborów S, dla którego zachodz ( X, Y C) : X Y ( X Y Y X ). Przykład Nech S={a,b,c,d}. Rodzna {{b,d},{a,c},{a,d}} jest antyłańcchem. Z kole rodzna {{a,b,c},{a,c},{a,b,d}} ne jest antyłancchem, gdyż {a,c} {a,b,c}. Defncja Nech S będze dowolnym zborem skończonym. Płot oznacza parę (L,R), dla której: L,R są rodznam podzborów S L,R są antyłańccham ( X L) ( Y R) : X Y ( Y R) ( X L) : X Y Płot oznaczamy przez <L,R>. Rodznę L nazywamy lewym krańcem płot, a rodznę R prawym krańcem płot. Defncja Nech S będze dowolnym zborem skończonym. Przedzał zborów [L,R] reprezentowany przez płot <L,R> oznacza rodznę Y S : ( X L) ( Z R) : X Y Z { } Przykład Nech S={a,b,c,d}. Dla rodzn zborów zachodz: C={{a},{a,c},{a,d},{a,c,d}}=[{{a}},{{a,c,d}}]. Przy czym rodznę wypkłą C reprezentje płot <{{a}},{{a,c,d}}> C={{a,b},{a,c},{a,b,c}}=[{{a,b},{a,c}},{{a,b,c}}]. Przy czym rodznę wypkłą C reprezentje płot <{{a,b},{a,c}},{{a,b,c}}> Twerdzene ([27]) Rodzna jest wypkła wtedy tylko wtedy, gdy jest przedzałem zborów. Ze względ na pełną odpowedność pojęca rodzny wypkłej przedzał zborów twerdzena sformłowane dla jednego z nch są prawdzwe także dla drgego. 81

82 Twerdzene ([27]) Dla każdej przestrzen wypkłej C stneje dokładne jeden płot <L,R>, przy czym: L jest zborem elementów mnmalnych C R jest zborem elementów maksymalnych C Defncja Nech D będze bazą danych dla system nformacyjnego IS S jej przestrzeną przedmotów. Przestrzeń horyzontalna dla bazy danych D oznacza { X S : spp( X ) 0}. Przestrzeń horyzontalna jest zwązana z jedną bazą danych zawera wszystke zbory przedmotów, które mają nezerowe wsparce w tej baze. Twerdzene ([27]) Nech D będze bazą danych dla system nformacyjnego IS. Przestrzeń horyzontalna dla bazy D jest wypkła. Przykład Rodzna baz danych ze względ na decyzję DBF 4 ={D 1,D 2 } dla tablcy decyzyjnej DT 3 ma postać: { { {(G 1,0),(G 2,0),(G 3,0),(G 4,1),(G 5,1)}, {(G 1,0),(G 2,0),(G 3,0),(G 4,1),(G 5,1)}, {(G 1,0),(G 2,0),(G 3,1),(G 4,0),(G 5,0)}, {(G 1,0),(G 2,0),(G 3,1),(G 4,1),(G 5,1)} }, { {(G 1,0),(G 2,1),(G 3,0),(G 4,0),(G 5,0)}, {(G 1,0),(G 2,1),(G 3,0),(G 4,0),(G 5,0)}, {(G 1,1),(G 2,1),(G 3,0),(G 4,1),(G 5,0)}, {(G 1,1),(G 2,1),(G 3,0),(G 4,0),(G 5,0)} } } Rozpatrzmy bazę D 1. Zgodne z twerdzenem przestrzeń horyzontalna dla D 1 jest wypkła. Oznacza to, że możemy ją reprezentować za pomocą płot <L,R>. Do prawego krańca należą wszystke maksymalne zbory przedmotów należące do elementów bazy D 1, czyl po prost jej transakcje. Przestrzeń zawera wszystke podzbory zborów z krańca R, czyl L jest zborem pstym. Przestrzeń horyzontalna dla D 1 jest reprezentowana przez płot <,{{(G 1,0),(G 2,0),(G 3,0),(G 4,1),(G 5,1)},{(G 1,0),(G 2,0),(G 3,1),(G 4,0),(G 5,0)}, {(G 1,0),(G 2,0),(G 3,1),(G 4,1),(G 5,1)}}> Twerdzene ([27]) Nech {D 1,D 2 } będze rodzną baz danych ze względ na decyzję dla tablcy decyzyjnej DT. Przestrzeń wzorców wyskakjących z D 1 do D 2 jest wypkła. Rozpatrzmy rodznę baz DBF 4. Zgodne z twerdzenem przestrzeń wzorców wyskakjących z D 1 do D 2 jest wypkła. Oznacza to, że JEP DBF4 (D 1,D 2 )=[L,R] dla pewnych rodzn L R. Płot tej przestrzen został wyznaczony w przykładze w rozdzale ma postać: 82

83 < { {(G 2,1)},{(G 3,0),(G 5,0)},{(G 3,0),(G 4,0)}, }, {(G 1,1)},{(G 4,1),(G 5,0)} { {(G 1,0),(G 2,1),(G 3,0),(G 4,0),(G 5,0)}, {(G 1,1),(G 2,1),(G 3,0),(G 4,0),(G 5,0)}, {(G 1,1),(G 2,1),(G 3,0),(G 4,1),(G 5,0)} } > Lcznośc wsparca wzorców w przestrzen baze D 2 zostały zameszczone w tabelach oraz Wzorzec cont D2 (X) spp D2 (X) {(G 2,1)} 4 100% {(G 3,0),(G 5,0)} 4 100% {(G 3,0),(G 4,0)} 3 75% {(G 1,1)} 2 50% {(G 4,1),(G 5,0)} 1 25% Tab Wzorce w lewym krańc płot przestrzen wzorców wyskakjących Wzorzec cont D2 (X) spp D2 (X) {(G 1,0),(G 2,1),(G 3,0),(G 4,0),(G 5,0)} 2 50% {(G 1,1),(G 2,1),(G 3,0),(G 4,0),(G 5,0)} 1 25% {(G 1,1),(G 2,1),(G 3,0),(G 4,1),(G 5,0)} 1 25% Tab Wzorce w prawym krańc płot przestrzen wzorców wyskakjących 7.4. Wyznaczane wzorców wyskakjących Wprowadzene W rozdzale tym zajmować sę będzemy tematyką wyznaczana wzorców wyłanających, przy czym skpmy sę na probleme znajdowana przestrzen wzorców wyskakjących. Ponżej porszam wyłączne metody dokładne wyznaczana wzorców. W perwszej kolejnośc prezentję złożoność problem wyznaczana wzorców wyłanających oraz elementarne podejśca do jego rozwązana. Następne skpam sę na probleme wyznaczana przestrzen wzorców wyskakjących podaję dla nego efektywny algorytm zaproponowany w pracy [27]. W dalszych rozważanach zakładam, że dana jest rodzna baz danych {D 1,D 2 } o przestrzen przedmotów S. Zaważmy na wstępe, że przestrzeń wszystkch możlwych podzborów S wynos 2 S ma ona rozmar 2 S. W prezentowanych algorytmach pomjamy problem welkośc bazy danych. Pojedyncze przejrzene bazy danych, najczęścej przy oblczan wsparca dla danego zbor przedmotów, traktjemy jako operację jednostkową. Dla określena złożonośc danej metody stotne jest oszacowane lczby takch operacj nezbędnych do otrzymana wynk Przestrzeń wsparca wzorców Rozważmy problem wyznaczana przestrzen ρ-wzorców wyłanających z bazy D 1 do D 2. Naszym zadanem jest znalezene pewnej rodzny zborów przedmotów zawartej w 2 S. Zadany problem możemy w przejrzysty sposób przedstawć za pomocą płaszczyzny wsparca. 83

84 Rozważmy kwadratowy obszar przestrzen dwwymarowej opsany przez 0 σ 1,σ 2 1.Pnkt obszar (σ 1,σ 2 ) reprezentje rodznę zborów { X S : spp 1 ( X ) = σ 1 spp 2 ( X ) = σ 2 }. Dla 1 zadanego mnmalnego współczynnka wsparca ρ możemy wykreślć prostą l : σ 1 = σ 2, ρ 1 która przecna prostą σ 2 = 1 w pnkce 1,. Wprowadźmy oznaczena pnktów A=(0,0), ρ B=(1,0), C=(1,1/ρ). Sma rodzn podzborów odpowadającym pnktom trójkąta ABC z wyłączenem pnkt A jest szkaną przestrzeną ρ-wzorców wyłanających z bazy D 1 do D 2. Rys Płaszczyzna wsparca dla rodzny baz {D 1,D 2 } Zaproponowane przedstawene problem jest przydatne przy rozważan różnych typów wzorców algorytmów z nm zwązanych. Zaważmy, że dla bazy D 1 sma rodzn podzborów odpowadającym pnktom odcnka os 0<σ 1 1 jest przestrzeną horyzontalną, a pnkt σ 1 =1 reprezentje zbory o wsparc zerowym, analogczne dla bazy D 2. Zgodne z tą obserwacją zbór wzorców wyskakjących z D 1 do D 2 jest reprezentowany przez odcnek 0 < σ 2 1 σ 1 = 0. Pnkty tego odcnka odpowadają tym rodznom zborów przedmotów, dla których współczynnk wzrost wsparca z D 1 do D 2 jest neskończony Podstawowe metody wyznaczana wzorców wyłanających Rozważmy problem wyznaczana przestrzen ρ-wzorców wyłanających z bazy D 1 do D 2. Najprostsze rozwązane polega na wyczerpjącym przejrzen wszystkch możlwych podzborów S oblczen ch wsparć w każdej z baz. Rozpatrywany podzbór jest wzorcem wyłanającym, jeśl jego współczynnk wzrost wsparca ne spada ponżej ρ. Poneważ przestrzeń ta zawera 2 S elementów, węc systematyczne przejrzene możlwe jest jedyne dla małych S. Zaważmy, że wszystke podzbory przedmotów, które ne występją w żadnej transakcj danej bazy mają wsparce zerowe w tej baze. Obserwacja ta naswa prostą optymalzację, która ograncza przestrzeń poszkwań do przestrzen podzborów wszystkch transakcj ob 84

85 baz równej U 2 T T D1 D2. Jeśl każdy element tej ogranczonej przestrzen zostane przejrzany dokładne raz, to złożoność zmodyfkowanego algorytm jest negorsza od złożonośc algorytm orygnalnego zależy od postac baz. Dla wększych baz ne jest możlwe efektywne przechowywane słownka dla rodzny D1 D2. Ponadto zastosowana optymalzacja ne redkje wykładnczego charakter algorytm ne rozszerza wydatne jego pola zastosowań. Ne zmena to fakt, że podejśce wyczerpjące bywa stosowane dla małych tablc decyzyjnych oraz bywa elementem zaawansowanych metod wyznaczana wzorców możlwając rozwązane podproblem dla określonej podprzestrzen rodzny wszystkch podzborów S. Pojęce wzorca wyłanającego jest slne zwązane z pojęcem zbor częstego. Znacznym lepszenem poprzednch strateg jest oddzelne rozważene wszystkch zborów częstych rzadkch w każdej z baz. Zbory częste można wyznaczyć mędzy nnym za pomocą algorytmów typ Apror. Znalezone w ten sposób rodzny podzborów przedmotów o wsparcach w bazach D 1 D 2 zawartych w dobranych odpowedno przedzałach są szkanym ρ-wzorcam wyłanającym. Należy t zwrócć wagę na dwa fakty. Po perwsze rodzny zborów częstych przy określonym mnmalnym wsparc mogą meć bardzo dże rozmary, szczególne jeśl próg jest nsk. Po drge wcąż pozostaje podprzestrzeń zborów rzadkch w ob bazach, która trzeba przejrzeć w sposób wyczerpjący. Efektywne rozwązane perwszego problem dostarcza praca [13], która wykorzystje koncepcję reprezentacj płotowej do operowana na rodznach zborów przedmotów. Atorzy systematyzją wyżej zaproponowaną strategę dekompozycj całej przestrzen zborów przedmotów. W cel nknęca enmeracj kolejnych zborów kandydjących żywają algorytm Max-Mner do znajdowana krańców rodzn zborów częstych oraz wykorzystją dzałane różncy płotów o specjalnej postac. Dalej skpmy sę na wyznaczan przestrzen wzorców wyskakjących. Zaważmy, że dysponjąc przestrzeną σ-wzorców wyłanających dla pewnego σ możemy wyznaczyć przestrzeń wzorców wyskakjących wyberając wyłączne te wzorce, które mają współczynnk wzrost wsparca równy 1. Dla rozważanego problem można równeż przeformłować podane na początk podejśce wyczerpjące. Podstawowym problemem pozostaje ttaj wykładnczy rozmar przestrzen podzborów przedmotów potencjalne wykładnczy rozmar rodzny wynkowej. W rozdzale tym omawany jest dokładne algorytm zaproponowany w pracy [27]. Wykorzystje on własność wypkłośc przestrzen wzorców wyskakjących oraz reprezentację płotową rodzn zborów. W tej pracy ne będzemy sę zajmować wyznaczanem rodzn wzorców slnych Wyznaczane płotów horyzontalnych Istotnym elementem wyznaczana przestrzen wzorców wyskakjących jest znalezene przestrzen horyzontalnej dla zadanej bazy danych. Nech dana będze baza danych D={T 1,..,T m }, przy czym m= D. Zaważmy, że przestrzeń horyzontalna jest wypkła, gdyż każdy podzbór jej element X ma wsparce ne mnejsze nż wsparce X. Z twerdzeń wynka, że dla dowolnej przestrzen horyzontalnej stneje dokładne jeden reprezentjący ją płot. 85

86 Poneważ rodzna zawera wszystke zbory o nezerowym wsparc, węc lewy kranec ne może wyklczać z rodzny żadnego zbor elementów równa sę { }. Z tego względ przestrzeń horyzontalną opsje jednoznaczne płot postac <{ },R> dla pewnego R. Do rozpatrywanej przestrzen należy każdy podzbór dowolnej transakcj bazy. Stąd prawy kranec R wyznaczają wszystke transakcje tej bazy danych. Poneważ prawy kranec jest antyłańcchem, dlatego zawera dokładne zbór elementów maksymalnych dla relacj nklzj w zborze wszystkch transakcj bazy D. Ponższy algorytm bdje prawy kranec płot terjąc kolejne transakcje bazy danych. W każdym krok pętl ze zbor R są swane elementy, które są podzboram wstawanej transakcj. W ten sposób na początk pętl zbór R zawsze jest antyłańcchem. fnkcja horzon-mner(d) R {T 1 } dla każdego od 2 do m jeśl ne stneje take T R, że T T to sń z R elementy T, take że T T R R {T } zwróć <{ },R> Wyznaczane różncy płotów Podstawową operacją wykorzystywaną przy wyznaczan przestrzen wzorców wyskakjących jest różnca dwóch płotów o określonej postac. Dotyczy ona ogólne rodzn zborów, dlatego zostane omówona w oderwan od konkretnej bazy danych. Nech dana będze przestrzeń S. Argmenty dzałana mają następjącą postać: odjemna: <{ },{U}> odjemnk <{ },R>, gdze R 1 ={S 1,.., S k } Zachodz U,S 1,.., S k S. Fnkcja wyznacza płot <L,{U}>, który odpowada przedzałow zborów równem różncy przedzał reprezentowanego przez odjemną rodzny reprezentowanej przez odjemnk. Zadane algorytm sprowadza sę do wyznaczena krańca L. Przykład Rys Schemat deowy różncy płotów Nech dana będze przestrzeń lczb U={1,2,3,4} z relacją porządk < dla lczb natralnych. Rozważmy różncę płot <{ },{1,2,3,4}> płot <{ },{{3,4},{2,4},{1,2}}>. 86

87 Wynkem odejmowana jest płot <{L},{{1,2,3,4}}> reprezentjący rodznę: [{L},{{1,2,3,4}}]=[{ },{{1,2,3,4}}] - [{ },{{3,4},{2,4},{1,2}}]. Ze względ na szczególną postać argmentów dzałane modyfkje wyłączne lewy kranec odjemnej. W cel przejrzystego przedstawena operacj wykorzystamy drzewo enmeracj zborów dla rodzny 2 S. Drzewa enmeracj są strktram, które pozwalają na prezentację zbor potęgowego pewnego rozważanego zbor. Porządek węzłów gałęz odzwercedla wprowadzoną w zborze potęgowym relację porządk. Drzewa tego typ są często stosowane do pokazana sposob, w jak dany algorytm rozważa kolejne elementy zbor potęgowego. Strktry te szerzej zostały omówone w pracy [42]. Rys Schemat różncy płotów <{ },{1,2,3,4}> <{ },{{3,4},{2,4},{1,2}}> przedstawony na drzewe enmeracj zborów Za pomocą szarych prostokątów zostały wyróżnone zbory odejmowane, a za pomocą nebeskch elps zbory stanowące lewy kranec szkanej różncy. Ostateczne szkana różnca wynos <{{2,3},{1,4},{1,3}},{{1,2,3,4}}>. Schemat algorytm ma postać: fnkcja border-dff (<{ },{U}>,<{ },{S 1,.., S k }>) L {{x}:x=u- S 1 } dla każdego od 2 do k L {X {x}:x L, x=u-s } sń z L elementy, które ne są mnmalne zwróć <L,{U}> Dokładny ops zasadnene poprawnośc algorytm znaleźć można w pracy [27]. Metoda zawdzęcza swoją efektywność ogranczen sę do operacj na krańcach płotów, zamast na elementach odpowadających m przedzałom zborów. Warto dodatkowo zwrócć wagę na fakt, że w każdej teracj z rodzny L swane są wszystke elementy nemnmalne. Etap ten wydatne redkje rozmary kolejno otrzymywanych rodzn tymczasowych Wyznaczane przestrzen wzorców wyskakjących Prezentowany algorytm wyznaczana przestrzen wzorców wyskakjących omja problem potencjalne wykładnczego rozmar wynkowej przestrzen. Pnktem wyjśca jest ttaj 87

88 twerdzene mówące, że przestrzeń wzorców wyskakjących jest wypkła. Algorytm wykorzystje reprezentację płotową do ops przedzałów zborów. Istotne, na żadnym etape podejśce ne enmerje zborów danego przedzał, lecz wszelke operacje przeprowadzane są na krańcach odpowednch płotów. Nech dana będze rodzna baz danych {D 1,D 2 } o przestrzen przedmotów S. Rozważmy problem wyznaczana przestrzen wzorców wyskakjących z bazy D 1 do D 2. Zgodne z twerdzenem szkana przestrzeń zawera wszystke podzbory S, które mają nezerowe wsparce w D 2 zerowe wsparce w D 1. Idea dzałana algorytm sprowadza sę do wyznaczena różncy pomędzy płotem przestrzen horyzontalnej dla D 2 o postac <{ },R 2 > płotem przestrzen horyzontalnej dla D 1 o postac <{ },R 1 >. Wprowadźmy oznaczena: R 2 ={A 1,..,A g }, przy czym g= R 2 R 1 ={B 1,..,B h }, przy czym h= R 1 Ważnym elementem algorytm jest fnkcja border-dff. Narzca ona jednak ogranczena co do postac dopszczalnych argmentów, które ne pozwalają zastosować jej bezpośredno do płotów wejścowych. Podczas, gdy odjemnk jest płotem przestrzen horyzontalnej dla pewnej bazy danych, odjemna ms być płotem o jednoelementowym prawym krańc. Schemat algorytm [27]: fnkcja jep-prodcer (<{ },{A 1,..,A g }>,<{ },{B 1,..,B h }>) L R dla każdego j od 1 do g jeśl stneje take, że A j B to kontynj <L,R > border-dff (<{ },{A j }>,<{ },{B 1,..,B h }>) L L L R R R zwróć <L,R> Dowód poprawnośc algorytm sprowadza sę do dowodnena twerdzena mówącego, że sma dwóch przestrzen wzorców wyskakjących reprezentowanych odpowedno przez <L 1,{A 1 }> oraz <L 2,{A 2 }> jest przestrzeną wyskakjącą reprezentowaną przez <L 1 L 2,{A 1,A 2 }>. Uzasadnene prawdzwośc twerdzena dokładny ops dzałana algorytm znajdje sę w pracy [27]. Przykład Rozpatrzmy rodznę baz danych ze względ na decyzję DBF 4 ={D 1,D 2 } dla tablcy decyzyjnej DT 3. Zajmemy sę wyznaczenem przestrzen wzorców wyskakjących JEP DBF4 (D 1,D 2 ). Rodzna DBF 4 ma postać: 88

89 { { {(G 1,0),(G 2,0),(G 3,0),(G 4,1),(G 5,1)}, {(G 1,0),(G 2,0),(G 3,0),(G 4,1),(G 5,1)}, {(G 1,0),(G 2,0),(G 3,1),(G 4,0),(G 5,0)}, {(G 1,0),(G 2,0),(G 3,1),(G 4,1),(G 5,1)} }, { {(G 1,0),(G 2,1),(G 3,0),(G 4,0),(G 5,0)}, {(G 1,0),(G 2,1),(G 3,0),(G 4,0),(G 5,0)}, {(G 1,1),(G 2,1),(G 3,0),(G 4,1),(G 5,0)}, {(G 1,1),(G 2,1),(G 3,0),(G 4,0),(G 5,0)} } } Prawe krańce przestrzen horyzontalnych, które są argmentam fnkcj jep-prodcer mają postać: R 1 = { {(G 1,0),(G 2,0),(G 3,0),(G 4,1),(G 5,1)}, {(G 1,0),(G 2,0),(G 3,1),(G 4,0),(G 5,0)}, {(G 1,0),(G 2,0),(G 3,1),(G 4,1),(G 5,1)} } R 2 = { {(G 1,0),(G 2,1),(G 3,0),(G 4,0),(G 5,0)}, {(G 1,1),(G 2,1),(G 3,0),(G 4,1),(G 5,0)}, {(G 1,1),(G 2,1),(G 3,0),(G 4,0),(G 5,0)} } Przyjrzymy sę perwszej teracj algorytm dla j=1. W tym przypadk mamy A j ={(G 1,0),(G 2,1),(G 3,0),(G 4,0),(G 5,0)}. Ne stneje tak element zbor R 1, który zawerałby zbór A j, węc wykonane zostane dzałane różncy: [{ },{{(G 1,0),(G 2,1),(G 3,0),(G 4,0),(G 5,0)}}] - [{ },R 1 ]. Wynkem różncy jest przedzał reprezentowany przez płot <L,R >: < { {(G 2,1)}, }, {(G 3,0),(G 5,0)}, {(G 3,0),(G 4,0)} { {(G 1,0),(G 2,1),(G 3,0),(G 4,0),(G 5,0)} } > Przedzał ten ncjalzje równeż psty dotąd płot <L,R>. Zaważmy, że oba krańce zblżają sę do postac wynkowej, która otrzymana zostane po 3 teracjach. Ostateczne algorytm wyznacza płot przestrzen wzorców wyskakjących równy: < { {(G 2,1)},{(G 3,0),(G 5,0)},{(G 3,0),(G 4,0)}, }, {(G 1,1)},{(G 4,1),(G 5,0)} { {(G 1,0),(G 2,1),(G 3,0),(G 4,0),(G 5,0)}, {(G 1,1),(G 2,1),(G 3,0),(G 4,0),(G 5,0)}, {(G 1,1),(G 2,1),(G 3,0),(G 4,1),(G 5,0)} } > Algorytm zwraca w wynk płot <L,R> odpowadający przestrzen wszystkch wzorców wyskakjących z D 1 do D 2. Otrzymana przestrzeń może meć potencjalne rozmar wykładnczy. Zastanówmy sę nad przydatnoścą wynk. Po perwsze analzjąc krańce płot można oszacować welkość otrzymanej przestrzen. W przypadk małych przestrzen można wygenerować wszystke wzorce wyskakjące przechodząc gałęze drzewa enmeracj zborów. W przecwnym przypadk rezltat może być wykorzystany pośredno. 89

90 Przede wszystkm dżo nformacj zawartych jest w zborach należących do krańców płot. Zaważmy, że zbory z lewego krańca przedzał są wzorcam wyskakjącym o najwększym wsparc w D 2. Z tego względ będą one prawdopodobne często występowały w transakcjach spoza rozważanych baz mogą być wykorzystane do bdowy klasyfkatorów. Zbory należące do prawego krańca są najbardzej specyfcznym, maksymalnym wzorcam wyłanającym w przestrzen wynkowej. Mogą one dostarczyć wedzy na temat stnena specyfcznych zależnośc, których najczęścej ne można zyskać za pomocą nnych znanych metod, np. statystycznych. Ponadto, dla danego zbor przedmotów z przestrzen S można sprawdzć, czy należy on do wyznaczonej przestrzen wzorców za pomocą co najwyżej L + R sprawdzeń zachodzena nklzj dwóch zborów Analza efektywnośc W przypadk zadań odkrywana wedzy rozpatrywane dane charakteryzją sę zwykle wysoką wymarowoścą. Z tego względ przestrzeń rozpatrywanych przedmotów jest często dża, a co za tym dze jej zbór potęgowy ne może być systematyczne przejrzany metodam wyczerpjącym. W rozdzale tym omówmy złożoność fnkcj wykorzystywanych do wyznaczena przestrzen wzorców wyskakjących. Na wstępe należy zaznaczyć, że atorzy algorytmów ne podają formalnej analzy złożonośc, lecz prezentją wynk eksperymentów przeprowadzonych dla różnych zborów danych [27]. Ogranczymy sę do podsmowana tych rezltatów. Nech dana będze rodzna baz danych {D 1,D 2 } o przestrzen przedmotów S. Rozważmy problem znajdowana wzorców wyskakjących z D 1 do D 2. Fnkcja horzon-mner wywoływana jest jednokrotne dla każdej z baz danych. Rozpatrje ona kolejno transakcje bazy danych. Dla każdej transakcj trzymywany jest nezmennk, że rodzna tymczasowa zborów jest antyłańcchem, co realzowane jest przez przejrzene tej rodzny snęce odpowednch zborów. Krok ten jest lnowy ze względ na chwlowy rozmar rodzny tymczasowej. Przyjęlśmy t za operację jednostkową sprawdzene nklzj pomędzy dwoma zboram. Podsmowjąc, algorytm dzała w pesymstycznym czase O( D 2 ). Przypadek pesymstyczny zachodz, gdy każda transakcja występje tylko raz w D gdy zbór transakcj z D tworzy antyłańcch. Algorytm jep-prodcer składa sę z jednej głównej pętl, która przeprowadza analogczne operacje dla każdego element prawego krańca płot przestrzen horyzontalnej D 2, w szczególnośc operacje wyznaczana różncy płotów. Poneważ trzymywane rodzn tymczasowych ma poboczne znaczene dla złożonośc, węc decydjący wpływ na efektywność algorytm ma fnkcja border-dff. Czas potrzebny na wyznaczene różncy płotów <{ },{U}>,<{ },R> za pomocą fnkcj border-dff zależy od zbor U rodzny R. Badane efektywnośc czasowej zostało przeprowadzone dla różnych zborów danych w pracy [27]. Eksperyment sprowadzał sę do porównana czas wykonana procedry border-dff z czasem wykonana algorytm nawnego. Algorytm nawny przeprowadzał odejmowane poprzez bezpośredne wyznaczene wszystkch elementów przedzałów reprezentowanych przez oba płoty. Eksperyment został przeprowadzony na kompterze PC z procesorem Pentm III 512MB pamęc RAM. Czas dzałana algorytm nawnego został oszacowany przez fnkcję 0,1*2 U /2 9 opartej na fakce, że wykonane tego algorytm dla U =9 trwało 0,1s. Zbory danych pochodzą z UCI Repostory [58]. 90

91 Zbór danych U R L Czas procesora dla Czas procesora dla algorytm border-dff algorytm nawnego tc-tac-toe ,01s 0,1s Mshroom ,65s >5ms Chess ,15s >30ms Sonar ,82s >2h Tab Porównane efektywnośc czasowej algorytm border-dff z algorytmem nawnym dla różnych zborów danych Nestety dla dżych zborów danych nektórych argmentów wejścowych czas wykonana fnkcj border-dff może okazać sę za dłg. Dla tych przypadków można zdecydować sę na wyznaczene jedyne częśc poszkwanej przestrzen. Propozycje rozwązań dostępne są w pracy [27]. Ogólne warto podkreślć, że lczba transakcj w rozpatrywanych bazach danych ma drgorzędne znaczene na czas wyznaczana przestrzen wzorców wyskakjących w stosnk do wymarowośc problem. Atorzy podają, że dla stalonej wymarowośc czas dzałana wzrastał lnowo wraz z przyrostem lczby transakcj w bazach. 91

92 8. Zależność redktów wzorców wyskakjących 8.1. Wprowadzene W rozdzale tym zajmemy sę wzajemnym porównanem zbor redktów danej tablcy decyzyjnej z przestrzeną wzorców wyskakjących dla rodzny baz danych wyznaczonej dla tej tablcy decyzyjnej. Przedstawmy przesłank teoretyczne oraz zaproponjemy metody analzy wynków eksperymentalnych. Omówene przeprowadzonych eksperymentów podsmowane rezltatów znajdją sę w rozdzale Rozważana formalne Zarówno pojęce redkt, jak wzorca wyskakjącego zwązane jest z pewnym zborem atrybtów, który charakteryzje sę własnoścą dobrego rozróżnana obektów wedłg klasy decyzyjnej. Pommo tej zbeżnośc, zależność ob pojęć ne została dotąd formalne wyprowadzona. W pracy ogranczymy sę do analzy tablc determnstycznych. Defncja Tablca decyzyjna DT=(U,A,C,{d}) jest:,2 U : 1 = 2 d 1 = d nedetermnstyczna, w przecwnym przypadk. determnstyczna, jeśl ( ) ( ) ( ) 1 2 Rozważana można rozszerzyć na przypadek dowolnej tablcy nedetermnstycznej. W tym cel należy snąć wszystke obekty, które wprowadzają nedetermnzm. Dla danej tablcy DT=(U,A,C,{d}) należy wyznaczyć tablcę decyzyjną DT =(U,A,C,{d}), przy czym U' = U : v U = v d d v. { ( )(( ) ( ) ( ))} W rozdzale skpmy sę na podstawowych obserwacjach dotyczących wyróżnana jednej wybranej klasy spośród reszty. Rozważmy determnstyczną tablcę decyzyjną DT=(U,A,C,{d}), dla której V d ={d 1,..,d p }. Bez straty ogólnośc wyberzmy klasę d 1 jako klasę odnesena. W ten sposób otrzymamy tablcę decyzyjną, w której wyróżnamy obekty z dwóch klas: należące do d 1 należące do jednej z pozostałych klas DT. Możemy zdefnować 1 d( ) = d1 tablcę DT =(U,A,C,{d }), taką że d ': U {1,2 } d ' ( ) =. 2 d( ) d1 Dla późnejszej wygody wprowadźmy oznaczene zborów obektów oraz systemów nformacyjnych należących odpowedno do każdej z klas. Dla =1,2 mamy 1 U = { U : d' ( ) = } = ( d' ) ( ) oraz IS = ( U,C). Defncja Nech: IS=(U,A) będze systemem nformacyjnym U X A Zbór przedmotów generowany przez obekt względem zbor atrybtów w systeme a,a. nformacyjnym oznacza zbór {( ( ))} a X 92

93 Zbór przedmotów generowany przez obekt względem zbor atrybtów w systeme nformacyjnym będzemy oznaczać przez I IS (,X). Rozpatrzmy rodznę baz danych względem decyzj DBF ={D 1,D 2 } dla tablcy DT, przy czym baza D 1 odpowada klase 1, a D 2 klase 2. Naszym zadanem jest znalezene powązana pomędzy zborem redktów RED DT (C) zborem JEP DBF (D 1,D 2 ). Zwązek pomędzy redktem pewnym zborem wzorców wyskakjących wyraża następjące twerdzene. Twerdzene Nech dana będze determnstyczna tablca decyzyjna DT rodzna baz danych DBF dla tej tablcy zdefnowane jak powyżej, redkt R RED DT (C) oraz obekt 2 U 2. Zbór I IS2 ( 2,R) jest wzorcem wyskakjącym z D 1 do D 2. Dowód: Rozpatrzmy dwa systemy nformacyjne IS 1 =(U 1,C) IS 2 =(U 2,C),. Systemy IS 1 IS 2 wyznaczają odpowedno bazy danych D 1 D 2. Zgodne z defncją wprowadźmy X I,R = a,a oznaczene zbor = IS 2 ( 2 ) {( ( 2 ))} a R. Poneważ 2 U 2, to odpowadająca m transakcja T IS ( 2 ) D 2 2. Poneważ X TIS ( ) 2 2 węc spp D ( X ) 0. 2 >, Rozpatrzmy teraz dowolny obekt 1 U 1. Tablca DT jest determnstyczna, stąd 1 2. Redkt R jest zborem rozróżnającym dla zbor atrybtów C. Poneważ 1 2 d( 1 ) d( 2 ), węc ( 1, 2 ) IND DT (R) ( 2, 1 ) IND DT (R). Oznacza to, że stneje take a R, że a( 1 ) a( 2 ). Innym słowy dwa obekty z nnych klas mszą być rozróżnalne za pomocą redkt, tzn. mszą meć różne wartośc dla przynajmnej jednego atrybt należącego do X T. tego redkt. Wynka stąd, że ( ) IS 1 1 Poneważ obekt 1 był wybrany w sposób dowolny, węc żadna z transakcj bazy danych D 1 ne zawera X. Wynka stąd, że spp D ( X ) 0. 1 = Borąc pod wagę wartośc wsparca zbor X w ob bazach, na podstawe twerdzena wnoskjemy, że zbór przedmotów X jest wzorcem wyskakjącym z D 1 do D 2. Twerdzene pokazje, że dowolny redkt tablcy decyzyjnej DT może być wykorzystany do otrzymana pewnego zbor wzorców wyskakjących z D 1 do D 2 poprzez terowane kolejnych obektów klasy 2. W ten sposób można wygenerować pewną podprzestrzeń przestrzen JEP DBF (D 1,D 2 ). Fakt ten precyzje następne twerdzene. Twerdzene Nech dana będze determnstyczna tablca decyzyjna DT rodzna baz danych DBF dla tej tablcy zdefnowane jak powyżej. I,R : U R RED C JEP D,. Zachodz nklzja { ( ) ( )} ( ) Dowód: IS 2 2 DT' DBF' 1 D2 Oznaczmy JF { ( a,a( ) )} : U R RED ( C) } = 2. a R Weźmy dowolny redkt R RED DT (C) obekt 2 U 2, które wyznaczają jednoznaczne element X = I IS 2 ( 2,R) = ( a,a( 2 )) rodzny JF. Z twerdzena wynka, że element { } a R DT' 93

94 X jest wzorcem wyskakjącym z D 1 do D 2. Ze względ na dowolność wybor element rodzny JF wnoskjemy, że wszystke jej elementy należą do JEP DBF (D 1,D 2 ), co jest równoważne z tezą. Zaważmy, że sposób generowana podprzestrzen wzorców JF na podstawe wszystkch obektów klasy 2 pocąga za sobą fakt, że spp ( J ) 1. J JF D2 = Powyższe twerdzena pozostają prawdzwe ne tylko dla redkt, ale równeż dla dowolnego zbor rozróżnającego. Podkreślmy jednocześne, że porszają one wyłączne charakter otrzymywanych zborów przedmotów. Nerozstrzygnęta pozostaje kwesta, jak dże wsparce ma każdy z wzorców wyskakjących w baze D 2. W szczególnośc ne wskazją one na powązane pomędzy redktam a wzorcam wyznaczającym płot przestrzen JEP DBF (D 1,D 2 ). Przykład Rozważmy tablcę decyzyjną DT 3 rodznę baz danych DBF 4 ={D 1,D 2 }. Baza D 1 odpowada klase Z, a baza D 2 klase R. G 1 G 2 G 3 G 4 G 5 d H Z H Z H Z H Z H R H R H R H R Tab Tablca decyzyjna DT 3 Zgodne z poprzednm rozważanam mamy, że RED DT3 (C)={{G 2 },{G 3,G 5 },{G 1,G 3,G 4 }}. Zgodne z twerdzenem dla zbor redktów możemy wygenerować rodznę F wzorców wyskakjących z D 1 do D 2. Rodzna F ma postać: { {(G 2,1)}, {(G 3,0),(G 5,0)} {(G 1,0),(G 3,0),(G 4,0)},{(G 1,1),(G 3,0),(G 4,1)},{(G 1,1),(G 3,0),(G 4,0)} } Z poprzednch rozważań mamy przestrzeń JEP(D 1,D 2 ) reprezentowaną w postac płot < { {(G 2,1)},{(G 3,0),(G 5,0)},{(G 3,0),(G 4,0)}, }, {(G 1,1)},{(G 4,1),(G 5,0)} { {(G 1,0),(G 2,1),(G 3,0),(G 4,0),(G 5,0)}, {(G 1,1),(G 2,1),(G 3,0),(G 4,0),(G 5,0)}, {(G 1,1),(G 2,1),(G 3,0),(G 4,1),(G 5,0)} } > 94

95 Tezę twerdzena pokażemy na wybranych elementach F, chocaż jest ona prawdzwa dla całej rodzny F. Wzorcam wyskakjącym są mędzy nnym: {(G 2,1)}, gdyż: {(G 2,1)} {(G 2,1)} {(G 1,0),(G 2,1),(G 3,0),(G 4,0),(G 5,0)} {(G 3,0),(G 5,0)}, gdyż: {(G 3,0),(G 5,0)} {(G 3,0),(G 5,0)} {(G 1,1),(G 2,1),(G 3,0),(G 4,0),(G 5,0)} {(G 1,1),(G 3,0),(G 4,1)}, gdyż: {(G 1,1)} {(G 1,1),(G 3,0),(G 4,1)} {(G 1,1),(G 2,1),(G 3,0),(G 4,1),(G 5,0)} Dla wygody zaps wprowadźmy pojęce wążące zbór przedmotów z odpowadającym m zborem atrybtów. Defncja Nech IS=(U,A) będze systemem nformacyjnym, S IS przestrzeną przedmotów zbór przedmotów X = {( a1, v1 ),.., ( ak, vk )} S IS. Zbór atrybtów zwązany ze zborem przedmotów X oznacza zbór { a,.., } 1 a k. Zbór atrybtów zwązany ze zborem przedmotów X oznaczamy przez attr(x). Baza danych jest bdowana na systeme nformacyjnym, a jej transakcje odpowadają obektom. Z tego względ transakcja zawera przedmoty, z których każdy zwązany jest z nnym atrybtem. Przejdźmy do rodzny baz DBF zbdowanej na tablcy DT. Twerdzene Nech dana będze determnstyczna tablca decyzyjna DT =(U,A,C,{d}) rodzna baz danych DBF dla tej tablcy, zdefnowane jak powyżej, oraz rodzna wzorców wyskakjących JF JEP DBF (D 1,D 2 ). Jeśl z każdym wzorcem J JF zwązany jest ten sam zbór atrybtów P ( J ) 1 to P jest zborem rozróżnającym w tablcy decyzyjnej DT. Dowód: J JF spp, D2 = Rozważmy twerdzene przecwstawne. Nech P C ne będze zborem rozróżnającym dla tablcy DT. Z defncj wynka, że IND DT (P) IND DT (C). Poneważ zbór C rozróżna ne mnej par obektów co zbór P, węc stneje taka para obektów ( 1, 2 ) UxU, dla której: ( 1, 2 ) IND DT (P) ( 1, 2 ) IND DT (C). Z defncj wynka: (( a P : a( 1 ) = a( 2 )) d( 1 ) = d( 2 )) (( a C : a( 1 ) a( 2 )) d( 1 ) d( 2 )) ( a P : a( 1 ) = a( 2 )) ( a C : a( 1 ) a( 2 )) d( 1 ) d( 2 ) ( a P : a( ) = a( )) d( ) d( ) Bez straty ogólnośc załóżmy, że d( 1 )=1 d( 2 )=2. Nech fnkcje T 1 T 2 oznaczają odpowedno przyporządkowana transakcj dla baz D 1 D 2. Zachodz T 1 ( 1 ) D 1 T 2 ( 2 ) D 2. Poneważ zachodz a P : a( 1 ) = a( 2 ), węc zbór przedmotów X = I( 2,P) należy do transakcj T 1 ( 1 ) T 2 ( 2 ). Wynka stąd, że spp D 1 ( X ) > 0 na podstawe twerdzena zbór X ne jest wzorcem wyskakjącym z D 1 do D 2. Oznacza to, że X JF. Stąd, dla każdego 95

96 J JF stneje, take a P, że (a,v a ) J v a a( 2 ). Oznacza to jednocześne, że dla każdego wzorca J JF: J T 2 ( 2 ). Wzorce rodzny JF są zwązane z tym samym zborem przedmotów. Stąd, dla każdego obekt U 2 stneje co najwyżej jeden J JF, tak że J T 2 (). Podsmowjąc, żadne dwa wzorce ne są wsperane przez tę samą transakcję oraz żaden wzorzec rodzny ne jest wsperany przez transakcję T 2 (). Wynka stąd, że J JF cont ( J ) 2 D 2 < D J JF dalej spp ( J ) 1. Ostateczne spp ( J ) 1 D2 < J JF D2, co dowodz tezy twerdzena przecwstawnego. Rozmowane jednocześne potwerdza prawdzwość rozważanego twerdzena prostego. Dodajmy, że jeśl ne stneje rodzna JF wzorców wyskakjących zwązanych z tym samym podzborem właścwym zbor atrybtów P, dla której spp ( J ) 1 Przykład J JF' D2 =, to P jest redktem. Rozważmy tablcę decyzyjną DT 3 rodznę baz danych DBF 4 ={D 1,D 2 }. Baza D 1 odpowada klase Z, a baza D 2 klase R. G 1 G 2 G 3 G 4 G 5 d H Z H Z H Z H Z H R H R H R H R Tab Tablca decyzyjna DT 3 Wsparca wzorców wyskakjących z D 1 do D 2 rodzny JF={{(G 2,1),(G 4,0)},{(G 2,1),(G 4,1)}} smją sę do 1. Zbór {G 2,G 4 } jest rozróżnający w DT 3. Wzorzec J={(G 1,0),(G 2,0)} jest wyskakjący z D 2 do D 1. Dodatkowo spp D 1 ( J ) = 1. Zbór atrybtów {G 1,G 2 } jest rozróżnający. Zaważmy podobne, że wzorzec J={(G 2,0)} równeż jest wyskakjący z D 2 do D 1 ma pełne wsparce w D 1, a zbór {G 2 } jest redktem względnym tablcy DT 3. Przykłady pokazją, że otrzymywane zbory atrybtów ne mszą być nezależne z pnkt wdzena rozróżnalnośc obektów Prowadzene analzy wynków Wprowadzene Zarówno redkt, jak wzorzec wyskakjący wskazją pewne szczególne zbory atrybtów. Obserwjąc zbór redktów przestrzeń wzorców słszna wydaje sę ntcja, że atrybty o stotnym znaczen dla rozróżnana obektów będą wyjątkowo często występować w redktach schematach wzorców. Zgodne z tą deą możemy zdefnować mary stotnośc pojedynczych atrybtów odwołjące sę do częstotlwośc ch występowana w zborach 96

97 odpowednej przestrzen. Za pomocą podstawowych narzędz statystycznych można dokonać wzajemnego porównana tych mar oraz odneść do oceny atrybtów proponowanej w rozdzale Przypadek redktów Załóżmy, że dysponjemy zborem redktów RF dla danej tablcy decyzyjnej DT. Wyberając dowolny redkt możemy zredkować tablcę decyzyjną poprzez zawężene zbor atrybtów warnkowych. Nowy zbór atrybtów zachowje nformacje na temat klasyfkacj obektów. Sgerje to, że atrybty należące do redkt mogą meć nawet oddzelne dży wpływ na wartość atrybt decyzyjnego. Założene 1 Redkt dostarcza nam nformacj jedyne o zwązk pewnego zbor atrybtów z klasą decyzyjną. Ne wskazje jednak na to, jak ta nformacja jest rozdystrybowana pomędzy należące do nego atrybty. Określając znaczene pojedynczego atrybt na podstawe analzy pojedynczego redkt będzemy zakładać, że nformacja klasyfkjąca jest rozłożona równomerne pomędzy atrybty należące do redkt. Każdy redkt w sposób całkowty rozróżna obekty tablcy. Można powedzeć, że zawera tę samą nformację klasyfkjącą. Stąd atrybty należące do redktów o wększych rozmarach mają mnejszy zwązek z klasą decyzyjną. Założene 2 Możemy spodzewać sę, że atrybty najstotnejsze będą występować w wel redktach. Informacja nesona przez tak atrybt może być zpełnona przez wele zborów słabo zwązanych z hpotezą atrybtów tak, aby razem stanowły redkt. Stąd atrybt będzemy ważać za tym stotnejszy, m częścej występje on w redktach tablcy decyzyjnej. Zaważmy, że w ten sposób obejmjemy nformacje cząstkowe na temat znaczena atrybtów z perspektyw różnych redktów. Powyższe założena można podsmować prostą formłą oszacowjącą znaczene atrybt: gdze: MAX RED attrval RED attrval 1 ( a ) = MAX = RED attrval RED RED ' ( a ) f RED( a,r ) R RF ' ( a ) = max( attrvalred' ( a )) ( a, R) a C 1 f RED = R 0 a R a R Ze względów efektywnoścowych rzadko dysponjemy pełnym zborem redktów RF=RED DT (C). Zaważmy jednak, że zgodne z założenem 1 cząstkowa ocena wartośc atrybtów jest mnejsza dla redktów lcznejszych. Najstotnejsze nformacje o atrybtach nosą redkty mnmalne. Zgodne z zaproponowaną formłą równeż najwększy wkład do oszacowana znaczena atrybt ma jego występowane w redktach o małej lczbe elementów. 97

98 Z powyższych względów możemy ogranczyć zbór RF wyłączne do redktów o rozmarach neprzekraczających pewnego stałego rozmar. Ogranczene będzemy doberać w zależnośc od welkośc tablcy decyzyjnej DT. Dla małych tablc decyzyjnych możemy zastosować algorytm dokładny oblczyć współczynnk znaczena dla wszystkch atrybtów warnkowych ze zbor C. Najczęścej jednak msmy posłgwać sę rozwązanam przyblżonym. Metoda wykorzystjąca dekompozycję przestrzen pozwala znajdować redkty o ogranczonym od góry rozmarze. Z tego względ może być z powodzenem stosowana do bdowy zbor RF wykorzystywanego późnej do szacowana znaczena atrybtów. Przykład Dla tablcy decyzyjnej DT 3 wyznaczylśmy cały zbór redktów za pomocą algorytm dokładnego exact-redct-fnder. Przyjęlśmy RF=RED DT3 (C)={{G 2 },{G 3,G 5 },{G 1,G 3,G 4 }}. Wylczone wartośc fnkcj attrval RED znajdją sę w tabel Atrybt G 1 G 2 G 3 G 4 G 5 attrval RED 0,333 1,000 0,833 0,333 0,500 Tab Wartośc fnkcj attrval RED dla atrybtów tablcy TD Przypadek wzorców wyskakjących Rozważmy rodznę baz danych DBF pewen zbór JF wzorców wyskakjących z D 1 do D 2. Wzorzec wyskakjący jest zborem przedmotów, który występje w transakcjach jednej bazy, a jest neobecny w transakcjach drgej bazy. Każdy przedmot wzorca jest zwązany z określonym pozomem pewnego atrybt. Można sę spodzewać, że atrybt ten ma stotne znaczene dla rozróżnana obektów, co wąże go z hpotezą docelową. Zdefnowane mary stotnośc atrybtów za pomocą analzy zbor wzorców wyskakjących poprzedzmy sformłowanem odpowednch założeń. Są one analogczne do założeń poczynonych dla redktów. Założene 1 Każdy wzorzec nese ze sobą lość nformacj wprost proporcjonalną do lcznośc jego występowana D 2, gdyż wskazje ona na lczbę zawerających go transakcj z D 2, które pozwala odróżnć od wszystkch nnych transakcj z bazy D 1. Przenosząc to na grnt tablcy decyzyjnej DT pozwala on na rozróżnene odpowadających transakcjom obektów klasy 2 od wszystkch nnych klasy 1. Założene 2 Obserwjąc pojedynczy wzorzec wyskakjący J ne jesteśmy w stane określć, które z należących do nego przedmotów są najbardzej charakterystyczne dla klasy 2. Stąd, ne możemy łatwo wnoskować, jake atrybty z attr(j) są najstotnejsze dla rozróżnana obektów. Ne mając nformacj na temat sły wzorca, możemy stwerdzć, że każdy nese ze sobą tę samą część nformacj pozwalającej rozróżnć nektóre obekty klasy 2 od wszystkch klasy 1. Określając znaczene pojedynczego atrybt na podstawe analzy pojedynczego wzorca wyskakjącego J będzemy zakładać, że nformacja klasyfkjąca jest rozłożona równomerne pomędzy atrybty attr(j). Stąd będzemy przyjmować, że atrybty zwązane z wzorcam o wększych rozmarach mają mnejszy wpływ na klasę decyzyjną. 98

99 Założene 3 Możemy spodzewać sę, że najbardzej charakterystyczne dla klasy 2 przedmoty będą obecne w wel wzorcach wyłanających. Występowane przedmot pocąga za sobą występowane zwązanego z nm atrybt. Przy czym ten sam atrybt może być zwązany z różnym przedmotam. Będzemy ważać, że atrybt jest tym stotnejszy m częścej występje on w zborach atrybtów wzorców należących do JF. Obejmjemy w ten sposób nformacje cząstkowe na temat znaczena atrybtów z perspektywy różnych wzorców wyskakjących. Założena te realzje następjąca fnkcja: 1 attrval JEP( a ) = MAX gdze: attrval ' ( a ) = MAX JEP JEP attrval JEP JEP f JEP( a,j ) J JF ' ( a ) 2 = max( attrval JEP' ( a )) f JEP ( a,j ) = attr( J ) a C cont D 0 ( J ) a attr a attr ( J ) ( J ) Oblczene mary dla atrybtów tablcy DT wymaga przeanalzowana wzorców z JF. Jeśl JF ma małe rozmary, to może być zadana explcte wtedy fnkcję attrval JEP można wyznaczyć przez przejrzene elementów JF. Jednak potencjalne rodzna JF może meć rozmar wykładnczy. W tym wypadk msmy ogranczyć sę do analzy rodzn wypkłych, które można opsać za pomocą reprezentacj płotowej lb wybranych zborów wzorców. W naszych rozważanach będzemy przyjmować, że dla danej rodzny DBF jesteśmy w stane wyznaczyć przestrzeń wzorców wyskakjących w reprezentacj płotowej. Za najstotnejsze wzorce wyskakjące znaje sę wzorce należące do lewego krańca płot przestrzen. Z tego względ przy oblczen fnkcj oceny będzemy rozważać właśne tę rodznę. Podsmowjąc, mamy: JEP DBF (D 1,D 2 )=[L,R] JF=L. Przykład Dla tablcy decyzyjnej DBF 4 wyznaczylśmy całą przestrzeń wzorców wyskakjących za pomocą algorytm jep-prodcer. Przyjęlśmy JF=JEP DBF4 (D 1,D 2 ). Płot <L,R> tej przestrzen ma postać: < { {(G 2,1)},{(G 3,0),(G 5,0)},{(G 3,0),(G 4,0)}, }, {(G 1,1)},{(G 4,1),(G 5,0)} { {(G 1,0),(G 2,1),(G 3,0),(G 4,0),(G 5,0)}, {(G 1,1),(G 2,1),(G 3,0),(G 4,0),(G 5,0)}, {(G 1,1),(G 2,1),(G 3,0),(G 4,1),(G 5,0)} } > Wylczone wartośc fnkcj attrval JEP znajdją sę w tabel Atrybt G 1 G 2 G 3 G 4 G 5 attrval JEP 0,500 1,000 0,875 0,500 0,625 Tab Wartośc fnkcj attrval JEP dla atrybtów tablcy TD 3 99

100 Porównane mar stotnośc genów Fnkcje oceny stotnośc genów mogą być wykorzystane do dwóch podstawowych celów. Po perwsze wskazją geny slne zwązane z badaną hpotezą. Ich wartośc mogą zostać wzajemne porównane odnesone do wynków zyskanych metodam statystycznym. Po drge podobeństwo fnkcj oceny zdefnowanych na baze redktów wzorców wyskakjących może wskazywać na zwązek pomędzy tym dwoma pojęcam. W rozważanach będzemy bral pod wagę cztery fnkcje oceny: attrval F, attrval χ,. attrval RED, attrval JEP. Poneważ analza dla wszystkch tych fnkcj będze przebegała jednakowo, węc do przedstawena sposob porównywana będę stosował ogólne oznaczena: attrval 1, attrval 2. Przy czym każda z tych fnkcj reprezentje jedną z fnkcj badanych. Do analzy podobeństwa ocen zastosjemy statystyczny pomar korelacj ch rozkładów. Wprowadźmy oznaczena: C = a,.., { 1 a n } dla =1,..,n: x = attrval1( a ) dla =1,..,n: = attrval ( ) średne wartośc: y 2 a x = n = 1 x n, y = = 1 y Współczynnk korelacj wartośc fnkcj oceny dla atrybtów tablcy decyzyjnej jest n ( )( ) x x y y = 1 wyrażony wzorem: ρ =. n n 2 ( x x) ( y y) = 1 = 1 2 Wzajemną zależność wartośc ob fnkcj można przedstawć na wykrese dwwymarowym,,. Każdy z pnktów wykres odpowada jednem obektow. = jako zbór pnktów {( x y )} 1,.., n Przykład Tabela przedstawa fnkcje oceny atrybtów, które zostały wykorzystane do wartoścowana genów w różnych etapach analzy tablcy decyzyjnej DT 1. Atrybty zostały porządkowane zgodne z malejącym wartoścam fnkcj attrval F. W tabel znajdją sę podstawowe welkośc statystyczne opsjące rozkład wartośc fnkcj oceny, a w tabel korelacje par rozkładów fnkcj oceny. Na rysnk został przedstawony wykres korelacj rozkład wartośc fnkcj attrval F attrval JEP. Gen X Próg podzał attrval F (X) attrval χ (X) attrval RED (X) attrval JEP (X) G 2 5,330 1,000 1,000 1,000 1,000 G 3 0,780 0,905 0,577 0,833 0,875 G 5 3,345 0,893 0,775 0,500 0,625 G 1 4,755 0,821 0,577 0,333 0,500 G 4 5,065 0,662 0,500 0,333 0,500 Tab Dyskretyzacja ocena genów znaczących 100

101 Welkość attrval F (X) attrval χ (X) attrval RED (X) attrval JEP (X) Średna 0,831 0,750 0,667 0,750 Warancja 0,057 0,125 0,222 0,125 Odchylene st. 0,239 0,354 0,471 0,354 Tab Statystyczne właścwośc fnkcj ocen genów attrval F (X) attrval χ (X) attrval RED (X) attrval JEP (X) attrval F (X) 1,000 0,814 0,829 0,829 attrval χ (X) 0,814 1,000 0,692 0,692 attrval RED (X) 0,829 0,692 1,000 1,000 attrval JEP (X) 0,829 0,692 1,000 1,000 Tab Współczynnk korelacj wartośc fnkcj oceny JEP 1,000 0,900 0,800 0,700 0,600 0,500 0,400 0,300 0,200 0,100 0,000 0,000 0,200 0,400 0,600 0,800 1,000 F Rys Wykres korelacj fnkcj oceny: attrval F attrval JEP 8.4. Analza postac zborów wynkowych Zbór wszystkch redktów przestrzeń wzorców wyskakjących dla rzeczywstych zborów danych osągają zwykle bardzo dże rozmary. Ze względ na dżą wymarowość zagadnena względne małą lczbę obektów nawet wstępna elmnacja częśc atrybtów ne rozwązje problem dokładnej analzy otrzymanych wynków. W perwszej kolejnośc sprecyzjmy postać rezltatów. Najczęścej dysponjemy wyłączne pewnym podzborem redktów tablcy decyzyjnej o dłgośc ne wększej nż pewne stalone ogranczene. Zbór ten otrzymjemy za pomocą algorytm przyblżonego (rozdzał 6.4.4). Zaznaczmy, że w tym wypadk dysponjemy bezpośredno konkretnym zboram atrybtów. Z kole przestrzeń wzorców wyskakjących dla danego problem jest wyznaczana w sposób dokładny, za pomocą algorytm jep-prodcer (rozdzał 7.4.6). Wynk jest zapsany w reprezentacj płotowej. W ten sposób dysponjemy bezpośredne zborem najslnejszych najsłabszych wzorców wyskakjących z wybranej klasy rozpatrywanego zbor danych. 101

102 Najlepszym sprawdzanem adekwatnośc prezentowanych metod do analzy ekspresj byłaby bologczna weryfkacja sposob fnkcjonowana znaczena grp genów w badanym zjawsk. Ze względ na brak zaplecza bologcznego jedynym źródłem nformacj są wynk analz różnych zespołów przeprowadzone na rozważanych w pracy zborach danych. Szczególne cenne dla porównana są propozycje opsjące podejśca odmenne od ttaj przedstawonych. Istotnym celem pracy jest porównane pojęca redkt wzorca wyskakjącego. W tym cel pomnęta zostane dodatkowa nformacja nesona przez wzorzec na temat konkretnych wartośc atrybtów oba podejśca będą traktowane jako wskaźnk pewnych zborów atrybtów. Zbory zyskane w ob podejścach zostaną porównane w następjący sposób. Zbadane rozkład podzborów różnej welkośc Zaproponowana metoda jest oparta na tej samej de, co podejśce z rozdzał Badana jest częstotlwość występowana podzborów określonej welkośc w każdej z ob analzowanych rodzn wynkowych. Ze względ na znaczne różnce w welkośc rodzn częstotlwość występowana podzbor określonej welkośc ms być odpowedno znormalzowana. W ob przypadkach wartość jest odnoszona do smy wartośc po wszystkch dłgoścach zborów. Wprowadźmy oznaczena: R wynkowy zbór redktów JF lewy kranec płot przestrzen wzorców wyskakjących 1 dla =1,..,n: x = { r R : r = } R 1 dla =1,..,n: = cont ( J ), gdze MAX = cont D ( J ) y D2 MAX J JF J = = 1,..n J JF J = Borąc pod wagę powyższe oznaczena współczynnk korelacj wykres korelacj zdefnowane są jak w rozdzale Pnkt ( x, y ) odpowada podzborow atrybtów o dłgośc. Przykład Rysnek zawera hstogramy odpowadające z serom danych dla cągów: {x } {y }. Tak mała lczba redktów wzorców wyskakjących ne pozwala na wysnce nteresjących wnosków

103 Redkty Wzorce 0,600 0,500 Udzał [%] 0,400 0,300 0,200 0,100 0, Rozmar zbor Rys Hstogramy dla podzał redktów wzorców na klasy wedłg rozmarów Zbadane częstotlwośc występowana atrybtów Badane stotnośc pojedynczego atrybt za pomocą metod z rozdzał może słżyć równeż porównan postac zborów redktów przestrzen wzorców wyskakjących. Ukonkretnając, porównane zostaną mary: attrval RED attrval JEP. Analza obejme oblczene współczynnka korelacj sporządzene wykres korelacj. Przykład Wykres korelacj na rysnk potwerdza pełną korelację rozkład wartośc fnkcj attrval RED attrval JEP (tabela ). Należy podkreślć, że zależność ta jest cechą dla badanej tablcy decyzyjnej DT 3 ne ms być regłą w ogólnośc. JEP 1,000 0,900 0,800 0,700 0,600 0,500 0,400 0,300 0,200 0,100 0,000 0,000 0,200 0,400 0,600 0,800 1,000 RED Rys Wykres korelacj fnkcj oceny: attrval RED attrval JEP 103

104 9. Wynk eksperymentalne 9.1. Sposób prowadzena analzy W pracy przedstawono śceżkę analzy danych otrzymanych w wynk eksperyment z wykorzystanem mkromacerzy. Zakłada ona, że zbór wejścowy przeszedł przetwarzane wstępne jest zapsany w postac tablcy decyzyjnej. Badana składają sę z oszacowana wartośc genów za pomocą metody analzy warancj, wybor pewnego zbor genów znaczących, dyskretyzacj nowej tablcy decyzyjnej ostateczne znalezen zbor redktów oraz przestrzen wzorców wyskakjących. Dla nektórych etapów zaproponowane zostały różne alternatywne opcje. Wszystke etapy śceżk przetwarzana można realzować za pomocą specjalne przygotowanej aplkacj Mcroarray Analyser. W analze rzeczywstych danych zbory wymagały wstępnego przetworzena (np. zpełnena wartośc brakjących) oraz konwersj do format akceptowanego przez program. Modyfkacje zostały skomentowane oddzelne dla każdego zbor. Do szacowana wartośc genów wykorzystana została, często pojawająca sę w lteratrze, metoda analzy warancj. Zbór znaczący defnowany był jako zbór rankngowo znaczący z odpowedno dobranym parametrem λ. Dża część nformacj jest tracona na etape dyskretyzacj. Z tego względ wykorzystamy metodę zstępjącą opartą na analze entrop, gdyż względna ona hpotezę docelową przy wyznaczan podzałów zborów wartośc atrybtów. Metoda może prowadzć do dodatkowej redkcj zbor atrybtów. Z dalszych rozważań elmnowane są atrybty zdyskretyzowane do jednego przedzał. Do wyszkwana redktów zostały wykorzystane: algorytm dokładny przyblżony evoltonary-redct-fnder opsany w rozdzale Algorytm parametry wejścowe, w szczególnośc zakres przeglądanej przestrzen, zostały dobrane do konkretnego zbor danych. Decyzja wynkała ze względów efektywnoścowych. Ze względ na rozmary zbor redktów w pracy zameszono zbory wszystkch najkrótszych najdłższych redktów. Przestrzeń wzorców wyskakjących została wyznaczona za pomocą algorytm jep-prodcer przedstawonego w rozdzale Ze względ na dży rozmar płot przestrzen ne został ona podany w całośc. Analza zyskanych wynków przebegała zgodne z metodam przedstawonym w rozdzale 8. Obejmowała ona porównane mar znaczena atrybtów opartych na analze warancj, statyce χ 2, redktach wzorcach wyskakjących Wynk eksperymentów W pracy zostały przeanalzowane dwa zbory danych pochodzące z opblkowanych eksperymentów. Spośród znalezonych źródeł wybór padł na eksperymenty najszczegółowej dokmentowane, dla których dostępne były wstępne przetworzone dane wynkowe. 104

105 Zbór danych Ontaro Charakterystyka zbor Eksperyment dotyczy klasyfkacj pacjentów na chorych na rakach zdrowych na podstawe badana ekspresj genów. Dokładny ops zawarty jest w pracy [46], a wynk są dostępne na strone [55]. W celach lstracyjnych przebeg omawanego dośwadczena postać danych wynkowych zostały przedstawone w rozdzale 2.9. Do analzy został wybrany zbór danych przygotowany przez atorów, który ma następjące cechy: Badane pozomy zostały odnesone do pozomów kontrolnych Została przeprowadzona normalzacja dla całego eksperyment Geny o znacząco nekompletnych nformacjach o pozomach ekspresj na przestrzen badanych przypadków zostały wyelmnowane z dalszej analzy W macerzy ekspresj występją brakjące wartośc Plk w formace XLS Dane na temat klas decyzyjnych przyporządkowanych przypadkom zostały pobrane z oddzelnego plk opsjącego pacjentów. Przeprowadzene analzy za pomocą program wymagało następjącego przetwarzana wstępnego: Uzpełnene wartośc brakjących staloną wartoścą równą średnej arytmetycznej z dostępnych pozomów ekspresj danego gen dla poszczególnych przypadków Dostosowana plków do postac akceptowanej przez program Welkość zbor danych Ontaro Lczba przykładów Lczba genów Lczba klas Zastosowane metody Tab Welkość zbor danych Ontaro Dla wszystkch genów została wylczona wartość fnkcj attrval F, a następne został wybrany zbór 0,4;1-rankngowo znaczący zawerający 249 genów. Celowo obrano nsk próg, aby badana można było przeprowadzć na wększej lczbe genów. Zbór został zdyskretyzowany zstępjąco. Dża część genów została zdyskretyzowana do jednego przedzał. Aby geny te ne zacemnały obraz dalszej analzy, zostały one snęte z tablcy decyzyjnej. Zredkowana tablca zawerała 45 genów. Ze względów efektywnoścowych redkty zostały wyznaczone za pomocą metody przyblżonej evoltonary-redct-fnder z parametram zgromadzonym w tabel

106 Parametr Wartość seed 123 crossoverrate 0.3 mtatonrate 0.2 poplatonsze 100 teratoncont 100 sccesonrate 0.2 bestsetsze 500 mnattrbtecont 3 maxattrbtecont 20 Tab Parametry algorytm evoltonary-redct-fnder Następne w sposób dokładny została wyznaczona przestrzeń wzorców wyskakjących. Ocena genów Nr Gen X Próg podzał attrval F (X) attrval χ (X) attrval RED (X) attrval JEP (X) ,668 1,000 0,626 0,015 0, ,000 0,929 0,622 0,011 0, ,453 0,859 0,568 0,007 0, ,000 0,844 0,580 0,006 0, ,418 0,823 0,592 0,006 0, ,573 0,816 0,615 0,018 0, ,000 0,807 0,568 0,001 0, ,473 0,789 0,592 0,022 0, ,523 0,775 0,580 0,099 0, ,538 0,755 0,743 0,065 0, ,000 0,755 0,520 0,046 0, ,473 0,739 0,568 0,068 0, ,577 0,733 0,743 0,126 0, ,523 0,733 0,687 0,136 0, ,841 0,724 0,539 0,034 0, ,000 0,712 0,622 0,183 0, ,000 0,707 0,447 0,048 0, ,488 0,689 0,643 0,064 0, ,490 0,673 0,626 0,209 0, ,610 0,654 0,539 1,000 1, ,530 0,644 0,592 0,018 0, ,000 0,644 0,539 0,081 0, ,553 0,612 0,527 0,042 0, ,000 0,606 0,496 0,010 0, ,785 0,600 0,413 0,111 0, ,000 0,600 0,539 0,041 0, ,000 0,599 0,568 0,104 0, ,000 0,572 0,615 0,203 0, ,480 0,565 0,580 0,189 0,

107 ,000 0,534 0,539 0,048 0, ,000 0,520 0,496 0,012 0, ,000 0,518 0,568 0,184 0, ,000 0,515 0,622 0,211 0, ,000 0,505 0,617 0,162 0, ,000 0,503 0,527 0,064 0, ,643 0,495 0,568 0,117 0, ,000 0,466 0,568 0,235 0, ,000 0,448 0,626 0,203 0, ,000 0,442 0,539 0,080 0, ,060 0,432 0,693 0,176 0, ,000 0,430 0,626 0,229 0, ,000 0,427 0,622 0,264 0, ,503 0,418 0,539 0,024 0, ,490 0,406 0,496 0,071 0, ,000 0,406 0,617 0,220 0,267 Tab Dyskretyzacja ocena genów znaczących Welkość attrval F (X) attrval χ (X) attrval RED (X) attrval JEP (X) Średna 0,703 0,622 0,117 0,243 Warancja 0,176 0,000 0,021 0,001 Odchylene st. 0,420 0,007 0,146 0,034 Tab Statystyczne właścwośc fnkcj ocen genów attrval F (X) attrval χ (X) attrval RED (X) attrval JEP (X) attrval F (X) 1,000 0,157-0,275 0,170 attrval χ (X) 0,157 1,000 0,091 0,199 attrval RED (X) -0,275 0,091 1,000 0,716 attrval JEP (X) 0,170 0,199 0,716 1,000 Tab Współczynnk korelacj wartośc fnkcj oceny 107

108 ch 1,000 0,900 0,800 0,700 0,600 0,500 0,400 0,300 0,200 0,100 0,000 0,000 0,200 0,400 0,600 0,800 1,000 F Rys Wykres korelacj fnkcj oceny: attrval F attrval χ JEP 1,000 0,900 0,800 0,700 0,600 0,500 0,400 0,300 0,200 0,100 0,000 0,000 0,200 0,400 0,600 0,800 1,000 RED Rys Wykres korelacj fnkcj oceny: attrval RED attrval JEP 108

109 Zbór redktów przestrzeń wzorców wyskakjących Rozmar redkt Lczba redktów Sma 883 Tab Rozmary wyznaczonych redktów Rozmar 3 Redkt {5, 13, 20} {8, 10, 20} {10, 13, 20} {10, 20, 22} {13, 18, 20} {13, 20, 40} Rozmar Redkt {4, 14, 19, 25, 28, 43, 44, 45} {4, 14, 19, 28, 35, 38, 43, 45} 8 {11, 14, 19, 27, 29, 33, 35, 38} {14, 16, 17, 19, 28, 34, 43, 45} {14, 16, 19, 25, 28, 34, 43, 45} 9 {9, 11, 14, 19, 24, 31, 33, 36, 37} Tab Zbór redktów o rozmarach 3, 8 9 cont D2 (X) spp D2 (X) Lczba wzorców 24 1, , , , , , , , , , , , , , , , , , , , ,

110 3 0, , , Sma 9434 Tab Wzorce w lewym krańc płot przestrzen wzorców wyskakjących cont D2 (X) spp D2 (X) Lczba wzorców 3 0, , , Sma 19 Tab Wzorce w prawym krańc płot przestrzen wzorców wyskakjących Wzorzec X cont D2 (X) spp D2 (X) {(8,1),(10,1),(20,0)} 24 1,000 {(8,1),(15,1),(20,0),(40,1)} 24 1,000 {(8,1),(20,0),(30,1),(40,1)} 24 1,000 {(8,1),(20,0),(39,1),(40,1)} 24 1,000 {(10,1),(13,1),(20,0)} 24 1,000 {(10,1),(20,0),(22,1)} 24 1,000 {(13,1),(18,1),(20,0)} 24 1,000 {(13,1),(20,0),(40,1)} 24 1,000 {(15,1),(20,0),(22,1),(40,1)} 24 1,000 {(20,0),(22,1),(30,1),(40,1)} 24 1,000 {(20,0),(22,1),(39,1),(40,1)} 24 1,000 {(5,1),(13,1),(20,0)} 24 1,000 Tab Wzorce wyskakjące lewego krańca płot o najwyższej ekspresj Rozmar Udzał redktów Udzał wzorców 1 0,000 0, ,000 0, ,007 0, ,275 0, ,544 0, ,142 0, ,026 0, ,006 0, ,001 0, ,000 0,000 Tab Podzał redktów wzorców na klasy wedłg rozmarów 110

111 Redkty Wzorce 0,600 0,500 Udzał [%] 0,400 0,300 0,200 0,100 0, Rozmar zbor Rys Hstogramy dla podzał redktów wzorców na klasy wedłg rozmarów Ustosnkowane do nnych prac Rozważylśmy wynk pracy [46] opblkowanej przez atorów eksperyment. Atorzy stosowal statystyczny model Cox a do znalezena genów znaczących oraz grpowane herarchczne przykładów do wyznaczena grp genów o różnych proflach ekspresj. Wynk oceny statystycznej znajdją sę w tabel Podane przez atorów nmery genów zostały przypsane do dentyfkatorów na arksz. Trzy geny ne zostały odnalezone w zborach wynkowych. Identyfkator w arksz Nmer GenBank Identyfkator Ungene Ops gen Wartość p Brak AB Hs Hppocalcn-lke proten 4 (HPCAL4) 0, H29772 Hs predcted proten 0, H06235 Hs predcted proten 0, Rho GDP dssocaton nhbtor H14691 Hs (GDI) α 0, H17978 Hs Interlekn 20 receptor, α 0, T97149 Hs KIAA1533 predcted proten 0, T65437 Hs KIAA0029 proten 0,0012 H58462 Hs Brak R40106 Hs R80974 Hs NOLA3 Ncleolar proten famly A, member 3 RNA polymerase II holoenzyme component SRB7 Wee1 + (S. pombe) homolog proten knase 0,0014 0,0016 0,

112 AF Hs serne protease 25 (PRSS25) 0, R80770 Hs C40 Hypothetcal proten 0, R73128 Hs HLA-DQB1 MHC 0,0019 Brak AF Hs DC6 predcted proten 0, R20380 Hs predcted proten 0,0021 Tab Geny znaczące (p 0,0023) zgodne ze statystycznym modelem Cox a Zbór danych Prnceton Charakterystyka zbor Eksperyment został przeprowadzony przez grpę badawczą na Prnceton Unversty. Dokładny ops zameszczony jest w pracy [1], a dane dostępne są na strone [57]. Badan zostało poddane 62 tkank pochodzących z ldzkej okrężncy. Tkank były różnych typów: 44 zrakowacałe 22 zdrowe. Do pomar ekspresj wykorzystano macerze olgonkleotydowe zawerające około 6600 rodzajów sekwencj genetycznych. Każda sekwencja była reprezentowana przez około 20 par olgonkleotydów. Otrzymane dane zostały oczyszczone znormalzowane. Spośród badanych sekwencj wybrano 2000 genów o najwększych mnmalnych ntensywnoścach ekspresj pomędzy wszystkm przykładam. Pozostałe sekwencje zostały znane za nestotne. Atorzy skpl sę na analze danych bez nadzor. Wykorzystal algorytm grpowana do wykryca genów o wysoce skorelowanych wzorcach ekspresj oraz do badana tkanek o podobnym stane. Informacje na temat tkanek zostały odnesone do znanego, faktycznego stan tkank. Analza została przeprowadzona na jedynym dostępnonym pblczne przez atorów zborze danych. Informacje na temat każdego gen zostały względnone Została przeprowadzona normalzacja dla całego eksperyment Plk w formace tekstowym Zbór danych został dostosowany do postac wymaganej przez program. W szczególnośc zmodyfkowany został sposób zaps lczb rzeczywstych. Welkość zbor danych Prnceton Lczba przykładów Lczba genów Lczba klas Tab Welkość zbor danych Prnceton Zbór był analzowany w pracach [29,30,31] pod kątem wyznaczana przestrzen wzorców wyskakjących oceny ch znaczena dla dzedzny. 112

113 Zastosowane metody Dla wszystkch genów została wylczona wartość fnkcj attrval F, a następne został wybrany zbór 0,552;1-rankngowo znaczący. Próg został tak wybrany, aby zbór znaczący zawerał 35 geny. Lczba ta pozwala na dokładne wyznaczene zbor redktów. Zbór został zdyskretyzowany zstępjąco, przy czym zbory wartośc wszystkch genów zostały podzelone na 2 przedzały. Następne w sposób dokładny zostały wyznaczone: zbór redktów przestrzeń wzorców wyskakjących. Ocena genów Nr Gen X Próg podzał attrval F (X) attrval χ (X) attrval RED (X) attrval JEP (X) 1 M ,230 1,000 0,714 0,266 0,365 2 M ,305 0,924 0,661 0,392 0,020 3 R ,390 0,910 0,696 0,388 0,918 4 J ,805 0,906 0,648 0,452 0,176 5 M ,375 0,895 0,641 0,263 0,409 6 M ,750 0,877 0,641 0,263 0,409 7 Z ,125 0,811 0,474 1,000 0,935 8 T ,705 0,802 0,577 0,470 0,679 9 U ,195 0,723 0,567 0,277 0, H ,880 0,700 0,628 0,498 0, T ,985 0,690 0,577 0,407 0, H ,015 0,663 0,583 0,473 0, J ,905 0,655 0,642 0,435 0, X ,195 0,644 0,588 0,885 0, H ,035 0,636 0,614 0,414 0, M ,800 0,627 0,437 0,602 0, X ,475 0,624 0,527 0,593 0, X ,995 0,610 0,626 0,467 0, M ,505 0,606 0,474 0,593 0, M ,045 0,602 0,642 0,392 0, T ,980 0,589 0,401 0,229 0, T ,850 0,587 0,493 0,509 0, T ,370 0,584 0,456 0,176 0, T ,655 0,580 0,564 0,432 0, U ,000 0,573 0,577 0,469 0, T ,385 0,572 0,538 0,746 1, R ,440 0,569 0,493 0,864 0, T ,000 0,566 0,529 0,389 0, X ,570 0,563 0,516 0,557 0, T ,000 0,560 0,437 0,301 0, H ,330 0,553 0,382 0,418 0,539 Tab Dyskretyzacja ocena genów znaczących 113

114 Welkość attrval F (X) attrval χ (X) attrval RED (X) attrval JEP (X) Średna 0,777 0,548 0,342 0,452 Warancja 0,100 0,055 0,011 0,015 Odchylene st. 0,316 0,235 0,107 0,123 Tab Statystyczne właścwośc fnkcj ocen genów attrval F (X) attrval χ (X) attrval RED (X) attrval JEP (X) attrval F (X) 1,000 0,666-0,202-0,147 attrval χ (X) 0,666 1,000-0,200-0,130 attrval RED (X) -0,202-0,200 1,000 0,631 attrval JEP (X) -0,147-0,130 0,631 1,000 Tab Współczynnk korelacj wartośc fnkcj oceny ch 1,000 0,900 0,800 0,700 0,600 0,500 0,400 0,300 0,200 0,100 0,000 0,000 0,200 0,400 0,600 0,800 1,000 F Rys Wykres korelacj fnkcj oceny: attrval F attrval χ 114

115 JEP 1,000 0,900 0,800 0,700 0,600 0,500 0,400 0,300 0,200 0,100 0,000 0,000 0,200 0,400 0,600 0,800 1,000 RED Rys Wykres korelacj fnkcj oceny: attrval RED attrval JEP Zbór redktów przestrzeń wzorców wyskakjących Rozmar redkt Lczba redktów Sma Tab Rozmary wyznaczonych redktów Rozmar 6 Redkt {1, 2, 4, 10, 19, 26} {1, 2, 10, 15, 19, 26} {1, 2, 15, 19, 22, 26} {1, 3, 4, 10, 19, 26} {1, 3, 7, 19, 26, 27} {1, 3, 10, 13, 19, 26} {1, 3, 10, 14, 19, 26} {1, 3, 10, 15, 19, 26} {1, 3, 10, 19, 26, 27} {1, 3, 10, 19, 26, 29} {1, 3, 10, 19, 26, 30} {1, 3, 10, 19, 26, 31} {1, 3, 19, 22, 26, 27} {1, 3, 19, 22, 26, 30} {1, 3, 19, 22, 26, 31} Rozmar 6 Redkt {1, 4, 10, 13, 19, 26} {1, 4, 10, 15, 18, 19} {1, 4, 10, 15, 19, 26} {1, 4, 10, 16, 18, 29} {1, 4, 10, 18, 19, 20} {1, 4, 10, 18, 19, 25} {1, 4, 10, 18, 19, 26} {1, 4, 10, 18, 19, 29} {1, 4, 10, 19, 20, 26} {1, 4, 10, 19, 25, 26} {1, 10, 13, 19, 24, 26} {1, 10, 13, 19, 26, 28} {1, 10, 14, 15, 17, 19} {1, 10, 14, 15, 19, 26} {1, 10, 15, 18, 19, 24} Tab Zbór wybranych redktów o dłgośc 6 115

116 cont D2 (X) spp D2 (X) Lczba wzorców 17 0, , , , , , , , , , , , , , , , , Sma 768 Tab Wzorce w lewym krańc płot przestrzen wzorców wyskakjących cont D2 (X) spp D2 (X) Lczba wzorców 2 0, , Sma 20 Tab Wzorce w prawym krańc płot przestrzen wzorców wyskakjących Wzorzec X cont D2 (X) spp D2 (X) {(15,0),(19,1),(26,0)} 17 0,810 {(3,1),(26,0),(27,0)} 17 0,810 {(3,1),(26,0),(30,0)} 17 0,810 {(3,1),(26,0),(31,0)} 17 0,810 Tab Wzorce wyskakjące lewego krańca płot o najwyższej ekspresj 116

117 Rozmar Udzał redktów Udzał wzorców 1 0,000 0, ,000 0, ,000 0, ,000 0, ,000 0, ,009 0, ,065 0, ,173 0, ,371 0, ,326 0, ,048 0, ,008 0, ,000 0,000 Tab Podzał redktów wzorców na klasy wedłg rozmarów Redkty Wzorce Udzał [%] 0,400 0,350 0,300 0,250 0,200 0,150 0,100 0,050 0, Rozmar zbor Rys Hstogramy dla podzał redktów wzorców na klasy wedłg rozmarów Ustosnkowane do nnych prac W pracach [29,30,31] opsana została analza rozważanego zbor danych. Atorzy zastosowal dyskretyzację zstępjącą do całego zakres badanych genów. Następne wybral 135 genów, dla których metoda wyznaczyła co najmnej dwelementowy podzał. Spośród otrzymanych genów zostało następne wybranych 35 genów, których podzał otrzymał charakteryzował sę najwększą entropą. Dla tak zredkowanej tablcy decyzyjnej zostały wyznaczone wzorce wyskakjące. W pracach [30,31] etap dyskretyzacj został przeprowadzony neprawdłowo, co doprowadzło do błędnych wynków końcowych. Poprawne rezltaty zawera wyłączne korekta [29]. 117

118 Nr wedłg Próg Gen X atorów podzał attrval F (X) Rozważany 1 M ,83 0,353 Ne 2 M ,22 1,000 Tak 3 R ,38 0,910 Tak 4 M ,30 0,924 Tak 5 H ,87 0,700 Tak 6 X ,99 0,610 Tak 7 R ,96 0,501 Ne 8 J ,80 0,906 Tak 9 M ,04 0,602 Tak 10 J ,90 0,655 Tak 11 M ,37 0,895 Tak 12 M ,74 0,877 Tak 13 M ,44 0,311 Ne 14 H ,03 0,636 Tak 15 U ,99 0,525 Ne 16 H ,01 0,663 Tak 17 H ,19 0,001 Ne 18 X ,30 0,141 Ne 19 R ,17 0,485 Ne 20 T ,42 0,340 Ne 21 T ,85 0,587 Tak 22 R ,57 0,569 Tak 23 U ,74 0,432 Ne 24 U ,58 0,501 Ne 25 T ,98 0,690 Tak 26 T ,70 0,802 Tak 27 U ,38 0,573 Tak 28 H ,77 0,533 Ne 29 T ,44 0,572 Tak 30 X ,91 0,361 Ne 31 U ,19 0,723 Tak 32 T ,65 0,580 Tak 33 H ,15 0,537 Ne 34 Z ,12 0,811 Tak 35 U ,17 0,528 Ne Tab Geny analzowane w pracy [25] wybrane wedłg kryterm entrop, zpełnone o wartość fnkcj oceny attrval F wylczoną w nnejszej analze Ocena wedłg entrop jest różna od oceny zgodne ze statystyką F. Oba podejśca wskazały tych samych 21 genów. Kryterm entrop podało 14 genów, które zostały nsko ocenone zgodne z przyjętą t fnkcją oceny attrval F przez to wyelmnowane z dalszej analzy. 118

119 9.3. Omówene wynków Ocena pojedynczych genów Rozdzał dotyczy wynków otrzymanych przy zastosowan różnych fnkcj oceny genów. Wynk odnesone są do ocen dostępnych w pblkacjach. Dla zbor Ontaro analza warancj wskazała 9 sekwencj o attrval F (X)>0,77. Opsy pochodzą z arkszy wynków sporządzonych przez atorów. Gen X Ops attrval F (X) :Data not fond:not avalable 1, :Data not fond:not avalable 0, :Data not fond:not avalable 0, :Data not fond:not avalable 0, :Data not fond:not avalable 0, :Hs.35406:not avalable 0, :Hs.31500:not avalable 0, :Hs :not avalable 0, :Hs :not avalable 0,775 Tab Geny wskazane przez fnkcję oceny attrval F Pęć wskazanych sekwencj ne zostało poprawne zdentyfkowanych przez atorów. Cztery pozostałe wskazją na konkretne geny opsane w odpowednch bazach sekwencj. Fnkcje attrval RED attrval JEP najwyżej ocenły tę samą sekwencję odpowadającą konkretnem genow. Może to przemawać za jej stotnoścą dla powstawana nowotworów. Gen X Ops attrval RED (X) attrval JEP (X) :Hs :not avalable 1,000 1,000 Tab Gen wskazany przez fnkcje oceny attrval RED attrval JEP Żaden z genów wskazanych przez model statystyczny Cox a, wykorzystany przez atorów eksperyment (tabela ), ne pokrywa sę z genam zbor znaczącego rozważanego w naszej analze. Dla zbor Prnceton analza warancj wskazała 9 sekwencj attrval F (X)>0,8 Opsy pochodzą z arkszy wynków sporządzonych przez atorów. Gen X Ops attrval F (X) M63391 Hman desmn gene, complete cds. 1,000 M76378 Hman cystene-rch proten (CRP) gene, exons 5 and 6 0,924 R87126 MYOSIN HEAVY CHAIN, NONMUSCLE (Galls galls) 0,910 J02854 MYOSIN REGULATORY LIGHT CHAIN 2, SMOOTH MUSCLE 0,

120 M76378 M76378 Z50753 T92451 ISOFORM (HUMAN);contans element TAR1 repettve element Hman cystene-rch proten (CRP) gene, exons 5 and 6 Hman cystene-rch proten (CRP) gene, exons 5 and 6 H.sapens mrna for GCAP- II/roganyln precrsor TROPOMYOSIN, FIBROBLAST AND EPITHELIAL MUSCLE- TYPE (HUMAN) 0,895 0,877 0,811 0,802 Tab Geny wskazane przez fnkcję oceny attrval F Zbory znaczące stalone za pomocą stosowanej w pracy analzy warancj oraz wykorzystanej przez atorów prac [29,30,31] analzy entrop pokryły sę w przypadk 21 genów. W szczególnośc obe oceny wskazały 3 replkanty tej samej sekwencj M Rozbeżność wynków wskazje na fakt, jak bardzo stotny jest etap oceny wybor genów. Przykłady pokazały, że różne modele statystyczne, analza entrop podzał mogą prowadzć do zpełne nnych wynków. Dla poprawnych badań ważne jest, aby znaleźć zasadnene stosowana jednego podejśca lb rodzny podejść. Jeśl etap ten ne został przeprowadzony odpowedno dalsza analza może prowadzć do błędnych wnosków Grpy genów współzależnych Grpy genów współzależnych dla ob zborów danych zostały wyznaczone za pomocą redktów wzorców wyskakjących. W przypadk zbor Ontaro mamy następjące redkty o dłgośc 6 (tabela ). Zbór został wyznaczony metodą przyblżoną. Redkt zgodne z nmeracją genów Redkt zgodne z nazwam genów {5, 13, 20} {47345, 31795, } {8, 10, 20} {42837, , } {10, 13, 20} {113699, 31795, } {10, 20, 22} {113699, , 33408} {13, 18, 20} {31795, 49602, } {13, 20, 40} {31795, , } Tab Grpy genów wynkające z redktów o dłgośc 6 Wzorce wyskakjące mogą być wykorzystane do bdowy profl ekspresj genów. W naszym przypadk wskazją, jake pozomy ekspresj mają określone geny dla komórek zrakowacałych (baza danych D 2 ). Na zelono zostały zaznaczone, te redkty wzorce, które wskazją te same grpy genów. Zaznaczone wzorce wyskakjące wynkają na podstawe twerdzena z stnena odpowednch redktów. Poneważ wzorce te mają wsparce 100%, węc na przykładze redktów obserwjemy tezę twerdzena Mów ona o stnen zborów rozróżnających równych zborom atrybtów zwązanych z tym wzorcam. 120

121 Wzorzec wyskakjący zgodne z nmeracją genów Wzorzec wyskakjący zgodne z nazwam genów {(8,1),(10,1),(20,0)} {(42837,1),(113699,1),(321970,0)} {(8,1),(15,1),(20,0),(40,1)} {(42837,1),(110608,1),(321970,0),(197637,1)} {(8,1),(20,0),(30,1),(40,1)} {(42837,1),(321970,0),(115012,1),(197637,1)} {(8,1),(20,0),(39,1),(40,1)} {(42837,1),(321970,0),(140870,1),(197637,1)} {(10,1),(13,1),(20,0)} {(113699,1),(31795,1),(321970,0)} {(10,1),(20,0),(22,1)} {(113699,1),(321970,0),(33408,1)} {(13,1),(18,1),(20,0)} {(31795,1),(49602,1),(321970,0)} {(13,1),(20,0),(40,1)} {(31795,1),(321970,0),(197637,1)} {(15,1),(20,0),(22,1),(40,1)} {(110608,1),(321970,0),(33408,1),(197637,1)} {(20,0),(22,1),(30,1),(40,1)} {(321970,0),(33408,1),(115012,1),(197637,1)} {(20,0),(22,1),(39,1),(40,1)} {(321970,0),(33408,1),(140870,1),(197637,1)} {(5,1),(13,1),(20,0)} {(47345,1),(31795,1),(321970,0)} Tab Profle ekspresj genów wynkające z mnmalnych wzorców wyskakjących o wsparc 100% (0 nsk pozom, 1 wysok pozom) W temace znajdowana grp genów współzależnych ne dysponjemy badanam nnych grp badawczych dla tego zbor. Wybrane redkty o dłgośc 6 dla zbor Prnceton zostały zebrane w tabel Wybór został dokonany arbtralne. Przedstawene ma cel pokazane postac wzorców omówene wynkających z nej problemów. Redkt zgodne z nmeracją genów Redkt zgodne z nazwam genów {1, 2, 4, 10, 19, 26} {M63391, M76378, J02854, H08393, M36634, T47377} {1, 2, 10, 15, 19, 26} {M63391, M76378, H08393, H40095, M36634, T47377} {1, 2, 15, 19, 22, 26} {M63391, M76378, H40095, M36634, T57619, T47377} {1, 3, 4, 10, 19, 26} {M63391, R87126, J02854, H08393, M36634, T47377} {1, 3, 7, 19, 26, 27} {M63391, R87126, Z50753, M36634, T47377, R84411} {1, 3, 10, 13, 19, 26} {M63391, R87126, H08393, J05032, M36634, T47377} {1, 3, 10, 14, 19, 26} {M63391, R87126, H08393, X63629, M36634, T47377} {1, 3, 10, 15, 19, 26} {M63391, R87126, H08393, H40095, M36634, T47377} {1, 3, 10, 19, 26, 27} {M63391, R87126, H08393, M36634, T47377, R84411} {1, 3, 10, 19, 26, 29} {M63391, R87126, H08393, M36634, T47377, X14958} {1, 3, 10, 19, 26, 30} {M63391, R87126, H08393, M36634, T47377, T62947} {1, 3, 10, 19, 26, 31} {M63391, R87126, H08393, M36634, T47377, H55916} {1, 3, 19, 22, 26, 27} {M63391, R87126, H08393, T57619, T47377, R84411} {1, 3, 19, 22, 26, 30} {M63391, R87126, H08393, T57619, T47377, T62947} {1, 3, 19, 22, 26, 31} {M63391, R87126, H08393, T57619, T47377, H55916} Tab Grpy genów wynkające z redktów o dłgośc 6 121

122 W tabel zostały wyszczególnone profle wynkające z wzorców wyskakjących o wsparc 81%. Wzorzec wyskakjący zgodne z nmeracją genów Wzorzec wyskakjący zgodne z nazwam genów {(15,0),(19,1),(26,0)} {(H40095,0),(M36634,1),(T47377,0)} {(3,1),(26,0),(27,0)} {(R87126,1),(T47377,0),(R84411,0)} {(3,1),(26,0),(30,0)} {(R87126,1),(T47377,0),(T62947,0)} {(3,1),(26,0),(31,0)} {(R87126,1),(T47377,0),(H55916,0)} Tab Profle ekspresj genów wynkające z mnmalnych wzorców wyskakjących o wparc 81% (0 nsk pozom, 1 wysok pozom) W tabel zostały zaznaczone te redkty, które są nadzboram zborów atrybtów zwązanych z mnmalnym wzorcam wyskakjącym. Jak wdać, każdy każdy wzorzec wynka z stnena przynajmnej jednego z wyszczególnonych redktów. Atorzy w korekce [29] zameszczają lstę 20 wzorców o najwększym wsparc odpowedno w klase tkanek zdrowych zrakowacałych. W analze rozważamy klasę komórek normalnych. Spośród podanych przez atorów wzorców wszystke zwązane są przynajmnej z jednym genem, który ne pochodz z lsty zameszczonej w tabel Geny te zostały najwyżej ocenone przez atorów. Ze względ na różne zbory genów znaczących porównane wzorców otrzymanych przez atorów ze znalezonym w naszej analze ne posada wyraźnego zasadnena. Profle zyskane za pomocą wzorców wyskakjących są z powodzenem wykorzystane w klasyfkacj tkanek. Jeśl chodz o znajdowane grp genów współzależnych zastosowane ne jest tak jasne. Po perwsze wyznaczone redkty wzorce poprzedza etap wybor genów dyskretyzacj, które prowadzą do straty dżej porcj nformacj. Borąc pod wagę dży błąd towarzyszący stosowanej technolog może sę okazać, że otrzymywane redkty wzorce stanową szm. W szczególnośc wele znalezonych zborów o małej lczbe atrybtów może mylne sgerować stnene zależnośc mędzygenowych. Wele atrybtów o dżej sle rozróżnającej może tworzyć redkt z różnym grpam atrybtów. Drga kwesta dotyczy samej metody badana powązań. Geny odpowedzalne za realzację badanego proces mogą legać ekspresj w różnych jego fazach. To sgerowałoby badane kolejnych szeregów czasowych pozomów ekspresj oddzelne dla każdej klasy tkanek Zbór redktów przestrzeń wzorców wyskakjących Badana dotyczyły porównana zbor redktów lewego krańca płot przestrzen wzorców wyskakjących. W przypadk zbor Ontaro występje stosnkowo wysoka korelacja rozkład wartośc ob fnkcj oceny genów (patrz rysnek ). Współczynnk korelacj wynos 0,716. Sgerje to, że w przyblżen te same geny były stotne dla bdowana wel redktów, co mnmalnych wzorców wyskakjących. W szczególnośc obe fnkcje najwyżej ocenły ten sam atrybt. Obserwjemy równeż korelację rozkładów lośc zborów określonej dłgośc w 122

123 ob rozważanych rodznach (patrz rysnek ). Mogłoby to wskazywać na zblżoną strktrę ob rodzn oraz pewne zależnośc pomędzy badanym pojęcam. Dla zbor Prnceton ne obserwjemy jż takch wyraźnych zależnośc. Korelacja pomędzy rozkładam wartośc fnkcj oceny jest nższa (patrz rysnek ). Współczynnk korelacj wynos 0,631. Podobne rozkłady częstotlwośc występowana zborów o określonych dłgoścach wyznaczone dla ob podejść ne pokrywa sę ze sobą. Rozbeżność w wynkach można tłmaczyć małą lczbą przeprowadzonych prób. Ponadto należy meć śwadomość, że w przypadk zbor Ontaro zbór redktów został wyznaczony w sposób przyblżony, co może meć wpływ na oblczone statystyk. Dla zbor Prnceton obe rodzny zostały wyznaczone w sposób dokładny. Zwróćmy wagę także na to, że przestrzeń wzorców wyskakjących zbor Ontaro zawera wzorce o wsparc 100%. Zgodne z twerdzenem oznacza to, że stneją zbory rozróżnające złożone z atrybtów zwązanych z każdym z nch. Poneważ wzorce pochodzą z lewego krańca płot, węc zyskane zbory rozróżnające są jednocześne redktam. Fakt ten tłmaczy podobeństwo rozkładów wartośc fnkcj attrval RED attrval JEP. Podsmowjąc, badana ne wykazały szczególnej zależnośc pomędzy pojęcam redkt wzorca wyskakjącego. Jedną z przyczyn stanowć ch przydatność do reprezentowana wedzy. W szczególnośc zaważmy, że oba podejśca są slne zależne od zbor obektów. Jeśl do nwersm dodamy nowe elementy, to może to wpłynąć na zmanę charakter rodzn. Część redktów może przestać być redktam, a część wzorców wyskakjących stane sę wzorcam wyłanającym o wysok współczynnk wzrost wsparca. Szczególne w stosnk do redktów pojawa sę wele zarztów, co do ch wrażlwośc na rozszerzane zbor obektów. Jeśl chodz o wzorce wyskakjące dysponjemy bardzo dobrym wynkam w zadanach klasyfkacj, które sgerją, że są one znaczne bardzej odporne na tę operację. Z tego względ warto sę zastanowć nad porównanem redktów dynamcznych z wzorcam wyskakjącym lb wzorcam wyłanającym o dżym współczynnk wzrost wsparca. 123

124 10. Ops program testowego Mcroarray Analyser Informacje ogólne Aplkacja Mcroarray Analyser została przygotowana dla wygodnej analzy danych zgodne ze śceżką zaproponowaną w pracy. Ma ona za zadane łatwć testowane zbor danych pochodzących z eksperyment z wykorzystanem mkromacerzy za pomocą porszonych metod. Ne stanow środowska do wstępnej obróbk pomarów, gdyż posada slne założena na temat charakter zbor wejścowego. Program jest wyposażony w nterfejs grafczny, przy czym wszystke wynk cząstkowe są dokmentowane w log. W ten sposób można wygodne obserwować proces analzy zbor danych. Na program składają sę pakety: ep mplementacja algorytm wyznaczana wzorców wyskakjących genetc bbloteka algorytmów ewolcyjnych, napsana na potrzeby pracy, wzorowana na JGAP jrs mplementacja algorytmów wyznaczana redktów mcroarray mplementacja aplkacj Aplkacja została zrealzowana na platforme językowej JAVA. Do komplacj kod wykorzystano zestaw J2SE 1.4.2, a do wykonana żyto maszyny wrtalnej JVM Oba są prodktam frmy Sn Mcrosystems. Ze względ na charakter języka aplkacja jest nezależna od platformy systemowej może być rchomona na każdej platforme, dla której dostępna jest odpowedna maszyna wrtalna. Poneważ plk log tworzone są w lokalnym katalog, węc rchomene program wymaga przegrana na dysk z prawem do zaps Format danych wejścowych Eksperymenty są prowadzone dokmentowane w różny sposób. Wybrany zbór często wymaga dodatkowego przygotowana. Zbór wejścowy program ms meć następjące cechy: pozomy ekspresj są znormalzowane pomędzy kolejnym eksperymentam pozomy genów kontrolnych zostały snęte wszystke wartośc są kompletne Pojedynczy zbór wejścowy zapsany jest w 5 plkach. Plk zawerają ops tablcy decyzyjnej oraz nazwy genów klas decyzyjnych. Tablca zapsana jest w przyjętej powszechne konwencj, tzn. geny są werszam a przykłady kolmnam. Przy czym w naszej analze wersze odpowadają atrybtom a przykłady obektom tablcy. Zarówno geny, jak przykłady są jednoznaczne porządkowane. Porządek ten wykorzystywany jest przy oddzelnym opse pozomów ekspresj, klas decyzyjnych przykładów nazw genów. Ze względ na charakter analzy przykłady ne są opsywane przez żadne dodatkowe nformacje poza swoją klasą decyzyjną. Kolejnym możlwym klasom decyzyjnym są przypsywane kolejne lczby ze zbor N {0}. Przyporządkowane to wykorzystywane jest do ops klas przykładów. 124

125 Parametry opsjące rozmar zbor danych wykorzystywane przy opse format plków: n lczba genów m lczba przykładów p lczba klas decyzyjnych Plk konfgracyjny Plk ma za zadane wskazać wszystke plk opsjące eksperyment. Poneważ plk tworzą jedną całość, węc ne ma sens oddzelnego wskazywana wszystkch plków przy każdorazowej analze. Plk jest w formace XML o strktrze przedstawonej w tabel , wcęca w kolmne znacznk oddają herarchę pojęć dokment. Znacznk Confg matrxfle classesfle genenamesfle classnamesfle Semantyka znacznka Śceżka plk z macerzą ekspresj Śceżka plk z lstą klas przykładów Śceżka plk z nazwam genów Śceżka plk z nazwam klas Plk ma rozszerzene.maa. Plk z macerzą ekspresj Tab Format plk konfgracyjnego zbor danych Plk zawera pozomy ekspresj wszystkch genów dla wszystkch przypadków. Plk jest w formace tekstowym. Pozomy są lczbam rzeczywstym w notacj z kropką. Kolejne wartośc dotyczące ekspresj jednego gen są meszczone w jednej ln rozdzelone spacją. Każdy gen opsany jest w oddzelnej ln. Plk ten jest zdecydowane najwększym spośród zestaw plków opsjących eksperyment. Dokmentacja dostępna na stronach często zawera plk o zblżonej postac, co łatwa proces przygotowana odpowednego format. E11 E12 E1m E21 E22 E2m En1 En2 Enm Rys Format plk z macerzą ekspresj Ops symbol format: Ej pozom ekspresj -tego gen w j-tym eksperymence, lczba rzeczywsta Plk ma rozszerzene.matrx. 125

126 Plk z lstą klas przykładów Plk zawera wartośc atrybt decyzyjnego dla kolejnych przykładów. Klasa danego przykłady jest reprezentowana przez lczbę przypsaną tej klase. Plk jest w formace tekstowym. Wartośc odpowadające klasom kolejnych przykładów zapsane są w kolejnych lnach plk. klasa 1 klasa 2 klasa m Rys Format plk z lstą klas przykładów Ops symbol format: klasa j klasa decyzyjna j-tego przykład, lczba z N {0} Plk ma rozszerzene.classes. Plk z nazwam genów Plk zawera nazwy kolejnych genów. Plk ma charakter tekstowy. Nazwy są meszczone w kolejnych lnach plk. nazwa gen 1 nazwa gen 2 nazwa gen n Rys Format plk z nazwam genów Ops symbol format: nazwa gen nazwa -tego gen, łańcch znaków Plk ma rozszerzene.genenames. Plk z nazwam klas Plk zawera nazwy kolejnych klas. Nazwy są porządkowane zgodne z relacją przyporządkowanym m lczb. Plk ma charakter tekstowy. Nazwy są meszczone w kolejnych lnach plk. klasa 1 klasa 2 klasa p Rys Format plk z nazwam klas 126

127 Ops symbol format: nazwa klasy k nazwa k-tej klasy, łańcch znaków Plk ma rozszerzene.classnames Prowadzene analzy zbor danych Strktra nterfejs grafcznego odpowada kolejnym krokom analzy. Możlwe jest wygodne stawane parametrów algorytmów realzjących poszczególne etapy oraz obserwacja rezltatów cząstkowych. Program pozwala na welokrotne wywoływane różnych kroków rozpoczynane w ten sposób analzy w nowym kernk poczynając od pewnego pnkt śceżk. Aplkacja jest typ SDI. Główne okno jest podzelone ponowo na dwe zasadncze częśc. Prawa część zawera okno wyśwetlające log tworzony na beżąco podczas sesj z programem. Zapsywane są w nm nformacje na temat kolejnych kroków analzy. Możlwa jest także zmana w czase sesj pozom szczegółowośc nformacj zapsywanych w log. W ten sposób można dobrać sposób dokmentowana do cel badana zbor danych. Lewa część obejmje system zakładek. Kolejne panele odzwercedlają krok prowadzonej analzy. Są one dostępnane sekwencyjne. Panel jest aktywny dopero wtedy, gdy zostały kończone etapy dostarczające odpowedno przetworzone dane. Z tego względ sposób prowadzena analzy zostane przedstawony jednocześne z omówenem zakładek. Na nektórych zakładkach dostępnych jest klka możlwych algorytmów do wybor. Jeśl dany algorytm wymaga podana parametrów wejścowych, to objaśnene ch znaczena zostało meszczone ponżej, przy opse każdej z opcj. W programe atomatyczne są podpowadane wartośc domyślne. Dla algorytmów zostały też wskazane rozdzały zawerające nformacje na temat sposob ch realzacj. Wczytywane danych Rozpoczęce analzy wymaga wskazana odpowednego plk konfgracyjnego danych wejścowych. W czase wczytywana sprawdzana jest poprawność plków z właścwym danym. Proces sprowadza sę do zancjowana tablcy decyzyjnej o cągłych atrybtach warnkowych oraz strktr mapjących nazwy genów klas na reprezentacje wewnętrzną. Po przygotowan strktr nformacje na ekran wyprowadzane są ogólne nformacje na temat rozmar zbor danych, badanych genów oraz możlwych klas decyzyjnych. 127

128 Rys Panel wczytywana danych wejścowych Ocena genów Etap ten odpowada za wyznaczene ocen pojedynczych genów za pomocą jednej z wybranych metod. Dostępne są dwe metody oceny: NllScorer trywalne przypsane wszystkm atrybtom tej samej wag równej 1 OneWayANOVAScorer metoda analzy warancj wylczająca wartość fnkcj attrval F dla każdego gen (rozdzał 4.3.2) Obe metody są bezparametrowe. Okno parametrów zostało pozostawone ze względ na ewentalne dodane nnych operatorów oceny atrybtów cągłych. Po rchomen wybranej z metod wyznaczana jest fnkcja oceny dla zbor wszystkch genów. Wynk zameszczone są w dwóch tabelach. W jednej porządkowane zgodne z kolejnoścą początkową nazw genów, w drgej zgodne z nerosnącym ocenam znaczena. 128

129 Rys Panel oceny genów Wybór zbor znaczącego Krok dotyczy wybor genów, które będą rozważane w dalszej analze. Zgodne z stawenam żytkownka na podstawe wylczonych ocen genów wyznaczany jest zbór znaczący. Na tej podstawe tworzona jest nowa tablca decyzyjna o zborze atrybtów warnkowych równym tem zborow. Otrzymaną tablcę będzemy dalej nazywać zredkowaną tablcą decyzyjną. Wybór zbor znaczącego może być dokonany za pomocą jednej z dwóch metod: RankngSelector wyznaczene zbor λ,1-rankngowo znaczącego (rozdzał 4.4.3) SmmngSelector wyznaczene zbor λ,1-smacyjne znaczącego (rozdzał 4.4.3) Obe metody wymagają podana rzeczywstego parametr lambda z przedzał <0,1>. W lewej tabel zapsane są wszystke geny perwotnej tablcy decyzyjnej porządkowane wedłg nerosnących ocen znaczena. Po wywołan algorytm atrybty zbor znaczącego zostaną wypsane w prawej tabel. Są one równeż porządkowane wedłg nerosnących ocen znaczena. Kryterm dobor zbor jest jego rozmar rozkład ocen pojedynczych genów. Wybor można dokonywać welokrotne dla różnych wartośc parametr lambda w prawej tabel obserwować postać zbor znaczącego. 129

130 Rys Panel wybor zbor znaczącego Dyskretyzacja Etap jest nezbędny do zastosowana metod wymagających tablcy decyzyjnej o atrybtach dyskretnych. Zgodne z obraną metodą zredkowana tablca decyzyjna jest dyskretyzowana do nowej tablcy, którą nazywać będzemy dalej zdyskretyzowaną tablcą decyzyjną. Przedzałom w podzale każdego atrybt są przyporządkowywane nezależne kolejne lczby ze zbor N {0}. Dostępne są trzy metody dyskretyzacj: EqalSzeDscretser dyskretyzacja z zachowanem przedzałów tej samej szerokośc (rozdzał 5.3.1) o ntervalcont zamerzona lczba przedzałów w podzale dla każdego atrybt, lczba całkowta EqalDepthDscretser dyskretyzacja z zachowanem przedzałów tej samej głębokośc (rozdzał 5.3.2) o ntervalcont zamerzona lczba przedzałów w podzale dla każdego atrybt, lczba całkowta TopDownEntropyBasedDscretser dyskretyzacja zstępjąca analzjąca entropę przy tworzen podzał dla każdego atrybt (rozdzał 5.3.3) Lewa tabela zawera nazwy genów, które odpowadają atrybtom tablcy zredkowanej. Po dokonan proces wskazane myszą określonego gen w prawej tabel wyśwetlone zostaną przedzały wyznaczonego podzał zbor wartośc tego atrybt. 130

131 Wyznaczane redktów Rys Panel dyskretyzacj tablcy decyzyjnej W etape tym wyznaczane są redkty zredkowanej tablcy decyzyjnej. Charakter znalezonych redktów zależy od wybor algorytm ch znajdowana. Dostępne są dwa podejśca: ExactRedctFnder algorytm dokładny, wyznaczający wszystke redkty tablcy (rozdzał 6.4.1) IncrementalGenetcRedctFnder algorytm przyblżony wyznaczający zbór redktów o wartośc ne wększej nż zadana wartość (rozdzał 6.4.4) o seed oznaczająca zarno dla generatora lczb losowych, lczba natralna lb zero o crossoverrate prawdopodobeństwo zajśca krosowana, lczba rzeczywsta z przedzał <0,1> o mtatonrate prawdopodobeństwo zajśca mtacj, lczba rzeczywsta z przedzał <0,1> o poplatonsze rozmar poplacj, lczba natralna o teratoncont lczba generacj algorytm ewolcyjnego, lczba rzeczywsta z przedzał <0,1> o sccesonrate stopeń zachodzena proces skcesj, lczba rzeczywsta z przedzał <0,1> o bestsetsze rozmar zbor, w którym przechowywane są najlepsze osobnk, lczba natralna o mnattrbtecont mnmalna lczba atrybtów w przeszkwanych zborach atrybtów o maxattrbtecont maksymalna lczba atrybtów w przeszkwanych zborach atrybtów, zyskane redkty mogą meć dłgość co najwyżej równą tem parametrow Po wykonan algorytm wyznaczone redkty zostają meszczone w tabel. 131

132 Rys Panel wyznaczana redktów Wyznaczane przestrzen wzorców wyskakjących W krok tym wyznaczana jest cała przestrzeń wzorców wyskakjących dla rodzny baz danych dla zdyskretyzowenej tablcy decyzyjnej przy wyborze jednej klasy, jako klasy odnesena. W perwszym krok bdowana jest odpowedna rodzna baz danych dla tablcy decyzyjnej. Następne za pomocą algorytm JEPProdcer wyznaczana jest cała przestrzeń wzorców wyskakjących. Wzorce są wyznaczane z jednej wskazanej klasy do wszystkch nnych, traktowanych jako jedna klasa. Przestrzeń zapsywana jest w reprezentacj płotowej. Algorytm ten wymaga podana parametr: fromclass klasa, z której będą lczone wzorce Po wykonan oblczeń zbory przedmotów z lewej krańca są zapsywane w lewej tabel, a zbory z prawego krańca w prawej. W nterfejse została przewdzana możlwość dodana nnych algorytmów znajdowana wzorców wyskakjących, które na wyjśc dają zbór wypkły. 132

133 Raport wynków analzy Rys Panel wyznaczana przestrzen wzorców wyskakjacych Ostatna zakładka zawera raport przeprowadzonej analzy. Po nacśnęc przycsk generacj raport zostają wyznaczone oceny pojedynczych genów ze zdyskretyzowanej tablcy decyzyjnej: attrval χ, attval RED, attrval JEP. Razem z wyznaczoną na etape elmnacj genów oceną dla attrval F fnkcje te są końcową nformacją na temat znaczena każdego z genów z osobna. Dla możlwych par rozkładów są oblczane współczynnk korelacj rozkładów. Wartośc czterech fnkcj oceny dla wszystkch genów zdyskretyzowanej tablcy są zameszczone w tabel. Informacje na temat porównana rozkładów są zameszczone ponżej. Rys Panel raport wynków analzy 133

Analiza danych OGÓLNY SCHEMAT. http://zajecia.jakubw.pl/ Dane treningowe (znana decyzja) Klasyfikator. Dane testowe (znana decyzja)

Analiza danych OGÓLNY SCHEMAT. http://zajecia.jakubw.pl/ Dane treningowe (znana decyzja) Klasyfikator. Dane testowe (znana decyzja) Analza danych Dane trenngowe testowe. Algorytm k najblższych sąsadów. Jakub Wróblewsk jakubw@pjwstk.edu.pl http://zajeca.jakubw.pl/ OGÓLNY SCHEMAT Mamy dany zbór danych podzelony na klasy decyzyjne, oraz

Bardziej szczegółowo

SZACOWANIE NIEPEWNOŚCI POMIARU METODĄ PROPAGACJI ROZKŁADÓW

SZACOWANIE NIEPEWNOŚCI POMIARU METODĄ PROPAGACJI ROZKŁADÓW SZACOWANIE NIEPEWNOŚCI POMIARU METODĄ PROPAGACJI ROZKŁADÓW Stefan WÓJTOWICZ, Katarzyna BIERNAT ZAKŁAD METROLOGII I BADAŃ NIENISZCZĄCYCH INSTYTUT ELEKTROTECHNIKI ul. Pożaryskego 8, 04-703 Warszawa tel.

Bardziej szczegółowo

TRANZYSTOR BIPOLARNY CHARAKTERYSTYKI STATYCZNE

TRANZYSTOR BIPOLARNY CHARAKTERYSTYKI STATYCZNE POLITHNIKA RZSZOWSKA Katedra Podstaw lektronk Instrkcja Nr4 F 00/003 sem. letn TRANZYSTOR IPOLARNY HARAKTRYSTYKI STATYZN elem ćwczena jest pomar charakterystyk statycznych tranzystora bpolarnego npn lb

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA WYKŁAD 5 WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH

STATYSTYKA MATEMATYCZNA WYKŁAD 5 WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH STATYSTYKA MATEMATYCZNA WYKŁAD 5 WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH 1 Test zgodnośc χ 2 Hpoteza zerowa H 0 ( Cecha X populacj ma rozkład o dystrybuance F). Hpoteza alternatywna H1( Cecha X populacj

Bardziej szczegółowo

D Archiwum Prac Dyplomowych - Instrukcja dla studentów

D Archiwum Prac Dyplomowych - Instrukcja dla studentów Kraków 01.10.2015 D Archwum Prac Dyplomowych - Instrukcja dla studentów Procedura Archwzacj Prac Dyplomowych jest realzowana zgodne z zarządzenem nr 71/2015 Rektora Unwersytetu Rolnczego m. H. Kołłątaja

Bardziej szczegółowo

KRZYWA BÉZIERA TWORZENIE I WIZUALIZACJA KRZYWYCH PARAMETRYCZNYCH NA PRZYKŁADZIE KRZYWEJ BÉZIERA

KRZYWA BÉZIERA TWORZENIE I WIZUALIZACJA KRZYWYCH PARAMETRYCZNYCH NA PRZYKŁADZIE KRZYWEJ BÉZIERA KRZYWA BÉZIERA TWORZENIE I WIZUALIZACJA KRZYWYCH PARAMETRYCZNYCH NA PRZYKŁADZIE KRZYWEJ BÉZIERA Krzysztof Serżęga Wyższa Szkoła Informatyk Zarządzana w Rzeszowe Streszczene Artykuł porusza temat zwązany

Bardziej szczegółowo

WikiWS For Business Sharks

WikiWS For Business Sharks WkWS For Busness Sharks Ops zadana konkursowego Zadane Opracowane algorytmu automatyczne przetwarzającego zdjęce odręczne narysowanego dagramu na tablcy lub kartce do postac wektorowej zapsanej w formace

Bardziej szczegółowo

Zjawiska masowe takie, które mogą wystąpid nieograniczoną ilośd razy. Wyrazów Obcych)

Zjawiska masowe takie, które mogą wystąpid nieograniczoną ilośd razy. Wyrazów Obcych) Statystyka - nauka zajmująca sę metodam badana przedmotów zjawsk w ch masowych przejawach ch loścową lub jakoścową analzą z punktu wdzena nauk, do której zakresu należą.

Bardziej szczegółowo

Zapis informacji, systemy pozycyjne 1. Literatura Jerzy Grębosz, Symfonia C++ standard. Harvey M. Deitl, Paul J. Deitl, Arkana C++. Programowanie.

Zapis informacji, systemy pozycyjne 1. Literatura Jerzy Grębosz, Symfonia C++ standard. Harvey M. Deitl, Paul J. Deitl, Arkana C++. Programowanie. Zaps nformacj, systemy pozycyjne 1 Lteratura Jerzy Grębosz, Symfona C++ standard. Harvey M. Detl, Paul J. Detl, Arkana C++. Programowane. Zaps nformacj w komputerach Wszystke elementy danych przetwarzane

Bardziej szczegółowo

5. OPTYMALIZACJA GRAFOWO-SIECIOWA

5. OPTYMALIZACJA GRAFOWO-SIECIOWA . OPTYMALIZACJA GRAFOWO-SIECIOWA Defncja grafu Pod pojęcem grafu G rozumemy następującą dwójkę uporządkowaną (defncja grafu Berge a): (.) G W,U gdze: W zbór werzchołków grafu, U zbór łuków grafu, U W W,

Bardziej szczegółowo

Za: Stanisław Latoś, Niwelacja trygonometryczna, [w:] Ćwiczenia z geodezji II [red.] J. Beluch

Za: Stanisław Latoś, Niwelacja trygonometryczna, [w:] Ćwiczenia z geodezji II [red.] J. Beluch Za: Stansław Latoś, Nwelacja trygonometryczna, [w:] Ćwczena z geodezj II [red.] J. eluch 6.1. Ogólne zasady nwelacj trygonometrycznej. Wprowadzene Nwelacja trygonometryczna, zwana równeż trygonometrycznym

Bardziej szczegółowo

Analiza rodzajów skutków i krytyczności uszkodzeń FMECA/FMEA według MIL STD - 1629A

Analiza rodzajów skutków i krytyczności uszkodzeń FMECA/FMEA według MIL STD - 1629A Analza rodzajów skutków krytycznośc uszkodzeń FMECA/FMEA według MIL STD - 629A Celem analzy krytycznośc jest szeregowane potencjalnych rodzajów uszkodzeń zdentyfkowanych zgodne z zasadam FMEA na podstawe

Bardziej szczegółowo

W praktyce często zdarza się, że wyniki obu prób możemy traktować jako. wyniki pomiarów na tym samym elemencie populacji np.

W praktyce często zdarza się, że wyniki obu prób możemy traktować jako. wyniki pomiarów na tym samym elemencie populacji np. Wykład 7 Uwaga: W praktyce często zdarza sę, że wynk obu prób możemy traktować jako wynk pomarów na tym samym elemence populacj np. wynk x przed wynk y po operacj dla tego samego osobnka. Należy wówczas

Bardziej szczegółowo

SZTUCZNA INTELIGENCJA

SZTUCZNA INTELIGENCJA SZTUCZNA INTELIGENCJA WYKŁAD 15. ALGORYTMY GENETYCZNE Częstochowa 014 Dr hab. nż. Grzegorz Dudek Wydzał Elektryczny Poltechnka Częstochowska TERMINOLOGIA allele wartośc, waranty genów, chromosom - (naczej

Bardziej szczegółowo

Systemy Ochrony Powietrza Ćwiczenia Laboratoryjne

Systemy Ochrony Powietrza Ćwiczenia Laboratoryjne ś POLITECHNIKA POZNAŃSKA INSTYTUT INŻYNIERII ŚRODOWISKA PROWADZĄCY: mgr nż. Łukasz Amanowcz Systemy Ochrony Powetrza Ćwczena Laboratoryjne 2 TEMAT ĆWICZENIA: Oznaczane lczbowego rozkładu lnowych projekcyjnych

Bardziej szczegółowo

Zaawansowane metody numeryczne Komputerowa analiza zagadnień różniczkowych 1. Układy równań liniowych

Zaawansowane metody numeryczne Komputerowa analiza zagadnień różniczkowych 1. Układy równań liniowych Zaawansowane metody numeryczne Komputerowa analza zagadneń różnczkowych 1. Układy równań lnowych P. F. Góra http://th-www.f.uj.edu.pl/zfs/gora/ semestr letn 2006/07 Podstawowe fakty Równane Ax = b, x,

Bardziej szczegółowo

Weryfikacja hipotez dla wielu populacji

Weryfikacja hipotez dla wielu populacji Weryfkacja hpotez dla welu populacj Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Intelgencj Metod Matematycznych Wydzał Informatyk Poltechnk Szczecńskej 5. Parametryczne testy stotnośc w

Bardziej szczegółowo

Problemy jednoczesnego testowania wielu hipotez statystycznych i ich zastosowania w analizie mikromacierzy DNA

Problemy jednoczesnego testowania wielu hipotez statystycznych i ich zastosowania w analizie mikromacierzy DNA Problemy jednoczesnego testowana welu hpotez statystycznych ch zastosowana w analze mkromacerzy DNA Konrad Furmańczyk Katedra Zastosowań Matematyk SGGW Plan referatu Testowane w analze mkromacerzy DNA

Bardziej szczegółowo

Procedura normalizacji

Procedura normalizacji Metody Badań w Geograf Społeczno Ekonomcznej Procedura normalzacj Budowane macerzy danych geografcznych mgr Marcn Semczuk Zakład Przedsęborczośc Gospodark Przestrzennej Instytut Geograf Unwersytet Pedagogczny

Bardziej szczegółowo

± Δ. Podstawowe pojęcia procesu pomiarowego. x rzeczywiste. Określenie jakości poznania rzeczywistości

± Δ. Podstawowe pojęcia procesu pomiarowego. x rzeczywiste. Określenie jakości poznania rzeczywistości Podstawowe pojęca procesu pomarowego kreślene jakośc poznana rzeczywstośc Δ zmerzone rzeczywste 17 9 Zalety stosowana elektrycznych przyrządów 1/ 1. możlwość budowy czujnków zamenających werne każdą welkość

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6 Stansław Cchock Natala Nehrebecka Wykład 6 1 1. Interpretacja parametrów przy zmennych objaśnających cągłych Semelastyczność 2. Zastosowane modelu potęgowego Model potęgowy 3. Zmenne cągłe za zmenne dyskretne

Bardziej szczegółowo

KURS STATYSTYKA. Lekcja 6 Regresja i linie regresji ZADANIE DOMOWE. www.etrapez.pl Strona 1

KURS STATYSTYKA. Lekcja 6 Regresja i linie regresji ZADANIE DOMOWE. www.etrapez.pl Strona 1 KURS STATYSTYKA Lekcja 6 Regresja lne regresj ZADANIE DOMOWE www.etrapez.pl Strona 1 Część 1: TEST Zaznacz poprawną odpowedź (tylko jedna jest prawdzwa). Pytane 1 Funkcja regresj I rodzaju cechy Y zależnej

Bardziej szczegółowo

Analiza ryzyka jako instrument zarządzania środowiskiem

Analiza ryzyka jako instrument zarządzania środowiskiem WARSZTATY 2003 z cyklu Zagrożena naturalne w górnctwe Mat. Symp. str. 461 466 Elżbeta PILECKA, Małgorzata SZCZEPAŃSKA Instytut Gospodark Surowcam Mneralnym Energą PAN, Kraków Analza ryzyka jako nstrument

Bardziej szczegółowo

PROSTO O DOPASOWANIU PROSTYCH, CZYLI ANALIZA REGRESJI LINIOWEJ W PRAKTYCE

PROSTO O DOPASOWANIU PROSTYCH, CZYLI ANALIZA REGRESJI LINIOWEJ W PRAKTYCE PROSTO O DOPASOWANIU PROSTYCH, CZYLI ANALIZA REGRESJI LINIOWEJ W PRAKTYCE Janusz Wątroba, StatSoft Polska Sp. z o.o. W nemal wszystkch dzedznach badań emprycznych mamy do czynena ze złożonoścą zjawsk procesów.

Bardziej szczegółowo

Badanie współzależności dwóch cech ilościowych X i Y. Analiza korelacji prostej

Badanie współzależności dwóch cech ilościowych X i Y. Analiza korelacji prostej Badane współzależnośc dwóch cech loścowych X Y. Analza korelacj prostej Kody znaków: żółte wyróżnene nowe pojęce czerwony uwaga kursywa komentarz 1 Zagadnena 1. Zwązek determnstyczny (funkcyjny) a korelacyjny.

Bardziej szczegółowo

Urządzenia wejścia-wyjścia

Urządzenia wejścia-wyjścia Urządzena wejśca-wyjśca Klasyfkacja urządzeń wejśca-wyjśca. Struktura mechanzmu wejśca-wyjśca (sprzętu oprogramowana). Interakcja jednostk centralnej z urządzenam wejśca-wyjśca: odpytywane, sterowane przerwanam,

Bardziej szczegółowo

Zapytanie ofertowe nr 4/2016/Młodzi (dotyczy zamówienia na usługę ochrony)

Zapytanie ofertowe nr 4/2016/Młodzi (dotyczy zamówienia na usługę ochrony) Fundacja na Rzecz Rozwoju Młodzeży Młodz Młodym ul. Katedralna 4 50-328 Wrocław tel. 882 021 007 mlodzmlodym@archdecezja.wroc.pl, www.sdm2016.wroclaw.pl Wrocław, 24 maja 2016 r. Zapytane ofertowe nr 4/2016/Młodz

Bardziej szczegółowo

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 4

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 4 Stansław Cchock Natala Nehrebecka Zajęca 4 1. Interpretacja parametrów przy zmennych zerojedynkowych Zmenne 0-1 Interpretacja przy zmennej 0 1 w modelu lnowym względem zmennych objaśnających Interpretacja

Bardziej szczegółowo

Kierownik Katedry i Kliniki: prof. dr hab. Bernard Panaszek, prof. zw. UMW. Recenzja

Kierownik Katedry i Kliniki: prof. dr hab. Bernard Panaszek, prof. zw. UMW. Recenzja KATEDRA KLINIKA CHORÓB WEWNĘTRZNYCHYCH GERIATRII ALERGOLOGU Unwersytet Medyczny m. Pastów Śląskch we Wrocławu 50-367 Wrocław, ul. Cure-Skłodowskej 66 Tel. 71/7842521 Fax 71/7842529 E-mal: bernard.panaszek@umed.wroc.pl

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6 Stansław Cchock Natala Nehrebecka Wykład 6 1 1. Zastosowane modelu potęgowego Przekształcene Boxa-Coxa 2. Zmenne cągłe za zmenne dyskretne 3. Interpretacja parametrów przy zmennych dyskretnych 1. Zastosowane

Bardziej szczegółowo

METODY PLANOWANIA EKSPERYMENTÓW. dr hab. inż. Mariusz B. Bogacki

METODY PLANOWANIA EKSPERYMENTÓW. dr hab. inż. Mariusz B. Bogacki Metody Planowana Eksperymentów Rozdzał 1. Strona 1 z 14 METODY PLANOWANIA EKSPERYMENTÓW dr hab. nż. Marusz B. Bogack Marusz.Bogack@put.poznan.pl www.fct.put.poznan.pl/cv23.htm Marusz B. Bogack 1 Metody

Bardziej szczegółowo

Projekt 6 6. ROZWIĄZYWANIE RÓWNAŃ NIELINIOWYCH CAŁKOWANIE NUMERYCZNE

Projekt 6 6. ROZWIĄZYWANIE RÓWNAŃ NIELINIOWYCH CAŁKOWANIE NUMERYCZNE Inormatyka Podstawy Programowana 06/07 Projekt 6 6. ROZWIĄZYWANIE RÓWNAŃ NIELINIOWYCH CAŁKOWANIE NUMERYCZNE 6. Równana algebraczne. Poszukujemy rozwązana, czyl chcemy określć perwastk rzeczywste równana:

Bardziej szczegółowo

Zaawansowane metody numeryczne

Zaawansowane metody numeryczne Wykład 9. jej modyfkacje. Oznaczena Będzemy rozpatrywać zagadnene rozwązana następującego układu n równań lnowych z n newadomym x 1... x n : a 11 x 1 + a 12 x 2 +... + a 1n x n = b 1 a 21 x 1 + a 22 x

Bardziej szczegółowo

Teoria niepewności pomiaru (Rachunek niepewności pomiaru) Rodzaje błędów pomiaru

Teoria niepewności pomiaru (Rachunek niepewności pomiaru) Rodzaje błędów pomiaru Pomary fzyczne - dokonywane tylko ze skończoną dokładnoścą. Powodem - nedoskonałość przyrządów pomarowych neprecyzyjność naszych zmysłów borących udzał w obserwacjach. Podawane samego tylko wynku pomaru

Bardziej szczegółowo

Ćwiczenie 10. Metody eksploracji danych

Ćwiczenie 10. Metody eksploracji danych Ćwczene 10. Metody eksploracj danych Grupowane (Clusterng) 1. Zadane grupowana Grupowane (ang. clusterng) oznacza grupowane rekordów, obserwacj lub przypadków w klasy podobnych obektów. Grupa (ang. cluster)

Bardziej szczegółowo

Natalia Nehrebecka. Wykład 2

Natalia Nehrebecka. Wykład 2 Natala Nehrebecka Wykład . Model lnowy Postad modelu lnowego Zaps macerzowy modelu lnowego. Estymacja modelu Wartośd teoretyczna (dopasowana) Reszty 3. MNK przypadek jednej zmennej . Model lnowy Postad

Bardziej szczegółowo

3. ŁUK ELEKTRYCZNY PRĄDU STAŁEGO I PRZEMIENNEGO

3. ŁUK ELEKTRYCZNY PRĄDU STAŁEGO I PRZEMIENNEGO 3. ŁUK ELEKTRYCZNY PRĄDU STŁEGO I PRZEMIENNEGO 3.1. Cel zakres ćwczena Celem ćwczena jest zapoznane sę z podstawowym właścwoścam łuku elektrycznego palącego sę swobodne, w powetrzu o cśnentmosferycznym.

Bardziej szczegółowo

Minister Edukacji Narodowej Pani Katarzyna HALL Ministerstwo Edukacji Narodowej al. J. Ch. Szucha 25 00-918 Warszawa Dnia 03 czerwca 2009 r.

Minister Edukacji Narodowej Pani Katarzyna HALL Ministerstwo Edukacji Narodowej al. J. Ch. Szucha 25 00-918 Warszawa Dnia 03 czerwca 2009 r. Mnster Edukacj arodowej Pan Katarzyna HALL Mnsterstwo Edukacj arodowej al. J. Ch. Szucha 25 00-918 arszawa Dna 03 czerwca 2009 r. TEMAT: Propozycja zmany art. 30a ustawy Karta auczycela w forme lstu otwartego

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka. Wykład 7

Stanisław Cichocki. Natalia Nehrebecka. Wykład 7 Stansław Cchock Natala Nehrebecka Wykład 7 1 1. Zmenne cągłe a zmenne dyskretne 2. Interpretacja parametrów przy zmennych dyskretnych 1. Zmenne cągłe a zmenne dyskretne 2. Interpretacja parametrów przy

Bardziej szczegółowo

XXX OLIMPIADA FIZYCZNA ETAP III Zadanie doświadczalne

XXX OLIMPIADA FIZYCZNA ETAP III Zadanie doświadczalne XXX OLIMPIADA FIZYCZNA ETAP III Zadane dośwadczalne ZADANIE D Nazwa zadana: Maszyna analogowa. Dane są:. doda półprzewodnkowa (krzemowa) 2. opornk dekadowy (- 5 Ω ), 3. woltomerz cyfrowy, 4. źródło napęca

Bardziej szczegółowo

WSPOMAGANE KOMPUTEROWO POMIARY CZĘSTOTLIWOŚCI CHWILOWEJ SYGNAŁÓW IMPULSOWYCH

WSPOMAGANE KOMPUTEROWO POMIARY CZĘSTOTLIWOŚCI CHWILOWEJ SYGNAŁÓW IMPULSOWYCH Metrologa Wspomagana Komputerowo - Zegrze, 9-22 05.997 WSPOMAGANE KOMPUTEROWO POMIARY CZĘSTOTLIWOŚCI CHWILOWEJ SYGNAŁÓW IMPULSOWYCH dr nż. Jan Ryszard Jask, dr nż. Elgusz Pawłowsk POLITECHNIKA lubelska

Bardziej szczegółowo

Zmodyfikowana technika programowania dynamicznego

Zmodyfikowana technika programowania dynamicznego Zmodyfkowana technka programowana dynamcznego Lech Madeysk 1, Zygmunt Mazur 2 Poltechnka Wrocławska, Wydzał Informatyk Zarządzana, Wydzałowy Zakład Informatyk Wybrzeże Wyspańskego 27, 50-370 Wrocław Streszczene.

Bardziej szczegółowo

METODA UNITARYZACJI ZEROWANEJ Porównanie obiektów przy ocenie wielokryterialnej. Ranking obiektów.

METODA UNITARYZACJI ZEROWANEJ Porównanie obiektów przy ocenie wielokryterialnej. Ranking obiektów. Opracowane: Dorota Mszczyńska METODA UNITARYZACJI ZEROWANEJ Porównane obektów przy ocene welokryteralnej. Rankng obektów. Porównane wybranych obektów (warantów decyzyjnych) ze względu na różne cechy (krytera)

Bardziej szczegółowo

65120/ / / /200

65120/ / / /200 . W celu zbadana zależnośc pomędzy płcą klentów ch preferencjam, wylosowano kobet mężczyzn zadano m pytane: uważasz za lepszy produkt frmy A czy B? Wynk były następujące: Odpowedź Kobety Mężczyźn Wolę

Bardziej szczegółowo

ZAŁĄCZNIK NR 1C KARTA USŁUGI Utrzymanie Systemu Kopii Zapasowych (USKZ)

ZAŁĄCZNIK NR 1C KARTA USŁUGI Utrzymanie Systemu Kopii Zapasowych (USKZ) Załącznk nr 1C do Umowy nr.. z dna.2014 r. ZAŁĄCZNIK NR 1C KARTA USŁUGI Utrzymane Systemu Kop Zapasowych (USKZ) 1 INFORMACJE DOTYCZĄCE USŁUGI 1.1 CEL USŁUGI: W ramach Usług Usługodawca zobowązany jest

Bardziej szczegółowo

Semestr zimowy Brak Nie

Semestr zimowy Brak Nie KARTA MODUŁU / KARTA PRZEDMIOTU Kod modułu Nazwa modułu Nazwa modułu w języku angelskm Obowązuje od roku akademckego 2015/2016 Z-ID-702 Semnarum praca dyplomowa Semnar and Dplom Thess A. USYTUOWANIE MODUŁU

Bardziej szczegółowo

Natalia Nehrebecka. Zajęcia 4

Natalia Nehrebecka. Zajęcia 4 St ł Cchock Stansław C h k Natala Nehrebecka Zajęca 4 1. Interpretacja parametrów przy zmennych zerojedynkowych Zmenne 0 1 Interpretacja przy zmennej 0 1 w modelu lnowym względem zmennych objaśnających

Bardziej szczegółowo

Statystyka Inżynierska

Statystyka Inżynierska Statystyka Inżynerska dr hab. nż. Jacek Tarasuk AGH, WFIS 013 Wykład DYSKRETNE I CIĄGŁE ROZKŁADY JEDNOWYMIAROWE Zmenna losowa, Funkcja rozkładu, Funkcja gęstośc, Dystrybuanta, Charakterystyk zmennej, Funkcje

Bardziej szczegółowo

D Archiwum Prac Dyplomowych - Instrukcja dla opiekunów/promotorów/recenzentów

D Archiwum Prac Dyplomowych - Instrukcja dla opiekunów/promotorów/recenzentów D Archwum Prac Dyplomowych - Instrukcja dla opekunów/promotorów/recenzentów Kraków 13.01.2016 r. Procedura Archwzacj Prac Dyplomowych jest realzowana zgodne z zarządzenem nr 71/2015 Rektora Unwersytetu

Bardziej szczegółowo

Instrukcja instalacji systemu. Moduzone Z11 Moduzone Z20 B Moduzone Z30

Instrukcja instalacji systemu. Moduzone Z11 Moduzone Z20 B Moduzone Z30 Instrukcja nstalacj systemu Moduzone Z11 Moduzone Z20 B Moduzone Z30 SPIS TREŚCI INTRUKCJA 1 Instrukcja... 2 1.1 Uwag dotyczące dokumentacj...2 1.2 Dołączone dokumenty...2 1.3 Objaśnene symbol...2 1.4

Bardziej szczegółowo

Nieparametryczne Testy Istotności

Nieparametryczne Testy Istotności Neparametryczne Testy Istotnośc Wzory Neparametryczne testy stotnośc schemat postępowana punkt po punkce Formułujemy hpotezę główną odnoszącą sę do: zgodnośc populacj generalnej z jakmś rozkładem, lub:

Bardziej szczegółowo

KONCEPCJA OCENY HYBRYDOWYCH SYSTEMÓW ENERGETYCZNYCH

KONCEPCJA OCENY HYBRYDOWYCH SYSTEMÓW ENERGETYCZNYCH 2-2010 PROBLEMY ESPLOATACJI 159 Robert DZIERŻAOWSI Poltechnka Warszawska OCCJA OCEY HYBRYDOWYCH SYSTEMÓW EERGETYCZYCH Słowa kluczowe Hybrydowy system energetyczny, skojarzony system energetyczny, generator

Bardziej szczegółowo

2012-10-11. Definicje ogólne

2012-10-11. Definicje ogólne 0-0- Defncje ogólne Logstyka nauka o przepływe surowców produktów gotowych rodowód wojskowy Utrzyywane zapasów koszty zwązane.n. z zarożene kaptału Brak w dostawach koszty zwązane.n. z przestoje w produkcj

Bardziej szczegółowo

ANALIZA KORELACJI WYDATKÓW NA KULTURĘ Z BUDŻETU GMIN ORAZ WYKSZTAŁCENIA RADNYCH

ANALIZA KORELACJI WYDATKÓW NA KULTURĘ Z BUDŻETU GMIN ORAZ WYKSZTAŁCENIA RADNYCH Potr Mchalsk Węzeł Centralny OŻK-SB 25.12.2013 rok ANALIZA KORELACJI WYDATKÓW NA KULTURĘ Z BUDŻETU GMIN ORAZ WYKSZTAŁCENIA RADNYCH Celem ponższej analzy jest odpowedź na pytane: czy wykształcene radnych

Bardziej szczegółowo

STARE A NOWE KRAJE UE KONKURENCYJNOŚĆ POLSKIEGO EKSPORTU

STARE A NOWE KRAJE UE KONKURENCYJNOŚĆ POLSKIEGO EKSPORTU Ewa Szymank Katedra Teor Ekonom Akadema Ekonomczna w Krakowe ul. Rakowcka 27, 31-510 Kraków STARE A NOWE KRAJE UE KONKURENCYJNOŚĆ POLSKIEGO EKSPORTU Abstrakt Artykuł przedstawa wynk badań konkurencyjnośc

Bardziej szczegółowo

BADANIA OPERACYJNE. Podejmowanie decyzji w warunkach niepewności. dr Adam Sojda

BADANIA OPERACYJNE. Podejmowanie decyzji w warunkach niepewności. dr Adam Sojda BADANIA OPERACYJNE Podejmowane decyzj w warunkach nepewnośc dr Adam Sojda Teora podejmowana decyzj gry z naturą Wynk dzałana zależy ne tylko od tego, jaką podejmujemy decyzję, ale równeż od tego, jak wystąp

Bardziej szczegółowo

ZESZYTY NAUKOWE INSTYTUTU POJAZDÓW 2(88)/2012

ZESZYTY NAUKOWE INSTYTUTU POJAZDÓW 2(88)/2012 ZESZYTY NAUKOWE INSTYTUTU POJAZDÓW (88)/01 Hubert Sar, Potr Fundowcz 1 WYZNACZANIE ASOWEGO OENTU BEZWŁADNOŚCI WZGLĘDE OSI PIONOWEJ DLA SAOCHODU TYPU VAN NA PODSTAWIE WZORU EPIRYCZNEGO 1. Wstęp asowy moment

Bardziej szczegółowo

Statystyka Opisowa 2014 część 2. Katarzyna Lubnauer

Statystyka Opisowa 2014 część 2. Katarzyna Lubnauer Statystyka Opsowa 2014 część 2 Katarzyna Lubnauer Lteratura: 1. Statystyka w Zarządzanu Admr D. Aczel 2. Statystyka Opsowa od Podstaw Ewa Waslewska 3. Statystyka, Lucjan Kowalsk. 4. Statystyka opsowa,

Bardziej szczegółowo

) będą niezależnymi zmiennymi losowymi o tym samym rozkładzie normalnym z następującymi parametrami: nieznaną wartością 1 4

) będą niezależnymi zmiennymi losowymi o tym samym rozkładzie normalnym z następującymi parametrami: nieznaną wartością 1 4 Zadane. Nech ( X, Y ),( X, Y ), K,( X, Y n n ) będą nezależnym zmennym losowym o tym samym rozkładze normalnym z następującym parametram: neznaną wartoścą oczekwaną EX = EY = m, warancją VarX = VarY =

Bardziej szczegółowo

Propozycja modyfikacji klasycznego podejścia do analizy gospodarności

Propozycja modyfikacji klasycznego podejścia do analizy gospodarności Jacek Batóg Unwersytet Szczecńsk Propozycja modyfkacj klasycznego podejśca do analzy gospodarnośc Przedsęborstwa dysponujące dentycznym zasobam czynnków produkcj oraz dzałające w dentycznych warunkach

Bardziej szczegółowo

MINISTER EDUKACJI NARODOWEJ

MINISTER EDUKACJI NARODOWEJ 4 MINISTER EDUKACJI NARODOWEJ DWST WPZN 423189/BSZI13 Warszawa, 2013 -Q-4 Pan Marek Mchalak Rzecznk Praw Dzecka Szanowny Pane, w odpowedz na Pana wystąpene z dna 28 czerwca 2013 r. (znak: ZEW/500127-1/2013/MP),

Bardziej szczegółowo

Nowe europejskie prawo jazdy w celu większej ochrony, bezpieczeństwa i swobodnego przemieszczania się

Nowe europejskie prawo jazdy w celu większej ochrony, bezpieczeństwa i swobodnego przemieszczania się KOMISJA EUROPEJSKA NOTATKA Bruksela, 18 styczna 2013 r. Nowe europejske prawo jazdy w celu wększej ochrony, bezpeczeństwa swobodnego przemeszczana sę W dnu 19 styczna 2013 r., w ramach wejśca w życe trzecej

Bardziej szczegółowo

Delegacje otrzymują w załączeniu dokument Komisji D012257/03 ZAŁĄCZNIK.

Delegacje otrzymują w załączeniu dokument Komisji D012257/03 ZAŁĄCZNIK. RADA UNII EUROPEJSKIEJ Bruksela, 28 lpca 20 r. (29.07) (OR. en) 082/ ADD AVIATION 94 PISMO PRZEWODNIE Od: Komsja Europejska Data otrzymana: 8 lpca 20 r. Do: Sekretarat Generalny Rady Nr dok. Kom D02257/0

Bardziej szczegółowo

Wyznaczanie długości fali światła metodą pierścieni Newtona

Wyznaczanie długości fali światła metodą pierścieni Newtona 013 Katedra Fzyk SGGW Ćwczene 368 Nazwsko... Data... Nr na lśce... Imę... Wydzał... Dzeń tyg.... Ćwczene 368: Godzna.... Wyznaczane długośc fal śwatła metodą perścen Newtona Cechowane podzałk okularu pomarowego

Bardziej szczegółowo

Kształtowanie się firm informatycznych jako nowych elementów struktury przestrzennej przemysłu

Kształtowanie się firm informatycznych jako nowych elementów struktury przestrzennej przemysłu PRACE KOMISJI GEOGRAFII PRZEMY SŁU Nr 7 WARSZAWA KRAKÓW 2004 Akadema Pedagogczna, Kraków Kształtowane sę frm nformatycznych jako nowych elementów struktury przestrzennej przemysłu Postępujący proces rozwoju

Bardziej szczegółowo

Rozwiązywanie zadań optymalizacji w środowisku programu MATLAB

Rozwiązywanie zadań optymalizacji w środowisku programu MATLAB Rozwązywane zadań optymalzacj w środowsku programu MATLAB Zagadnene optymalzacj polega na znajdowanu najlepszego, względem ustalonego kryterum, rozwązana należącego do zboru rozwązań dopuszczalnych. Standardowe

Bardziej szczegółowo

Badania sondażowe. Braki danych Konstrukcja wag. Agnieszka Zięba. Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa

Badania sondażowe. Braki danych Konstrukcja wag. Agnieszka Zięba. Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa Badana sondażowe Brak danych Konstrukcja wag Agneszka Zęba Zakład Badań Marketngowych Instytut Statystyk Demograf Szkoła Główna Handlowa 1 Błędy braku odpowedz Całkowty brak odpowedz (UNIT nonresponse)

Bardziej szczegółowo

Evaluation of estimation accuracy of correlation functions with use of virtual correlator model

Evaluation of estimation accuracy of correlation functions with use of virtual correlator model Jadwga LAL-JADZIAK Unwersytet Zelonogórsk Instytut etrolog Elektrycznej Elżbeta KAWECKA Unwersytet Zelonogórsk Instytut Informatyk Elektronk Ocena dokładnośc estymacj funkcj korelacyjnych z użycem modelu

Bardziej szczegółowo

EKONOMETRIA I Spotkanie 1, dn. 05.10.2010

EKONOMETRIA I Spotkanie 1, dn. 05.10.2010 EKONOMETRIA I Spotkane, dn. 5..2 Dr Katarzyna Beń Program ramowy: http://www.sgh.waw.pl/nstytuty/e/oferta_dydaktyczna/ekonometra_stacjonarne_nest acjonarne/ Zadana, dane do zadań, ważne nformacje: http://www.e-sgh.pl/ben/ekonometra

Bardziej szczegółowo

Statystyka. Zmienne losowe

Statystyka. Zmienne losowe Statystyka Zmenne losowe Zmenna losowa Zmenna losowa jest funkcją, w której każdej wartośc R odpowada pewen podzbór zboru będący zdarzenem losowym. Zmenna losowa powstaje poprzez przyporządkowane każdemu

Bardziej szczegółowo

na zabezpieczeniu z połączeniu

na zabezpieczeniu z połączeniu 2011 Montorng Zabezpeczane obektów Jesteśmy zespołem fachowców, którzy dostarczają wysokej jakośc usług. Nasza dzałalnośćć koncentruje sę przede wszystkm na doskonałym zabezpeczenu państwa dóbr. Dostarczamy

Bardziej szczegółowo

Pomiary parametrów akustycznych wnętrz.

Pomiary parametrów akustycznych wnętrz. Pomary parametrów akustycznych wnętrz. Ocena obektywna wnętrz pod względem akustycznym dokonywana jest na podstawe wartośc następujących parametrów: czasu pogłosu, wczesnego czasu pogłosu ED, wskaźnków

Bardziej szczegółowo

ANALIZA PORÓWNAWCZA WYNIKÓW UZYSKANYCH ZA POMOCĄ MIAR SYNTETYCZNYCH: M ORAZ PRZY ZASTOSOWANIU METODY UNITARYZACJI ZEROWANEJ

ANALIZA PORÓWNAWCZA WYNIKÓW UZYSKANYCH ZA POMOCĄ MIAR SYNTETYCZNYCH: M ORAZ PRZY ZASTOSOWANIU METODY UNITARYZACJI ZEROWANEJ METODY ILOŚCIOWE W BADANIACH EKONOMICZNYCH Tom XVI/3, 2015, str. 248 257 ANALIZA PORÓWNAWCZA WYNIKÓW UZYSKANYCH ZA POMOCĄ MIAR SYNTETYCZNYCH: M ORAZ PRZY ZASTOSOWANIU METODY UNITARYZACJI ZEROWANEJ Sławomr

Bardziej szczegółowo

PODSTAWA WYMIARU ORAZ WYSOKOŚĆ EMERYTURY USTALANEJ NA DOTYCHCZASOWYCH ZASADACH

PODSTAWA WYMIARU ORAZ WYSOKOŚĆ EMERYTURY USTALANEJ NA DOTYCHCZASOWYCH ZASADACH PODSTAWA WYMIARU ORAZ WYSOKOŚĆ EMERYTURY USTALANEJ NA DOTYCHCZASOWYCH ZASADACH Z a k ł a d U b e z p e c z e ń S p o ł e c z n y c h Wprowadzene Nnejsza ulotka adresowana jest zarówno do osób dopero ubegających

Bardziej szczegółowo

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński Mkroekonometra 13 Mkołaj Czajkowsk Wktor Budzńsk Symulacje Analogczne jak w przypadku cągłej zmennej zależnej można wykorzystać metody Monte Carlo do analzy różnego rodzaju problemów w modelach gdze zmenna

Bardziej szczegółowo

POJAZDY SZYNOWE 2/2014

POJAZDY SZYNOWE 2/2014 ANALIZA PRZYCZYN I SKUTKÓW USZKODZEŃ (FMEA) W ZASTOSOWANIU DO POJAZDÓW SZYNOWYCH dr nż. Macej Szkoda, mgr nż. Grzegorz Kaczor Poltechnka Krakowska, Instytut Pojazdów Szynowych al. Jana Pawła II 37, 31-864

Bardziej szczegółowo

Zestaw przezbrojeniowy na inne rodzaje gazu. 1 Dysza 2 Podkładka 3 Uszczelka

Zestaw przezbrojeniowy na inne rodzaje gazu. 1 Dysza 2 Podkładka 3 Uszczelka Zestaw przezbrojenowy na nne rodzaje gazu 8 719 002 262 0 1 Dysza 2 Podkładka 3 Uszczelka PL (06.04) SM Sps treśc Sps treśc Wskazówk dotyczące bezpeczeństwa 3 Objaśnene symbol 3 1 Ustawena nstalacj gazowej

Bardziej szczegółowo

Wprowadzenie do Sieci Neuronowych Sieci rekurencyjne

Wprowadzenie do Sieci Neuronowych Sieci rekurencyjne Wprowadzene do Sec Neuronowych Sec rekurencyjne M. Czoków, J. Persa 2010-12-07 1 Powtórzene Konstrukcja autoasocjatora Hopfelda 1.1 Konstrukcja Danych jest m obrazów wzorcowych ξ 1..ξ m, gdze każdy pojedynczy

Bardziej szczegółowo

Laboratorium ochrony danych

Laboratorium ochrony danych Laboratorum ochrony danych Ćwczene nr Temat ćwczena: Cała skończone rozszerzone Cel dydaktyczny: Opanowane programowej metody konstruowana cał skończonych rozszerzonych GF(pm), poznane ch własnośc oraz

Bardziej szczegółowo

STATECZNOŚĆ SKARP. α - kąt nachylenia skarpy [ o ], φ - kąt tarcia wewnętrznego gruntu [ o ],

STATECZNOŚĆ SKARP. α - kąt nachylenia skarpy [ o ], φ - kąt tarcia wewnętrznego gruntu [ o ], STATECZNOŚĆ SKARP W przypadku obektu wykonanego z gruntów nespostych zaprojektowane bezpecznego nachylena skarp sprowadza sę do przekształcena wzoru na współczynnk statecznośc do postac: tgφ tgα = n gdze:

Bardziej szczegółowo

Sprawozdanie powinno zawierać:

Sprawozdanie powinno zawierać: Sprawozdane pownno zawerać: 1. wypełnoną stronę tytułową (gotowa do ćw. nr 0 na strone drugej, do pozostałych ćwczeń zameszczona na strone 3), 2. krótk ops celu dośwadczena, 3. krótk ops metody pomaru,

Bardziej szczegółowo

BADANIE DRGAŃ WŁASNYCH NAPĘDU ROBOTA KUCHENNEGO Z SILNIKIEM SRM

BADANIE DRGAŃ WŁASNYCH NAPĘDU ROBOTA KUCHENNEGO Z SILNIKIEM SRM Zeszyty Problemowe Maszyny Elektryczne Nr 88/2010 13 Potr Bogusz Marusz Korkosz Jan Prokop POLITECHNIKA RZESZOWSKA Wydzał Elektrotechnk Informatyk BADANIE DRGAŃ WŁASNYCH NAPĘDU ROBOTA KUCHENNEGO Z SILNIKIEM

Bardziej szczegółowo

Koncepcja pracy. Zespołu Szkolno-Przedszkolnego. na lata 2014-2017

Koncepcja pracy. Zespołu Szkolno-Przedszkolnego. na lata 2014-2017 Koncepcja pracy Zespołu Szkolno-Przedszkolnego na lata 2014-2017 I. Podstawa prawna opracowana koncepcj: 1. Ustawa z dna 7 wrześna 1991 r. o systeme ośwaty (Dz. U. z 2004 r. Nr 256, poz. 2572 z późn. zm.),

Bardziej szczegółowo

MIĘDZYNARODOWE UNORMOWANIA WYRAśANIA ANIA NIEPEWNOŚCI POMIAROWYCH

MIĘDZYNARODOWE UNORMOWANIA WYRAśANIA ANIA NIEPEWNOŚCI POMIAROWYCH MIĘDZYNARODOWE UNORMOWANIA WYRAśANIA ANIA NIEPEWNOŚCI POMIAROWYCH Adam Mchczyńsk W roku 995 grupa nstytucj mędzynarodowych: ISO Internatonal Organzaton for Standardzaton (Mędzynarodowa Organzacja Normalzacyjna),

Bardziej szczegółowo

Szkolimy z pasją. tel.(012)2623040; 0601457926; 0602581731 www.aiki-management.pl

Szkolimy z pasją. tel.(012)2623040; 0601457926; 0602581731 www.aiki-management.pl Szkolmy z pasją Warsztaty Samura Game Godność Przywództwo Integracja Komunkacja Budowane Zespołu Honor Samura Game www.samuragame.org jest unkalną rzucającą wyzwane symulacją z obszaru budowana zespołu

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6 Stansław Cchock Natala Nehrebecka Wykład 6 1 1. Zastosowane modelu potęgowego Model potęgowy Przekształcene Boxa-Coxa 2. Zmenne cągłe za zmenne dyskretne 3. Interpretacja parametrów przy zmennych dyskretnych

Bardziej szczegółowo

Zadane 1: Wyznacz średne ruchome 3-okresowe z następujących danych obrazujących zużyce energ elektrycznej [kwh] w pewnym zakładze w mesącach styczeń - lpec 1998 r.: 400; 410; 430; 40; 400; 380; 370. Zadane

Bardziej szczegółowo

KURS STATYSTYKA. Lekcja 1 Statystyka opisowa ZADANIE DOMOWE. www.etrapez.pl Strona 1

KURS STATYSTYKA. Lekcja 1 Statystyka opisowa ZADANIE DOMOWE. www.etrapez.pl Strona 1 KURS STATYSTYKA Lekcja 1 Statystyka opsowa ZADANIE DOMOWE www.etrapez.pl Strona 1 Część 1: TEST Zaznacz poprawną odpowedź (tylko jedna jest prawdzwa). Pytane 1 W statystyce opsowej mamy pełne nformacje

Bardziej szczegółowo

SYSTEM ZALICZEŃ ĆWICZEŃ

SYSTEM ZALICZEŃ ĆWICZEŃ AMI, zma 010/011 mgr Krzysztof Rykaczewsk System zalczeń Wydzał Matematyk Informatyk UMK SYSTEM ZALICZEŃ ĆWICZEŃ z Analzy Matematycznej I, 010/011 (na podst. L.G., K.L., J.M., K.R.) Nnejszy dokument dotyczy

Bardziej szczegółowo

Tworzenie stron WWW. Kurs. Wydanie III

Tworzenie stron WWW. Kurs. Wydanie III Idź do Sps treśc Przykładowy rozdzał Katalog ksążek Katalog onlne Zamów drukowany katalog Twój koszyk Dodaj do koszyka Cennk nformacje Zamów nformacje o nowoścach Zamów cennk Czytelna Fragmenty ksążek

Bardziej szczegółowo

Natalia Nehrebecka. Zajęcia 3

Natalia Nehrebecka. Zajęcia 3 St ł Cchock Stansław C h k Natala Nehrebecka Zajęca 3 1. Dobroć dopasowana równana regresj. Współczynnk determnacj R Dk Dekompozycja warancj zmennej zależnej ż Współczynnk determnacj R. Zmenne cągłe a

Bardziej szczegółowo

MPEC wydaje warunki techniczne KONIEC

MPEC wydaje warunki techniczne KONIEC 1 2 3 1 2 2 1 3 MPEC wydaje warunk technczne 4 5 6 10 9 8 7 11 12 13 14 15 KONIEC 17 16 4 5 Chcesz wedzeć, czy masz możlwość przyłączena budynku Możlwośc dofnansowana wymany peców węglowych do sec mejskej?

Bardziej szczegółowo

V. WPROWADZENIE DO PRZESTRZENI FUNKCYJNYCH

V. WPROWADZENIE DO PRZESTRZENI FUNKCYJNYCH Krs na Stdach Doktoranckch Poltechnk Wrocławskej wersja: lty 007 34 V. WPROWADZENIE DO PRZESTRZENI FUNKCYJNYCH. Zbór np. lczb rzeczywstych a, b elementy zbor A a A b A, podzbór B zbor A : B A, sma zborów

Bardziej szczegółowo

Sprawozdanie Skarbnika Hufca Za okres 24.09.2011-24.11.2013. Wprowadzenie

Sprawozdanie Skarbnika Hufca Za okres 24.09.2011-24.11.2013. Wprowadzenie Skarbnk Hufca ZHP Kraków Nowa Huta phm. Marek Balon HO Kraków, dn. 21.10.2013r. Sprawozdane Skarbnka Hufca Za okres 24.09.2011-24.11.2013 Wprowadzene W dnu 24.09.2011r. odbył sę Zjazd Sprawozdawczo-Wyborczy

Bardziej szczegółowo

ZESTAW ZADAŃ Z INFORMATYKI

ZESTAW ZADAŃ Z INFORMATYKI (Wpsue zdaąc przed rozpoczęcem prac) KOD ZDAJĄCEGO ZESTAW ZADAŃ Z INFORMATYKI CZĘŚĆ II (dla pozomu rozszerzonego) GRUDZIEŃ ROK 004 Czas prac 50 mnut Instrukca dla zdaącego. Proszę sprawdzć, cz zestaw zadań

Bardziej szczegółowo

ZESZYTY NAUKOWE INSTYTUTU POJAZDÓW 5(96)/2013

ZESZYTY NAUKOWE INSTYTUTU POJAZDÓW 5(96)/2013 ZESZYTY NAUKOWE NSTYTUTU POJAZDÓW 5(96)/2013 Hubert Sar, Potr Fundowcz 1 WYZNACZANE MASOWEGO MOMENTU BEZWŁADNOŚC WZGLĘDEM OS PODŁUŻNEJ DLA SAMOCHODU TYPU VAN NA PODSTAWE WZORÓW DOŚWADCZALNYCH 1. Wstęp

Bardziej szczegółowo

35-105 Rzeszów, Tel +48 17 740 00 38 fax +48 17 740 00 18. www.bmm.com.pl

35-105 Rzeszów, Tel +48 17 740 00 38 fax +48 17 740 00 18. www.bmm.com.pl 2015,,Zdolność uczena sę szybcej od swojej konkurencj może być długotrwałą przewagą, BMM Sp. z o.o. 35-105 Rzeszów, jaką nad nm posadasz. Are de Gaus ul. Przemysłowa 4a Tel +48 17 740 00 38 fax +48 17

Bardziej szczegółowo

Płyny nienewtonowskie i zjawisko tiksotropii

Płyny nienewtonowskie i zjawisko tiksotropii Płyny nenewtonowske zjawsko tksotrop ) Krzywa newtonowska, lnowa proporcjonalność pomędzy szybkoścą ścnana a naprężenem 2) Płyny zagęszczane ścnanem, naprężene wzrasta bardzej nż proporcjonalne do wzrostu

Bardziej szczegółowo

Część III: Termodynamika układów biologicznych

Część III: Termodynamika układów biologicznych Część III: Termodynamka układów bologcznych MATERIAŁY POMOCNICZE DO WYKŁADÓW Z PODSTAW BIOFIZYKI IIIr. Botechnolog prof. dr hab. nż. Jan Mazersk TERMODYNAMIKA UKŁADÓW BIOLOGICZNYCH Nezwykle cenną metodą

Bardziej szczegółowo

KARTA MODUŁU KSZTAŁCENIA

KARTA MODUŁU KSZTAŁCENIA KARTA MODUŁU KSZTAŁCENIA I. 1 Nazwa modułu kształcena Geologa Informacje ogólne 2 Nazwa jednostk prowadzącej moduł Państwowa Szkoła Wyższa m. Papeża Jana Pawła II,Katedra Nauk Techncznych, Zakład Budownctwa

Bardziej szczegółowo