METODA MDR JAKO NARZĘDZIE ANALIZY STATYSTYCZNEJ DANYCH GENETYCZNYCH Justyna Huk Instytut Matematyczny, Wydzał Matematyk Informatyk, Unwersytet Wrocławsk WPROWADZENIE Metoda MDR (Multfactoral Dmensonalty Reducton) powstała jako odpowedź grupy naukowców z Unwersytetu Medycznego w Vanderblt na potrzeby epdemolog opartej na genetyce molekularnej. Postawl on sobe za cel rozwjane metod statystycznych umożlwających wykrywane nterakcj pomędzy czynnkam genetycznym środowskowym, które skutkują wystąpenem schorzena. Metoda MDR została zaprojektowana na potrzeby badań nad nowotworam, chorobam układu krążena schorzenam psychatrycznym. Jest także wykorzystywana, zgodne ze źródłem [8], przy badanu chorób, takch jak: astma, alerge, choroby autommunologczne, zespół przewlekłego zmęczena, cukrzyca, otyłość, zespół metabolczny, choroby genetyczne, choroby gnekologczne, okulstyczne, osteoporoza, w farmakogenetyce. Podstawowym celem pracy jest przeanalzowane metody MDR, jej oprogramowane oraz przetestowane pewnych własnośc. Metoda zamplementowana została w języku Vsual Basc, w środowsku STATISTICA. Napsany został także program umożlwający symulowane danych zgodne z przyjętym założenam. 2 ZARYS METODY MDR Procedura MDR polega na znalezenu takego podzboru zboru { X,, X n}, którego elementy najlepej objaśnają zmenną Y. W tym celu analzujemy wszystke 2 n podzborów drogą kolejnych elmnacj wyberamy: najperw najlepsze zestawy r-elementowe dla każdego r,, n, a następne z wybranych zestawów o różnej welkośc - jeden najlepszy. Dla wybranego zestawu określa sę, które genotypy są chorobotwórcze, a które ne. Proces wyboru najlepszego zestawu podlega weryfkacj krzyżowej, czyl dokonuje sę go na podstawe 0-krotnej partycj zboru danych na dwe grupy, z których perwsza służy do wyłonena zestawu, natomast druga do oceny dokonanego wyboru. Redukcja wymaru danych, o której mów nazwa metody, polega na segregacj genotypów na dwe klasy, na podstawe lczby osób chorych zdrowych w zborze danych. Ogranczamy w ten sposób nformacje o danych, redukujemy ch wymar poprzez rozważane jednej funkcj przypsującej każdy genotyp do jednej z dwu klas. 3 DANE GENETYCZNE Przyjrzymy sę najperw danym, jake zamerzamy analzować. Genetycy zajmujący sę badanem przyczyn występowana chorób genetycznych spotykają sę z problemem rozpoznana, które spośród rozpatrywanych przez nch klku lub klkunastu czynnków genetycznych lub środowskowych stotne wpływają na zachorowane. Z punktu wdzena statystyk problem ten ne jest łatwy do rozwązana, kedy dysponuje sę newelką bazą danych kedy podejrzewamy, że ne jeden lub dwa, a węcej czynnków wpływa na zachorowane. 33
3. Aspekt bologczny Istneją geny odpowedzalne w całośc za jakąś cechę, często jednak wele genów wpływa na daną cechę fenotypową. Rozważymy choroby, które ne pojawają sę wcale przy pewnych zestawach allel, a przy nnych występują z pewnym prawdopodobeństwem. Oznacza to, że tylko część osób z danym chorobotwórczym zestawem allel zapada na badane schorzene. Zazwyczaj stneje klka rodzajów danego genu, nazywanych allelam. Nas będze nteresować sytuacja, w której gen występuje w dwóch odmanach - allelach. Zwykle jeden z allel jest domnujący, będzemy go oznaczać przez A, a drug, który oznaczamy przez a, recesywny. Człowek ma pary chromosomów, wększość genów występuje u człoweka w dwóch kopach, a węc ma zestaw AA, aa (homozygotyczne) lub aa (heterozygotyczny). Oznaczmy prawdopodobeństwo występowana allelu A jako p, natomast allelu a jako q. Wtedy pq, a zestawy allel pojawają sę w populacj z rozkładem zgodnym z prawem Hardyego-Wenberga, którego sformułowane znaleźć można w pracy []: Zestaw AA występuje w populacj z prawdopodobeństwem p 2, aa z prawdopodobeństwem 2pq, aa z prawdopodobeństwem q 2. Dla różnych genów wartość p może być różna przyjmować wartośc z przedzału (0, ). 3.2 Postać danych Zajmemy sę sytuacją, w której genetyk podejrzewa, że choroba, którą bada, spowodowana jest nterakcją klku genów. Będzemy rozpatrywal sytuację, w której zebrano dane o grupe klkudzesęcu do klkuset osób. Dane zawerają nformację, czy u osoby stwerdzono konkretną chorobę oraz jake zestawy allel występują u nej w n konkretnych genach. Przykładowy zaps w baze danych wygląda następująco: Rys.. Przykładowy zaps w baze danych w arkuszu STATISTICA. 3.3 Matematyczna nterpretacja danych Do opsu n rozpatrywanych genów użyjemy n nezależnych zmennych losowych X,, X n. Każda z tych zmennych ma rozkład dyskretny o trzech wartoścach, odpowadających trzem zestawom allel. Oznaczymy wartośc X jako [aa] (odpowada zestawow homozygotycznemu recesywnemu), [aa] (zestaw heterozygotyczny), [AA] (zestaw homozygotyczny domnujący). Wówczas rozkład zmennej X dla {, n} to P( X [ aa] ) q 2 P( X [ aa] ) 2 p q P( X [ AA] ) p 2 gdze p q oraz pq, (0,). Wektor losowy X ( X,, X n ) może przyjąć 3 n wartośc. Konkretną wartość tego wektora oznaczamy ( x,, x n), gdze x {[ aa],[ aa],[ AA] } dla {, n}. 3.3. Genotyp Poprzez wybór r zmennych ( r,, n) spośród X,, X n możemy utworzyć wektor ( Xn,, X ) n r. Każdą wartość tego wektora będzemy w dalszej częśc pracy nazywać genotypem. Zdefnujemy zmenną losową Y, która wskazuje, czy osoba jest chora. Przyjmujemy, że wartość odpowada wystąpenu choroby, a wartość 0 brakow choroby. Zmenna Y jest zależna od wektora X. 3.3.2 Funkcja penetracj Aby zadać prawdopodobeństwa zachorowana przy poszczególnych genotypach zdefnujemy funkcję f, nazywaną przez genetyków funkcją penetracj. Jest ona określona na zborze wartośc wektora X, przyjmuje wartośc ze zboru [0,]. Funkcja f jest postac: f ( x,, x ) P( Y X x,, X x ) n n n Zauważmy, że wtedy P( Y 0 X x,, X x ) f ( x,, x ) n a węc mając daną funkcję penetracj, dany mamy rozkład Y. n n 34 www.statsoft.pl/czytelna.html Zastosowana metod statystycznych w badanach naukowych IV StatSoft Polska 202
3.3.3 Macerz przypadków Zbór danych składający sę z nformacj o k osobach możemy utożsamać z k-elementową próbą z rozkładu wektora ( Y, X, X n), którą zapszemy w postac macerzy: y x x y2 x2 a y x a n 2n k k kn gdze y, xj {[ aa] j,[ aa] j,[ AA] j}. Pojedynczy wersz tej macerzy, a węc dane dotyczące jednej osoby nazwemy przypadkem, -ty wersz będzemy zapsywać jako ( y x,, x )., n 4 CHARAKTERYSTYKA SYMULO- WANYCH ZBIORÓW DANYCH Do zbadana pewnych własnośc metody wykorzystano symulowane dane. Teraz przyjrzymy sę ch charakterystyce. 4. Charakterystyka ogólna Dane zawerają nformację o 5 genach, zakodowanych w wektorze X ( X,, X5). Przyjęto, że zmenne X,, X 5 są wzajemne nezależne. W zborze danych k zmennych ( k,,5) spośród X,, X 5 wpływa na zmenną Y opsującą, czy osoba jest chora. Pozostałych 5 k zmennych jest od Y nezależnych. Przyjrzyjmy sę na początek przykładom. 4.. Przykład Jeśl jeden gen wpływa na zachorowane, w tym chorobę powoduje sekwencja aa, możemy sytuację tę zapsać w macerzy 3: ( 0 0 ) 4..2 Przykład Jeśl dwa geny mają wpływ na zachorowane, możemy użyć zapsu w macerzy 3 3: aa 0 0 0 aa 0 0 AA 0 0 Powyższa macerz przedstawa sytuację, w której chorobę wywołują sekwencje: na perwszym gene aa, na drugm aa lub na perwszym AA, na drugm aa. 4.2 Pojęce modelu Sformalzujemy teraz ten zaps. Aby opsać w sposób systematyczny rozkład zmennej Y, użyjemy funkcj penetracj f. Nech W oznacza zbór wszystkch możlwych wartośc wektora ( X,, X 5). Wówczas gdze : f W, f ( w,, w ), r oznacza, że genotyp ( w,, w r ) powoduje chorobę; ne precyzujemy, z jakm prawdopodobeństwem. Uścślmy to późnej za pomocą funkcj penetracj f. Natomast f ( w,, w ) 0 r oznacza, że genotyp ( w,, w r ) ne jest chorobotwórczy. Funkcję f określającą zależność zmennej Y od r zmennych nazwemy modelem r-czynnkowym lub też modelem r-wymarowym. 4.3 Modyfkacja modelu Powyższy model zakłada, że przy określonych sekwencjach choroba występuje na pewno. Potrzebujemy modelu, w którym schorzene występować będze przy określonej sekwencj genów z pewnym zadanym prawdopodobeństwem r. Zmodyfkujemy węc teraz model. Na początek przyjrzyjmy sę zmodyfkowanemu przykładow 4..2. Zastosowana metod statystycznych w badanach naukowych IV StatSoft Polska 202 www.statsoft.pl/czytelna.html 35
4.3. Przykład Przyjmjmy, że dwa geny wpływają na zachorowane. Chorobę wywołują sekwencje: na perwszym gene Aa na drugm aa lub na perwszym AA na drugm aa, wszystke z prawdopodobeństwem r =0,3. Zaps macerzowy zależnośc zachorowana od sekwencj genów wygląda teraz następująco: aa 0 0 0 aa 0,3 0 0 AA0,3 0 0 Zapszmy formalne modyfkację za pomocą funkcj penetracj. Funkcja penetracj f dla generowanych danych ma postać: f r, gdy f ( w,, wr ) ( w,, wr ) 0, gdy f ( w,, wr ) 0 gdze: r (0,) jest prawdopodobeństwem zachorowana. Zajmemy sę teraz bardzej szczegółowo zagadnenem model (funkcj f ), by wybrać take, które będą odpowadać rzeczywstym zależnoścom genetycznym. Na początek wprowadzmy uproszczoną notację dwójkową. 4.4 Modele -czynnkowe Wszystkch model -czynnkowych jest 2 3 =8. Nech wartoścam X będą aa, aa, AA. Funkcję f zanotujemy w postac wektora ( ), ( ), ( ) f f f Użyjemy wygodnego sposobu numeracj: numer modelu w systeme dzesętnym odpowada wartośc wektora funkcj penetracj w systeme dwójkowym. Model z przykładu 4..2 oznaczamy jako M2 = (00) 2. Poprzez analogę do postulatów wysuwanych przez autorów pracy [7], odnoszących sę do użytecznośc model dwuczynnkowych w genetyce uznamy, że spośród model -czynnkowych ne nteresują nas modele M0 M7 oraz że za jednakowe uważać będzemy modele powstałe przez przekształcena: zamana allel a A, 2 zamana wszystkch 0 na na 0. Pozostają do analzy dwa typy model. Będzemy generować zbory zgodne z M M2. 4.5 Modele 2-czynnkowe Przedstawmy najperw w macerzy 2-wymarowej 2-czynnkowy model choroby. W kolumne mamy zestaw allel zmennej X, w werszu X 2, a f j oznaczają wartośc f dla argumentów wyznaczonych przez -ty wersz j-tą kolumnę: 2 2 2 aa f f f aa f f f AA f f f 2 3 2 22 23 3 32 33 Przyjmujemy numerację model analogczną do numeracj użytej do opsu model -czynnkowych. Numerujemy modele następująco: (Numer modelu) 0 ( f f f f f f f f f ) 2 3 2 22 23 3 32 33 2 W tej numeracj model z przykładu 4..2 to model M33 = (0 0 0 0 0 0 0) 2. 4.5. Lczba model dwuczynnkowych Różnych wektorów zero-jedynkowych o 9 współrzędnych jest 2 9 = 52. Przyjmujemy, że ne nteresują nas modele zero-locusowe (wszystke fj 0 lub wszystke fj ), oraz jednolocusowe (jednakowe wartośc w werszach kolumnach w modelu macerzowym). Zauważmy ponadto, że wymenone ponżej przekształcena prowadzą do model, które z naszego punktu wdzena są dentyczne z wyjścowym: zamana kolejnośc czynnków, 2 zamana allel w perwszym lub drugm czynnku, 3 zamana wszystkch 0 na na 0. 36 www.statsoft.pl/czytelna.html Zastosowana metod statystycznych w badanach naukowych IV StatSoft Polska 202
Dzęk twerdzenu Polya o zlczanu [2] otrzymujemy, że przekształcena 2 zmnejszają lczbę model z 52 do 02. Borąc pod uwagę przekształcene 3, dostajemy ch o połowę mnej - 5. Odejmjmy jeszcze wszystke 0-czynnkowe (jeden) oraz -czynnkowe (dwa). Zostaje 48 nteresujących nas model. 4.5.2 Klasyfkacja model 2-czynnkowych W pracy [7] dokonano klasyfkacj wszystkch dwuczynnkowych model pod kątem użytecznośc w badanach genetycznych. Autorzy segregują je ze względu na różne cechy, wyróżnając następujące modele (przyjmjmy, że allel domnujący (A,B) jest chorobotwórczy): Łączne recesywno-recesywny (RR). Do zachorowana potrzebna jest obecność dwu allel chorobotwórczych w obydwu czynnkach; np. M. 2 Łączne domnująco-domnujący (DD). Do zachorowana potrzebny jest co najmnej jeden allel chorobowy w obydwu czynnkach; np. M27. 3 Łączne recesywno-domnujący (RD). Do zachorowana potrzebne są dwa allele chorobotwórcze z jednego czynnka co najmnej jeden z drugego czynnka; np. M3. 4 Zmodyfkowany (Mod). Wystarczy zamenć jedną wartość funkcj penetracj, aby otrzymać któryś z opsanych rodzajów model, np. M5 po zamane 3-cej współrzędnej będze modelem M79, modelem OR. 5 Progowy (T). Do zachorowana potrzebna jest określona lczba chorobowych allel, nezależne na którym czynnku; np. próg=3 dla M. 6 Wykluczający (XOR). Uzyskany za pomocą operacj XOR; np. 78. 7 Multplkatywny. Uzyskany za pomocą operacj AND. 8 Addytywny. Uzyskany za pomocą operacj OR. 9 Jednoczynnkowy. 0 Warunkowo domnujący/recesywny. Perwszy czynnk zachowuje sę jak domnujący/recesywny, gdy drug czynnk przyjmuje określony genotyp; np. w modelu M perwszy locus zachowuje sę jak recesywny, gdy genotyp drugego czynnka to bb, a jak domnujący, gdy BB. Sprzężena. W sprzężenu pozytywnym nterakcja dwu czynnków, z osobna neutralnych, powoduje chorobę. W negatywnym - brak komponentu z drugego czynnka prowadz do zachorowana; np. M68, gdze nterakcja a B oraz b A jest szkodlwa, a maksymalny negatywny efekt jest osągany w kompozycj aabb bbaa. 2 Letalny. Jeśl weźmemy pod uwagę chorobę genetyczną, do wystąpena której potrzebna jest pewna lczba allel w jednym/dwu czynnkach, może pojawć sę sytuacja, że z populacj znkną prawe wszystke osobnk o pewnych genotypach; np. w modelu M prawdopodobeństwo występowana zestawu AABB będze bardzo małe. 3 Symetryczny. Szczególne modele symetryczne ze względu na permutacje dwu allel mogą być bardzej stotne ze względu na modelowane powszechnych chorób. 4.5.3 Wybrane modele Borąc pod uwagę wymenone cechy, wyberzemy teraz 6 różnorodnych model do testowana (umeszczona w nawasach charakteryzacja posłuży nam do rozszerzena model do 3-, 4-5- czynnkowych): M - progowy, warunkowo domnujący, symetryczny ze względu na permutacje czynnków (choroba występuje, gdy co najmnej 3 allele łączne na obu czynnkach są domnujące); M27 - łączne domnująco-domnujący, warunkowo domnujący, multplkatywny, symetryczny ze względu na permutacje czynnków (choroba występuje, gdy jest co najmnej jeden allel domnujący na każdym z czynnków); M29 - neskategoryzowany; M68 - sprzężena, symetryczny ze względu na permutacje czynnków allel w dwu czynnkach (choroba występuje, gdy są dwa allele recesywne na jednym czynnku dwa domnujące na drugm); M78 - letalny, wykluczający, symetryczny ze względu na permutacje czynnków (uzyskany za pomocą spójnka logcznego XOR z dwu czynnków postac (0 0 )); M86 - sprzężena, addytywny, symetryczny ze względu na permutacje czynnków, allel w dwu czynnkach, allel w jednym czynnku (zachorowane następuje, gdy na jednym z czynnków jest zestaw heterozygotyczny). Zastosowana metod statystycznych w badanach naukowych IV StatSoft Polska 202 www.statsoft.pl/czytelna.html 37
4.6 Modele 3,4,5-czynnkowe Rozszerzymy teraz wybrane przez nas w punkce (4..) modele dwuczynnkowe, aby uzyskać modele o wększych wymarach. Uogólnene take może zostać wykonane welorako, my odwołamy sę do przeprowadzonej charakteryzacj model dwuczynnkowych uogólnmy ją następująco: M - zachorowane następuje, gdy jest dla modelu 3-czynnkowego: co najmnej 5 allel domnujących łączne na wszystkch czynnkach, dla modelu 4-czynnkowego: co najmnej 7 allel domnujących łączne na wszystkch czynnkach, dla modelu 5-czynnkowego: co najmnej 9 allel domnujących łączne na wszystkch czynnkach. M27 - zachorowane następuje, gdy jest co najmnej allel domnujący na każdym czynnku. M29 - uzyskany losowo; prawdopodobeństwo zachorowana dla każdego układu allel wynos 0,35. M68 - zachorowane następuje, gdy są dla modelu 3-czynnkowego: 2 allele recesywne na jednym z czynnków, 2 allele domnujące na drugm 2 allele recesywne lub dwa domnujące na trzecm, dla modelu 4-czynnkowego: na dwu czynnkach allele recesywne, na dwu domnujące, dla modelu 5-czynnkowego: na dwu czynnkach allele recesywne, na trzech domnujące. M78 - uzyskany za pomocą operacj XOR dla modelu 3-czynnkowego: (0 0 ) XOR (M78 2-czynnkowy), dla modelu 4-czynnkowego: (0 0 ) XOR (M78 3-czynnkowy), dla modelu 5-czynnkowego: (0 0 ) XOR (M78 4-czynnkowy). M86 - do zachorowana potrzeba wystarcza, by na jednym z czynnków wystąpł zestaw heterozygotyczny. 5 WYNIKI TESTOWANIA. POSTAWIONE HIPOTEZY W celu sprawdzena zdolnośc wykrywana za pomocą metody MDR właścwego modelu choroby przeprowadzono symulacje. Badano, jak dobrze metoda wskazuje zestawy zmennych odpowedzalnych za wystąpene choroby, w zależnośc od: modelu, funkcj penetracj f, prawdopodobeństw występowana allel domnujących, lczby przypadków. Zbór danych o zadanych parametrach generowano 0-krotne. Po wykonanu na 0 zborach procedury MDR notowano lczbę właścwe wskazanych zestawów zmennych. Lczbę tę nazwemy wykrywalnoścą. Na podstawe wykrywalnośc uzyskanej w przetestowanych zborach formułujemy hpotezy co do dzałana metody w ogólnośc. Zberzemy teraz wszystke parametry, jakch potrzebujemy do opsu symulowanego zboru danych. Są to: lczba przypadków n, a węc osób, których dane umeszczone są w baze; w generowanych zborach danych lczba przypadków wynos 50 lub 00, z czego połowę stanową osoby chore; 2 prawdopodobeństwa p występowana allelu domnującego dla kolejnych genów (zmennych X ); należą one do zboru {0,; 0,25; 0,5; 0,75; 0,9}; 3 model, a węc funkcja f ; 4 wartość r funkcj penetracj f. 5. Hpoteza : Zależność wykrywalnośc od wartośc r Przy welkośc zboru n = 50 dla pewnych model dwuczynnkowych uzyskuje sę dobrą wykrywalność już przy r = 0,05; dla wększośc ta wartość r jest zbyt mała. Hpotezę operamy na 280 przetestowanych zborach danych, obejmujących wszystke 2- wymarowe modele, n = 50, p = 0, 5 dla,,5. Dla każdego modelu wygenerowano zbory z r = 0,; 0,2; 0,3, dla wybranych także z r = 0,05; 0,5; 0,75. Szczegółowe wartośc r, dla których otrzymano zadowalającą wykrywalność, zameszczamy w tabel. Tabela. Najmnejsze wartośc r ze zboru {0,05; 0,; 0,2; 0,3; 0,5; 0,75}, dla których wykrywalność przekracza 7. Numer modelu M M27 M29 M68 M78 M86 Mnmalne r 0,05 0,75 0,5 0, 0,05 0,75 Wartośc zameszczone w tabel 2 obrazują, jak duże jest zróżncowane wykrywalnośc przy tej samej wartośc r. 38 www.statsoft.pl/czytelna.html Zastosowana metod statystycznych w badanach naukowych IV StatSoft Polska 202
Wymar modelu Metoda MDR jako narzędze analzy statystycznej danych genetycznych Tabela 2. Wykrywalność dla model dwuczynnkowych przy r 0,. Numer modelu M M27 M29 M68 M78 M86 wykrywalność 0 5 5 9 7 0 Nasuwa sę pytane, jake cechy modelu decydują o pozome jego wykrywalnośc. By na ne odpowedzeć, należałoby wykonać symulacje dla znaczne wększej lczby model. 5.2 Hpoteza 2: Zależność wykrywalnośc od charakteru modelu Dla różnych model w obrębe tej samej lczby czynnków 3,4, 5, jednakowych wartoścach r, tych samych prawdopodobeństwach występowana allel domnujących welkoścach zborów, wykrywalność jest slne zależna od charakteru modelu zróżncowana. Hpotezę operamy na 480 przetestowanych zborach danych, obejmujących wszystke 3-5-czynnkowe modele, gdze lczba przypadków n = 50, p = 0, 5 dla =,...,5, natomast r = 0,; 0,2; 0,3 dla model 3-4-czynnkowych oraz r = 0,3; 05 dla model 5-czynnkowych. W tabel 3 zebrano średne wykrywalnośc dla wszystkch wartośc r dla danego modelu. Tabela 3. Średna wykrywalność dla poszczególnych model, względem jednakowych wartośc r dla model o tym samym wymarze. Numer modelu M M27 M29 M68 M78 M86 3d 8,33 2,67 5,33 3,67 0,33 4d 4,67 0,67 2,67 2,67 0 0 5d 7 5 5,5 3,5 3 4,5 Wśród model 3-czynnkowych różnce w wykrywalnośc są najmnejsze, neco wększe wśród model 4-czynnkowych, nezbyt duże wśród model 5-czynnkowych. Podobne jak w przypadku model 2-czynnkowych, pojawa sę pytane, w jak sposób charakterystyka modelu wpływa na wykrywalność - w tym celu należałoby przeprowadzć badana na wększej lczbe model. Hpotezę operamy na 260 przetestowanych zborach danych, obejmujących wszystke typy model -, 2-, 3-, 4-, 5- wymarowych, gdze p = 0, 5 dla,,5, dla wszystkch zborów wartość r = 0, 3, lczba przypadków n = 50. W tabel 4 zebrano średną wykrywalność dla wszystkch model w obrębe tego samego wymaru: Tabela 4. Średna wykrywalność model dla r = 0, 3. Wymar modelu d 2d 3d 4d 5d Średna wykryw. 9 5,7 3,67 2,33 4 Wdoczny jest spadek wykrywalnośc wraz ze wzrostem wymaru od do 4. Wysoka wykrywalność dla model 5-wymarowych sugeruje, że hpoteza ne sprawdza sę w przypadku model pełnych - opartych na wszystkch zmennych. 5.4 Hpoteza 4: Zależność wykrywalnośc od lczby przypadków Wykrywalność modelu wzrasta wraz z lczbą przypadków w zborze danych w sposób zależny od wymaru modelu. Hpotezę operamy na 260 przetestowanych zborach danych, obejmujących wszystke modele -, 2-, 3-, 4- czynnkowe z r = 0, 2, lczba przypadków n = 50, 00, oraz wszystke modele 5-czynnkowe z r = 0, 3, lczba przypadków n = 50, 00. Dla wszystkch zborów p = 0, 5 dla =,...,5. Nech s 50 s 00 oznaczają średną wykrywalność dla wszystkch model w obrębe danego wymaru, przy lczbe przypadków równej 50 00. Wynk obrazujące zmanę wykrywalnośc wraz ze zwększenem lczby przypadków zameszczono w tabel 5. Tabela 5. Średna wykrywalność przy lczbe przypadków 50 00; r = 0, 2 dla model -, 2-, 3-, 4-czynnkowych oraz r = 0, 3 dla model 5-czynnkowych. Wymar modelu d 2d 3d 4d 5d s 50 9 5,33 3,67,7 4,33 s 00 8,5 7 7 6 4,83 s 50 /s 00 0,94,3,9 5,3,2 5.3 Hpoteza 3: Zależność wykrywalnośc od wymaru modelu Wraz ze wzrostem wymaru modelu wykrywalność maleje. Dla model od 2- do 4- czynnkowych wzrost wykrywalnośc jest bardzo wyraźny. Dla model 5-czynnkowych jest on neznaczny, co możemy tłumaczyć tym, że obejmują one wszystke Zastosowana metod statystycznych w badanach naukowych IV StatSoft Polska 202 www.statsoft.pl/czytelna.html 39
czynnk. Dla model -czynnkowych odnotowujemy newelk spadek wykrywalnośc, spowodowany prawdopodobne faktem, że modele te są tylko dwa, a węc wynk mogą być obarczone sporym błędem. 5.5 Hpoteza 5: Zależność wykrywalnośc od prawdopodobeństwa p występowana allelu domnującego Wraz ze zmaną prawdopodobeństwa występowana allelu domnującego zmena sę wykrywalność. Hpotezę wysunęto na podstawe 80 przetestowanych zborów danych. Do testowana wybrano trzy modele 2-czynnkowe, które dla częstotlwośc p = 0,5 dla,,5 wykazywały różną wykrywalność: M - wysoką, M29 - średną, M86 - nską, jak odnotowano to w hpoteze 2. X, X 2 oznaczają zmenne, od których zależna jest zmenna Y, p = p 2 = p, gdze p {0,25;0,4;0,5;0,6;0,9}, natomast p 3 = p 4 = p 5 = 0,5. Tabela 6. Wykrywalność dla wybranych model dwuczynnkowych w zależnośc od prawdopodobeństwa występowana allel domnujących p dla zmennych X, X ; r = 0,. 2 Prawdopodobeństwo p 0,25 0,4 0,5 0,6 0,75 0,9 M 9 9 9 5 0 0 M29 0 6 5 3 0 M86 0 0 0 4 9 Zestawone w tabel 6 wynk wskazują, że wraz ze wzrostem częstotlwośc allel domnujących dla pewnych model wykrywalność wzrasta, dla nnych maleje. Zmany te są znaczące. 6 SCHEMAT PROCEDURY MDR Przyjrzymy sę teraz uproszczonemu schematow metody MDR. 6. Weryfkacja krzyżowa W algorytme MDR stosuje sę metodę weryfkacj krzyżowej (cross-valdaton). Metoda ta występuje w welu wersjach, jedną z najczęścej stosowanych jest L-partycja. Polega ona na podzale danych na L mnej węcej równych częśc powtarzanu konstrukcj modelu L razy. Model tworzony jest na danych wchodzących w skład L- częśc weryfkowany na jednej pozostałej. Za każdym razem zostawana jest nna część do weryfkacj. Zastosujemy L partycję z L=0. Dzelmy przypadk na 0 częśc w sposób losowy. Perwsza część będze tworzyć perwszy zbór kontrolny, pozostałe perwszy zbór testowy. Drug zbór kontrolny będze stanowć druga część, pozostałe częśc wejdą w skład zboru kontrolnego. W ten sam sposób utworzonych zostane0 par zbór testowy zbór kontrolny. 6.2 Charakteryzacja zmennych na zborze testowym Do wybrana najlepszego podzboru zmennych { X,, X n} opsującego zmenną Y, potrzebujemy charakteryzacj wszystkch podzborów zmennych. Przyjrzymy sę charakteryzacj podzboru {X } na perwszym zborze testowym. Zlczamy lczbę przypadków chorych zdrowych względem poszczególnych allel genu. 6.2. Przykład Nech lczba przypadków n = 50. W zborze testowym znajduje sę 45 przypadków. Allele genu to aa, aa AA. Lczba chorych zdrowych w podzale na allele genu zameszczona jest w tabel 7. Tabela 7. Przykładowy wynk zlczana przypadków chorych/zdrowych w zborze testowym ze względu na allele genu. Lczba chorych 0 6 Lczba zdrowych 8 8 2 Kolejnym krokem jest oznaczene genotypów wysokego ryzyka. Są to te genotypy, dla których lczba chorych przewyższa lczbę zdrowych. Pozostałe są oznaczone jako nskego ryzyka. 6.2.2 Przykład Genotypy z przykładu 5.2.. oznaczamy następująco: Tabela 8. Przykładowe oznaczene ryzyka genotypu. aa Aa AA Ryzyko Nske Wysoke Nske 40 www.statsoft.pl/czytelna.html Zastosowana metod statystycznych w badanach naukowych IV StatSoft Polska 202
Możemy teraz oblczyć błąd klasyfkacj. Jest to stosunek lczby osób ze zboru testowego, których genotyp określono jako wysokego ryzyka, a są zdrowe, lub też określono jako nskego ryzyka, a są chore, do lczby wszystkch przypadków w zborze testowym. 6.2.3 Przykład Dla danych z przykładu 5.2.. błąd klasyfkacj wynos 4 / 45 0,3. W ten sam sposób otrzymujemy błąd klasyfkacj dla wszystkch -elementowych podzborów zmennych na perwszym zborze testowym. Wyberamy do dalszej analzy podzbór o najmnejszym błędze klasyfkacj, po jednym podzborze r-elementowym dla każdego r,, n. Wykonujemy tę samą analzę na kolejnych 9 zborach testowych. Otrzymujemy do dalszej analzy po 0 zestawów zmennych dla każdego r,, n. Dla każdego z tych zestawów wykonamy charakteryzację na zborze kontrolnym odpowadającym zborow testowemu, na którym lczony był błąd klasyfkacj. Notujemy także, le razy dany podzbór zmennych pojawł sę pośród 0 wybranych zestawów o tej samej lczbe elementów. Lczbę tę, podzeloną przez 0, nazywamy spójnoścą. 6.3 Charakteryzacja zmennych na zborze kontrolnym Dany podzbór zmennych charakteryzujemy na zborze kontrolnym za pomocą błędu predykcj, parametru analogcznego do błędu klasyfkacj. Jest to stosunek lczby osób ze zboru kontrolnego, których genotyp na podstawe zboru testowego określono jako wysokego ryzyka, a są zdrowe, lub też określono jako nskego ryzyka, a są chore, do lczby wszystkch przypadków w zborze kontrolnym. Dla każdego r wybralśmy 0 podzborów zmennych. Teraz spośród nch wyberamy te o najwększej spójnośc. Lczymy dla każdego wybranego podzboru średn błąd predykcj, to znaczy średną arytmetyczną błędów predykcj uzyskanych na różnych zborach testowych dla tego samego zestawu zmennych. Mamy węc dla określonego r zestawy scharakteryzowane spójnoścą średnm błędem predykcj. Spośród nch wyberamy zestaw o najmnejszym średnm błędze predykcj. Nazywamy go najlepszym zestawem r-wymarowym. 6.4 Wybór najlepszych zestawów Sposród najlepszych zestawów jedno-, dwu-,..., n wymarowych wyberamy jeden najlepszy na podstawe parametrów, którym dysponujemy: każdy z nch jest scharakteryzowany spójnoścą błędem predykcj. Jeśl stneje jeden zestaw, który maksymalzuje spójność błąd predykcj, to wyberamy ten zestaw nazywamy go najlepszym zestawem zmennych. Jeśl jest klka zestawów o takch samych maksymalnej spójnośc mnmalnym błędze predykcj, wyberamy ten, który opera sę na mnejszej lczbe czynnków. Często jednak zdarza sę, że dla jednego zestawu uzyskujemy najwększą spójność, a dla nnego najmnejszy błąd predykcj. Autorzy metody zostawają tu pewną dowolność w podjęcu decyzj, uścślene kryterum wyboru było także przedmotem testowana. Postawona została ponższa hpoteza. 6.5 Hpoteza 6: Najlepsze kryterum wyboru podzboru zmennych Najlepszym kryterum wyboru jednego spośród - do 5-wymarowych najlepszych zestawów zmennych jest wybór zestawu o mnmalnym błędze predykcj spośród zestawów o spójnośc powyżej 0,75. Przetestowano 4 krytera - wybór według: k - mnmalnego błędu predykcj, k2 - mnmalnego błędu predykcj wśród zestawów o spójnośc powyżej 0,5, k3 - mnmalnego błędu predykcj wśród zestawów o spójnośc powyżej 0,75, k4 - mnmalnego błędu predykcj wśród zestawów o spójnośc powyżej 0,9. Dla każdego kryterum stosujemy zasadę, że jeśl klka zborów zmennych ma te same parametry, wyberamy ten, który opera sę na mnejszej lczbe czynnków. Hpotezę operamy na podstawe przetestowana 770 zborów danych, obejmujących wszystke wybrane modele, o parametrach: p = 0, 5 dla,,5, r (0,) lczbe przypadków n = 50.Wynk zameszczono w tabel 9. Zastosowana metod statystycznych w badanach naukowych IV StatSoft Polska 202 www.statsoft.pl/czytelna.html 4
Tabela 9. Średna wykrywalność współczynnk zmennośc dla k, k2, k3, k4. Kryterum k k2 k3 k4 Średna wykrywalność,0283,0633,0662,0946 Warancja 0,8934 0,5827 0,2038 0,8377 Kryterum k4 ma najwększą średną wykrywalność, ale także dużą warancję. Wobec tego za najlepsze uznajemy kryterum k3, o średnej wykrywalnośc drugej w porządku malejącym, poneważ ma nsk wskaźnk zmennośc, a węc rozpoznaje równe dobrze zestawy zmennych -,...,5-wymarowe. Przy formułowanu kolejnych hpotez zastosowane zostało kryterum wykrywalnośc k3. 6.6 Oznaczene chorobotwórczych genotypów Jeśl mamy już najlepszy podzbór zmennych, a węc wemy, które spośród zmennych X,, Xn powodują zachorowane, nteresuje nas, które genotypy są chorobotwórcze. Aby odpowedzeć na to pytane, klasyfkujemy genotypy jako wysokego ryzyka lub nskego ryzyka na podstawe genotypów wybranego najlepszego podzboru zmennych oraz całego zboru danych. 6.6. Przykład Przyjrzyjmy sę na konec wynkom uzyskanym poprzez zastosowane metody MDR na 5 zmennych. Przykładowe wynk zawerające spójność błąd predykcj zobrazowane są na rys. 2. Podzbór zmennych, które najlepej opsują zmenną Y to {X, X 2}, poneważ charakteryzuje go najwyższa spójność oraz najmnejszy błąd predykcj. Sklasyfkowane genotypy wysokego/nskego {X ryzyka dla podzborów } oraz {X, X 2} zobrazowane są na rys. 3. Zapsano je za pomocą notacj dwójkowej wprowadzonej w punkce 4.5. Stwerdzono, że chorobotwórcze są zestawena allel: aa AA, AA Aa, AA AA, odpowedno na Gene na Gene 2. Rys. 2. Przykładowy zaps wynków w arkuszu STATISTICA. Wybór najlepszego zestawy zmennych. Rys. 3. Fragment przykładowego zapsu wynków w arkuszu STATISTICA. Allele chorobotwórcze. 42 www.statsoft.pl/czytelna.html Zastosowana metod statystycznych w badanach naukowych IV StatSoft Polska 202
BIBLIOGRAFIA ) Claude A. Vllee. Bologa. 990. Warszawa: Państwowe Wydawnctwo Rolncze Leśne. 2) Edwn F. Beckenbach. 964. Appled Combnatoral Mathematcs. New York: John Wley and Sons, Inc. 3) Lance W. Hahn, Marylyn D. Rtche, Jason H. Moore. 2003. Multfactor dmensonalty reducton software for detectng gene-gene and gene-envronment nteractons. Bonformatcs. Vol. 9, no. 3 2003, 376-382. 4) Marylyn D. Rtche, Lance W. Hahn, Jason H. Moore. 2003. Power of Multfactoral Dmensonalty Reducton for Detectng Gene-Gene Interactons n the presence of Genotypng Error, Mssng Data, Phenocopy, and Genetc Heterogenety. Genetc Epdemology, no. 24 2003, 50-57. 5) Marylyn D. Rtche, Lance W. Hahn, Nady Rood, L. Renee Baley, Wllam D. Dupont, Frtz F. Parl, Jason H. Moore. 200. Multfactor-Dmensonalty Reducton Reveals Hgh-Order Interactons among Estrogen-Metabolsm Genes n Sporadc Breast Cancer. Amercan Journal of Human Genetcs, no. 69 200, 38-47. 6) Phlp I. Good, James W. Hardn. 2003. Common Errors n Statstcs (and How to Avod Them). Hoboken, New Jersey: John Wley and Sons, Inc. 7) Wentan L, Jens Rech, A Complete Enumaraton and Classfcaton of Two-Locus Dsease Models. 2000. Human Heredty, 2000 no.50, 334-349. 8) Jason H. Moore. 2006. MDR Applcatons. Epstass Blog. www.compgen.blogspot.com/2006/05/mdr-applcatons.html. Zastosowana metod statystycznych w badanach naukowych IV StatSoft Polska 202 www.statsoft.pl/czytelna.html 43