Predykcja wartości hodowlanej byd la mlecznego na podstawie wybranych haplotypów SNP

Podobne dokumenty
Postępy w realizacji polskiego programu selekcji genomowej buhajów MASinBULL Joanna Szyda

era genomowa w hodowli bydła mlecznego Instytut Zootechniki Państwowy Instytut Badawczy

PRZYGODY DGV. historia programu selekcji genomowej w Polsce. Joanna Szyda, Andrzej Żarnecki

Modelowanie danych hodowlanych

Ocena wartości hodowlanej buhajów rasy simentalskiej. Sierpień

Modelowanie danych hodowlanych

Szacowanie wartości hodowlanej. Zarządzanie populacjami

Tomasz Suchocki Kacper Żukowski, Magda Mielczarek, Joanna Szyda

Ocena wartości hodowlanej buhajów rasy simentalskiej

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Praca hodowlana. Wartość użytkowa, wartość hodowlana i selekcja bydła

Rozwój oceny wartości hodowlanej w Polsce w świetle oczekiwań hodowców dr Katarzyna Rzewuska CGen PFHBiPM

Ocena wartości hodowlanej krów rasy PHF odmiany czarno-białej i czerwono-białej

Ocena wartości hodowlanej buhajów rasy PHF odmiany czarno-białej i czerwono-białej

Krajowy program hodowlany dla rasy polskiej czarno-białej

Statystyka w analizie i planowaniu eksperymentu

Statystyka w analizie i planowaniu eksperymentu

Ocena wartości hodowlanej. Dr Agnieszka Suchecka

Ocena wartości hodowlanej buhajów rasy PHF odmiany czarno-białej i czerwono-białej

Krajowy program hodowlany dla rasy polskiej czerwono-białej

Statystyka w analizie i planowaniu eksperymentu

Selekcja genowa buhajów

Ocena wartości hodowlanej. Indeksy selekcyjne Krzysztof Gałązka

Charakterystyka innych ras czerwonych w Europie zrzeszonych w ERDB

R E G U L A M I N wpisu do ksiąg bydła hodowlanego rasy polskiej holsztyńsko-fryzyjskiej

SYSTEMY INFORMATYCZNE WSPOMAGAJĄCE HODOWLĘ MAGDALENA FRĄSZCZAK

CECHY ILOŚCIOWE PARAMETRY GENETYCZNE

Wykorzystanie informacji o genomie w selekcji bydªa

R E G U L A M I N wpisu do ksiąg bydła hodowlanego rasy polskiej holsztyńsko-fryzyjskiej

R E G U L A M I N wpisu do ksiąg bydła hodowlanego rasy polskiej czerwonej obowiązujący od 1 stycznia 2017 r.

1. Analiza asocjacyjna. Cechy ciągłe. Cechy binarne. Analiza sprzężeń. Runs of homozygosity. Signatures of selection

Ocena wartości hodowlanej buhajów rasy PHF odmiany czarno-białej i czerwono-białej

Spokrewnienie prawdopodobieństwo, że dwa losowe geny od dwóch osobników są genami IBD. IBD = identical by descent, geny identycznego pochodzenia

R E G U L A M I N wpisu do ksiąg bydła hodowlanego ras mlecznych

METODY STATYSTYCZNE W BIOLOGII

Zarządzanie populacjami zwierząt. Parametry genetyczne cech

Dziedziczenie poligenowe

Statystyka w analizie i planowaniu eksperymentu

Selekcja genomowa. w programach hodowlanych

Dyskretne modele populacji

R E G U L A M I N wpisu do ksiąg bydła hodowlanego rasy simentalskiej obowiązujący od 1 lipca 2015 r.

Badania asocjacyjne w skali genomu (GWAS)

Opracowanie metod genomowej oceny wartości

Opis wykonanych badań naukowych oraz uzyskanych wyników

STATYSTYKA MATEMATYCZNA WYKŁAD 3. Populacje i próby danych

R E G U L A M I N wpisu do ksiąg bydła hodowlanego rasy polskiej czarno-białej

Genetyka populacji. Ćwiczenia 7

Ocena wartości hodowlanej krów rasy PHF odmiany czarno-białej i czerwono-białej

SYSTEMY INFORMATYCZNE WSPOMAGAJĄCE HODOWLĘ. Ocena wartości hodowlanej bydła mlecznego wprowadzenie

Testowanie hipotez statystycznych

Definicja. Odziedziczalność. Definicja. w potocznym rozumieniu znaczy tyle co dziedziczenie. Fenotyp( P)=Genotyp(G)+Środowisko(E) V P = V G + V E

Statystyka w analizie i planowaniu eksperymentu

Sekwencjonowanie nowej generacji i rozwój programów selekcyjnych w akwakulturze ryb łososiowatych

Indeksy wartości hodowlanych rasy simentalskiej w poszczególnych krajach - omówienie

STATYSTYKA MATEMATYCZNA WYKŁAD 1

Dyskretne modele populacji

Oprogramowanie dla GWAS

STATYSTYKA MATEMATYCZNA

PAKIETY STATYSTYCZNE JOANNA SZYDA TOMASZ SUCHOCKI

STATYSTYKA MATEMATYCZNA

Modelowanie danych hodowlanych

Wnioskowanie statystyczne. Statystyka w 5

Znaczenie analiz DNA w praktycznej hodowli bydła w Polsce

1. Symulacje komputerowe Idea symulacji Przykład. 2. Metody próbkowania Jackknife Bootstrap. 3. Łańcuchy Markova. 4. Próbkowanie Gibbsa

Modelowanie rynków finansowych

PODSTAWY BIOINFORMATYKI 11 BAZA DANYCH HAPMAP

INFORMATYKA W SELEKCJI

Normy wektorów i macierzy

Opracowanie metod genomowej oceny wartości

Wstęp do selekcji genomowej z punktu widzenia praktycznego. Ignacy Misztal University of Georgia

Mapowanie gen ow 10 maja 2004

ep do matematyki aktuarialnej Micha l Jasiczak Wyk lad 3 Tablice trwania życia 2

Statystyka w analizie i planowaniu eksperymentu

Statystyka w analizie i planowaniu eksperymentu lista nr 7

ANALIZA DANYCH POCHODZĄCYCH Z SEKWENCJONOWANIA NASTĘPNEJ GENERACJI

Hierarchiczna analiza skupień

Testowanie hipotez statystycznych.

Pytania i odpowiedzi

Powtórzenie wiadomości z rachunku prawdopodobieństwa i statystyki.

GENETYKA POPULACJI. Ćwiczenia 1 Biologia I MGR /

Badania asocjacyjne w skali genomu (GWAS)

ZARZĄDZANIE POPULACJAMI ZWIERZĄT 1. RÓWNOWAGA GENETYCZNA POPULACJI. Prowadzący: dr Wioleta Drobik Katedra Genetyki i Ogólnej Hodowli Zwierząt

ep do matematyki aktuarialnej Micha l Jasiczak Wyk lad 2 Tablice trwania życia

Jaki koń jest nie każdy widzi - genomika populacji polskich ras koni

OCENA TYPU i BUDOWY KRÓW MLECZNYCH

Z poprzedniego wykładu

SYSTEM DIAGNOSTYCZNY OPARTY NA LOGICE DOMNIEMAŃ. Ewa Madalińska. na podstawie prac:

Jeden przyk lad... czyli dlaczego warto wybrać MIESI.

Zakres i metodyka prowadzenia oceny wartości użytkowej bydła typu użytkowego mlecznego i mięsno-mlecznego

Pochodne cz ¾astkowe i ich zastosowanie.

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

ZARZĄDZANIE POPULACJAMI ZWIERZĄT SPOKREWNIENIE INBRED

Grupy i cia la, liczby zespolone

Testowanie hipotez statystycznych

Omówienie audytu gospodarstw ocena potencjalnych możliwości poprawy wyników produkcyjnych w gospodarstwach objętych programem Zdrowa Krowa

WSTĘP Oprogramowanie dla GWAS

Testowanie hipotez statystycznych

Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2015/2016. Forma studiów: Stacjonarne Kod kierunku: 12.

Testowanie hipotez statystycznych

PORÓWNYWANIE POPULACJI POD WZGLĘDEM STRUKTURY

Transkrypt:

Uniwersytet Przyrodniczy we Wroc lawiu Wydzia l Biologii i Hodowli Zwierzat Praca doktorska Predykcja wartości hodowlanej byd la mlecznego na podstawie wybranych haplotypów SNP Projekt badawczy finansowany przez Narodowe Centrum Nauki, grant nr N N311 057739 Anna Mucha Promotor: dr hab. inż. Heliodor Wierzbicki Katedra Genetyki Wydzia l Biologii i Hodowli Zwierzat Uniwersytet Przyrodniczy we Wroc lawiu Wroc law, 2012

Sk ladam serdeczne podziekowania Konsorcjum MASinBULL, a w szczególności jego koordynatorowi, prof. dr hab. Stanis lawowi Kamińskiemu, za udostepnienie danych, na podstawie których powsta la niniejsza dysertacja. Dzi ekuj e mojemu promotorowi i mentorowi, dr hab. Heliodorowi Wierzbickiemu, za poświ econy czas, 5 lat niezwykle pouczajacej dla mnie wspó lpracy, wyrozumia lość, życzliwość oraz naukowe wsparcie, ale także duża swobode w realizacji niniejszej pracy. Dzi ekuj e Pracownikom i Doktorantom Katedry Genetyki za wsparcie, pomoc oraz przyjazna i niepowtarzalna atmosfere pracy. Dzi ekuj e moim Rodzicom, Bratu, M eżowi oraz wszystkim Przyjacio lom i Bliskim za mi lość, wyrozumia lość, nieustajace wsparcie oraz niez lomna wiare w moje si ly.

Spis treści Streszczenie Abstract vii viii 1 Wstep i przeglad piśmiennictwa 1 1.1 Selekcja zwierzat................................ 1 1.2 Selekcja zwierzat wspomagana analiza markerów genetycznych....... 2 1.3 Genomowa selekcja zwierzat.......................... 3 1.4 Selekcja genomowa byd la mlecznego na świecie i w Polsce.......... 5 1.5 Cel pracy.................................... 11 2 Materia l 13 2.1 Dane fenotypowe................................ 14 2.2 Dane genotypowe................................ 17 3 Metody 19 3.1 Selekcja polimorfizmów pojedynczych nukleotydów oraz wybór bloków powiazanych ze soba markerów SNP... 19 3.1.1 Odsetek brakujacych genotypów oraz frekwencja rzadszego allelu............................. 19 3.1.2 Nierównowaga sprz eżeń......................... 20 3.2 Konstrukcja haplotypów SNP oraz estymacja ich frekwencji......... 21 3.3 Predykcja wartości hodowlanej na bazie haplotypów SNP................................ 22 3.3.1 Model ze sta lymi efektami haplotypów SNP............. 22 3.3.2 Model z losowymi efektami haplotypów SNP i równomiernie roz lożona wariancja genetyczna............ 23

vi SPIS TREŚCI 3.3.3 Model z losowymi efektami haplotypów SNP i nierównomiernie roz lożona wariancja genetyczna.......... 23 3.3.4 Model ze sta lymi efektami haplotypów SNP oraz losowymi addytywnymi efektami poligenicznymi................... 24 3.3.5 Model z losowymi addytywnymi efektami poligenicznymi...... 25 3.4 Porównanie wykorzystanych modeli predykcji................ 26 4 Wyniki 27 4.1 Selekcja SNP.................................. 27 4.2 Wyodr ebnienie bloków SNP.......................... 37 4.3 Konstrukcja i selekcja haplotypów SNP.................... 47 4.4 Predykcja wartości hodowlanej na bazie haplotypów SNP................................ 50 4.4.1 Porównanie modeli predykcji ze wzgl edu na efekty haplotypów... 50 4.4.2 Porównanie modeli predykcji ze wzgl edu na relacj e DGV do EBV. 76 5 Dyskusja 99 5.1 Selekcja markerów SNP............................ 99 5.2 Konstrukcja i selekcja haplotypów SNP.................... 101 5.3 Efekty haplotypów SNP............................ 104 5.4 Predykcja wartości hodowlanej......................... 105 6 Podsumowanie i wnioski 111 Bibliografia 112 Spis rysunków 122 Spis tabel 124 A Wykaz bloków markerów 127

SPIS TREŚCI vii Streszczenie G lównym celem badań by la predykcja genomowej wartości hodowlanej cech produkcyjnych, wybranych cech pokrojowych, reprodukcyjnych i wyniku komórek somatycznych byd la mlecznego w Polsce w oparciu o dane rzeczywiste, zawierajace genotypy z lożone z tysiecy markerów typu SNP, tworzacych haplotypy. Analizowany zbiór danych stanowi ly dane fenotypowe, genotypowe oraz rodowodowe 1216 buhajów rasy polskiej holsztyńsko-fryzyjskiej. Badaniem obj eto 3 cechy produkcyjne, 3 cechy pokrojowe, 3 cechy reprodukcyjne oraz wynik komórek somatycznych. Rol e fenotypów pe lni ly zderegresowane estymatory wartości hodowlanych. Dane genotypowe stanowi lo 54 tys. markerów SNP. Z analizowanego zbioru danych wyodr ebniono 1064 osobniki, które stanowi ly zbiór testowy i 152 osobniki, które stworzy ly zbiór walidacyjny. Dane genotypowe by ly selekcjonowane ze wzgledu na odsetek brakujacych genotypów, frekwencje rzadszego allelu oraz nierównowage sprzeżeń. Celem selekcji danych przy użyciu nierównowagi sprz eżeń by lo wyodr ebnienie bloków SNP, które stanowi ly baz e do konstrukcji haplotypów SNP. Spośród wszystkich skonstruowanych haplotypów wybrane zosta ly te, których estymatory frekwencji przekroczy ly 25%. Predykcja wartości hodowlanej zosta la przeprowadzona z wykorzystaniem jedenastu modeli statystycznych dla każdej z analizowanych cech. Rozważono różne postaci modeli predykcji oraz dwa rodzaje macierzy wystapień efektów haplotypów SNP, które by ly traktowane jako sta le albo losowe. Wyniki porównano z predyktorami wartości hodowlanych otrzymanymi metoda BLUP z poligenicznymi efektami losowymi. Korelacje pomiedzy genomowymi i konwencjonalnymi wartościami hodowlanymi otrzymane dla zbioru testowego osiagn e ly wartości od 0.63 dla cech reprodukcyjnych do 1.00 dla cech produkcyjnych i pokrojowych. Analogiczne wspó lczynniki korelacji liniowej, rangowej oraz wspó lczynniki regresji uzyskane dla zbioru walidacyjnego wskaza ly, że w praktyce selekcji genomowej powinny być stosowane modele z losowymi haplotypami SNP. Korelacje otrzymane za pomoca tych modeli by ly niższe od korelacji uzyskanych w zbiorze testowym i waha ly sie od 0.23 dla cech reprodukcyjnych do 0.47 dla cech produkcyjnych. Wspó lczynniki regresji wskazywa ly na nieznaczne zaniżanie ocen wartości hodowlanych przez modele z losowymi haplotypami SNP oraz na zawyżanie ocen wartości hodowlanych przez modele ze sta lymi efektami haplotypów SNP. Otrzymane predyktory wartości hodowlanych by ly mniej dok ladne od wyników opisanych w literaturze, które uzyskane zosta ly z wykorzystaniem dużych populacji referencyjnych, ale porównywalne do predyktorów wartości hodowlanych wyznaczanych w oparciu o ten sam zbiór danych, ale przy użyciu innej metodyki (wykorzystanie efektów pojedynczych SNP).

viii SPIS TREŚCI Abstract The main objective of this study was to predict the genomic breeding values of production traits, selected conformation traits, selected reproductive traits and somatic cell score of dairy cattle in Poland based on the real data containing genotypes composed of thousands of SNP markers forming the SNP haplotypes. The analyzed data set consisted of phenotypic, genotypic and pedigree data of 1216 Polish Holstein-Friesian bulls. The study included three production traits, 3 conformation traits, 3 reproductive traits and somatic cell score. Deregressed breeding values were used as phenotypes (dependent variables). Genotypic data were 54 thousands SNP markers. The data were divided into two subsets: training set (1064 individuals) and validation set (152 individuals). Genotypic data were selected due to the percentage of missing genotypes, minor allele frequency and linkage disequilibrium. The purpose of data selection using linkage disequilibrium was to identify SNP blocks that were the basis for the construction of SNP haplotypes. Of all the constructed haplotypes only those with frequency higher than 25% were selected. Prediction of breeding values was carried out using eleven statistical models for each of the analyzed traits. Various forms of predictive models and two types of design matrix for SNP haplotypes effects, which were treated as fixed or random, were considered. The results were compared with predictors of breeding values obtained using BLUP with a model with random poligenic effects. Correlations between direct and conventional breeding values obtained for the training data set have ranged from 0.63 for reproductive traits to 1.00 for production and conformation traits. The analogical linear and rank correlation coefficients and regression coefficients obtained for a validation data set indicated that the models with random SNP haplotypes should be used in practice of genomic selection. Correlations obtained with these models were lower than the correlations obtained in the training data set and ranged from 0.23 for reproductive traits to 0.47 for production traits. Regression coefficients indicated a slight underestimation of breeding values for models with random SNP haplotypes and overestimation of breeding values for models with fixed SNP haplotype effects. The resulting predictors were less accurate than the results reported in the literature, obtained on the basis of a large reference populations. However, comparable accuracy of prediction was obtained when the same data set was used to predict breeding values using different methodology (single SNPs as independent variables in a statistical model).

Rozdzia l 1 Wstep i przeglad piśmiennictwa 1.1 Selekcja zwierzat Selekcja zwierzat stanowi nieod l aczn a cześć pracy hodowcy. Kluczem do trafnej decyzji selekcyjnej, a tym samym przyspieszenia postepu hodowlanego, jest w laściwa ocena wartości hodowlanej zwierzat. Aktualnie w Polsce szacuje sie ja na podstawie informacji fenotypowej i rodowodowej osobnika oraz jego krewnych. Najprostsza, ale i najmniej dok ladna metoda jest dokonywanie oceny osobnika na podstawie wydajności jego rodziców. Nieco dok ladniejsze oceny wartości hodowlanej uzyskuje sie przy znanych wydajnościach krewnych z tego samego lub starszych pokoleń, jednak podejście takie wymaga wi ekszego nak ladu czasu. Najbardziej precyzyjne oceny otrzymywane sa na podstawie informacji fenotypowej potomstwa ocenianego osobnika, ale metoda ta jest niezwykle kosztowna i zwi eksza odst ep mi edzy pokoleniami. W przypadku byd la mlecznego najostrzejszej selekcji podlegaja buhaje. Do oceny wartości hodowlanej buhaja, w tradycyjnym ujeciu, niezbedne jest zgromadzenie informacji fenotypowej, np. wydajności mlecznej, co najmniej kilkudziesi eciu jego córek. Metoda ta przynosi zadowalajace efekty, ale niesie ze soba duże koszty i wyd lużony czas oczekiwania. Ponadto, oceny sa trafne w odniesieniu do cech średnio i wysoko odziedziczalnych, ale metoda jest mniej dok ladna dla cech takich, jak p lodność, zdrowotność wymion czy d lugowieczność, czyli cech o niższej odziedziczalności. Wi ekszość modeli oceny wartości hodowlanej opiera si e na metodzie wyznaczania najlepszego liniowego nieobci ażonego predyktora (ang. Best Linear Unbiased Prediction, BLUP) (Henderson, 1949, 1976, 1984; Mrode, 2005). Do powszechnego użytku wesz la

2 Wstep i przeglad piśmiennictwa ona w latach 80-tych XX wieku. Dzi eki metodzie BLUP możliwe jest szacowanie wszystkich parametrów modelu jednocześnie. Jej wprowadzenie da lo możliwość podniesienia dok ladności oceny wartości hodowlanej, ale pojawi l sie problem rosnacego zinbredowania. Przez wiele lat ocene wartości hodowlanej prowadzono metoda BLUP z modelem ojca (ang. BLUP sire model, BLUP SM) i modelem zwierzecia (ang. BLUP animal model, BLUP AM). Bardziej wyrafinowane jej uj ecie opublikowane zosta lo przez Ptak i Schaeffer (1993), w postaci modelu regresji próbnych udojów (ang. test day regression model). Rok później Schaeffer i Dekkers (1994) przedstawili podejście oparte na regresjach losowych (ang. random regression model). 1.2 Selekcja zwierzat wspomagana analiza markerów genetycznych Zastosowanie markerów molekularnych przynios lo ze soba dostep do nowego źród la informacji, w którym upatrywano szansy na ocene wartości hodowlanej cech np. mierzonych dopiero po śmierci zwierz ecia, charakterystycznych jedynie dla konkretnej p lci lub nisko odziedziczalnych. Za marker godny uwagi uznawano taki, który jest silnie sprz eżony z cecha bed ac a przedmiotem badania. Pojawi ly sie próby opierania decyzji selekcyjnych nie tylko na bazie informacji fenotypowej i rodowodowej, ale także genotypowej (Dekkers, 2004; FAO, 2007). Nowy trend zyska l miano selekcji wspomaganej markerami genetycznymi (ang. marker assisted selection, MAS). Nowa metoda mia la s lużyć selekcji ze wzgl edu na cech poligenicznych. Opiera la si e g lównie na wskazywaniu w genomie obszarów (ang. quantitative trait loci, QTL) majacych istotny wp lyw na zmienność genetyczna doskonalonej cechy. Poszukiwano QTL dla cech produkcyjnych byd la mlecznego, zwiaza- nych z p lodnościa, wyniku komórek somatycznych, cech pokrojowych (Heyen i wsp., 1999; Kolbehdari i wsp., 2009; Viitala i wsp., 2003; Ashwell i wsp., 2004; Olsen i wsp., 2005; Schnabel i wsp., 2005; Meuwissen i Goddard, 2004; Meuwissen, 2010; Calus i wsp., 2010; Cohen-Zinder i wsp., 2005; de Koning, 2006; Cohen i wsp., 2004; Freyer i wsp., 2003; Nilsen i wsp., 2009). Problemem badań prowadzonych na podstawie rzeczywistych danych by l fakt, iż trudno by lo porównać ich wyniki oraz zweryfikować, które QTL rzeczywiście istnieja i sa istotne. Oczekiwania postawione wobec MAS nie zosta ly wiec spe lnione (Misztal, 2006). W zwiazku z tym, selekcja wspierana markerami, poza nielicznymi wyjat- kami, nie zosta la zaimplementowana w praktyce. Jednym z tych wyjatków by la Francja,

1.3 Genomowa selekcja zwierzat 3 gdzie w latach 2001-2008 funkcjonowa l program selekcji byd la wspomaganej markerami genetycznymi (Guillaume i wsp., 2008), a drugim - Niemcy (Bennewitz i wsp., 2004). 1.3 Genomowa selekcja zwierzat Dynamicznie rozwijajaca sie technika mikromacierzowa postawi la badaczy przed szansa korzystania z dziesiatek, a nawet setek tysiecy markerów genetycznych. Mikromacierze, zwane także czujnikami lub chipami DNA, zosta ly wprowadzone na rynek w 1996 roku (Friend i Stoughton, 2002). Poczatkowo by ly to chipy z niewielka liczba polimorfizmów pojedynczych nukleotydów (ang. single nucleotide polymorphism, SNP) w technice APEX, opisanej przez Shumaker i wsp. (1996). Na bazie tej techniki powsta la mikromacierz s lużaca genotypowaniu SNP zwiazanych potencjalnie z biosynteza bia lka mleka krowiego, o nazwie MilkProtChip (Kamiński i wsp., 2005). Obecnie dostepne mikromacierze przeznaczone do genotypowania SNP m.in. cz lowieka (mikromacierz o wielkości 2 mln SNP), psa (2 tys. SNP), konia (54 tys. SNP), byd la (777 tys. SNP), owcy (54 tys. SNP) czy świni (62 tys. SNP) (Affymetrix, 2010; Illumina, 2010a,b). Komercjalizacja mikromacierzy bydl ecej rozpocz e la si e w 2005 roku, kiedy to do obrotu rynkowego wprowadzono chip o wielkości 10 tys. SNP (Affymetrix, 2005). W 2008 roku pojawi la si e mikromacierz o wielkości 54 tys. SNP, a dwa lata później - chip pozwalajacy na genotypowanie 777 tys. SNP (Illumina, 2010c,b). Dost epność technik mikromacierzowych skierowa la uwag e badaczy na zupe lnie nowe tory. W 2001 roku, za sprawa Meuwissen i wsp. (2001), miejsce selekcji wspomaganej markerami genetycznymi zaje la selekcja genomowa (ang. genomic selection). Autorzy za lożyli, że poszczególne markery, zgenotypowane dzieki gestej mikromacierzy, znajduja sie blisko QTL i prawdopodobnie sa z nim powiazane. W zwiazku z tym, moga one mieć znaczacy wp lyw na analizowana ceche ilościowa, a pewne segmenty chromosomów z lożone z sasiaduj acych ze soba markerów maja szanse być identyczne przez pochodzenie (ang. identical by descent) oraz zawierać ten sam allel QTL. Należy zatem oszacować efekty ma lych fragmentów chromosomów, reprezentowanych przez pojedyncze markery lub haplotypy, w odniesieniu do badanej cechy ilościowej, czyli przypisać im cz eści wartości hodowlanej. Predyktorem wartości hodowlanej jest wówczas suma wszystkich oszacowanych efektów. Meuwissen i wsp. (2001) wykazali, że zastosowanie g estych map markerów, przy ograniczonej liczbie obserwacji fenotypowych, umożliwia dok ladna predykcje wartości

4 Wstep i przeglad piśmiennictwa hodowlanych zwierzat, także tych, których wartości fenotypowe nie by ly znane. Stwierdzili ponadto, iż selekcja zwierzat, bazujaca na wartościach hodowlanych oszacowanych zaproponowana przez nich metoda, może prowadzić do zauważalnego skrócenia odstepu mi edzypokoleniowego. Potencjalne korzyści p lyn ace z zastosowania selekcji genomowej przedstawi l Schaeffer (2006). Wykaza l on, że postep genetyczny selekcjonowanej populacji kanadyjskiego byd la rasy holsztyńskiej b edzie podwojony w porównaniu do selekcji prowadzonej na podstawie wydajności potomstwa. Stwierdzi l ponadto, że zastosowanie selekcji genomowej zmniejszy koszty finansowe o 92% w stosunku do selekcji tradycyjnej. Polemik e na temat selekcji genomowej podj eli także Goddard i Hayes (2007). Przekonywali oni, że metoda ta bedzie mia la znaczacy wp lyw na strukture programów hodowlanych oraz, że poziom skrócenia odstepu miedzypokoleniowego bedzie już jedynie kwestia możliwości technologii reprodukcyjnych. Autorzy wyodrebnili kilka etapów selekcji genomowej. Pierwszy z nich to genotypowanie zwierzat. Nastepnie, na podstawie danych genotypowych i fenotypowych populacji testowej, ma miejsce szacowanie efektów markerów, które po zsumowaniu stanowia predyktor wartości hodowlanej. Otrzymane efekty markerów s luż a potem szacowaniu wartości hodowlanych zwierzat należacych do zbioru walidacyjnego, także tych, których fenotypy nie by ly wcześniej mierzone. Pedersen i wsp. (2008) zainteresowali sie problemem rosnacego w wyniku selekcji inbredu. W przeprowadzonych badaniach symulacyjnych wykazali, że selekcja wspomagana markerami genetycznymi oraz selekcja genomowa wp lywaja zarówno na zinbredowanie szacowane na podstawie informacji rodowodowej, jak i na wspó lczynnik inbredu wyznaczany na podstawie znanych QTL. Badania dotyczy ly nisko odziedziczalnej cechy zdrowotnej zwiazanej z p lci a u byd la mlecznego. Rozważano jeden QTL oraz cztery silnie polimorficzne markery. Autorzy wykazali, że po up lywie dziesieciu lat, selekcja wspomagana markerami genetycznymi doprowadzi do obniżenia inbredu szacowanego na podstawie informacji rodowodowej o 36% oraz inbredu rzeczywistego o 6%, zaś selekcja genomowa, w tym samym czasie, pozwoli na obniżenie inbredu szacowanego o 43% oraz inbredu rzeczywistego o 17%, w stosunku do selekcji prowadzonej na podstawie standardowej metody BLUP. Do analogicznych wniosków, co do kierunku wp lywu selekcji genomowej na inbred, doszli Sonesson i Meuwissen (2009). Przeprowadzili oni badania symulacyjne, które dotyczy ly czterech tysi ecy pokoleń ryb. Wykaza ly one, że selekcja genomowa zredukuje wspó lczynnik inbredu o 81% w porównaniu do selekcji tradycyjnej. Selekcja genomowa byd la mlecznego daje nie tylko możliwość wyboru ojców kolejnego

1.4 Selekcja genomowa byd la mlecznego na świecie i w Polsce 5 pokolenia, czyli buhajów. Umożliwia także selekcj e kandydatek na matki buhajów, która obecnie bazuje na informacji rodowodowej oraz ocenie eksterieru lub wydajności dwóch pierwszych laktacji (Murray, 2012). Problem w tym, że pierwsza z wymienionych metod jest niezawodna jedynie w 35%, druga zaś w 54%, ale wymaga wi ekszych nak ladów finansowych i czasu do przeprowadzenia oceny. Zastosowanie selekcji genomowej pozwala podnieść niezawodność oceny do 61% dla ja lówek oraz do 70% dla krów po dwóch pierwszych laktacjach, a także umożliwia wprowadzenie do hodowli nowych rodzin krów, co wp lywa korzystnie na spowolnienie tempa wzrostu inbredu. Wielu badaczy podejmujacych tematyke selekcji genomowej bazuje na danych symulowanych (Meuwissen i wsp., 2001; Kolbehdari i wsp., 2007; Habier i wsp., 2007; Muir, 2007; Solberg i wsp., 2008, 2009; Meuwissen i wsp., 2009; Bennewitz i wsp., 2009; Villumsen i wsp., 2008; Calus i wsp., 2008, 2009; Sonesson i Meuwissen, 2009). Zaleta takiego podejścia jest dobra znajomość struktury zbioru danych oraz, co niezwykle istotne, brak ograniczeń co do wielkości analizowanej populacji. Dane symulowane pozwalaja na testowanie metod statystycznych mogacych mieć zastosowanie w predykcji wartości hodowlanej. Najefektywniejsze z metod moga nastepnie zostać wykorzystane do analizy danych rzeczywistych. W przypadku byd la mlecznego dostepność takich danych jest w wielu przypadkach warunkowana istnieniem ogólnokrajowych lub mi edzynarodowych projektów ewaluacji wartości hodowlanej. 1.4 Selekcja genomowa byd la mlecznego na świecie i w Polsce Selekcja genomowa znalaz la swoje zastosowanie w praktyce, g lównie w odniesieniu do byd la mlecznego. Krajem przodujacym w zastosowaniu markerów genetycznych w selekcji przez wiele lat by la Francja, gdzie po 2000 roku zaczeto wdrażać program selekcji byd la wspomaganej markerami genetycznymi (Krychowski i Journeau, 2009; Boichard i wsp., 2012). Program dotyczy l trzech g lównych ras byd la: rasy holsztyńskiej, normandzkiej oraz montbeliarde. Pierwszy etap badań obejmowa l analiz e 45 markerów mikrosatelitarnych umiejscowionych na chromosomie 14. W czasie siedmiu lat trwania programu zgenotypowano 70 tys. zwierzat. Doświadczenia zdobyte w trakcie tych prac by ly niezwykle pomocne, gdy do praktyki hodowlanej zaczeto wprowadzać selekcje genomowa. Specyfika i zaleta selekcji genomowej funkcjonujacej we Francji jest ścis la i wieloletnia

6 Wstep i przeglad piśmiennictwa wspó lpraca ośrodków naukowych i hodowców, umożliwiajaca ciag l a wymiane informacji, genotypowanie dużej liczby osobników oraz ogólny dostep do danych o wartościach użytkowych zwierzat. Finansowania programu badawczego podje ly sie tam ośrodki selekcji zwierzat. W 2007 roku program MAS zosta l wzbogacony o użycie informacji pochodzacej z mikromacierzy o 54 tys. SNP. Jedna z g lównych cech implementacji selekcji genomowej francuskiego byd la by lo użycie haplotypów w miejsce pojedynczych markerów SNP, co mia lo zapewnić maksymalizacje stopnia powiazania użytych markerów z QTL. Haplotypy by ly konstruowane na bazie sasiaduj acych markerów. Efekty poszczególnych haplotypów szacowane by ly za pomoca modelu statystycznego zawierajacego losowe efekty haplotypów oraz losowe resztowe efekty poligeniczne, reprezentujace oko lo 30-40% zmienności genetycznej. Role fenotypów w modelu pe lni ly wartości hodowlane otrzymane droga tradycyjnej oceny. Dla każdej analizowanej cechy oszacowano oko lo 7000 efektów haplotypów. Populacje referencyjna, budowana od 2008 roku, stanowi lo 1800 buhajów rasy montbeliarde, 1400 buhajów rasy normandzkiej oraz 4000 buhajów rasy holsztyńskiej. W wyniku powstania w 2009 roku europejskiego konsorcjum EuroGenomics, w którego sk lad wesz ly Holandia, kraje skandynawskie, Niemcy oraz Francja, populacje referencyjne tych krajów po l aczy ly sie, co da lo 18 300 buhajów w nowej populacji referencyjnej. W 2011 roku rozpocze ly sie także prace nad selekcja genomowa samic. Program od 2008 obejmowa l genotypowanie oko lo 2000-2500 zwierzat miesiecznie, z czego 40-50% stanowi ly kandydatki na matki buhajów. Planuje sie również zwiekszanie populacji referencyjnej o przedstawicieli różnych ras. Obecnie trwa genotypowanie kilkuset buhajów z użyciem mikromacierzy o 777 tys. SNP. Zastosowanie tak g estej mikromacierzy ma s lużyć identyfikacji segmentów chromosomów identycznych przez pochodzenie pomi edzy rasami, by w przysz lości oszacować efekty haplotypów umiejscowionych na tych segmentach. Kolejnym pionierem w praktyce selekcji genomowej jest Holandia, gdzie organizacja hodowlana CRV finansuje badania nad użyciem markerów w selekcji już od 1994 roku, a selekcja genomowa jest stosowana w praktyce od 2006 roku (CRV, 2012). Populacj e referencyjna stanowi ly 1583 buhaje. Dane genotypowe sk lada ly sie z 57 660 SNP, spośród których 46 529 zosta lo poddanych analizie. Predykcja wartości hodowlanych oparta zosta la na szacowaniu efektów pojedynczych SNP przy użyciu próbkowania Gibbsa (Meuwissen i Goddard, 2004; Hayes i wsp., 2009). Program ewaluacji wartości hodowlanej korzysta także z populacji referencyjnej zgromadzonej przez EuroGenomics. Selekcja genomowa funkcjonuje także w praktyce w Australii, gdzie analizie podlega lo 798 buhajów rasy australijskiej holsztyńsko-fryzyjskiej urodzonych w latach 1998-2003

1.4 Selekcja genomowa byd la mlecznego na świecie i w Polsce 7 (Hayes i wsp., 2009). Dane genotypowe stanowi lo 54947 SNP. Podlega ly one redukcji ze wzgledu na procent genotypów brakujacych, frekwencje rzadszego allelu oraz odchylenia od równowagi Hardy ego - Wienberga. Ostatecznie do analizy zakwalifikowano 38 259 SNP. W pierwszym etapie efekt każdego SNP by l szacowany osobnym modelem, który traktowa l ten efekt jako sta ly i zawiera l losowe efekty poligeniczne. Rol e fenotypów pe lni ly wartości hodowlane otrzymane w tradycyjnej ocenie. Markery o statystycznie istotnym wp lywie na badana ceche uczestniczy ly w drugim etapie analizy, która polega la na predykcji wartości hodowlanych przy jednoczesnym użyciu wszystkich wybranych w poprzednim etapie SNP By ly one traktowane jako efekty losowe w modelu statystycznym zawierajacym także losowe efekty poligeniczne. Populacja referencyjna by la ustawicznie zwiekszana i w 2011 roku stanowi ly ja 2247 buhaje. Podobna do australijskiej metodyka stosowana jest w praktyce selekcji genomowej w Nowej Zelandii. Populacje referencyjna stanowi lo tam 4500 buhajów rasy holsztyńskofryzyjskiej, rasy jersey oraz skrzyżowania tych dwóch ras, urodzonych w latach osiemdziesiatych zesz lego wieku. Na podstawie 44 146 markerów SNP szacowano wartości hodowlane ze wzgledu na 25 cech (Hayes i wsp., 2009). Selekcja genomowa w Stanach Zjednoczonych Ameryki Pó lnocnej i Kanadzie jest efektem wspó lpracy badaczy z tych państw. Zgenotypowano 11 441 buhajów i 1472 krowy rasy holsztyńskiej (Schenkel i wsp., 2009). Dane genotypowe każdego osobnika sk lada ly si e z 38 416 SNP, które przesz ly uprzednio selekcj e ze wzgl edu na frekwencj e rzadszego allelu oraz korelacj e z innymi markerami. Przedmiotem zainteresowania by ly 44 cechy: 5 cech produkcyjnych, 11 cech funkcjonalnych i reprodukcyjnych oraz 28 cech typu. Szacowanie wartości hodowlanych odbywa lo sie za pomoca modelu liniowego, w którym miejsce tradycyjnej macierzy spokrewnień, wyznaczanej na bazie informacji rodowodowej, zaje la macierz spokrewnień powsta la w oparciu o dane genotypowe (Van Raden, 2008). Zmiennymi objaśniajacymi modelu by ly SNP, z za lożeniem takiej samej cześci zmienności genetycznej wyjaśnianej przez poszczególne markery. Procedura wprowadzenia do praktyki selekcji genomowej byd la zosta la także rozpocz eta w Irlandii. W 2007 roku rozpocz eto tam gromadzenie materia lu genetycznego (Berry i Kearney, 2009). Ekstrakcja DNA z 1998 próbek pochodzacych od 1290 buhajów rozpocze la sie w styczniu 2009 roku. Genotypowanie przebiega lo z użyciem Illumina Bovine50 Beadchip. Do analizy w l aczono także materia l genetyczny 158 buhajów nowozelandzkich, których córki sa cześci a populacji byd la w Irlandii. Markery SNP podlega ly selekcji m.in. ze wzgledu na umiejscowienie (do analizy nie wesz ly markery umiejscowione na alloso-

8 Wstep i przeglad piśmiennictwa mie), frekwencje rzadszego allelu oraz odchylenie od równowagi Hardy ego - Wienberga. Zbiór danych po redukcji zawiera l informacje genotypowa 1209 buhajów rasy holsztyńskofryzyjskiej. Predykcja wartości hodowlanych, podobnie jak w przypadku amerykańskiej i kanadyjskiej populacji byd la, przebiega la z użyciem modelu liniowego, w którym, zamiast tradycyjnej macierzy spokrewnień, zastosowanie znalaz la macierz spokrewnień zbudowana na podstawie danych genotypowych. Dok ladność wykorzystanej metody weryfikowana by la w oparciu o zbiór danych dotyczacy buhajów posiadajacych co najmniej 40 córek o zmierzonej mleczności. Zbiór testowy stanowi ly 803 buhaje, zbiór walidacyjny - 207 buhajów. W kolejnym etapie badań do zbioru testowego trafi ly 945 buhaje posiadajace córki w irlandzkiej populacji byd la i oszacowano wartości hodowlane 246 buhajów nie posiadajacych córek w tej populacji. odbywa sie cztery razy do roku. Ewaluacja wartości hodowlanej byd la w Irlandii Genomowa selekcja byd la wesz la do praktyki także w krajach nordyckich (Lund i Su, 2009). Mia la swój poczatek w analizie zbioru danych, w sk lad którego wesz ly buhaje rasy holsztyńskiej, bed ace cześci a populacji duńskiej i szwedzkiej. Zgenotypowano 2012 buhajów urodzonych w latach 1986-2002 oraz pochodzacych ze 125 pó l-rodzin. Genotypowanie przebiega lo z użyciem mikromacierzy o 54 tys. SNP. Markery podlega ly selekcji ze wzgledu na frekwencje rzadszego allelu, odsetek zwierzat zgenotypowanych w danym locus oraz dok ladność genotypowania. Liczba osobników zosta la zredukowana ze wzgledu na odsetek zgenotypowanych loci. Ostatecznie do analizy wesz lo 2012 buhajów z informacja genotypowa z lożona z 38 055 SNP. Predyktory wartości hodowlanych, bazujace na opisanym zbiorze danych, zosta ly wyznaczone dla 17 cech w 2008 roku. Model predykcji (Janns, 2008) zawiera l zmienne objaśniajace w postaci pojedynczych markerów SNP. Badania prowadzone by ly także dla ras miesnych przy populacji referencyjnej sk ladaj a- cej sie z 821 buhajów rasy duńskiej czerwonej, 2049 buhajów fińskiej rasy ayrshire oraz 1375 buhajów rasy czerwonej szwedzkiej. Pierwsze wyniki predykcji wartości hodowlanej, bazujace na tej populacji, przestawione zosta ly we wrześniu 2010 roku. Kolejnym krajem, w którym dostrzeżono zalety selekcji genomowej, sa Niemcy. Analizowano tam niemieckie byd lo rasy holsztyńskiej. Zbiór danych obejmowa l genotypy oko lo 2500 buhajów urodzonych w latach 1998-2002 i 500 krów, zwiazane z realizacja narodowego projektu GenoTrack. Ponadto wykorzystano genotypy oko lo 2500 buhajów urodzonych przed rokiem 1998 i w latach 2003 i 2004. Zwierz eta genotypowane by ly przy użyciu Illumina chip Bovine SNP50 BeadChip (Reinhardt i wsp., 2009). Markery genetyczne podlega ly selekcji ze wzgl edu na frekwencj e rzadszego allelu oraz odsetek bra-

1.4 Selekcja genomowa byd la mlecznego na świecie i w Polsce 9 kujacych genotypów. W wyniku redukcji pozosta lo 45 181 SNP. Analizie podlega ly 44 cechy. Rutynowej ewaluacji genomowej, która mia la miejsce w sierpniu 2009 roku, podlega lo 4572 zgenotypowanych buhajów posiadajacych córki o zmierzonych wydajnościach mlecznych. Walidacja systemu ewaluacyjnego przebiega la w oparciu o zbiór danych utworzony przez genotypy 655 buhajów urodzonych w 2004 roku. Efekty SNP szacowane by ly na podstawie 3684 osobników urodzonych przed 2004 rokiem. Model statystyczny, s luż acy predykcji wartości hodowlanych, zawiera l losowe efekty markerów SNP oraz losowe resztowe efekty poligeniczne, na które przypada lo oko lo 1% ca lkowitej zmienności genetycznej cechy. Selekcja genomowa może być także prowadzona w odniesieniu do konkretnej rasy przy wspó lpracy wi ekszej liczby krajów. Tak si e sta lo w przypadku byd la szwajcarskiej rasy brazowej (Zumbach i wsp., 2010). W ramach projektu Intergenomics zainicjowanego przez Europejska Ferderacje Byd la Szwajcarskiej Rasy Brazowej (ang. European Brown Swiss Federation) zgenotypowano 3392 buhaje: 136 z Austrii, 517 z Niemiec, 86 z Francji, 745 z W loch, 188 ze S lowenii, 1091 ze Szwajcarii oraz 629 ze Stanów Zjednoczonych Ameryki Pó lnocnej. Buhaje urodzone by ly w latach 1936-2008. Genotypowanie zosta lo przeprowadzone przy zastosowaniu Illumina Bovine SNP50 BeadChip. Selekcja markerów przebieg la z zastosowaniem frekwencji rzadszego allelu, odsetka brakujacych genotypów i zależności pomiedzy markerami. Do analizy wybrano 42 437 SNP. Predykcji z wykorzystaniem markerów podlega ly wartości hodowlane wydajności bia lka w mleku, wyniku komórek somatycznych oraz wskaźnik niepowtarzalności unasieniania krów. W zbiorze walidacyjnym znalaz ly si e buhaje urodzone po 1999 roku - od 467 do 608 buhajów, w zależności od analizowanej cechy. Program selekcji genomowej w Polsce zosta l powo lany do życia 6. czerwca 2009 roku, wraz z powstaniem konsorcjum MASinBULL (Kamiński, 2012). Poczatkowo w sk lad tego konsorcjum wchodzi ly zespo ly badawcze prof. dra hab. Stanis lawa Kamińskiego z Uniwersytetu Warmińsko-Mazurskiego w Olsztynie, prof. dr hab. Joanny Szydy z Uniwersytetu Przyrodniczego we Wroc lawiu, prof. dra hab. Andrzeja Żarneckiego i prof. dr hab. Ewy S loty z Instytutu Zootechniki w Balicach oraz Stacja Hodowli i Unasieniania Zwierzat Sp. z o.o. w Bydgoszczy, która w ca lości finansowa la realizacje projektu. W 2011 roku do konsorcjum do l aczy lo Ma lopolskie Centrum Biotechniki Sp. z o.o. w Krasnem i przeje lo na siebie cześć kosztów zwiazanych z realizacja projektu. Polska Federacja Hodowców Byd la i Producentów Mleka wesz la w sk lad konsorcjum w styczniu 2012 roku. Poczatkow a populacje referencyjna stanowi lo 1227 buhajów rasy polskiej holsztyńsko-

10 Wstep i przeglad piśmiennictwa fryzyzyjskiej urodzonych w latach 1987-2003 (Szyda i wsp., 2009), zgenotypowanych za pomoca mikromacierzy Illumina BovineSNP50. Do sierpnia 2011 roku populacja ta zwiekszy la sie do 2531 buhajów. Markery poddane by ly selekcji ze wzgledu na frekwencje rzadszego allelu oraz odsetek brakujacych genotypów. Analizowano 30 cech. W 2011 zespó l prof. dr hab. Joanny Szydy zakończy l opracowywanie modelu statystycznego szacujacego wartości hodowlane, zawierajacego losowe efekty pojedynczych markerów SNP. Zak lada on, że każdy marker wyjaśnia taka sama cześć zmienności genetycznej analizowanej cechy. Wyniki otrzymane w wyniku tych prac, jak i rezultaty prac nad selekcja genomowa w innych krajach zostana przeanalizowane i porównane z efektami badań przeprowadzonych na potrzeby niniejszej dysertacji w rozdziale 5. W ramach polskiego projektu selekcji genomowej zakończono także prace nad przygotowaniem narz edzi niezb ednych do genotypowania krów, co wp lynie na selekcj e matek buhajów oraz dawczyń zarodków. Dla dalszego rozwoju i wzrostu efektywności selekcji genomowej niezwykle istotna jest wspó lpraca pomi edzy poszczególnymi krajami, ośrodkami badawczymi i naukowymi oraz hodowcami. Niektóre kraje dostrzeg ly już t e potrzeb e i w celu m.in. powi ekszania populacji referencyjnych powsta ly konsorcja lub podpisano umowy dwustronne. Przyk ladami sa tutaj wymienione już wcześniej Eurogenomics i Intergenomics. Ścis l a wspó lprac e na tym polu prowadza Stany Zjednoczone Ameryki Pó lnocnej i Kanada, natomiast Irlandia zaproponowa la powstanie konsorcjum IGenoP. W 2011 roku do Eurogenomics do l aczy la Hiszpania. Populacja referencyjna tego konsorcjum w maju 2012 roku liczy la oko lo 22 tys. buhajów (Kamiński, 2012). 26. października 2012 roku w sk lad konsorcjum EuroGenomics wesz la także Polska.

1.5 Cel pracy 11 1.5 Cel pracy G lównym celem niniejszej pracy by la predykcja genomowej wartości hodowlanej cech produkcyjnych, wybranych cech pokrojowych, reprodukcyjnych i wyniku komórek somatycznych byd la mlecznego w Polsce, w oparciu o dane rzeczywiste, zawierajace genotypy z lożone z tysiecy markerów typu SNP, tworzacych haplotypy. Cel ten zosta l osiagni ety poprzez realizacje nastepuj acych celów szczegó lowych: selekcj e polimorfizmów pojedynczych nukleotydów, wybór bloków powiazanych ze soba markerów SNP, konstrukcj e haplotypów SNP oraz estymacj e ich frekwencji w populacji, testowanie modeli statystycznych ze sta lymi lub losowymi efektami haplotypów oraz wybór modelu liniowego pozwalajacego najdok ladniej oszacować wartość hodowlana, predykcj e wartości hodowlanej na bazie haplotypów SNP.

12 Wstep i przeglad piśmiennictwa

Rozdzia l 2 Materia l Analizowany zbiór danych obejmuje dane fenotypowe, genotypowe oraz rodowodowe 1216 buhajów rasy polskiej holsztyńsko-fryzyjskiej. Wszystkie brane pod uwage zwierzeta urodzone by ly w latach 1987-2003. Rozk lad liczby analizowanych buhajów w zależności od roku ich urodzenia przedstawia rysunek 2.1. Rysunek 2.1: Liczba analizowanych buhajów w zależności od roku ich urodzenia

14 Materia l Najliczniejsza grupe analizowanych zwierzat stanowi ly buhaje urodzone w latach 1997-2003 (n = 1061). Najwiecej danych pochodzi lo z 2001 (n = 206), a najmniej z 1987 roku (n = 3). Zbiór danych zosta l podzielony na dwa podzbiory. Pierwszy z nich stanowi l zbiór testowy, na podstawie którego wyznaczono estymatory efektów sta lych oraz predyktory efektów losowych modeli statystycznych. Znalaz ly si e w nim 1064 najstarsze osobniki, czyli 80% wszystkich analizowanych buhajów. Drugi zbiór utworzy ly pozosta le 152 osobniki, bed ace zbiorem walidacyjnym. Niniejszy podzia l zosta l dokonany, aby umożliwić sprawdzenie poprawności dzia lania modeli statystycznych przy ograniczonej liczbie danych. Ca ly zbiór danych jest w lasnościa Konsorcjum MASinBULL. 2.1 Dane fenotypowe Badaniem objeto nastepuj ace cechy: wydajność mleczna (WM, ang. milk yield), wydajność t luszczu (WT, ang. fat yield), wydajność bia lka (WB, ang. protein yield), kaliber (STA, ang. stature), nogi i racice (OFL, ang. overall feet and leg score), wi ezad lo środkowe wymienia (USU, ang. udder support), wskaźnik niepowtarzalności unasieniania krów (NRK, ang. non return rate of cows), przestój poporodowy (PRP, ang.rest before pregnancy), odstep miedzyci ażowy (OMC, ang. time between pregnancies), wynik komórek somatycznych (SCS, ang. somatic cell score).

2.1 Dane fenotypowe 15 Cechy produkcyjne (WM, WT, WB) zosta ly zmierzone w kilogramach. Cechy pokroju (STA, OFL, USU) objete by ly ocena liniowa wyrażona w przyznanych punktach (od 50 do 100 punktów dla cech kaliber oraz nogi i racice; od 1 do 9 punktów dla cechy wiezad lo środkowe wymienia). Wskaźnik niepowtarzalności unasieniania krów (NRK) wyniós l 1, jeżeli krowa w ciagu 56 dni od pierwszego zabiegu unasieniania nie wykaza la objawów rui i 0, w przeciwnym przypadku. Przestój poporodowy (PRP), określany jako odstep czasu od pierwszego ocielenia do pierwszego zabiegu unasieniania oraz odstep miedzyci ażowy (OMC), czyli czas od ocielenia do ponownego zacielenia, liczone by ly w dniach. Wynik komórek somatycznych powsta l poprzez przekszta lcenie liczby komórek somatycznych (ang. somatic cell count, SCC) nastepuj acym wzorem: SCS = log 2 ( SCC 100000 ) + 3. (2.1) Cechy pokroju, p lodności oraz wynik komórek somatycznych zosta ly poddane standaryzacji do średniej 100 i odchylenia standardowego 10. Rol e fenotypów pe lni ly zderegresowane estymatory wartości hodowlanych 1 (ang. deregressed estimated breeding values). Estymatory wartości hodowlanych (ang. estimated breeding values, EBV) otrzymane zosta ly z wykorzystaniem modelu dla próbnych udojów z regresjami losowymi (Strabel i wsp., 2005). Odziedziczalności i komponenty wariancyjne analizowanych cech zosta ly oszacowane w ramach narodowego systemu ewaluacji genetycznej byd la rasy polskiej holsztyńskofryzyjskiej (Interbull, 2012). Ich wartości przedstawia tabela 2.1. Tabela 2.1: Wspó lczynniki odziedziczalności (h 2 ) oraz wariancje genetyczne (σ 2 g) analizowanych cech cecha WM WT WB STA OFL USU NRK PRP OMC SCS [kg] [kg] [kg] [50-100 [50-100 [1-9 [0 lub 1] [dni] [dni] punktów] punktów] punktów] h 2 0.33 0.29 0.29 0.54 0.11 0.20 0.0208 0.0526 0.0799 0.32 σg 2 213490 330.1 181.3 5.50058 0.89576 0.37335 0.00451 171.49606 557.40155 28737 1 Buhaje zosta ly ocenione na podstawie pomiaru ocenianych cech swoich córek, a nast epnie, przy wykorzystaniu metod statystycznych, wyodr ebnione zosta ly ich wartości hodowlane nie uwzgl edniaj ace już żadnych innych efektów, w tym środowiskowych.

16 Materia l Statystyki opisowe analizowanych cech dla wszystkich osobników zawiera tabela 2.2. Tabele 2.3 oraz 2.4 zawieraja odpowiednio statystyki cech dla zbioru testowego oraz dla zbioru walidacyjnego. Tabela 2.2: Statystyki opisowe analizowanych cech (zderegresowane wartości hodowlane) dla pe lnego zbioru danych (n = 1216) cecha WM WT WB STA OFL USU NRK PRP OMC SCS [kg] [kg] [kg] [50-100 [50-100 [1-9 [0 lub 1] [dni] [dni] statystyka punktów] punktów] punktów] średnia 101.53 2.91 2.73 103.68 102.94 102.38 99.84 100.65 101.11 95.95 mediana 95.19 2.35 2.49 104 103 102 99.85 100.82 101.19 96.35 odchylenie 401.19 13.52 10.89 6.74 8.1 8.76 10.78 11.34 11.34 10.52 standardowe wspó lczynnik 395.15 465.01 399 6.5 7.87 8.56 10.8 11.27 11.21 10.96 zmienności [%] minimum -985.04-48.39-44.12 67 65 74 64.97 60.6 64.46 60.51 maksimum 1723.5 51.48 47.53 128 127 128 135.06 137.1 143.13 127.38 Tabela 2.3: Statystyki opisowe analizowanych cech (zderegresowane wartości hodowlane) dla testowego zbioru danych (n = 1064) cecha WM WT WB STA OFL USU NRK PRP OMC SCS [kg] [kg] [kg] [50-100 [50-100 [1-9 [0 lub 1] [dni] [dni] statystyka punktów] punktów] punktów] średnia 85.55 2.59 2.02 103.27 102.64 102.1 99.81 101.2 101.75 96.31 mediana 81.6 2.12 2.1 104 103 102 99.82 101.23 101.88 96.57 odchylenie 395.81 13.32 10.79 6.71 8.01 8.73 10.93 11.33 11.36 10.26 standardowe wspó lczynnik 462.65 514.94 532.77 6.49 7.81 8.56 10.96 11.2 11.17 10.66 zmienności [%] minimum -985.04-48.39-44.12 67 65 74 64.97 60.6 64.46 62.57 maksimum 1723.5 51.48 47.53 128 127 128 135.06 137.1 143.13 127.38

2.2 Dane genotypowe 17 Tabela 2.4: Statystyki opisowe analizowanych cech (zderegresowane wartości hodowlane) dla walidacyjnego zbioru danych (n = 152) cecha WM WT WB STA OFL USU NRK PRP OMC SCS [kg] [kg] [kg] [50-100 [50-100 [1-9 [0 lub 1] [dni] [dni] statystyka punktów] punktów] punktów] średnia 213.36 5.15 7.66 106.49 105 104.37 100.01 96.77 96.68 93.41 mediana 176.69 3.94 6.8 107 105 105 100.16 97.31 97.3 92.77 odchylenie 421.68 14.69 10.34 6.28 8.47 8.74 9.68 10.68 10.12 11.87 standardowe wspó lczynnik 197.64 285.15 135.03 5.89 8.06 8.37 9.68 11.04 10.47 12.71 zmienności [%] minimum -871.68-33.9-15.16 89 84 81 71.64 62.36 70.04 60.51 maksimum 1357.98 45.69 35.94 124 124 125 124.88 121.33 118.7 117.15 Najwieksz a zmienność we wszystkich trzech zbiorach wykaza ly cechy produkcyjne (WM, WT, WB). Najmniejsza zmiennościa charakteryzuja sie cechy zwiazane pokrojowe (STA, OFL, USU). Wspó lczynnik zmienności cech zwiazanych z p lodnościa (NRK, PRP, OMC) oraz wynik komórek somatycznych (SCS) kszta ltowa ly sie na porównywalnym poziomie. 2.2 Dane genotypowe Dane genotypowe zosta ly otrzymane dzieki technice mikromacierzowej przy użyciu Illumina BovineSNP50 BeadChip na Uniwersytecie Warmińsko - Mazurskim w Olsztynie. Wykorzystanie mikromacierzy umożliwia analize 54 001 poliformizmów pojedynczych nukleotydów dla każdego osobnika. Zbiór ten zosta l poddany selekcji, której kryteria opisane zosta ly w rozdziale trzecim niniejszej pracy. Wyniki selekcji zawiera rozdzia l czwarty.

18 Materia l

Rozdzia l 3 Metody Praca nad otrzymaniem wyników prezentowanych w niniejszej dysertacji sk lada la si e z trzech g lównych etapów: selekcja polimorfizmów pojedynczych nukleotydów oraz wybór bloków powiazanych ze soba markerów SNP, konstrukcja haplotypów SNP oraz estymacja ich frekwencji w analizowanej populacji, predykcja wartości hodowlanej na bazie haplotypów SNP oraz porównanie wykorzystanych modeli predykcji. 3.1 Selekcja polimorfizmów pojedynczych nukleotydów oraz wybór bloków powiazanych ze soba markerów SNP 3.1.1 Odsetek brakujacych genotypów oraz frekwencja rzadszego allelu Pierwszym krokiem w selekcji SNP by lo usuni ecie ze zbioru tych markerów, dla których dane brakujace stanowi ly wiecej, niż 10% ca lości (GENO < 0.1). Nastepnie wykorzystane zosta lo kryterium frekwencji rzadszego allelu markera (ang. minor allel frequency, MAF). Rozważane by ly dwie wartości graniczne: 1% oraz 5%. W wyniku tej selekcji powsta ly wi ec dwa podzbiory danych: pierwszy z MAF > 0.01 oraz drugi z MAF > 0.05.

20 Metody 3.1.2 Nierównowaga sprz eżeń Na bazie powsta lych w poprzednim kroku selekcji podzbiorów danych, wybierane by ly bloki powiazanych ze soba markerów SNP. Miara zależności markerów jest nierównowaga sprzeżeń (ang. linkage disequilibrium, LD). Jest ona wyrażana za pomoca trzech wskaźników: D, D oraz r 2. Dla nierównowagi sprzeżeń wyznaczanej dla pary markerów A i B dane sa one wzorami 3.1, 3.2 oraz 3.4. D = frek (A1B1) frek (A2B2) frek (A1B2) frek (A2B1), (3.1) gdzie frek (A1B1) jest czestości a wystepowania allelu recesywnego jednocześnie w markerze A i w markerze B. Pozosta le sk ladowe wzoru 3.1 interpretuje sie analogicznie. gdzie D = D D max, (3.2) D max = { min [frek (A1) frek (B2), frek (1 frek (A2)) (1 frek (B1))] dla D > 0 min [frek (A1) (1 frek (B1)), (1 frek (A2)) frek (B2)] dla D < 0, (3.3) gdzie frek (A1) jest frekwencja allelu recesywnego w markerze A. Pozosta le sk ladowe wzoru 3.3 interpretuje sie analogicznie. r 2 = D 2 frek (A1) frek (A2) frek (B1) frek (B2), (3.4) gdzie sk ladowe wzoru interpretuje si e analogicznie, jak we wzorze 3.3. Do wykonanych analiz wykorzystany zosta l wskaźnik r 2. Jego przedzia l wartości to [0, 1]. Wartość r 2 = 0 oznacza brak zależności pomi edzy markerami, czyli równowag e sprz eżeń (ang. linkage equilibrium, LE). Jeżeli r 2 = 1, to mówi si e o ścis lej zależności pomi edzy markerami, czyli nierównowadze sprz eżeń. Celem tego etapu selekcji danych by lo wyodrebnienie bloków SNP, które sa zależne. Wybrane zosta ly dwie wartości graniczne: r 2 0.8 oraz r 2 0.9. W obrebie każdego chromosomu obliczone zosta ly wskaźniki r 2 dla każdej z par markerów SNP. Markery wykazujace zależność zosta ly po l aczone w bloki. Metoda taka gwarantuje ma l a zależność, lub jej brak, dla markerów SNP znajdujacych sie w różnych blokach. Jest to jej poważna

3.2 Konstrukcja haplotypów SNP oraz estymacja ich frekwencji 21 zaleta, ponieważ haplotypy skonstruowane na bazie wyodrebnionych bloków pe lni ly role zmiennych objaśniajacych w modelach liniowych, a jedna z podstaw poprawności modelu liniowego jest niezależność zmiennych objaśniajacych. Podsumowujac efekty dotychczas opisanych kroków selekcji, powsta ly cztery podzbiory danych, spe lniaj ace nastepuj ace kryteria: MAF > 0.01 oraz r 2 0.8, MAF > 0.01 oraz r 2 0.9, MAF > 0.05 oraz r 2 0.8, MAF > 0.05 oraz r 2 0.9. Przedstawione etapy selekcji zosta ly przeprowadzone z wykorzystaniem programu PLINK (Purcell i wsp., 2007; Purcel, 2010). Ze wzgledu na najwieksz a różnorodność wielkości bloków markerów SNP (tabele 4.4-4.7), do dalszej analizy zosta l wybrany pierwszy z wymienionych podzbiorów, spe lniaj acy kryteria MAF > 0.01 oraz r 2 0.8. 3.2 Konstrukcja haplotypów SNP oraz estymacja ich frekwencji Wyodrebnione bloki powiazanych markerów SNP stanowi ly baze do konstrukcji haplotypów SNP. Ten etap pracy, wraz z estymacja frekwencji haplotypów w populacji, zosta l zrealizowany przy użyciu programu PHASE (Stephens i wsp., 2001). Spośród wszystkich skonstruowanych haplotypów do dalszej analizy wybrane zosta ly te, których estymatory frekwencji przekroczy ly 25%. Tak wyznaczona wartość graniczna jest konsekwencja dwóch czynników. Po pierwsze, znajomość wielkości wp lywu haplotypu o niskiej frekwencji na wartość hodowlana jest ma lo informatywna. Po drugie, przy ograniczonej liczbie obserwacji zmiennej objaśnianej w modelu liniowym, należy dażyć do jak najmniejszej liczby zmiennych objaśniajacych.

22 Metody 3.3 Predykcja wartości hodowlanej na bazie haplotypów SNP Predykcja wartości hodowlanej zosta la przeprowadzona z wykorzystaniem jedenastu modeli statystycznych dla każdej z analizowanych cech, co daje l acznie 110 analiz. 3.3.1 Model ze sta lymi efektami haplotypów SNP Model ze sta lymi efektami haplotypów SNP mia l postać zapisana nastepuj acym wzorem. gdzie: y jest zderegresowana wartościa hodowlana, µ jest średnia wartościa cechy w populacji, y = µ + Xh + ɛ, (3.5) X jest macierza wystapień sta lych efektów haplotypów SNP, h jest wektorem sta lych efektów haplotypów SNP, ɛ jest wektorem b l edów losowych modelu ɛ N (0, σ 2 e), σe 2 jest wariancja b l edu. Model zdefiniowany wzorem 3.5 zosta l zaimplementowany w dwojaki sposób (z różnymi macierzami wystapień sta lych efektów haplotypów). Pierwsza implementacja nastapi la przy użyciu macierzy wystapień X zawierajacej prawdopodobieństwa przekazania przez konkretnego buhaja danego haplotypu (model 1). Druga implementacja obejmowa la wykorzystanie macierzy wystapień X sk ladaj acej sie wy l acznie z jedynek, w przypadku pojawienia sie u konkretnego buhaja danego haplotypu, oraz z zer, w przeciwnym przypadku (model 2). Bezpośrednia wartość hodowlana (ang. direct breeding value, DGV) i-tego osobnika wyznaczana by la w nastepuj acy sposób: DGV i = i X ih i.

3.3 Predykcja wartości hodowlanej na bazie haplotypów SNP 23 3.3.2 Model z losowymi efektami haplotypów SNP Model z losowymi efektami haplotypów SNP mia l postać zapisana nastepuj acym wzorem. i równomiernie roz lożona wariancja genetyczna gdzie: y = µ + Zh + ɛ, (3.6) Z jest macierza wystapień losowych efektów haplotypów SNP, h jest wektorem losowych efektów haplotypów SNP, h N ( 0, σ 2 g/liczba haplotypów ), σg 2 jest wariancja genetyczna cechy. Pozosta le sk ladowe modelu określone by ly jak we wzorze 3.5. Również w tym przypadku, model by l implementowany w dwojaki sposób. Pierwsza implementacja nastapi la z wykorzystaniem macierzy wystapień Z zawierajacej prawdopodobieństwa przekazania przez konkretnego buhaja danego haplotypu (model 3). Druga implementacja obejmowa la użycie macierzy wystapień Z sk ladaj acej sie wy l acznie z jedynek, w przypadku pojawienia sie u konkretnego buhaja danego haplotypu, oraz z zer, w przeciwnym przypadku (model 4). W obydwu tych modelach (model 3 i model 4) wariancja genetyczna jest podzielona po równo na wszystkie haplotypy, bez wzgl edu na ich d lugość. Bezpośrednia wartość hodowlana i-tego osobnika wyznaczana by la w nastepuj acy sposób: DGV i = i Z ih i. 3.3.3 Model z losowymi efektami haplotypów SNP Model z losowymi efektami haplotypów SNP mia l postać zapisana nastepuj acym wzorem. i nierównomiernie roz lożona wariancja genetyczna y = µ + Zh + ɛ, (3.7) gdzie h jest wektorem losowych efektów haplotypów SNP, h N ( ) 0, σg 2. wielkość haplotypu liczba alleli Pozosta le sk ladowe modelu zdefiniowane by ly jak we wzorze 3.6. Na bazie wzoru 3.7,

24 Metody w sposób analogiczny, jak w przypadku modeli danych wzorami 3.5 oraz 3.6, także powsta ly dwa modele: model 5 oraz model 6. W tym uj eciu wariancja genetyczna zosta la podzielona na poszczególne haplotypy zależnie od wielkości haplotypu. Im wi ecej pojedynczych markerów zawiera l w swej strukturze haplotyp, tym wi eksza cz eść wariancji genetycznej by la mu przyporzadkowana. Bezpośrednia wartość hodowlana i-tego osobnika wyznaczana by la w nastepuj acy sposób: DGV i = i Z ih i. 3.3.4 Model ze sta lymi efektami haplotypów SNP oraz losowymi addytywnymi efektami poligenicznymi Model ze sta lymi efektami haplotypów SNP oraz losowymi addytywnymi efektami poligenicznymi mia l nastepuj ac a postać. gdzie: y jest zderegresowana wartościa hodowlana, µ jest średnia wartościa cechy w populacji, y = µ + Xh + Zg + ɛ, (3.8) X jest macierza wystapień sta lych efektów haplotypów SNP, h jest wektorem sta lych efektów haplotypów SNP, Z jest macierza wystapień losowych addytywnych efektów poligenicznych, g jest wektorem losowych addytywnych efektów poligenicznych, g N ( 0, A σ 2 g), A jest macierza spokrewnień buhajów, σg 2 jest wariancja genetyczna cechy, ɛ jest wektorem b l edów losowych modelu ɛ N (0, σ 2 e), σe 2 jest wariancja b l edu.

3.3 Predykcja wartości hodowlanej na bazie haplotypów SNP 25 Model zapisany wzorem 3.8 także by l wykorzystywany w dwóch uj eciach, analogicznych do modeli 3.5, 3.6, 3.7. Pierwsze ujecie uwzglednia lo macierz wystapień efektów sta- lych haplotypów X z prawdopodobieństwami przekazania danego haplotypu przez buhaja (model 7). Drugie ujecie polega lo na zastosowaniu macierzy wystapień X wype lnionej jedynkami w przypadku pojawienia sie danego haplotypu u buhaja i zerami w przeciwnym przypadku (model 8). Bezpośrednia wartość hodowlana i-tego osobnika wyznaczana by la w nastepuj acy sposób: DGV i = i X ih i. Przy użyciu modelu danego wzorem 3.8 przeprowadzono także analiz e, która polega la na estymacji sta lych efektów haplotypów dla każdego chromosomu osobno (Żukowski, 2011). Przeprowadzono 29 analiz (chromosom p lci X nie by l brany pod uwag e) przy za lożeniu, że addytywne efekty poligeniczne sa losowe oraz ich wariancja równa jest 28/29 σg, 2 czyli reprezentuje zmienność pozosta lych 28 chromosomów. Za predyktor wartości hodowlanej j -tego osobnika uznawano sume efektów haplotypów otrzymanych droga estymacji z użyciem wszystkich 29 modeli: DGV i = i j X ijh ij, gdzie i = 1, 2,..., 29. Podejście to zosta lo zrealizowane także z wykorzystaniem macierzy wystapień X z prawdopodobieństwami przekazania haplotypów (model 9) oraz przy użyciu macierzy wysta- pień X zawierajacej jedynki (jeżeli haplotyp wystapi l u buhaja) i zera (jeżeli haplotyp nie wystapi l u buhaja) (model 10). 3.3.5 Model z losowymi addytywnymi efektami poligenicznymi Kolejny analizowany model jest to model osobniczy postaci: y = µ + Zg + ɛ, (3.9) gdzie jego sk ladowe zdefiniowane by ly jak w modelu 3.8. W modelu tym nie wystepuj a efekty haplotypów i by l on wykorzystywany tylko raz dla każdej z analizowanych cech (model 11). Bezpośrednia wartość hodowlana i-tego osobnika wyznaczana by la w nastepuj acy sposób: DGV i = g i.

26 Metody 3.4 Porównanie wykorzystanych modeli predykcji Porównanie metod predykcji uwzgl ednia lo dwa ważne aspekty. Po pierwsze, modele zawierajace w swej strukturze wektory efektów haplotypów zosta ly porównane pod wzgle- dem wielkości tych efektów i umiejscowienia na chromosomach haplotypów o efektach najbardziej znaczacych. Po drugie, modele zosta ly porównane ze wzgledu na dok ladność predykcji wartości hodowlanej. Istotność różnic pomi edzy estymatorami i predyktorami efektów haplotypów zosta la zweryfikowana testem Kruskala-Wallisa przy hipotezie zerowej H 0 :postać zastosowanego modelu predykcji nie wp lywa na rozk lad efektów haplotypów oraz testem Wilcoxona przy hipotezie zerowej H 0 :postać macierzy wystapień w modelu predykcji nie wp lywa na rozk lad efektów haplotypów. Ponadto, wykonano analize korelacji rangowej efektów haplotypów w celu sprawdzenia, czy ranking tych efektów utworzony ze wzgl edu na wielkość ich wp lywu na fenotyp jest porównywalny dla poszczególnych metod predykcji. Wykonano także testy istotności wspó lczynników korelacji rangowej. Dok ladność predykcji wartości hodowlanej zosta la zweryfikowana przy użyciu trzech metod. Weryfikacji poddano testowy oraz walidacyjny zbiór danych. Pierwsza z metod by la korelacja liniowa Pearsona pomiedzy EBV oraz DGV. Pozwoli la ona zbadać, czy istnieje liniowa zależność pomiedzy zmienna EBV a zmienna DGV. Im wartość wspó lczynnika korelacji liniowej bliższa jest 1, tym silniejsza zależność pomiedzy EBV a DGV, a tym samym wyższa dok ladność predykcji. Druga wykorzystana metoda porównawcza by la korelacja rangowa Spearmana, która także bada zależność zmiennych, ale nie musi to być zależność liniowa. Wspó lczynnik korelacji rangowej Spearmana interpretuje si e jako wspó lczynnik korelacji Pearsona rang analizowanych zmiennych. W odniesieniu do weryfikacji dok ladności predykcji wartości hodowlanej jest on zatem sprawdzeniem, czy ranking buhajów powsta ly ze wzgl edu na EBV jest tożsamy z rankingiem powsta lym ze wzgledu na DGV. Ostatnia metoda porównawcza stanowi l wspó lczynnik regresji, który określa si l e i kierunek wp lywu zmiennej objaśniajacej, czyli DGV, na zmienna objaśniana, czyli EBV. Pożadanym by lo, aby wielkość wspó lczynnika by la jak najbliższa wartości 1, ponieważ wówczas wartość DGV jest najbliższa wartości EBV oraz estymator wartości hodowlanej jest najmniej obciażony (Meuwissen i wsp., 2001). Wspó lczynniki korelacji oraz wspó lczynnik regresji zosta ly zweryfikowane pod wzgledem istotności statystycznej przy hipotezie zerowej H 0 : wspó lczynnik korelacji (wspó lczynnik regresji) jest równy zero.

Rozdzia l 4 Wyniki 4.1 Selekcja SNP Najwi eksza liczba markerów by la dost epna na chromosomie pierwszym, a najmniejsza na chromosomie p lci X. Chromosomem autosomalnym o najmniejszej liczbie markerów by l chromosom 28. Rezultaty redukcji liczby markerów z wykorzystaniem kryterium odsetka brakujacych genotypów (GENO), czestości wystepowania rzadszego allelu (MAF) oraz nierównowagi sprzeżeń (r 2 ) zawiera tabela 4.1. Najmniejsza redukcje otrzymano dla pierwszego z zastosowanych kryteriów. Wartość graniczna MAF = 0.05 czyni la to kryterium ostrzejszym, niż w przypadku MAF = 0.01, stad wieksza redukcja danych w pierwszym przypadku. Najbardziej znaczaco na stopień selekcji SNP wp lyn e lo ostatnie z rozważanych kryteriów (LD). Wynika to z wysokich za lożonych wartości granicznych 0.8 oraz 0.9. Jako, że miara nierównowagi sprz eżeń r 2 by la wyznaczana dla każdej pary markerów, to do zbiorów markerów spe lniaj acych kryteria MAF i LD przyporzadkowane zosta ly wszystkie te SNP, które pozostawa ly w nierównowadze sprzeżeń na zadanym poziomie (przynajmniej 0.8 lub przynajmniej 0.9) z przynajmniej jednym markerem z tego zbioru. Rysunek 4.1 ilustruje procentowy udzia l markerów spe lniaj acych kryterium MAF o za- lożonych wartościach granicznych w ca lym zbiorze danych. Widać, że najwieksz a redukcje danych przy obydwu wartościach granicznych osiagni eto dla allosomu. Wśród autosomów najwieksza redukcja liczby markerów nastapi la na chromosomu 13 i 21 przy MAF > 0.01 oraz dla chromosomu 7 i 16 przy MAF > 0.05. Niewielki stopień selekcji zosta l uzyskany dla chromosomu 20 przy MAF > 0.01 oraz dla chromosomu 28 przy MAF > 0.05.

28 Wyniki Tabela 4.1: Redukcja liczby markerów ze wzgl edu na kryterium MAF oraz LD dla poszczególnych chromosomów liczba markerów spe lniajacych kryterium wszystkie GENO<0.1 MAF>0.01 MAF>0.05 MAF>0.01 MAF>0.01 MAF>0.05 MAF>0.05 chromosom markery r 2 0.8 r 2 0.9 r 2 0.8 r 2 0.9 1 3339 3333 2866 2652 642 464 606 433 2 2757 2749 2332 2134 469 316 445 294 3 2563 2555 2223 2026 449 300 425 284 4 2538 2529 2152 1995 424 288 399 266 5 2178 2174 1838 1715 325 238 308 221 6 2530 2526 2196 2036 459 352 434 329 7 2288 2281 1925 1764 414 291 381 268 8 2355 2349 2036 1857 458 330 432 312 9 2034 2028 1756 1605 283 217 257 197 10 2178 2170 1873 1733 338 261 324 249 11 2262 2259 1935 1818 336 245 320 234 12 1676 1668 1418 1321 215 147 207 139 13 1801 1794 1504 1403 275 184 269 180 14 1721 1715 1465 1357 341 228 321 216 15 1688 1681 1453 1366 226 159 216 151 16 1606 1603 1360 1240 316 218 301 209 17 1583 1579 1390 1278 228 159 216 151 18 1349 1347 1157 1091 165 125 158 118 19 1378 1376 1176 1112 177 121 175 119 20 1564 1562 1400 1261 276 171 254 152 21 1417 1414 1183 1099 196 135 182 123 22 1298 1295 1092 1013 176 113 170 111 23 1082 1077 938 881 397 257 119 71 24 1292 1291 1099 1009 491 347 179 131 25 987 986 853 807 96 65 96 65 26 1086 1084 933 857 443 312 141 88 27 975 975 853 791 90 61 90 61 28 942 938 826 773 84 58 78 52 29 1048 1045 903 847 132 91 128 87 30 740 737 574 541 57 31 57 31

4.1 Selekcja SNP 29 Rysunek 4.1: Odsetek markerów spe lniaj acych zadane kryteria MAF dla poszczególnych chromosomów Rysunek 4.2 przedstawia efekty selekcji danych przy użyciu kryteriów MAF i LD w postaci procentowego udzia lu w ca lym zbiorze danych markerów spe lniaj acych te kryteria. Ponownie najwieksza redukcja danych nastapi la dla chromosomu p lciowego. Wśród autosomów najostrzejsza selekcja danych, pod wzgledem wszystkich wartości granicznych, wystapi la w przypadku chromosomu 28. Ogólna tendencja w redukcji liczby markerów by la nastepuj aca: najmniejsza liczba odrzuconych SNP przy MAF > 0.01 i r 2 0.8, nastepnie MAF > 0.05 i r 2 0.8, potem MAF > 0.01 i r 2 0.9 i najwieksza redukcja dla MAF > 0.05 i r 2 0.9. Inaczej by lo w przypadku chromosomów: 23, 24 i 26. Tutaj selekcja przy MAF > 0.05 i r 2 0.8 by la ostrzejsza, niż przy MAF > 0.01 i r 2 0.9. Dla tych samych trzech chromosomów pojawi la si e także duża różnica w stopniu redukcji liczby markerów przy MAF > 0.01 i r 2 0.8 oraz MAF > 0.01 i r 2 0.9, w porównaniu do pozosta lych chromosomów - znacznie wi ecej SNP spe lnia lo zadane kryteria. Dla tych trzech wyjatków silniejszym okaza lo sie być kryterium MAF.

30 Wyniki Rysunek 4.2: Odsetek markerów spe lniajacych zadane kryteria MAF oraz LD dla poszczególnych chromosomów Podstawowe statystyki opisowe wartości MAF przedstawione zosta ly w tabeli 4.2. Średnia wartość MAF w zbiorze markerów z frekwencja rzadszego allelu przekraczajac a 1% waha la sie w granicach od 0.2560 (chromosom 9) do 0.2834 (chromosom 25). Nieco wyższe wartości osiagn e la średnia wartość MAF w podzbiorze markerów z frekwencja rzadszego allelu przekraczajac a 5% - od 0.2731 (chromosom 26) do 0.2999 (chromosom 14). Wartości mediany należa ly do przedzia lu od 0.2455 (chromosom 26) do 0.2998 (chromosom 25) dla zbioru z MAF > 0.01 oraz do przedzia lu od 0.2718 (chromosom 26) do 0.3113 (chromosom 14) dla zbioru z MAF > 0.05. Średnia i mediana kszta ltowa ly si e wi ec na podobnym poziomie, co wskazuje na symetryczność rozk ladu wartości MAF w obydwu podzbiorach. Podniesienie wartości granicznej MAF skutkowa lo także niewielkim obniżeniem wartości odchylenia standardowego, a co za tym idzie, spadkiem wartości wspó lczynnika zmienności.

4.1 Selekcja SNP 31 Tabela 4.2: Średnia arytmetyczna, mediana, odchylenie standardowe oraz wspó lczynnik zmienności wartości MAF dla poszczególnych chromosomów we wskazanych podzbiorach markerów chromosom podzbiór średnia mediana odchylenie wspó lczynnik markerów arytmetyczna standardowe zmienności 1 MAF>0.01 0.2575 0.2556 0.1397 54.25% MAF>0.05 0.2758 0.2761 0.1288 46.68% 2 MAF>0.01 0.2658 0.2671 0.1422 53.51% MAF>0.05 0.2878 0.2905 0.1281 44.52% 3 MAF>0.01 0.2634 0.2677 0.1435 54.49% MAF>0.05 0.2864 0.2907 0.1290 45.03% 4 MAF>0.01 0.2614 0.2635 0.1402 53.63% MAF>0.05 0.2798 0.2829 0.1287 45.99% 5 MAF>0.01 0.2626 0.2714 0.1394 53.07% MAF>0.05 0.2794 0.2857 0.1289 46.12% 6 MAF>0.01 0.2640 0.2677 0.1412 53.48% MAF>0.05 0.2824 0.2822 0.1297 45.95% 7 MAF>0.01 0.2597 0.2599 0.1404 54.04% MAF>0.05 0.2809 0.2822 0.1271 45.24% 8 MAF>0.01 0.2553 0.2579 0.1420 55.63% MAF>0.05 0.2772 0.2796 0.1289 46.48% 9 MAF>0.01 0.2529 0.2560 0.1414 55.93% MAF>0.05 0.2740 0.2743 0.1292 47.16% 10 MAF>0.01 0.2632 0.2673 0.1398 53.13% MAF>0.05 0.2820 0.2844 0.1279 45.37% 11 MAF>0.01 0.2651 0.2660 0.1384 52.21% MAF>0.05 0.2802 0.2812 0.1288 45.97% 12 MAF>0.01 0.2609 0.2656 0.1406 53.91% MAF>0.05 0.2779 0.2804 0.1303 46.88% 13 MAF>0.01 0.2714 0.2767 0.1423 52.42% MAF>0.05 0.2891 0.2922 0.1304 45.11% 14 MAF>0.01 0.2799 0.2955 0.1395 49.84% MAF>0.05 0.2999 0.3113 0.1247 41.56% 15 MAF>0.01 0.2661 0.2659 0.1391 52.25% MAF>0.05 0.2812 0.2791 0.1296 46.08% 16 MAF>0.01 0.2564 0.2577 0.1423 55.52% MAF>0.05 0.2784 0.2802 0.1292 46.40% 17 MAF>0.01 0.2603 0.2613 0.1419 54.53% MAF>0.05 0.2806 0.2841 0.1296 46.20% 18 MAF>0.01 0.2782 0.2909 0.1368 49.20% MAF>0.05 0.2932 0.3047 0.1260 42.97% 19 MAF>0.01 0.2708 0.2766 0.1395 51.50% MAF>0.05 0.2846 0.2884 0.1307 45.91% 20 MAF>0.01 0.2535 0.2503 0.1443 56.94% MAF>0.05 0.2782 0.2757 0.1301 46.74% 21 MAF>0.01 0.2675 0.2738 0.1423 53.21% MAF>0.05 0.2858 0.2888 0.1306 45.68% 22 MAF>0.01 0.2598 0.2629 0.1394 53.66% MAF>0.05 0.2776 0.2770 0.1287 46.35%

32 Wyniki 23 MAF>0.01 0.2692 0.2750 0.1377 51.15% MAF>0.05 0.2847 0.2875 0.1272 44.67% 24 MAF>0.01 0.2619 0.2663 0.1422 54.30% MAF>0.05 0.2825 0.2861 0.1295 45.84% 25 MAF>0.01 0.2834 0.2998 0.1387 48.96% MAF>0.05 0.2978 0.3096 0.1282 43.06% 26 MAF>0.01 0.2532 0.2455 0.1422 56.16% MAF>0.05 0.2731 0.2718 0.1309 47.93% 27 MAF>0.01 0.2643 0.2624 0.1410 53.34% MAF>0.05 0.2826 0.2828 0.1298 45.94% 28 MAF>0.01 0.2700 0.2714 0.1411 52.24% MAF>0.05 0.2867 0.2887 0.1301 45.39% 29 MAF>0.01 0.2722 0.2839 0.1395 51.24% MAF>0.05 0.2883 0.3010 0.1286 44.61% 30 MAF>0.01 0.2666 0.2686 0.1388 52.04% MAF>0.05 0.2812 0.2804 0.1294 46.01% Tabela 4.3 zawiera podstawowe statystyki opisowe miary r 2 w sześciu podzbiorach. Pierwsze dwa podzbiory by ly wynikiem zastosowania kryterium MAF (MAF > 0.01 i MAF > 0.05). Pozosta le podzbiory by ly konsekwencja dzia lania kryteriów MAF i LD. Średnie wartości miary r 2 w podzbiorach z MAF > 0.01 i MAF > 0.05 kszta ltowa ly sie na podobnym poziomie (od wartości 0.0101 dla chromosomu 1 do wartości 0.0284 dla chromosomu 26 w podzbiorze z MAF > 0.01 oraz od wartości 0.0089 dla allosomu i 0.011 dla chromosomu 1 do wartości 0.0209 dla chromosomu 20 w podzbiorze z MAF > 0.05), z wyjatkiem chromosomów: 27, 28, 29 i chromosomu p lci przy MAF > 0.01, gdzie wartość średnia analizowanej miary wynios la oko lo 0.4. Powodem tego faktu by ly markery o niskim poziomie MAF (mniejszym niż 1%), ale znajdujace sie w nierównowadze sprze- żeń, które po zastosowaniu wartości granicznej MAF > 0.01 do redukcji liczby markerów, zosta ly usuni ete z dalszej analizy. Zastosowanie kryterium LD (r 2 0.8 i r 2 0.9), zgodnie z oczekiwaniami, wp lyn e lo na podniesienie si e średniej wartości oraz mediany miary r 2 (powyżej wartości 0.9) oraz na zredukowanie zmienności tej miary (wspó lczynnik zmienności z kilkuset lub kilkudziesi eciu procent spada l do wartości kilku procent). Należy także zwrócić uwag e, iż zmienność miary r 2 przy wartości granicznej 0.8 by la oko lo dwukrotnie wi eksza, niż w przypadku wartości granicznej równej 0.9.

4.1 Selekcja SNP 33 Tabela 4.3: Średnia arytmetyczna, mediana, odchylenie standardowe oraz wspó lczynnik zmienności wartości r 2 dla poszczególnych chromosomów we wskazanych podzbiorach markerów chromosom podzbiór średnia mediana odchylenie wspó lczynnik markerów arytmetyczna standardowe zmienności 1 MAF>0.01 0.0101 0.0024 0.0298 295.52% MAF>0.05 0.0110 0.0027 0.0315 285.56% MAF>0.01, r 2 0.8 0.9336 0.9505 0.0654 7.01% MAF>0.01, r 2 0.9 0.9735 0.9878 0.0294 3.02% MAF>0.05, r 2 0.8 0.9327 0.9490 0.0657 7.04% MAF>0.05, r 2 0.9 0.9733 0.9877 0.0294 3.02% 2 MAF>0.01 0.0109 0.0024 0.0317 291.43% MAF>0.05 0.0122 0.0027 0.0340 279.05% MAF>0.01, r 2 0.8 0.9289 0.9453 0.0666 7.17% MAF>0.01, r 2 0.9 0.9730 0.9852 0.0290 2.98% MAF>0.05, r 2 0.8 0.9269 0.9441 0.0670 7.23% MAF>0.05, r 2 0.9 0.9727 0.9849 0.0288 2.96% 3 MAF>0.01 0.0104 0.0023 0.0311 299.96% MAF>0.05 0.0117 0.0026 0.0334 286.54% MAF>0.01, r 2 0.8 0.9276 0.9361 0.0661 7.13% MAF>0.01, r 2 0.9 0.9746 0.9881 0.0295 3.03% MAF>0.05, r 2 0.8 0.9286 0.9410 0.0663 7.14% MAF>0.05, r 2 0.9 0.9745 0.9881 0.0295 3.02% 4 MAF>0.01 0.0105 0.0024 0.0304 289.08% MAF>0.05 0.0115 0.0028 0.0321 278.49% MAF>0.01, r 2 0.8 0.9230 0.9290 0.0662 7.17% MAF>0.01, r 2 0.9 0.9685 0.9826 0.0328 3.38% MAF>0.05, r 2 0.8 0.9220 0.9283 0.0663 7.19% MAF>0.05, r 2 0.9 0.9683 0.9824 0.0327 3.38% 5 MAF>0.01 0.0105 0.0024 0.0312 297.27% MAF>0.05 0.0114 0.0027 0.0329 288.39% MAF>0.01, r 2 0.8 0.9413 0.9650 0.0627 6.66% MAF>0.01, r 2 0.9 0.9734 0.9844 0.0311 3.20% MAF>0.05, r 2 0.8 0.9399 0.9648 0.0634 6.74% MAF>0.05, r 2 0.9 0.9733 0.9844 0.0313 3.22% 6 MAF>0.01 0.0104 0.0023 0.0311 299.74% MAF>0.05 0.0113 0.0026 0.0329 290.07% MAF>0.01, r 2 0.8 0.9369 0.9573 0.0632 6.75% MAF>0.01, r 2 0.9 0.9702 0.9754 0.0296 3.05% MAF>0.05, r 2 0.8 0.9355 0.9546 0.0633 6.77% MAF>0.05, r 2 0.9 0.9695 0.9740 0.0298 3.07% 7 MAF>0.01 0.0118 0.0023 0.0356 302.43% MAF>0.05 0.0132 0.0027 0.0380 287.30% MAF>0.01, r 2 0.8 0.9302 0.9481 0.0641 6.89% MAF>0.01, r 2 0.9 0.9690 0.9767 0.0317 3.27% MAF>0.05, r 2 0.8 0.9307 0.9485 0.0641 6.88% MAF>0.05, r 2 0.9 0.9693 0.9781 0.0316 3.26%

34 Wyniki 8 MAF>0.01 0.0125 0.0028 0.0349 279.03% MAF>0.05 0.0141 0.0033 0.0374 264.65% MAF>0.01, r 2 0.8 0.9265 0.9388 0.0631 6.81% MAF>0.01, r 2 0.9 0.9668 0.9783 0.0318 3.29% MAF>0.05, r 2 0.8 0.9255 0.9376 0.0632 6.83% MAF>0.05, r 2 0.9 0.9662 0.9772 0.0318 3.30% 9 MAF>0.01 0.0133 0.0031 0.0344 258.93% MAF>0.05 0.0148 0.0036 0.0366 246.48% MAF>0.01, r 2 0.8 0.9300 0.9455 0.0661 7.11% MAF>0.01, r 2 0.9 0.9710 0.9870 0.0316 3.25% MAF>0.05, r 2 0.8 0.9301 0.9443 0.0653 7.02% MAF>0.05, r 2 0.9 0.9706 0.9867 0.0313 3.23% 10 MAF>0.01 0.0128 0.0027 0.0365 284.16% MAF>0.05 0.0142 0.0031 0.0388 272.94% MAF>0.01, r 2 0.8 0.9321 0.9481 0.0663 7.11% MAF>0.01, r 2 0.9 0.9734 0.9867 0.0307 3.16% MAF>0.05, r 2 0.8 0.9311 0.9464 0.0663 7.12% MAF>0.05, r 2 0.9 0.9730 0.9865 0.0310 3.18% 11 MAF>0.01 0.0112 0.0028 0.0304 271.49% MAF>0.05 0.0120 0.0031 0.0317 263.43% MAF>0.01, r 2 0.8 0.9350 0.9543 0.0657 7.03% MAF>0.01, r 2 0.9 0.9731 0.9863 0.0293 3.01% MAF>0.05, r 2 0.8 0.9344 0.9525 0.0657 7.03% MAF>0.05, r 2 0.9 0.9725 0.9861 0.0295 3.04% 12 MAF>0.01 0.0109 0.0028 0.0300 275.09% MAF>0.05 0.0118 0.0031 0.0315 267.60% MAF>0.01, r 2 0.8 0.9322 0.9574 0.0652 7.00% MAF>0.01, r 2 0.9 0.9760 0.9849 0.0273 2.79% MAF>0.05, r 2 0.8 0.9304 0.9544 0.0652 7.01% MAF>0.05, r 2 0.9 0.9751 0.9839 0.0275 2.82% 13 MAF>0.01 0.0141 0.0030 0.0397 282.13% MAF>0.05 0.0155 0.0034 0.0421 270.83% MAF>0.01, r 2 0.8 0.9225 0.9333 0.0650 7.05% MAF>0.01, r 2 0.9 0.9638 0.9709 0.0328 3.40% MAF>0.05, r 2 0.8 0.9225 0.9326 0.0648 7.02% MAF>0.05, r 2 0.9 0.9636 0.9709 0.0328 3.41% 14 MAF>0.01 0.0150 0.0031 0.0422 280.84% MAF>0.05 0.0167 0.0035 0.0449 268.19% MAF>0.01, r 2 0.8 0.9172 0.9250 0.0658 7.17% MAF>0.01, r 2 0.9 0.9661 0.9794 0.0324 3.36% MAF>0.05, r 2 0.8 0.9176 0.9250 0.0656 7.15% MAF>0.05, r 2 0.9 0.9659 0.9798 0.0329 3.40% 15 MAF>0.01 0.0122 0.0032 0.0315 257.34% MAF>0.05 0.0131 0.0035 0.0328 250.27% MAF>0.01, r 2 0.8 0.9379 0.9648 0.0655 6.99% MAF>0.01, r 2 0.9 0.9764 0.9889 0.0276 2.82% MAF>0.05, r 2 0.8 0.9376 0.9650 0.0660 7.04% MAF>0.05, r 2 0.9 0.9768 0.9889 0.0274 2.81%

4.1 Selekcja SNP 35 16 MAF>0.01 0.0163 0.0032 0.0441 270.65% MAF>0.05 0.0187 0.0040 0.0475 254.39% MAF>0.01, r 2 0.8 0.9265 0.9491 0.0680 7.34% MAF>0.01, r 2 0.9 0.9734 0.9809 0.0277 2.84% MAF>0.05, r 2 0.8 0.9257 0.9467 0.0682 7.36% MAF>0.05, r 2 0.9 0.9728 0.9808 0.0279 2.87% 17 MAF>0.01 0.0123 0.0027 0.0350 283.95% MAF>0.05 0.0137 0.0030 0.0373 271.83% MAF>0.01, r 2 0.8 0.9209 0.9349 0.0686 7.45% MAF>0.01, r 2 0.9 0.9699 0.9813 0.0303 3.12% MAF>0.05, r 2 0.8 0.9194 0.9344 0.0685 7.45% MAF>0.05, r 2 0.9 0.9686 0.9777 0.0303 3.13% 18 MAF>0.01 0.0120 0.0032 0.0315 262.42% MAF>0.05 0.0128 0.0035 0.0328 256.31% MAF>0.01, r 2 0.8 0.9365 0.9672 0.0690 7.37% MAF>0.01, r 2 0.9 0.9774 0.9932 0.0287 2.94% MAF>0.05, r 2 0.8 0.9357 0.9690 0.0701 7.49% MAF>0.05, r 2 0.9 0.9779 0.9946 0.0289 2.95% 19 MAF>0.01 0.0128 0.0030 0.0348 271.22% MAF>0.05 0.0138 0.0033 0.0363 263.94% MAF>0.01, r 2 0.8 0.9393 0.9664 0.0647 6.89% MAF>0.01, r 2 0.9 0.9753 0.9895 0.0288 2.95% MAF>0.05, r 2 0.8 0.9392 0.9674 0.0650 6.92% MAF>0.05, r 2 0.9 0.9756 0.9897 0.0288 2.95% 20 MAF>0.01 0.0179 0.0037 0.0466 259.76% MAF>0.05 0.0209 0.0048 0.0506 241.70% MAF>0.01, r 2 0.8 0.9126 0.9053 0.0661 7.24% MAF>0.01, r 2 0.9 0.9676 0.9813 0.0323 3.33% MAF>0.05, r 2 0.8 0.9100 0.9028 0.0660 7.25% MAF>0.05, r 2 0.9 0.9671 0.9799 0.0327 3.38% 21 MAF>0.01 0.0141 0.0035 0.0366 258.62% MAF>0.05 0.0156 0.0040 0.0385 247.25% MAF>0.01, r 2 0.8 0.9358 0.9668 0.0640 6.84% MAF>0.01, r 2 0.9 0.9771 0.9896 0.0283 2.89% MAF>0.05, r 2 0.8 0.9343 0.9646 0.0645 6.90% MAF>0.05, r 2 0.9 0.9769 0.9897 0.0285 2.92% 22 MAF>0.01 0.0134 0.0033 0.0361 268.28% MAF>0.05 0.0147 0.0037 0.0380 259.07% MAF>0.01, r 2 0.8 0.9191 0.9378 0.0668 7.27% MAF>0.01, r 2 0.9 0.9714 0.9798 0.0280 2.88% MAF>0.05, r 2 0.8 0.9204 0.9396 0.0656 7.13% MAF>0.05, r 2 0.9 0.9709 0.9791 0.0279 2.88% 23 MAF>0.01 0.0279 0.0041 0.0751 269.70% MAF>0.05 0.0183 0.0045 0.0436 238.00% MAF>0.01, r 2 0.8 0.9101 0.9096 0.0726 7.97% MAF>0.01, r 2 0.9 0.9722 0.9880 0.0329 3.39% MAF>0.05, r 2 0.8 0.9046 0.8983 0.0636 7.03% MAF>0.05, r 2 0.9 0.9599 0.9603 0.0341 3.55%

36 Wyniki 24 MAF>0.01 0.0228 0.0033 0.0663 290.22% MAF>0.05 0.0157 0.0038 0.0396 253.03% MAF>0.01, r 2 0.8 0.9196 0.9212 0.0681 7.41% MAF>0.01, r 2 0.9 0.9700 0.9923 0.0351 3.62% MAF>0.05, r 2 0.8 0.9259 0.9235 0.0638 6.89% MAF>0.05, r 2 0.9 0.9627 0.9803 0.0361 3.75% 25 MAF>0.01 0.0144 0.0038 0.0361 249.77% MAF>0.05 0.0154 0.0041 0.0376 244.03% MAF>0.01, r 2 0.8 0.9264 0.9452 0.0674 7.27% MAF>0.01, r 2 0.9 0.9654 0.9720 0.0350 3.63% MAF>0.05, r 2 0.8 0.9264 0.9452 0.0674 7.27% MAF>0.05, r 2 0.9 0.9654 0.9720 0.0350 3.63% 26 MAF>0.01 0.0284 0.0037 0.0789 278.34% MAF>0.05 0.0203 0.0055 0.0464 228.49% MAF>0.01, r 2 0.8 0.9102 0.9022 0.0683 7.50% MAF>0.01, r 2 0.9 0.9699 0.9822 0.0332 3.43% MAF>0.05, r 2 0.8 0.9143 0.9264 0.0691 7.55% MAF>0.05, r 2 0.9 0.9693 0.9773 0.0281 2.90% 27 MAF>0.01 0.3848 0.3000 0.2037 52.95% MAF>0.05 0.0140 0.0040 0.0335 238.81% MAF>0.01, r 2 0.8 0.9226 0.9376 0.0689 7.47% MAF>0.01, r 2 0.9 0.9751 0.9860 0.0289 2.97% MAF>0.05, r 2 0.8 0.9226 0.9376 0.0689 7.47% MAF>0.05, r 2 0.9 0.9751 0.9860 0.0289 2.97% 28 MAF>0.01 0.3718 0.3013 0.1892 50.89% MAF>0.05 0.0170 0.0048 0.0387 227.57% MAF>0.01, r 2 0.8 0.9277 0.9398 0.0664 7.16% MAF>0.01, r 2 0.9 0.9678 0.9682 0.0319 3.30% MAF>0.05, r 2 0.8 0.9242 0.9381 0.0668 7.23% MAF>0.05, r 2 0.9 0.9666 0.9680 0.0319 3.30% 29 MAF>0.01 0.3853 0.3065 0.2052 53.25% MAF>0.05 0.0168 0.0045 0.0402 238.98% MAF>0.01, r 2 0.8 0.9296 0.9426 0.0621 6.68% MAF>0.01, r 2 0.9 0.9704 0.9770 0.0292 3.01% MAF>0.05, r 2 0.8 0.9283 0.9425 0.0623 6.71% MAF>0.05, r 2 0.9 0.9700 0.9770 0.0295 3.04% 30 MAF>0.01 0.4413 0.3653 0.2314 52.43% MAF>0.05 0.0089 0.0021 0.0300 337.73% MAF>0.01, r 2 0.8 0.9232 0.9205 0.0664 7.19% MAF>0.01, r 2 0.9 0.9712 0.9788 0.0301 3.10% MAF>0.05, r 2 0.8 0.9232 0.9205 0.0664 7.19% MAF>0.05, r 2 0.9 0.9712 0.9788 0.0301 3.10%

4.2 Wyodr ebnienie bloków SNP 37 4.2 Wyodr ebnienie bloków SNP W obr ebie każdego chromosomu obliczone zosta ly wskaźniki r 2 dla każdej z par markerów SNP. Markery wykazujace zależność (r 2 0.8 albo r 2 0.9) zosta ly po l aczone w bloki. Wyróżnione zosta ly dwa rodzaje bloków: pe lne i niepe lne. Za blok pe lny uznany zosta l taki, w którym wszystkie pary markerów by ly ze soba powiazane przynajmniej na zadanym poziomie. Blok niepe lny by l to taki, w którym marker by l powiazany przynajmniej na zadanym poziomie z co najmniej jednym markerem należacym do tego samego bloku. Przyk lad bloku pe lnego przedstawiony zosta l na rysunku 4.3, wykonanym w programie HaploView (Barrett i wsp., 2005). Kolor czerwony oznacza na nim silne powiazanie pomiedzy markerami. Naniesione na rysunku liczby sa wartościami miary r 2 pomnożonymi przez sto. Brak liczby w komórce oznacza doskona l a nierównowage sprzeżeń (r 2 = 1). Wartości miary r 2 pomiedzy konkretnymi markerami odczytuje sie w komórce znajdujacej sie na przecieciu linii prowadzonych od numerów tych markerów do wierzcho lka trójkata utworzonego przez komórki. Rysunek dotyczy bloku sześciu markerów zlokalizowanych na chromosomie 14. Rysunek 4.3: Przyk lad pe lnego bloku SNP (chromosom 14)

38 Wyniki Rysunek 4.4: Przyk lad niepe lnego bloku SNP (chromosom 14) Na rysunku 4.4 pokazany zosta l przyk lad bloku niepe lnego, z lożonego z dziesi eciu markerów zlokalizowanych także na chromosomie 14. Kolor czerwony oznacza silne powiazanie pomiedzy markerami. Im kolor bliższy żó ltemu, tym mniejsza wartość miary r 2 (najmniejsza wartość pomiedzy markerami 2 i 5 równa 0.7). Widoczne sa mocno i s labiej powiazane grupy markerów. Miara r 2 dla markerów 1, 2, 3 i 4 przekracza poziom 0.8, ale marker 5 z markerami 1, 2 i 3 nie jest już tak silnie zwiazany. Jest on natomiast zależny od markera 4, który już jest w zależności z pierwszymi trzema markerami. Analogicznie powsta l ca ly przedstawiony na rysunku niepe lny blok. Tabela 4.4 przedstawia ilość bloków SNP wed lug ich wielkości (liczby sk ladaj acych sie na nie SNP) w każdym z analizowanych podzbiorów danych. Najwiecej, bo 3718 bloków SNP powsta lo dla podzbioru markerów spe lniaj acych kryteria MAF > 0.01 i r 2 0.8. Najmniej liczna grupa bloków SNP (2387 bloków) powsta la dla podzbioru markerów

4.2 Wyodr ebnienie bloków SNP 39 spe lniaj acych kryteria MAF > 0.05 i r 2 0.9. Kryterium LD okaza lo sie być silniejszym pod wzgledem wp lywu na liczbe bloków, ponieważ zaostrzenie go wp lywa lo na spadek tej liczby wyraźniej, niż zaostrzenie kryterium MAF. Najliczniejsza grupa bloków we wszystkich podzbiorach by ly bloki z lożone z dwóch markerów. Bloki SNP zawierajace od 2 do 9 markerów pojawi ly sie w każdym z podzbiorów danych. Najwiekszy powsta ly blok sk lada l sie z 43 markerów i pojawi l sie w podzbiorze zawierajacym SNP spe lniaj ace kryteria MAF > 0.01 i r 2 0.8. Podzbiór ten by l także unikatowy pod wzgledem pojawienia sie w nim bloku o wielkości 13, 15, 16, 17, 28 i 36 markerów. Blok o wielkości 21 SNP pojawi l si e w obydwu podzbiorach z MAF > 0.01, przy czym w zbiorze z r 2 0.9 by l to blok najwi ekszy. Podzbiór z MAF > 0.05 i r 2 0.8 maksimum wielkości bloku SNP osiagn a l w liczbie 11, a podzbiór z MAF > 0.05 i r 2 0.9 - w liczbie 9. Otrzymany rozk lad wielkości bloków SNP by l konsekwencja selekcji liczby markerów za pomoca przyjetych kryteriów oraz redukcja liczby powiazań pomiedzy markerami wraz ze wzrostem wartości granicznej miary LD. Tabela 4.4: Ilość bloków SNP wed lug zawartej w nich liczby markerów we wskazanych podzbiorach markerów liczba markerów podzbiór danych w bloku MAF>0.01, r 2 0.8 MAF>0.01, r 2 0.9 MAF>0.05, r 2 0.8 MAF>0.05, r 2 0.9 2 2861 2235 2627 1986 3 596 387 506 305 4 130 67 111 55 5 64 31 43 23 6 25 15 18 11 7 10 6 6 3 8 12 5 6 3 9 4 3 2 1 10 3 2 3-11 4-1 - 13 2 - - - 15 1 - - - 16 1 - - - 17 1 - - - 21 1 1 - - 28 1 - - - 36 1 - - - 43 1 - - - SUMA 3718 2752 3323 2387

40 Wyniki Tabele 4.5, 4.6, 4.7 oraz 4.8 zawieraja liczby bloków wed lug ich wielkości dla poszczególnych chromosomów w podzbiorach, odpowiednio: MAF > 0.01 i r 2 0.8, MAF > 0.01 i r 2 0.9, MAF > 0.05 i r 2 0.8 oraz MAF > 0.05 i r 2 0.9. W pierwszym z rozpatrywanych podzbiorów najwi ecej bloków SNP zosta lo wyodr ebnionych dla chromosomu 1 (272, w tym 11 bloków niepe lnych), a najmniej dla allosomu (25, w tym 2 niepe lne) oraz dla chromosomu 28 (40, w tym 2 niepe lne). Dla wszystkich chromosomów najliczniejsza grupa bloków stanowi ly te o wielkości 2 SNP. Druga co do liczebności grupa by ly bloki zawierajace 3 markery. Najwieksze bloki, zawierajace 13, 15, 16, 17, 21, 28, 36 i 43 SNP, pojawi ly sie na chromosomach 23, 24 i 26. Na tych samych trzech chromosomach odnotowano najwi ecej bloków niepe lnych (odpowiednio: 41, 38 i 32). W podzbiorze z markerami spe lniaj acymi kryteria MAF > 0.01 i r 2 0.9 najwiecej bloków SNP zlokalizowano także na chromosomie 1 (202, w tym 2 niepe lne). Dla chromosomu p lci i dla chromosomu 28 odnotowano najmniejsze liczby bloków (odpowiednio 13, w tym 1 niepe lny oraz 28, w tym 1 niepe lny). Tutaj także najwi eksze bloki SNP i najwi ecej bloków niepe lnych pojawi lo si e na chromosomach 23, 24 i 26. W podzbiorze markerów spe lniaj acych kryteria MAF > 0.05 i r 2 0.8 również najwie- cej bloków SNP pojawi lo sie na chromosomie 1 (255, w tym 11 niepe lnych), a najmniej dla allosomu (25, w tym 2 niepe lne) oraz dla chromosomu 28 (37, w tym 2 niepe lne). Chromosom 1 charakteryzowa l sie najwieksz a liczba bloków niepe lnych. Podzbiór ten, w stosunku do dwóch poprzednich, charakteryzowa l sie mniejszymi blokami SNP. Najwiekszy blok, zawierajacy 11 markerów, zlokalizowany by l na chromosomie 13. Markery spe lniaj ace kryteria MAF > 0.05 i r 2 0.9 tworzy ly podzbiór, w którym najwiecej bloków SNP zlokalizowanych by lo także na chromosomie 1 (188, w tym 2 niepe lne), a najmniej na chromosomie p lci (13, w tym 1 niepe lny) oraz na chromosomie 28 (25, w tym 1 niepe lny). Najwi ecej bloków niepe lnych (w liczbie 5) pojawi lo si e na chromosomach 4, 9 i 14. Najwi ekszym blokiem w tym podzbiorze by l blok z lożony z 9 SNP. Znalaz l si e on chromosomie 13. We wszystkich czterech analizowanych podzbiorach widać wyraźnie, że wzrost wartości granicznej miary MAF z poziomu 0.01 do poziomu 0.05 skutkowa l zmniejszeniem si e wielkości bloków w przypadku chromosomów 23, 24 i 26, co potwierdza wniosek nasuwajacy si e po analizie rysunku 4.2.

Tabela 4.5: Liczba bloków markerów z MAF > 0.01 oraz r 2 0.8 wed lug ich wielkości dla poszczególnych chromosomów wielkość chromosom bloku 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 wszystkie 272 (11) 1 204 (10) 192 (11) 179 (11) 138 (9) 194 (9) 178 (9) 197 (10) 122 (3) 146 (6) 149 (7) 93 (5) 114 (7) 143 (10) 104 (2) 2-SNP 207 160 143 144 106 150 138 150 95 115 119 72 87 111 89 3-SNP 45 (4) 35 (5) 39 (6) 21 (4) 23 (7) 26 (5) 30 (6) 33 (5) 22 (1) 20 (3) 26 (6) 15 (2) 21 (3) 21 (4) 13 (2) 4-SNP 11 (3) 4 (1) 5 (3) 8 (3) 4 (1) 13 (3) 6 (1) 11 (4) 3 (1) 7 (1) 1 5 (2) 3 (1) 6 (3) 1 5-SNP 6 (3) 2 (2) 4 (2) 2 4 (1) 3 2 (1) 3 (1) - 4 (2) 2 (1) - - 2 (1) 1 6-SNP 2 3 (2) 1 1-1 (1) - - 1-1 1 (1) - 2 (1) - 7-SNP 1 - - 1 (1) - - 2 (1) - - - - - 1 (1) - - 8-SNP - - - 1 (1) 1 1 - - - - - - 1 (1) - - 9-SNP - - - - - - - - 1 (1) - - - - - - 10-SNP - - - 1 (1) - - - - - - - - - 1 (1) - 11-SNP - - - - - - - - - - - - 1 (1) - - wielkość chromosom bloku 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 wszystkie 133 (8) 101 (7) 73 (3) 83 (1) 121 (7) 88 (1) 81 (1) 122 (41) 158 (38) 44 (2) 122 (32) 42 40 (2) 60 (2) 25 (2) 2-SNP 102 82 57 74 102 77 69 68 95 37 70 37 37 50 18 3-SNP 24 (5) 15 (5) 14 (2) 8 (1) 13 (3) 5 11 27 (16) 36 (14) 6 (2) 26 (11) 4 2 (2) 8 (1) 7 (2) 4-SNP 2 (1) 2 (1) 1 (1) - 3 (2) 4-9 (8) 7 (5) 1 9 (6) 1 1 2 (1) - 5-SNP 2 (1) 1 1 1 1 1 (1) 1 (1) 6 (5) 11 (10) - 4 (3) - - - - 6-SNP 1 (1) 1 (1) - - 1 (1) 1-3 (3) 2 (2) - 3 (3) - - - - 7-SNP - - - - - - - 3 (3) 2 (2) - - - - - - 8-SNP 2 - - - - - - 2 (2) - - 4 (3) - - - - 9-SNP - - - - - - - 1 (1) 1 (1) - 1 (1) - - - - 10-SNP - - - - 1 (1) - - - - - - - - - - 11-SNP - - - - - - - 2 (2) 1 (1) - - - - - - 13-SNP - - - - - - - - 1 (1) - 1 (1) - - - - 15-SNP - - - - - - - - 1 (1) - - - - - - 16-SNP - - - - - - - - - - 1 (1) - - - - 17-SNP - - - - - - - - - - 1 (1) - - - - 21-SNP - - - - - - - - - - 1 (1) - - - - 28-SNP - - - - - - - 1(1) - - - - - - - 36-SNP - - - - - - - - 1 (1) - - - - - - 43-SNP - - - - - - - - - - 1 (1) - - - - 1 W nawiasach zawarta zosta la liczba bloków niepe lnych. 4.2 Wyodr ebnienie bloków SNP 41

Tabela 4.6: Liczba bloków markerów z MAF > 0.01 oraz r 2 0.9 wed lug ich wielkości dla poszczególnych chromosomów wielkość chromosom bloku 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 wszystkie 202 (2) 142 (2) 135 (5) 123 (5) 103 (2) 152 (2) 129 (4) 150 (2) 96 (5) 119 (4) 111 (1) 66 (2) 78 (3) 101 (5) 73 (2) 2-SNP 162 119 112 99 83 120 104 127 78 100 94 54 61 85 62 3-SNP 30 (1) 18 20 (4) 13 21 26 (5) 21 (1) 18 14 (4) 16 (2) 13 10 (1) 13 (2) 12 (2) 10 (2) 4-SNP 6 3-6 (2) 1 9 (1) 2 (2) 3 (1) 2 2 (2) 2 1 (1) 2 1 (1) - 5-SNP 2-2 (1) 3 (2) 3 (1) 1 1 (1) 1-1 2 (1) 1-1 (1) 1 6-SNP - 2 (2) 1 2 (1) - - - - 1 (1) - - - 1 2 (1) - 7-SNP 1 (1) - - - - - 1 - - - - - - 1 (1) - 8-SNP - - - - 1 1 (1) - - - - - - - - - 9-SNP - - - - - - - - - - - - 1 (1) - - wielkość chromosom bloku 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 wszystkie 97 (1) 75 (1) 57 (3) 56 81 (2) 60 (2) 54 (2) 95 (22) 136 (20) 30 109 (22) 30 28 (1) 43 (1) 13 (1) 2-SNP 82 67 47 49 72 52 49 57 98 26 73 29 27 39 8 3-SNP 12 (1) 7 9 (3) 6 9 (2) 3 (1) 5 (2) 27 (15) 23 (8) 3 19 (6) 1-3 (1) 5 (1) 4-SNP 1 1 (1) 1 - - 4-4 (2) 6 (4) 1 7 (6) - 1 1-5-SNP - - - 1 - - - 3 (1) 4 (3) - 4 (4) - - - - 6-SNP 1 - - - - 1 (1) - 1 (1) 2 (2) - 1 (1) - - - - 7-SNP - - - - - - - 1 (1) 1 (1) - 1 (1) - - - - 8-SNP 1 - - - - - - 1 (1) - - 1 (1) - - - - 9-SNP - - - - - - - - 1 (1) - 1 (1) - - - - 10-SNP - - - - - - - 1 (1) - - 1 (1) - - - - 21-SNP - - - - - - - - - - 1 (1) - - - - 42 Wyniki

Tabela 4.7: Liczba bloków markerów z MAF > 0.05 oraz r 2 0.8 wed lug ich wielkości dla poszczególnych chromosomów wielkość chromosom bloku 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 wszystkie 255 (11) 192 (9) 183 (10) 167 (9) 129 (10) 182 (9) 163 (8) 186 (10) 111 (3) 139 (6) 142 (6) 89 (5) 111 (7) 134 (9) 99 (2) 2-SNP 192 151 138 133 96 139 126 142 88 108 114 68 84 104 84 3-SNP 43 (4) 32 (5) 36 (6) 20 (3) 24 (8) 25 (5) 27 (5) 30 (5) 18 (1) 20 (3) 24 (5) 15 (2) 21 (3) 19 (3) 13 (2) 4-SNP 11 (3) 4 (1) 5 (3) 8 (3) 4 (1) 13 (3) 6 (1) 12 (5) 3 (1) 7 (1) 1 5 (2) 3 (1) 6 (3) 1 5-SNP 6 (3) 2 (2) 3 (1) 2 4 (1) 3 2 (1) 2-4 (2) 2 (1) - - 2 (1) 1 6-SNP 2 (1) 2 1 1-1 (1) - - 1-1 1 (1) - 2 (1) - 7-SNP 1 - - 1 (1) - - 2 (1) - - - - - 1 (1) - - 8-SNP - - - 1 (1) 1 1 - - - - - - 1 (1) - - 9-SNP - 1 (1) - - - - - - 1 (1) - - - - - - 10-SNP - - - 1 (1) - - - - - - - - - 1 (1) - 11-SNP - - - - - - - - - - - - 1 (1) - - wielkość chromosom bloku 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 wszystkie 126 (8) 95 (7) 70 (3) 82 (1) 111 (7) 81 (1) 78 (1) 49 (7) 81 (4) 44 (2) 62 (2) 42 37 (2) 58 (2) 25 (2) 2-SNP 96 76 55 73 94 70 66 38 67 37 51 37 34 48 18 3-SNP 23 (5) 15 (4) 13 (2) 8 (1) 11 (3) 5 11 6 (2) 12 (2) 6 (2) 8 4 2 (2) 8 (1) 7 (2) 4-SNP 2 (1) 2 (1) 1 (1) - 3 (2) 4-2 (2) 1 (1) 1 2 (1) 1 1 2 (1) - 5-SNP 2 (1) 1 (1) 1 1 1 1 (1) 1 (1) 1 (1) 1 (1) - - - - - - 6-SNP 1 (1) 1 (1) - - 1 (1) 1-2 (2) - - - - - - - 7-SNP - - - - - - - - - - 1 (1) - - - - 8-SNP 2 - - - - - - - - - - - - - - 10-SNP - - - - 1 (1) - - - - - - - - - - 4.2 Wyodr ebnienie bloków SNP 43

Tabela 4.8: Liczba bloków markerów z MAF > 0.05 oraz r 2 0.9 wed lug ich wielkości dla poszczególnych chromosomów wielkość chromosom bloku 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 wszystkie 188 (2) 132 (1) 128 (4) 112 (5) 95 (2) 141 (2) 118 (4) 142 (2) 87 (5) 113 (4) 106 (1) 62 (2) 76 (3) 95 (5) 69 (2) 2-SNP 148 111 107 88 76 110 94 121 71 94 90 50 59 79 58 3-SNP 30 (1) 16 18 (3) 13 14 (1) 20 20 (1) 16 12 (4) 16 (2) 12 10 (1) 13 (2) 12 (2) 10 (2) 4-SNP 6 3-6 (2) 1 9 (1) 2 (2) 3 (1) 2 2 (2) 2 1 (1) 2 1 (1) - 5-SNP 2-2 (1) 3 (2) 3 (1) 1 1 (1) 2 (1) 1 1 2 (1) 1-1 (1) 1 6-SNP 1 (1) 2 (1) 1 2 (1) - - - - 1 (1) - - - 1 1-7-SNP 1 - - - - - 1 - - - - - - 1 (1) - 8-SNP - - - - 1 1 (1) - - - - - - - - - 9-SNP - - - - - - - - - - - - 1 (1) - - wielkość chromosom bloku 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 wszystkie 93 (1) 71 (1) 54 (2) 55 72 (2) 54 (1) 53 (2) 31 (3) 61 (2) 30 40 (2) 30 25 (1) 41 (1) 13 (1) 2-SNP 79 63 45 48 64 46 48 27 53 26 33 29 24 37 8 3-SNP 11 (1) 7 8 (2) 6 8 (2) 3 5 (2) - 7 (1) 3 6 (2) 1-3 (1) 5 (1) 4-SNP 1 1 (1) 1 - - 4-3 (2) 1 (1) 1 1-1 (1) 1-5-SNP - - - 1 - - - 1 (1) - - - - - - - 6-SNP 1 - - - - 1 (1) - - - - - - - - - 8-SNP 1 - - - - - - - - - - - - - - 44 Wyniki

4.2 Wyodr ebnienie bloków SNP 45 Rysunek 4.5: Odsetek bloków niepe lnych dla poszczególnych chromosomów oraz podzbiorów danych Rysunek 4.5 przedstawia procentowy udzia l bloków niepe lnych we wszystkich analizowanych blokach SNP dla poszczególnych chromosomów oraz podzbiorów danych. Widać tu różne tendencje w pojawianiu si e bloków niepe lnych. Dla chromosomów 1, 2, 3, 4, 5, 6, 7, 8, 10, 11, 12, 13, 14, 16, 17, 19, 20, 25, 28, 29 i allosomu liczba bloków niepe lnych wieksza by la w przypadku podzbiorów z markerami spe lniaj acymi kryterium r 2 0.8, bez wzgledu na poziom miary MAF. Dla chromosomu 1, 2, 5, 6, 8, 11, 16, 17 i 20 różnice te by ly szczególnie wyraźne, a dla chromosomu 19 i 25 liczba bloków niepe lnych przy r 2 0.9 spad la do zera. Odwrotna zależność zaistnia la dla chromosomu 9, 15, 21 i 22. Przy mierze r 2 0.9 liczba bloków niepe lnych by la wi eksza, niż w przypadku r 2 0.8, bez wzgledu na poziom MAF. Chromosom 18 charakteryzowa l sie najwieksz a liczba bloków niepe lnych w podzbiorze markerów z MAF > 0.01 oraz r 2 0.9, nieco mniejsza w podzbiorze markerów z MAF > 0.05 oraz r 2 0.8, jeszcze mniejsza w podzbiorze z MAF > 0.01 oraz r 2 0.8 i najmniejsza w podzbiorze markerów z MAF > 0.05 oraz r 2 0.9.

46 Wyniki Ciekawym przypadkiem okaza l si e być także chromosom 27, gdzie w żadnym podzbiorze danych nie pojawi l sie blok niepe lny. Wyróżniajacymi sie pod wzgledem odsetka bloków niepe lnych by ly chromosomy 23, 24 i 26, gdzie odsetek ten stanowi l ponad jedna piat a wszystkich bloków. W przypadku chromosomu 23 w podzbiorze z MAF > 0.01 oraz r 2 0.8 przekroczy l on nawet jedna trzecia wszystkich bloków. Dla chromosomu 23 i 24 odsetek bloków niepe lnych spad l przy wzroście r 2 z 0.8 do 0.9 przy MAF > 0.01, jeszcze mniejszy by l w podzbiorze z MAF > 0.05 oraz r 2 0.8 i najmniejsza wartość osiagn a l w podzbiorze z MAF > 0.05 oraz r 2 0.9. Podobnie sytuacja wyglada la dla chromosomu 26, ale w tym przypadku odsetek bloków niepe lnych wiekszy by l w podzbiorze z MAF > 0.05 oraz r 2 0.9, niż w podzbiorze z MAF > 0.05 oraz r 2 0.8. Rysunek 4.6: Średnia liczba markerów przypadaj acych na jeden blok dla poszczególnych chromosomów oraz podzbiorów danych Chromosomy różni ly sie miedzy soba pod wzgledem przecietnej liczby markerów przypadajacych na jeden blok SNP. Różnice te przedstawia rysunek 4.6. Średnia liczba markerów tworzacych jeden blok waha la sie od oko lo 2.03 markera dla chromosomu 27 w pod-

4.3 Konstrukcja i selekcja haplotypów SNP 47 zbiorach z r 2 0.9, bez wzgl edu na poziom MAF, do oko lo 3.63 markera w podzbiorze z MAF > 0.01 i r 2 0.8. Ponownie uwag e zwróci ly chromosomy: 23, 24 i 26. Średnie wartości liczby markerów przypadajacych na jeden blok by ly dla nich najwyższe, szczególnie przy MAF > 0.01, bez wzgledu na wartość miary r 2. Jest to zgodne z wynikami zawartymi w tabeli 4.5 oraz 4.6, gdzie widać, że najwieksze bloki SNP wystapi ly w laśnie w przypadku tych trzech chromosomów we wskazanych podzbiorach danych. 4.3 Konstrukcja i selekcja haplotypów SNP Konstrukcja haplotypów SNP przeprowadzona zosta la na bazie wyodr ebnionych bloków SNP. Bloki wyodrebnione z markerów SNP spe lniaj acych kryteria MAF > 0.01 oraz r 2 0.8 zosta ly uznane za zbiór najlepszy do konstrukcji haplotypów. Przes lank a tak podjetej decyzji by la duża różnorodność wielkości bloków, zw laszcza fakt, że w podzbiorze tym powsta ly bloki najwieksze, które przedstawia ly ciekawsza wartość badawcza, szczególnie jako zmienne objaśniajace w modelu z losowymi efektami haplotypów SNP i nierównomiernie roz lożona wariancja genetyczna (wzór 3.7). Tabela 4.9 zawiera liczby skonstruowanych haplotypów dla poszczególnych chromosomów. Najwi eksza liczba haplotypów zosta la otrzymana w przypadku chromosomu 26 (3709 haplotypów). Najmniej haplotypów powsta lo dla allosomu (99 haplotypów) oraz dla chromosomu 28 (137 haplotypów). Wyróżniajacymi sie pod wzgledem liczby haplotypów by ly także chromosomy 23 i 24, gdzie ich liczba przekroczy la dwa tysiace (2069 dla chromosomu 23, 2843 dla chromosomu 24). W przypadku chromosomu 1 powsta lo 1050 haplotypów. Liczba haplotypów zależna by la od wielkości bloku SNP, na bazie którego by ly one konstruowane. Im wi ekszy blok, czyli im wi ecej dost epnych markerów, tym wi ecej możliwych kombinacji alleli, a tym samym wi ecej możliwych postaci haplotypów. Zastosowane oprogramowanie pozwala lo analizować haplotypy, które mog lyby powstać na bazie dostarczonych markerów, a nie wszystkie dost epne z probabilistycznego punktu widzenia kombinacje alleli.

48 Wyniki Tabela 4.9: Liczba haplotypów skonstruowanych dla poszczególnych chromosomów wszystkie haplotypy chromosom skonstruowane o frekwencji haplotypy przekraczajacej 25% 1 1050 409 2 774 321 3 748 303 4 717 269 5 524 215 6 711 307 7 688 266 8 776 299 9 456 183 10 551 223 11 549 225 12 361 147 13 493 183 14 623 234 15 355 159 16 539 207 17 407 142 18 267 114 19 295 127 20 526 183 21 327 141 22 309 127 23 2069 175 24 2843 228 25 167 71 26 3709 162 27 145 66 28 137 63 29 227 94 suma 21343 5643 30 99 39 SUMA 21442 5682 Kryterium selekcji haplotypów stanowi la ich frekwencja w populacji. Tylko haplotypy, które pojawia ly si e przynajmniej u jednej czwartej osobników w populacji, by ly brane pod uwage. Tabela 4.9 oraz rysunek 4.7 przedstawiaja liczbe oraz odsetek haplotypów spe lniaj acych zadane kryterium. Najwiecej haplotypów o frekwencji przekraczajacej 25% otrzymano dla chromosomu 1 (409 haplotypów), a najmniej dla allosomu (39 haplotypów) oraz dla chromosomu 28 (63 haplotypy). Najwieksz a redukcje liczby haplotypów odnotowano dla chromosomu 23, 24

4.3 Konstrukcja i selekcja haplotypów SNP 49 i 26. W przypadku chromosomu 26 odrzucono ponad 95% skonstruowanych haplotypów. Dla chromosomu 23 i 24 kryterium selekcji spe lni lo oko lo 8% haplotypów. W przypadku pozosta lych chromosomów do dalszej analizy wzieto od oko lo 35% haplotypów z chromosomu 17 i 20 do oko lo 46% haplotypów z chromosomu 28. Rysunek 4.7: Odsetek haplotypów o frekwencji przekraczajacej 25% Najwiekszym haplotypem, który spe lni l kryterium selekcji by l haplotyp utworzony na bazie 21 markerów. Ostatecznie, do predykcji wartości hodowlanych użyto 5643 haplotypy z chromosomów autosomalnych.

50 Wyniki 4.4 Predykcja wartości hodowlanej na bazie haplotypów SNP Wykorzystane modele predykcji zosta ly porównane ze wzgledu na wielkości estymatorów i predyktorów efektów haplotypów oraz ze wzgledu na dok ladność predykcji wartości hodowlanej. Jako pierwsze przedstawione zosta ly wyniki analizy porównawczej ze wzgledu na wielkość efektów haplotypów. 4.4.1 Porównanie modeli predykcji ze wzgl edu na efekty haplotypów Tabela 4.10 przedstawia podstawowe statystyki opisowe efektów haplotypów dla poszczególnych cech i modeli predykcji. Wartości statystyk opisowych pokazuja, że estymatory efektów otrzymanych przy użyciu modeli 1, 2, 7, 8, 9 oraz 10 (modele ze sta lymi efektami haplotypów) tworzy ly próby o rozst epie wi ekszym, niż predyktory efektów haplotypów otrzymane przy użyciu modeli 3, 4, 5 oraz 6 (modele z losowymi efektami haplotypów). Tendencja taka utrzymywa la si e dla wszystkich analizowanych cech, zw laszcza w przypadku modeli 9 i 10. Cecha o najwiekszym rozstepie wartości, bez wzgledu na model predykcji, by la wydajność mleczna (WM). Różnice w rozk ladach efektów haplotypów w modelach tej samej postaci (pary modeli: 1 i 2, 3 i 4, 5 i 6, 7 i 8, 9 i 10), ale z różnymi macierzami wystapień tych efektów, nie by ly statystycznie istotne. Prawid lowość ta zosta la zachowana dla wszystkich analizowanych cech (test Wilcoxona, p-wartość > 0.05) i jest widoczna w tabeli 4.10. Średnie efekty haplotypów oraz ich mediany w rozpatrywanych parach modeli predykcji cz esto wykazywa ly takie same lub różniace sie w jednej lub kilku tysiecznych wartości. Rodzaj zastosowanego modelu predykcji nie wp lywa l na rozk lad efektów haplotypów w przypadku cech produkcyjnych (WM, WT, WB)(test Kruskala-Wallisa, p-wartość > 0.05). Dla cech pokrojowych (STA, OFL, USU), p lodności (NRK, PRP, OMC) oraz wyniku komórek somatycznych (SCS) postać zastosowanego modelu predykcji wp lywa la na średnia wielkość efektu haplotypu (test Kruskala-Wallisa, p-wartość < 0.05).

4.4 Predykcja wartości hodowlanej na bazie haplotypów SNP 51 Tabela 4.10: Statystyki opisowe efektów haplotypów dla poszczególnych cech i modeli predykcji cecha model statystyka WM WT WB STA OFL USU NRK PRP OMC SCS minimum -39.356-14.320-0.997-0.520-1.049-0.778-4.666-17.058-17.139-1.431 1 mediana 0.051 0.003 0.002 0.028 0.028 0.025 0.025 0.031 0.032 0.025 średnia 0.016 0.001 0.000 0.022 0.022 0.021 0.021 0.021 0.021 0.019 maksimum 236.928 2.353 6.337 5.610 14.613 7.845 0.826 1.077 1.143 17.673 minimum -38.966-12.740-0.987-0.450-0.903-0.752-4.150-15.160-15.250-1.273 2 mediana 0.036 0.004 0.002 0.028 0.027 0.024 0.026 0.031 0.031 0.025 średnia 0.024 0.000 0.000 0.022 0.022 0.022 0.021 0.020 0.020 0.020 maksimum 211.500 2.342 5.660 5.000 13.000 7.000 0.780 0.983 1.133 15.719 minimum -4.195-0.099-0.050-0.070-0.014-0.024-0.004-0.010-0.019-0.049 3 mediana 0.035 0.000 0.001 0.001 0.000 0.000 0.000 0.000 0.000 0.000 średnia 0.061 0.001 0.001 0.002 0.000 0.001 0.000 0.000 0.000 0.000 maksimum 3.158 0.164 0.059 0.074 0.014 0.026 0.004 0.010 0.015 0.048 minimum -4.195-0.099-0.050-0.070-0.014-0.024-0.004-0.010-0.019-0.049 4 mediana 0.033 0.000 0.001 0.001 0.000 0.000 0.000 0.000 0.000 0.000 średnia 0.060 0.001 0.001 0.002 0.000 0.001 0.000 0.000 0.000 0.000 maksimum 3.162 0.164 0.060 0.074 0.014 0.026 0.004 0.010 0.015 0.048 minimum -3.980-0.138-0.098-0.128-0.021-0.056-0.017-0.024-0.039-0.144 5 mediana 0.033 0.000 0.001 0.001 0.000 0.000 0.000 0.000 0.000 0.000 średnia 0.078 0.001 0.002 0.002 0.001 0.001 0.000 0.000 0.000-0.001 maksimum 13.740 0.204 0.430 0.342 0.052 0.075 0.009 0.025 0.024 0.106 minimum -3.981-0.117-0.104-0.128-0.023-0.056-0.018-0.027-0.042-0.145 6 mediana 0.031 0.000 0.001 0.001 0.000 0.000 0.000 0.000 0.000 0.000 średnia 0.075 0.001 0.002 0.002 0.000 0.001 0.000 0.000 0.000-0.001 maksimum 14.703 0.214 0.446 0.373 0.052 0.074 0.010 0.024 0.025 0.107 minimum -39.358-14.274-0.996-0.447-1.048-0.779-4.678-17.016-17.081-1.437 7 mediana 0.054 0.003 0.002 0.028 0.028 0.025 0.025 0.031 0.032 0.025 średnia 0.016 0.001 0.000 0.022 0.022 0.022 0.021 0.021 0.021 0.019 maksimum 232.478 2.353 6.310 3.935 14.605 7.729 0.826 1.078 1.143 17.783 minimum -39.356-14.274-0.996-0.447-1.048-0.780-4.678-17.016-17.081-1.437 8 mediana 0.054 0.003 0.002 0.028 0.028 0.025 0.025 0.031 0.032 0.025 średnia 0.016 0.001 0.000 0.022 0.022 0.022 0.021 0.021 0.021 0.019 maksimum 232.478 2.353 6.310 3.935 14.605 7.729 0.826 1.078 1.143 17.783 minimum -2287.412-40.6179-66.911-14.558-19.696-21.611-45.667-79.271-49.201-86.020 9 mediana 0.768 0.033 0.038 0.0514 0.068 0.060-0.028-0.011-0.026-0.001 średnia 2.343 0.042 0.063 0.341 0.335 0.340 0.232 0.278 0.254 0.258 maksimum 14791.582 244.387 435.971 55.604 141.964 83.140 72.292 81.979 94.007 70.060 minimum -1219.918-42.469-44.910-15.196-19.880-21.551-44.966-33.892-43.108-39.920 10 mediana 1.420 0.049 0.029 0.059 0.071 0.057-0.020-0.012-0.025 0.009 średnia 1.758 0.030 0.043 0.342 0.336 0.340 0.237 0.287 0.258 0.270 maksimum 1143.370 54.611 27.932 55.622 60.181 56.487 72.370 83.266 96.717 61.389

52 Wyniki Rysunek 4.8 przedstawia wykresy efektów haplotypów otrzymanych z zastosowaniem modeli 1 i 2 dla cech produkcyjnych. Wyniki otrzymane obiema metodami bardzo si e pokrywa ly. Na wszystkich trzech wykresach wyróżnia si e jeden z efektów. Jest to efekt haplotypu o numerze 5018, pochodzacego z chromosomu 24, postaci 11, powsta ly na bazie bloku 3328 2. Dla WM oraz WB jest to efekt dodatni, a dla WT jest to efekt ujemny. W przypadku WM pojawi ly si e także dość silne efekty ujemne: haplotyp o numerze 3355 postaci 00 umiejscowiony na chromosomie 14, powsta ly na bazie bloku 2181 oraz haplotyp o numerze 3704 postaci 00 umiejscowiony na chromosomie 15, powsta ly na bazie bloku 2398. Haplotyp o numerze 3355 wykaza l najwyższy efekt dodatni dla cechy WT. Rysunek 4.9 przedstawia wykresy efektów haplotypów otrzymanych z zastosowaniem modeli 1 i 2 dla cech pokrojowych. Także w tym przypadku, wyniki obydwu metod by ly porównywalne, a wyróżniajacym sie efektem by l efekt haplotypu o numerze 5018. Dla wszystkich trzech cech by l to efekt dodatni, najwiekszy dla OFL. Rysunki 4.10 oraz 4.11 przedstawiaja wykresy efektów haplotypów otrzymanych z zastosowaniem modeli 1 i 2 dla cech p lodności oraz dla wyniku komórek somatycznych (SCS). Również w tych przypadkach, najbardziej znaczacym okaza l sie być efekt haplotypu o numerze 5018, ujemny dla cech p lodności oraz dodatni dla SCS. Cecha NRK wykaza la mniejszy przedzia l zmienności, niż pozosta le cechy p lodności. 2 Wykaz bloków markerów dost epny jest w dodatku A niniejszej pracy, A.1

4.4 Predykcja wartości hodowlanej na bazie haplotypów SNP 53 Rysunek 4.8: Efekty haplotypów SNP otrzymane dla cech produkcyjnych przy użyciu modeli 1 i 2

54 Wyniki Rysunek 4.9: Efekty haplotypów SNP otrzymane dla cech pokrojowych przy użyciu modeli 1 i 2

4.4 Predykcja wartości hodowlanej na bazie haplotypów SNP 55 Rysunek 4.10: Efekty haplotypów SNP otrzymane dla cech p lodności przy użyciu modeli 1 i 2 Rysunek 4.11: użyciu modeli 1 i 2 Efekty haplotypów SNP otrzymane dla wyniku komórek somatycznych przy

56 Wyniki Efekty otrzymane przy użyciu modeli z losowymi efektami haplotypów SNP (modele 3 i 4 oraz modele 5 i 6) wykaza ly mniejsze, niż w przypadku modeli 1 i 2, przedzia ly zmienności. W przypadku modeli 3 i 4 dla cech produkcyjnych najbardziej znaczacymi by ly efekty ujemne haplotypów o numerach 3355 (postać 00, chromosom 14, blok 2181), 3357 (postać 01, chromosom 14, blok 2182), 2686 (postać 00, chromosom 10, blok 1756) oraz efekty dodatnie haplotypów o numerach 3363 (postać 000, chromosom 14, blok 2185), 3361 (postać 00, chromosom 14, blok 2184), 3358 (postać 10, chromosom 14, blok 2182), 3355. Efekt haplotypu 3355 by l dodatni dla WT, ale ujemny dla WM, przy czym dla WM by l to efekt najsilniejszy (rysunek 4.12). Efekty haplotypów otrzymane z użyciem modeli 3 i 4 dla cech pokrojowych (rysunek 4.13), p lodności (rysunek 4.14) oraz wyniku komórek somatycznych (rysunek 4.15) nie wykaza ly żadnych wyraźnie odstajacych wartości. Przedzia ly zmienności efektów dla tych cech by ly niewielkie. Modele 5 i 6 s luży ly estymacji losowych efektów haplotypów z za lożeniem nierównomiernie roz lożonej wariancji. Najwi ekszy analizowany haplotyp (o numerze 5376), postaci 011111101010100000010, pochodzacy z chromosomu 26 mia l najsilniejszy efekt dodatni dla cechy WM (rysunek 4.16). Dodatnie efekty dla tej cechy wykaza ly także haplotypy o numerach 5126 (postać 1111111111111, chromosom 24, blok 3343), 4952 (postać 1001011, chromosom 23, blok 3223) oraz 4791 (postać 11111111111, chromosom 23, blok 3111). Haplotyp 5376 wykaza l także najsilniejszy efekt dodatni dla WT, WB (rysunek 4.16) oraz STA (rysunek 4.17). Najmocniejszym efektem ujemnym dla cechy WT by l efekt haplotypu nr 4866 postaci 11101011111, umiejscowionego na chromosomie 23, powsta lym na bazie bloku 3166. Efekty haplotypów otrzymane dla OFL, USU, cech p lodności oraz SCS również w przypadku modeli 5 i 6 wykaza ly ma ly zakres zmienności.

4.4 Predykcja wartości hodowlanej na bazie haplotypów SNP 57 Rysunek 4.12: Efekty haplotypów SNP otrzymane dla cech produkcyjnych przy użyciu modeli 3 i 4

58 Wyniki Rysunek 4.13: Efekty haplotypów SNP otrzymane dla cech pokrojowych przy użyciu modeli 3 i 4

4.4 Predykcja wartości hodowlanej na bazie haplotypów SNP 59 Rysunek 4.14: Efekty haplotypów SNP otrzymane dla cech p lodności przy użyciu modeli 3 i 4 Rysunek 4.15: Efekty haplotypów SNP otrzymane dla SCS przy użyciu modeli 3 i 4