Eksploracja danych w genotypowych bazach danych

Podobne dokumenty
Reguły asocjacyjne, algorytm Apriori

Ocena wartości hodowlanej buhajów rasy simentalskiej. Sierpień

Zakres i metodyka prowadzenia oceny wartości użytkowej bydła typu użytkowego mlecznego i mięsno-mlecznego

Ocena wartości hodowlanej buhajów rasy simentalskiej

Zakres i metodyka prowadzenia oceny wartości użytkowej bydła typu użytkowego mlecznego i mięsno-mlecznego

RAPORT ŻYWIENIE KLUCZ DO EFEKTYWNEGO ZARZĄDZANIA STADEM PROMOCJA

i preferencje hodowców bydła

Opis efektów kształcenia dla modułu zajęć

Ocena wartości hodowlanej buhajów rasy PHF odmiany czarno-białej i czerwono-białej

Jak określić dojrzałość bydła mlecznego?

Rumex. Rumex SC Oferta dla wymagających

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

KAZEINA. Aleksander Nozdryn-Płotnicki. Polska Federacja Hodowców Bydła i Producentów Mleka w Warszawie REGION OCENY POZNAŃ Oddział w Opolu

AgroYeast PLC i AgroYeast PLC II w żywieniu krów o poziomie wydajności 9000 i więcej kg mleka

Ocena wartości hodowlanej krów rasy PHF odmiany czarno-białej i czerwono-białej

Lista oceniająca wpływ środowiska krowy na zdrowie wymienia

Skąd wziąć dużo dobrego mleka?

Omówienie audytu gospodarstw ocena potencjalnych możliwości poprawy wyników produkcyjnych w gospodarstwach objętych programem Zdrowa Krowa

Interpretacja wybranych informacji dostarczanych obligatoryjnie hodowcom w raportach wynikowych RW-1 i RW-2

Ocena wartości hodowlanej buhajów rasy PHF odmiany czarno-białej i czerwono-białej

Ocena wartości hodowlanej. Indeksy selekcyjne Krzysztof Gałązka

Celem fermy mlecznej nie jest produkcja mleka ale zysk

SYSTEMY INFORMATYCZNE WSPOMAGAJĄCE HODOWLĘ MAGDALENA FRĄSZCZAK

Zasady żywienia jałówek hodowlanych

Selekcja genowa buhajów

UNIWERSYTET PRZYRODNICZY W LUBLINIE WYDZIAŁ BIOLOGII, NAUK O ZWIERZĘTACH I BIOGOSPODARKI. Dariusz Piątek

Ocena wartości hodowlanej krów rasy PHF odmiany czarno-białej i czerwono-białej

System zarządzania stadem AfiFarm: jak wspomoże hodowcę?

Rozwój oceny wartości hodowlanej w Polsce w świetle oczekiwań hodowców dr Katarzyna Rzewuska CGen PFHBiPM

Ocena użytkowości mlecznej

Spis treści SPIS TREŚCI

Ocena wartości hodowlanej. Dr Agnieszka Suchecka

Ocena wartości hodowlanej buhajów rasy PHF odmiany czarno-białej i czerwono-białej

Charakterystyka innych ras czerwonych w Europie zrzeszonych w ERDB

Zasady żywienia krów mlecznych

EGZAMIN POTWIERDZAJĄCY KWALIFIKACJE W ZAWODZIE Rok 2018 CZĘŚĆ PRAKTYCZNA

BYDŁO Rozdział 1 Znaczenie chowu bydła Rozdział 2 Pochodzenie, typy u ytkowe i rasy bydła Rozdział 3 Ocena typu i budowy bydła

Dziedziczenie poligenowe

Nazwa kwalifikacji: Organizacja i nadzorowanie produkcji rolniczej Oznaczenie kwalifikacji: R.16 Numer zadania: 01

Opis efektów kształcenia dla modułu zajęć

SPRAWOZDANIE. z prowadzenia w 2014r. badań podstawowych na rzecz rolnictwa ekologicznego w zakresie

Technika Próżniowa. Przyszłość zależy od dobrego wyboru produktu. Wydanie Specjalne.

dostarczenie preparatów do higieny przed i poudojowej (przed rozpoczęciem udoju kontrolnego 1), dój kontrolny 1 jako punkt startowy doświadczenia

Indeksy wartości hodowlanych rasy simentalskiej w poszczególnych krajach - omówienie

Ocena przydatności żyta hybrydowego w żywieniu krów mlecznych

EGZAMIN POTWIERDZAJĄCY KWALIFIKACJE W ZAWODZIE Rok 2013 CZĘŚĆ PRAKTYCZNA

Nowe rasy bydła mlecznego uzyskiwanie w wyniku sztucznej inseminacji

Temat: Wprowadzenie do obsługi programu statystycznego SAS Enterprise Guide. Statystyka opisowa w SAS Enterprise Guide.

EFEKTYWNE WYKORZYSTANIE INFORMACJI O AKTYWNOŚCI DOBOWEJ KRÓW W STADACH PRODUKCYJNYCH. Piotr Wójcik Instytut Zootechniki PIB

Ocena zagrożenia subkliniczną ketozą nowa usługa w stadach objętych kontrolą użytkowości

Szacowanie wartości hodowlanej. Zarządzanie populacjami

ARKUSZ EGZAMINACYJNY

SYSTEMY INFORMATYCZNE WSPOMAGAJĄCE HODOWLĘ. Ocena wartości hodowlanej bydła mlecznego wprowadzenie

Poekstrakcyjna śruta rzepakowa - wciąż niedoceniane źródło białka dla bydła mlecznego. Czy tak musi być? Zbigniew Lach

Poekstrakcyjna śruta rzepakowa - wciąż niedoceniane źródło białka dla bydła mlecznego. Czy tak musi być? Zbigniew Lach

Profilaktyka mastitis. Wpływ żywienia na LKS w mleku

W RAMACH PRZEDMIOTU I OCENY MLEKA

Synchronizacja rui: co możemy dzięki niej osiągnąć?

Bolusy dla bydła; zastosowanie, uwalnianie i rodzaje. Sprawdź!

POLSKI ZWIĄZEK HODOWCÓW I PRODUCENTÓW BYDŁA MIĘSNEGO OCENA WARTOŚCI UŻYTKOWEJ BYDŁA RAS MIĘSNYCH WYNIKI ZA ROK 2012

SPIS TABEL. według województw i RO 21 79

Z wizytą we Francji Marcin Gołębiewski, Agata Wójcik. SGGW w Warszawie, Wydział Nauk o Zwierzętach, Zakład Hodowli Bydła

NAJLEPSZE Z NAJLEPSZYCH. buhaje simentalskie o najwyższych parametrach wśród wybranych cech

Żywienie bydła mlecznego

Wyniki oceny wartości użytkowej krów mlecznych

Czynniki ryzyka występowania ketozy u krów mlecznych w Polsce mgr inż. Marta Malkiewicz

Wyniki oceny wartości użytkowej krów mlecznych część analityczna

Zarządzanie rozrodem w stadzie bydła mlecznego. Wykorzystanie raportów wynikowych Marcin Gołębiewski

Podejście partycypacyjne skoncentrowane na gospodarstwie a ograniczenie chorób produkcyjnych

Jaka rasa bydła mięsnego jest najlepsza? Sprawdź, które warto hodować!

ID1SII4. Informatyka I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny) stacjonarne (stacjonarne / niestacjonarne)

OBSZAR 5 OCHRONA ZDROWIA ZWIERZĄT BADANIA W ZAKRESIE INNOWACYJNYCH ROZWIĄZAŃ W ZASTOSOWANIU ZIÓŁ W PROFILAKTYCE I LECZENIU ZWIERZĄT EKOLOGICZNYCH

POLSKI ZWIĄZEK HODOWCÓW I PRODUCENTÓW BYDŁA MIĘSNEGO OCENA

WYBRANE PROBLEMY W STADACH KRÓW MLECZNYCH DOJONYCH ROBOTAMI W PORÓWNANIU Z SYSTEMAMI KONWENCJONALNYMI

Autor: Dariusz Piwczyński 1 Ćwiczenie: Doświadczenia 2-grupowe w układzie niezależnym i zależnym.

Wycena z sierpnia 2014 Streszczenie

POLSKI ZWIĄZEK HODOWCÓW I PRODUCENTÓW BYDŁA MIĘSNEGO OCENA WARTOŚCI UŻYTKOWEJ BYDŁA RAS MIĘSNYCH WYNIKI ZA ROK 2013

Nazwa kwalifikacji: Prowadzenie chowu, hodowli i inseminacji zwierząt Oznaczenie kwalifikacji: R.09 Numer zadania: 01

Program hodowlany ochrony zasobów genetycznych bydła polskiego czerwonego

Uzyskanie dobrych wyników w rozrodzie bydła

Badanie normalności rozkładu

Czynniki wpływające na wydatek serów dojrzewających

EGZAMIN POTWIERDZAJĄCY KWALIFIKACJE W ZAWODZIE

POLSKI ZWIĄZEK HODOWCÓW I PRODUCENTÓW BYDŁA MIĘSNEGO WYNIKI OCENY WARTOŚCI UŻYTKOWEJ BYDŁA RAS MIĘSNYCH ZA ROK 2017

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

LKS system alarmowy gruczołu mlekowego

Analiza i wizualizacja danych Data analysis and visualization

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Żywienie bydła mlecznego

KOSZTY PRODUKCJI PFHBIPM

Narzędzie do obliczania kosztów i korzyści w dziedzinie zdrowia zwierząt: koszty niepowodzenia i prewencji

Zmienność genu UDP-glukuronozylotransferazy 1A1 a hiperbilirubinemia noworodków.

Waldemar Krzymowski inspektor nadzoru

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA REALIZACJA W ROKU AKADEMICKIM 2016/2017

Zmodyfikowane wg Kadowaki T in.: J Clin Invest. 2006;116(7):

Rolnictwo XXI wieku problemy i wyzwania

Mastitis tylko ładnie brzmi: czynniki zewnętrzne cz.i

Cechy funkcjonalne i ich rola we współczesnej hodowli bydła

POLSKI ZWIĄZEK HODOWCÓW I PRODUCENTÓW BYDŁA MIĘSNEGO OCENA

PORÓWNANIE DWÓCH POZIOMÓW INTENSYWNOŚCI UŻYTKOWANIA MLECZNEGO KRÓW

Transkrypt:

Eksploracja danych w genotypowych bazach danych Przemysław Klęsk pklesk@wi.zut.edu.pl Zakład Sztucznej Inteligencji Wydział Informatyki, ZUT

1. Sodowrażliwość Cel badań sprawdzenie możliwości rozpoznawania sodowrażliwości na podstawie czynników genetycznych. Istnieja osoby, które po spożyciu sodu (m.in. sól kuchenna, benzoesan sodu) doświadczaja skoków ciśnienia tętniczego. Pojawia się to także u osób, które nie choruja nominalnie na nadciśnienie. Pomorska Akademia Medyczna (obecnie: PUM) zebrała zbiór danych na grupie 106 osób (bez i z sodowrażliwościa). Eksperyment trwał 3 tygodnie: tydzień na diecie bezsolnej, tydzień na diecie solnej, tydzień na diecie mieszanej. Zbiór danych zawiera: 106 przykładów i 24 atrybuty (wśród atrybutów wejściowych jest 19 genetycznych i 4 inne). (!) Własność: Zakład Biochemii Klinicznej i Molekularnej, Pomorski Uniwersytet Medyczny w Szczecinie (prof. A. Ciechanowicz). Przemysław Klęsk (ZSI) EDwGBD 2/20

1. Sodowrażliwość (c.d.) Atrybuty 1 płeć {F, M}, 2 wiek {< 39.5, 39.5}, 3 BMI Body Mass Index{< 23.45, 23.45}, 4 NT nadciśnienie tętnicze{0, 1}, 5 dss wskaźnik sodowrażliwości (atrybut decyzyjny){< 8, 8}, 6 PROK {?, AA, AB, AH, AI, AK, AQ, AR, BB, BH, BI, BK, HI, HK, HQ, IK}, 7 GSL {?, CC, CT, TT}, 8 BE16 {AA, AG, GG}, 9 BE27 {CC, GC, GG}, 10 BE1 {?, CC, CG, GG}, 11 G3NB {CC, CT, TT}, 12 ACE {DD, ID, II}, 13 HPA {WM, WW}, 14 SYAL {CC, TC, TT}, 15 ESC {CC, CG, GG}, Przemysław Klęsk (ZSI) EDwGBD 3/20

1. Sodowrażliwość (c.d.) Atrybuty 16 ADD {GG, GT, TT}, 17 AT1R {AA, AC, CC}, 18 ATG {AA, AG, GG}, 19 KAL1 {CC, GC, GG}, 20 KAL3 {GA, GG}, 21 KAL4 {AA, AG, GG}, 22 KAL5 {AA, AC, CC}, 23 enos {GG, GT, TT}. Atrybut decyzyjny dss wartość 8 osoba sodowrażliwa; wartość< 8 osoba niesodowrażliwa. Przemysław Klęsk (ZSI) EDwGBD 4/20

2. Inseminacja krów mlecznych Cel badań sprawdzenie możliwości przewidywania klasy zabiegu inseminacyjnego u krów mlecznych. Zbiór danych zawiera: 409 przykładów i 13 atrybutów. Dane zebrane na podstawie dokumentacji gospodarstw wiejskich. Wiadomo, że do czynników wpływajacych na łatwość zacieleń u krów należa m.in. wiek krowy, jej kondycja, wydajność mleka, sezon zabiegu itd. Pytanie: czy istnieje wpływ udziału genów HF na łatwość zabiegu inseminacyjnego? (!) Własność: Zakład Biostatystyki, Zachodniopomorski Uniwersytet Technologiczny w Szczecinie (prof. W. Grzesiak). Przemysław Klęsk (ZSI) EDwGBD 5/20

2. Inseminacja krów mlecznych (c.d.) Atrybuty wejściowe 1 MIES miesiac inseminacji, 2 LAK kolejna laktacja, 3 WYD średnia wydajność, 4 LAK_W wydajność laktacyjna, 5 GOS średnia wydajność mleka w gospodarstwie, 6 TL średnia wydajność tłuszczu w gospodarstwie, 7 TL% średnia zawartość tłuszczu w gospodarstwie, 8 BL% średnia zawartość białka w gospodarstwie, 9 HF procent genów HF (bydło holsztyno-fryzjerskie), 10 POROD numer porodu, 11 KOND kondycja, 12 OCEN ocena inseminacyjna. Atrybut decyzyjny INS klasa zabiegu inseminacyjnego; A zacielenie łatwe (następowało po 1, 2 zabiegach inseminacyjnych), B zacielenie trudne (zacielenie po 3-11 zabiegach). Przemysław Klęsk (ZSI) EDwGBD 6/20

3. Wydajność krów mlecznych Cel badań sprawdzenie możliwości przewidywania wydajności krów mlecznych (zadanie estymacji regresji). Zbiór danych zawiera: 188 przykładów i 11 atrybutów. Dane zebrane na podstawie dokumentacji gospodarstw wiejskich. Atrybut ALU dotyczy genotypu albuminy{ll, LV}. (!) Własność: Zakład Biostatystyki, Zachodniopomorski Uniwersytet Technologiczny w Szczecinie (prof. W. Grzesiak). Przemysław Klęsk (ZSI) EDwGBD 7/20

3. Wydajność krów mlecznych (c.d.) Atrybuty wejściowe 1 LAK kolejna laktacja, 2 RAHF udział genów HF, 3 WYD_MAT wydajność matki, 4 ROHF udział genów HF ojca, 5 WYD_OJCA wydajność ojca oceniona na podstawie córek, 6 SEZON sezon wycielenia{1 jesienno zimowy, 2 wiosenno-letni}, 7 WIEK wiek krowy, 8 MLEKO (atrybut wyjściowy) wydajność mleczna krowy, 9 ALU genotyp albuminy, 10 WYD wydajność mleka w gospodarstwie. Atrybut wyjściowy (regresja) MLEKO wydajność mleczna krowy; zakres: 2692 9467, średnia: 5521.44, odchylenie std.: 1347.03. Przemysław Klęsk (ZSI) EDwGBD 8/20

4. Standaryzowana masa ciała Cel badań sprawdzenie możliwości przewidywania standaryzowanej masy ciała (zadanie estymacji regresji). Zbiór danych zawiera: 183 przykładów i 11 atrybutów. Dane zebrane na podstawie dokumentacji gospodarstw wiejskich. Atrybut genotypowy HOR_WZR dotyczy hormonu wzrostu {1 AA, 2 AB, 3 BB}. (!) Własność: Zakład Biostatystyki, Zachodniopomorski Uniwersytet Technologiczny w Szczecinie (prof. W. Grzesiak). Przemysław Klęsk (ZSI) EDwGBD 9/20

4. Standaryzowana masa ciała (c.d.) Atrybuty wejściowe 1 WIEK_KR wiek krowy, 2 MIES_WY miesiac wycielenia, 3 OMW_4 okres międzywycieleniowy, 4 MAS_KR_P masa krowy po wycieleniu, 5 PLEC4 płeć cielęcia{j jałówka, b byczek}, 6 HOR_WZR genotyp hormonu wzrostu{1 AA, 2 AB, 3 BB}, 7 MASA_CIE masa cielęcia, 8 MASA_CIEL masa cielęcia 2, 9 PRZYR_sR przyrost masy ciała, 10 sr_masa średnia masa ciała, 11 MASA_STD_ (atrybut wyjściowy) standaryzowana masa ciała krowy. Atrybut wyjściowy (regresja) MASA_STD_ standaryzowana masa ciała krowy; zakres: 184 349, średnia: 266.68, odchylenie std.: 32.83. Przemysław Klęsk (ZSI) EDwGBD 10/20

5. Mastitis Zbiory danych do analizy Cel badań sprawdzenie możliwości przewidywania liczby komórek somatycznych w mleku (lub klasy liczby komórek: dobra/zła). Nadmierny poziom liczby komórek somatycznych w mleku może świadczyć o chorobach wymion (stan zapalny mastitis) i/lub nieprawidłowym dojeniu krów. W mleku klasy extra dopuszczalny poziom komórek somatycznych: 400 tysięcy. W mleku klasy A dopuszczalny poziom komórek somatycznych: 500 tysięcy. Zbiór danych zawiera: 596 przykładów i 18 atrybutów. Dwie wersje zadania: klasyfikacja i estymacja regresji. Dane zebrane na podstawie dokumentacji gospodarstw wiejskich. (!) Własność: Zakład Biostatystyki, Zachodniopomorski Uniwersytet Technologiczny w Szczecinie (prof. W. Grzesiak). Przemysław Klęsk (ZSI) EDwGBD 11/20

5. Mastitis (c.d.) Atrybuty wejściowe 1 KOL kolejność rekordu, 2 NR_KROWY numer krowy, 3 %HF udział genów HF, 4 LAK kolejna laktacja, 5 D_URODZ_ data urodzenia, 6 D_WYC_ data wycielenia, 7 DNI liczba dni doju, 8 WIEK wiek krowy, 9 TD wydajność mleka w próbnym udoju, 10 TL wydajność tłuszczu, 11 TL% zawartość tłuszczu, 12 BL wydajność białka, 13 BL% zawartość białka, Przemysław Klęsk (ZSI) EDwGBD 12/20

5. Mastitis (c.d.) Atrybuty wejściowe 14 %_LAKTOZY zawartość procentowa laktozy w mleku, 15 SM zawartość suchej masy w mleku, 16 MOCZNIK zawartość mocznika. 17 LKS lub LKS_ (atrybut wyjściowy) liczba komórek somatycznych w mleku (regresja); lub klasa liczby komórek{a dobra, B zła} (klasyfikacja). Atrybut wyjściowy (regresja) LKS liczba komórek somatycznych w mleku (regresja); zakres: 6 12944, średnia: 650.61, odchylenie std.: 1249.49. LKS_ klasa liczby komórek{a dobra, B zła} (klasyfikacja). Przemysław Klęsk (ZSI) EDwGBD 13/20

6. Przyrosty Zbiory danych do analizy Cel badań sprawdzenie możliwości przewidywania klasy przyrostu masy ciała cielat. W szczególności sprawdzenie wpływu genotypów miostatyny, leptyny oraz białka prionowego. Podział na klasy dokonany na podstawie średniej masy (poniżej, średnia lub powyżej). Zbiór danych zawiera: 261 przykładów i 18 atrybutów. Dane zebrane na podstawie dokumentacji gospodarstw wiejskich. (!) Własność: Zakład Biostatystyki, Zachodniopomorski Uniwersytet Technologiczny w Szczecinie (prof. W. Grzesiak). Przemysław Klęsk (ZSI) EDwGBD 14/20

6. Przyrosty (c.d.) Atrybuty wejściowe 1 RASA kod rasy krowy{chlh mieszaniec Charolais-Heroford, CHL Charolais, CHLS Charolais-Simmental}, 2 MR masa ciała urodzeniowa, 3 WD2 masa ciała, 4 MR2 masa ciała przy odsadzeniu, 5 MS_210 masa ciała w 210 dniu życia, 6 PS_210 przyrosty w 210 dniu życia, 7 MLECZNOS mleczność krowy matki, 8 SEZON sezon wycielenia{zima, LATO}, 9 M_C PO masa ciała po wycieleniu, 10 OMW okres międzywycieleniowy, Przemysław Klęsk (ZSI) EDwGBD 15/20

6. Przyrosty (c.d.) Atrybuty wejściowe 11 GDF8 genotyp miostatyny{aa, AB, BB}, 12 LEP genotyp leptyny{aa, AB, BB}, 13 PRNP genotyp białka prionowego{aa, AB, BB}, 14 INSDEL12 genotyp insercyjno-delecyjny białka PRNP{ins12, insdel12, del12}, 15 INSDEL23 genotyp insercyjno-delecyjny białka PRNP{ins23, insdel23, del23}, 16 HAP haplotyp (kombinacja poprzednich genotypów), 17 HAP1 haplotyp kombinowany, Atrybut wyjściowy (klasyfikacja) PS_KL klasa przyrostu{a dobry, B zły}. Przemysław Klęsk (ZSI) EDwGBD 16/20

Algorytmy i metody analizy Klasyfikacja i regresja naiwny klasyfikator Bayesa, drzewa decyzyjne CART, regresja liniowa i wielomianowa (klasyczne najmniejsze kwadraty LSQ), regresja liniowa i wielomianowa z regularyzacja L 1 (ridge regression), regresja liniowa i wielomianowa z regularyzacja L 2 (lasso regression), regresja logistyczna. Przemysław Klęsk (ZSI) EDwGBD 17/20

Algorytmy i metody analizy Meta-klasyfikatory techniki: bagging, boosting, stacking, AdaBoost+decision stump, RealBoost, ResponseBinningBoost. Przemysław Klęsk (ZSI) EDwGBD 18/20

Indukcja reguł Algorytmy i metody analizy wyczerpujace wyszukiwanie reguł decyzyjnych, wykrywanie reguł Pareto-optymalnych, klasyfikatory regułowe, reguły asocjacyjne algortym A priori. Przemysław Klęsk (ZSI) EDwGBD 19/20

Literatura Algorytmy i metody analizy 1 D. Hand, H. Mannila, P. Smyth, Eksploracja danych. WNT, Warszawa, 2005. 2 J. Koronacki, J. Ćwik, Statystyczne systemy uczące się. WNT, Warszawa, 2005. 3 P. Cichosz, Systemy uczące się. WNT, 2007. 4 W. J. Ewens, G. R. Grant, Statistical Methods in Bionformatics: An Introduction, Springer, 2010, 2 5 A. D. Baxevanis, B. F. F. Quellette, Bioinformatyka. Podrecznik do analizy genów i białek, PWN, 2005 Przemysław Klęsk (ZSI) EDwGBD 20/20