PRACE NAUKOWE Akademii im. Jana Długosza w Częstochowie Informatyka, Inżynieria Bezpieczeństwa
|
|
- Bartosz Maj
- 6 lat temu
- Przeglądów:
Transkrypt
1 PRACE NAUKOWE Akademii im. Jana Długosza w Częstochowie Technika, Informatyka, Inżynieria Bezpieczeństwa 2013, t. I Artur Gola Akademia im. Jana Długosza Al. Armii Krajowej 13/15, Częstochowa, a.gola@ajd.czest.pl EA-MOSGWA NARZĘDZIE DO WYZNACZANIA PRZYCZYNOWYCH GENÓW W BADANIACH GWAS Streszczenie. Praca przedstawia aktualny stan rozwoju programu EA-MOSGWA. Jest to narzędzie służące do wyznaczania przyczynowych genów w badaniach asocjacyjnych całego genomu (ang. Genome Wide Association Studies, GWAS). Badania GWAS mają na celu określenie genów, które mogą być odpowiedzialne za różnego rodzaju choroby genetyczne (np. rak, cukrzyca), a także genów, które wpływają na daną cechę, np. wzrost lub wagę. Sprowadzają się one do przebadania wielu tysięcy polimorfizmów pojedynczego nukleotydu (ang. Single Nucleotide Polymorphism, SNP) i powiązaniu ich (pojedynczych lub grupy SNP-ów) z przypadkami klinicznymi oraz możliwymi do zmierzenia cechami. Bardzo ważne w tego typu badaniach jest określenie jak najwięk- szej liczby przyczynowych SNPów (ang. True Positive) przy jednoczesnej minimaliza- cji liczby fałszywych SNP-ów (ang. False Positive), czyli takich, które w rzeczywisto- W pracy ści nie są przyczynowymi, a program zaklasyfikował je jako przyczynowe. przedstawiono wyniki symulacji, które pokazują, że zaproponowany algorytm ma dobre właściwości dotyczące dwóch badanych parametrów statystycznych. Słowa kluczowe: algorytm ewolucyjny, badanie asocjacyjne całego genomu, regresja liniowa. Wprowadzenie Praca przedstawia aktualny stan rozwoju programu EA-MOSGWA nabadaniach rzędzia przeznaczonego do wyznaczania przyczynowych genów w asocjacyjnych całego genomu. Jest ono opracowywane w Zakładzie Informatywspółpracy ki Stosowanej Akademii im. Jana Długosza w Częstochowie, we z Politechniką Wrocławską i Uniwersytetem Medycznym w Wiedniu. Planowa- bar- ne jest również dołączenie tego narzędzia w formie modułu do większego, dziej rozbudowanego programu MOSGWA, który od kilku lat jest rozwijany na Uniwersytecie Medycznym w Wiedniu i Politechnice Wrocławskiej. Program MOSGWA (skrót od Model Selection for Genome Wide Associations) jest za-
2 248 A. Gola awansowanym narzędziem, które służy do wyznaczania przyczynowych genów w badaniach całego genomu. Posiada kilka zaimplementowanych metod wyboru modelu oraz daje możliwość dołączania nowych metod. Prezentowany w artykule program rozszerza możliwości programu MOSGWA o nową metodę wyboru modelu, która korzysta ze zmodyfikowanego algorytmu ewolucyjnego (ang. Evolutionary Algorithm) [4, 7], stąd nazwa programu EA-MOSGWA. Program MOSGWA ma również zaimplementowanych wiele funkcji, które są niezbędne przy implementacji nowych metod służących do identyfikacji przyczynowych genów. Między innymi należą do nich: odczyt plików z danymi wejściowymi, wykonanie testów na pojedynczych markerach (ang. Single Marker Test) i wyznaczenie p-wartości, ocena modelu według jednego z dostępnych kryteriów, obliczenie korelacji pomiędzy markerami, zapis wyników w formacie Matlaba lub R. Wszystkie te funkcje zostały wykorzystane w programie EA-MOSGWA. Przegląd dostępnych metod Na obecnym stanie rozwoju EA-MOSGWA umożliwia wyznaczenie grupy SNP-ów przyczynowych, korzystając z regresji liniowej oraz kryterium Bayesa (ang. Bayesian Information Criterion, w skrócie BIC) i jego modyfikacji mbic2 [2, 3] do oceny otrzymywanych rozwiązań. Obecnie można wyróżnić kilka głównych nurtów w badaniach asocjacyjnych całego genomu: z użyciem metod opartych na kryterium Bayesa [2, 3, 6], z użyciem metody Monte Carlo z wykorzystaniem łańcuchów Markowa (ang. Markov Chain Monte Carlo, MCMC) [5] oraz z metody lasso połączonej z walidacją krzyżową [8]. Przegląd najnowszych metod można znaleźć w pracy [1]. Podstawy teoretyczne Program EA-MOSGWA jest przeznaczony do identyfikacji SNP-ów sprzężonych z zadaną cechą ilościową. Oznaczając miarę cechy osobnika i jako y i, gdzie i {1,, n}, oraz przyjmując kodowanie wartości genotypu dla p SNP-ów, jako x ij {-1, 0, 1}, j {1,, p}, możemy opisać model regresji liniowej równaniem: y i =µ+ β j x ij +ϵ i j M (1) gdzie µ oznacza miejsce przecięcia prostej z osią Y, M oznacza model podzbiór markerów (SNP-ów), które mają wpływ na badaną cechę, natomiast składnik ε i oznacza błąd o rozkładzie normalnym N(0, σ 2 ).
3 EA-MOSGWA narzędzie do wyznaczania 249 Wybór najlepszego modelu regresji liniowej i w efekcie lokalizacja istotnych genów wymaga zastosowania kryterium, na podstawie którego modele są oceniane. W programie EA-MOSGWA zastosowano zmodyfikowane Bayesowskie kryterium informacyjne (ang. modified Bayesian Information Criterion, mbic2) [3]: mbic2 = n log RSS + k log n + 2k log(p/4) 2 log(k! (2) gdzie k oznacza rozmiar ocenianego modelu, n liczbę osobników, p liczbę SNPów. Z informatycznego punktu widzenia znalezienie rozwiązania sprowadza się do sprawdzenia wszystkich podzbiorów zbioru p-elementowego, co oznacza złożoność wykładniczą. Ponieważ w rzeczywistych przypadkach liczba SNPów może osiągać wartość rzędu , metoda brutalna nie zdaje egzaminu. W celu wytypowania przyczynowych SNP-ów program EA-MOSGWA wykorzystuje losowy algorytm przeszukiwania przestrzeni rozwiązań, który jest oparty na algorytmie ewolucyjnym oraz korzysta z mbic2 do oceny rozwiązań pośrednich i ukierunkowania przeszukiwań w rejony przestrzeni rozwiązań, które są najbardziej obiecujące. Implementacja Idea działania algorytmów ewolucyjnych jest zaczerpnięta z obserwacji rozwoju gatunków w środowisku naturalnym, gdzie następne pokolenie jest lepiej przystosowane do warunków środowiska, w jakich przebywa. W przypadku programu komputerowego zasada ta sprowadza się do tworzenia lepszych rozwiązań, przy wykorzystaniu w tym celu rozwiązań już istniejących [4, 7]. Zmodyfikowany algorytm ewolucyjny zastosowany w EA-MOSGWA pracuje na populacji osobników, której rozmiar jest stały i wynosi n. Osobnik jest odpowiednikiem modelu i zarazem stanowi potencjalne rozwiązanie zadania. Algorytm użyty w programie EA-MOSGWA bazuje na algorytmie memetycznym (ang. Memetic Algorithms, MA) przedstawionym w pracy [2]. Został on zaimplementowany w programie Matlab i przeznaczony jest do pracy na populacjach eksperymentalnych, gdzie bada się dużo mniej markerów, do 300. Najważniejsze różnice pomiędzy tymi algorytmami zostały opisane w paragrafach: Tworzenie populacji początkowej; Mutacja; Lokalne ulepszanie modelu; Rekombinacja. Zasada działania algorytmu jest przedstawiona na rysunku 1. Po uruchomieniu algorytm tworzy populację początkową. Następnie w każdej iteracji tworzone są nowe osobniki. Wybór osobników do procesu reprodukcji następu-
4 250 A. Gola je w metodzie selekcji. Z dużym prawdopodobieństwem p c w procesie rekombinacji jest generowany nowy osobnik. Jeżeli nie dochodzi do rekombinacji, to do dalszego etapu przechodzi lepiej oceniany osobnik. Z małym prawdopodobieństwem p m nowy osobnik ulega mutacji. W końcowym etapie potomek ten poddawany jest procesowi lokalnego ulepszenia, a następnie jest oceniany i porównywany z najgorzej ocenianym osobnikiem w populacji. Jeżeli nowy osobnik jest lepiej oceniany niż najgorszy osobnik w populacji, to go zastępuje. Algorytm kończy pracę, jeżeli w ustalonej liczbie maxnoprogressiterations iteracji nie nastąpi utworzenie lepszego modelu niż B najlepszych modeli w populacji. W przeciwieństwie do tradycyjnych algorytmów ewolucyjnych prezentowany algorytm nie tworzy odrębnej populacji zawierającej osobniki powstałe w wyniku operacji genetycznych, ale na bieżąco zastępuje najgorsze osobniki nowo powstałymi, lepszymi osobnikami. Reprezentacja rozwiązań W algorytmach ewolucyjnych stosuje się kodowanie rozwiązań, które jest najlepiej dostosowanie do danego problemu. W naszym przypadku rozwiązaniem jest zbiór numerów SNP-ów, które program zaklasyfikuje jako przyczynowe. Tworzenie populacji początkowej Pierwszą operacją wykonywaną przez algorytm ewolucyjny jest utworzenie populacji początkowej. Najprostszą metodą jest utworzenie rozwiązań w sposób losowy. W kolejnych krokach potencjalne rozwiązania z populacji początkowej są ulepszanie, aż algorytm zbiegnie się do rozwiązania końcowego. Pracę algorytmu można przyspieszyć, stosując metody, które utworzą populację początkową z osobników lepszych niż te wygenerowane w sposób losowy. W proponowanym narzędziu do utworzenia populacji początkowej stosowana jest zachłanna metoda ForwardSelection, która jest zaimplementowana w programie MOSGWA. Wymaga ona wcześniejszego obliczenia p-wartości z klasycznych testów Studenta (obliczenie te są wykonywane przez funkcje SingleMarkerTest zaimplementowaną w programie MOSGWA) i posortowania wszystkich SNP-ów rosnąco względem p-wartości. Metoda ForwardSelection dodaje kolejno do modelu takie markery, które minimalizują funkcję BIC: BIC = n log RSS + k log n (3)
5 EA-MOSGWA narzędzie do wyznaczania 251 Rys. 1. Schemat blokowy algorytmu zastosowanego w programie EA-MOSGWA
6 252 A. Gola Zaczyna od SNP-ów, które mają najmniejsze p-wartości. Rozmiar modeli tworzonych w populacji początkowej został ograniczony do 150 SNP-ów. Dodatkowo, jeżeli jakiś marker został dodany do jednego modelu, to nie jest dodawany do innego. Warunek ten gwarantuje duża różnorodność markerów w populacji początkowej. Metoda ta całkowicie różni się od tej zastosowanej w algorytmie memetycznym [2]. W przypadku MA osobniki są wybierane losowo, ale w oparciu o różne prawdopodobieństwa markerów dla poszczególnych chromosomów. W tym celu tworzony jest model, na postawie którego obliczane są te prawdopodobieństwa. Metoda selekcji Jako metoda selekcji została zastosowana klasyczna metoda selekcji turniejowej z liczbą uczestników równą 2. Oznacza to, że w sposób losowy, z takim samym prawdopodobieństwem, są wybierane dwa osobniki z populacji. Zwycięzcą turnieju jest model o lepszej ocenie, czyli z mniejszą wartością mbic2. Przy pomocy metody turniejowej wybierane są dwa różne osobniki rodzice. Z nich w procesie rekombinacji powstaje nowe rozwiązanie. Rekombinacja Proces rekombinacji przebiega w dwóch etapach. Oznaczmy przez S 1 i S 2 zbiory markerów należących do obu rodziców, przez S I = S 1 S 2 przecięcie zbiorów, przez S U = S 1 S 2 sumę zbiorów, natomiast przez S D = S U / S I różnicę symetryczną zbiorów. Na pierwszym etapie tworzony jest model wejściowy ze SNPów ze zbioru S I. Następnie tworzone są i oceniane wszystkie możliwe modele powstałe w wyniku dodania do modelu wejściowego jednego SNP-a ze zbioru S D, za każdym razem innego. Na przykład niech S I = {S 1, S 2 }, S D = {S 3, S 4, S 5 }. W kroku pierwszym zostaną utworzone następujące modele: {S 1, S 2, S 3 }, {S 1, S 2, S 4 }, {S 1, S 2, S 5 }. Jeżeli najlepszy z tych modeli jest lepiej oceniany od modelu wejściowego, to zastępuje model wejściowy, a ze zbioru S D usuwany jest SNP, który spowodował ulepszenie modelu wejściowego. Operacja ta jest powtarzana dopóki następuje ulepszenie modelu wejściowego i zbiór S D nie jest pusty. W ten sposób powstaje pierwszy model. Drugi model wejściowy jest utworzony ze SNPów ze zbioru S U, z którego pojedynczo usuwane są SNPy należące do zbioru S D. W ten sposób sprawdzane są wszystkie modele o rozmiarze o jeden mniejszym od modelu wejściowego. Na przykład niech S I = {S 1, S 2 }, S D = {S 3, S 4, S 5 }, S U = {S 1, S 2, S 3, S 4, S 5 }. W kroku pierwszym zostaną utworzone następujące modele: {S 1, S 2, S 4, S 5 }, {S 1, S 2, S 3, S 5 }, {S 1, S 2, S 3, S 4 }. Jeżeli najlepszy z tak utworzonych modeli jest lepszy od modelu wejściowego, to go zastępuje, a ze zbioru S D usuwany jest SNP, który spowodował ulepszenie modelu wejściowego. Cała operacja jest
7 EA-MOSGWA narzędzie do wyznaczania 253 powtarzana dopóki następuje poprawa lub sprawdzono wszystkie SNP-y i w modelu wejściowym pozostały tylko SNP-y ze zbioru S I. W procesie rekombinacji lepszy z dwóch modeli, które powstały podczas pierwszego i drugiego etapu, jest zwracany jako wynik rekombinacji. Algorytm memetyczny [2] wyznacza model wynikowy wyłącznie na podstawie etapu pierwszego. Mutacja Mutacja może przebiegać na dwa sposoby, które zachodzą z takim samym prawdopodobieństwem 0,5: nowy marker może być dodany do modelu lub jeden z markerów może być usunięty z modelu. W przypadku operacji dodania, nowy marker jest wybierany w sposób losowy. Jeżeli jednak jest on skorelowany powyżej wartości 0,5 z jednym ze SNP-ów, które są w modelu, to operacja wyboru nowego markera jest powtarzana. Jeżeli w 1000 próbach nie uda się znaleźć markera skorelowanego poniżej wartości 0,5 z każdym ze SNPów z modelu, to metoda mutacji kończy działanie. W przypadku usuwania jeden losowo wybrany marker jest usuwany z modelu. Jeżeli w modelu jest tylko jeden marker, to jest on zastępowany innym, losowo wybranym markerem. W stosunku do algorytmu MA[2] klasyczna odległość między genami została zastąpiona współczynnikiem korelacji. Jest to spowodowane faktem, że w populacjach ludzkich nie ma bezpośredniej zależności między odległością a korelacją i często dobry substytut dla aktualnie badanego genu znajduje się w znacznej od niego odległości. Lokalne ulepszanie modelu Metoda lokalnego ulepszenia robi użytek ze skorelowanej struktury markerów. SNP-y skorelowane ze sobą są związane z tą samą cechą. Jeżeli w modelu znalazł się SNP przyczynowy, to wśród SNP-ów, które są z nim skorelowane, można szukać głównego reprezentanta grupy skorelowanych SNP-ów, dla którego kryterium mbic2 przyjmuje wartość minimalną. W metodzie tej staramy się ulepszyć model poprzez zastąpienie danego markera kolejno markerami z nim skorelowanymi, podczas gdy pozostałe markery zostają bez zmian. Po znalezieniu lokalnego minimum dla pierwszego SNP-a z ulepszanego modelu, powtarzamy operację szukania dla kolejnego SNP-a. Prezentowane narzędzie rozpatruje SNP-y, które są w najbliższym sąsiedztwie rozpatrywanego SNP-a (w oknie o rozmiarze 50 najbliższych SNP-ów) i są z nim skorelowane powyżej 0,5. Główna różnica pomiędzy MA i EA polega na tym, że EA-MOSGWA bierze pod uwagę tylko markery skorelowane powyżej 0,5 z ulepszanym marke-
8 254 A. Gola rem i które znajdują się ograniczonej odległości oknie, natomiast MA nie uwzględnia korelacji i bierze pod uwagę kolejne markery dopóki ich użycie powoduje poprawę ulepszanego modelu. Wyniki eksperymentalne Symulacje komputerowe z użyciem programu EA-MOSGWA zostały wykonane na zbiorze danych liczącym SNP-ów pochodzących z 4077 osobników. Model przyczynowy Zostało wybranych 15 SNP-ów ze zbioru danych wejściowych. Odległość pomiędzy dwoma kolejnymi SNP-ami w chromosomie wynosiła około 1600 markerów, co gwarantowało brak korelacji pomiędzy SNPami przyczynowymi. Wartość β dla pierwszego SNP-a została ustalona na poziomie 0,05, dla kolejnych była zwiększana o 0,01. Model przyczynowy przedstawiony jest w tabeli 1. Dla tak przygotowanego modelu zostały wyliczone wartości y i. Przygotowałem 100 zestawów Y, w których wartości y i zostały zaburzone losowymi wartościami wprowadzonymi przez składnik ε i. Tab. 1: Model przyczynowy Nr SNPId Chr Pos beta p-value Single Marker Test 11 SNP_A , SNP_A , SNP_A , SNP_A , SNP_A , SNP_A , SNP_A , SNP_A , SNP_A , SNP_A , SNP_A , SNP_A , e SNP_A , SNP_A , SNP_A ,19 0
9 EA-MOSGWA narzędzie do wyznaczania 255 Parametry algorytmu ewolucyjnego Algorytm został uruchomiony z następującymi parametrami: modelsno = 10 rozmiar populacji; maxnoprogressiter = 1000 kryterium stopu. Jeżeli nie nastąpi poprawa wśród B najlepszych osobników w populacji w ciągu 1000 iteracji; B = 10 liczba określająca najlepsze osobniki, które są brane pod uwagę w kryterium stopu; pcross = 0,95 prawdopodobieństwo rekombinacji pmutation = 0,25 prawdopodobieństwo mutacji tournamentsize = 2 rozmiar turnieju Scenariusze symulacji Symulacje zostały przeprowadzone według dwóch scenariuszy. Pierwszy scenariusz miał za zadanie sprawdzenie, czy zastosowany algorytm zbiega się do najlepszego rozwiązania oraz dla jakich wartości β potrafi znaleźć SNP-y przyczynowe. SNP-y o mniejszych wartościach β są trudniejsze do zlokalizowania. Zostało wykonanych 100 symulacje na tym samym zestawie fenotypów (y i ). Drugi scenariusz miał za zadanie sprawdzić, czy program będzie działał skutecznie w sytuacji, gdzie dane wejściowe są zaburzone. Zostało wykonanych 100 symulacji, każda na innym zestawie fenotypów, które nieznacznie różniły się między sobą wartością ε i. Wyniki Najważniejszymi wynikami algorytmu są: liczba poprawnie wykrytych SNP-ów przyczynowych nazywana mocą (ang. Power), współczynnik fałszywych odkryć (ang. False Discovery Rate, w skrócie FDR) oraz liczba fałszywych odkryć (FD). Moc wyraża się wzorem: POWER = TP/M C (4) gdzie TP liczba wykrytych przyczynowych SNP-ów, M C liczba SNP-ów w modelu przyczynowym. Współczynnik fałszywych odkryć oblicza się ze wzoru: FDR = FP/(TP + FP) (5) gdzie FP liczba fałszywych odkryć. Liczba fałszywych odkryć jest równa FP. SNP jest traktowany jako True Positive jeśli program zaklasyfikował dokładnie SNP-a przyczynowego lub SNP-a, który jest z nim skorelowany powy-
10 256 A. Gola żej 0,5. Jeżeli ze SNPem przyczynowym jest skorelowanych więcej niż jeden SNP, to jeden z nich jest traktowany jako True Positive, natomiast pozostałe są traktowane jako False Positive. Tab. 2: Wyniki EA-MOSGWA dla pierwszego i drugiego scenariusza POWER Scenariusz pierwszy FDR Liczba fałszywych SNP-ów POWER Scenariusz drugi FDR Liczba fałszywych SNP-ów Średnia 0,6667 0,0891 0,9800 0,6246 0,0434 0,4600 Maksimum 0,6667 0,0909 1,0000 0,8000 0,2222 3,0000 Minimum 0,6667 0,000 0,0000 0,4666 0,0000 0,0000 Odch. stand. 0,000 0,0128 0,1407 0,0818 0,0657 0,7166 Tab. 3: Częstość wykrywania przyczynowych SNP-ów w obu scenariuszach β scenariusz I scenariusz II Tabela 2 przedstawia wyniki dla obu scenariuszy. Zawiera średnią, wartość maksymalną, minimalną oraz odchylenie standardowe. Natomiast tabela 3
11 EA-MOSGWA narzędzie do wyznaczania 257 przedstawia liczbę prawdziwych odkryć dla obu scenariuszy. Wykres mocy dla scenariusz pierwszego został przedstawiony na rysunku 2, a dla scenariusza drugiego na rysunku Rys. 2. Wykres mocy (POWER) dla pierwszego scenariusza Rys. 3. Wykres mocy (POWER) dla drugiego scenariusza Wyniki pierwszego scenariusza potwierdziły zdolność algorytmu do zbiegania się do optymalnego rozwiązania. EA-MOSGWA potrafi poprawnie wykrywać SNP-y przyczynowe, które mają współczynniki β na poziomie 0,1. Program generuje stabilne wyniki. Dla niewielkiej liczby symulacji algorytm
12 258 A. Gola nie zaklasyfikował żadnego fałszywego SNP, o czym świadczy małe odchylenie standardowe. Natomiast w większości przypadków liczba zaklasyfikowanych fałszywych SNP-ów wynosiła 1. W przypadku drugiej symulacji wyniki są nieznacznie gorsze, moc zmniejszyła się o ok. 4%. Zwiększyła się natomiast liczba fałszywych odkryć do 3 SNP-ów. Przyczyną są wprowadzone zróżnicowane zaburzenia wartości y i. Jednak najlepszy wynik jest na poziomie 80% poprawnych odkryć. W obu przypadkach modele wyznaczone przez EA-MOSGWA były lepiej oceniane (mniejsze wartości mbic2) według zmodyfikowanego kryterium Bayesa niż przyczynowy model. Dla modelu przyczynowego mbic2 wynosił 34109,37, natomiast proponowany algorytm w pierwszym scenariuszu osiągnął średnią wartość mbic2: 34090,91. Tabela 4 przedstawia wartości mbic2 dla drugiego scenariusza. Oznacza to znaczny wpływ składnika ε i występującego w równaniu (1), który wprowadza dodatkowe zaburzenia do danych wejściowych na wielkość mbic2. Tab. 4: Porównanie mbic2 modelu przyczynowego i wyznaczonego przez EA-MOSGWA EA-MOSGWA Model przyczynowy Średnia 34119, ,054 Maksimum 34323, ,200 Minimum 33924, ,300 Odchylenie standardowe 83,150 85,450 Podsumowanie Otrzymane wyniki potwierdzają prawidłowość zastosowanych rozwiązań oraz użyteczność prezentowanej metody w badaniach asocjacyjnych całego genomu. O ile EA-MOSGWA potrafi wykrywać markery przyczynowe o niewielkich wartościach β, to na ich podstawie nie można oszacować stopnia niepewności, który charakteryzuje każdą decyzję statystyczną. Jest to bardzo ważne, ponieważ pracując z danymi rzeczywistymi, nie znamy SNPów przyczynowych a powinniśmy określić, w jakim stopniu ufamy otrzymanym wynikom. Jest to jednak tematem dalszych prac nad algorytmem. Podziękowania Pragnę gorąco podziękować dr hab. Małgorzacie Bogdan oraz dr. hab. Florianowi Fromletowi za przekazaną wiedzę, bez której ten program by nie powstał, za pomoc przy rozwiązywaniu problemów pojawiających się w trakcie
13 EA-MOSGWA narzędzie do wyznaczania 259 opracowywania nowej metody oraz wszelkie wskazówki i uwagi, które wpłynęły na ulepszenie metod zaimplementowanych w programie EA-MOSGWA. Chciałbym również podziękować dr. Bernhardowi Bodenstorfer i mgr. Erichowi Dolejsi za pomoc związaną z wykorzystaniem funkcji programu MOSGA. Symulacje komputerowe zostały wykonane w pracowni naukowej IMI, utworzonej w ramach projektu badawczego DS/IMI/106/2012. Literatura [1] Begum F., Ghosh D., Tseng G.C., and Feingold E., Comprehensive literature review and statistical considerations for GWAS meta-analysis, Nucleic Acids Res., 2012 May; 40(9): [2] Frommlet, F., Ljubic, I., Arnardottir, H. and Bogdan, M., QTL Mapping Using a Memetic Algorithm with modications of BIC as fitness function, Statistical Applications in Genetics and Molecular Biology 11 (4) Article 2, [3] Frommlet F., Ruhaltinger F., Twarog P. and Bogdan M., Modied versions of Bayesian Information Criterion for genome-wide association studies. CSDA, , [4] Goldberg D., Algorytmy genetyczne i ich zastosowania, WNT, Warszawa, [5] Guan, Y. and Stephens, M., Bayesian Variable Selection Regression for Genome-wide Association Studies, and other Large-Scale Problems, Ann. Appl. Stat , [6] He Q. and Lin, D., A variable selection method for genome-wide association studies, Bioinformatics , [7] Michalewicz Zb. Algorytmy Genetyczne + Struktury Danych = Programy Ewolucyjne, WNT, Warszawa, [8] Wu, T.T., Chen, Y.F., Hastie, T., Sobel, E. and Lange, K. (2011). Genome-wide association analysis by lasso penalized logistic regression. Bioinformatics
14 260 A. Gola Artur Gola Akademia im. Jana Długosza w Częstochowie EA-MOSGWA A TOOL FOR IDENTIFYING CAUSAL GENES IN GENOME WIDE ASSOCIATION STUDIES Abstract This paper presents the current stage of the development of EA-MOSGWA a tool for identifying causal genes in Genome Wide Association Studies (GWAS). The main goal of GWAS is to identify genes which are causal for a particular disease and also genes which may be responsible for a given trait, e.g eyes color. The studies conduct to examine hundred of thousand Single Nucleotide Polymorphisms (SNP) and assign them to clinical cases or the measurable traits. Very important in this kind of research is to identify as many causal SNP as possible while minimizing the number of false SNPs. A false positive SNP is a SNP which in fact is not causal and the program has classified him as a causal. I present the results of the simulation study, which show that the proposed algorithm has good properties with respect to these two statistical parameters. I present the results of the simulation study, which show that the proposed algorithm has good properties with respect to these two statistical parameters. Keywords: Evolutionary Algorithm, Genome Wide Association, linear regression.
Algorytm genetyczny (genetic algorithm)-
Optymalizacja W praktyce inżynierskiej często zachodzi potrzeba znalezienia parametrów, dla których system/urządzenie będzie działać w sposób optymalny. Klasyczne podejście do optymalizacji: sformułowanie
Algorytmy genetyczne
9 listopada 2010 y ewolucyjne - zbiór metod optymalizacji inspirowanych analogiami biologicznymi (ewolucja naturalna). Pojęcia odwzorowujące naturalne zjawiska: Osobnik Populacja Genotyp Fenotyp Gen Chromosom
Algorytm Genetyczny. zastosowanie do procesów rozmieszczenia stacji raportujących w sieciach komórkowych
Algorytm Genetyczny zastosowanie do procesów rozmieszczenia stacji raportujących w sieciach komórkowych Dlaczego Algorytmy Inspirowane Naturą? Rozwój nowych technologii: złożone problemy obliczeniowe w
Algorytm hybrydowy dla alokacji portfela inwestycyjnego przy ograniczonych zasobach
Adam Stawowy Algorytm hybrydowy dla alokacji portfela inwestycyjnego przy ograniczonych zasobach Summary: We present a meta-heuristic to combine Monte Carlo simulation with genetic algorithm for Capital
ALGORYTMY GENETYCZNE ćwiczenia
ćwiczenia Wykorzystaj algorytmy genetyczne do wyznaczenia minimum globalnego funkcji testowej: 1. Wylosuj dwuwymiarową tablicę 100x2 liczb 8-bitowych z zakresu [-100; +100] reprezentujących inicjalną populację
Strategie ewolucyjne. Gnypowicz Damian Staniszczak Łukasz Woźniak Marek
Strategie ewolucyjne Gnypowicz Damian Staniszczak Łukasz Woźniak Marek Strategie ewolucyjne, a algorytmy genetyczne Podobieństwa: Oba działają na populacjach rozwiązań Korzystają z zasad selecji i przetwarzania
PLAN WYKŁADU OPTYMALIZACJA GLOBALNA OPERATOR KRZYŻOWANIA ETAPY KRZYŻOWANIA
PLAN WYKŁADU Operator krzyżowania Operator mutacji Operator inwersji Sukcesja Przykłady symulacji AG Kodowanie - rodzaje OPTYMALIZACJA GLOBALNA Wykład 3 dr inż. Agnieszka Bołtuć OPERATOR KRZYŻOWANIA Wymiana
Dobór parametrów algorytmu ewolucyjnego
Dobór parametrów algorytmu ewolucyjnego 1 2 Wstęp Algorytm ewolucyjny posiada wiele parametrów. Przykładowo dla algorytmu genetycznego są to: prawdopodobieństwa stosowania operatorów mutacji i krzyżowania.
Algorytmy ewolucyjne NAZEWNICTWO
Algorytmy ewolucyjne http://zajecia.jakubw.pl/nai NAZEWNICTWO Algorytmy ewolucyjne nazwa ogólna, obejmująca metody szczegółowe, jak np.: algorytmy genetyczne programowanie genetyczne strategie ewolucyjne
1. Analiza asocjacyjna. Cechy ciągłe. Cechy binarne. Analiza sprzężeń. Runs of homozygosity. Signatures of selection
BIOINFORMATYKA 1. Wykład wstępny 2. Bazy danych: projektowanie i struktura 3. Równowaga Hardyego-Weinberga, wsp. rekombinacji 4. Analiza asocjacyjna 5. Analiza asocjacyjna 6. Sekwencjonowanie nowej generacji
Zadania laboratoryjne i projektowe - wersja β
Zadania laboratoryjne i projektowe - wersja β 1 Laboratorium Dwa problemy do wyboru (jeden do realizacji). 1. Water Jug Problem, 2. Wieże Hanoi. Water Jug Problem Ograniczenia dla każdej z wersji: pojemniki
Algorytmy genetyczne. Dariusz Banasiak. Katedra Informatyki Technicznej Wydział Elektroniki
Dariusz Banasiak Katedra Informatyki Technicznej Wydział Elektroniki Obliczenia ewolucyjne (EC evolutionary computing) lub algorytmy ewolucyjne (EA evolutionary algorithms) to ogólne określenia używane
Algorytmy ewolucyjne - algorytmy genetyczne. I. Karcz-Dulęba
Algorytmy ewolucyjne - algorytmy genetyczne I. Karcz-Dulęba Algorytmy klasyczne a algorytmy ewolucyjne Przeszukiwanie przestrzeni przez jeden punkt bazowy Przeszukiwanie przestrzeni przez zbiór punktów
Strefa pokrycia radiowego wokół stacji bazowych. Zasięg stacji bazowych Zazębianie się komórek
Problem zapożyczania kanałów z wykorzystaniem narzędzi optymalizacji Wprowadzenie Rozwiązanie problemu przydziału częstotliwości prowadzi do stanu, w którym każdej stacji bazowej przydzielono żądaną liczbę
Generowanie i optymalizacja harmonogramu za pomoca
Generowanie i optymalizacja harmonogramu za pomoca na przykładzie generatora planu zajęć Matematyka Stosowana i Informatyka Stosowana Wydział Fizyki Technicznej i Matematyki Stosowanej Politechnika Gdańska
Optymalizacja ciągła
Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej
Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa
Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa M. Czoków, J. Piersa 2012-01-10 1 Łańcucha Markowa 2 Istnienie Szukanie stanu stacjonarnego 3 1 Łańcucha Markowa 2 Istnienie Szukanie stanu stacjonarnego
Aproksymacja funkcji a regresja symboliczna
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą
w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(), zwaną funkcją aproksymującą
Algorytmy genetyczne
Algorytmy genetyczne Motto: Zamiast pracowicie poszukiwać najlepszego rozwiązania problemu informatycznego lepiej pozwolić, żeby komputer sam sobie to rozwiązanie wyhodował! Algorytmy genetyczne służą
Odkrywanie algorytmów kwantowych za pomocą programowania genetycznego
Odkrywanie algorytmów kwantowych za pomocą programowania genetycznego Piotr Rybak Koło naukowe fizyków Migacz, Uniwersytet Wrocławski Piotr Rybak (Migacz UWr) Odkrywanie algorytmów kwantowych 1 / 17 Spis
Algorytmy genetyczne. Paweł Cieśla. 8 stycznia 2009
Algorytmy genetyczne Paweł Cieśla 8 stycznia 2009 Genetyka - nauka o dziedziczeniu cech pomiędzy pokoleniami. Geny są czynnikami, które decydują o wyglądzie, zachowaniu, rozmnażaniu każdego żywego organizmu.
Wykorzystanie testu t dla pojedynczej próby we wnioskowaniu statystycznym
Wiesława MALSKA Politechnika Rzeszowska, Polska Anna KOZIOROWSKA Uniwersytet Rzeszowski, Polska Wykorzystanie testu t dla pojedynczej próby we wnioskowaniu statystycznym Wstęp Wnioskowanie statystyczne
Kompresja danych Streszczenie Studia Dzienne Wykład 10,
1 Kwantyzacja wektorowa Kompresja danych Streszczenie Studia Dzienne Wykład 10, 28.04.2006 Kwantyzacja wektorowa: dane dzielone na bloki (wektory), każdy blok kwantyzowany jako jeden element danych. Ogólny
Algorytmy memetyczne (hybrydowe algorytmy ewolucyjne)
Algorytmy memetyczne (hybrydowe algorytmy ewolucyjne) 1 2 Wstęp Termin zaproponowany przez Pablo Moscato (1989). Kombinacja algorytmu ewolucyjnego z algorytmem poszukiwań lokalnych, tak że algorytm poszukiwań
1. Symulacje komputerowe Idea symulacji Przykład. 2. Metody próbkowania Jackknife Bootstrap. 3. Łańcuchy Markova. 4. Próbkowanie Gibbsa
BIOINFORMATYKA 1. Wykład wstępny 2. Bazy danych: projektowanie i struktura 3. Równowaga Hardyego-Weinberga, wsp. rekombinacji 4. Analiza asocjacyjna 5. Analiza asocjacyjna 6. Sekwencjonowanie nowej generacji
Podejście memetyczne do problemu DCVRP - wstępne wyniki. Adam Żychowski
Podejście memetyczne do problemu DCVRP - wstępne wyniki Adam Żychowski Na podstawie prac X. S. Chen, L. Feng, Y. S. Ong A Self-Adaptive Memeplexes Robust Search Scheme for solving Stochastic Demands Vehicle
Algorytmy genetyczne. Materiały do laboratorium PSI. Studia niestacjonarne
Algorytmy genetyczne Materiały do laboratorium PSI Studia niestacjonarne Podstawowy algorytm genetyczny (PAG) Schemat blokowy algorytmu genetycznego Znaczenia, pochodzących z biologii i genetyki, pojęć
LABORATORIUM 4: Algorytmy ewolucyjne cz. 2 wpływ operatorów krzyżowania i mutacji na skuteczność poszukiwań AE
Instytut Mechaniki i Inżynierii Obliczeniowej Wydział Mechaniczny Technologiczny, Politechnika Śląska www.imio.polsl.pl METODY HEURYSTYCZNE LABORATORIUM 4: Algorytmy ewolucyjne cz. 2 wpływ operatorów krzyżowania
Metody Rozmyte i Algorytmy Ewolucyjne
mgr inż. Wydział Matematyczno-Przyrodniczy Szkoła Nauk Ścisłych Uniwersytet Kardynała Stefana Wyszyńskiego Podstawowe operatory genetyczne Plan wykładu Przypomnienie 1 Przypomnienie Metody generacji liczb
Zadanie 5 - Algorytmy genetyczne (optymalizacja)
Zadanie 5 - Algorytmy genetyczne (optymalizacja) Marcin Pietrzykowski mpietrzykowski@wi.zut.edu.pl wersja 1.0 1 Cel Celem zadania jest zapoznanie się z Algorytmami Genetycznymi w celu rozwiązywanie zadania
Algorytmy ewolucyjne 1
Algorytmy ewolucyjne 1 2 Zasady zaliczenia przedmiotu Prowadzący (wykład i pracownie specjalistyczną): Wojciech Kwedlo, pokój 205. Konsultacje dla studentów studiów dziennych: poniedziałek,środa, godz
Sztuczna Inteligencja Tematy projektów Sieci Neuronowe
PB, 2009 2010 Sztuczna Inteligencja Tematy projektów Sieci Neuronowe Projekt 1 Stwórz projekt implementujący jednokierunkową sztuczną neuronową złożoną z neuronów typu sigmoidalnego z algorytmem uczenia
Algorytmy genetyczne. Materiały do laboratorium PSI. Studia stacjonarne i niestacjonarne
Algorytmy genetyczne Materiały do laboratorium PSI Studia stacjonarne i niestacjonarne Podstawowy algorytm genetyczny (PAG) Schemat blokowy algorytmu genetycznego Znaczenia, pochodzących z biologii i genetyki,
Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań
Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań Anna Manerowska, Michal Kozakiewicz 2.12.2009 1 Wstęp Jako projekt na przedmiot MEUM (Metody Ewolucyjne Uczenia Maszyn)
Monte Carlo, bootstrap, jacknife
Monte Carlo, bootstrap, jacknife Literatura Bruce Hansen (2012 +) Econometrics, ze strony internetowej: http://www.ssc.wisc.edu/~bhansen/econometrics/ Monte Carlo: rozdział 8.8, 8.9 Bootstrap: rozdział
Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne
Wykład 4 Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym 2. Rozkłady próbkowe 3. Centralne twierdzenie graniczne Przybliżenie rozkładu dwumianowego rozkładem normalnym Niech Y ma rozkład
Algorytmy ewolucyjne `
Algorytmy ewolucyjne ` Wstęp Czym są algorytmy ewolucyjne? Rodzaje algorytmów ewolucyjnych Algorytmy genetyczne Strategie ewolucyjne Programowanie genetyczne Zarys historyczny Alan Turing, 1950 Nils Aall
Algorytmy genetyczne w optymalizacji
Algorytmy genetyczne w optymalizacji Literatura 1. David E. Goldberg, Algorytmy genetyczne i ich zastosowania, WNT, Warszawa 1998; 2. Zbigniew Michalewicz, Algorytmy genetyczne + struktury danych = programy
SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.
SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Wstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński
Wstęp do teorii niepewności pomiaru Danuta J. Michczyńska Adam Michczyński Podstawowe informacje: Strona Politechniki Śląskiej: www.polsl.pl Instytut Fizyki / strona własna Instytutu / Dydaktyka / I Pracownia
operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je.
Problem porządkowania zwanego również sortowaniem jest jednym z najważniejszych i najpopularniejszych zagadnień informatycznych. Dane: Liczba naturalna n i ciąg n liczb x 1, x 2,, x n. Wynik: Uporządkowanie
Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova
Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova M. Czoków, J. Piersa 2010-12-21 1 Definicja Własności Losowanie z rozkładu dyskretnego 2 3 Łańcuch Markova Definicja Własności Losowanie z rozkładu
Testowanie hipotez statystycznych
9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :
WYZNACZANIE NIEPEWNOŚCI POMIARU METODAMI SYMULACYJNYMI
WYZNACZANIE NIEPEWNOŚCI POMIARU METODAMI SYMULACYJNYMI Stefan WÓJTOWICZ, Katarzyna BIERNAT ZAKŁAD METROLOGII I BADAŃ NIENISZCZĄCYCH INSTYTUT ELEKTROTECHNIKI ul. Pożaryskiego 8, 04-703 Warszawa tel. (0)
Programowanie genetyczne, gra SNAKE
STUDENCKA PRACOWNIA ALGORYTMÓW EWOLUCYJNYCH Tomasz Kupczyk, Tomasz Urbański Programowanie genetyczne, gra SNAKE II UWr Wrocław 2009 Spis treści 1. Wstęp 3 1.1. Ogólny opis.....................................
Przykładowe sprawozdanie. Jan Pustelnik
Przykładowe sprawozdanie Jan Pustelnik 30 marca 2007 Rozdział 1 Sformułowanie problemu Tematem pracy jest porównanie wydajności trzech tradycyjnych metod sortowania: InsertionSort, SelectionSort i BubbleSort.
SZTUCZNA INTELIGENCJA
SZTUCZNA INTELIGENCJA WYKŁAD 17. ALGORYTMY EWOLUCYJNE Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska KODOWANIE BINARNE Problem różnych struktur przestrzeni
FOLIA POMERANAE UNIVERSITATIS TECHNOLOGIAE STETINENSIS Folia Pomer. Univ. Technol. Stetin. 2009, Oeconomica 275 (57), 53 58
FOLIA POMERANAE UNIVERSITATIS TECHNOLOGIAE STETINENSIS Folia Pomer. Univ. Technol. Stetin. 2009, Oeconomica 275 (57), 53 58 Anna LANDOWSKA ROZWIĄZANIE PROBLEMU OPTYMALNEGO PRZYDZIAŁU ZA POMOCĄ KLASYCZNEGO
Temat: Algorytm kompresji plików metodą Huffmana
Temat: Algorytm kompresji plików metodą Huffmana. Wymagania dotyczące kompresji danych Przez M oznaczmy zbiór wszystkich możliwych symboli występujących w pliku (alfabet pliku). Przykład M = 2, gdy plik
Sterowanie wielkością zamówienia w Excelu - cz. 3
Sterowanie wielkością zamówienia w Excelu - cz. 3 21.06.2005 r. 4. Planowanie eksperymentów symulacyjnych Podczas tego etapu ważne jest określenie typu rozkładu badanej charakterystyki. Dzięki tej informacji
Spacery losowe generowanie realizacji procesu losowego
Spacery losowe generowanie realizacji procesu losowego Michał Krzemiński Streszczenie Omówimy metodę generowania trajektorii spacerów losowych (błądzenia losowego), tj. szczególnych procesów Markowa z
IMPLIKACJE ZASTOSOWANIA KODOWANIA OPARTEGO NA LICZBACH CAŁKOWITYCH W ALGORYTMIE GENETYCZNYM
IMPLIKACJE ZASTOSOWANIA KODOWANIA OPARTEGO NA LICZBACH CAŁKOWITYCH W ALGORYTMIE GENETYCZNYM Artykuł zawiera opis eksperymentu, który polegał na uyciu algorytmu genetycznego przy wykorzystaniu kodowania
Program MC. Obliczyć radialną funkcję korelacji. Zrobić jej wykres. Odczytać z wykresu wartość radialnej funkcji korelacji w punkcie r=
Program MC Napisać program symulujący twarde kule w zespole kanonicznym. Dla N > 100 twardych kul. Gęstość liczbowa 0.1 < N/V < 0.4. Zrobić obliczenia dla 2,3 różnych wartości gęstości. Obliczyć radialną
Metody przeszukiwania
Metody przeszukiwania Co to jest przeszukiwanie Przeszukiwanie polega na odnajdywaniu rozwiązania w dyskretnej przestrzeni rozwiązao. Zwykle przeszukiwanie polega na znalezieniu określonego rozwiązania
ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x
ZJAZD 4 KORELACJA, BADANIE NIEZALEŻNOŚCI, ANALIZA REGRESJI Analiza korelacji i regresji jest działem statystyki zajmującym się badaniem zależności i związków pomiędzy rozkładami dwu lub więcej badanych
Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa.
Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa. Paweł Strawiński Uniwersytet Warszawski Wydział Nauk Ekonomicznych 16 stycznia 2006 Streszczenie W artykule analizowane są właściwości
Zmienne zależne i niezależne
Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }
METODY STATYSTYCZNE W BIOLOGII
METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne
6. Klasyczny algorytm genetyczny. 1
6. Klasyczny algorytm genetyczny. 1 Idea algorytmu genetycznego została zaczerpnięta z nauk przyrodniczych opisujących zjawiska doboru naturalnego i dziedziczenia. Mechanizmy te polegają na przetrwaniu
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z liniowym zadaniem najmniejszych
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
Optymalizacja systemów
Optymalizacja systemów Laboratorium - problem detekcji twarzy autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, P. Klukowski Cel zadania Celem zadania jest zapoznanie się z gradientowymi algorytmami optymalizacji
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
STATYSTYKA MATEMATYCZNA
STATYSTYKA MATEMATYCZNA 1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5.
Szacowanie wartości hodowlanej. Zarządzanie populacjami
Szacowanie wartości hodowlanej Zarządzanie populacjami wartość hodowlana = wartość cechy? Tak! Przy h 2 =1 ? wybitny ojciec = wybitne dzieci Tak, gdy cecha wysokoodziedziczalna. Wartość hodowlana genetycznie
WSKAZÓWKI DO WYKONANIA SPRAWOZDANIA Z WYRÓWNAWCZYCH ZAJĘĆ LABORATORYJNYCH
WSKAZÓWKI DO WYKONANIA SPRAWOZDANIA Z WYRÓWNAWCZYCH ZAJĘĆ LABORATORYJNYCH Dobrze przygotowane sprawozdanie powinno zawierać następujące elementy: 1. Krótki wstęp - maksymalnie pół strony. W krótki i zwięzły
Luty 2001 Algorytmy (4) 2000/2001
Mając dany zbiór elementów, chcemy znaleźć w nim element największy (maksimum), bądź najmniejszy (minimum). We wszystkich naturalnych metodach znajdywania najmniejszego i największego elementu obecne jest
Wybrane podstawowe rodzaje algorytmów
Wybrane podstawowe rodzaje algorytmów Tomasz Głowacki tglowacki@cs.put.poznan.pl Zajęcia finansowane z projektu "Rozwój i doskonalenie kształcenia na Politechnice Poznańskiej w zakresie technologii informatycznych
Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa
Spis treści Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis treści Spis treści 1 Wstęp Bardzo często interesujący
PODSTAWY BIOINFORMATYKI 11 BAZA DANYCH HAPMAP
PODSTAWY BIOINFORMATYKI 11 BAZA DANYCH HAPMAP WSTĘP 1. SNP 2. haplotyp 3. równowaga sprzężeń 4. zawartość bazy HapMap 5. przykłady zastosowań Copyright 2013, Joanna Szyda HAPMAP BAZA DANYCH HAPMAP - haplotypy
Opis wykonanych badań naukowych oraz uzyskanych wyników
Opis wykonanych badań naukowych oraz uzyskanych wyników 1. Analiza danych (krok 2 = uwzględnienie epistazy w modelu): detekcja QTL przy wykorzystaniu modeli dwuwymiarowych z uwzględnieniem różnych modeli
Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną
Metody oparte na logicznej regresji. zastosowaniu do wykrywania interakcji SNPów
w zastosowaniu do wykrywania interakcji SNPów Instytut Matematyczny, Uniwersytet Wrocławski Wisła, 9 grudnia 2009 DNA Zmienność genetyczna Polimorfizm to zmiana w strukturze DNA, obecna u co najmniej 1%
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 2 Detekcja twarzy autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się algorytmem gradientu prostego
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny
Strategie ewolucyjne (ang. evolution strategies)
Strategie ewolucyjne (ang. evolution strategies) 1 2 Szybki przegląd Rozwijane w Niemczech w latach 60-70. Wcześni badacze: I. Rechenberg, H.-P. Schwefel (student Rechenberga). Typowe zastosowanie: Optymalizacja
Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów
Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa Diagnostyka i niezawodność robotów Laboratorium nr 6 Model matematyczny elementu naprawialnego Prowadzący: mgr inż. Marcel Luzar Cele ćwiczenia:
SZTUCZNA INTELIGENCJA
SZTUCZNA INTELIGENCJA WYKŁAD 15. ALGORYTMY GENETYCZNE Częstochowa 014 Dr hab. nż. Grzegorz Dudek Wydzał Elektryczny Poltechnka Częstochowska TERMINOLOGIA allele wartośc, waranty genów, chromosom - (naczej
5. Rozwiązywanie układów równań liniowych
5. Rozwiązywanie układów równań liniowych Wprowadzenie (5.1) Układ n równań z n niewiadomymi: a 11 +a 12 x 2 +...+a 1n x n =a 10, a 21 +a 22 x 2 +...+a 2n x n =a 20,..., a n1 +a n2 x 2 +...+a nn x n =a
WSTĘP. Copyright 2011, Joanna Szyda
BIOINFORMATYKA 1. Wykład wstępny 2. Struktury danych w badaniach bioinformatycznych 3. Bazy danych: projektowanie i struktura 4. Bazy danych: projektowanie i struktura 5. Równowaga Hardyego-Weinberga,
Statystyka opisowa. Wykład V. Regresja liniowa wieloraka
Statystyka opisowa. Wykład V. e-mail:e.kozlovski@pollub.pl Spis treści 1 Prosta regresji cechy Y względem cech X 1,..., X k. 2 3 Wyznaczamy zależność cechy Y od cech X 1, X 2,..., X k postaci Y = α 0 +
Obliczenia ewolucyjne - plan wykładu
Obliczenia ewolucyjne - plan wykładu Wprowadzenie Algorytmy genetyczne Programowanie genetyczne Programowanie ewolucyjne Strategie ewolucyjne Inne modele obliczeń ewolucyjnych Podsumowanie Ewolucja Ewolucja
Pobieranie prób i rozkład z próby
Pobieranie prób i rozkład z próby Marcin Zajenkowski Marcin Zajenkowski () Pobieranie prób i rozkład z próby 1 / 15 Populacja i próba Populacja dowolnie określony zespół przedmiotów, obserwacji, osób itp.
Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)
Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej) 1 Podział ze względu na zakres danych użytych do wyznaczenia miary Miary opisujące
FOLIA POMERANAE UNIVERSITATIS TECHNOLOGIAE STETINENSIS Folia Pomer. Univ. Technol. Stetin. 2011, Oeconomica 285 (62), 45 50
FOLIA POMERANAE UNIVERSITATIS TECHNOLOGIAE STETINENSIS Folia Pomer. Univ. Technol. Stetin. 2011, Oeconomica 285 (62), 45 50 Anna Landowska KLASYCZNY ALGORYTM GENETYCZNY W DYNAMICZNEJ OPTYMALIZACJI MODELU
Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki
Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki Przetwarzanie Sygnałów Studia Podyplomowe, Automatyka i Robotyka. Wstęp teoretyczny Zmienne losowe Zmienne losowe
Rozpoznawanie obrazów
Rozpoznawanie obrazów Laboratorium Python Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest implementacja liniowego zadania
Politechnika Gdańska Wydział Elektrotechniki i Automatyki Katedra Inżynierii Systemów Sterowania
Politechnika Gdańska Wydział Elektrotechniki i Automatyki Katedra Inżynierii Systemów Sterowania Metody optymalizacji Metody bezgradientowe optymalizacji bez ograniczeń Materiały pomocnicze do ćwiczeń
1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:
Metoda analizy macierzy współczynników korelacji Idea metody sprowadza się do wyboru takich zmiennych objaśniających, które są silnie skorelowane ze zmienną objaśnianą i równocześnie słabo skorelowane
Próbkowanie. Wykład 4 Próbkowanie i rozkłady próbkowe. Populacja a próba. Błędy w póbkowaniu, cd, Przykład 1 (Ochotnicy)
Wykład 4 Próbkowanie i rozkłady próbkowe µ = średnia w populacji, µ=ey, wartość oczekiwana zmiennej Y σ= odchylenie standardowe w populacji, σ =(Var Y) 1/2, pierwiastek kwadratowy wariancji zmiennej Y,
Haszowanie (adresowanie rozpraszające, mieszające)
Haszowanie (adresowanie rozpraszające, mieszające) Tadeusz Pankowski H. Garcia-Molina, J.D. Ullman, J. Widom, Implementacja systemów baz danych, WNT, Warszawa, Haszowanie W adresowaniu haszującym wyróżniamy
INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH
INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH 1. Czym jest eksploracja danych Eksploracja danych definiowana jest jako zbiór technik odkrywania nietrywialnych zależności i schematów w dużych
b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:
ROZWIĄZANIA I ODPOWIEDZI Zadanie A1. Można założyć, że przy losowaniu trzech kul jednocześnie kolejność ich wylosowania nie jest istotna. A więc: Ω = 20 3. a) Niech: - wśród trzech wylosowanych opakowań
Zadania ze statystyki, cz.6
Zadania ze statystyki, cz.6 Zad.1 Proszę wskazać, jaką część pola pod krzywą normalną wyznaczają wartości Z rozkładu dystrybuanty rozkładu normalnego: - Z > 1,25 - Z > 2,23 - Z < -1,23 - Z > -1,16 - Z
5. Algorytm genetyczny przykład zastosowania
5. Algorytm genetyczny przykład zastosowania Zagadnienie magicznych kwadratów Opis działania algorytmu Zagadnienie magicznych kwadratów polega na wygenerowaniu kwadratu n n, w którym elementami są liczby
Analiza statystyczna trudności tekstu
Analiza statystyczna trudności tekstu Łukasz Dębowski ldebowsk@ipipan.waw.pl Problem badawczy Chcielibyśmy mieć wzór matematyczny,...... który dla dowolnego tekstu...... na podstawie pewnych statystyk......
Porównanie modeli regresji. klasycznymi modelami regresji liniowej i logistycznej
Porównanie modeli logicznej regresji z klasycznymi modelami regresji liniowej i logistycznej Instytut Matematyczny, Uniwersytet Wrocławski Małgorzata Bogdan Instytut Matematyki i Informatyki, Politechnika