ALGORYTMY KONSTRUOWANIA DENDROGRAMÓW STOSOWANYCH PRZY ANALIZIE FILOGENETYCZNEJ MIKROORGANIZMÓW
|
|
- Ksawery Wawrzyniak
- 8 lat temu
- Przeglądów:
Transkrypt
1 ALGORYTMY KONSTRUOWANIA DENDROGRAMÓW STOSOWANYCH PRZY ANALIZIE FILOGENETYCZNEJ MIKROORGANIZMÓW Filip Zdziennicki, Anna Misiewicz Instytut Biotechnologii Przemysłu Rolno-Spożywczego im. prof. Wacława Dąbrowskiego Zakład Mikrobiologii ul. Rakowiecka 36, Warszawa Streszczenie Bioinformatyka jest obecnie dynamicznie rozwijającą się dziedziną nauki, łączącą dwie dotychczas niezwiązane ze sobą dziedziny biologię oraz informatykę. Jej gwałtowny rozwój wynika z konieczności szybkiej i rzetelnej analizy dużej liczby danych otrzymywanych podczas badań. Dane te są niejednokrotnie złożone i wzajemnie powiązane, co wymusza zastosowanie odpowiednich narzędzi informatycznych oraz sprzętu o dużej mocy obliczeniowej. Jednym z takich narzędzi jest filogenetyka molekularna, która daje możliwość stosowania kilku algorytmów konstruowania dendrogramów będących graficzną prezentacją wyników analizy. W ciągu ostatnich lat nastąpił rozwój algorytmów konstruowania dendrogramów, poczynając od UPGMA, przez NJ, po metody znacznie bardziej szczegółowe, takie jak MP czy ML. Na rozwój ten wpływa potrzeba opracowania jak najbardziej optymalnej metody, która uwzględni złożoność procesów biologicznych stojących za danymi. Podstawą matematyczną każdego z opisanych algorytmów jest analiza skupień. Pozwala ona na grupowanie danych ze zbioru w mniejsze podzbiory na podstawie ich podobieństwa. Słowa kluczowe: metoda największej wiarygodności (ML), metoda największej oszczędności (MP), metoda przyłączania sąsiadów (NJ), metoda średnich połączeń (UPGMA) 68
2 DENDROGRAM CONSTRUCTING ALGORITHMS APPLIED IN PHYLOGENETIC ANALYSIS OF MICROORGANISMS Summary Nowadays bioinformatics is a dynamically developing field of science linking together two separated fields of biology and informatics. It is an answer to need of having fast and reliable analysis of large amount of data obtained during research. Such data is often complicated and requires adequate informatics tools and equipment with large computing power. One of these tools is molecular phylogenetics, which possibility to use a few dendrogram construction algorithms. Dendrogram is a graphical presentation of obtained results. Over the last years there is observed development of dendrogram constructing algorithms starting from UPGMA, then NJ to more specialized methods like MP or ML. Development of algorithms is forced by need of obtained most optimal method modeling biological process standing behind data. Mathematical base of each described algorithms is cluster analysis. It enables grouping data from set into smaller subsets according to similarity of data. Key words: maximal likelihood, maximal parsimony, neighbor joining, UPGMA WSTĘP W prowadzonych badaniach dotyczących identyfikacji, charakterystyki i różnicowania mikroorganizmów wykorzystuje się między innymi metody molekularne. Do analizy wyników badań stosowane są różne narzędzia bioinformatyczne, w tym filogenetyka molekularna, której celem jest porównywanie kilku genomów, aby znaleźć związki ewolucyjne między nimi. Wywodzi się ona z klasycznych sposobów uszeregowania organizmów zgodnie z ich podobieństwami i różnicami. Badane są zmienne cechy mikroorganizmów. Po wprowadzeniu fenetyki, uznającej konieczność oceny dużej liczby cech wpływających na właściwą klasyfikację, możliwe było przedstawienie ich w postaci numerycznej, a następnie poddanie analizie matematycznej. Obiektywne dane molekularne uzyskane doświadczalnie można było sprowadzić do postaci numerycznej i opracować statystycznie. Zmienność DNA może być więc określana bezpośrednio, poprzez analizy sekwencyjne, lub pośrednio np. przez różne wyniki elektroforegramów uzyskanych w analizie restrykcyjnej. Powszechną metodą prezentacji oceny zmienności jest stosowanie dendrogramów. Dendrogram jest to diagram w postaci drzewa, prezentujący zależności pomiędzy obiektami 69
3 na podstawie przyjętej zależności. Jedną z jego odmian jest filogram, nazywany inaczej drzewem filogenetycznym, często stosowaną odmianą jest także kladogram. Podstawową różnicą pomiędzy tymi odmianami jest brak uwzględnienia czasu pojawienia się nowych linii ewolucyjnych w przypadku kladogramu. Istnieje kilka metod budowy dendrogramów. Drzewa filogenetyczne można podzielić na drzewa ukorzenione oraz na nieukorzenione. Drzewa nieukorzenione wskazują wzajemne zależności pomiędzy obiektami, lecz nie wskazują pochodzenia poszczególnych obiektów. W przypadku drzew ukorzenionych można wyróżnić trzy podstawowe elementy. Przykładowy dendrogram został przedstawiony na rysunku 1. Cyfrą I oznaczono na nim liście, które odpowiadają analizowanym obiektom. Węzły łączące poszczególne obiekty zostały oznaczone cyfrą II. Węzły wskazują także miejsce, poniżej którego obiekty nie mają już części wspólnych i nastąpiło wydzielenie się jednego obiektu z drugiego. Odległości pomiędzy kolejnymi węzłami są nazywane gałęziami. Na rysunku zostały one oznaczone cyfrą III. Gałęzie opisują stopień podobieństwa pomiędzy obiektami w kolejnych węzłach. Im większa jest ta odległość, tym większa jest różnica pomiędzy obiektem przodkiem a obiektem potomkiem. Rysunek 1. Budowa drzewa filogenetycznego: I liście, II węzły, III gałęzie (materiały własne) Construction of the phylogenetic tree: I leaves, II nodes, III branches (own materials) Na rysunku 2. pokazano przekształcenie jednego drzewa nieukorzenionego w pięć drzew ukorzenionych. Drzewa dla uproszczenia zostały zaprezentowane jako kladogramy, później przekształcone w filogramy. Warto zauważyć, że dla czterech obiektów na rysunku, oznaczonych jako A, B, C i D, możliwe jest utworzenie trzech różnych drzew nieukorzenionych, a dla każdego z nich pięć drzew ukorzenionych. Miejsca, w których dokonana została transformacja drzewa nieukorzenionego w konkretne drzewo ukorzenione, zostały oznaczone na rysunku cyframi od 1 do 5. Zależność pomiędzy liczbą drzew 70
4 nieukorzenionych a liczbą drzew ukorzenionych można przedstawić za pomocą dwóch wzorów: R U (2n 3)! 2n 3)!! = n 2 ( n 2)!, dla n 2, n = ( 2 (2n 5)! 2n 5)!! = n 2 ( n 3)!, dla n 3, n = ( 3 gdzie: Rn liczba możliwych drzew ukorzenionych, Un liczba możliwych drzew nieukorzenionych, n liczna obiektów (liści). Z powyższych wzorów wynika, że liczba drzew nieukorzenionych z n liśćmi jest równa liczbie drzew ukorzenionych z n-1 liśćmi [Felsentein 2004]. Rysunek 2. Przekształcenie drzewa nieukorzenionego w drzewa ukorzenione (materiały własne) Transforming of unrooted tree into rooted one (own materials) 71
5 Rysunek 3. Przekształcenia topologiczne wybranego drzewa filogenetycznego (materiały własne) Topological transformation of the phylogenetic tree (own materials) Ważną cechą drzewa filogenetycznego jest jego topologia, czyli kształt, forma oraz układ. Na topologię drzew filogenetycznych ma wpływ występowanie i wzajemne położenie węzłów. Warto zauważyć, że gałęzie mogą się swobodnie obracać w węzłach, dzięki czemu otrzymywanych jest wiele, zależnie od liczby węzłów, drzew filogenetycznych. Zależności pomiędzy poszczególnymi węzłami w gałęziach nie ulegają zmianie, co za tym idzie zależności pomiędzy obiektami w danej gałęzi także nie ulegają zmianie. Należy zauważyć, że zmiany topologii mogą mieć wpływ na zależności pomiędzy obiektami znajdującymi się w różnych gałęziach. Sposób wyboru najlepszego drzewa został opisany w dalszej części tekstu. Na rysunku 2. przedstawiono dendrogram wraz z jego kolejnymi przekształceniami, polegającymi na obrocie gałęzi wokół osi przeprowadzonej wzdłuż węzła. Widoczne są cztery możliwe topologie, które w różny sposób przedstawiają to samo drzewo. Drzewo filogenetyczne jest porównywane do drzewa genealogicznego z tą różnicą, że drzewa genealogiczne nie są drzewami binarnymi w przeciwieństwie do drzew filogenetycznych. Wynika to z założenia, że w procesie ewolucji nowe gatunki wyodrębniały się pojedynczo z gatunku początkowego. Graficzna postać, jaką jest drzewo filogenetyczne, ułatwia analizę wyników badań, dlatego dendrogramy są powszechnie stosowanym narzędziem służącym do ich prezentacji. 72
6 1. Analiza skupień Drzewa filogenetyczne sporządzane są na podstawie przekształcenia macierzy zawierającej dane będące przedmiotem analizy [Posada 2009]. Najczęściej wykorzystywane są hierarchiczne drzewa filogenetyczne. Do ich utworzenia opracowano kilka algorytmów, opierających się na analizie skupień, która jest matematyczną podstawą analiz. Zasadą działania tej metody jest grupowanie elementów we względnie jednorodne klasy. Podstawą grupowania w większości algorytmów jest zbiór podobnych albo wspólnych cech określonych na wstępie analizy. Cechy te określa się jako podobieństwo pomiędzy elementami. Dzięki funkcji podobieństwa wiązanych ze sobą jest coraz więcej obiektów, poczynając od tych wykazujących się największym podobieństwem. Są one zbierane w skupienia elementów, coraz bardziej różniące się od siebie [Lewis 2001]. W końcowym etapie wszystkie obiekty ze zbioru początkowego zostają połączone ze sobą. W miejscach, gdzie zostały uformowane nowe pojedyncze skupienia, powstają na wykresie węzły, dzięki którym możliwe jest odczytanie odległości, w której odpowiednie elementy zostały ze sobą powiązane [Murtagh 1984]. Jeśli dane prezentowane na wykresie mają wyrazistą strukturę, to znaczy widoczne są skupienia podobnych do siebie obiektów, to taka struktura znajdzie odzwierciedlenie na hierarchicznym drzewie w postaci oddzielnych gałęzi. Pomyślna analiza za pomocą algorytmu łączącego obiekty daje możliwość wykrywania gałęzi i ich interpretacji [Jobling i in. 2004]. Do aglomeracji danych w skupienia wykorzystywane są miary rozbieżności lub odległości pomiędzy obiektami. Najbardziej bezpośrednim sposobem obliczenia odległości między obiektami w przestrzeni wielowymiarowej jest obliczenie odległości euklidesowej. Jeśli mamy przestrzeń dwu- lub trójwymiarową, miara ta wyznacza rzeczywistą odległość geometryczną między obiektami w przestrzeni. W przypadku analizy filogenetycznej oraz użytego do niej wybranego algorytmu możliwe jest wykorzystanie miary pochodnej odległości euklidesowej w zależności od potrzeb badacza. Niemniej jednak najczęściej stosowaną odległością jest odległość euklidesowa. Oblicza się ją następująco: Odległość (x, y) = [Σi (xi- yi) 2 ] ½, gdzie: x, y obiekty, xi- yi współrzędne obiektów x, y. Innym rozwiązaniem możliwym do zastosowania przy obliczaniu odległości jest kwadrat odległości euklidesowej. Dzięki podniesieniu odległości euklidesowej do kwadratu możliwe jest przypisanie obiektom bardziej oddalonym większej wagi. 73
7 Odległość (x, y) = Σi (xi- yi) 2, gdzie: x, y obiekty, xi- yi współrzędne obiektów x, y. Następną możliwością wyznaczenia odległości potrzebnej do analizy jest odległość miejsca, w literaturze anglojęzycznej znana jako Manhattan lub City block. Odległość ta jest sumą różnic mierzonych wzdłuż wymiarów. Uzyskane wyniki są w większości przypadków podobne do wyników otrzymanych z zastosowaniem odległości euklidesowej, aczkolwiek wpływ pojedynczych dużych różnic, czyli przypadków odstających, jest tłumiony. Odległość (x, y) = Σi xi- yi, gdzie: x, y obiekty, xi- yi współrzędne obiektów x, y. Istnieją także inne odległości możliwe do zastosowania w analizie skupień, aczkolwiek wymienione powyżej są podstawowymi odległościami stosowanymi przy tworzeniu dendrogramów na użytek analizy porównawczej organizmów na podstawie ich budowy molekularnej. Istotne jest podkreślenie potrzeby ustandaryzowania danych liczbowych w celu otrzymania wiarygodnych i łatwych do zinterpretowania danych. Dane powinny być wyrażone w tych samych jednostkach oraz opisywać ten sam lub podobny zbiór cech. 1.1 UPGMA Za najprostszą metodę konstrukcji dendrogramów uważana jest metoda średnich połączeń UPGMA (Unweighted Pair-Group Method using arithmetic Averages). Wynika to z prostoty stosowanego w niej algorytmu, a co za tym idzie z krótkiego czasu potrzebnego do opracowania danych oraz otrzymania wyniku w postaci odpowiedniego dendrogramu [Sokal, Michener 1958; Sokal, Sneath 1963; Nei 1975]. Drzewo konstruowane jest na podstawie algorytmu iteracyjnego, składającego się z wielokrotnie powtórzonej czynności grupowania obiektów, polegającej na łączeniu krawędzią każdych dwóch obiektów, które dzieli najmniejszy dystans spośród wszystkich obliczonych. Następnie czynność ta jest powtarzana i następują kolejne przyłączenia obiektów lub ich zgrupowań aż do wyczerpania danych i uzyskania pełnego obrazu drzewa [Fitch 1971; Nei 1975]. Wynikiem tego algorytmu jest dendrogram, który jest ukorzeniony. Istotnym ograniczeniem UPGMA jest błędne założenie, stosowane w większości analiz, o stałym tempie ewolucji każdego gatunku. Każde 74
8 odstępstwo od stałego tempa mutacji prowadzi do uzyskania błędnego grafu. Ze względu na swoje ograniczenia opisany powyżej algorytm jest coraz rzadziej stosowany w filogenetyce. Nadal znajduje jednak zastosowanie w bioinformatyce, przy analizie danych mikromacierzowych. 1.2 Neighbor-Joining Obecnie dużym uznaniem cieszy się metoda najbliższego sąsiada, czyli NJ (Neighbor- Joining). Jest ona oparta na innej, poprzedzającej ją metodzie, tj. ME (Minimal Evolution). Metoda ME także wykorzystuje algorytm iteracyjny i polega na wyznaczeniu długości gałęzi łączących badane populacje, a następnie ich zsumowaniu dla wszystkich topologii uznanych za wiarygodne. Biorąc pod uwagę założenie, że ewolucja zachodzi zawsze możliwie najkrótszą z dostępnych dróg, najbardziej prawdopodobnym drzewem jest to, którego suma długości wszystkich gałęzi jest najmniejsza [Cavalli-Sforza, Edwards 1967]. Warunkiem koniecznym do uzyskania wiarygodnego dendrogramu jest poddanie analizie dostatecznie dużej liczby danych, co wiąże się z dużym nakładem czasu [Nei 1996]. Zaproponowano więc, aby analizę rozpoczynać od konstruowania drzewa za pomocą metody NJ. Efektem tego było wyznaczenie innych drzew o zbliżonej budowie wraz z sumami długości gałęzi. Po porównaniu wszystkich uzyskanych w ten sposób drzew wybierane jest to o najmniejszej wartości. Wynikiem tej metody najczęściej jest drzewo tożsame z drzewem wyjściowym uzyskanym metodą ME lub różniące się od niego nieznacznie [Rzhetsky, Nei 1993]. Argumentem przemawiającym za szerokim zastosowaniem metody NJ jest czas potrzebny do otrzymania wyniku. Metoda ta jest de facto uproszczoną wersją metody ME, a więc czas wykonania algorytmu jest istotnie krótszy. Istotą metody jest znalezienie dwóch obiektów o najmniejszej dzielącej je odległości. Są to dwa obiekty połączone jednym węzłem w drzewie nieukorzenionym, nazywane sąsiadami. Na rysunku 4. pokazano etapy powstawania drzewa ukorzenionego zawierającego 5 obiektów (A, B, C, D i E). Początkowo wszystkie obiekty są połączone wspólnym węzłem, za pomocą macierzy odległości porównywane są odległości pomiędzy poszczególnymi obiektami. Dwa najbardziej podobne obiekty, czyli z najmniejszą łączącą je odległością (sąsiedzi), są łączone osobnym węzłem i w następnym kroku traktowane jako jeden obiekt. Na rysunku były to obiekty E i D. Następnie obiekty E i D traktowane jako jeden (z) poddawane są ponownie analizie odległości, z której wynika, że sąsiadem z jest obiekt C i zostaje on połączony osobnym węzłem (y) z węzłem łączącym E i D (z). 75
9 Rysunek 4. Schemat algorytmu NJ (materiały własne) Schematic NJ algorithm (own materials) Pełny dendrogram jest tworzony poprzez powtarzanie przyłączeń kolejnych sąsiadów do poprzedniej pary obiektów, traktowanych w kolejnym powtórzeniu jako jeden obiekt. Zauważyć można, że w przypadku drzewa obrazującego zależność dla czterech lub więcej obiektów, oznaczoną jako N, minimalna liczba par wynosi dwa, a maksymalna N/2 dla liczby parzystej N oraz (N-1)/2 w przypadku nieparzystej [Saitou, Nei 1987]. 2. Określenie dokładności skonstruowanego drzewa. Metoda bootstrap Metoda bootstrap jest rozwinięciem wcześniej stosowanych metod i wynika z potrzeby szacowania rozgałęzień w dendrogramach. Generowane drzewa przedstawiają jedno z wielu możliwych rozwiązań, które pomimo swojej matematycznej poprawności może być różne od drzewa rzeczywistego. Spowodowane jest to faktem, że odległości mierzone pomiędzy obiektami podlegają przypadkowej zmienności. Dlatego właśnie obecnie węzły w dendrogramach opatrzone są wartościami bootstrap, jak to zostało przedstawione na rysunku 5. Wartości te są wyznaczone poprzez znajdywanie dopasowań obiektów, którymi w przypadku analizy genetycznej są odpowiednie sekwencje, a później konstruowanie odpowiadających im dendrogramów [Soltis, Solis 2003]. Następnie taki zbiór drzew, składający się z od 100 do 1000 elementów, jest podawany analizie pod względem uzyskanej topologii. Wartość bootstrap jest wartością procentową liczby drzew posiadających taką samą topologię jak drzewo oryginalne, poddawane analizie bootstrap do wszystkich wygenerowanych drzew. Wynikiem opisanej powyżej metody jest drzewo konsensusowe, zawierające rozgałęzienia uszeregowane według malejących wartości bootstrap. 76
10 Rysunek 5. Drzewo filogenetyczne z podanymi wartościami bootstrap w węzłach (materiały własne) A phylogenetic tree with bootstrap values indicated at the nodes (own materials) 2.1 Maximum parsimony. Metoda największej oszczędności Innym podejściem do zwiększenia wiarygodności otrzymywanych drzew filogenetycznych jest zastosowanie metody największej oszczędności. Głównym celem metody jest uzyskanie takiego drzewa, które będzie obrazowało zależności między wszystkimi elementami zbioru danych wraz z uwzględnieniem warunku, jakim jest najmniejsza konieczna liczba zmian ewolucyjnych pozwalająca wytłumaczyć otrzymany wynik. Dzięki temu możliwe jest włączenie do analizy informacji dotyczących zmiennego tempa powstawania różnych rodzajów mutacji. Drzewo powstałe w wyniku użycia metody MP jest zawsze nieukorzenione i wskazuje względne zależności między elementami zbioru danych, jednak nie daje żadnych wskazówek odnośnie do czasu dywergencji [Steel, Penny 2000]. Z drugiej strony, jeśli zastosowane kryterium parsymonii prowadzi do uzyskania kilku równorzędnych drzew, nie istnieje metoda pozwalająca na wybór najbardziej optymalnego spośród nich, a więc w takich przypadkach konieczne jest zastosowanie innych narzędzi wspomagających analizę. Pomimo tych utrudnień metoda największej oszczędności jest stosowana przez naukowców z racji bardzo prostego algorytmu, który prowadzi do zadowalającego wyniku [Higgs, Attwood 2005]. 2.2 Maximum Likelihood. Metoda największej wiarygodności Jest to metoda podobna pod względem działania do metody bootstrap. Jej celem jest weryfikacja uzyskanego dendrogramu na podstawie przyjętego kryterium dla uzyskania rzetelnych wyników. Metodę ML (Maximum Likelihood) opracowano na podstawie założenia, że wszystkie drzewa mogą być rozpatrywane jako alternatywne rozwiązania [Felsenstein 1981]. Każde drzewo filogenetyczne można opisać za pomocą parametrów takich 77
11 jak: topologia, długość gałęzi oraz matematyczny model powstawania mutacji. Zadaniem metody ML jest znalezienie takiego układu powyższych trzech parametrów, aby maksymalizować prawdopodobieństwo uzyskania odpowiedniego wykresu dla danego zbioru danych [Strimmer, von Haeseler 1996; Pevsner 2009; Kishino, Hasegawa 1989]. PODSUMOWANIE Bioinformatyka w dziedzinie filogenetyki molekularnej daje możliwość stosowania wielu narzędzi umożliwiających skuteczną analizę otrzymanych wyników, a także ich graficzną interpretację. W tabeli 1. zestawiono opisane wcześniej algorytmy konstruowania dendrogramów, z uwzględnieniem ich mocnych oraz słabych stron. Mnogość dostępnych metod sprawia, że analityk, dokonując wyboru konkretnej metody, powinien przede wszystkim wziąć pod uwagę wynik, jaki chce osiągnąć, a ponadto czynniki takie jak: czas, sprzęt oraz przedmiot analizy. Tabela 1. Zestawienie algorytmów konstruowania dendrogramów Summary of algorithms for constructing dendrograms Metoda Zalety Wady UPGMA bardzo prosta szybka wrażliwa na różne tempo ewolucji Neighbor- Joining Maximal Parsimony Maximal Likelihood bardzo szybka akceptuje linie wykazujące różne tempo ewolucji jedyna w pełni kladystyczna metoda można identyfikować obszary problematyczne nie redukuje informacji z sekwencji sprawdza różnorodne drzewa niższa wariancja (mniejszy wpływ błędu próby) dobre podstawy statystyczne sprawdza różne topologie daje tylko jedno możliwe drzewo mocno zależna od rodzaju zastosowanego modelu ewolucji bardzo powolna nawet dla niedużych sekwencji nie zakłada modelu ewolucji nie dostarcza informacji o długości gałęzi bardzo wolna i wymaga dużej mocy komputera rezultaty zależą od zastosowanego modelu ewolucji 78
12 PIŚMIENNICTWO 1 Cavalli-Sforza L. L., Edwards A. W. F. (1967). Phylogenetic analysis: models and estimation procedures. Am. J. Hum. Genet., 19, Felsenstein J. (1981). Evolutionary trees from DNA sequences: a maximum likelihood approach. J. Mol. Evol, 17, Felsentein J. (2004). Inferring Phylogenies. Sunderland, MA: Sinauer Associates 4 Fitch W. M. (1971). Toward Defining the Course of Evolution: Minimum Change for a Specific Tree Topology. Syst. Zool., 20, Higgs P. G., Attwood T. K. (2005). Bioinformatics and Molecular Evolution. Oxford: Blackwell Science Ltd. 6 Jobling M. A., Hurles M., Tyler-Smith C. (2004). Human evolutionary genetics. Origins, Peoples & Disease. New York: Garland Science 7 Kishino H., Hasegawa M. (1989). Evaluation of the maximum likelihood estimate of the evolutionary tree topologies from DNA sequence data, and the branching order in hominoidea. J. Mol. Evol., 29, Lewis P. O. (2001). Phylogenetic systematics turns over a new leaf. Trends. Ecol., 16 (1), Murtagh F. (1984). Counting dendrograms: A survey. Discrete Appl. Math., 7, Nei M. (1975). Molecular Population Genetics and Evolution. North Holland. Amsterdam & New York 11 Nei M. (1996). Phylogenetic analysis in molecular evolutionary genetics. Ann. Rev. Genet., 30, Pevsner J. (2009). Bioinformatics and Functional Genomics. 2nd Edition. Hoboken: Willey-Blackwell 13 Posada D. (2009). Bioinformatics for DNA sequence analysis. Humana Press, New York 14 Rzhetsky A., Nei M. (1993). Theoretical foundation of the minimum evolution method of phylogenetic inference. Mol. Biol. Evol., 10, Saitou N., Nei M. (1987). The neighbor-joining method: A new method for reconstructing phylogenetic trees. Mol. Biol. Evol., 4, Sokal R. R., Michener C. D. (1958). A statistical Method for Evaluating Systematic Relationships. The University of Kansas Scientific Bulletin, 38, Sokal R. R., Sneath P. H. A. (1963). Principles of Numerical Taxonomy. San Francisco: Freeman 79
13 18 Soltis P. S., Soltis D. E. (2003). Applying the Bootstrap in Phylogeny Reconstruction. Stat Scie, 18, Steel M., Penny D. (2000). Parsimony, Likelihood, and the Role of Models in Molecular Phylogenetics. Mol. Biol. Evol., 7 (6), Strimmer K., von Haeseler A. (1996). Quartet puzzling: A quartet maximum likelihood method for reconstructing tree topologies. Mol. Biol. Evol., 13,
Genomika Porównawcza. Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski
Genomika Porównawcza Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski 1 Plan prezentacji 1. Rodzaje i budowa drzew filogenetycznych 2. Metody ukorzeniania drzewa
Konstrukcja drzew filogenetycznych podstawy teoretyczne.
Dorota Rogalla Urszula Rogalla Konstrukcja drzew filogenetycznych podstawy teoretyczne. Streszczenie Wśród wyzwań stojących przed genetyką wymienić można nie tylko kojarzone klasycznie poznawanie struktury
Konstruowanie drzew filogenetycznych. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu
Konstruowanie drzew filogenetycznych Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu Drzewa filogenetyczne ukorzenione i nieukorzenione binarność konstrukcji topologia (sposób rozgałęziana
PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA
PODSTAWY BIOINFORMATYKI WYKŁAD 5 ANALIZA FILOGENETYCZNA ANALIZA FILOGENETYCZNA 1. Wstęp - filogenetyka 2. Struktura drzewa filogenetycznego 3. Metody konstrukcji drzewa 4. Etapy konstrukcji drzewa filogenetycznego
PODSTAWY BIOINFORMATYKI 6 ANALIZA FILOGENETYCZNA
PODSTAWY BIOINFORMATYKI 6 ANALIZA FILOGENETYCZNA ANALIZA FILOGENETYCZNA 1. Wstęp - filogenetyka 2. Struktura drzewa filogenetycznego 3. Metody konstrukcji drzewa - przykłady 4. Etapy konstrukcji drzewa
Bioinformatyka Laboratorium, 30h. Michał Bereta
Bioinformatyka Laboratorium, 30h Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl 1 Filogenetyka molekularna wykorzystuje informację zawartą w sekwencjach aminokwasów lub nukleotydów do kontrukcji drzew
Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu
Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu
Filogenetyka molekularna. Dr Anna Karnkowska Zakład Filogenetyki Molekularnej i Ewolucji
Filogenetyka molekularna Dr Anna Karnkowska Zakład Filogenetyki Molekularnej i Ewolucji Co to jest filogeneza? Filogeneza=drzewo filogenetyczne=drzewo rodowe=drzewo to rozgałęziający się diagram, który
Filogenetyka molekularna I. Krzysztof Spalik
Filogenetyka molekularna I Krzysztof Spalik Literatura Krzysztof Spalik, Marcin Piwczyński (2009), Rekonstrukcja filogenezy i wnioskowanie filogenetyczne w badaniach ewolucyjnych, Kosmos 58(3-4): 485-498
Hierarchiczna analiza skupień
Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym
klasyfikacja fenetyczna (numeryczna)
Teorie klasyfikacji klasyfikacja fenetyczna (numeryczna) systematyka powinna być wolna od wszelkiej teorii (a zwłaszcza od teorii ewolucji) filogeneza jako ciąg zdarzeń jest niepoznawalna opiera się na
Analiza składowych głównych. Wprowadzenie
Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących
E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne
E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne Przypominajka: 152 drzewo filogenetyczne to drzewo, którego liśćmi są istniejące gatunki, a węzły wewnętrzne mają stopień większy niż jeden i reprezentują
Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska
Algorytmy rozpoznawania obrazów 11. Analiza skupień dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Analiza skupień Określenia: analiza skupień (cluster analysis), klasteryzacja (clustering), klasyfikacja
Filogeneza: problem konstrukcji grafu (drzewa) zależności pomiędzy gatunkami.
181 Filogeneza: problem konstrukcji grafu (drzewa) zależności pomiędzy gatunkami. 3. D T(D) poprzez algorytm łączenia sąsiadów 182 D D* : macierz łącząca sąsiadów n Niech TotDist i = k=1 D i,k Definiujemy
CLUSTERING. Metody grupowania danych
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means
Filogenetyka molekularna I
2 Literatura Krzysztof Spalik, Marcin Piwczyński (2009), Rekonstrukcja filogenezy i wnioskowanie filogenetyczne w badaniach ewolucyjnych, Kosmos 58(3-4): 485-498 Filogenetyka molekularna I John C. Avise
Urszula Poziomek, doradca metodyczny w zakresie biologii Materiał dydaktyczny przygotowany na konferencję z cyklu Na miarę Nobla, 14 stycznia 2010 r.
Ćwiczenie 1 1 Wstęp Rozważając możliwe powiązania filogenetyczne gatunków, systematyka porównuje dane molekularne. Najskuteczniejszym sposobem badania i weryfikacji różnych hipotez filogenetycznych jest
Filogenetyka molekularna I. Krzysztof Spalik Zakład Filogenetyki Molekularnej i Ewolucji
Filogenetyka molekularna I Krzysztof Spalik Zakład Filogenetyki Molekularnej i Ewolucji 3 Literatura Krzysztof Spalik, Marcin Piwczyński (2009), Rekonstrukcja filogenezy i wnioskowanie filogenetyczne w
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu
SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.
SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:
Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1
Grupowanie Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Grupowanie wykład 1 Sformułowanie problemu Dany jest zbiór obiektów (rekordów). Znajdź naturalne pogrupowanie
Agnieszka Nowak Brzezińska
Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia
Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania
Analiza skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania Analiza Skupień Elementy składowe procesu grupowania obiekt Ekstrakcja cech Sprzężenie zwrotne Grupowanie klastry Reprezentacja
Acknowledgement. Drzewa filogenetyczne
Wykład 8 Drzewa Filogenetyczne Lokalizacja genów Some figures from: Acknowledgement M. Zvelebil, J.O. Baum, Introduction to Bioinformatics, Garland Science 2008 Tradycyjne drzewa pokrewieństwa Drzewa oparte
Skalowanie wielowymiarowe idea
Skalowanie wielowymiarowe idea Jedną z wad metody PCA jest możliwość używania jedynie zmiennych ilościowych, kolejnym konieczność posiadania pełnych danych z doświadczenia(nie da się użyć PCA jeśli mamy
SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO
SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO. Rzeczywistość (istniejąca lub projektowana).. Model fizyczny. 3. Model matematyczny (optymalizacyjny): a. Zmienne projektowania
Analiza głównych składowych- redukcja wymiaru, wykł. 12
Analiza głównych składowych- redukcja wymiaru, wykł. 12 Joanna Jędrzejowicz Instytut Informatyki Konieczność redukcji wymiaru w eksploracji danych bazy danych spotykane w zadaniach eksploracji danych mają
Modelowanie motywów łańcuchami Markowa wyższego rzędu
Modelowanie motywów łańcuchami Markowa wyższego rzędu Uniwersytet Warszawski Wydział Matematyki, Informatyki i Mechaniki 23 października 2008 roku Plan prezentacji 1 Źródła 2 Motywy i ich znaczenie Łańcuchy
Analiza korespondencji
Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy
Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)
Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej) 1 Podział ze względu na zakres danych użytych do wyznaczenia miary Miary opisujące
Metoda Automatycznej Detekcji Interakcji CHAID
Metoda Automatycznej Detekcji Interakcji CHAID Metoda ta pozwala wybrać z konkretnego, dużego zbioru zmiennych te z nich, które najsilniej wpływają na wskazaną zmienną (objaśnianą) zmienne porządkowane
Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16
Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego
Analizy filogenetyczne
BIOINFORMATYKA edycja 2016 / 2017 wykład 6 Analizy filogenetyczne dr Jacek Śmietański jacek.smietanski@ii.uj.edu.pl http://jaceksmietanski.net Plan wykładu 1. Cele i zastosowania 2. Podstawy ewolucyjne
S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor
S O M SELF-ORGANIZING MAPS Przemysław Szczepańczyk Łukasz Myszor Podstawy teoretyczne Map Samoorganizujących się stworzył prof. Teuvo Kohonen (1982 r.). SOM wywodzi się ze sztucznych sieci neuronowych.
Systemy uczące się Lab 4
Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego
KONSPEKT FUNKCJE cz. 1.
KONSPEKT FUNKCJE cz. 1. DEFINICJA FUNKCJI Funkcją nazywamy przyporządkowanie, w którym każdemu elementowi zbioru X odpowiada dokładnie jeden element zbioru Y Zbiór X nazywamy dziedziną, a jego elementy
STATYSTYKA I DOŚWIADCZALNICTWO
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6 Test niezależności chi-kwadrat (χ 2 ) Cel: ocena występowania zależności między dwiema cechami jakościowymi/skategoryzowanymi X- pierwsza cecha; Y druga cecha Przykłady
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny
Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną
4.3 Grupowanie według podobieństwa
4.3 Grupowanie według podobieństwa Przykłady obiektów to coś więcej niż wektory wartości atrybutów. Reprezentują one poszczególne rasy psów. Ważnym pytaniem, jakie można sobie zadać, jest to jak dobrymi
8. Drzewa decyzyjne, bagging, boosting i lasy losowe
Algorytmy rozpoznawania obrazów 8. Drzewa decyzyjne, bagging, boosting i lasy losowe dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Drzewa decyzyjne Drzewa decyzyjne (ang. decision trees), zwane
Bioinformatyka Laboratorium, 30h. Michał Bereta
Bioinformatyka Laboratorium, 30h Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl 1 Metoda NJ (przyłączania sąsiadów) umożliwia tworzenie drzewa addytywnego: odległości ewolucyjne między sekwencjami
Analiza składowych głównych
Analiza składowych głównych Wprowadzenie (1) W przypadku regresji naszym celem jest predykcja wartości zmiennej wyjściowej za pomocą zmiennych wejściowych, wykrycie związku między wielkościami wejściowymi
Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633
Grupowanie Grupowanie 7 6 5 4 y 3 2 1 0-3 -2-1 0 1 2 3 4 5-1 -2-3 -4 x Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633 Wprowadzenie Celem procesu grupowania jest podział zbioru
Wykład 3. Opis struktury zbiorowości. 1. Parametry opisu rozkładu badanej cechy. 3. Średnia arytmetyczna. 4. Dominanta. 5. Kwantyle.
Wykład 3. Opis struktury zbiorowości 1. Parametry opisu rozkładu badanej cechy. 2. Miary połoŝenia rozkładu. 3. Średnia arytmetyczna. 4. Dominanta. 5. Kwantyle. W praktycznych zastosowaniach bardzo często
Wykład 4: Statystyki opisowe (część 1)
Wykład 4: Statystyki opisowe (część 1) Wprowadzenie W przypadku danych mających charakter liczbowy do ich charakterystyki można wykorzystać tak zwane STATYSTYKI OPISOWE. Za pomocą statystyk opisowych można
Wykład 10 Skalowanie wielowymiarowe
Wykład 10 Skalowanie wielowymiarowe Wrocław, 30.05.2018r Skalowanie wielowymiarowe (Multidimensional Scaling (MDS)) Główne cele MDS: przedstawienie struktury badanych obiektów przez określenie treści wymiarów
STATYSTYKA I DOŚWIADCZALNICTWO
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 9 Analiza skupień wielowymiarowa klasyfikacja obiektów Metoda, a właściwie to zbiór metod pozwalających na grupowanie obiektów pod względem wielu cech jednocześnie.
Drzewa decyzyjne i lasy losowe
Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM
Algorytm genetyczny (genetic algorithm)-
Optymalizacja W praktyce inżynierskiej często zachodzi potrzeba znalezienia parametrów, dla których system/urządzenie będzie działać w sposób optymalny. Klasyczne podejście do optymalizacji: sformułowanie
Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów
Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa Diagnostyka i niezawodność robotów Laboratorium nr 6 Model matematyczny elementu naprawialnego Prowadzący: mgr inż. Marcel Luzar Cele ćwiczenia:
Klasa 1 technikum. Poniżej przedstawiony został podział wymagań na poszczególne oceny szkolne:
Klasa 1 technikum Przedmiotowy system oceniania wraz z wymaganiami edukacyjnymi Wyróżnione zostały następujące wymagania programowe: konieczne (K), podstawowe (P), rozszerzające (R), dopełniające (D) i
Wprowadzenie do algorytmiki
Wprowadzenie do algorytmiki Pojecie algorytmu Powszechnie przyjmuje się, że algorytm jest opisem krok po kroku rozwiązania postawionego problemu lub sposób osiągnięcia jakiegoś celu. Wywodzi się z matematyki
Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie... 3. 2 Wprowadzenie do biologicznych baz danych...
Przedmowa... XI Część pierwsza Wprowadzenie i biologiczne bazy danych 1 Wprowadzenie... 3 Czym jest bioinformatyka?... 5 Cele... 5 Zakres zainteresowań... 6 Zastosowania... 7 Ograniczenia... 8 Przyszłe
Rycina 1. Zasięg i zagęszczenie łosi (liczba osobników/1000 ha) w Polsce w roku 2010 oraz rozmieszczenie 29 analizowanych populacji łosi.
Ryciny 193 Rycina 1. Zasięg i zagęszczenie łosi (liczba osobników/1000 ha) w Polsce w roku 2010 oraz rozmieszczenie 29 analizowanych populacji łosi. Na fioletowo zaznaczone zostały populacje (nr 1 14)
PROBLEM ROZMIESZCZENIA MASZYN LICZĄCYCH W DUŻYCH SYSTEMACH PRZEMYSŁOWYCH AUTOMATYCZNIE STEROWANYCH
CZESŁAW KULIK PROBLEM ROZMIESZCZENIA MASZYN LICZĄCYCH W DUŻYCH SYSTEMACH PRZEMYSŁOWYCH AUTOMATYCZNIE STEROWANYCH Duże systemy przemysłowe, jak kopalnie, kombinaty metalurgiczne, chemiczne itp., mają złożoną
Definicje. Algorytm to:
Algorytmy Definicje Algorytm to: skończony ciąg operacji na obiektach, ze ściśle ustalonym porządkiem wykonania, dający możliwość realizacji zadania określonej klasy pewien ciąg czynności, który prowadzi
Zmienne zależne i niezależne
Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
Algorytmy genetyczne
Algorytmy genetyczne Motto: Zamiast pracowicie poszukiwać najlepszego rozwiązania problemu informatycznego lepiej pozwolić, żeby komputer sam sobie to rozwiązanie wyhodował! Algorytmy genetyczne służą
ANALIZA STRUKTURY WIEKOWEJ ORAZ PŁCIOWEJ CZŁONKÓW OFE Z WYKORZYSTANIEM METOD TAKSONOMICZNYCH
Sugerowany przypis: Chybalski F., Analiza struktury wiekowej oraz płciowej członków OFE z wykorzystaniem metod taksonomicznych [w:] Chybalski F., Staniec I. (red.), 10 lat reformy emerytalnej w Polsce.
Estymacja wektora stanu w prostym układzie elektroenergetycznym
Zakład Sieci i Systemów Elektroenergetycznych LABORATORIUM INFORMATYCZNE SYSTEMY WSPOMAGANIA DYSPOZYTORÓW Estymacja wektora stanu w prostym układzie elektroenergetycznym Autorzy: dr inż. Zbigniew Zdun
Sieci Kohonena Grupowanie
Sieci Kohonena Grupowanie http://zajecia.jakubw.pl/nai UCZENIE SIĘ BEZ NADZORU Załóżmy, że mamy za zadanie pogrupować następujące słowa: cup, roulette, unbelievable, cut, put, launderette, loveable Nie
Wszystkie wyniki w postaci ułamków należy podawać z dokładnością do czterech miejsc po przecinku!
Pracownia statystyczno-filogenetyczna Liczba punktów (wypełnia KGOB) / 30 PESEL Imię i nazwisko Grupa Nr Czas: 90 min. Łączna liczba punktów do zdobycia: 30 Czerwona Niebieska Zielona Żółta Zaznacz znakiem
Liczbę 29 możemy zaprezentować na siedem różnych sposobów:
Numeryczna analiza rozkładu liczb naturalnych na określoną sumę liczb pierwszych Świerczewski Ł. Od blisko 200 lat matematycy poszukują odpowiedzi na pytanie zadane przez Christiana Goldbacha, który w
Algorytmy genetyczne. Paweł Cieśla. 8 stycznia 2009
Algorytmy genetyczne Paweł Cieśla 8 stycznia 2009 Genetyka - nauka o dziedziczeniu cech pomiędzy pokoleniami. Geny są czynnikami, które decydują o wyglądzie, zachowaniu, rozmnażaniu każdego żywego organizmu.
Wykrywanie anomalii w zbiorze danych o dużym wymiarze
Wykrywanie anomalii w zbiorze danych o dużym wymiarze Piotr Kroll Na podstawie pracy: Very Fast Outlier Detection In Large Multidimensional Data Set autorstwa: A. Chandhary, A. Shalay, A. Moore Różne rozwiązania
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com
Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych
Wykład z Technologii Informacyjnych. Piotr Mika
Wykład z Technologii Informacyjnych Piotr Mika Uniwersalna forma graficznego zapisu algorytmów Schemat blokowy zbiór bloków, powiązanych ze sobą liniami zorientowanymi. Jest to rodzaj grafu, którego węzły
Metoda Karnaugh. B A BC A
Metoda Karnaugh. Powszechnie uważa się, iż układ o mniejszej liczbie elementów jest tańszy i bardziej niezawodny, a spośród dwóch układów o takiej samej liczbie elementów logicznych lepszy jest ten, który
Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych
Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych ELEMENTY SZTUCZNEJ INTELIGENCJI Laboratorium nr 9 PRZESZUKIWANIE GRAFÓW Z
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
TEORETYCZNE PODSTAWY INFORMATYKI
1 TEORETYCZNE PODSTAWY INFORMATYKI 16/01/2017 WFAiS UJ, Informatyka Stosowana I rok studiów, I stopień Repetytorium złożoność obliczeniowa 2 Złożoność obliczeniowa Notacja wielkie 0 Notacja Ω i Θ Rozwiązywanie
WYMAGANIA EDUKACYJNE Z MATEMATYKI DLA KLASY 7SP. V. Obliczenia procentowe. Uczeń: 1) przedstawia część wielkości jako procent tej wielkości;
WYMAGANIA EDUKACYJNE Z MATEMATYKI DLA KLASY 7SP Liczby. TEMAT Rozwinięcia dziesiętne liczb wymiernych. Zaokrąglanie liczb. Szacowanie wyników. Dodawanie i odejmowanie liczb dodatnich. Mnożenie i dzielenie
Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,
Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której
Algorytmy ewolucyjne NAZEWNICTWO
Algorytmy ewolucyjne http://zajecia.jakubw.pl/nai NAZEWNICTWO Algorytmy ewolucyjne nazwa ogólna, obejmująca metody szczegółowe, jak np.: algorytmy genetyczne programowanie genetyczne strategie ewolucyjne
Technikum Nr 2 im. gen. Mieczysława Smorawińskiego w Zespole Szkół Ekonomicznych w Kaliszu
Technikum Nr 2 im. gen. Mieczysława Smorawińskiego w Zespole Szkół Ekonomicznych w Kaliszu Wymagania edukacyjne niezbędne do uzyskania poszczególnych śródrocznych i rocznych ocen klasyfikacyjnych z obowiązkowych
Metody numeryczne I Równania nieliniowe
Metody numeryczne I Równania nieliniowe Janusz Szwabiński szwabin@ift.uni.wroc.pl Metody numeryczne I (C) 2004 Janusz Szwabiński p.1/66 Równania nieliniowe 1. Równania nieliniowe z pojedynczym pierwiastkiem
Bioinformatyka 2 (BT172) Progresywne metody wyznaczania MSA: T-coffee
Bioinformatyka 2 (BT172) Wykład 5 Progresywne metody wyznaczania MSA: T-coffee Krzysztof Murzyn 14.XI.2005 PLAN WYKŁADU Ostatnio : definicje, zastosowania MSA, złożoność obliczeniowa algorytmu wyznaczania
Teoria ewolucji. Podstawowe pojęcia. Wspólne pochodzenie.
Teoria ewolucji Podstawowe pojęcia. Wspólne pochodzenie. Informacje Kontakt: Paweł Golik Instytut Genetyki i Biotechnologii, Pawińskiego 5A pgolik@igib.uw.edu.pl Informacje, materiały: http://www.igib.uw.edu.pl/
WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno
WSTĘP DO REGRESJI LOGISTYCZNEJ Dr Wioleta Drobik-Czwarno REGRESJA LOGISTYCZNA Zmienna zależna jest zmienną dychotomiczną (dwustanową) przyjmuje dwie wartości, najczęściej 0 i 1 Zmienną zależną może być:
Teoria ewolucji. Podstawy wspólne pochodzenie.
Teoria ewolucji. Podstawy wspólne pochodzenie. Ewolucja biologiczna } Znaczenie ogólne: } proces zmian informacji genetycznej (częstości i rodzaju alleli), } które to zmiany są przekazywane z pokolenia
voxele o wartości >0 to voxele stopy (kości, mięśnie, skóra), voxele o wartości > 70 to voxele kości.
Zadanie 1: Stopa Autor: dr Krzysztof Nowiński Zbiór danych stopa.dat (do ściągnięcia stąd: http://www.icm.edu.pl/~bolo/kfnrd2013/know/) zawiera tomogram komputerowy stopy człowieka. Dane są zawarte w kostce
Recenzja rozprawy doktorskiej. mgr Marcina Jana Kamińskiego. pt. Grupa rodzajowa Ectateus (Coleoptera: Tenebrionidae) filogeneza i klasyfikacja.
Dr hab. Grzegorz Paśnik Instytut Systematyki i Ewolucji Zwierząt Polska Akademia Nauk ul. Sławkowska 17, 31-016 Kraków Recenzja rozprawy doktorskiej mgr Marcina Jana Kamińskiego pt. Grupa rodzajowa Ectateus
prof. dr hab. inż. Marta Kasprzak Instytut Informatyki, Politechnika Poznańska Dopasowanie sekwencji
Bioinformatyka wykład 5: dopasowanie sekwencji prof. dr hab. inż. Marta Kasprzak Instytut Informatyk Politechnika Poznańska Dopasowanie sekwencji Badanie podobieństwa sekwencji stanowi podstawę wielu gałęzi
przybliżeniema Definicja
Podstawowe definicje Definicje i podstawowe pojęcia Opracowanie danych doświadczalnych Często zaokraglamy pewne wartości np. kupujac telewizor za999,99 zł. dr inż. Ireneusz Owczarek CMF PŁ ireneusz.owczarek@p.lodz.pl
Elementy statystyki wielowymiarowej
Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych
Metoda określania pozycji wodnicy statków na podstawie pomiarów odległości statku od głowic laserowych
inż. Marek Duczkowski Metoda określania pozycji wodnicy statków na podstawie pomiarów odległości statku od głowic laserowych słowa kluczowe: algorytm gradientowy, optymalizacja, określanie wodnicy W artykule
Teoria ewolucji. Podstawowe pojęcia. Wspólne pochodzenie.
Teoria ewolucji Podstawowe pojęcia. Wspólne pochodzenie. Ewolucja Znaczenie ogólne: zmiany zachodzące stopniowo w czasie W biologii ewolucja biologiczna W astronomii i kosmologii ewolucja gwiazd i wszechświata
Bioinformatyka Laboratorium, 30h. Michał Bereta
Bioinformatyka Laboratorium, 30h Michał Bereta mbereta@pk.edu.pl www.michalbereta.pl 1 Często dopasować chcemy nie dwie sekwencje ale kilkanaście lub więcej 2 Istnieją dokładne algorytmy, lecz są one niewydajne
Badania biegłości laboratorium poprzez porównania międzylaboratoryjne
Badania biegłości laboratorium poprzez porównania międzylaboratoryjne Dr inż. Maciej Wojtczak, Politechnika Łódzka Badanie biegłości (ang. Proficienty testing) laboratorium jest to określenie, za pomocą
Drzewa filogenetyczne jako matematyczny model relacji pokrewieństwa. dr inż. Damian Bogdanowicz
Drzewa filogenetyczne jako matematyczny model relacji pokrewieństwa dr inż. Damian Bogdanowicz Sprawa R. Schmidt a z Lafayette Podczas rutynowych badań u pielęgniarki Janet Allen stwierdzono obecność wirusa
Ruch jednostajnie przyspieszony wyznaczenie przyspieszenia
Doświadczenie: Ruch jednostajnie przyspieszony wyznaczenie przyspieszenia Cele doświadczenia Celem doświadczenia jest zbadanie zależności drogi przebytej w ruchu przyspieszonym od czasu dla kuli bilardowej
Sztuczna inteligencja : Algorytm KNN
Instytut Informatyki Uniwersytetu Śląskiego 23 kwietnia 2012 1 Algorytm 1 NN 2 Algorytm knn 3 Zadania Klasyfikacja obiektów w oparciu o najbliższe obiekty: Algorytm 1-NN - najbliższego sąsiada. Parametr
Schemat programowania dynamicznego (ang. dynamic programming)
Schemat programowania dynamicznego (ang. dynamic programming) Jest jedną z metod rozwiązywania problemów optymalizacyjnych. Jej twórcą (1957) był amerykański matematyk Richard Ernest Bellman. Schemat ten
ROZWIĄZYWANIE RÓWNAŃ NIELINIOWYCH
Transport, studia I stopnia Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska Ewa Pabisek Adam Wosatko Postać ogólna równania nieliniowego Często występującym, ważnym problemem obliczeniowym
Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II
Wykład 6. Drzewa cz. II 1 / 65 drzewa spinające Drzewa spinające Zliczanie drzew spinających Drzewo T nazywamy drzewem rozpinającym (spinającym) (lub dendrytem) spójnego grafu G, jeżeli jest podgrafem
Wnioskowanie bayesowskie
Wnioskowanie bayesowskie W podejściu klasycznym wnioskowanie statystyczne oparte jest wyłącznie na podstawie pobranej próby losowej. Możemy np. estymować punktowo lub przedziałowo nieznane parametry rozkładów,