Analiza i rozpoznawanie promotorów minimalnych

Wielkość: px
Rozpocząć pokaz od strony:

Download "Analiza i rozpoznawanie promotorów minimalnych"

Transkrypt

1 Kompozycja i konserwacja motywów dla pojedyńczych i alternatywnych miejsc startu transkrypcji w genomach Drosophilia MIMUW 28 października 2010

2 Referowana praca Wstęp Pojęcia Motywy Motif composition, conservation and condition-specificity of single and alternative transcription start sites in the Drosophila genome Elizabeth A Rach, Hsiang-Yu Yuan, William H Majoros, Pavel Tomancak and Uwe Ohler Genome Biology 2009, 10:R73

3 Definicje Wstęp Pojęcia Motywy Transkrypcja - proces w którym enzym polimeraza dokonuje przepisywania fragmentu DNA na pre-mrna dojrzałe mrna - mrna z usuniętymi intronami(niekodujacymi fragmentami) oraz posiadajace 5 czapeczkę, zabezpieczajac a przed degradacja. TSS (Transcription Start Site) - miejsce w sekwencji DNA od którego zaczyna się transkrypcja.

4 Definicje Wstęp Pojęcia Motywy Promotor - odcinek DNA, położony zazwyczaj powyżej sekwencji kodujacej genu, który zawiera sekwencje rozpoznawane przez czynniki transkrypcyjne, które wiaż ac się z DNA umożliwiaja zwiazanie się polimerazy RNA z nicia DNA i rozpoczęcie transkrypcji. Można wyróżnić promotor minimalny, promotor bliższy oraz promotor dalszy. Promotor rdzeniowy, Promotor minimalny (core promoter) - fragment sekwencji DNA znajdujacy się najbliżej TSS (zwykle do ± 100bp)

5 Transkrypcja Wstęp Pojęcia Motywy ucbzwdr/teaching/b250-99/enhancers.htm

6 Dojrzałe mrna Wstęp Pojęcia Motywy

7 Definicje Wstęp Pojęcia Motywy biblioteka cdna - kombinacja sklonowanych fragmentów cdna (komplementarnego DNA) wstawionych np. do plazmidów, które razem tworza transkryptom badanego organizmu. cdna jest produkowane z mrna macierzystego organizmu i z tego powodu zawiera jedynie geny podlegajace ekspresji EST (Expressed Sequence Tag) - krótka sekwencja transkrybowanego fragmentu cdna. Może być używana do identyfikacji transkryptu genu

8 Definicje Wstęp Pojęcia Motywy CAGE (Cap Analysis Gene Expression) - technika używana do znajdowania końca 5 populacji mrna. Małe fragmenty (zwykle bp długości ) z poczatku mrnas (5 końca dla transkryptów 5 ) sa wyciagane, i przypisywane na DNA, wzmacniane przy pomocy PCR i sekwencjonowane.

9 Definicje Wstęp Pojęcia Motywy Motyw - pewien charakterystyczny wzorzec który może być częścia składowa rdzenia promotora, w ogólności może pojawiać się w innych obszarach (np motywy cis-regulatorowe). Najbardziej znane motywy: TATA (TATA box) - rozpoznawany przez TBP (TATA-box binding protein) będacy składnikiem TFIID Inr (Initiator) - otaczajacy miejsce inicjacji transkrypcji, rozpoznawany przez TAF wchodzace w skład TFIID DPE (Downstream Promoter Element) - rozpoznawana przez TAF MTE (Motif Ten Element)

10 Position-specific scoring matrix Wstęp Pojęcia Motywy A C G T

11 Przykładowe motywy Wstęp Pojęcia Motywy Motyw PSSM(graficznie) Konsensus DRE TATA INR DPE WATCGATW STATAWAAR TCAGTYKNNNTYNR CRWMGCGWKCGGTTS

12 Hierarchiczne klastrowanie EST Entropia Hierarchiczne klastrowanie EST, 1)-3)

13 Hierarchiczne klastrowanie EST Entropia Hierarchiczne klastrowanie EST, 4)-6)

14 Entropia Hierarchiczne klastrowanie EST Entropia Entropia dla rozkładu dyskretnego S o prawdopodobieństwach p i wynosi: H(S) = p i log 2 p i (1) i Dla każdego (pod)klastra tss możemy policzyć Q i,tss dla rozkładu S tss z prawdopodobieństwami P(i tss), gdzie i to pewien warunek: Q i,tss = H(S tss ) log 2 P(i tss) (2)

15 Źródła EST Rozpoznawanie alternatywnych TSS Występowanie i konserwacja motywów promotorowych Wykorzystanie promotorów w zależności od warunków W celu odnalezienia TSS użyto EST dostępnych jako adnotacje w Berkeley Drosophilia Genome Collection w wersji EST zostały podzielone na grupy ze względu na czas i miejsce ekspresji zarodkowe (embryo) larwalne/poczwarkowe (larva/pupa) głowa (head) zalażnia(ovary) jadra(testes) Schneider cells mbn2 hemocytic cells ciałko tłuszczowe (fat body) inne(diverse) dorosły osobnik = głowa, zalażnia, jadra, mbn2, ciałko tłuszczowe

16 Źródła EST Rozpoznawanie alternatywnych TSS Występowanie i konserwacja motywów promotorowych Wykorzystanie promotorów w zależności od warunków

17 EST -> TSS Rozpoznawanie alternatywnych TSS Występowanie i konserwacja motywów promotorowych Wykorzystanie promotorów w zależności od warunków Zastosowano wstępne filtowanie, usuwanie tagów które: nie pokrywaja żadnej przerwy intronowej (usuwanie niedojrzałych EST) były dłuższe niż 1500bp i posiadajacych przerwy intronowe długości > 100bp (usuwanie tagów błędnie zmapowanych na genom ) miały wiele miejsc uliniowień (aby mieć precyzyjne lokacje) na najbardziej 5 miejscu były odległe o 2bp od pewnego eksonu lub transpozonu z adnotacji BDGC 4.3 Zastosowano hierarchiczne klastrowanie na przefiltrowanych transkryptach

18 TSS Rozpoznawanie alternatywnych TSS Występowanie i konserwacja motywów promotorowych Wykorzystanie promotorów w zależności od warunków Zidentyfikowano TSS dla genów. Podzielenie promotorów otaczajacych TSS na Peaked - dla genów z jednym TSS (69%) Broad - dla genów z wieloma alternatywnymi TSS (31%) Minimalny dystans między alternatywnymi TSS: 20bp Maksymalna ilość alternatywnych TSS: 7 dla genów Rtnl1 quick-to-court, CycG TSS zostały porównane z istniejacymi adnotacjami z EPD (Eukariotic Promoter Database) i FlyBase. Porównanie z każda z baz wykazało ich niekompletność.

19 TSS a dane z EPD i FlyBase (tramtrack) Rozpoznawanie alternatywnych TSS Występowanie i konserwacja motywów promotorowych Wykorzystanie promotorów w zależności od warunków

20 Użyte motywy Rozpoznawanie alternatywnych TSS Występowanie i konserwacja motywów promotorowych Wykorzystanie promotorów w zależności od warunków Do wyszukiwania motywów został użyty PATSER na fragmencie promotora [-60,40] wzgledem TSS na nici + Użyto 8 motywów: TATA, INR, DPE, MTE, Ohler1, DRE, Ohler 6, Ohler 7

21 Rozpoznawanie alternatywnych TSS Występowanie i konserwacja motywów promotorowych Wykorzystanie promotorów w zależności od warunków Występowanie motywów dla różnych typów promotorów

22 Rozpoznawanie alternatywnych TSS Występowanie i konserwacja motywów promotorowych Wykorzystanie promotorów w zależności od warunków Występowanie grup motywów dla różnych typów promotorów

23 Rozpoznawanie alternatywnych TSS Występowanie i konserwacja motywów promotorowych Wykorzystanie promotorów w zależności od warunków Konserwacja motywów dla różnych genomów

24 TSS i skojarzenia Rozpoznawanie alternatywnych TSS Występowanie i konserwacja motywów promotorowych Wykorzystanie promotorów w zależności od warunków TSS ze specyficznymi skojarzeniami - 0 Q i,tss < 1 TSS ze wspieranymi skojarzeniam - 1 Q i,tss < 10 TSS z mieszanymi skojarzeniami - 10 Q i,tss 35% (1 997) TSS ze specyficznymi skojarzeniami 29% (1 612) TSS ze wspieranymi skojarzeniam 14% TSS z dwoma wspieranymi skojarzeniami 22%(1 275) TSS z mieszanymi skojarzeniami

25 TSS ze specyficznymi skojarzeniami Rozpoznawanie alternatywnych TSS Występowanie i konserwacja motywów promotorowych Wykorzystanie promotorów w zależności od warunków

26 Rozpoznawanie alternatywnych TSS Występowanie i konserwacja motywów promotorowych Wykorzystanie promotorów w zależności od warunków Wykorzystanie motywów dla dla różnych etapów rozwoju

27 Rozpoznawanie alternatywnych TSS Występowanie i konserwacja motywów promotorowych Wykorzystanie promotorów w zależności od warunków Wykorzystanie grup motywów dla różnych etapów rozwoju

28 Rozpoznawanie alternatywnych TSS Występowanie i konserwacja motywów promotorowych Wykorzystanie promotorów w zależności od warunków Wykorzystanie TSS podczas rozwoju zarodkowego

29 Rozpoznawanie alternatywnych TSS Występowanie i konserwacja motywów promotorowych Wykorzystanie promotorów w zależności od warunków Wykorzystanie TSS podczas rozwoju zarodkowego

30 Wstęp do klasyfikacji Inne podejścia Co jest do zrobienia Klasyfikacja na podstawie motywów Skoro obserwujemy różne użycie motywów w różnych rodzajach genów, może istnieje zestaw motywów, które pozwolilyby przewidzieć dla każdego promotora, w jaki sposób bedzie on używany?

31 Ogólny problem klasyfikacji Wstęp do klasyfikacji Inne podejścia Co jest do zrobienia Mamy zbiór obiektów U oraz skończony zbiór atrybutów A = {a 1,a 2,...,a r },a j : U V aj V aj = R - atrybut numeryczny V aj = {c j 1,...,cj m j } - atrybut symboliczny Ponadto istnieje atrybut decyzyjny dec : U D,D = {d 1,d 2,...,d k } Szczególnym przypadkiem jest D = 2 (klasyfikacja binarna) Możemy więc o każdym obiekcie o U myśleć jako o krotce (wierszu tabeli obiektów z U) (a 1 (o),a 2 (o),...,a r (o),dec(o)) (3)

32 Przykładowe dane Wstęp do klasyfikacji Inne podejścia Co jest do zrobienia

33 Ogólny problem klasyfikacji Wstęp do klasyfikacji Inne podejścia Co jest do zrobienia Weźmy skończony pozbiór V U. Chcemy na podstawie atrybutów warunkowych dla zbioru V wyznaczyć klasyfikator, tj funkcję h : U D taka że: h(o) = dec(o) dla każdego o V (4) Ponadto chcemy, żeby równość (4) zachodziła dla jak największej ilości o U\V V nazywane jest zbiorem treningowym Pewne W U\V nazywane jest zbiorem testowym

34 Wstęp do klasyfikacji Inne podejścia Co jest do zrobienia Miary jakości dla klasyfikacji binarnej Predykcja Dane Prawda Fałsz Prawda TP FP Fałsz FN TN

35 Wstęp do klasyfikacji Inne podejścia Co jest do zrobienia Miary jakości dla klasyfikacji binarnej Czułość (True Positive Rate) TPR = TP TP + FN (5) Swoistość (True Negative Rate) TNR = TN FP + TN (6)

36 Wstęp do klasyfikacji Inne podejścia Co jest do zrobienia Miary jakości dla klasyfikacji binarnej Dokładność (ACCuracy) TN + TP ACC = TP + FN + FP + TN (7) Matthews Correlation Coefficient MCC = TN TP FP FN (TP + FP)(TP + FN)(TN + FP)(TN + FN) (8)

37 klasyfikacji Wstęp do klasyfikacji Inne podejścia Co jest do zrobienia Drzewa decyzyjne Lasy losowe (Random forests) - metoda ensemble, wykorzystujaca zbiory drzew decyzyjnych. Zbiory przybliżone (Rough sets) - generowanie zbioru reguł Sieci Bayesowskie (Bayesian networks) - wyznaczanie zależności między atrybutami Maszyny wektorów podpierajacych (Support vector machines) Sieci neuronowe (Neural networks)

38 Użyteczne narzędzia Wstęp do klasyfikacji Inne podejścia Co jest do zrobienia k-fold cross validation - podział danych na k rozłacznych podzbiorów, k 1 podzbiorów - zbiór treningowy pozostały zbiór - zbiór testowy Bootstrapping - losowanie ze zwracaniem z istniejacego zbioru danych. Uzyskujemy w ten sposób zbiór treningowy, zbiór testowy to pozostałe obiekty.

39 Użyteczne narzędzia Wstęp do klasyfikacji Inne podejścia Co jest do zrobienia Boosting - konstrukcja silnego klasyfikatora binarnego z wykorzystaniem słabych klasyfikatorów binarnych h t : U { 1,1} (odpowiednie dobieranie współczynników α t 0): h(o) = sgn( α t h t (o)) (9) t Konkretne algorytmy: ADABoost LPBoost

40 Drzewa decyzyjne Wstęp do klasyfikacji Inne podejścia Co jest do zrobienia S v Gain(S,a) = H(S) v V a S H(S v) (10)

41 Lasy losowe Wstęp do klasyfikacji Inne podejścia Co jest do zrobienia 1 Wybierz t - liczbę drzew 2 Wybierz m << A gdzie A to zbiór atrybutów 3 Zbuduj t drzew, dla każdego drzewa: 1 wygeneruj próbę bootstrap wykonujac V losowań ze zwracaniem z V (zbioru treningowego) 2 przy tworzeniu każdego wierzchołka drzewa weź m atrybutów wylosowanych z A i znajdź najlepsze cięcie. 4 Klasyfikuj poprzez przeprowadzenie głosowania wśród wszystkich drzew. em jest głos większości.

42 Ukryte Modele Markowa Wstęp do klasyfikacji Inne podejścia Co jest do zrobienia Dany zbiór stanów S i prawdopodobieństw przejść między nimi jako macierz stochastyczna M = (p i,j ) i,j S p i,j = 1 i S (11) j S oraz prawdopodobieństwa e i (x) wyemitowania symbolu x Σ w stanie i S e i (x) = 1 i S (12) x Σ Znamy ciag symboli które zostały wyemitowane, ale nie wiemy w jaki sposób zmieniały się stany (sa one niejako ukryte) Algorytm Viterbiego - wyznaczanie najbardziej prawdopodobnego ciagu stanów który wyemitował sekwencje Algorytm Bauma-Welcha - wyznaczanie paramterów p i,j i e i (x).

43 Ukryte Modele Markowa Wstęp do klasyfikacji Inne podejścia Co jest do zrobienia

44 McPromoter Wstęp do klasyfikacji Inne podejścia Co jest do zrobienia generegulation/mcpromoter/ Praca: Ohler U, Liao GC, Niemann H, Rubin GM Computational analysis of core promoters in the Drosophila genome. Genome Biol 2002, 3:RESEARCH0087 ogólniony ukryty model Markowa Zbiór TSS (do trenowania/testów) wyodrębniono przy pomocy klastrowania EST Dla regionu Adh: dla progu 0.98 uzyskano TPR=19.5% TNR=69.2% dla progu 0.8 uzyskano TPR=65.2% TNR=29.3%

45 NNPP Wstęp do klasyfikacji Inne podejścia Co jest do zrobienia Praca: Reese MG Application of a time-delay neural network to the annotation of the Drosophila melanogaster genome. Comput Chem 2001, 26: sieć neuronowa z opóźnionym wejściem

46 Zarys Pracy Wstęp do klasyfikacji Inne podejścia Co jest do zrobienia Stworzenie zestawów danych Ustalenie atrybutów warunkowych Wyznaczenie wartości atrybutów warunkowych Implementacja metod klasyfikacji i/lub użycie gotowych narzędzi W przypadku dużej ilości atrybutów warunkowych, wyznaczenie które sa tak naprawde istotne Porównanie wydajności klasyfikatorów

47 Stworzenie zestawów danych Wstęp do klasyfikacji Inne podejścia Co jest do zrobienia Dla roznych eksperymentalnych zbiorow danych generujemy zestawy znanych promotorow wraz z atrybutami decyzyjnymi insitu.fruitfly.org genow opisanych wg ekspresji zarodkowej (np. maternal vs. zygotic) dane o aktywności promotorów (modencode.org, odczyty H3K4me3) - dokładna aktywność promotorów w czasie Dla kazdego promotora, wyciagamy sekwencje z genomu (-n,+k nukleotydow)

48 Ustalenie atrybutów warunkowych Wstęp do klasyfikacji Inne podejścia Co jest do zrobienia Zliczamy wystapienia: motywów promotorowych motywów czynników transkrypcyjnych z bazy JASPAR (jaspar.genereg.net) motywów nadreprezentowanych w sekwencjach promotorowych nowych przy pomocy narzedzi typu MEME lub weeder. Liczymy dla każdej pozycji, dla każdego badanego motywu hit (PSSM) Liczymy dla każdej pozycji, dla każdego badanego motywu czy jest wystapienie (konsensus) Znajdujemy pozycje pierwszego wystapienia dla każdego motywu Robimy wszystko tak samo z pewnymi podsłowami tak jak robiliśmy z motywami

49 Klasyfikacja Wstęp do klasyfikacji Inne podejścia Co jest do zrobienia Przetestowanie znanych metod klasyfikacji dla różnych zadań: odróżnianie promotorow od nie-promotorow odróżnianie promotorow genow zarodkowych/macierzystych (in-situ) odróżnianie promotorow aktywnych/nieaktywnych w zarodkach (modencode) Jako pierwsza zostanie użyta metoda lasów losowych, w drugiej kolejności sieci Bayesowskie

50 Wstęp do klasyfikacji Inne podejścia Co jest do zrobienia Wyznaczenie istotnych atrybutów warunkowych Las losowy -> szukanie dobrych drzew Sieć Bayesowska -> zmienne (wierzchołki) które maja duży wpływ na ostateczny wynik Reguły -> redukty

TRANSKRYPCJA - I etap ekspresji genów

TRANSKRYPCJA - I etap ekspresji genów Eksparesja genów TRANSKRYPCJA - I etap ekspresji genów Przepisywanie informacji genetycznej z makrocząsteczki DNA na mniejsze i bardziej funkcjonalne cząsteczki pre-mrna Polimeraza RNA ETAP I Inicjacja

Bardziej szczegółowo

TATA box. Enhancery. CGCG ekson intron ekson intron ekson CZĘŚĆ KODUJĄCA GENU TERMINATOR. Elementy regulatorowe

TATA box. Enhancery. CGCG ekson intron ekson intron ekson CZĘŚĆ KODUJĄCA GENU TERMINATOR. Elementy regulatorowe Promotory genu Promotor bliski leży w odległości do 40 pz od miejsca startu transkrypcji, zawiera kasetę TATA. Kaseta TATA to silnie konserwowana sekwencja TATAAAA, występująca w większości promotorów

Bardziej szczegółowo

Indukowane Reguły Decyzyjne I. Wykład 8

Indukowane Reguły Decyzyjne I. Wykład 8 Indukowane Reguły Decyzyjne I Wykład 8 IRD Wykład 8 Plan Powtórka Krzywa ROC = Receiver Operating Characteristic Wybór modelu Statystyka AUC ROC = pole pod krzywą ROC Wybór punktu odcięcia Reguły decyzyjne

Bardziej szczegółowo

Systemy uczące się wykład 2

Systemy uczące się wykład 2 Systemy uczące się wykład 2 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 19 X 2018 Podstawowe definicje Fakt; Przesłanka; Konkluzja; Reguła; Wnioskowanie. Typy wnioskowania

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

Elementy modelowania matematycznego

Elementy modelowania matematycznego Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski

Bardziej szczegółowo

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek Cel projektu Celem projektu jest przygotowanie systemu wnioskowania, wykorzystującego wybrane algorytmy sztucznej inteligencji; Nabycie

Bardziej szczegółowo

Data Mining Wykład 4. Plan wykładu

Data Mining Wykład 4. Plan wykładu Data Mining Wykład 4 Klasyfikacja danych Klasyfikacja poprzez indukcje drzew decyzyjnych Plan wykładu Sformułowanie problemu Kryteria oceny metod klasyfikacji Metody klasyfikacji Klasyfikacja poprzez indukcje

Bardziej szczegółowo

9. Praktyczna ocena jakości klasyfikacji

9. Praktyczna ocena jakości klasyfikacji Algorytmy rozpoznawania obrazów 9. Praktyczna ocena jakości klasyfikacji dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Zbiór uczacy i zbiór testowy 1. Zbiór uczacy służy do konstrukcji (treningu)

Bardziej szczegółowo

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

8. Drzewa decyzyjne, bagging, boosting i lasy losowe Algorytmy rozpoznawania obrazów 8. Drzewa decyzyjne, bagging, boosting i lasy losowe dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Drzewa decyzyjne Drzewa decyzyjne (ang. decision trees), zwane

Bardziej szczegółowo

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2 ALEKSANDRA ŚWIERCZ Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2 Ekspresja genów http://genome.wellcome.ac.uk/doc_wtd020757.html A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH

Bardziej szczegółowo

Wprowadzenie do uczenia maszynowego

Wprowadzenie do uczenia maszynowego Wprowadzenie do uczenia maszynowego Agnieszka Ławrynowicz 12 stycznia 2017 Co to jest uczenie maszynowe? dziedzina nauki, która zajmuje się sprawianiem aby komputery mogły uczyć się bez ich zaprogramowania

Bardziej szczegółowo

Wstęp do Biologii Obliczeniowej

Wstęp do Biologii Obliczeniowej Wstęp do Biologii Obliczeniowej Zagadnienia na kolokwium Bartek Wilczyński 5. czerwca 2018 Sekwencje DNA i grafy Sekwencje w biologii, DNA, RNA, białka, alfabety, transkrypcja DNA RNA, translacja RNA białko,

Bardziej szczegółowo

WYKŁAD 7. Testowanie jakości modeli klasyfikacyjnych metodyka i kryteria

WYKŁAD 7. Testowanie jakości modeli klasyfikacyjnych metodyka i kryteria Wrocław University of Technology WYKŁAD 7 Testowanie jakości modeli klasyfikacyjnych metodyka i kryteria autor: Maciej Zięba Politechnika Wrocławska Testowanie modeli klasyfikacyjnych Dobór odpowiedniego

Bardziej szczegółowo

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny

Bardziej szczegółowo

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania

Bardziej szczegółowo

Metody klasyfikacji danych - część 1 p.1/24

Metody klasyfikacji danych - część 1 p.1/24 Metody klasyfikacji danych - część 1 Inteligentne Usługi Informacyjne Jerzy Dembski Metody klasyfikacji danych - część 1 p.1/24 Plan wykładu - Zadanie klasyfikacji danych - Przeglad problemów klasyfikacji

Bardziej szczegółowo

Dr. habil. Anna Salek International Bio-Consulting 1 Germany

Dr. habil. Anna Salek International Bio-Consulting 1 Germany 1 2 3 Drożdże są najprostszymi Eukariontami 4 Eucaryota Procaryota 5 6 Informacja genetyczna dla każdej komórki drożdży jest identyczna A zatem każda komórka koduje w DNA wszystkie swoje substancje 7 Przy

Bardziej szczegółowo

Systemy uczące się Lab 4

Systemy uczące się Lab 4 Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego

Bardziej szczegółowo

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną

Bardziej szczegółowo

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta Stan dotychczasowy OCENA KLASYFIKACJI w diagnostyce Wybraliśmy metodę uczenia maszynowego (np. sieć neuronowa lub drzewo decyzyjne), która będzie klasyfikować nieznane przypadki Na podzbiorze dostępnych

Bardziej szczegółowo

Nowoczesne systemy ekspresji genów

Nowoczesne systemy ekspresji genów Nowoczesne systemy ekspresji genów Ekspresja genów w organizmach żywych GEN - pojęcia podstawowe promotor sekwencja kodująca RNA terminator gen Gen - odcinek DNA zawierający zakodowaną informację wystarczającą

Bardziej szczegółowo

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Algorytmy metaheurystyczne Wykład 11. Piotr Syga Algorytmy metaheurystyczne Wykład 11 Piotr Syga 22.05.2017 Drzewa decyzyjne Idea Cel Na podstawie przesłanek (typowo zbiory rozmyte) oraz zbioru wartości w danych testowych, w oparciu o wybrane miary,

Bardziej szczegółowo

Drzewa decyzyjne i lasy losowe

Drzewa decyzyjne i lasy losowe Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM

Bardziej szczegółowo

Zarówno u organizmów eukariotycznych, jak i prokariotycznych proces replikacji ma charakter semikonserwatywny.

Zarówno u organizmów eukariotycznych, jak i prokariotycznych proces replikacji ma charakter semikonserwatywny. HIPTEZY WYJAŚIAJĄCE MECHAIZM REPLIKACJI C. Model replikacji semikonserwatywnej zakłada on, że obie nici macierzystej cząsteczki DA są matrycą dla nowych, dosyntetyzowywanych nici REPLIKACJA każda z dwóch

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych 9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :

Bardziej szczegółowo

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018 Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład II bogumil.konopka@pwr.edu.pl 2017/2018 Określenie rzeczywistej dokładności modelu Zbiór treningowym vs zbiór testowy Zbiór treningowy

Bardziej szczegółowo

Algorytm do rozpoznawania człowieka na podstawie dynamiki użycia klawiatury. Paweł Kobojek, prof. dr hab. inż. Khalid Saeed

Algorytm do rozpoznawania człowieka na podstawie dynamiki użycia klawiatury. Paweł Kobojek, prof. dr hab. inż. Khalid Saeed Algorytm do rozpoznawania człowieka na podstawie dynamiki użycia klawiatury Paweł Kobojek, prof. dr hab. inż. Khalid Saeed Zakres pracy Przegląd stanu wiedzy w dziedzinie biometrii, ze szczególnym naciskiem

Bardziej szczegółowo

Klasyfikator liniowy Wstęp Klasyfikator liniowy jest najprostszym możliwym klasyfikatorem. Zakłada on liniową separację liniowy podział dwóch klas między sobą. Przedstawia to poniższy rysunek: 5 4 3 2

Bardziej szczegółowo

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18 Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)

Bardziej szczegółowo

Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa

Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa M. Czoków, J. Piersa 2012-01-10 1 Łańcucha Markowa 2 Istnienie Szukanie stanu stacjonarnego 3 1 Łańcucha Markowa 2 Istnienie Szukanie stanu stacjonarnego

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

2014-03-26. Analiza sekwencji promotorów

2014-03-26. Analiza sekwencji promotorów 2014-03-26 Analiza sekwencji promotorów 1 2014-03-26 TFy tworzą zawiły układ regulacyjny, na który składają się różne oddziaływania białko białko poprzez wytworzenie PĘTLI Specyficzne TFy Ogólne TFy Benfey,

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej

Bardziej szczegółowo

Laboratoria.net Innowacje Nauka Technologie

Laboratoria.net Innowacje Nauka Technologie Akceptuję W ramach naszej witryny stosujemy pliki cookies w celu świadczenia państwu usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany

Bardziej szczegółowo

Modelowanie motywów łańcuchami Markowa wyższego rzędu

Modelowanie motywów łańcuchami Markowa wyższego rzędu Modelowanie motywów łańcuchami Markowa wyższego rzędu Uniwersytet Warszawski Wydział Matematyki, Informatyki i Mechaniki 23 października 2008 roku Plan prezentacji 1 Źródła 2 Motywy i ich znaczenie Łańcuchy

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie... 3. 2 Wprowadzenie do biologicznych baz danych...

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie... 3. 2 Wprowadzenie do biologicznych baz danych... Przedmowa... XI Część pierwsza Wprowadzenie i biologiczne bazy danych 1 Wprowadzenie... 3 Czym jest bioinformatyka?... 5 Cele... 5 Zakres zainteresowań... 6 Zastosowania... 7 Ograniczenia... 8 Przyszłe

Bardziej szczegółowo

Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori.

Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori. Analiza danych Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ REGUŁY DECYZYJNE Metoda reprezentacji wiedzy (modelowania

Bardziej szczegółowo

Spacery losowe generowanie realizacji procesu losowego

Spacery losowe generowanie realizacji procesu losowego Spacery losowe generowanie realizacji procesu losowego Michał Krzemiński Streszczenie Omówimy metodę generowania trajektorii spacerów losowych (błądzenia losowego), tj. szczególnych procesów Markowa z

Bardziej szczegółowo

Statystyczna analiza danych

Statystyczna analiza danych Statystyczna analiza danych ukryte modele Markowa, zastosowania Anna Gambin Instytut Informatyki Uniwersytet Warszawski plan na dziś Ukryte modele Markowa w praktyce modelowania rodzin białek multiuliniowienia

Bardziej szczegółowo

Rozpoznawanie obrazów

Rozpoznawanie obrazów Rozpoznawanie obrazów Laboratorium Python Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest implementacja liniowego zadania

Bardziej szczegółowo

Przeglądanie bibliotek

Przeglądanie bibliotek Przeglądanie bibliotek Czyli jak złapać (i sklonować) ciekawy gen? Klonowanie genów w oparciu o identyczność lub podobieństwo ich sekwencji do znanego już DNA Sonda homologiczna (komplementarna w 100%)

Bardziej szczegółowo

Ocena dokładności diagnozy

Ocena dokładności diagnozy Ocena dokładności diagnozy Diagnoza medyczna, w wielu przypadkach może być interpretowana jako działanie polegające na podjęciu jednej z dwóch decyzji odnośnie stanu zdrowotnego pacjenta: 0 pacjent zdrowy

Bardziej szczegółowo

ZeroR. Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F

ZeroR. Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F ZeroR Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 5 T 7 T 5 T 5 F 2 7 F Tutaj jest więcej obiektów klasy T, więc klasyfikator ZeroR będzie zawsze odpowiadał T niezależnie

Bardziej szczegółowo

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Michał Witczak Data Mining 20 maja 2012 r. 1. Wstęp Dostarczone zostały nam 4 pliki, z których dwa stanowiły zbiory uczące

Bardziej szczegółowo

METODY INŻYNIERII WIEDZY

METODY INŻYNIERII WIEDZY METODY INŻYNIERII WIEDZY WALIDACJA KRZYŻOWA dla ZAAWANSOWANEGO KLASYFIKATORA KNN ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

Teoretyczne podstawy informatyki

Teoretyczne podstawy informatyki Teoretyczne podstawy informatyki Wykład 12a: Prawdopodobieństwo i algorytmy probabilistyczne http://hibiscus.if.uj.edu.pl/~erichter/dydaktyka2010/tpi-2010 Prof. dr hab. Elżbieta Richter-Wąs 1 Teoria prawdopodobieństwa

Bardziej szczegółowo

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych??? Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych??? Alfabet kwasów nukleinowych jest stosunkowo ubogi!!! Dla sekwencji DNA (RNA) stosuje się zasadniczo*

Bardziej szczegółowo

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość Dwie metody Klasyczna metoda histogramu jako narzędzie do postawienia hipotezy, jaki rozkład prawdopodobieństwa pasuje do danych Indukcja drzewa decyzyjnego jako metoda wykrycia klasyfikatora ukrytego

Bardziej szczegółowo

Metody Sztucznej Inteligencji II

Metody Sztucznej Inteligencji II 17 marca 2013 Neuron biologiczny Neuron Jest podstawowym budulcem układu nerwowego. Jest komórką, która jest w stanie odbierać i przekazywać sygnały elektryczne. Neuron działanie Jeżeli wartość sygnału

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia

Bardziej szczegółowo

Odkrywanie cis-regulatorowych RNA w prokariotach

Odkrywanie cis-regulatorowych RNA w prokariotach Źródła Odkrywanie cis-regulatorowych RNA w prokariotach Uniwersytet Warszawski Wydział Matematyki, Informatyki i Mechaniki 6 grudnia 2007 roku Plan prezentacji Źródła 1 Źródła 2 3 Filogenetyczny footprinting

Bardziej szczegółowo

Konstrukcja biortogonalnych baz dyskryminacyjnych dla problemu klasyfikacji sygnałów. Wit Jakuczun

Konstrukcja biortogonalnych baz dyskryminacyjnych dla problemu klasyfikacji sygnałów. Wit Jakuczun Konstrukcja biortogonalnych baz dyskryminacyjnych dla problemu klasyfikacji sygnałów Politechnika Warszawska Strona 1 Podstawowe definicje Politechnika Warszawska Strona 2 Podstawowe definicje Zbiór treningowy

Bardziej szczegółowo

Wprowadzenie do uczenia maszynowego

Wprowadzenie do uczenia maszynowego Wprowadzenie do uczenia maszynowego Agnieszka Ławrynowicz 16 listopada 2017 Co to jest uczenie maszynowe? dziedzina nauki, która zajmuje się sprawianiem aby komputery mogły uczyć się bez ich zaprogramowania

Bardziej szczegółowo

Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować?

Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować? Algorytm k-nn Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować? Jak daleko są położone obiekty od siebie? knn k nearest neighbours jest

Bardziej szczegółowo

Mapowanie fizyczne genomów -konstrukcja map wyskalowanych w jednostkach fizycznych -najdokładniejszą mapą fizyczną genomu, o największej

Mapowanie fizyczne genomów -konstrukcja map wyskalowanych w jednostkach fizycznych -najdokładniejszą mapą fizyczną genomu, o największej Mapowanie fizyczne genomów -konstrukcja map wyskalowanych w jednostkach fizycznych -najdokładniejszą mapą fizyczną genomu, o największej rozdzielczości jest sekwencja nukleotydowa -mapowanie fizyczne genomu

Bardziej szczegółowo

Metody selekcji cech

Metody selekcji cech Metody selekcji cech A po co to Często mamy do dyspozycji dane w postaci zbioru cech lecz nie wiemy które z tych cech będą dla nas istotne. W zbiorze cech mogą wystąpić cechy redundantne niosące identyczną

Bardziej szczegółowo

października 2013: Elementarz biologii molekularnej. Wykład nr 2 BIOINFORMATYKA rok II

października 2013: Elementarz biologii molekularnej. Wykład nr 2 BIOINFORMATYKA rok II 10 października 2013: Elementarz biologii molekularnej www.bioalgorithms.info Wykład nr 2 BIOINFORMATYKA rok II Komórka: strukturalna i funkcjonalne jednostka organizmu żywego Jądro komórkowe: chroniona

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska DRZEWO REGRESYJNE Sposób konstrukcji i przycinania

Bardziej szczegółowo

Wprowadzenie do klasyfikacji

Wprowadzenie do klasyfikacji Wprowadzenie do klasyfikacji ZeroR Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F Tutaj jest więcej obiektów klasy T, więc klasyfikator

Bardziej szczegółowo

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Jacek Szcześniak Jerzy Błaszczyński Roman Słowiński Poznań, 5.XI.2013r. Konspekt Wstęp Wprowadzenie Metody typu wrapper Nowe metody

Bardziej szczegółowo

Regulacja transkrypcji genów eukariotycznych

Regulacja transkrypcji genów eukariotycznych Regulacja transkrypcji genów eukariotycznych Dr hab. Marta Koblowska, prof. UW Zakład Biologii Systemów, Wydział Biologii UW Pracownia Analiz Mikromacierzy i Sekwencjonowania UW/IBB PAN Klasyczne wyobrażenie

Bardziej szczegółowo

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

komputery? Andrzej Skowron, Hung Son Nguyen  Instytut Matematyki, Wydział MIM, UW Czego moga się nauczyć komputery? Andrzej Skowron, Hung Son Nguyen son@mimuw.edu.pl; skowron@mimuw.edu.pl Instytut Matematyki, Wydział MIM, UW colt.tex Czego mogą się nauczyć komputery? Andrzej Skowron,

Bardziej szczegółowo

Jakość uczenia i generalizacja

Jakość uczenia i generalizacja Jakość uczenia i generalizacja Dokładność uczenia Jest koncepcją miary w jakim stopniu nasza sieć nauczyła się rozwiązywać określone zadanie Dokładność mówi na ile nauczyliśmy się rozwiązywać zadania które

Bardziej szczegółowo

Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 2. Wojciech Waloszek. Teresa Zawadzka.

Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 2. Wojciech Waloszek. Teresa Zawadzka. Eksploracja danych KLASYFIKACJA I REGRESJA cz. 2 Wojciech Waloszek wowal@eti.pg.gda.pl Teresa Zawadzka tegra@eti.pg.gda.pl Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki

Bardziej szczegółowo

WSPOMAGANIE DECYZJI - MIŁOSZ KADZIŃSKI LAB IV ZBIORY PRZYBLIŻONE I ODKRYWANIE REGUŁ DECYZYJNYCH

WSPOMAGANIE DECYZJI - MIŁOSZ KADZIŃSKI LAB IV ZBIORY PRZYBLIŻONE I ODKRYWANIE REGUŁ DECYZYJNYCH WSOMAGANIE DECYZJI - MIŁOSZ KADZIŃSKI LAB IV ZBIORY RZYBLIŻONE I ODKRYWANIE REGUŁ DECYZYJNYCH 1. Definicje Zbiory, które nie są zbiorami definiowalnymi, są nazywane zbiorami przybliżonymi. Zbiory definiowalne

Bardziej szczegółowo

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Maja Czoków, Jarosław Piersa, Andrzej Rutkowski Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2018-10-15 Projekt

Bardziej szczegółowo

Automatyczne wyodrębnianie reguł

Automatyczne wyodrębnianie reguł Automatyczne wyodrębnianie reguł Jedną z form reprezentacji wiedzy jest jej zapis w postaci zestawu reguł. Ta forma ma szereg korzyści: daje się łatwo interpretować, można zrozumieć sposób działania zbudowanego

Bardziej szczegółowo

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki Genetyka ogólna wykład dla studentów II roku biotechnologii Andrzej Wierzbicki Uniwersytet Warszawski Wydział Biologii andw@ibb.waw.pl http://arete.ibb.waw.pl/private/genetyka/ 1. Gen to odcinek DNA odpowiedzialny

Bardziej szczegółowo

Wybrane techniki badania białek -proteomika funkcjonalna

Wybrane techniki badania białek -proteomika funkcjonalna Wybrane techniki badania białek -proteomika funkcjonalna Proteomika: umożliwia badanie zestawu wszystkich (lub prawie wszystkich) białek komórkowych Zalety analizy proteomu w porównaniu z analizą trankryptomu:

Bardziej szczegółowo

Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova

Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova M. Czoków, J. Piersa 2010-12-21 1 Definicja Własności Losowanie z rozkładu dyskretnego 2 3 Łańcuch Markova Definicja Własności Losowanie z rozkładu

Bardziej szczegółowo

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki Genetyka ogólna wykład dla studentów II roku biotechnologii Andrzej Wierzbicki Uniwersytet Warszawski Wydział Biologii andw@ibb.waw.pl http://arete.ibb.waw.pl/private/genetyka/ Wykład 5 Droga od genu do

Bardziej szczegółowo

Klasteryzacja i klasyfikacja danych spektrometrycznych

Klasteryzacja i klasyfikacja danych spektrometrycznych Klasteryzacja i klasyfikacja danych spektrometrycznych Współpraca: Janusz Dutkowski, Anna Gambin, Krzysztof Kowalczyk, Joanna Reda, Jerzy Tiuryn, Michał Dadlez z zespołem (IBB PAN) Instytut Informatyki

Bardziej szczegółowo

TECHNIKI ANALIZY RNA TECHNIKI ANALIZY RNA TECHNIKI ANALIZY RNA

TECHNIKI ANALIZY RNA TECHNIKI ANALIZY RNA TECHNIKI ANALIZY RNA DNA 28SRNA 18/16S RNA 5SRNA mrna Ilościowa analiza mrna aktywność genów w zależności od wybranych czynników: o rodzaju tkanki o rodzaju czynnika zewnętrznego o rodzaju upośledzenia szlaku metabolicznego

Bardziej szczegółowo

Testowanie modeli predykcyjnych

Testowanie modeli predykcyjnych Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności

Bardziej szczegółowo

WYKŁAD: Klasyczny przepływ informacji ( Dogmat) Klasyczny przepływ informacji. Ekspresja genów realizacja informacji zawartej w genach

WYKŁAD: Klasyczny przepływ informacji ( Dogmat) Klasyczny przepływ informacji. Ekspresja genów realizacja informacji zawartej w genach WYKŁAD: Ekspresja genów realizacja informacji zawartej w genach Prof. hab. n. med. Małgorzata Milkiewicz Zakład Biologii Medycznej Klasyczny przepływ informacji ( Dogmat) Białka Retrowirusy Białka Klasyczny

Bardziej szczegółowo

Przybliżone algorytmy analizy ekspresji genów.

Przybliżone algorytmy analizy ekspresji genów. Przybliżone algorytmy analizy ekspresji genów. Opracowanie i implementacja algorytmu analizy danych uzyskanych z eksperymentu biologicznego. 20.06.04 Seminarium - SKISR 1 Wstęp. Dane wejściowe dla programu

Bardziej szczegółowo

Klonowanie molekularne Kurs doskonalący. Zakład Geriatrii i Gerontologii CMKP

Klonowanie molekularne Kurs doskonalący. Zakład Geriatrii i Gerontologii CMKP Klonowanie molekularne Kurs doskonalący Zakład Geriatrii i Gerontologii CMKP Etapy klonowania molekularnego 1. Wybór wektora i organizmu gospodarza Po co klonuję (do namnożenia DNA [czy ma być metylowane

Bardziej szczegółowo

Systemy ekspertowe. Eksploracja danych z wykorzystaniem tablic decyzyjnych i zbiorów przybliżonych. Część trzecia

Systemy ekspertowe. Eksploracja danych z wykorzystaniem tablic decyzyjnych i zbiorów przybliżonych. Część trzecia Część trzecia Autor Roman Simiński Eksploracja danych z wykorzystaniem tablic decyzyjnych i zbiorów przybliżonych Kontakt siminski@us.edu.pl www.us.edu.pl/~siminski Niniejsze opracowanie zawiera skrót

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z liniowym zadaniem najmniejszych

Bardziej szczegółowo

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych???

Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych??? Analizy DNA in silico - czyli czego można szukać i co można znaleźć w sekwencjach nukleotydowych??? Alfabet kwasów nukleinowych jest stosunkowo ubogi!!! Dla sekwencji DNA (RNA) stosuje się zasadniczo*

Bardziej szczegółowo

Wybrane techniki badania białek -proteomika funkcjonalna

Wybrane techniki badania białek -proteomika funkcjonalna Wybrane techniki badania białek -proteomika funkcjonalna Proteomika: umożliwia badanie zestawu wszystkich (lub prawie wszystkich) białek komórkowych Zalety analizy proteomu np. w porównaniu z analizą trankryptomu:

Bardziej szczegółowo

Wprowadzenie. Data Science Uczenie się pod nadzorem

Wprowadzenie. Data Science Uczenie się pod nadzorem Wprowadzenie Wprowadzenie Wprowadzenie Wprowadzenie Machine Learning Mind Map Historia Wstęp lub uczenie się z przykładów jest procesem budowy, na bazie dostępnych danych wejściowych X i oraz wyjściowych

Bardziej szczegółowo

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane. Wstęp do sieci neuronowych, wykład 7. M. Czoków, J. Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika w Toruniu 212-11-28 Projekt pn. Wzmocnienie potencjału dydaktycznego UMK w Toruniu

Bardziej szczegółowo

Algorytmy klasyfikacji

Algorytmy klasyfikacji Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe

Bardziej szczegółowo

Elementy modelowania matematycznego

Elementy modelowania matematycznego Elementy modelowania matematycznego Łańcuchy Markowa: zagadnienia graniczne. Ukryte modele Markowa. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ KLASYFIKACJA STANÓW Stan i jest osiągalny

Bardziej szczegółowo

Bazy danych. Andrzej Łachwa, UJ, /15

Bazy danych. Andrzej Łachwa, UJ, /15 Bazy danych Andrzej Łachwa, UJ, 2013 andrzej.lachwa@uj.edu.pl www.uj.edu.pl/web/zpgk/materialy 15/15 PYTANIA NA EGZAMIN LICENCJACKI 84. B drzewa definicja, algorytm wyszukiwania w B drzewie. Zob. Elmasri:

Bardziej szczegółowo

Elementy statystyki wielowymiarowej

Elementy statystyki wielowymiarowej Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta

Bardziej szczegółowo

Dane mikromacierzowe. Mateusz Markowicz Marta Stańska

Dane mikromacierzowe. Mateusz Markowicz Marta Stańska Dane mikromacierzowe Mateusz Markowicz Marta Stańska Mikromacierz Mikromacierz DNA (ang. DNA microarray) to szklana lub plastikowa płytka (o maksymalnych wymiarach 2,5 cm x 7,5 cm) z naniesionymi w regularnych

Bardziej szczegółowo

MIKROMACIERZE. dr inż. Aleksandra Świercz dr Agnieszka Żmieńko

MIKROMACIERZE. dr inż. Aleksandra Świercz dr Agnieszka Żmieńko MIKROMACIERZE dr inż. Aleksandra Świercz dr Agnieszka Żmieńko Informacje ogólne Wykłady będą częściowo dostępne w formie elektronicznej http://cs.put.poznan.pl/aswiercz aswiercz@cs.put.poznan.pl Godziny

Bardziej szczegółowo

Klasyfikacja metodą Bayesa

Klasyfikacja metodą Bayesa Klasyfikacja metodą Bayesa Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski warunkowe i bezwarunkowe 1. Klasyfikacja Bayesowska jest klasyfikacją statystyczną. Pozwala przewidzieć prawdopodobieństwo

Bardziej szczegółowo

Agnieszka Nowak Brzezińska

Agnieszka Nowak Brzezińska Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia

Bardziej szczegółowo

Rozkład Gaussa i test χ2

Rozkład Gaussa i test χ2 Rozkład Gaussa jest scharakteryzowany dwoma parametramiwartością oczekiwaną rozkładu μ oraz dyspersją σ: METODA 2 (dokładna) polega na zmianie zmiennych i na obliczeniu pk jako różnicy całek ze standaryzowanego

Bardziej szczegółowo

Metody oceny wiedzy klasyfikacyjnej odkrytej z danych Jerzy Stefanowski Instytut Informatyki Politechnika Poznańska

Metody oceny wiedzy klasyfikacyjnej odkrytej z danych Jerzy Stefanowski Instytut Informatyki Politechnika Poznańska Metody oceny wiedzy klasyfikacyjnej odkrytej z danych Jerzy Stefanowski Instytut Informatyki Politechnika Poznańska Wykład dla spec. Mgr TWO Poznań 2010 dodatek 1 Ocena wiedzy klasyfikacyjnej wykład dla

Bardziej szczegółowo

Stochastyczna dynamika z opóźnieniem czasowym w grach ewolucyjnych oraz modelach ekspresji i regulacji genów

Stochastyczna dynamika z opóźnieniem czasowym w grach ewolucyjnych oraz modelach ekspresji i regulacji genów Stochastyczna dynamika z opóźnieniem czasowym w grach ewolucyjnych oraz modelach ekspresji i regulacji genów Jacek Miękisz Instytut Matematyki Stosowanej i Mechaniki Uniwersytet Warszawski Warszawa 14

Bardziej szczegółowo

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI WERYFIKACJA HIPOTEZ Hipoteza statystyczna jakiekolwiek przypuszczenie dotyczące populacji generalnej- jej poszczególnych

Bardziej szczegółowo

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016 Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład I dr inż. Bogumil.Konopka@pwr.edu.pl 2015/2016 1 Wykład I - plan Sprawy organizacyjne Uczenie maszynowe podstawowe pojęcia Proces modelowania

Bardziej szczegółowo

Wyk lad 9 Baza i wymiar przestrzeni liniowej

Wyk lad 9 Baza i wymiar przestrzeni liniowej Wyk lad 9 Baza i wymiar liniowej Baza liniowej Niech V bedzie nad cia lem K Powiemy, że zbiór wektorów {α,, α n } jest baza V, jeżeli wektory α,, α n sa liniowo niezależne oraz generuja V tzn V = L(α,,

Bardziej szczegółowo