Przybliżone algorytmy analizy ekspresji genów.

Podobne dokumenty
Dane mikromacierzowe. Mateusz Markowicz Marta Stańska

Bioinformatyka, edycja 2016/2017, laboratorium

MIKROMACIERZE. dr inż. Aleksandra Świercz dr Agnieszka Żmieńko

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

Analiza zmienności czasowej danych mikromacierzowych

Sieci Kohonena Grupowanie

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Wykład 14 Biosynteza białek

października 2013: Elementarz biologii molekularnej. Wykład nr 2 BIOINFORMATYKA rok II

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

TATA box. Enhancery. CGCG ekson intron ekson intron ekson CZĘŚĆ KODUJĄCA GENU TERMINATOR. Elementy regulatorowe

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

Systemy uczące się Lab 4

Analiza sekwencji promotorów

Grafy i sieci wybrane zagadnienia wykład 3: modele służące porównywaniu sieci

Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa

Zasady oceniania rozwiązań zadań 48 Olimpiada Biologiczna Etap centralny

Translacja i proteom komórki

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Dr. habil. Anna Salek International Bio-Consulting 1 Germany

Algorytmy przeszukiwania wzorca

GENOMIKA FUNKCJONALNA. Jak działają geny i genomy? Poziom I: Analizy transkryptomu

Analizy wielkoskalowe w badaniach chromatyny

TRANSKRYPCJA - I etap ekspresji genów

Analiza i programowanie obiektowe 2016/2017. Wykład 6: Projektowanie obiektowe: diagramy interakcji

CLUSTERING. Metody grupowania danych

Nowoczesne systemy ekspresji genów

Kombinatoryczna analiza widm 2D-NOESY w spektroskopii Magnetycznego Rezonansu Jądrowego cząsteczek RNA. Marta Szachniuk

Geny i działania na nich

WPROWADZENIE DO GENETYKI MOLEKULARNEJ

Klonowanie molekularne Kurs doskonalący. Zakład Geriatrii i Gerontologii CMKP

TRANSLACJA II etap ekspresji genów

Algorytmy kombinatoryczne w bioinformatyce

PODSTAWY BIOINFORMATYKI 12 MIKROMACIERZE

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

1. Na podanej sekwencji przeprowadź proces replikacji, oraz do obu nici proces transkrypcji i translacji, podaj zapis antykodonów.

Mutacje jako źródło różnorodności wewnątrzgatunkowej

Agnieszka Nowak Brzezińska

TECHNIKI ANALIZY RNA TECHNIKI ANALIZY RNA TECHNIKI ANALIZY RNA

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

Biologia Molekularna Podstawy

WYKŁAD: Klasyczny przepływ informacji ( Dogmat) Klasyczny przepływ informacji. Ekspresja genów realizacja informacji zawartej w genach

Algorytm grupowania danych typu kwantyzacji wektorów

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

Testowanie hipotez statystycznych

Wyszukiwanie binarne

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

1 Metody rozwiązywania równań nieliniowych. Postawienie problemu

WPROWADZENIE DO GENETYKI MOLEKULARNEJ

Wyznaczanie optymalnej trasy problem komiwojażera

Analiza składowych głównych

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

TEST Z CYTOLOGII GRUPA II

GENOMIKA FUNKCJONALNA. Jak działają geny i genomy? Poziom I: Analizy transkryptomu

Wybrane techniki badania białek -proteomika funkcjonalna

SPOTKANIE 2: Wprowadzenie cz. I

GRA Przykład. 1) Zbiór graczy. 2) Zbiór strategii. 3) Wypłaty. n = 2 myśliwych. I= {1,,n} S = {polować na jelenia, gonić zająca} S = {1,,m} 10 utils

Metody analizy genomu

SCENARIUSZ LEKCJI BIOLOGII Z WYKORZYSTANIEM FILMU Transkrypcja RNA

Statystyczna analiza danych

Metody badania ekspresji genów

Podstawy biologiczne - komórki. Podstawy biologiczne - cząsteczki. Model komórki eukariotycznej. Wprowadzenie do Informatyki Biomedycznej

Zaoczne Liceum Ogólnokształcące Pegaz

TEORETYCZNE PODSTAWY INFORMATYKI

Wstęp. Krystalografia geometryczna

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane cd.

Wprowadzenie. SOM jest skrótem od Self Organizing Maps, czyli Samoorganizujące się mapy.

Wprowadzenie. DNA i białka. W uproszczeniu: program działania żywego organizmu zapisany jest w nici DNA i wykonuje się na maszynie białkowej.

Obliczenia inteligentne Zadanie 4

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Co to jest grupowanie

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

GENOMIKA FUNKCJONALNA. Jak działają geny i genomy? Poziom I: Analizy transkryptomu

Przykładowa analiza danych

Prawdopodobieństwo geometryczne

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

System wspomagania harmonogramowania przedsięwzięć budowlanych

KATEDRA INFORMATYKI STOSOWANEJ PŁ INŻYNIERIA OPROGRAMOWANIA

Streszczenie dla laikόw

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA

Sieci neuronowe i ich ciekawe zastosowania. Autor: Wojciech Jamrozy III rok SMP / Informatyka

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

wykład dla studentów II roku biotechnologii Andrzej Wierzbicki

ZARZĄDZANIE PROCESAMI I PROJEKTAMI. Zakres projektu. dr inż. ADAM KOLIŃSKI ZARZĄDZANIE PROCESAMI I PROJEKTAMI. Zakres projektu. dr inż.

Teoria grafów - Teoria rewersali - Teoria śladów

Algorytmy sztucznej inteligencji

Scenariusz lekcji przyrody/biologii (2 jednostki lekcyjne)

Feature Driven Development

Zadania domowe. Ćwiczenie 2. Rysowanie obiektów 2-D przy pomocy tworów pierwotnych biblioteki graficznej OpenGL

Ważne rozkłady i twierdzenia c.d.

Algorytm grupowania danych typu kwantyzacji wektorów

Stochastyczna dynamika z opóźnieniem czasowym w grach ewolucyjnych oraz modelach ekspresji i regulacji genów

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Wybrane techniki badania białek -proteomika funkcjonalna

Algorytmy i struktury danych. Wykład 4 Tablice nieporządkowane i uporządkowane

Transkrypt:

Przybliżone algorytmy analizy ekspresji genów. Opracowanie i implementacja algorytmu analizy danych uzyskanych z eksperymentu biologicznego. 20.06.04 Seminarium - SKISR 1

Wstęp. Dane wejściowe dla programu stanowią rezultaty uzyskane w wyniku przeprowadzenia eksperymentu biologicznego z wykorzystaniem mikromacierzy firmy Affmatrix Zadaniem programu jest określenie ewentualnych związków pomiędzy poszczególnymi genami bądź ich grupami które uległy ekspresji podczas eksperymentu. 20.06.04 Seminarium - SKISR 2

Faza eksperymentu Kluczowym elementem tego etapu jest wykorzystanie mikromacierzy DNA (biochipu). Mikromacierz jest urządzeniem pozwalającym na określenie rodzaju genów ulegających ekspresji w danej chwili w badanej tkance, oraz stopnia ekspresji tych genów. 20.06.04 Seminarium - SKISR 3

Faza eksperymentu Ekspresja genu oznacza iż jest on w danej chwili tłumaczony na odpowiadającą mu sekwencje aminokwasów czyli białko. Ekspresja genu jest równoważna obecności w cytoplazmie komórek badanej tkanki, cząsteczek mrna których budowa odpowiada sekwencji zasad tworzących dany gen. Cząsteczki mrna stanowią jeden z podstawowych substratów procesu transkrypcji przepisywania sekwencji zasad CGAT na sekwencję aminokwasów (białko) Mikromacierz zbudowana jest z sond których podstawowym elementem są fragmenty crna (ang. Complementary RNA). 20.06.04 Seminarium - SKISR 4

Faza eksperymentu Podczas eksperymentu cząsteczki mrna występujące w cytoplazmie łączą się z komplementarnymi nićmi crna sond mikromacierzy. Każda sonda odpowiadająca danemu genowi sygnalizuje stopień jego ekspresji (na diagramach określony kolorem). 20.06.04 Seminarium - SKISR 5

Wynik eksperymentu w postaci diagramu ekspresji genów 20.06.04 Seminarium - SKISR 6

Dane dla programu Wyniki uzyskane z mikromacierzy przekłada się na zbiór x punktów w y- wymiarowej przestrzeni. y = liczba przeprowadzonych pomiarów (liczba próbek jakimi dysponujemy) x = stopień ekspresji danego genu 20.06.04 Seminarium - SKISR 7

Dane dla programu Otrzymujemy w ten sposób wielowymiarową przestrzeń z pewną liczbą rozmieszczonych w niej punktów. Zadaniem programu jest odszukanie w zdefiniowanej w ten sposób przestrzeni korelacji pomiędzy rozmieszczonymi w niej punktami. 20.06.04 Seminarium - SKISR 8

Założenia Geny o podobnych wzorcach ekspresji są funkcjonalnie podobne. Oznacza to iż znalezienie funkcjonalnie powiązanych ze sobą genów jest równoważne znalezieniu grupy genów (ang.cluster) skupionych w tym samym obszarze przestrzeni danych. 20.06.04 Seminarium - SKISR 9

Problemy Duża liczba wymiarów Konwencjonalne metody wyznaczania korelacji pomiędzy punktami okazują się nieskuteczne Wykorzystanie dobrze znanych algorytmów analizy wielowymiarowych danych, sprawdzonych w innych dziedzinach informatyki takich jak rozpoznawanie mowy, czy obrazów 20.06.04 Seminarium - SKISR 10

Algorytmy Algorytm samoorganizujących się map (Self Organizing Maps - SOM) z góry określona liczba poszukiwanych grup powiązanych genów K-means clustering bardzo podobny do SOM, lecz bez założeń co do liczby poszukiwanych klastrów. 20.06.04 Seminarium - SKISR 11

SOM Z założenia poszukujemy grup genów (czyli genów o podobnej funkcjonalności), Geny reprezentowane jako punkty w wielowymiarowej przestrzeni Wybór topologii wierzchołków (ang. centroids) krata [1], Centroidy są tego samego wymiaru co geny, Centroidy w kolejnych iteracjach przesuwają się w kierunku poszczególnego genu na podstawie funkcji, której wartość zależy od numeru iteracji i odległości od punktu danych, Im dalej od punktu danych tym mniejsze przesunięcie centroidy, Im wyższa iteracja tym mniejsze przesunięcie, Warunki stopu: Rozpatrzone zostały wszystkie punkty danych, Centroidy (wierzchołki) nie wykonują ruchu powyżej określonego progu 20.06.04 Seminarium - SKISR 12

SOM c.d. 20.06.04 Seminarium - SKISR 13

K means clustering Sposób działania algorytmu jest bardzo podobny do SOM, Wybieramy grupę wierzchołków (ich liczba może być dowolna), Centroidy możemy rozmieścić w dowolny (losowy) sposób w przestrzeni. Postępujemy tak jak w algorytmie SOM. 20.06.04 Seminarium - SKISR 14

Porównanie metod Jednym z etapów tworzonej pracy magisterskiej będzie porównanie otrzymanych na podstawie analizy ekspresji genów wyników przy zastosowaniu różnych metod. 20.06.04 Seminarium - SKISR 15

Dlaczego to jest takie ważne? Wiadomo, iż nowotwory czy inne dolegliwości powstają poprzez mutacje różnych genów, Odkrycie oraz opisanie tego zjawiska może spowodować wynalezienie lekarstwa na dany rodzaj dolegliwości. 20.06.04 Seminarium - SKISR 16

Bibliografia 1. Microarrays for an integrative genomics Isaac S. Kohane, Alvin T. Kho, Atul J. Butte 20.06.04 Seminarium - SKISR 17