Bioinformatyka, edycja 2016/2017, laboratorium

Podobne dokumenty
Dane mikromacierzowe. Mateusz Markowicz Marta Stańska

Przybliżone algorytmy analizy ekspresji genów.

MIKROMACIERZE. dr inż. Aleksandra Świercz dr Agnieszka Żmieńko

Analiza zmienności czasowej danych mikromacierzowych

PODSTAWY BIOINFORMATYKI 12 MIKROMACIERZE

Analizy wielkoskalowe w badaniach chromatyny

Co to jest transkryptom? A. Świercz ANALIZA DANYCH WYSOKOPRZEPUSTOWYCH 2

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.

BIOLOGICZNE BAZY DANYCH (2) GENOMY I ICH ADNOTACJE. Podstawy Bioinformatyki wykład 4

Wybrane techniki badania białek -proteomika funkcjonalna

BIOLOGICZNE BAZY DANYCH (1) GENOMY I ICH ADNOTACJE

października 2013: Elementarz biologii molekularnej. Wykład nr 2 BIOINFORMATYKA rok II

Dodatek F. Dane testowe

w pierwszym okresie nauki w gimnazjum

Bazy danych TERMINOLOGIA

Automatyczna klasyfikacja zespołów QRS

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Bioinformatyka. Program UGENE

CZĘŚĆ III OPISPRZEDMIOTU ZAMÓWIENIA (OPZ)

Analiza korespondencji

Dr. habil. Anna Salek International Bio-Consulting 1 Germany

Sekwencjonowanie, przewidywanie genów

Nowoczesne systemy ekspresji genów

Baza danych. Program: Access 2007

INSTRUKCJA DLA OPERATORA

GENOMIKA FUNKCJONALNA. Jak działają geny i genomy? Poziom I: Analizy transkryptomu

BIOINFORMATYKA. edycja 2016 / wykład 11 RNA. dr Jacek Śmietański

WTYCZKA FARA-TCM Dane techniczne dla twórców zewnętrznych aplikacji do obsługi map cmentarza

Informatyzacja Przedsiębiorstw

Scenariusz lekcji biologii z wykorzystaniem metody CILIL Lekcja dla klasy IV technikum o rozszerzonym zakresie kształcenia

S YL AB US MODUŁ U ( PRZEDMIOTU) I nforma c j e ogólne

Analiza stateczności zbocza

Elementy statystyki wielowymiarowej

Rok akademicki: 2014/2015 Kod: EIB BN-s Punkty ECTS: 3. Kierunek: Inżynieria Biomedyczna Specjalność: Bionanotechnologie

BAZA DANYCH. Informatyka. ZESPÓŁ SZKÓŁ ELEKTRYCZNYCH Prowadzący: inż. Marek Genge

Wybrane techniki badania białek -proteomika funkcjonalna

Opis programu Konwersja MPF Spis treści

Jak korzystać z systemu Daymaker?

Postawy: Uczeń: - Odpowiada za bezpieczeństwo własne i kolegów, - Jest dociekliwy i dokładny, - Wykazuje postawę badawczą.

INSTRUKCJA UŻYTKOWNIKA. Wielkopolski system doradztwa. edukacyjno-zawodowego

GENOMIKA FUNKCJONALNA. Jak działają geny i genomy? Poziom I: Analizy transkryptomu

Klonowanie molekularne Kurs doskonalący. Zakład Geriatrii i Gerontologii CMKP

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Tomography Tracking Instrukcja użytkownika

Bioinformatyczna analiza danych. Wykład 1 Dr Wioleta Drobik-Czwarno Katedra Genetyki i Ogólnej Hodowli Zwierząt

GENOMIKA FUNKCJONALNA. Jak działają geny i genomy? Poziom I: Analizy transkryptomu

Przetarg nieograniczony na zakup specjalistycznej aparatury laboratoryjnej Znak sprawy: DZ-2501/6/17

PODRĘCZNIK UŻYTKOWNIKA PRACOWNIK SPZOZ

Piotr Eichler SP2LQP

Jak przygotować pliki gotowe do publikacji w sieci za pomocą DigitLabu?

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

Testowanie hipotez statystycznych

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Możliwości współczesnej inżynierii genetycznej w obszarze biotechnologii

Ocenianie opisowe Optivum. Jak przygotować i wydrukować świadectwa lub arkusze ocen?

EGZAMIN DYPLOMOWY, część II, Biomatematyka

Zadania semestralne. Programowanie obiektowe sem. II, lato 2014/2015

Eksploracja danych mikromacierzowych sieci Bayesa. Inżynieria Danych, 30 listopada 2009, Tomasz Kułaga

Metody inżynierii genetycznej SYLABUS A. Informacje ogólne

Motywacja. Do tej pory: Dzisiaj:

Public gene expression data repositoris

Skrypt 26. Przygotowanie do egzaminu Równania i układy równań

CHARAKTERYSTYKA PRZEDMIOTU Pracownia Informatyczna 1 PRACOWNIA INFORMATYCZNA 2018/2019 MAGDA MIELCZAREK 1

Tworzenie raportów. Ćwiczenie 1. Utwórz Autoraport przedstawiający tabelę Studenci

Instrukcja do platformy internetowej Art-Aktywator. Instrukcja do platformy internetowej Art-Aktywator

Czy produkcja żywności to procesy fizyczne i reakcje chemiczne?

Automatyka i Robotyka ROK III TEMAT: TWORZENIE I ZARZĄDZANIE INTERNETOWĄ BAZĄ DANYCH

Z Małej Szkoły w Wielki Świat

Scenariusz lekcji Ozobot w klasie: Spacer losowy po układzie współrzędnych

Tworzenie szablonów użytkownika

Dane w poniższej tabeli przedstawiają sprzedaż w dolarach i sztukach oraz marżę wyrażoną w dolarach dla:

Archiwum Prac. Instrukcja dla promotorów. Adres internetowy serwisu Archiwum Prac Uniwersytetu Jagiellońskiego:

Instrukcja użytkownika NAUCZYCIELA AKADEMICKIEGO SYSTEMU ARCHIWIZACJI PRAC

Informatyka Ćwiczenie 10. Bazy danych. Strukturę bazy danych można określić w formie jak na rysunku 1. atrybuty

Księgowość Optivum. Jak wykonać eksport danych z programu Księgowość Optivum do SIO?

UONET+ - moduł Sekretariat. Jak wykorzystać wydruki list w formacie XLS do analizy danych uczniów?

ANALIZA ZALEŻNOŚCI MIĘDZY OCENAMI MINU WSTĘPNEGO KANDYDATÓW NA ROK AK. 2002/2003 NA ŚWIADECTWIE DOJRZAŁOŚCI A WYNIKAMI EGZA-

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

2. Tworzenie tabeli przestawnej. W pierwszym oknie dialogowym kreatora określamy źródło danych, które mamy zamiar analizować.

PTI S1 Tabele. Tabele. Tabele

Bioinformatyka. Michał Bereta

SCENARIUSZ LEKCJI BIOLOGII Z WYKORZYSTANIEM FILMU CO TO JEST ŻYCIE. SPIS TREŚCI: I. Wprowadzenie. Części lekcji. 1. Część wstępna.

TECHNIKI ANALIZY RNA TECHNIKI ANALIZY RNA TECHNIKI ANALIZY RNA

wersja 1.0 ośrodek komputerowy uj cm ul. mikołaja kopernika 7e, Kraków tel

Technologia informacyjna

ARKUSZ KALKULACYJNY MICROSOFT EXCEL cz.1 Formuły, funkcje, typy adresowania komórek, proste obliczenia.

Księgarnia internetowa Lubię to!» Nasza społeczność

Wykład 14 Biosynteza białek

Bioinformatyka. Michał Bereta

CLUSTERING. Metody grupowania danych

Korzystanie z platformy Instytutu Rozwoju Edukacji

ANALIZA DANYCH PIERWOTNYCH mgr Małgorzata Kromka

Podręcznik dla szkół podstawowych składających ankietę dotyczącą działań o charakterze edukacyjnym w ramach programu Owoce i warzywa w szkole w

Instrukcja obsługi narzędzia API

Bibexcel i Pajek w analizach bibliometrycznych.

Rysunek Ankieta na stronie Wiadomości

Baza danych część 8. -Klikamy Dalej

Przewodnik... Segmentacja listy Odbiorców

MS Word Długi dokument. Praca z długim dokumentem. Kinga Sorkowska

Ćwiczenie 5/6. Informacja genetyczna i geny u różnych grup organizmów. Porównywanie sekwencji nukleotydowych w bazie NCBI z wykorzystaniem BLAST.

Transkrypt:

Instytut Informatyki i Matematyki Komputerowej UJ, opracowanie: dr Jacek Śmietański Mikromacierze 1. Mikromacierze wprowadzenie Mikromacierze to technologia pozwalająca na pomiar aktywności genów w komórce. Dla przypomnienia, na pierwszych zajęciach dowiedzieliśmy się, że to co różnicuje komórki to inny zestaw genów, ulegający ekspresji tzn. inny zestaw genów jest poddawany procesowi transkrypcji i translacji na białko. Rysunek 1: Różne typy komórek ludzkich. Dzięki temu, mimo tego iż w każdej komórce jest dokładnie taki sam genom, komórki spełniają różne funkcje. Okazuje się, że zestaw genów, które ulegają ekspresji może się różnić także gdy mamy np. komórkę tego samego typu, ale w jednej zachodzą pewne zmiany nowotworowe, a druga jest zdrowa. Dlatego pomiar ekspresji genów wydaje się być obiecującą technologią dla wspomagania diagnozy, leczenia, medycyny personalizowanej. Rysunek 2: Mikromacierz. Zasada działania mikromacierzy opiera się o pomiar ilości mrna danego genu w komórce. Jak pamiętamy, mrna jest matrycą na której powstaje białko. W komórce dość szybko ulega ono degradacji, dlatego pomiar jego ilości pośrednio przenosi się na pomiar aktywności danego genu w komórce. Mikromacierz konstruowana jest jako bardzo mały chip, podzielony 1

na wiele tysięcy pól, tzw. spotów, gdzie przyczepione są nici komplementarne do pewnych charakterystycznych sekwencji genowych. Każde pole jest związane z określonym genem. Z komórki, którą chcemy zbadać wyizolowywane jest mrna (przepisywane jest do cdna - complementary DNA), do którego przyczepiane są znaczniki fluorescencyjne. Po nałożeniu tak przygotowanej próbki na płytkę nici, które będą komplementarne połączą się (zhybrydyzują), wtedy określone pole będzie wykazywało fluorescencję. Im więcej nici przyłączy się do danego pola, tym poziom fluorescencji będzie większy. Wzbudzoną światłem płytkę skanuje się i uzyskuje obraz, który następnie przetwarza się do danych liczbowych, mówiących o aktywności genów. Rysunek 3: Obraz uzyskany po zeskanowaniu mikromacierzy. Rysunek 4: Schemat działania mikromacierzy. Z racji technologii pomiaru dane z mikromacierzy mogą być obciążone dużymi błędami i szumami wynikającymi zarówno z przebiegu eksperymentu jak i obróbki obrazu ze skanera. Nie mniej analiza danych ekspresji genów stanowi ważną gałąź bioinformatyki. W dziedzinę badania ekspresji genów powoli wchodzą sekwencjonery nowej generacji. Są one lepsze od mikromacierzy, ponieważ są w stanie zsekwencjonować nawet te geny, o istnieniu których nie wiemy, więc nie wbudujemy ich sekwencji komplementarnej w mikromacierz. Nowa technika, nazwana RNA Seq, szybko zyskuje popularność i można przypuszczać, że w niedługim czasie niemal całkowicie zastąpi eksperymenty mikromacierzowe. 2

2. GEO NCBI udostępnia bazę danych przechowującą dane z eksperymentów mikromacierzowych. Baza GEO Gene Expression Omnibus udostępnia również pewne narzędzia do analizy mikromacierzy. Podstawowymi typami rekordów w GEO są: - GPL - platforma mikromacierzowa na której został wykonany dany eksperyment, posiada dokładny opis jakie geny związane są z danym polem; - GSM - Sample - wynik jednego eksperymentu mikromacierzowego na określonej platformie GPL, zawiera poziomy ekspresji określonych przez GPL genów uzyskane w eksperymencie; - GDS - GEO Dataset zbiór danych złożony z wielu eksperymentów, pozwala analizować wiele eksperymentów na raz; - GEO Profiles - profile ekspresji genów stworzone na postawie np. danego GDS Zadanie: GEO (2 pkt) Zadaniem będzie przeanalizowanie konkretnego eksperymentu mikromacierzowego przy wykorzystaniu bazy GEO (Gene Expression Omnibus) Datasets. 1. Wejdż na NCBI, w wyszukiwarce wpisz lung cancer i wybierz bazę GEO Datasets (GDS). 2. Znajdź rekord o nazwie GDS3309, czego dotyczyło to badanie? 3. Obejrzyj link z platformą na której zostało wykonane badanie. Ekspresję ilu genów zmierzono w tym badaniu? Z jakiego organizmu pochodziły sekwencje? Jak odnależć te geny w NCBI? 4. Wróćmy do rekordu GDS, pliki z danymi można ściągnąć z GEO w różnym formacie: SOFT plik plain text z danymi o ekspresji, MINiML - format z opisem eksperymentu w xml, oraz z każdym testem w oddzielnym pliku z danymi. Zobacz pliki po prawej stronie w sekcji Download. 5. U góry wybierz zakładkę Sample Subsets. Ile mamy eksperymentów (GSM) w tym przykładzie? Czego dotyczą podzbiory? 6. Wybierz którykolwiek z linków do GSM, zobacz fragment tabeli z wynikami pomiaru ekspresji. 7. Wróćmy do rekordu GDS, u góry wybierz zakładkę Data Analysis Tools. a) Wybierz analizę porównawczą 2 podzbiorów (compare 2 sets of samples) i wybierz Two-tailed t-test (test t-studenta bada hipotezę zerową: średnie w obu grupach są równe, w związku z tym wybierze nam te geny dla których średnie ekspresje w obu grupach były istotnie różne. b) Przypisz poszczególne podzbiory eksperymentów do grupy A i B (Step 2) c) Wykonaj test (Step 3) Jako wynik uzyskano profile genów, dla których hipoteza zerowa o średnich równych w obu grupach została odrzucona. Obejrzyj profile genów dla dwóch z nich, które wydają Ci się najbardziej obiecujące ich ekspresja różni się znacząco w obydwu grupach. Sprawdź jaka jest ich funkcja w bazie Gene. 8. Wróćmy do rekordu GDS i zakładki Data Analysis Tools. Wybierz sekcję Cluster heatmaps. 3

a) Dla korelacji Pearsona porównaj metodę Average Linkage i Single Linkage jeśli chodzi o klastrowanie próbek - eksperymentów oraz klastrowanie genów. b) Kliknij na metodę k-średnich i dla korelacji Pearsona poeksperymentuj z dzieleniem genów na różne liczby klastrów, zaobserwuj patterny dla klastrów. c) Kliknij na klastrowanie pod względem lokalizacji na chromosomie, czy widzisz jakąś zależność między lokalizacją na danym chromosomie, a ekspresją? 3. Przykładowa analiza - na podstawie ekspresji genów drożdży W pliku yeast_expression.txt mamy dane o ekspresji genów w komórkach drożdży podczas procesu oddychania. Dane jest 7 chwil czasowych w których został dokonany pomiar: T0,..., T6. Drożdże oddychają w sposób beztlenowy - fermentacja alkoholowa. Są dwa etapy procesu oddychania drożdży: - rozkład glukozy na kwas pirogronowy - przemiana kwasu pirogronowego do alkoholu Te dwa etapy są kontrolowane przez 2 klasy genów odpowiedzialnych za każdy z tych procesów. Można je dobrze wyraźnie zaobserwować na poniższych heatmapach utworzonych za pomocą tzw. samoorganizującej się mapy (self-organizing map - SOM). Rysunek 5: Heatmapy SOM dla kolejnych chwil czasowych. SOM jest modelem obliczeniowym przydatnym w wielu dziedzinach. Charakteryzuje się mapowaniem danych z wyżej wymiarowych przestrzeni w najczęściej 2 wymiary, zachowując strukturę tych danych. Ponadto jest odporny na szumy. Na rysunku obrazującym oddychanie drożdży na SOM, pokazano tzw. heatmapy - kolor pokazuje nam odpowiednio wartość danej zmiennej na mapie w określonym wymiarze przestrzeni wejściowej. W tym przypadku klastrowaliśmy geny. Każdy gen był określony przez wektor 7 liczb, odpowiadającym poziomowi ekspresji w danej chwili czasowej. Wybranym wymiarem dla każdej heatmapy jest chwila czasowa, a kolor oznacza intensywność ekspresji. 4

Zadanie 2: klasteryzacja genów (3 pkt) W pliku yeast_expression.txt znajdują się dane o ekpresji genów w komórkach drożdży podczas procesu oddychania. Pomiar został dokonany w 7 chwilach czasowych T0-T6. Napisz skrypt który za pomocą metody K-średnich poklastruje chwile czasowe na dwa etapy oddychania drożdży. Można użyć gotowej metody Bio.Cluster.kcluster Dokumentacja: http://www.biopython.org/dist/docs/api/bio.cluster.cluster-module.html Przydatne metody do utworzenia macierzy ekspresji: yeastmat = zeros((0,7)) yeastrow = asarray(mat(list)) yeastmat = concatenate((yeastmat,yeastrow)) #deklaracja macierzy #lista do wektora #konkatenacja macierzy 5