Odkrywanie wiedzy z danych pochodzących z sekwencjonowania RNA w celu znajdowania nowych zjawisk transkryptomowych

Podobne dokumenty
Ćwiczenie nr 2 Zbiory rozmyte logika rozmyta Rozmywanie, wnioskowanie, baza reguł, wyostrzanie

Harmonogramowanie projektów Zarządzanie czasem

I. LOGICZNE STRUKTURY DRZEWIASTE

Pomiary geofizyczne w otworach

Podejmowanie decyzji. Piotr Wachowiak

Przykłady wybranych fragmentów prac egzaminacyjnych z komentarzami Technik ochrony fizycznej osób i mienia 515[01]

Przypomnienie najważniejszych pojęć z baz danych. Co to jest baza danych?

Matematyka:Matematyka I - ćwiczenia/granice funkcji

PROCEDURA EWALUACJI WEWNĘTRZNEJ W SZKOLE PODSTAWOWEJ IM. JANA PAWŁA II W GRZĘDZICACH

Załącznik nr 2 Testy logiczne służące sprawdzeniu jakości danych uczestników projektów współfinansowanych z EFS

Statystyczna ocena wyników badań mieszanek mineralno-asfaltowych i próbek z nawierzchni

Wyniki badań dla trasy kolejowej Warszawa - Poznań.

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie arkusza kalkulacyjnego EXCEL do rozwiązywania układów równań liniowych metodą wyznacznikową

JTW SP. Z OO. Zapytanie ofertowe. Zakup i dostosowanie licencji systemu B2B część 1

Automatyczne przetwarzanie recenzji konsumenckich dla oceny użyteczności produktów i usług

Bazy danych. Andrzej Łachwa, UJ, /15

2.Prawo zachowania masy

Bioinformatyka Laboratorium, 30h. Michał Bereta

ZESPÓŁ LABORATORIÓW TELEMATYKI TRANSPORTU ZAKŁAD TELEKOMUNIKACJI W TRANSPORCIE

ZAKŁADANE SZCZEGÓŁOWE EFEKTY KSZTAŁCENIA DLA STUDIÓW PODYPLOMOWYCH W ZAKRESIE Zarządzanie siedliskami przyrodniczymi obszarów wiejskich

- o zmianie o Krajowym Rejestrze Sądowym

Projektowanie bazy danych

Program szkoleniowy Efektywni50+ Moduł III Standardy wymiany danych

Dziedziczenie : Dziedziczenie to nic innego jak definiowanie nowych klas w oparciu o już istniejące.

Warszawska Giełda Towarowa S.A.

Politechnika Warszawska Wydział Matematyki i Nauk Informacyjnych ul. Koszykowa 75, Warszawa

Instalacja. Zawartość. Wyszukiwarka. Instalacja Konfiguracja Uruchomienie i praca z raportem Metody wyszukiwania...

Temat: Funkcje. Własności ogólne. A n n a R a j f u r a, M a t e m a t y k a s e m e s t r 1, W S Z i M w S o c h a c z e w i e 1

OFERTA WYKŁADÓW, WARSZTATÓW I LABORATORIÓW DLA UCZNIÓW KLAS IV- VI SZKÓŁ PODSTAWOWYCH, GIMNAZJALNYCH I ŚREDNICH

Komputer i urządzenia z nim współpracujące

Edycja geometrii w Solid Edge ST

Budowa domu w granicy działki

W. Guzicki Zadanie 23 z Informatora Maturalnego poziom rozszerzony 1

WZORU UŻYTKOWEGO <9)PL m 63278

Raport z ewaluacji wewnętrznej

Algorytmy graficzne. Podstawy kompresji danych fragment wykładu. Marcin Wilczewski

STA T T A YSTYKA Korelacja

Opis zmian funkcjonalności platformy E-GIODO wprowadzonych w związku z wprowadzeniem możliwości wysyłania wniosków bez podpisu elektronicznego

Programowanie Ewolucyjne

Podatek przemysłowy (lokalny podatek od działalności usługowowytwórczej) :02:07

NOWELIZACJA USTAWY PRAWO O STOWARZYSZENIACH

KONKURSY MATEMATYCZNE. Treść zadań

Jak usprawnić procesy controllingowe w Firmie? Jak nadać im szerszy kontekst? Nowe zastosowania naszych rozwiązań na przykładach.

Opis modułu analitycznego do śledzenia rotacji towaru oraz planowania dostaw dla programu WF-Mag dla Windows.

KATEDRA INFORMATYKI STOSOWANEJ PŁ ANALIZA I PROJEKTOWANIE SYSTEMÓW INFORMATYCZNYCH

Wyniki perinatalne u kobiet z trombofilią wrodzoną

Motywuj świadomie. Przez kompetencje.

ZAPYTANIE OFERTOWE NR 1

Postanowienia ogólne. Usługodawcy oraz prawa do Witryn internetowych lub Aplikacji internetowych

Chmura obliczeniowa. do przechowywania plików online. Anna Walkowiak CEN Koszalin

Trenuj przed sprawdzianem! Matematyka Test 4

PROCEDURA OCENY RYZYKA ZAWODOWEGO. w Urzędzie Gminy Mściwojów

ZAPYTANIE OFERTOWE. Tłumaczenie pisemne dokumentacji rejestracyjnej ZAPYTANIE OFERTOWE

Wyklad 1. Analiza danych za pomocą pakietu SAS. Obiekty i zmienne. Rodzaje zmiennych

Plan naprawczy. Sokółka 2006/2007. Opracowanie: Urszula Bronowicz Henryka Sarosiek ElŜbieta Plichta Katarzyna Dykiel Tomasz Mucuś

str. 1 WSTĘP Instrukcja użytkowania dla zaciskarek ręcznych typów SYQ 14-20A i SYQ14-32A (lipiec 2008) Złączki F5 profil U Złączki F7 profil TH

KLAUZULE ARBITRAŻOWE

PODSTAWY DZIAŁANIA UKŁADÓW CYFROWYCH

Lekcja 173, 174. Temat: Silniki indukcyjne i pierścieniowe.

Niezależnie od rodzaju materiału dźwiękowego ocenie podlegały następujące elementy pracy egzaminacyjnej:

Umowa w sprawie przyznania grantu Marie Curie 7PR Wykaz klauzul specjalnych

Mikrokontrolery AVR. Konfigurowanie mikrokontrolera ATMEGA16

Instrumenty wirtualne z LabVIEW. Akademia Górniczo - Hutnicza im.stanisława Staszica w Krakowie, Wydział Inżynierii Materiałowej i Ceramiki

(obowiązuje od )

Wiedza niepewna i wnioskowanie (c.d.)

Elektryczne ogrzewanie podłogowe fakty i mity

WYKŁAD 8. Postacie obrazów na różnych etapach procesu przetwarzania

PRZYGOTOWANIE NAUCZYCIELA DO LEKCJI I. J. P. L.

INSTRUKCJA WebPTB 1.0

Zagadnienia transportowe

Oprogramowanie klawiatury matrycowej i alfanumerycznego wyświetlacza LCD

Bielsko-Biała, dn r. Numer zapytania: R WAWRZASZEK ISS Sp. z o.o. ul. Leszczyńska Bielsko-Biała ZAPYTANIE OFERTOWE

Regulamin podnoszenia kwalifikacji zawodowych pracowników Urzędu Marszałkowskiego Województwa Lubelskiego w Lublinie

Prezentacja Systemu PDR

Zintegrowane Systemy Zarządzania Biblioteką SOWA1 i SOWA2 SKONTRUM

Odpowiedzi na pytania zadane do zapytania ofertowego nr EFS/2012/05/01

Warunki Oferty PrOmOcyjnej usługi z ulgą

Test F- Snedecora. będzie zmienną losową chi-kwadrat o k 1 stopniach swobody a χ

Wyznaczanie współczynnika sprężystości sprężyn i ich układów

Paweł Selera, Prawo do odliczenia i zwrotu podatku naliczonego w VAT, Wolters Kluwer S.A., Warszawa 2014, ss. 372

Zobacz to na własne oczy. Przyszłość już tu jest dzięki rozwiązaniu Cisco TelePresence.

KOMISJA WSPÓLNOT EUROPEJSKICH. Wniosek DECYZJA RADY

Metoda LBL (ang. Layer by Layer, pol. Warstwa Po Warstwie). Jest ona metodą najprostszą.

Macierze dyskowe RAID

POMOC PSYCHOLOGICZNO-PEDAGOGICZNA Z OPERONEM. Vademecum doradztwa edukacyjno-zawodowego. Akademia

GEO-SYSTEM Sp. z o.o. GEO-RCiWN Rejestr Cen i Wartości Nieruchomości Podręcznik dla uŝytkowników modułu wyszukiwania danych Warszawa 2007

Procedura nadawania uprawnień do potwierdzania Profili Zaufanych w Urzędzie Gminy w Ryjewie

PRZETWORNIK NAPIĘCIE - CZĘSTOTLIWOŚĆ W UKŁADZIE ILORAZOWYM

Zad.1 Pokazać pierwszeństwo trybu odmów przed zezwalaj.

Szkoła Podstawowa nr 1 w Sanoku. Raport z ewaluacji wewnętrznej

METODA NAUKOWA. Biologia to nauka eksperymentalna. Cechuje się określoną metodologią i pragmatyzmem (podejmowanie

Temat: Czy jedzenie, węgiel i wiatr mają ze sobą coś wspólnego?

wzór Załącznik nr 5 do SIWZ UMOWA Nr /

Mamy pomysł i co dalej?

KONCEPCJA NAUCZANIA PRZEDMIOTU RACHUNKOWOŚĆ SKOMPUTERYZOWANA" NA WYDZIALE ZARZĄDZANIA UNIWERSYTETU GDAŃSKIEGO

System Informatyczny CELAB. Przygotowanie programu do pracy - Ewidencja Czasu Pracy

Efektywność nauczania w Gimnazjum w Lutyni

Uczenie nienadzorowane Uczenie nadzorowane Algorytmy aproksymacji funkcji. uczenia symbolicznego

KRAJOWY REJESTR SĄDOWY. Stan na dzień godz. 14:59:36 Numer KRS:

Lepsze samopoczucie to lepsze oceny. Jaka jest korzyść dla dziecka?

Transkrypt:

Politechnika Poznańska Anna Leśniewska Odkrywanie wiedzy z danych pochodzących z sekwencjonowania RNA w celu znajdowania nowych zjawisk transkryptomowych Promotor pracy: Tadeusz Morzy Praca przygotowana na Politechnice Poznańskiej przy współpracy z Functional Genomics Center Zurich, UZH/ETH Zurich Kwiecień 2012

Potrzeba zmierzenia wpływu określonych genów na stany komórek, tkanek i organizmów była jasna w naukach biologicznych od czasów Watsona i Cricka i ustanowienia centralnego dogmatu biologii molekularnej. Zgodnie z ta zasadą, RNA powstaje z transkrypcji z matrycy DNA znajdującego się w jądrze komórkowym. RNA takie (mrna - RNA przekaźnikowe) jest nośnikiem informacji, które w rybosomach jest przetwarzane na białka w procesie translacji. Postęp biologii molekularnej jest w dużej mierze odmierzany konstrukcją maszyn umożliwiających pomiar sekwencji. Krokiem milowym było w latach 1970-tych sekwencjonowanie metodą Sangera, które doprowadziło w 2001 do opublikowania pierwszego modelowego genomu ludzkiego. Równolegle rozwijała się technologia mikromacierzy, pozwalająca na oszacowanie stężeń określonych fragmentów sekwencji mrna. Jednym z najszybciej rozwijających się obecnie, dzięki postępowi nanotechnologii obszarów badań, jest użycie sekwencerów (sekwenatorów) o krótkich odczytach sekwencji. Obecne sekwencery odczytują fragmenty sekwencji DNA i RNA o długościach od 50 do ok 400 nukleotydów. Urządzenia te typowo połączone z dedykowanym komputerem generują ogromną ilość danych w postaci sekwencji nukleotydowych i ich opisów oraz podsumowań ilościowych. Dane te porządkowane są z użyciem metadanych, opisujących procesy biologiczne zachodzące w mierzonych próbkach. Pojedynczy przebieg sekwencera Illumina HighSeq może dać w wyniku nawet do 600G bp (par zasad nukleotydów) we fragmentach o długości ok 100bp. Odczyty fragmentów sekwencji są następnie w odpowiednich systemach informatycznych dzielone pomiędzy próbki biologiczne, do których należą, a następnie poddawane są analizie. Analiza ta dzieli się na pierwotną (ang. primary), obejmującą dopasowanie sekwencjonowanych fragmentów do istniejącego genomu odniesienia (np. sekwenjonowanie porównawcze DNA nowego osobnika, sekwencjonowanie ekspresjonowanego RNA) albo połączenie fragmentów w nowy genom (ang. de novo sequencing assembly) [2,11]. Następnym etapem jest analiza wtórna z wykorzystaniem metod statystycznych lub uczenia maszyn. Sekwencjonowanie RNA jest obecnie jednym z najbardziej wymagających z punktu widzenia analizy danych zastosowaniem nowych sekwencerów, ale też niosącym wiele potencjalnej nowej wiedzy dla biologów molekularnych i lekarzy projektujących nowe terapie. Wyzwaniem dla informatyka zajmującego się projektowaniem nowych rodzajów analizy danych w tej dziedzinie jest stworzenie takich mechanizmów, które zamieniałyby surowe dane o częstości określonych krótkich sekwencji RNA na wiedzę o ekspresji określonych genów i ich fragmentów (eksonów) lub RNA regulacyjnego niekodującego białek. W ostatnich latach wiele badań wskazuje na istotną dla procesów komórkowych rolę regulacyjną takiego RNA (np. mikro-rna blokujące transkrypcje). Całość RNA 2

tworzonego w komórkach określa się mianem transkryptomu. Główne pojęcia i definicje z zakresu bioinformatyki oraz biologii molekularnej zostały szerzej przedstawione w rozdziale 2 rozprawy. Z punktu widzenia informatyki - typowy zbiór danych w dziedzinie badań transkryptomu to obecnie kilku-gigabajtowy plik binarny BAM zawierający krótkie sekwencje RNA dopasowane do określonego regionu w genomie odniesienia. Plik ten zaindeksowany jest w celu szybszego dostępu przez rozmaite API, natomiast typowy eksperyment biologiczny zawiera od kilku do kilkudziesięciu takich plików odpowiadających próbkom biologicznym. Olbrzymi rozwój technologii biologicznych pociąga za sobą również potrzebę rozwoju oprogramowania i co się z tym wiąże, coraz bardziej precyzyjnych metod analizy. Śledząc trendy i kierunki rozwoju wspomnianych metod analizy, możemy wskazać główne jej punkty (mapowanie, sumaryzacja, normalizacja i znajdowanie ekspresji różnicowej) [1, 3, 4]. Zebrane informacje na temat aktualnych badań w tym zakresie zostały umieszczone w rodziale 3. Cel i zakres pracy. Celem rozprawy jest opracowanie metod analizy wtórnej danych otrzymanych w postaci zbiorów dopasowań (ang. mapping lub aligment) krótkich sekwencji do genomu odniesienia. Metody te docelowo mają prowadzić do dostarczenia informacji o zawartości transkryptomu w określonych warunkach takich jak choroby, stany tkanek czy reakcje na bodźce zewnętrzne. Praca koncentruje się na dwóch problemach w obszarze wtórnej analizy przy użyciu danych pochodzących z sekwencjonowania RNA (RNA-seq). Pierwszym z nich jest weryfikacja anotacji na podstawie weryfikacji granic eksonów z wykorzystaniem algorytmu eksploracji danych, aby znaleźć znaczące regiony eksploracji. Druga ma na celu znalezienie nowego sposobu znajdowania silnie różniących się regionów w postaci profilu funkcji pokrycia. Do rozwiązania tych problemów, zaproponowano nowy sposób eksploracji wartości informacyjnej sekwencjonowanych danych RNA, bazując na różnych typach porównań kształtu profilu funkcji pokrycia. W porównaniu z istniejącymi metodami analizy tego rodzaju danych, które opierają się na zliczaniu wartości zagregowanych danych (ang. counts of reads) proponowane rozwiązanie uwzględnia nie tylko liczbę, ale również rozkład sekwencji odczytów w analizowanym regionie genomowym. Zawartość informacyjna w danych RNA-seq jest ciągle nie do końca zbadana. Użycie metod eksploracji danych RNA-seq pozwala na nowo odkrywać zjawiska transkryptomowe. Punktem startu jest ustalona anotacja (opis) genomu, która wyznacza granice genów, transkryptów i eksonów, przechowywaną w ogólnodostępnej bazie danych (np. Ensembl dla popularnych gatunków lub phytozome dla nowo badanych roślin), udostępnianej naukowcom na całym świecie. Głównym celem jest poszukiwanie znaczących regionów, zarówno w 3

granicach jak i poza granicami eksonu oraz innych znaczących regionów ekspresji. Mogą to być eksony zgodne z anotacją lub mające granice wychodzące poza anotacje. Proponowane w pracy metody analizy skupiają się wokół sumaryzacji (problem 1) oraz znajdowania ekspresji różnicowej (problem 2). Podejście, które zaproponowano w pracy dla problemu pierwszego, opiera się na wiedzy o ilości odczytów sekwencji oraz znajomości ich rozkładów dopasowania na genomie (ang. genome coordinates). Wykorzystanie danych opisujących miliony odczytów z nukleotydową precyzją pozwala na bardzo szczegółową analizę ilościową. W problemie drugim związanym z ekspresją różnicową wykorzystano również nukleotydową precyzję funkcji pokrycia, ale głównym przedmiotem analizy jest kształt jej profilu. Jest to próba zupełnie nowego podejścia w tego rodzaju analizie. Obecnie można zauważyć, że rozwój technologii sprawia, iż pokrycie staje się coraz lepsze (coraz bardziej gęste), dlatego analiza kształtów funkcji pokrycia będzie nabierała coraz większego znaczenia. Problem 1: Dany jest profil ekspresji dla rozważanego gatunku oraz anotacja genomowa rozważanego gatunku. Używając metod eksploracji danych, znajdź znaczące regiony, które będą w jak największym stopniu odpowiadać (najlepiej dopasują się) do kształtu rzeczywistego, aby zweryfikować zgodność z anotacją. Problem 2: Dane są dwa profile funkcji pokrycia dla dwóch różnych próbek (np. dwa typy nowotworu). Znajdź znacząco różnicowo ekspresjonowane eksony dla tych próbek, używając lokalnej normalizacji profilu ekspresji tak, aby opisać ilościowo różnicę pomiędzy kształtami profili. Rozwiązanie tych problemów pozwala na sformułowanie głównej tezy badawczej: Wykorzystanie obiektów opisujących sekwencjonowane RNA z nukleotydową dokładnością oraz przetwarzanie kształtu profilu pokrycia dla danych jako funkcji z dziedziną odpowiadającą wszystkim nukleotydom w genomie pozwala na projektowanie nowych algorytmów i metod służących do określania nowych zjawisk transkryptomowych takich jak wcześniej nieznane transkrypty lub nowe warianty składania (ang splice variants) poprzez opisywanie regionów genomowych ich występowania. 4

W szczególności metody proponowane w tezie badawczej obejmują: analizę na danych z nukleotydową precyzją przy użyciu funkcji pokrycia bez używania danych zagregowanych, nienadzorowaną eksplorację transkryptu w oparciu o przeszukiwanie funkcji pokrycia przy użyciu algorytmu Aumanna-Lindella, nowe metody będące połączeniem miar statystycznych i normalizacji do znajdowania znaczących, różnicowo ekspresjonowanych fragmentów na genomie, np. eksonów, weryfikacja i znajdowanie sygnatur genowych chorób i tkanek składających się z regionów wyznaczonych przy użyciu wcześniej zaproponowanej metody. W rozdziale 4 została szczegółowo omówiona infrastruktura oprogramowania, które zostało stworzone nie tylko na potrzeby badań omawianych w tej pracy, ale również jako otwarte środowisko do analizy tego rodzaju danych. W rozdziale 4 zostały szczegółowo opisane założenia i funkcje oprogramowania, które w postaci biblioteki o nazwie rnaseqmap, zostało umieszczone w powszechnie dostępnym repozytorium BioConductor. Biblioteka rnaseqmap napisana jest w języku R z elementami C oraz połączeniami do baz SQL-owych. Biblioteka zawiera klasy i funkcje służące do operowania na regionach genomowych wraz z dopasowanymi do nich fragmentami RNA uzyskanymi z sekwencera. W odróżnieniu od dotychczasowych rozwiązań, stosujących globalne tabele sumaryzujące poziomy ekspresji RNA, biblioteka rnaseqmap operuje na pojedynczych regionach genomu, dla których poziom ekspresji wyrażony jest funkcją pokrycia (ilością dopasowanych odczytów z sekwencera). Ponadto biblioteka rnaseqmap zawiera funkcje pozwalające wykorzystać dane o genach z lokalnie zainstalowanej bazy opisu genów Ensembl. Dołączone są również rozmaite funkcje wizualizacji profili pokrycia RNA w genomie odniesienia. Rozdział 5 poświęcony jest problemowi znajdowania silnie ekspresjonowanych, nieredukowalnych regionów ekspresji na genomie, które mogą służyć jako weryfikacja anotacji (wyznaczanie granic eksonów i genów na podstawie silnie ekspresjonowanego regionu włączając również znajdowanie nowych, nie znajdujących się w anotacji zjawisk transkryptomowych). Do rozwiązania tego problemu wykorzystano adaptację algorytmu pochodzącego z dziedziny eksploracji danych, który oryginalnie służył do znajdowania ilościowych reguł asocjacyjnych. Dane z sekwencjonowania, poddawane analizie, wyrażone są w postaci funkcji pokrycia (ilość dopasowanych odczytów z sekwencera). Taka definicja danych z sekwencjonowania umożliwia zastosowanie adaptacji algorytmu Aumanna-Lindella [7]. Tutaj algorytm ten służy do znajdowania regionów genomu z pokryciem fragmentami RNA większym od określonego 5

poziomu, co w efekcie pozwala wyznaczyć, (na podstawie własności nieredukowalności regionu zapewnianym przez algorytm) granice zjawisk transryptomowych w postaci eksonów i genów. Rozdział 6 poświęcony jest problemowi znajdowania różnicowo ekspresjonowanych regionów w postaci eksonów. W rozdziale szczegółowo został opisany zestaw nowych metod pozwalających na znalezienie genów, eksonów lub obszarów genomu mających znaczącą różnicę w poziomie zmierzonej sekwencerem ekspresji RNA. Typowo do tego celu używa się metod porównujących tylko ilość sekwencji RNA przypadających na region genomu [6]. Miary opisane w rozprawie biorą pod uwagę nie tylko ilość, ale i rozkład sekwencji RNA w postaci funkcji pokrycia. Różnice w kształcie funkcji pokrycia mogą odzwierciedlać nie tylko różnicę w ekspresji, ale także inne zjawiska transkryptomowe takie jak połączenia transkryptów RNA, nowe punkty startu i końca transkrypcji czy inne zjawiska biologiczne określane wspólnym mianem alternatywnego składania (ang. alternative splicing). Miary uzupełnione są odpowiednimi funkcjami dokonującymi różnych rodzajów normalizacji statystycznej profilu pokrycia i tworzą strumień przetwarzania danych (ang. pipeline). Za pomocą metody statystycznej opisanej w pracy Choe et al. [9], strumienie te porównane są na danych syntetycznych, pół-syntetycznych pochodzących z modyfikacji rzeczywistych profili ekspresji oraz danych rzeczywistych. Schemat przeprowadzonych badań został przedstawiony na rysunku 1. Kryteriami porównań są korelacja między poziomem modyfikacji profilu a wartościami miar oraz jakość strumienia jako klasyfikatora, mierzona polem pod krzywą ROC. Kod funkcji miar i normalizacji został również umieszczony w bibliotece rnaseqmap. 6

Rysunek 1. Strumień do przetwarzania danych w postaci funkcji pokrycia. Dane pochodzące z sekwenatora w postaci krótkich odczytów mapowane są dowolnym narzędziem do mapowania. W wyniku otrzymuje się pliki BAM, które wraz z anotacją poddawane są dalszemu przetwarzaniu. Następnie z wykorzystaniem narzędzi RSamtools oraz rnaseqmap otrzymujemy funkcje pokrycia, która w naszym eksperymencie modyfikowana jest przez odpowiedni generator (modyfikujący oryginalną postać profilu). Następnie dane są normalizowane i przetwarzane przez zestaw proponowanych miar. Ostatecznie weryfikacja wartości wyjściowej jest weryfikowana na podstawie korelacji oraz krzywej ROC. Podsumowanie. Głównym celem rozprawy było opracowanie nowych i efektywnych metod analizy wtórnej (ang. secondary analysis) zsekwencjonowanych danych RNA. Główną zaletą przedstawionego podejścia jest używanie w analizach quasi-ciągłych danych w postaci funkcji pokrycia, określonej dla każdego regionu na genomie z precyzją nukleotydową. Takie podejście jest komplementarne do analizy na zagregowanych danych w postaci zliczeń odczytów (ang. count of reads) lub analizy połączeń eksonów [5,12]. Proponowana struktura analizowanych danych nie była wcześniej znana w literaturze i wnosi nowe możliwości w dziedzinie profilowania transkrypromu, zwłaszcza dla wysokoprzepustowych danych, pochodzących z sekwenatorów o krótkich odczytach, które dostarczają 'silne' pokrycie. Pierwsza część pracy jest poświęcona problemowi znajdowania zjawisk transkryptomowych takich jak izoformy RNA powstałe w wyniku alternatywnego 7

składania (ang. alternative splicing) lub informacje pochodzące z niekodującego RNA (ang. non-coding RNA). Prace rozpoczęto od przygotowania oprogramowania w formie recenzowanej biblioteki, zawierającej zestaw klas do przechowywania danych oraz zestaw funkcji do manipulowania danymi. Główną zaletą oprogramowania jest operowanie na danych z pojedynczą nukleotydową precyzją, czym różni się od istniejących wcześniej, klasycznych, statystycznych rozwiązań czy przeglądarek genomowych. Do znajdowania lokalnych, interesujących zjawisk ekspresji RNA został wykorzystany algorytm Aumanna-Lindell'a. Algorytm został zaadoptowany do pracy na zsekwencjonowanych danych RNA z nukleotydową precyzją [8]. Takie rozwiązanie może być używane do znajdowania nowych ciekawych regionów silnie ekspresjonowanych. Dzieje się to w formie nienadzorowanej, czyli bez jakichkolwiek założeń na temat transkryptomu, w przeciwieństwie do większości stosowanych metod, które opierają się na anotacji dla genów, transkryptów i eksonów. Takie rozwiązanie jest często właściwe, wiedząc, że anotacja jest aproksymowanym i nieustannie rozwijanym obrazem rzeczywistych biologicznych zjawisk transkrypcyjnych i alternatywnego składania. Druga część pracy poświęcona została nowemu sposobowi znajdowania wartości informacyjnej dla danych zsekwencjonowanego RNA, bazując na różnych miarach dla porównania kształtu profilu funkcji pokrycia. Podejście takie wychodzi poza zakres klasycznych rozwiązań analizy ekspresji różnicowej (testy bazujące na zagregowanych sumach odczytów), ponieważ bierze pod uwagę nie tylko liczbę, ale rozkład w genomowym regionie. W tym podejściu zaproponowano kilka nowych formuł dla lokalnej normalizacji oraz miar wyznaczających różnicową ekspresję dla ekspresjonowanego regionu. Zostały one przetestowane i porównywane na danych syntetycznych, pół-syntetycznych oraz rzeczywistych (rzeczywisty profil ekspresji dla danych pochodzących z rzeczywistego eksperymentu (rybosarcoma cancer)) [10]. Kryteriami porównań są korelacja między poziomem modyfikacji profilu a wartościami miar oraz jakość strumienia jako klasyfikatora, mierzona polem pod krzywą ROC. Dane służące do testowania wyżej opisanych metod pochodziły z pomiarów ekspresji RNA w dwu typach raka (mięsak prążkowanokomórkowy) pochodzących ze Szpitala Dziecięcego w Zurichu, uzyskanych we współpracy z grupą profesora Beata Schaffera. Nowe miary oparte na podobieństwie kształtu profilu, z odpowiednim rodzajem normalizacji danych, wprowadzają nowe możliwości w strumieniach analiz zsekwencjonowanych danych RNA. Metodologia analizy pokrycia jest głównie ukierunkowana do stosowania dla lokalnych przeszukiwań dla znajdowania ważnych różnicowo ekspresjonowanych RNA. Zastosowanie algorytmu Aumanna- Lindella lub innych metod eksploracyjnych, umożliwia znajdowanie nieznanych wcześniej i różnicowo ekspresjonowanych wariantów transkryptu. Proponowane 8

rozwiązanie pokazało największą użyteczność przy przetwarzaniu numerycznych wyników nowych regionów ekspresji RNA na genomie dla gatunków, dla których nie mają ustalonej anotacji (np. niekodujące RNA lub dla gatunków, które mają złożony genom de-novo). Takim przykładem może być pasożyt Cryptosporidum parvum, dla którego zmiany dotyczyły 10% genów. W praktycznych wykonanych eksperymentach, przy współpracy z biologami molekularnymi, zostało potwierdzone, że metody mogą pomóc w badaniach naukowych odszyfrowujących kod transkrypcyjny żywych organizmów, który jest nieustannie rozwijany i coraz bardziej złożony. Końcowy eksperyment weryfikujący sygnatury rakowe pokazał, że operowanie na poziomie nukleotydowym z wykorzystaniem metody znajdowania różnicowej ekspresji jest dobrym kierunkiem badawczym, który będzie nadal kontynuowany. Następnym krokiem w badaniach będzie sformułowanie procedury tworzącej sygnatury chorobowe, bazujące na eksonowym profilu pokrycia. Proponowane w pracy metody zostały zaimplementowane w formie infrastruktury oraz strumieni dla numerycznych analiz. Są także dostępne jako oprogramowanie open source w repozytorium BioConductor i dostępne pod adresem: http://bioconductor.org/packages/release/bioc/html/rnaseqmap.html Oprogramowanie to zostało do tej pory wykorzystane w ponad 20 biologicznych projektach w FGCZ, poddając analizie ekspresję RNA dla próbek wielu różnych gatunków roślin i zwierząt oraz tkanek pacjentów pochodzących z badań klinicznych. 9

Bibliografia: [1] Oshlack A, Robinson MD, Young MD., From RNA-seq reads to differential expression results Genome Biology 2010, 11:220 [2] Wang Z., Gerstein M., Snyder M., RNA-Seq: a revolutionary tool for transcriptomics Nature Reviews Genetics 10, 57-63 (January 2009) [3] Anders S., Huber W., Differential expression analysis for sequence count data Genome Biology 2010, 11:R106 [4] Robinson M.D., McCarthy D.J., Smyth G.K., edger: a Bioconductor package for differential expression analysis of digital gene expression data Bioinformatics 2010, 26:139-140 [5] Trapnell C., Pachter L., Salzberg S.L., TopHat: discovering splice junctions with RNA-Seq. Bioinformatics 2009, 25:1105-1111 [6] Anders S., Huber W., Differential expression analysis for sequence count data Genome Biology 2010, 11:R106 [7] Aumann Y, Lindell Y, A Statistical Theory for Quantitative Association Rules Journal of Intelligent Information Systems 2003, 20(3):255-283 [8] Lesniewska A., Okoniewski M.J., rnaseqmap: a Bioconductor package for RNA sequencing data exploration, BMC Bioinformatics 2011, 12:200 [9] Choe S. E., Boutros M., Michelson A. M., Church G. M., Halfon M. S., Preferred analysis methods for Affymetrix GeneChips revealed by a wholly defined control dataset Genome Biology 6, R16 2005 [10] Okoniewski M.J., Lesniewska A., Szabelska A., Zyprych-Walczak J, Ryan M., Wachtel M., Morzy T., Schaffer B., Schlapbach R., Preferred analysis methods for single genomic regions in RNA sequencing revealed by processing the shape of coverage Nucleic Acids Research december 30 2011 [11] Garber M., Grabherr M.G., Guttman M., Trapnell C. Computational methods for transcriptome annotation and quantification using RNA-seq Nature Methods 2011 8:469-477 [12] Trapnell C, Roberts A, Goff L, et al. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks Nature Protocols, 2012 Mar 7(3):562-78. 10