Odkrywanie wiedzy z danych pochodzących z sekwencjonowania RNA w celu znajdowania nowych zjawisk transkryptomowych

Politechnika Poznańska Anna Leśniewska Odkrywanie wiedzy z danych pochodzących z sekwencjonowania RNA w celu znajdowania nowych zjawisk transkryptomowych Promotor pracy: Tadeusz Morzy Praca przygotowana na Politechnice Poznańskiej przy współpracy z Functional Genomics Center Zurich, UZH/ETH Zurich Kwiecień 2012

Potrzeba zmierzenia wpływu określonych genów na stany komórek, tkanek i organizmów była jasna w naukach biologicznych od czasów Watsona i Cricka i ustanowienia centralnego dogmatu biologii molekularnej. Zgodnie z ta zasadą, RNA powstaje z transkrypcji z matrycy DNA znajdującego się w jądrze komórkowym. RNA takie (mrna - RNA przekaźnikowe) jest nośnikiem informacji, które w rybosomach jest przetwarzane na białka w procesie translacji. Postęp biologii molekularnej jest w dużej mierze odmierzany konstrukcją maszyn umożliwiających pomiar sekwencji. Krokiem milowym było w latach 1970-tych sekwencjonowanie metodą Sangera, które doprowadziło w 2001 do opublikowania pierwszego modelowego genomu ludzkiego. Równolegle rozwijała się technologia mikromacierzy, pozwalająca na oszacowanie stężeń określonych fragmentów sekwencji mrna. Jednym z najszybciej rozwijających się obecnie, dzięki postępowi nanotechnologii obszarów badań, jest użycie sekwencerów (sekwenatorów) o krótkich odczytach sekwencji. Obecne sekwencery odczytują fragmenty sekwencji DNA i RNA o długościach od 50 do ok 400 nukleotydów. Urządzenia te typowo połączone z dedykowanym komputerem generują ogromną ilość danych w postaci sekwencji nukleotydowych i ich opisów oraz podsumowań ilościowych. Dane te porządkowane są z użyciem metadanych, opisujących procesy biologiczne zachodzące w mierzonych próbkach. Pojedynczy przebieg sekwencera Illumina HighSeq może dać w wyniku nawet do 600G bp (par zasad nukleotydów) we fragmentach o długości ok 100bp. Odczyty fragmentów sekwencji są następnie w odpowiednich systemach informatycznych dzielone pomiędzy próbki biologiczne, do których należą, a następnie poddawane są analizie. Analiza ta dzieli się na pierwotną (ang. primary), obejmującą dopasowanie sekwencjonowanych fragmentów do istniejącego genomu odniesienia (np. sekwenjonowanie porównawcze DNA nowego osobnika, sekwencjonowanie ekspresjonowanego RNA) albo połączenie fragmentów w nowy genom (ang. de novo sequencing assembly) [2,11]. Następnym etapem jest analiza wtórna z wykorzystaniem metod statystycznych lub uczenia maszyn. Sekwencjonowanie RNA jest obecnie jednym z najbardziej wymagających z punktu widzenia analizy danych zastosowaniem nowych sekwencerów, ale też niosącym wiele potencjalnej nowej wiedzy dla biologów molekularnych i lekarzy projektujących nowe terapie. Wyzwaniem dla informatyka zajmującego się projektowaniem nowych rodzajów analizy danych w tej dziedzinie jest stworzenie takich mechanizmów, które zamieniałyby surowe dane o częstości określonych krótkich sekwencji RNA na wiedzę o ekspresji określonych genów i ich fragmentów (eksonów) lub RNA regulacyjnego niekodującego białek. W ostatnich latach wiele badań wskazuje na istotną dla procesów komórkowych rolę regulacyjną takiego RNA (np. mikro-rna blokujące transkrypcje). Całość RNA 2

tworzonego w komórkach określa się mianem transkryptomu. Główne pojęcia i definicje z zakresu bioinformatyki oraz biologii molekularnej zostały szerzej przedstawione w rozdziale 2 rozprawy. Z punktu widzenia informatyki - typowy zbiór danych w dziedzinie badań transkryptomu to obecnie kilku-gigabajtowy plik binarny BAM zawierający krótkie sekwencje RNA dopasowane do określonego regionu w genomie odniesienia. Plik ten zaindeksowany jest w celu szybszego dostępu przez rozmaite API, natomiast typowy eksperyment biologiczny zawiera od kilku do kilkudziesięciu takich plików odpowiadających próbkom biologicznym. Olbrzymi rozwój technologii biologicznych pociąga za sobą również potrzebę rozwoju oprogramowania i co się z tym wiąże, coraz bardziej precyzyjnych metod analizy. Śledząc trendy i kierunki rozwoju wspomnianych metod analizy, możemy wskazać główne jej punkty (mapowanie, sumaryzacja, normalizacja i znajdowanie ekspresji różnicowej) [1, 3, 4]. Zebrane informacje na temat aktualnych badań w tym zakresie zostały umieszczone w rodziale 3. Cel i zakres pracy. Celem rozprawy jest opracowanie metod analizy wtórnej danych otrzymanych w postaci zbiorów dopasowań (ang. mapping lub aligment) krótkich sekwencji do genomu odniesienia. Metody te docelowo mają prowadzić do dostarczenia informacji o zawartości transkryptomu w określonych warunkach takich jak choroby, stany tkanek czy reakcje na bodźce zewnętrzne. Praca koncentruje się na dwóch problemach w obszarze wtórnej analizy przy użyciu danych pochodzących z sekwencjonowania RNA (RNA-seq). Pierwszym z nich jest weryfikacja anotacji na podstawie weryfikacji granic eksonów z wykorzystaniem algorytmu eksploracji danych, aby znaleźć znaczące regiony eksploracji. Druga ma na celu znalezienie nowego sposobu znajdowania silnie różniących się regionów w postaci profilu funkcji pokrycia. Do rozwiązania tych problemów, zaproponowano nowy sposób eksploracji wartości informacyjnej sekwencjonowanych danych RNA, bazując na różnych typach porównań kształtu profilu funkcji pokrycia. W porównaniu z istniejącymi metodami analizy tego rodzaju danych, które opierają się na zliczaniu wartości zagregowanych danych (ang. counts of reads) proponowane rozwiązanie uwzględnia nie tylko liczbę, ale również rozkład sekwencji odczytów w analizowanym regionie genomowym. Zawartość informacyjna w danych RNA-seq jest ciągle nie do końca zbadana. Użycie metod eksploracji danych RNA-seq pozwala na nowo odkrywać zjawiska transkryptomowe. Punktem startu jest ustalona anotacja (opis) genomu, która wyznacza granice genów, transkryptów i eksonów, przechowywaną w ogólnodostępnej bazie danych (np. Ensembl dla popularnych gatunków lub phytozome dla nowo badanych roślin), udostępnianej naukowcom na całym świecie. Głównym celem jest poszukiwanie znaczących regionów, zarówno w 3

granicach jak i poza granicami eksonu oraz innych znaczących regionów ekspresji. Mogą to być eksony zgodne z anotacją lub mające granice wychodzące poza anotacje. Proponowane w pracy metody analizy skupiają się wokół sumaryzacji (problem 1) oraz znajdowania ekspresji różnicowej (problem 2). Podejście, które zaproponowano w pracy dla problemu pierwszego, opiera się na wiedzy o ilości odczytów sekwencji oraz znajomości ich rozkładów dopasowania na genomie (ang. genome coordinates). Wykorzystanie danych opisujących miliony odczytów z nukleotydową precyzją pozwala na bardzo szczegółową analizę ilościową. W problemie drugim związanym z ekspresją różnicową wykorzystano również nukleotydową precyzję funkcji pokrycia, ale głównym przedmiotem analizy jest kształt jej profilu. Jest to próba zupełnie nowego podejścia w tego rodzaju analizie. Obecnie można zauważyć, że rozwój technologii sprawia, iż pokrycie staje się coraz lepsze (coraz bardziej gęste), dlatego analiza kształtów funkcji pokrycia będzie nabierała coraz większego znaczenia. Problem 1: Dany jest profil ekspresji dla rozważanego gatunku oraz anotacja genomowa rozważanego gatunku. Używając metod eksploracji danych, znajdź znaczące regiony, które będą w jak największym stopniu odpowiadać (najlepiej dopasują się) do kształtu rzeczywistego, aby zweryfikować zgodność z anotacją. Problem 2: Dane są dwa profile funkcji pokrycia dla dwóch różnych próbek (np. dwa typy nowotworu). Znajdź znacząco różnicowo ekspresjonowane eksony dla tych próbek, używając lokalnej normalizacji profilu ekspresji tak, aby opisać ilościowo różnicę pomiędzy kształtami profili. Rozwiązanie tych problemów pozwala na sformułowanie głównej tezy badawczej: Wykorzystanie obiektów opisujących sekwencjonowane RNA z nukleotydową dokładnością oraz przetwarzanie kształtu profilu pokrycia dla danych jako funkcji z dziedziną odpowiadającą wszystkim nukleotydom w genomie pozwala na projektowanie nowych algorytmów i metod służących do określania nowych zjawisk transkryptomowych takich jak wcześniej nieznane transkrypty lub nowe warianty składania (ang splice variants) poprzez opisywanie regionów genomowych ich występowania. 4

W szczególności metody proponowane w tezie badawczej obejmują: analizę na danych z nukleotydową precyzją przy użyciu funkcji pokrycia bez używania danych zagregowanych, nienadzorowaną eksplorację transkryptu w oparciu o przeszukiwanie funkcji pokrycia przy użyciu algorytmu Aumanna-Lindella, nowe metody będące połączeniem miar statystycznych i normalizacji do znajdowania znaczących, różnicowo ekspresjonowanych fragmentów na genomie, np. eksonów, weryfikacja i znajdowanie sygnatur genowych chorób i tkanek składających się z regionów wyznaczonych przy użyciu wcześniej zaproponowanej metody. W rozdziale 4 została szczegółowo omówiona infrastruktura oprogramowania, które zostało stworzone nie tylko na potrzeby badań omawianych w tej pracy, ale również jako otwarte środowisko do analizy tego rodzaju danych. W rozdziale 4 zostały szczegółowo opisane założenia i funkcje oprogramowania, które w postaci biblioteki o nazwie rnaseqmap, zostało umieszczone w powszechnie dostępnym repozytorium BioConductor. Biblioteka rnaseqmap napisana jest w języku R z elementami C oraz połączeniami do baz SQL-owych. Biblioteka zawiera klasy i funkcje służące do operowania na regionach genomowych wraz z dopasowanymi do nich fragmentami RNA uzyskanymi z sekwencera. W odróżnieniu od dotychczasowych rozwiązań, stosujących globalne tabele sumaryzujące poziomy ekspresji RNA, biblioteka rnaseqmap operuje na pojedynczych regionach genomu, dla których poziom ekspresji wyrażony jest funkcją pokrycia (ilością dopasowanych odczytów z sekwencera). Ponadto biblioteka rnaseqmap zawiera funkcje pozwalające wykorzystać dane o genach z lokalnie zainstalowanej bazy opisu genów Ensembl. Dołączone są również rozmaite funkcje wizualizacji profili pokrycia RNA w genomie odniesienia. Rozdział 5 poświęcony jest problemowi znajdowania silnie ekspresjonowanych, nieredukowalnych regionów ekspresji na genomie, które mogą służyć jako weryfikacja anotacji (wyznaczanie granic eksonów i genów na podstawie silnie ekspresjonowanego regionu włączając również znajdowanie nowych, nie znajdujących się w anotacji zjawisk transkryptomowych). Do rozwiązania tego problemu wykorzystano adaptację algorytmu pochodzącego z dziedziny eksploracji danych, który oryginalnie służył do znajdowania ilościowych reguł asocjacyjnych. Dane z sekwencjonowania, poddawane analizie, wyrażone są w postaci funkcji pokrycia (ilość dopasowanych odczytów z sekwencera). Taka definicja danych z sekwencjonowania umożliwia zastosowanie adaptacji algorytmu Aumanna-Lindella [7]. Tutaj algorytm ten służy do znajdowania regionów genomu z pokryciem fragmentami RNA większym od określonego 5

poziomu, co w efekcie pozwala wyznaczyć, (na podstawie własności nieredukowalności regionu zapewnianym przez algorytm) granice zjawisk transryptomowych w postaci eksonów i genów. Rozdział 6 poświęcony jest problemowi znajdowania różnicowo ekspresjonowanych regionów w postaci eksonów. W rozdziale szczegółowo został opisany zestaw nowych metod pozwalających na znalezienie genów, eksonów lub obszarów genomu mających znaczącą różnicę w poziomie zmierzonej sekwencerem ekspresji RNA. Typowo do tego celu używa się metod porównujących tylko ilość sekwencji RNA przypadających na region genomu [6]. Miary opisane w rozprawie biorą pod uwagę nie tylko ilość, ale i rozkład sekwencji RNA w postaci funkcji pokrycia. Różnice w kształcie funkcji pokrycia mogą odzwierciedlać nie tylko różnicę w ekspresji, ale także inne zjawiska transkryptomowe takie jak połączenia transkryptów RNA, nowe punkty startu i końca transkrypcji czy inne zjawiska biologiczne określane wspólnym mianem alternatywnego składania (ang. alternative splicing). Miary uzupełnione są odpowiednimi funkcjami dokonującymi różnych rodzajów normalizacji statystycznej profilu pokrycia i tworzą strumień przetwarzania danych (ang. pipeline). Za pomocą metody statystycznej opisanej w pracy Choe et al. [9], strumienie te porównane są na danych syntetycznych, pół-syntetycznych pochodzących z modyfikacji rzeczywistych profili ekspresji oraz danych rzeczywistych. Schemat przeprowadzonych badań został przedstawiony na rysunku 1. Kryteriami porównań są korelacja między poziomem modyfikacji profilu a wartościami miar oraz jakość strumienia jako klasyfikatora, mierzona polem pod krzywą ROC. Kod funkcji miar i normalizacji został również umieszczony w bibliotece rnaseqmap. 6

Rysunek 1. Strumień do przetwarzania danych w postaci funkcji pokrycia. Dane pochodzące z sekwenatora w postaci krótkich odczytów mapowane są dowolnym narzędziem do mapowania. W wyniku otrzymuje się pliki BAM, które wraz z anotacją poddawane są dalszemu przetwarzaniu. Następnie z wykorzystaniem narzędzi RSamtools oraz rnaseqmap otrzymujemy funkcje pokrycia, która w naszym eksperymencie modyfikowana jest przez odpowiedni generator (modyfikujący oryginalną postać profilu). Następnie dane są normalizowane i przetwarzane przez zestaw proponowanych miar. Ostatecznie weryfikacja wartości wyjściowej jest weryfikowana na podstawie korelacji oraz krzywej ROC. Podsumowanie. Głównym celem rozprawy było opracowanie nowych i efektywnych metod analizy wtórnej (ang. secondary analysis) zsekwencjonowanych danych RNA. Główną zaletą przedstawionego podejścia jest używanie w analizach quasi-ciągłych danych w postaci funkcji pokrycia, określonej dla każdego regionu na genomie z precyzją nukleotydową. Takie podejście jest komplementarne do analizy na zagregowanych danych w postaci zliczeń odczytów (ang. count of reads) lub analizy połączeń eksonów [5,12]. Proponowana struktura analizowanych danych nie była wcześniej znana w literaturze i wnosi nowe możliwości w dziedzinie profilowania transkrypromu, zwłaszcza dla wysokoprzepustowych danych, pochodzących z sekwenatorów o krótkich odczytach, które dostarczają 'silne' pokrycie. Pierwsza część pracy jest poświęcona problemowi znajdowania zjawisk transkryptomowych takich jak izoformy RNA powstałe w wyniku alternatywnego 7

składania (ang. alternative splicing) lub informacje pochodzące z niekodującego RNA (ang. non-coding RNA). Prace rozpoczęto od przygotowania oprogramowania w formie recenzowanej biblioteki, zawierającej zestaw klas do przechowywania danych oraz zestaw funkcji do manipulowania danymi. Główną zaletą oprogramowania jest operowanie na danych z pojedynczą nukleotydową precyzją, czym różni się od istniejących wcześniej, klasycznych, statystycznych rozwiązań czy przeglądarek genomowych. Do znajdowania lokalnych, interesujących zjawisk ekspresji RNA został wykorzystany algorytm Aumanna-Lindell'a. Algorytm został zaadoptowany do pracy na zsekwencjonowanych danych RNA z nukleotydową precyzją [8]. Takie rozwiązanie może być używane do znajdowania nowych ciekawych regionów silnie ekspresjonowanych. Dzieje się to w formie nienadzorowanej, czyli bez jakichkolwiek założeń na temat transkryptomu, w przeciwieństwie do większości stosowanych metod, które opierają się na anotacji dla genów, transkryptów i eksonów. Takie rozwiązanie jest często właściwe, wiedząc, że anotacja jest aproksymowanym i nieustannie rozwijanym obrazem rzeczywistych biologicznych zjawisk transkrypcyjnych i alternatywnego składania. Druga część pracy poświęcona została nowemu sposobowi znajdowania wartości informacyjnej dla danych zsekwencjonowanego RNA, bazując na różnych miarach dla porównania kształtu profilu funkcji pokrycia. Podejście takie wychodzi poza zakres klasycznych rozwiązań analizy ekspresji różnicowej (testy bazujące na zagregowanych sumach odczytów), ponieważ bierze pod uwagę nie tylko liczbę, ale rozkład w genomowym regionie. W tym podejściu zaproponowano kilka nowych formuł dla lokalnej normalizacji oraz miar wyznaczających różnicową ekspresję dla ekspresjonowanego regionu. Zostały one przetestowane i porównywane na danych syntetycznych, pół-syntetycznych oraz rzeczywistych (rzeczywisty profil ekspresji dla danych pochodzących z rzeczywistego eksperymentu (rybosarcoma cancer)) [10]. Kryteriami porównań są korelacja między poziomem modyfikacji profilu a wartościami miar oraz jakość strumienia jako klasyfikatora, mierzona polem pod krzywą ROC. Dane służące do testowania wyżej opisanych metod pochodziły z pomiarów ekspresji RNA w dwu typach raka (mięsak prążkowanokomórkowy) pochodzących ze Szpitala Dziecięcego w Zurichu, uzyskanych we współpracy z grupą profesora Beata Schaffera. Nowe miary oparte na podobieństwie kształtu profilu, z odpowiednim rodzajem normalizacji danych, wprowadzają nowe możliwości w strumieniach analiz zsekwencjonowanych danych RNA. Metodologia analizy pokrycia jest głównie ukierunkowana do stosowania dla lokalnych przeszukiwań dla znajdowania ważnych różnicowo ekspresjonowanych RNA. Zastosowanie algorytmu Aumanna- Lindella lub innych metod eksploracyjnych, umożliwia znajdowanie nieznanych wcześniej i różnicowo ekspresjonowanych wariantów transkryptu. Proponowane 8

rozwiązanie pokazało największą użyteczność przy przetwarzaniu numerycznych wyników nowych regionów ekspresji RNA na genomie dla gatunków, dla których nie mają ustalonej anotacji (np. niekodujące RNA lub dla gatunków, które mają złożony genom de-novo). Takim przykładem może być pasożyt Cryptosporidum parvum, dla którego zmiany dotyczyły 10% genów. W praktycznych wykonanych eksperymentach, przy współpracy z biologami molekularnymi, zostało potwierdzone, że metody mogą pomóc w badaniach naukowych odszyfrowujących kod transkrypcyjny żywych organizmów, który jest nieustannie rozwijany i coraz bardziej złożony. Końcowy eksperyment weryfikujący sygnatury rakowe pokazał, że operowanie na poziomie nukleotydowym z wykorzystaniem metody znajdowania różnicowej ekspresji jest dobrym kierunkiem badawczym, który będzie nadal kontynuowany. Następnym krokiem w badaniach będzie sformułowanie procedury tworzącej sygnatury chorobowe, bazujące na eksonowym profilu pokrycia. Proponowane w pracy metody zostały zaimplementowane w formie infrastruktury oraz strumieni dla numerycznych analiz. Są także dostępne jako oprogramowanie open source w repozytorium BioConductor i dostępne pod adresem: http://bioconductor.org/packages/release/bioc/html/rnaseqmap.html Oprogramowanie to zostało do tej pory wykorzystane w ponad 20 biologicznych projektach w FGCZ, poddając analizie ekspresję RNA dla próbek wielu różnych gatunków roślin i zwierząt oraz tkanek pacjentów pochodzących z badań klinicznych. 9

Bibliografia: [1] Oshlack A, Robinson MD, Young MD., From RNA-seq reads to differential expression results Genome Biology 2010, 11:220 [2] Wang Z., Gerstein M., Snyder M., RNA-Seq: a revolutionary tool for transcriptomics Nature Reviews Genetics 10, 57-63 (January 2009) [3] Anders S., Huber W., Differential expression analysis for sequence count data Genome Biology 2010, 11:R106 [4] Robinson M.D., McCarthy D.J., Smyth G.K., edger: a Bioconductor package for differential expression analysis of digital gene expression data Bioinformatics 2010, 26:139-140 [5] Trapnell C., Pachter L., Salzberg S.L., TopHat: discovering splice junctions with RNA-Seq. Bioinformatics 2009, 25:1105-1111 [6] Anders S., Huber W., Differential expression analysis for sequence count data Genome Biology 2010, 11:R106 [7] Aumann Y, Lindell Y, A Statistical Theory for Quantitative Association Rules Journal of Intelligent Information Systems 2003, 20(3):255-283 [8] Lesniewska A., Okoniewski M.J., rnaseqmap: a Bioconductor package for RNA sequencing data exploration, BMC Bioinformatics 2011, 12:200 [9] Choe S. E., Boutros M., Michelson A. M., Church G. M., Halfon M. S., Preferred analysis methods for Affymetrix GeneChips revealed by a wholly defined control dataset Genome Biology 6, R16 2005 [10] Okoniewski M.J., Lesniewska A., Szabelska A., Zyprych-Walczak J, Ryan M., Wachtel M., Morzy T., Schaffer B., Schlapbach R., Preferred analysis methods for single genomic regions in RNA sequencing revealed by processing the shape of coverage Nucleic Acids Research december 30 2011 [11] Garber M., Grabherr M.G., Guttman M., Trapnell C. Computational methods for transcriptome annotation and quantification using RNA-seq Nature Methods 2011 8:469-477 [12] Trapnell C, Roberts A, Goff L, et al. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks Nature Protocols, 2012 Mar 7(3):562-78. 10