Przykładowa analiza danych W analizie wykorzystano dane pochodzące z publicznego repozytorium ArrayExpress udostępnionego na stronach Europejskiego Instytutu Bioinformatyki (http://www.ebi.ac.uk/). Zbiór zawierał informację o poziomie ekspresji genów w 23 gruczolakorakach płuc i 18 tkankach wolnych od nowotworu. Materiał biologiczny pochodziły od 23 pacjentów. Profil ekspresji genów został wyznaczony techniką mikromacierzy oligonukleotydowych HG- U133A firmy Affymterix. Nazwa i identyfikator eksperymentu: E-TABM-15. Krok pierwszy: analiza niskiego poziomu Analiza niskiego poziomu (zwana dalej w skrócie ANP) obejmuje wszystkie operacje związane z wstępnym przetwarzaniem danych z mikromacierzy. Celem ANP jest uzyskanie wartości ekspresji genów wolnych od błędów systematycznych oraz zapewnienie możliwości porównywania ze sobą danych pochodzących z wielu mikromacierzy. ANP obejmuje korekcję tła, normalizację oraz sumaryzację. Korekcją tła nazywamy ogólnie ujmując odjęcie wartości tła od zmierzonej na mikromacierzy wartości ekspresji genu. Tło powstaje m.in. na skutek odbijania się światła lasera od powierzchni mikromacierzy. Zadaniem normalizacji jest eliminacja niebiologicznego zróżnicowania pomiędzy danymi pochodzącymi z wielu mikromacierzy. Polega ona na takim przetworzeniu danych, by otrzymano wspólną skalę poziomów ekspresji genów dla wszystkich mikromacierzy DNA. W wyniku procesu sumaryzacji powstaje tabela z danymi, której poszczególne wiersze odpowiadają genom, a kolumny badanym próbkom. Każda z kolumn przedstawia profil ekspresji genów w określonej próbie, a każdy z wierszy poziom ekspresji określonego genu we wszystkich analizowanych materiałach genetycznych. Rozmiar uzyskanej tabeli zależy od modelu mikromacierzy wykorzystanej w eksperymencie i liczby badanych prób. Typ mikromacierzy warunkuje liczbę wierszy, a liczba badanych próbek przekłada się na liczbę kolumn. W ramach analizy ANP istnieje możliwość określenia następujących parametrów: korekcja tła: - brak korekcji tła - RMA - GCRMA normalizacji: - kwantylowa (http://en.wikipedia.org/wiki/quantile_normalization) - skalowanie (http://en.wikipedia.org/wiki/feature_scaling)
Wybrane parametry dla prezentowanej analizy zaznaczono na czerwono. Do wizualizacji danych przed i po analizie niskiego poziomu wykorzystuje się wykres częstości oraz wykres pudełkowy. rozkład danych przed ANP rozkład danych po ANP Aby można porównywać dane z wielu mikromacierzy DNA, powinny mieć one wspólny rozkład danych. Krok drugi: analiza skupień Analiza skupień (ang. data clustering) jest metodą tzw. klasyfikacji bez nadzoru (ang. unsupervised learning). Jest to metoda wykonująca grupowanie elementów we względnie jednorodne klasy. Podstawą grupowania jest podobieństwo pomiędzy elementami wyrażone przy pomocy miary odległości. Integromika dostarcza możliwość wykonania klasteryzacji hierarchicznej, której rezultat jest przedstawiany w postaci drzewa (dendrogramu). W ramach analizy skupień istnieje możliwość określenia następujących parametrów: miara odległości: - odległość euklidesowa - odległość Czybyszewa - odległość miejska - odległość Canberra - odległość binarna - odległość Minkowskiego metoda aglomeracji (łączenia): - powiększona suma kwadratów odległości (metoda Warda) - pojedyncze połączenie - całkowite połączenie - uśrednione połączenie - ważona średnia klasowa (metoda Mcquitty)
- mediana - środki ciężkości klasteryzacja hierarchiczna: - po genach (wierszach) - po próbach (kolumnach) Wybrane wartości parametrów dla prezentowanej analizy zaznaczono na czerwono. dendogram, kolorem zielonym zaznaczano grupę gruczolakoraków płuc, kolor czerwony to kontrole. Skupienia/klastry utworzone w oparciu o ekspresję genów pokrywają się z klasyfikacją histopatologiczną. Jednym z celów analizy skupień może być sprawdzenie czy klasyfikacja prób na podstawie ekspresji genów pokrywa się z klasyfikacją histopatologiczną. Krok trzeci: wyznaczanie genów różnicujących Analiza istotności mikromacierzy (ang. Significance Analysis of Microarray, SAM) to uznana statystyczna metoda typowania genów istotnie różnicujących. Metoda ta bazuje na porównaniu tzw. obserwowanej wartości statystki z tzw. oczekiwaną wartością statystki (wygenerowaną metodami kombinatorycznymi). Po wykonaniu analizy istotności mikromacierzy użytkownik powinien ograniczyć analizowany zbiór do genów istotnie
zróżnicowanych (używając w narzędziu analizy Typowanie genów różnicujących SAM etap II ). Czynność tą przeprowadza się za pomocą określenia wartości współczynników: - FDR (false discovery rate) - DELTA Współczynnik FDR określa nam procent genów fałszywie dodatnich. Współczynnik delta jest kryterium zróżnicowania pomiędzy porównywanymi grupami. Zaleca się aby uznać za różnicujący zbiór genów dla którego FDR wynosi 0. Jeśli FDR wynosi np. 0.05 to mniej więcej 5% z genów uznanych za różnicujące może nie być różnicujące. W praktyce, wraz ze wzrostem kryterium delta, spada liczba genów różnicujących i spada wartość FDR. Wykres SAM, kolorem zielonym zaznaczono 38 genów różnicujących. Krok czwarty: analiza głównych składowych Analiza głównych składowych (ang. Principal Component Analysis, PCA) to popularna metoda redukcji wielowymiarowości. Celem PCA jest taki obrót układu współrzędnych, aby maksymalizować w pierwszej kolejności wariancję pierwszej współrzędnej, następnie
wariancję drugiej współrzędnej, itd. Można więc pominąć wymiary o niewielkiej wariancji co w efekcie prowadzi do powstania nowego zbioru zmiennych, odzwierciedlających zmienność występującą w oryginalnym zbiorze z pewnym poziomem pokrycia. W ramach analizy głównych składowych istnieje możliwość określenia następujących parametrów: tym macierzy: - macierz korelacji - macierz kowariancji liczba składowych: - 2 (wykres 2D) - 3 (wykres 3D) PCA podobnie jak klasteryzację hierarchiczną można zastosować do próby odpowiedzi na pytanie czy klasyfikacja prób na podstawie ekspresji genów pokrywa się z klasyfikacją histopatologiczną. wykres PCA dla 3 głównych składowych, kolorem zielonym zaznaczano grupę gruczolakoraków płuc, kolor czerwony to kontrole. Krok piąty: sztuczne sieci neuronowe Analiza oparta na sztucznych sieciach neuronowych pozwala na utworzenie i wytrenowanie modelu neuronowego (typu perceptron), który następnie może zostać
wykorzystany do rozpoznawania tkanek zdrowych i tkanek zmienionych chorobowo wyłącznie na podstawie profilu ekspresji genów różnicujących. Analiza przebiega w 3 etapach. Etap I: Przygotowanie zbiorów wejściowych W ramach etapu tworzymy tzw. zbiór uczący, testowy i opcjonalnie walidujący. W przedstawionej analizie utworzono zbiór uczący złożony z 29 prób (70 %) i zbiór testowy złożony z 12 prób (30 %). W każdym ze zbiorów, każda z prób jest charakteryzowana przez poziom ekspresji 38 genów. Ponadto każdej z prób przypisano klasę zgodnie z klasyfikacją histopatologiczną. Zbiór uczący: ID PRÓBY 201540_at NM_001449 FHL1 202524_s_at NM_014767 SPOCK2 202759_s_at BE879367 NA 202908_at NM_006005 WFS1 203065_s_at NM_001753 CAV1 23_1,CEL 8,42 7,44 7,69 6,90 6,76 23_2,CEL 10,64 8,67 9,61 8,15 9,42 32_1,CEL 8,92 7,25 7,76 7,29 6,70 32_2,CEL 10,81 9,99 10,68 8,55 10,30 33_1,CEL 9,91 7,37 8,48 6,98 7,91 40_2,CEL 10,64 9,72 10,04 8,63 9,66 47_2,CEL 10,79 8,98 9,30 8,35 9,87 48_1,CEL 6,95 7,37 8,07 7,14 6,42 48_2,CEL 10,42 10,01 10,73 8,94 10,52 54_1,CEL 7,25 8,24 7,09 7,66 5,93 54_2,CEL 10,74 9,11 8,83 8,50 9,84 61_1,CEL 8,99 7,60 7,65 7,55 6,74 61_2,CEL 11,01 9,03 9,72 8,47 9,05 67_1,CEL 7,01 6,46 7,16 6,07 5,89 71_1,CEL 7,34 7,19 7,52 7,15 6,07 78_1,CEL 7,81 7,72 8,53 7,52 7,54 78_2,CEL 10,58 9,81 10,53 8,93 10,83 79_1,CEL 7,99 7,03 8,22 6,85 6,29 79_2,CEL 10,60 9,33 10,40 8,55 9,87 84_1,CEL 7,27 7,44 6,92 6,93 6,17 84_2,CEL 10,70 9,61 10,39 8,57 10,02 86_1,CEL 8,03 6,38 7,92 6,47 6,33 86_2,CEL 10,58 8,93 10,65 8,29 10,10 87_1,CEL 7,34 5,87 8,10 6,72 6,02 87_2,CEL 10,18 9,89 10,48 8,80 10,15 89_1,CEL 7,23 5,73 8,09 6,55 5,78 89_2,CEL 10,74 9,26 10,36 8,80 10,16 92_1,CEL 6,94 7,20 7,20 7,79 6,45 92_2,CEL 10,78 9,52 9,59 8,63 9,71 32625_at X15357 NPR1 KLASYFIKACJA 5,49 0 (kontrola) 6,62 1 (gruczolakorak) 5,57 0 (kontrola) 6,62 1 (gruczolakorak) 5,69 0 (kontrola) 6,26 1 (gruczolakorak) 6,58 1 (gruczolakorak) 5,22 0 (kontrola) 6,52 1 (gruczolakorak) 5,19 0 (kontrola) 6,21 1 (gruczolakorak) 5,65 0 (kontrola) 6,58 1 (gruczolakorak) 5,75 0 (kontrola) 5,05 0 (kontrola) 5,57 0 (kontrola) 6,69 1 (gruczolakorak) 5,64 0 (kontrola) 6,48 1 (gruczolakorak) 5,80 0 (kontrola) 6,42 1 (gruczolakorak) 5,81 0 (kontrola) 6,70 1 (gruczolakorak) 5,01 0 (kontrola) 6,72 1 (gruczolakorak) 5,15 0 (kontrola) 6,42 1 (gruczolakorak) 5,28 0 (kontrola) 6,30 1 (gruczolakorak)
Etap II: Uczenie sieci neuronowych Następnie tworzymy i uczymy modele neuronowe o zdefiniowanej przez użytkownika maksymalnej liczbie neuronów w I i II warstwie ukrytej. Użytkownik ma możliwość określenia także innych parametrów jak: liczba cykli uczenia, zakres wag, rodzaj funkcji aktywacji, współczynnik uczenia, momentu. Uczenie przebiega wyłącznie na danych ze zbioru uczącego. W prezentowanej analizie przyjęto następujące wartości dla poszczególnych parametrów: Liczba cykli uczenia: 3000 Uczenie wielu SSN: tak Dolny zakres początkowych wartości wag: 0 Górny zakres początkowych wartości wag: 1 Próg: 1.0 Metoda aktywacji: Sigmoidalna funkcja unipolarna Liczba neuronów w I warstwie ukrytej: 20 Współczynnik uczenia: 0.1 Liczba neuronów w II warstwie ukrytej: 20 Momentum: 0.01 Tak zadane parametry, pozwoliły na utworzenie i wyszkolenie ponad 1200 sztucznych sieci neuronowych. Z pośród tej grupy sieć o strukturze 38-20-1 uzyskała najmniejszą wartość błędu średniokwadratowego (czyli najlepiej rozpoznawała poszczególne próby ze zbioru uczącego) i została wybrana do dalszych testów. Etap III: Testowanie sieci neuronowej W kolejnym etapie należy sprawdzić zdolność sieci do uogólnienie zdobytej wiedzy, poprzez analizę testowego zbioru danych. Jeśli wybrany model (w analizowanym przypadku sieć o budowie 38-20-1) poprawnie zaklasyfikuje próby które nie brały udziału w procesie uczenia, oznacza to że model może być wykorzystana np. jako klasyfikator lub np. istnieje zakładany podział na klasy. ID PRÓBY KLASYFIKACJA ODPOWIEDŹ SIECI BŁĄD 28_1.CEL 0 (kontrola) 0.0030 0.0030 28_2.CEL 1 (gruczolakorak) 0.9999 0.0001 33_2.CEL 1 (gruczolakorak) 0.9999 0.0001 38_1.CEL 0 (kontrola) 0.0030 0.0030 38_2.CEL 1 (gruczolakorak) 0.9999 0.0001 40_1.CEL 0 (kontrola) 0.0030 0.0030 41_1.CEL 0 (kontrola) 0.0030 0.0030 41_2.CEL 1 (gruczolakorak) 0.9999 0.0001 47_1.CEL 0 (kontrola) 0.0030 0.0030 53_1.CEL 0 (kontrola) 0.0030 0.0030 59_1.CEL 0 (kontrola) 0.0030 0.0030 60_1.CEL 0 (kontrola) 0.0030 0.0030
W prezentowanym przykładzie, wybrana sztuczna sieć neuronowa bezbłędnie zaklasyfikowała wszystkie 12 prób wchodzące w skład zbioru testowego.