Przykładowa analiza danych



Podobne dokumenty
Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

ALGORYTMY SZTUCZNEJ INTELIGENCJI

KLASYFIKACJA. Słownik języka polskiego

Projekt Sieci neuronowe

Metody Sztucznej Inteligencji II

Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Zastosowania sieci neuronowych

Systemy uczące się Lab 4

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

STATYSTYKA I DOŚWIADCZALNICTWO

Systemy uczące się wykład 2

Elementy statystyki wielowymiarowej

Oprogramowanie Systemów Obrazowania SIECI NEURONOWE

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Lekcja 5: Sieć Kohonena i sieć ART

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Testowanie hipotez statystycznych

Analiza składowych głównych. Wprowadzenie

Zastosowania sieci neuronowych

Hierarchiczna analiza skupień

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.

Podstawy sztucznej inteligencji

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

Automatyczna predykcja. Materiały/konsultacje. Co to jest uczenie maszynowe? Przykład 6/10/2013. Google Prediction API, maj 2010

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Analiza głównych składowych- redukcja wymiaru, wykł. 12

Sztuczne sieci neuronowe (SNN)

Inteligentne systemy przeciw atakom sieciowym

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

10. Redukcja wymiaru - metoda PCA

Sieci neuronowe w Statistica

Analiza zmienności czasowej danych mikromacierzowych

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

MIKROMACIERZE. dr inż. Aleksandra Świercz dr Agnieszka Żmieńko

Analiza Statystyczna

Prof. Stanisław Jankowski

TRANSFORMACJE I JAKOŚĆ DANYCH

Temat: Sztuczne Sieci Neuronowe. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE

Sieci neuronowe w Statistica. Agnieszka Nowak - Brzezioska

Metody klasyfikacji danych - część 1 p.1/24

ALGORYTM RANDOM FOREST

Mail: Pokój 214, II piętro

Co to jest grupowanie

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017

Wstęp do sieci neuronowych, wykład 6 Wsteczna propagacja błędu - cz. 3


Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

WEKA klasyfikacja z użyciem sztucznych sieci neuronowych

Algorytm do rozpoznawania człowieka na podstawie dynamiki użycia klawiatury. Paweł Kobojek, prof. dr hab. inż. Khalid Saeed

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

8. Neuron z ciągłą funkcją aktywacji.

Stosowana Analiza Regresji

Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego

Uczenie sieci typu MLP

Uczenie się pojedynczego neuronu. Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z<0 y=1 gdy z>=0. Wówczas: W 1 x 1 + w 2 x 2 + = 0

9. Praktyczna ocena jakości klasyfikacji

WYKORZYSTANIE SIECI NEURONOWEJ DO BADANIA WPŁYWU WYDOBYCIA NA SEJSMICZNOŚĆ W KOPALNIACH WĘGLA KAMIENNEGO. Stanisław Kowalik (Poland, Gliwice)

Rodzaje testów. Testy. istnieje odpowiedź prawidłowa. autoekspresja brak odpowiedzi prawidłowej ZGADYWANIE TRAFNOŚĆ SAMOOPISU

Uczenie sieci neuronowych i bayesowskich

Zmienne zależne i niezależne

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

STATYSTYKA I DOŚWIADCZALNICTWO

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

SZTUCZNA INTELIGENCJA

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Dane mikromacierzowe. Mateusz Markowicz Marta Stańska

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Ontogeniczne sieci neuronowe. O sieciach zmieniających swoją strukturę

Uczenie sieci radialnych (RBF)

WYKŁAD 7. Testowanie jakości modeli klasyfikacyjnych metodyka i kryteria

Rozdział 8. Regresja. Definiowanie modelu

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Oszacowanie i rozkład t

wiedzy Sieci neuronowe

Skalowanie wielowymiarowe idea

Algorytm grupowania danych typu kwantyzacji wektorów

Agnieszka Nowak Brzezińska Wykład III

Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe.

Algorytm grupowania danych typu kwantyzacji wektorów

Analiza składowych głównych

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Jakość uczenia i generalizacja

Idea. Algorytm zachłanny Algorytmy hierarchiczne Metoda K-średnich Metoda hierarchiczna, a niehierarchiczna. Analiza skupień

Wprowadzenie do analizy dyskryminacyjnej

Podstawy Sztucznej Inteligencji (PSZT)

Techniki grupowania danych w środowisku Matlab

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin. Henryk Bujak

Klasyfikacja województw według ich konkurencyjności przy pomocy metod taksonomicznych oraz sieci neuronowych.

Metody i techniki sztucznej inteligencji / Leszek Rutkowski. wyd. 2, 3 dodr. Warszawa, Spis treści

Transkrypt:

Przykładowa analiza danych W analizie wykorzystano dane pochodzące z publicznego repozytorium ArrayExpress udostępnionego na stronach Europejskiego Instytutu Bioinformatyki (http://www.ebi.ac.uk/). Zbiór zawierał informację o poziomie ekspresji genów w 23 gruczolakorakach płuc i 18 tkankach wolnych od nowotworu. Materiał biologiczny pochodziły od 23 pacjentów. Profil ekspresji genów został wyznaczony techniką mikromacierzy oligonukleotydowych HG- U133A firmy Affymterix. Nazwa i identyfikator eksperymentu: E-TABM-15. Krok pierwszy: analiza niskiego poziomu Analiza niskiego poziomu (zwana dalej w skrócie ANP) obejmuje wszystkie operacje związane z wstępnym przetwarzaniem danych z mikromacierzy. Celem ANP jest uzyskanie wartości ekspresji genów wolnych od błędów systematycznych oraz zapewnienie możliwości porównywania ze sobą danych pochodzących z wielu mikromacierzy. ANP obejmuje korekcję tła, normalizację oraz sumaryzację. Korekcją tła nazywamy ogólnie ujmując odjęcie wartości tła od zmierzonej na mikromacierzy wartości ekspresji genu. Tło powstaje m.in. na skutek odbijania się światła lasera od powierzchni mikromacierzy. Zadaniem normalizacji jest eliminacja niebiologicznego zróżnicowania pomiędzy danymi pochodzącymi z wielu mikromacierzy. Polega ona na takim przetworzeniu danych, by otrzymano wspólną skalę poziomów ekspresji genów dla wszystkich mikromacierzy DNA. W wyniku procesu sumaryzacji powstaje tabela z danymi, której poszczególne wiersze odpowiadają genom, a kolumny badanym próbkom. Każda z kolumn przedstawia profil ekspresji genów w określonej próbie, a każdy z wierszy poziom ekspresji określonego genu we wszystkich analizowanych materiałach genetycznych. Rozmiar uzyskanej tabeli zależy od modelu mikromacierzy wykorzystanej w eksperymencie i liczby badanych prób. Typ mikromacierzy warunkuje liczbę wierszy, a liczba badanych próbek przekłada się na liczbę kolumn. W ramach analizy ANP istnieje możliwość określenia następujących parametrów: korekcja tła: - brak korekcji tła - RMA - GCRMA normalizacji: - kwantylowa (http://en.wikipedia.org/wiki/quantile_normalization) - skalowanie (http://en.wikipedia.org/wiki/feature_scaling)

Wybrane parametry dla prezentowanej analizy zaznaczono na czerwono. Do wizualizacji danych przed i po analizie niskiego poziomu wykorzystuje się wykres częstości oraz wykres pudełkowy. rozkład danych przed ANP rozkład danych po ANP Aby można porównywać dane z wielu mikromacierzy DNA, powinny mieć one wspólny rozkład danych. Krok drugi: analiza skupień Analiza skupień (ang. data clustering) jest metodą tzw. klasyfikacji bez nadzoru (ang. unsupervised learning). Jest to metoda wykonująca grupowanie elementów we względnie jednorodne klasy. Podstawą grupowania jest podobieństwo pomiędzy elementami wyrażone przy pomocy miary odległości. Integromika dostarcza możliwość wykonania klasteryzacji hierarchicznej, której rezultat jest przedstawiany w postaci drzewa (dendrogramu). W ramach analizy skupień istnieje możliwość określenia następujących parametrów: miara odległości: - odległość euklidesowa - odległość Czybyszewa - odległość miejska - odległość Canberra - odległość binarna - odległość Minkowskiego metoda aglomeracji (łączenia): - powiększona suma kwadratów odległości (metoda Warda) - pojedyncze połączenie - całkowite połączenie - uśrednione połączenie - ważona średnia klasowa (metoda Mcquitty)

- mediana - środki ciężkości klasteryzacja hierarchiczna: - po genach (wierszach) - po próbach (kolumnach) Wybrane wartości parametrów dla prezentowanej analizy zaznaczono na czerwono. dendogram, kolorem zielonym zaznaczano grupę gruczolakoraków płuc, kolor czerwony to kontrole. Skupienia/klastry utworzone w oparciu o ekspresję genów pokrywają się z klasyfikacją histopatologiczną. Jednym z celów analizy skupień może być sprawdzenie czy klasyfikacja prób na podstawie ekspresji genów pokrywa się z klasyfikacją histopatologiczną. Krok trzeci: wyznaczanie genów różnicujących Analiza istotności mikromacierzy (ang. Significance Analysis of Microarray, SAM) to uznana statystyczna metoda typowania genów istotnie różnicujących. Metoda ta bazuje na porównaniu tzw. obserwowanej wartości statystki z tzw. oczekiwaną wartością statystki (wygenerowaną metodami kombinatorycznymi). Po wykonaniu analizy istotności mikromacierzy użytkownik powinien ograniczyć analizowany zbiór do genów istotnie

zróżnicowanych (używając w narzędziu analizy Typowanie genów różnicujących SAM etap II ). Czynność tą przeprowadza się za pomocą określenia wartości współczynników: - FDR (false discovery rate) - DELTA Współczynnik FDR określa nam procent genów fałszywie dodatnich. Współczynnik delta jest kryterium zróżnicowania pomiędzy porównywanymi grupami. Zaleca się aby uznać za różnicujący zbiór genów dla którego FDR wynosi 0. Jeśli FDR wynosi np. 0.05 to mniej więcej 5% z genów uznanych za różnicujące może nie być różnicujące. W praktyce, wraz ze wzrostem kryterium delta, spada liczba genów różnicujących i spada wartość FDR. Wykres SAM, kolorem zielonym zaznaczono 38 genów różnicujących. Krok czwarty: analiza głównych składowych Analiza głównych składowych (ang. Principal Component Analysis, PCA) to popularna metoda redukcji wielowymiarowości. Celem PCA jest taki obrót układu współrzędnych, aby maksymalizować w pierwszej kolejności wariancję pierwszej współrzędnej, następnie

wariancję drugiej współrzędnej, itd. Można więc pominąć wymiary o niewielkiej wariancji co w efekcie prowadzi do powstania nowego zbioru zmiennych, odzwierciedlających zmienność występującą w oryginalnym zbiorze z pewnym poziomem pokrycia. W ramach analizy głównych składowych istnieje możliwość określenia następujących parametrów: tym macierzy: - macierz korelacji - macierz kowariancji liczba składowych: - 2 (wykres 2D) - 3 (wykres 3D) PCA podobnie jak klasteryzację hierarchiczną można zastosować do próby odpowiedzi na pytanie czy klasyfikacja prób na podstawie ekspresji genów pokrywa się z klasyfikacją histopatologiczną. wykres PCA dla 3 głównych składowych, kolorem zielonym zaznaczano grupę gruczolakoraków płuc, kolor czerwony to kontrole. Krok piąty: sztuczne sieci neuronowe Analiza oparta na sztucznych sieciach neuronowych pozwala na utworzenie i wytrenowanie modelu neuronowego (typu perceptron), który następnie może zostać

wykorzystany do rozpoznawania tkanek zdrowych i tkanek zmienionych chorobowo wyłącznie na podstawie profilu ekspresji genów różnicujących. Analiza przebiega w 3 etapach. Etap I: Przygotowanie zbiorów wejściowych W ramach etapu tworzymy tzw. zbiór uczący, testowy i opcjonalnie walidujący. W przedstawionej analizie utworzono zbiór uczący złożony z 29 prób (70 %) i zbiór testowy złożony z 12 prób (30 %). W każdym ze zbiorów, każda z prób jest charakteryzowana przez poziom ekspresji 38 genów. Ponadto każdej z prób przypisano klasę zgodnie z klasyfikacją histopatologiczną. Zbiór uczący: ID PRÓBY 201540_at NM_001449 FHL1 202524_s_at NM_014767 SPOCK2 202759_s_at BE879367 NA 202908_at NM_006005 WFS1 203065_s_at NM_001753 CAV1 23_1,CEL 8,42 7,44 7,69 6,90 6,76 23_2,CEL 10,64 8,67 9,61 8,15 9,42 32_1,CEL 8,92 7,25 7,76 7,29 6,70 32_2,CEL 10,81 9,99 10,68 8,55 10,30 33_1,CEL 9,91 7,37 8,48 6,98 7,91 40_2,CEL 10,64 9,72 10,04 8,63 9,66 47_2,CEL 10,79 8,98 9,30 8,35 9,87 48_1,CEL 6,95 7,37 8,07 7,14 6,42 48_2,CEL 10,42 10,01 10,73 8,94 10,52 54_1,CEL 7,25 8,24 7,09 7,66 5,93 54_2,CEL 10,74 9,11 8,83 8,50 9,84 61_1,CEL 8,99 7,60 7,65 7,55 6,74 61_2,CEL 11,01 9,03 9,72 8,47 9,05 67_1,CEL 7,01 6,46 7,16 6,07 5,89 71_1,CEL 7,34 7,19 7,52 7,15 6,07 78_1,CEL 7,81 7,72 8,53 7,52 7,54 78_2,CEL 10,58 9,81 10,53 8,93 10,83 79_1,CEL 7,99 7,03 8,22 6,85 6,29 79_2,CEL 10,60 9,33 10,40 8,55 9,87 84_1,CEL 7,27 7,44 6,92 6,93 6,17 84_2,CEL 10,70 9,61 10,39 8,57 10,02 86_1,CEL 8,03 6,38 7,92 6,47 6,33 86_2,CEL 10,58 8,93 10,65 8,29 10,10 87_1,CEL 7,34 5,87 8,10 6,72 6,02 87_2,CEL 10,18 9,89 10,48 8,80 10,15 89_1,CEL 7,23 5,73 8,09 6,55 5,78 89_2,CEL 10,74 9,26 10,36 8,80 10,16 92_1,CEL 6,94 7,20 7,20 7,79 6,45 92_2,CEL 10,78 9,52 9,59 8,63 9,71 32625_at X15357 NPR1 KLASYFIKACJA 5,49 0 (kontrola) 6,62 1 (gruczolakorak) 5,57 0 (kontrola) 6,62 1 (gruczolakorak) 5,69 0 (kontrola) 6,26 1 (gruczolakorak) 6,58 1 (gruczolakorak) 5,22 0 (kontrola) 6,52 1 (gruczolakorak) 5,19 0 (kontrola) 6,21 1 (gruczolakorak) 5,65 0 (kontrola) 6,58 1 (gruczolakorak) 5,75 0 (kontrola) 5,05 0 (kontrola) 5,57 0 (kontrola) 6,69 1 (gruczolakorak) 5,64 0 (kontrola) 6,48 1 (gruczolakorak) 5,80 0 (kontrola) 6,42 1 (gruczolakorak) 5,81 0 (kontrola) 6,70 1 (gruczolakorak) 5,01 0 (kontrola) 6,72 1 (gruczolakorak) 5,15 0 (kontrola) 6,42 1 (gruczolakorak) 5,28 0 (kontrola) 6,30 1 (gruczolakorak)

Etap II: Uczenie sieci neuronowych Następnie tworzymy i uczymy modele neuronowe o zdefiniowanej przez użytkownika maksymalnej liczbie neuronów w I i II warstwie ukrytej. Użytkownik ma możliwość określenia także innych parametrów jak: liczba cykli uczenia, zakres wag, rodzaj funkcji aktywacji, współczynnik uczenia, momentu. Uczenie przebiega wyłącznie na danych ze zbioru uczącego. W prezentowanej analizie przyjęto następujące wartości dla poszczególnych parametrów: Liczba cykli uczenia: 3000 Uczenie wielu SSN: tak Dolny zakres początkowych wartości wag: 0 Górny zakres początkowych wartości wag: 1 Próg: 1.0 Metoda aktywacji: Sigmoidalna funkcja unipolarna Liczba neuronów w I warstwie ukrytej: 20 Współczynnik uczenia: 0.1 Liczba neuronów w II warstwie ukrytej: 20 Momentum: 0.01 Tak zadane parametry, pozwoliły na utworzenie i wyszkolenie ponad 1200 sztucznych sieci neuronowych. Z pośród tej grupy sieć o strukturze 38-20-1 uzyskała najmniejszą wartość błędu średniokwadratowego (czyli najlepiej rozpoznawała poszczególne próby ze zbioru uczącego) i została wybrana do dalszych testów. Etap III: Testowanie sieci neuronowej W kolejnym etapie należy sprawdzić zdolność sieci do uogólnienie zdobytej wiedzy, poprzez analizę testowego zbioru danych. Jeśli wybrany model (w analizowanym przypadku sieć o budowie 38-20-1) poprawnie zaklasyfikuje próby które nie brały udziału w procesie uczenia, oznacza to że model może być wykorzystana np. jako klasyfikator lub np. istnieje zakładany podział na klasy. ID PRÓBY KLASYFIKACJA ODPOWIEDŹ SIECI BŁĄD 28_1.CEL 0 (kontrola) 0.0030 0.0030 28_2.CEL 1 (gruczolakorak) 0.9999 0.0001 33_2.CEL 1 (gruczolakorak) 0.9999 0.0001 38_1.CEL 0 (kontrola) 0.0030 0.0030 38_2.CEL 1 (gruczolakorak) 0.9999 0.0001 40_1.CEL 0 (kontrola) 0.0030 0.0030 41_1.CEL 0 (kontrola) 0.0030 0.0030 41_2.CEL 1 (gruczolakorak) 0.9999 0.0001 47_1.CEL 0 (kontrola) 0.0030 0.0030 53_1.CEL 0 (kontrola) 0.0030 0.0030 59_1.CEL 0 (kontrola) 0.0030 0.0030 60_1.CEL 0 (kontrola) 0.0030 0.0030

W prezentowanym przykładzie, wybrana sztuczna sieć neuronowa bezbłędnie zaklasyfikowała wszystkie 12 prób wchodzące w skład zbioru testowego.