ANALIZA SKUPIEŃ NA PRZYKŁADZIE SEGMENTACJI NOWOTWORÓW

Transkrypt

1 StatSoft Polska, tel. (1) 3, (1) 1151, ANALIZA SKUPIEŃ NA PRZYKŁADZIE SEGMENTACJI NOWOTWORÓW Grzegorz Harańczyk, StatSoft Polska Sp. z o.o. Analiza skupień to edna z nabardzie znanych metod data miningu. Zaprezentuemy zastosowanie te metody do segmentaci nowotworów, wykorzystuąc algorytm k-średnich i ego implementacę w programie STATISTICA. Wprowadzenie do analizy skupień Ogólny problem badaczy wielu dyscyplin polega na organizowaniu obserwowanych danych w sensowne struktury lub grupowaniu danych. Obecnie zagadnienie to est szczególnie istotne, gdyż coraz częście mamy do czynienia z ogromnymi ilościami danych. Właśnie do tych celów można zastosować analizę skupień. Analiza skupień (ang. cluster analysis, termin wprowadzony w 1939 roku przez Tryona), nazywana również segmentacą lub klastrowaniem danych, est przykładem analizy polegaące na szukaniu i wyodrębnieniu z danych skupień, czyli grup obiektów podobnych. Jest to metoda nieukierunkowana (unsupervised), to znaczy, że wszelkie związki i prawidłowości znadowane są tylko na postawie cech weściowych. Celem segmentaci est wydzielanie grup obserwaci podobnych, dalszym etapem może być szukanie cech charakterystycznych dla obserwaci wchodzących w skład dane grupy. W przeciwieństwie do klasyfikaci wzorcowe (analizy z nauczycielem), polegaące na przyporządkowywaniu przypadków do edne z określonych klas, tu klasy nie są znane ani w żaden sposób scharakteryzowane przed przystąpieniem do analizy. Jednak po scharakteryzowaniu wyodrębnionych skupień można w dalszym etapie badań klasyfikować nowe przypadki, przyporządkowuąc e do odpowiedniego skupienia. Pośrednio celem analizy skupień est także weryfikaca ednorodności danych. Jeśli można wyróżnić skupienia, wtedy oczywiście danych nie można uznać za ednorodne. Organizowanie obiektów w skupienia opiera się na szukaniu obserwaci podobnych. Aby móc porównywać obserwace między sobą, określać, na ile są one do siebie podobne, musimy wprowadzić miarę podobieństwa obserwaci. W przypadku zmiennych akościowych będą to tak zwane indeksy podobieństwa (np. indeks Russela i Rao, indeks Jaccarda, Copyright StatSoft Polska,

2 StatSoft Polska, tel. (1) 3, (1) 1151, indeks Sokala i Michnera), a w przypadku zmiennych ilościowych odległości (np. odległość euklidesowa, odległość Czebyszewa, odległość Manhattan). Są też specalne miary podobieństwa, które można stosować, gdy podczas analizy wykorzystuemy ednocześnie cechy o charakterze akościowym i ilościowym. Wyróżnia się dwa zasadnicze typy algorytmów grupowania danych: algorytmy hierarchiczne i algorytmy niehierarchiczne. Hierarchiczne metody aglomeracyne prowadzą do stworzenia tzw. hierarchii drzewkowe elementów analizowanego zbioru (dendrogramu). Na wstępie procedury przymue się, że każdy obiekt stanowi osobne skupienie, następnie krokowo łączy się w podzbiory podgrupy nabardzie do siebie podobne, aż do otrzymania ednego skupienia zawieraącego wszystkie obserwace. W ten sposób otrzymue się wynikową segmentacę, będącą uporządkowanym zestawieniem podziałów na segmenty. Hierarchiczne metody grupowania nie wymagaą wcześnieszego podania liczby skupień (na dendrogramach wyboru liczby skupień można dokonać na końcu analizy, przecinaąc go na odpowiednie wysokości, rys. 1), ale wymagaą duże mocy obliczeniowe. Dla zbiorów danych o znaczne wielkości obliczenia mogą zaąć dużo czasu lub wręcz być niewykonalne. 7 Diagram drzewa Metoda Warda 5 Odległość wiąz. 3 1 Var5 Var51 Var5 Var9 Var Var7 Var Var5 Var Var3 Var Var37 Var3 Var35 Var55 Var5 Var Var39 Var3 Var1 Var3 Var Var3 Var Var1 Var Var59 Var5 Var57 Var5 Var33 Var3 Var31 Var Var7 Var Var5 Var53 Var9 Var Var17 Var13 Var1 Var1 Var15 Var1 Var11 Var Var1 Var19 Var1 Var3 Var Var1 Var3 Var9 Var Var7 Var Var5 Var Var3 Var Var1 Rys. 1. Dendrogram Metody niehierarchiczne są szybkie, ale wymagaą wcześnieszego podania liczby skupień, do których dane maą zostać zakwalifikowane. Wybór liczby skupień ma duży wpływ na akość uzyskane segmentaci. Podanie zbyt duże liczby skupień może spowodować, że wyznaczone skupienia będą co prawda wewnętrznie ednorodne, ednak utrudniona będzie interpretaca uzyskanych wyników i stosowanie ich w praktyce. Z drugie strony, im mniesza liczba skupień, tym skupienia są mnie ednorodne wewnętrznie. Za wadę może być również uznane to, że wewnątrz skupień nie mamy żadnego porządku, a także fakt, że gdy zmienimy liczbę skupień, na przykład zwiększymy o 1, to skupienia utworzone w wyniku nowego podziału nie będą zawierać się we wcześnie uzyskanych. 7 Copyright StatSoft Polska 5

3 StatSoft Polska, tel. (1) 3, (1) 1151, W ninieszym artykule przede wszystkim skupimy się na ednym z algorytmów z grupy metod niehierarchicznych procedurze k-średnich. Jest to eden z napopularnieszych algorytmów analizy skupień. W następne części opiszemy algorytm k-średnich, a potem zastosuemy ego implementacę w systemie STATISTICA do segmentaci nowotworów na podstawie poziomu ekspresi genów. Zaprezentuemy rozwiązanie problemu segmentaci opartego na przykładzie z książki Hastie, Tibshirani, Friedman [1]. Algorytm k-średnich Standardowo algorytm k-średnich wymaga, aby wszystkie zmienne, użyte podczas analizy, były zmiennymi ilościowymi, a więc podobieństwo między obserwacami będzie mierzone za pomocą odległości. Implementaca algorytmu k-średnich w STATISTICA (Analiza skupień uogólnioną metodą k-średnich) pozwala na wykorzystanie podczas analizy również cech akościowych poprzez automatyczne przekształcenie ich w odpowiedni sposób. Algorytm ten polega na przenoszeniu obiektów ze skupienia do skupienia w celu zminimalizowania zmienności wewnątrz skupień i zmaksymalizowania zmienności między skupieniami. Zasada działania algorytmu k-średnich est następuąca koleno wykonuemy kroki: 1. Ustalamy liczbę skupień, liczba tych skupień oznaczana est literą k i stąd nazwa te metody.. Ustalamy wstępnie środki skupień. 3. Obliczamy odległości obiektów od środków skupień.. Przypisuemy obiekty do skupień dla danego obiektu porównuemy odległości do wszystkich środków skupień (obliczone w punkcie 3) i przypisuemy go do tego skupienia, do którego środka ma nabliże. 5. Ustalamy nowe środki skupień naczęście przymue się, że est to punkt, którego współrzędnymi są średnie arytmetyczne współrzędnych obiektów, które na danym etapie działania algorytmu należą do danego skupienia.. Jeśli w punkcie 5 przesunęliśmy środki skupień, to powtarzamy kroki 3,, 5, natomiast eśli nie, to algorytm zatrzymue się, a za ostateczną segmentacę przymuemy bieżący podział. Ilustraca te procedury znadue się także na diagramie na rys. (poniże). Jak zaznaczono powyże, przed przystąpieniem do analizy należy określić liczbę skupień, na którą chcemy dzielić interesuące nas obiekty. Aby ustalić optymalną liczbę skupień można skorzystać z szeregu metod ich wyznaczania (są one przedstawione np. w []). Metody te opiszemy w dalsze części artykułu. Copyright StatSoft Polska,

4 StatSoft Polska, tel. (1) 3, (1) 1151, Rys.. Algorytm k-średnich Dla akości uzyskanych wyników duży wpływ ma właśnie etap ustalania parametrów algorytmu, czyli kroki 1, oraz określenie, w aki sposób będzie obliczana odległość między obiektami. W przypadku zmiennych ilościowych naczęście stosue się odległość euklidesową. Odległość euklidesowa, tak ak inne podobne do nie miary odległości, ma ednak pewną wadę, może silnie podlegać wpływowi edne ze zmiennych, mianowicie te, które zakres wartości est nawiększy. Jeśli wartości te zmienne są znacznie większe od wartości innych zmiennych, wtedy o różnicy bądź podobieństwie między obserwacami będzie, w duże mierze, decydowała tylko ta edna zmienna (wynika to wprost z formuły, za pomocą które wyliczamy odległość euklidesową). Może to mieć miesce na przykład, gdy zmienne wyrażone są w różnych ednostkach lub reprezentuą różny rząd wielkości. Aby zapobiec takie sytuaci, stosue się normalizacę, czyli wartości każde ze zmiennych ( X ) przekształca w następuący sposób: X ( ) ' Min X X, Max( X ) Min( X ) gdzie Min ( X ), Max ( X ) oznaczaą odpowiednio namnieszą i nawiększą wartość zmienne X. Po takim zabiegu wszystkie zmienne przymuą wartości z tego samego przedziału [,1]. W niektórych przypadkach odchodzi się ednak od procedury Copyright StatSoft Polska 5

5 StatSoft Polska, tel. (1) 3, (1) 1151, normalizaci, szczególnie w sytuaci, gdy zmienne maą takie same zakresy wartości. Normalizaca może wtedy usunąć różnice między zmiennymi, podczas gdy mogą one nieść ważne informace (np. edna ze zmiennych może zawsze przymować tylko wartości uemne, mimo że wartości dodatnie też są dla nie dozwolone, przypominamy, że po normalizaci wszystkie zmienne maą wartości z przedziału [,1]). Z sytuacą taką będziemy mieć do czynienia w naszym przykładzie. W praktyce oczywiście nie ma edne uniwersalne metodyki, ednego uniwersalnego zestawu parametrów (liczby skupień, metody wyznaczania wstępnych centrów skupień, liczby iteraci, sposobu mierzenia podobieństwa między obserwacami) daącego nalepsze rezultaty dla każdego typu danych. W dalsze części omówimy niektóre aspekty ustalania tych parametrów w odniesieniu do konkretne analizy. Prezentaca rozwiązywanego problemu W ostatnich latach nastąpił ogromny przyrost danych pochodzących z eksperymentów medycznych i genetycznych. Spowodowane to est postępem w poznawaniu ludzkiego genomu (Human Genome Proect) oraz technologią mikromacierzy DNA. Mikromacierze umożliwiaą badanie w ednym eksperymencie wielu genów - ocenę, które z nich są czynne, a które wyłączone, i aki est poziom ich ekspresi. Pozwala to badać mechanizmy regulacyne żywe komórki, ednak wymaga specalnych narzędzi do analizy tak duże liczby danych. W naszym przykładzie będziemy właśnie analizować taki zbiór danych, gdzie zmiennymi są poziomy ekspresi genów. Do analizy takich danych wykorzystamy opisaną wcześnie analizę skupień. Zwykle pierwszym etapem analizy est wstępne zbadanie danych oraz określenie celów analizy. W naszym przypadku podczas badań pobrano próbki DNA od różnych pacentów z chorobą nowotworową. Dla każde próbki zbadano ekspresę wybranych 3 genów. Dane zestawione są w macierzy, w które każdy wiersz reprezentue próbkę (podae poziomy ekspresi genów dla dane próbki), natomiast w kolumnach mamy ekspresę poszczególnych genów. Ekspresa każdego genu charakteryzowana est przez liczbę rzeczywistą mierzącą poziom kwasu mrna obecnego w danym genie. Będziemy rozpatrywać związki między wierszami macierzy reprezentuące poziomy ekspresi poszczególnych genów. Każda z próbek ma dodatkowo etykietę mówiącą, z akie części organizmu została pobrana. Nie będziemy używać tych etykiet podczas nasze analizy, dopiero na koniec porównamy, czy próbki nowotworów tego samego rodzau trafiły do tych samych skupień. Oczywiście nie est to kryterium poprawności analizy, ponieważ nie mamy żadnych przesłanek, aby twierdzić, że próbki pobrane z tych samych tkanek maą tę samą ekspresę genów, a z różnych części - różną, aczkolwiek wydae się, że tak powinno być. Warto eszcze raz podkreślić, że wszystkie zmienne w naszym przykładzie maą wartości w zbiorze liczb rzeczywistych i dodatkowo maą taki sam potencalny zakres wartości, Copyright StatSoft Polska, 5 1

6 StatSoft Polska, tel. (1) 3, (1) 1151, dlatego też przed przystąpieniem do analizy nie będziemy wykonywać normalizaci zmiennych. Rys. 3. Arkusz danych ncidata.sta Na etapie zapoznawania się z danymi warto również sprawdzić, czy nie ma obserwaci odstaących, ponieważ wówczas podczas analizy skupień prawdopodobnie zostanie utworzone edno skupienie zawieraące tę obserwacę odstaącą, a wszystkie pozostałe przypadki mogą zostać zakwalifikowane do ednego skupienia. Co będzie celem nasze analizy? Przede wszystkim chcielibyśmy się dowiedzieć, czy istnieą akieś różnice pomiędzy nowotworami ze względu na poziom ekspresi genów, a eśli tak, to czy można e akoś scharakteryzować. Zależałoby nam również na tym, aby wyodrębnić ednorodne grupy nowotworów podobnych. Będziemy się starali pogrupować próbki, biorąc pod uwagę tylko poziomy ekspresi genów. Ponieważ mamy do dyspozyci bardzo dużo zmiennych, aż 3, interesowałoby nas więc także to, które z nich są naistotniesze, które maą nawiększy wpływ na uzyskany podział. Spróbuemy znaleźć te zmienne, po czym sprawdzimy, czy dla wybranego podzbioru zmiennych mamy podobne wyniki, czyli ocenimy, na ile dobry est wybrany podzbiór predyktorów. Do powyższych analiz użyemy metodę k-średnich. Analiza w środowisku STATISTICA Data Miner Do przeprowadzenia analizy możemy wybrać Grupowanie metodą k-średnich z modułu Wielowymiarowe techniki eksploracyne lub Analizę skupień uogólnioną metodą k-średnich z modułu Uogólniona analiza skupień. Podczas wykonywania analizy Copyright StatSoft Polska 5

7 StatSoft Polska, tel. (1) 3, (1) 1151, uogólnioną metodą k-średnich we wstępne fazie wykonywana est normalizaca zmiennych, toteż z powodów opisanych wcześnie wybierzemy zwykłe Grupowanie metodą k-średnich. Po wykonaniu segmentaci postaramy się znaleźć te zmienne, które miały nawiększy wpływ na przeprowadzony podział. Wybierzemy 5 nalepszych predyktorów. Do tego celu użyemy modułu Dobór zmiennych i analiza przyczyn, a następnie zobaczymy, aki podział uzyskamy, używaąc tylko tych wybranych zmiennych. Tak więc plan nasze analizy to: analiza skupień na całości danych (I), potem wybór nalepszych predyktorów (II), a następnie analiza skupień dla nich (III). Wszystkie analizy przeprowadzimy w przestrzeni robocze STATISTICA Data Miner, dzięki czemu w ednym proekcie otrzymamy wszystkie wyniki. Dodatkowo widzimy i możemy kontrolować przebieg wszystkich analiz nawet w bardzo złożonym proekcie, wygodnie dodawać nowe metody oraz zmieniać dane weściowe. Rys.. Przestrzeń robocza programu STATISTICA Data Miner Aby rozpocząć analizę, wybieramy opcę Data Miner Wszystkie procedury z menu Statystyka Data-Mining. Na ekranie poawi się przestrzeń robocza programu STATISTICA Data Miner. Za pomocą przycisku Źródło danych wybieramy dane weściowe, a za pomocą Przeglądarki węzłów wybieramy odpowiednie procedury. Każda procedura przetwarzaąca dane reprezentowana est przez ikonę (tzw. węzeł). Przepływ danych obrazuą strzałki łączące poszczególne węzły. Niektóre analizy ako wyniki zwracaą, prócz skoroszytu wyników, także arkusze danych, które można dale przekształcać. Węzły zaproektowane są tak, aby dane wypływaące z ednego z węzłów Copyright StatSoft Polska, 5 3

8 StatSoft Polska, tel. (1) 3, (1) 1151, mogły stanowić weście dla innych węzłów. Zapewnia to możliwość składania proektu analizy z poszczególnych elementów. Buduąc proekt, w przeglądarce węzłów zaznaczamy odpowiedni węzeł i wstawiamy go do przestrzeni robocze (przycisk Wstaw), łącząc go z odpowiednim arkuszem danych. Na koniec klikamy przycisk Uruchom na pasku narzędzi przestrzeni robocze, aby uruchomić proekt. Dodatkową zaletą programu STATISTICA Data Miner est to, że każdy węzeł można zmodyfikować. Klikaąc na odpowiednim węźle, można podglądnąć i edytować ego kod napisany w ęzyku STATISTICA Visual Basic (est to ęzyk Visual Basic wzbogacony o procedury statystyczne). W naszym przykładzie niektóre węzły również zostały nieznacznie zmodyfikowane. Grupowanie metodą k-średnich Aby przeprowadzić zaplanowaną analizę, do przestrzeni robocze wstawiamy plik danych ncidata.sta. Następnie z Przeglądarki węzłów wybieramy węzeł: Grupowanie metodą k-średnich. Wykonuąc analizę metodą k-średnich, musimy ustalić kilka ważnych parametrów te analizy, ak zostało to zaznaczone w opisie tego algorytmu. Ustalamy zmienne, których będziemy używać do analizy, ustalamy liczbę skupień, wstępne ich centra, sposób mierzenia odległości między grupowanymi obiektami oraz liczbę iteraci, aką wykona algorytm. Wybór zmiennych Analizę rozpoczniemy od zbudowania modelu przy użyciu wszystkich zmiennych. Rys. 5. Karta wyboru parametrów algorytmu w Grupowaniu metodą k-średnich Copyright StatSoft Polska 5

9 StatSoft Polska, tel. (1) 3, (1) 1151, W oknie wyboru zmiennych, w naszym arkuszu danych podłączonym do węzła Grupowanie metodą k-średnich, zaznaczamy wszystkie 3 zmienne. Przechodzimy na kartę Edytu parametry procedury k-średnich (rys. 5). Wybieramy opcę grupowania danych przypadkami i przechodzimy do edyci pozostałych parametrów: Wybór liczby skupień Wybór liczby skupień może być dokonany na wiele sposobów. Jedną z metod est po prostu umowne ustalenie liczby skupień i ewentualna późniesza zmiana te liczby, w taki sposób, aby otrzymać lepsze wyniki. Wstępne ustalenie liczby skupień może być oparte na wynikach innych analiz. Metodą proponowaną przez Guidiciego [] est przeprowadzenie wstępne analizy za pomocą metody hierarchiczne, oszacowanie za e pomocą liczby skupień, a następnie dla tak wybrane liczby skupień wykonanie uż analizy metodą niehierarchiczną, czyli na przykład właśnie metodą k-średnich. Metody hierarchiczne są ednak ograniczone. Przy zbyt duże liczbie danych wstępna ocena liczby skupień wykonywana est na podzbiorze danych, co est niewątpliwie pewną niedogodnością. Alternatywnym podeściem w te sytuaci est przeprowadzenie napierw analizy niehierarchiczne i stworzenie duże liczby skupień, a potem dalsze grupowanie za pomocą metody hierarchiczne, przy uwzględnieniu odległości i liczności skupień. W tym przypadku, wstępnie przeprowadzone grupowanie metodą k-średnich ma na celu zredukowanie liczby danych (w drugie części analizy grupuemy uż tylko skupienia, nie biorąc pod uwagę ich poszczególnych elementów). Podczas korzystania z modułu Uogólniona analiza skupień metodą k-średnich można skorzystać ze sprawdzianu krzyżowego do oceny liczby skupień. Wydae się to być nalepsza metoda wyboru liczby skupień. Nie ma w tym przypadku ingerenci w analizę (brak założeń a priori o liczbie skupień), problemów z wyborem podzbioru danych, ani w żaden sposób nie esteśmy także ograniczeni, co est istotne, liczbą danych. Algorytm ten dzieli zbiór weściowy koleno na coraz większą liczbę segmentów, a następnie sprawdza, aka est precyza podziału dla każdego z nich. Dla metody k-średnich miarą precyzi podziału est przeciętna odległość elementów zbioru weściowego od środka segmentu, w akim się znaduą. Wyniki sprawdzianu krzyżowego ilustrowane są na tak zwanym wykresie osypiska (rys. ). Analizuąc wykres, można zauważyć znaczną poprawę precyzi podziału przy zwiększeniu liczby segmentów z dwóch do trzech. Dodaąc eszcze eden segment, uzyskue się uż znacznie mnieszą poprawę precyzi, stąd za optymalną liczbę segmentów należy uznać trzy. Program STATISTICA automatycznie określa nabardzie odpowiednią liczbę skupień. Copyright StatSoft Polska, 5 5

10 StatSoft Polska, tel. (1) 3, (1) 1151, 9 Wykres sekwenci kosztów Optymalna liczba skupień: 3 k-średnich 9 Koszt Liczba skupień Rys.. Przykładowy wykres osypiska W naszym przykładzie, tak ak to est również w pracy [1], będziemy dzielić interesuące nas obserwace na 3 skupienia. Wybór wstępnych centrów skupień Do wyboru mamy trzy możliwości: Wybierz obserwace tak, by zmaksymalizować odległości skupień. Sortu odległości i weź obserwace przy stałym interwale. Wybierz pierwszych N (liczba skupień) obserwaci. Wybieramy domyślną opcę wyznaczenia ako początkowych centrów skupień obiektów przy stałych interwałach. W Analizie skupień uogólnioną metodą k-średnich mamy dodatkowo Losowy wybór N obserwaci. Jedną z zalecanych metod est sprawdzenie i porównanie wyników z kilkakrotnie przeprowadzone analizy, gdy wstępne centra wybierane były w sposób losowy, i wybranie nalepszego modelu. Zapobiega to trafieniu w lokalne minimum, przy minimalizowaniu wewnętrzne warianci w skupieniach, podczas procesu doboru obserwaci do skupień. Wybór odległości Domyślnie w Grupowaniu metodą k-średnich mamy przeskalowaną odległość euklidesową. Odległość między dwoma obiektami lub centrami skupień X i i X obliczana est na podstawie wzoru M 1 D( i, ) ( X ik X k ), M k 1 gdzie M to liczba zmiennych (wymiar przestrzeni). Copyright StatSoft Polska 5

11 StatSoft Polska, tel. (1) 3, (1) 1151, W Analizie skupień uogólnioną metodą k-średnich dodatkowo można wybrać inną odległość. Do wyboru mamy edną z następuących odległości: odległość euklidesowa, kwadrat odległości euklidesowe, odległość Manhattan, odległość Czebyszewa. Ile iteraci Ostatnim parametrem, aki należy ustalić, est określenie liczby iteraci wykonanych podczas analizy. Jak zaznaczono powyże warunkiem zatrzymania algorytmu est brak przesunięcia obiektów pomiędzy skupieniami. Jeśli ednak algorytm wykona zadaną przez ten parametr liczbę iteraci, to proces analizy zostanie zatrzymany, nawet eśli powyższy warunek zatrzymania procedury nie zostanie spełniony. Zostawiamy domyślną wartość tego parametru, mianowicie. Rys. 7. Skoroszyt wyników Grupowania metodą k-średnich Po określeniu wszystkich parametrów klikamy przycisk Uruchom na pasku narzędzi przestrzeni robocze, aby rozpocząć analizę. Wynikiem analizy est skoroszyt arkuszy (rys. 7) zawieraących: elementy każdego skupienia arkusz pokazuący, do akich skupień zakwalifikowane zostały poszczególne przypadki, średnie skupień, średnie dla każdego skupienia zestawione na ednym wykresie, statystyki opisowe dla wszystkich skupień mogą być użyteczne do scharakteryzowania skupień i opisu ich własności, odległości euklidesowe między skupieniami zestawione w macierzy odległości, Copyright StatSoft Polska, 5 7

12 StatSoft Polska, tel. (1) 3, (1) 1151, analiza warianci koleno dla każde zmienne, porównuemy ze sobą e średnie we wszystkich segmentach, im istotniesze różnice między średnimi (mniesza wartość p), tym dana zmienna bardzie różnicue skupienia. Analizuąc otrzymane wyniki, możemy stwierdzić, że otrzymaliśmy podział na trzy skupienia o licznościach odpowiednio 9, 1, 3. Teraz postaramy się znaleźć te zmienne, które miały nawiększy wpływ na uzyskany podział. Poszukiwanie nalepszych predyktorów Wynikiem poprzednio zastosowanego węzła był także arkusz zawieraący dane weściowe oraz dodatkową kolumnę, mianowicie wynikową segmentacę. Każdemu przypadkowi została przyporządkowana liczba 1, lub 3 mówiąca, do którego skupienia dany przypadek został zakwalifikowany. Teraz do tego arkusza dołączamy węzeł: Dobór zmiennych i analiza przyczyn. Rys.. Karta wyboru parametrów w węźle Dobór zmiennych i analiza przyczyn Podczas analizy wybierane są te zmienne, które wpływaą na badaną cechę, w naszym przypadku numer skupienia (1,, 3), do którego dany przypadek trafił. Zmienna zależna w naszym przykładzie ma charakter akościowy, program oblicza więc statystykę χ (chi-kwadrat) oraz wartość p dla każdego predyktora. W przypadku predyktorów ilościowych zakres wartości predyktora, poziom ekspresi poszczególnych genów, dzielony est na k przedziałów (domyślnie 1). Gdyby występowały dodatkowo predyktory akościowe, nie byłyby one przekształcane w żaden sposób. Na karcie doboru parametrów tego węzła ustalamy, prócz liczby cięć, ile zmiennych ma być wybranych (my wybieramy 5) oraz Copyright StatSoft Polska 5

13 StatSoft Polska, tel. (1) 3, (1) 1151, poziom p dla doboru tych zmiennych. Wynikiem est arkusz, w którym wybranych est uż 5 nalepszych predyktorów. Rys. 9. Okno wyboru zmiennych dla wynikowego arkusza danych węzła Dobór zmiennych i analiza przyczyn Taki arkusz z wybranymi zmiennymi est gotowy do dalszych analiz. Przeprowadzamy na nim analizę skupień metodą k-średnich, z parametrami ustawionymi ak poprzednio. Otrzymuemy w ten sposób segmentacę opartą na 5 zmiennych. Otrzymaliśmy skupienia o licznościach 9, 19, 3. Przy porównaniu elementów skupień okazue się, że tylko dwie obserwace zostały przydzielone do innych skupień w porównaniu z analizą na całości danych (rys. 1). Zatem nowy podział na skupienia niemalże pokrywa się z tym uzyskanym, gdy bierzemy pod uwagę wszystkie zmienne. Wyniki segmentaci na ogół weryfikue się poprzez porównywanie wartości średnich wartości cech w skupieniach. Na rys. 11 w górne części ze względu na liczbę zmiennych trudno est dostrzec akieś prawidłowości, natomiast na dole widać, że średnie w wydzielonych skupieniach różnią się między sobą znacznie. Z wykresu średnich każdego skupienia dla wszystkich zmiennych trudno wyciągnąć akieś wnioski, natomiast gdy rozpatruemy tylko 5 zmiennych, można uż zauważyć, w aki sposób poziom ekspresi pewnego genu determinue przydział do danego skupienia. Copyright StatSoft Polska, 5 9

14 StatSoft Polska, tel. (1) 3, (1) 1151, Liczba obserwaci numer skupienia Wyniki Wyniki5 Rys. 1. Wykres liczności każdego skupienia w przypadku analizy dla wszystkich zmiennych (po lewe) i dla 5 nalepszych predyktorów Wykres średnich każdego skupienia dla wszystkich zmiennych Skupien. 1 Skupien. dla 5 nalepszych predyktorów Skupien Rys. 11 Wykres średnich każdego skupienia dla wszystkich zmiennych (na górze) i dla 5 nalepszych predyktorów 9 Copyright StatSoft Polska 5

15 StatSoft Polska, tel. (1) 3, (1) 1151, Omówienie wyników Hipotezę sformułowaną we wcześniesze części pracy, że wydzielone skupienia będą pokrywać się z podziałem na rodzae nowotworów, których to próbki analizowaliśmy, wydae się być prawdziwa, ponieważ prawie wszystkie próbki nowotworów tego samego rodzau znalazły się w tych samych skupieniach. Rys. 1. Porównanie wyników segmentaci z rodzaem nowotworu (dla modelu wykorzystuącego wszystkie zmienne) CNS RENAL BREATS MELANOMA NSCLC UNKNOWN OVARIAN MCF7D-repro PROSTATE LEUKEMIA K5B-repro K5A-repro COLON MCF7A-repro 1 1 Wyniki Wyniki5 1 Rys. 13. Zestawianie wyników dla wszystkich i 5 nalepszych predyktorów Copyright StatSoft Polska,

16 StatSoft Polska, tel. (1) 3, (1) 1151, Jedynie poedyncze przypadki nowotworów BREAST, MELANOMA, NSCLC zostały rozrzucone po skupieniach (por. rys. 1 oraz rys. 13). Jakość wyboru 5 nalepszych predyktorów została zweryfikowana koleną analizą skupień. Okazało się, że ograniczenie liczby zmiennych z 3 do 5 nie zaburza wcześniesze segmentaci. Grupy utworzone podczas analizy skupień na zredukowanych danych maą, poza dwoma wyątkami, dokładnie taki sam skład. Wynikami nasze analizy są więc ednorodne skupienia, dzielące weściowe dane ze względu na poziom ekspresi genów. Widzimy, że podział ten ma związek z rodzaem nowotworu, w kolenym kroku badacz może charakteryzować poszczególne skupienia ze względu na różne cechy (np. diagnozę, leczenie). Przyporządkowywanie do skupień nowych przypadków może odbywać się uż na podstawie poziomów ekspresi zaledwie 5 genów. Oczywiście te same analizy można przeprowadzić również innymi metodami, na przykład za pomocą drzew hierarchicznych, analizy skupień metodą EM lub sieci Kohonena. Uzyskane wyniki mogą pomóc w zbudowaniu nalepszego modelu. Podsumowanie Analiza skupień wydae się być nieodzownym narzędziem wszędzie tam, gdzie mamy do czynienia z ogromnymi ilościami danych, w których nie widać akiekolwiek struktury, a analizowanie poedynczych przypadków traci sens. Oczywiście może to mieć miesce ak w opisanym przykładzie w medycynie, ale także w innych dziedzinach badań. Analizę skupień z powodzeniem wykorzystue się na przykład w wyodrębnianiu segmentów rynku w badaniach marketingowych, wzorców pogody w meteorologii, ścieżek zakupów w analizie zachowań klientów, wzorców zachowań użytkowników serwisów internetowych itd. Literatura 1. T. Hastie, R. Tibshirani, J. Friedman, The Elements of Statistical Learning Data Mining, Inference, and Prediction, Springer.. Guidici P., Applied Data Mining - Statistical Methods for Business and Industry, John Wiley & Sons, Inc, Copyright StatSoft Polska 5