Globalne zależności w klastrowaniu hierarchicznym

Podobne dokumenty
Przestrzeń algorytmów klastrowania

Elementy statystyki wielowymiarowej

CLUSTERING. Metody grupowania danych

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Sieci Kohonena Grupowanie

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Zaawansowane metody numeryczne

Stosowana Analiza Regresji

Wstęp do komputerów kwantowych

Filogeneza: problem konstrukcji grafu (drzewa) zależności pomiędzy gatunkami.

Przykładowe zadania na egzamin z matematyki - dr Anita Tlałka - 1

Wyszukiwanie informacji w internecie. Nguyen Hung Son

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Prawdopodobieństwo i statystyka

Zaawansowane metody numeryczne

Znajdowanie skojarzeń na maszynie równoległej

CLUSTERING II. Efektywne metody grupowania danych

Rozkłady wielu zmiennych

Robert Susmaga. Instytut Informatyki ul. Piotrowo 2 Poznań

TEORETYCZNE PODSTAWY INFORMATYKI

Metoda największej wiarygodności

Ważne rozkłady i twierdzenia c.d.

Statystyka i eksploracja danych

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

Ocena ilościowa ryzyka: analiza drzewa błędu (konsekwencji) Zajęcia 6. dr inż. Piotr T. Mitkowski.

< K (2) = ( Adams, John ), P (2) = adres bloku 2 > < K (1) = ( Aaron, Ed ), P (1) = adres bloku 1 >

6.4 Podstawowe metody statystyczne

Mechanika kwantowa. Jak opisać atom wodoru? Jak opisać inne cząsteczki?

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

Obliczenia iteracyjne

Analiza korespondencji

Algorytm grupowania danych typu kwantyzacji wektorów

Postać Jordana macierzy

Algorytmy i Struktury Danych, 2. ćwiczenia

Drzewa. Jeżeli graf G jest lasem, który ma n wierzchołków i k składowych, to G ma n k krawędzi. Własności drzew

WEKTORY I WARTOŚCI WŁASNE MACIERZY. = λ c (*) problem przybliżonego rozwiązania zagadnienia własnego dla operatorów w mechanice kwantowej

Aby przygotować się do kolokwiów oraz do egzaminów należy ponownie przeanalizować zadania

5. Analiza dyskryminacyjna: FLD, LDA, QDA

Rozwiazywanie układów równań liniowych. Ax = b

Optymalizacja ciągła

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Metody Obliczeniowe w Nauce i Technice

III. ZMIENNE LOSOWE JEDNOWYMIAROWE

Systemy uczące się Lab 4

Metody rozwiązania równania Schrödingera

PODSTAWY AUTOMATYKI. MATLAB - komputerowe środowisko obliczeń naukowoinżynierskich - podstawowe operacje na liczbach i macierzach.

TEORETYCZNE PODSTAWY INFORMATYKI

RACHUNEK PRAWDOPODOBIEŃSTWA WYKŁAD 3.


Rachunek różniczkowy i całkowy w przestrzeniach R n

Wykład 12 i 13 Macierz w postaci kanonicznej Jordana , 0 A 2

Janusz Adamowski METODY OBLICZENIOWE FIZYKI Kwantowa wariacyjna metoda Monte Carlo. Problem własny dla stanu podstawowego układu N cząstek

IX. MECHANIKA (FIZYKA) KWANTOWA

Lokalna odwracalność odwzorowań, odwzorowania uwikłane

Teoretyczne podstawy programowania liniowego

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

Wstęp do programowania INP001213Wcl rok akademicki 2017/18 semestr zimowy. Wykład 8. Karol Tarnowski A-1 p.

Wstęp do programowania INP001213Wcl rok akademicki 2018/19 semestr zimowy. Wykład 8. Karol Tarnowski A-1 p.

RÓWNANIE SCHRÖDINGERA NIEZALEŻNE OD CZASU

Procesy stochastyczne

Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Spacery losowe generowanie realizacji procesu losowego

Metody Numeryczne Optymalizacja. Wojciech Szewczuk

Skalowanie wielowymiarowe idea

1 Wprowadzenie do algorytmiki

Wady klasycznych modeli input - output

Rozdział 1. Zmienne losowe, ich rozkłady i charakterystyki. 1.1 Definicja zmiennej losowej

1 Macierze i wyznaczniki

cx cx 1,cx 2,cx 3,...,cx n. Przykład 4, 5

Transformaty. Kodowanie transformujace

W poszukiwaniu sensu w świecie widzialnym

Zaawansowane metody numeryczne

Procesy stochastyczne

Zadania egzaminacyjne

28 maja, Problem Dirichleta, proces Wienera. Procesy Stochastyczne, wykład 14, T. Byczkowski, Procesy Stochastyczne, PPT, Matematyka MAP1126

II. POSTULATY MECHANIKI KWANTOWEJ W JĘZYKU WEKTORÓW STANU. Janusz Adamowski

1. Zbadać liniową niezależność funkcji x, 1, x, x 2 w przestrzeni liniowej funkcji ciągłych na przedziale [ 1, ).

φ(x 1,..., x n ) = a i x 2 i +

W4 Eksperyment niezawodnościowy

Macierze. Rozdział Działania na macierzach

Teoria Informacji - wykład. Kodowanie wiadomości

Wykład 10 Skalowanie wielowymiarowe

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

a) 7 b) 19 c) 21 d) 34

Porównanie szeregów czasowych z wykorzystaniem algorytmu DTW

POSTULATY MECHANIKI KWANTOWEJ cd i formalizm matematyczny

Analiza składowych głównych. Wprowadzenie

Metody Numeryczne w Budowie Samolotów/Śmigłowców Wykład I

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

1 Unitarność Postac Cayley a operatora ewolucji Metody stabilne, unitarne i jawne Równanie dyfuzji Więcej wymiarów...

Ćwiczenia 7 - Zmienna losowa i jej rozkład. Parametry rozkładu.

Data Mining Wykład 4. Plan wykładu

Transkrypt:

23 listopada 2008

Plan prezentacji 1 Praca źródłowa Metody Bottom-Up i Top-Down 2 Schemat algorytmu TDQC Preprocessing Algorytm Quantum Clustering 3 Zbiory danych Kryteria porównywania wyników Eksperymenty

Praca źródłowa Praca źródłowa Metody Bottom-Up i Top-Down Global Considerations in Hierarchical Clustering Reveal Meaningful Patterns in Data Roy Varshavsky (1), David Horn (2), Michal Linial (3) 1 School of Computer Science and Engineering, The Hebrew University of Jerusalem, Israel 2 School of Physics and Astronomy, Tel Aviv University, Israel 3 Department of Biological Chemistry, Institute of Life Sciences, The Hebrew University of Jerusalem, Israel

Dlaczego klastrować hierarchicznie? Praca źródłowa Metody Bottom-Up i Top-Down Dla wielu zagadnień ewolucyjnych podejście hierarchiczne jest naturalne Wynikiem klastrowania hierarchicznego jest drzewo, wygodne w analizie eksperckiej Rysunek: Przykładowe wyniki klastrowania uzyskane metodą hierarchiczną i algorytmem k-średnich

Bottom-Up vs Top-Down Praca źródłowa Metody Bottom-Up i Top-Down Metody klastrowania hierarchicznego możemy podzielić na 2 rodziny: Bottom-Up oraz Top-Down Algorytmy z rodziny Bottom-Up są zdecydowanie bardziej popularne niż Top-Down: na 86 publikacji, których wykorzystywano klastrowanie hierarchiczne, tylko 3 wykorzystywały podejście Top-Down. Prawdopodobne przyczyny: Większa intuicyjność podejścia Bottom-Up Większa dostępność wśród gotowych pakietów oprogramowania

Przykłady Top-Down I Praca źródłowa Metody Bottom-Up i Top-Down Bisecting K-Means algorithm Polega na iteracyjnym dzieleniu zbiorów przy pomocy algorytmu K-Średnich (k=2), ma typowe wady algorytmu k-średnich, takie jak tworzenie sferycznych klastów, oraz zależność od warunków początkowych.

Przykłady Top-Down II Praca źródłowa Metody Bottom-Up i Top-Down Principal Direction Divisive Partitioning (PDDP) Bazuje na iteracyjnym podziale zbioru przykładów w zależności od znaku ich rzutu na pierwszą składową główną. Pierwszą składową główną możemy definiować jako: w 1 = argmax var(w T x) w =1 Niech c - centroid, gdzie c = 1 Ni=1 N x i Definiujemy podział zbioru na 2 klastry M L i M R : x { ML w T 1 M R w T 1 (x c) 0 (x c) < 0 Algorytm PDDP zazwyczaj osiąga lepsze wyniki oraz jest stabilniejszy, w pracy posłużył do porównywania.

Podział K-means i PDDP Praca źródłowa Metody Bottom-Up i Top-Down Rysunek: Podział zbioru na 2 klastry metodami K-means i PDDP

Algorytm Schemat algorytmu TDQC Preprocessing Algorytm Quantum Clustering 1 Zdefinuj oryginalny zbiór danych (Liczba zbiorów =1) 2 [Opcjonalnie] Przeprowadź preprocessing dla każdego zbioru 3 Uruchom algorytm QC (Quantum Clustering) dla każdego zbioru 4 Podziel każdy zbiór na 2 zawierające: Przykłady należące do klastru zawierającego globalne minimum funkcji V (o tym za chwilę) Pozostałe 5 Rekurencyjnie skocz do 2 dla każdego zbioru zawierającego więcej niz 2 przykłady

Metoda SVD Schemat algorytmu TDQC Preprocessing Algorytm Quantum Clustering Twierdzenie Każdą macierz rzeczywistą M o wymiarach m na n można przedstawić w postaci rozkładu SVD: gdzie: M = UΣV T U i V - macierze ortonormalne, tzn U 1 = U T Σ - macierz diagonalna, taka że Σ = diag(σ i ), gdzie σ i to wartości nieujemne uporządkowane malejąco

Metoda SVD Schemat algorytmu TDQC Preprocessing Algorytm Quantum Clustering Zastosowanie Metodę SVD stosuje sie w celu redukcji liczby wymiarów, oraz uzyskania danych wolnych od hałasu. Macierz danych X = UΣV T redukujemy poprzez wyzerowanie diagonali macierzy Σ dla indeksów i > r: X r = UΣ r V T Trundność polega na rozsądnym wybraniu r, na ogół szuka się kolanka na wykresie sumarycznego udziału kolejnych wartosci własnych f (r) = r i=1 σ i.

Teoria Schemat algorytmu TDQC Preprocessing Algorytm Quantum Clustering Gęstość rozkładu prawdopodobieństwa Konstruujemy gęstość prawdopodobieństwa pojawienia się cząstki y w d-wymiarowej przestrzeni: ψ(y) = n i=1 e y x i 2 2σ 2 Maksima funkcji ψ odpowiadają centrom klastrów. Równanie Schrödingera Równanie Schrödingera w postaci niezależnej od czasu: Hψ = ( σ2 + V (y))ψ(y) = Eψ(y) 2 gdzie to operator Laplace a

Teoria II Schemat algorytmu TDQC Preprocessing Algorytm Quantum Clustering Funkcja potencjału V Wyznaczamy funkcję V, będącą potencjałem Schrödingera. V (y) = E + σ 2 2 ψ(y) = E d ψ(y) 2 + 1 2σ 2 ψ(y) n (y x i ) 2 e y x i 2σ 2 i=1 2 σ 2 2 Definiujemy V jednoznacznie zadając E = min ψ(y) y ψ(y). Przykład: n = 1 V (y) = E d/2 + 1 2σ 2 (y x 1) 2 Funkcja kwadratowa, która minimum osiąga dla y = x 1.

Obrazki Schemat algorytmu TDQC Preprocessing Algorytm Quantum Clustering Rysunek: Wykresy funkcji ψ oraz odpowiadającej jej funkcji potencjału Schrödingera V

Wykorzystanie Schemat algorytmu TDQC Preprocessing Algorytm Quantum Clustering 1 Wejście: Dane po zastosowaniu SVD (r=2) 2 Rzutujemy dane na przestrzeń jednowymiarową, licząc odległości między obserwacjami przy pomocy funkcji cos: d(x 1, x 2 ) = 1 cos(φ 1, φ 2 ). 3 Wyznaczmy funkcję potencjału Schrödingera algorytmem QC. 4 Wyjście: Podział zbioru na 2 na klastry, jak na rysunku poniżej:

Zbiory danych Zbiory danych Kryteria porównywania wyników Eksperymenty Cell Cycle genes 798 genów zidentyfikowanych jako regulujące cykl komórkowy drożdży piekarniczych (yeast saccharomyces cerevisiae), podzielone na 5 klas w zależnosci od fazy cyklu, która jest przez nie regulowana(oznaczone przez M/G1, G1, S, G2 i M), ekspresję genów zbadano w 72 momentach cyklu. Rysunek: Cykl komórkowy

Zbiory danych II Zbiory danych Kryteria porównywania wyników Eksperymenty Leukemia patients Eksperyment wskazał 72 pacjentów z 2 typami białaczki ALL i AML, ALL podzielono na 2 rodziaje: T-cell i B-cell, zbiór AML został podzielony na pacjentów, ktorzy przeszli leczenie i nie. Dla każdego pacjenta została zarejestrowana ekspresja 7129 genów. Zadanie klastrowania polega na znalezieniu 4 rodzajów raka w zbiorze 72 pacjentów. Rysunek: Wspólczynnik przeżywalności dla białaczki

Zbiory danych III Zbiory danych Kryteria porównywania wyników Eksperymenty Standard and Poor Zbiór danych firmy Standard and Poor (S&P), która zawiera dzień po dniu zmiany w cenie akcji w czasie 273 dni targowych. 487 akcji zostało podzielone na 10 klas. Ion Channel proteins Dane zostały pobrane z bazy SwissProt. Dla 614 białek uruchomiono BLAST każdy z każdym, otrzymano macierz odległości. 518 z tych białek zostało odnalezione w bazie InterPro. Na podstawie informacji z InterPro ze zbiorem bialek zostały skojarzone 3 poziomy szczegółowości: 3, 11, 19 klastrów.

Kryteria I Zbiory danych Kryteria porównywania wyników Eksperymenty Zakładamy, że posiadamy wiedzę ekspercką na temat wszystkich obserwacji. Node Score P-wartość zaobserowanego przypisania k obiektów do klasy zawierającej n elementów dana jest wzorem: ( n K )( N K ) x n x P = ( N x=k n) gdzie: N - ilość wszystkich obserwacji, K - ilość obserwacji w rozpatrywanym zbiorze.

Kryteria II Zbiory danych Kryteria porównywania wyników Eksperymenty Level Score Poziom nr l w drzewie zawiera wszystkie wierzchołki oddzielone l krawędziami od korzenia. Dla każdego wierzchołka na danym poziomie wyznaczono punkty Jaccarda: J = TP TP + FN + FP Punkty level score, zostały zdefiniowane jako średnia punktów Jaccarda ze wszystkich wierzchołków na danym poziomie.

Kryteria III Zbiory danych Kryteria porównywania wyników Eksperymenty Tree Score Zdefiniowano miarę ważoną best-j-score: J = 1 N C n i Ji i gdzie: J i to najlepsza wartość punktów Jaccarda, dla klasy i, C-ilość klas, n i ilość przykładów należących do klasy i, oraz N - ilość wszystkich klas.

Eksperyment 1 Zbiory danych Kryteria porównywania wyników Eksperymenty Rysunek: Porównanie drzew dla zestawu Cell cycle genes, dla BU-Average(A) oraz TDQC(B)

Eksperyment 2 Zbiory danych Kryteria porównywania wyników Eksperymenty Rysunek: Porównanie algorytmów metodą tree-score

Eksperyment 3 Zbiory danych Kryteria porównywania wyników Eksperymenty Porównanie zrównoważenia drzew uzyskiwanych przez różne algorytmy zastosowane do 4 zbiorów danych. Miara zrównoważenia drzewa: D log 2N N log 2 N