Taksonomia numeryczna co to jest?

Podobne dokumenty
Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

TEORIA GRAFÓW I SIECI

Grupowanie danych. Wprowadzenie. Przykłady

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

Matematyczne Podstawy Informatyki

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

46 Olimpiada Biologiczna

Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin. Henryk Bujak

Hierarchiczna analiza skupień

Wstęp do przestrzeni metrycznych i topologicznych oraz ich zastosowań w ekonomii

46 Olimpiada Biologiczna

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

Rozważmy funkcję f : X Y. Dla dowolnego zbioru A X określamy. Dla dowolnego zbioru B Y określamy jego przeciwobraz:

Algorytmy grafowe. Wykład 1 Podstawy teorii grafów Reprezentacje grafów. Tomasz Tyksiński CDV

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

Relacje. opracował Maciej Grzesiak. 17 października 2011

Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II

Korelacja krzywoliniowa i współzależność cech niemierzalnych

STATYSTYKA I DOŚWIADCZALNICTWO

Wykład 5. Metoda eliminacji Gaussa

STATYSTYKA I DOŚWIADCZALNICTWO

10. Kolorowanie wierzchołków grafu

Metodologia badań psychologicznych

dr Mariusz Grządziel 15,29 kwietnia 2014 Przestrzeń R k R k = R R... R k razy Elementy R k wektory;

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

5. Algebra działania, grupy, grupy permutacji, pierścienie, ciała, pierścień wielomianów.

5. Rozwiązywanie układów równań liniowych

Graficzna prezentacja danych statystycznych

Co to jest grupowanie

WYMAGANIA KONIECZNE - OCENA DOPUSZCZAJĄCA:

Operacjonalizacja zmiennych

Analiza współzależności zjawisk

Pokazać, że wyżej zdefiniowana struktura algebraiczna jest przestrzenią wektorową nad ciałem

Przypomnienie: Ćwiczenie 1.

Programowanie Współbieżne. Algorytmy

Programowanie liniowe

PRÓBNY EGZAMIN MATURALNY

a 11 a a 1n a 21 a a 2n... a m1 a m2... a mn x 1 x 2... x m ...

WYMAGANIA EDUKACYJNE Z MATEMATYKI DLA KLASY TRZECIEJ NA ROK SZKOLNY 2011/2012 DO PROGRAMU MATEMATYKA Z PLUSEM

FUNKCJE. Rozwiązywanie zadań Ćw. 1-3 a) b) str Ćw. 5 i 6 str. 141 dodatkowo podaj przeciwdziedzinę.

Matematyka stosowana i metody numeryczne

UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH

Agnieszka Nowak Brzezińska

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Eksploracja danych. Grupowanie wykład 1

Wykład 6. Metoda eliminacji Gaussa: Eliminacja z wyborem częściowym Eliminacja z wyborem pełnym

Reprezentacje grafów nieskierowanych Reprezentacje grafów skierowanych. Wykład 2. Reprezentacja komputerowa grafów

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Wykład ze statystyki. Maciej Wolny

Zygmunt Wróbel i Robert Koprowski. Praktyka przetwarzania obrazów w programie Matlab

Macierze. Rozdział Działania na macierzach

Algorytm. Krótka historia algorytmów

1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:

Wymagania edukacyjne z matematyki dla klasy I gimnazjum wg programu Matematyka z plusem

Zał nr 4 do ZW. Dla grupy kursów zaznaczyć kurs końcowy. Liczba punktów ECTS charakterze praktycznym (P)

(x j x)(y j ȳ) r xy =

Met Me ody numer yczne Wykład ykład Dr inż. Mic hał ha Łanc Łan zon Instyt Ins ut Elektr Elektr echn iki echn i Elektrot Elektr echn olo echn

3. Macierze i Układy Równań Liniowych

Metody klasyfikacji i klasteryzacji obiektów wielocechowych.

Rozwiązywanie układów równań liniowych metody dokładne Materiały pomocnicze do ćwiczeń z metod numerycznych

Wykład 10 Skalowanie wielowymiarowe

Doświadczalnictwo leśne. Wydział Leśny SGGW Studia II stopnia

Techniki grupowania danych w środowisku Matlab

Podstawowe pojęcia statystyczne

1 Macierz odwrotna metoda operacji elementarnych

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

Analiza numeryczna Kurs INP002009W. Wykłady 6 i 7 Rozwiązywanie układów równań liniowych. Karol Tarnowski A-1 p.

Badanie zależności skala nominalna

Wykład 14. Elementy algebry macierzy

Badanie zależności pomiędzy zmiennymi

Programowanie liniowe

Prawdopodobieństwo i statystyka

Nazwa przedmiotu: Informatyczne systemy statystycznej obróbki danych. Informatics systems for the statistical treatment of data Kierunek:

POD- I NADOKREŚLONE UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH

Parametryzacja obrazu na potrzeby algorytmów decyzyjnych

WYMAGANIA na poszczególne oceny-klasa I Gimnazjum

ALGEBRA Z GEOMETRIĄ MACIERZE ODWZOROWAŃ LINIOWYCH

Zadania przygotowawcze do konkursu o tytuł NAJLEPSZEGO MATEMATYKA KLAS PIERWSZYCH I DRUGICH POWIATU BOCHEŃSKIEGO rok szk. 2017/2018.

Indukowane Reguły Decyzyjne I. Wykład 3

Metody iteracyjne rozwiązywania układów równań liniowych (5.3) Normy wektorów i macierzy (5.3.1) Niech. x i. i =1

Analiza skupień. Idea

PRÓBNY EGZAMIN MATURALNY

Wymagania edukacyjne z matematyki w klasie III gimnazjum

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

ANALIZA HIERARCHICZNA PROBLEMU W SZACOWANIU RYZYKA PROJEKTU INFORMATYCZNEGO METODĄ PUNKTOWĄ. Joanna Bryndza

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

SPÓJNOŚĆ. ,...v k. }, E={v 1. v k. i v k. ,...,v k-1. }. Wierzchołki v 1. v 2. to końce ścieżki.

Matematyka dyskretna

Algorytm. Krótka historia algorytmów

Idea. Algorytm zachłanny Algorytmy hierarchiczne Metoda K-średnich Metoda hierarchiczna, a niehierarchiczna. Analiza skupień

Algebra liniowa z geometrią

Matematyka dyskretna. Andrzej Łachwa, UJ, B/14

Funkcje elementarne. Ksenia Hladysz Własności 2. 3 Zadania 5

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Przykłady grafów. Graf prosty, to graf bez pętli i bez krawędzi wielokrotnych.

Podstawowe własności grafów. Wykład 3. Własności grafów

Sztuczna inteligencja : Algorytm KNN

Rozdział 5. Macierze. a 11 a a 1m a 21 a a 2m... a n1 a n2... a nm

Funkcje liniowe i wieloliniowe w praktyce szkolnej. Opracowanie : mgr inż. Renata Rzepińska

Transkrypt:

dr Ireneusz R. Moraczewski Zakład Systematyki i Geografii Roślin UW Al. Ujazdowskie 4, 00-478 Warszawa e-mail: moraczew@biol.uw.edu.pl Taksonomia numeryczna co to jest? To dziedzina formalna, leżąca na styku informatyki, matematyki, metodologii oraz nauk przyrodniczych i społecznych, obiektem zainteresowania której jest automatyczne klasyfikowanie i porządkowanie

Systematyka co to jest? Dziedzina na pograniczu nauki i sztuki, w ramach której: tworzy się i udoskonala system nazw taksonów konstruuje się narzędzia identyfikacji (klucze i instrumenty pokrewne) usiłuje się proponować drzewa filogenetyczne

Takson i jego nazwa - perspektywa semiotyczna Pinus sylvestris L. Drzewo nagonasienne, osiągające wysokość...

Po co systematyk tworzy nazwy? Bez nazw nie ma komunikacji; nie można bez nich myśleć i działać Regularności i prawa wyrażane są w języku, z użyciem nazw właśnie Nazwy mają moc prognostyczną System nazw (hierarchia linneuszowska) jest syntetycznym, abstrakcyjnym odbiciem organizacji świata żywego jest najbardziej zwięzłą teorią biologiczną (jeśli ktoś bardzo chce nazywać systematykę nauką...) By nazwy spełniały w/w funkcje ich denotacje muszą być homogeniczne!

Taksonomia numeryczna procedury N liczba obiektów M liczba cech d a N c N e f M N g b h a kodowanie, b konwersje i standardyzacja cech, c obliczanie macierzy odległości, d partycjonowanie (tworzenie klasyfikacji niehierarchicznej), e klasteryzacja (tworzenie klasyfikacji hierarchicznej dendrogramu), f porządkowanie nieliniowe, g porządkowanie liniowe (ordynacja 1- wymiarowa), h ordynacja 2-, 3-wymiarowa

Kodowanie: typy skal pomiarowych Skala Operacje empiryczne Dozwolone przeksztalcenia Przyklady =, <> x =f(x), gdzie f(x) jest dowolnym przeksztalceniem wzajemnie jednoznacznym nazwowa (nominal), szczególny przypadek: dwustanowa (binarna, Boolean) porzadkowa (ordinal) =, <>, >, < x =f(x), gdzie f(x) jest dowolnym przeksztalceniem monotonicznym przedzialowa (interval) stosunkowa (ratio) =, <>, >, <, (nie)równosc przedzialów =, <>, >, <, (nie)równosc przedzialów, (nie)równosc stosunków x =ax+b, dla a>0 x =ax, dla a>0 (przeksztalcenia multiplikatywne) nazwowa skala barw, plec (cecha binarna) skala twardosci mineralów, obfitosci gatunków, sily wiatru temperatura w stopniach Celsjusza, daty kalendarza dlugosc, masa, temperatura absolutna Konwersja cechy: przekształcenie danej cechy wyrażonej w jednej skali pomiarowej do cechy pochodnej wyrażonej w innej skali pomiarowej

Uwalnianie cech od jednostek miary

Miara odległości zwrotna (= z zerami na przekątnej) symetryczna (spełniająca warunek trójkąta)

Odległości dla cech wyrażonych w skali przedziałowej Odległość Euklidesa Odległość Manhattan

Odległości dla danych binarnych Obiekt A Obiekt B Obiekt C Cecha 1 1 1 0 Cecha 2 0 0 1 Cecha 3 1 1 0 Cecha 4 0 1 1 Odległość Manhattan pomiędzy A i B = 1 d b a c Odległość Jaccarda 1 a / (a+b+c) Odległość Sorensena 1 2a / (2a+b+c) Prosty wsp. niepodobieństwa 1 (a+d) / (a+b+c+d)

Metryki i ultrametryki Metryka: 1. d ij = 0 x i = x j 2. d ij = d ji 3. d ik d ij + d jk Ultrametryka: 1. d ij = 0 x i = x j 2. d ij = d ji 3. d ik MAX [d ij, d jk ]

Klasteryzacja typu aglomeracyjnego Uproszczony algorytm SAHN: 1. Wyszukaj w macierzy odległości D najbliższe sobie skupienia S i i S j 2. Połącz S i i S j w S a przeliczając odległości pomiędzy S a i wszystkimi pozostałymi skupieniami i usuń z macierzy D wiersz i kolumnę i-tą i j-tą 3. Jeśli liczba skupień jest większa niż 1 idź do punktu pierwszego i j a l

Klasyfikacja perspektywa logiczna Klasyfikacja zbioru obiektów X (podział logiczny), to rodzina podzbiorów zbioru X taka, że: każdy człon podziału (element rodziny) jest niepusty przecięcie każdej pary członów podziału jest puste suma członów podziału równa jest zbiorowi dzielonemu X

Klasyfikacja perspektywa kombinatoryczna

Porządkowanie nieliniowe ujęcie grafowe graf: <V,E,W>, W: E R+ Grafy: pełny pusty niespójny drzewo Drzewo graf spójny bez cykli (N 1 krawędzi) Dendryt (Minimum Spanning Tree) drzewo najkrótsze (dla danej macierzy D)

Przekształcanie dendrytu w klasyfikację (partycję)

Porządkowanie liniowe diagram Czekanowskiego Czekanowski, J. 1913 Zarys metod statystycznych w zastosowaniu do antropologii, Prace Towarzystwa Naukowego Warszawskiego 5.

Ordynacja O: X R(xRxR) Prosta ordynacja Orloci'ego

Metody oceny jakości i wiarygodności uzyskanych wyników (wykonywanie testów istotności na zmiennych użytych w analizie nie ma sensu) replikacja dla cech i obiektów korelacja kofenetyczna poziom zniekształcenia przy przejściu od macierzy odległości do ultrametryki akceptacja uzyskanych klasyfikacji jako alternatywnych, możliwych obrazów struktury badanego zbioru testy istotności na zmiennych zewnętrznych (klasyfikacja i ordynacja jako zmienne wtórne)

Procedury taksonomii numerycznej jako metody eksploracyjnej analizy danych Nr okazu Przyneta Glebokosc polowu [m] Srednica paszczeki [cm] Klasa 1 1 1.18 4.9 1 2 2 10.5 5.28 3 3 4 6.98 9.64 2 4 3 5.81 0.5 4 5 1 2.1 4.76 1 6 1 1.55 3.61 1 7 1 1.67 5.52 1 8 4 6.24 9.45 2 9 4 4.64 9.02 2 10 4 4.64 10.06 2 11 2 5.5 8.54 2 12 2 10.37 6.29 3 13 2 9.57 5.33 3 14 2 9.82 4.23 3 15 2 9.33 6.58 3 16 3 6.73 0.5 4 17 3 5.93 0.83 4 18 1 4.08 0.93 4 19 3 5.75 1.74 4 20 3 6.8 1.55 4 21 1 2.66 5.57 1 22 1 2.6 4.18 1 23 1 1.18 5.91 1 24 4 3.34 8.59 2 25 4 9.82 7.25 3 26 3 8.65 5.67 3 27 3 6.49 2.56 4 28 4 4.39 7.87 2 29 2 8.65 4.85 3 30 2 7.72 6.62 3 31 1 2.04 6.34 1 32 4 2.54 9.26 2 33 3 7.72 1.17 4 34 3 5.62 2.61 4 35 3 2.6 4.76 1 36 4 3.52 10.5 2 37 1 0.5 4.71 1 38 2 9.14 7.77 3 39 2 6.06 3.23 4 40 2 3.77 9.59 2

http://srs.dl.ac.uk/arch/harbottle/harbottle-holmes.htm /harbottle-holmes.htm

http://www.utu.fi/ml/sovmat/bio/projects/numerical_taxonomy.html0

http://www.ics.uci.edu/~eppstein/280/tree.html

http://www.plantbio.ohiou.edu/epb/instruct/multivariate/gradread.htm /gradread.htm

http://www.exetersoftware.com/cat/ntsyspc/books_ntsys.html

http://149.170.199.144/multivar/ca.htm

http://www.creationresearch.org/crsq/abstracts/sum23_1.html