dr Ireneusz R. Moraczewski Zakład Systematyki i Geografii Roślin UW Al. Ujazdowskie 4, 00-478 Warszawa e-mail: moraczew@biol.uw.edu.pl Taksonomia numeryczna co to jest? To dziedzina formalna, leżąca na styku informatyki, matematyki, metodologii oraz nauk przyrodniczych i społecznych, obiektem zainteresowania której jest automatyczne klasyfikowanie i porządkowanie
Systematyka co to jest? Dziedzina na pograniczu nauki i sztuki, w ramach której: tworzy się i udoskonala system nazw taksonów konstruuje się narzędzia identyfikacji (klucze i instrumenty pokrewne) usiłuje się proponować drzewa filogenetyczne
Takson i jego nazwa - perspektywa semiotyczna Pinus sylvestris L. Drzewo nagonasienne, osiągające wysokość...
Po co systematyk tworzy nazwy? Bez nazw nie ma komunikacji; nie można bez nich myśleć i działać Regularności i prawa wyrażane są w języku, z użyciem nazw właśnie Nazwy mają moc prognostyczną System nazw (hierarchia linneuszowska) jest syntetycznym, abstrakcyjnym odbiciem organizacji świata żywego jest najbardziej zwięzłą teorią biologiczną (jeśli ktoś bardzo chce nazywać systematykę nauką...) By nazwy spełniały w/w funkcje ich denotacje muszą być homogeniczne!
Taksonomia numeryczna procedury N liczba obiektów M liczba cech d a N c N e f M N g b h a kodowanie, b konwersje i standardyzacja cech, c obliczanie macierzy odległości, d partycjonowanie (tworzenie klasyfikacji niehierarchicznej), e klasteryzacja (tworzenie klasyfikacji hierarchicznej dendrogramu), f porządkowanie nieliniowe, g porządkowanie liniowe (ordynacja 1- wymiarowa), h ordynacja 2-, 3-wymiarowa
Kodowanie: typy skal pomiarowych Skala Operacje empiryczne Dozwolone przeksztalcenia Przyklady =, <> x =f(x), gdzie f(x) jest dowolnym przeksztalceniem wzajemnie jednoznacznym nazwowa (nominal), szczególny przypadek: dwustanowa (binarna, Boolean) porzadkowa (ordinal) =, <>, >, < x =f(x), gdzie f(x) jest dowolnym przeksztalceniem monotonicznym przedzialowa (interval) stosunkowa (ratio) =, <>, >, <, (nie)równosc przedzialów =, <>, >, <, (nie)równosc przedzialów, (nie)równosc stosunków x =ax+b, dla a>0 x =ax, dla a>0 (przeksztalcenia multiplikatywne) nazwowa skala barw, plec (cecha binarna) skala twardosci mineralów, obfitosci gatunków, sily wiatru temperatura w stopniach Celsjusza, daty kalendarza dlugosc, masa, temperatura absolutna Konwersja cechy: przekształcenie danej cechy wyrażonej w jednej skali pomiarowej do cechy pochodnej wyrażonej w innej skali pomiarowej
Uwalnianie cech od jednostek miary
Miara odległości zwrotna (= z zerami na przekątnej) symetryczna (spełniająca warunek trójkąta)
Odległości dla cech wyrażonych w skali przedziałowej Odległość Euklidesa Odległość Manhattan
Odległości dla danych binarnych Obiekt A Obiekt B Obiekt C Cecha 1 1 1 0 Cecha 2 0 0 1 Cecha 3 1 1 0 Cecha 4 0 1 1 Odległość Manhattan pomiędzy A i B = 1 d b a c Odległość Jaccarda 1 a / (a+b+c) Odległość Sorensena 1 2a / (2a+b+c) Prosty wsp. niepodobieństwa 1 (a+d) / (a+b+c+d)
Metryki i ultrametryki Metryka: 1. d ij = 0 x i = x j 2. d ij = d ji 3. d ik d ij + d jk Ultrametryka: 1. d ij = 0 x i = x j 2. d ij = d ji 3. d ik MAX [d ij, d jk ]
Klasteryzacja typu aglomeracyjnego Uproszczony algorytm SAHN: 1. Wyszukaj w macierzy odległości D najbliższe sobie skupienia S i i S j 2. Połącz S i i S j w S a przeliczając odległości pomiędzy S a i wszystkimi pozostałymi skupieniami i usuń z macierzy D wiersz i kolumnę i-tą i j-tą 3. Jeśli liczba skupień jest większa niż 1 idź do punktu pierwszego i j a l
Klasyfikacja perspektywa logiczna Klasyfikacja zbioru obiektów X (podział logiczny), to rodzina podzbiorów zbioru X taka, że: każdy człon podziału (element rodziny) jest niepusty przecięcie każdej pary członów podziału jest puste suma członów podziału równa jest zbiorowi dzielonemu X
Klasyfikacja perspektywa kombinatoryczna
Porządkowanie nieliniowe ujęcie grafowe graf: <V,E,W>, W: E R+ Grafy: pełny pusty niespójny drzewo Drzewo graf spójny bez cykli (N 1 krawędzi) Dendryt (Minimum Spanning Tree) drzewo najkrótsze (dla danej macierzy D)
Przekształcanie dendrytu w klasyfikację (partycję)
Porządkowanie liniowe diagram Czekanowskiego Czekanowski, J. 1913 Zarys metod statystycznych w zastosowaniu do antropologii, Prace Towarzystwa Naukowego Warszawskiego 5.
Ordynacja O: X R(xRxR) Prosta ordynacja Orloci'ego
Metody oceny jakości i wiarygodności uzyskanych wyników (wykonywanie testów istotności na zmiennych użytych w analizie nie ma sensu) replikacja dla cech i obiektów korelacja kofenetyczna poziom zniekształcenia przy przejściu od macierzy odległości do ultrametryki akceptacja uzyskanych klasyfikacji jako alternatywnych, możliwych obrazów struktury badanego zbioru testy istotności na zmiennych zewnętrznych (klasyfikacja i ordynacja jako zmienne wtórne)
Procedury taksonomii numerycznej jako metody eksploracyjnej analizy danych Nr okazu Przyneta Glebokosc polowu [m] Srednica paszczeki [cm] Klasa 1 1 1.18 4.9 1 2 2 10.5 5.28 3 3 4 6.98 9.64 2 4 3 5.81 0.5 4 5 1 2.1 4.76 1 6 1 1.55 3.61 1 7 1 1.67 5.52 1 8 4 6.24 9.45 2 9 4 4.64 9.02 2 10 4 4.64 10.06 2 11 2 5.5 8.54 2 12 2 10.37 6.29 3 13 2 9.57 5.33 3 14 2 9.82 4.23 3 15 2 9.33 6.58 3 16 3 6.73 0.5 4 17 3 5.93 0.83 4 18 1 4.08 0.93 4 19 3 5.75 1.74 4 20 3 6.8 1.55 4 21 1 2.66 5.57 1 22 1 2.6 4.18 1 23 1 1.18 5.91 1 24 4 3.34 8.59 2 25 4 9.82 7.25 3 26 3 8.65 5.67 3 27 3 6.49 2.56 4 28 4 4.39 7.87 2 29 2 8.65 4.85 3 30 2 7.72 6.62 3 31 1 2.04 6.34 1 32 4 2.54 9.26 2 33 3 7.72 1.17 4 34 3 5.62 2.61 4 35 3 2.6 4.76 1 36 4 3.52 10.5 2 37 1 0.5 4.71 1 38 2 9.14 7.77 3 39 2 6.06 3.23 4 40 2 3.77 9.59 2
http://srs.dl.ac.uk/arch/harbottle/harbottle-holmes.htm /harbottle-holmes.htm
http://www.utu.fi/ml/sovmat/bio/projects/numerical_taxonomy.html0
http://www.ics.uci.edu/~eppstein/280/tree.html
http://www.plantbio.ohiou.edu/epb/instruct/multivariate/gradread.htm /gradread.htm
http://www.exetersoftware.com/cat/ntsyspc/books_ntsys.html
http://149.170.199.144/multivar/ca.htm
http://www.creationresearch.org/crsq/abstracts/sum23_1.html