Analiza skupień (Cluster Analysis)

Wielkość: px
Rozpocząć pokaz od strony:

Download "Analiza skupień (Cluster Analysis)"

Transkrypt

1 Rozdział 8 Analiza skupień (Cluster Analysis) 8.1 Wstęp Analiza skupień jest techniką statystyczną i neuronową mającą na celu porównywanie i klasyfikowanie obiektów, opisywanych za pomocą wielu atrybutów. Procedury analizy skupień pozwalają utworzyć grupy (skupienia) "najmniej odległych od siebie" lub "najbardziej podobnych do siebie" obiektów, traktowanych jako punkty wielowymiarowej przestrzeni, gdzie wymiar przestrzeni jest określony liczbą zmiennych, ze względu na które są opisywane obiekty. W technice statystycznej odległość (podobieństwo) między obiektami jest mierzona za pomocą odpowiedniej miary odległości (podobieństwa). Natomiast w technice neuronowej uczenie sieci powoduje samoorganizację skupisk. Analiza ta znajduje zastosowanie w wielu dziedzinach badań, np. w badaniach: medycznych do identyfikacji chorób i ich objawów, psychologicznych do wyodrębniania typów osobowości, społeczno-ekonomicznych do analizy typów gospodarstw domowych. Postępujący w ostatnich latach wzrost zastosowań analizy skupień w naukach opisowych, takich jak archeologia, etnografa, literaturoznawstwo, lingwistyka czy w badaniach nad sztuczną inteligencją, został w znacznej mierze spowodowany rozwojem technik komputerowych, w tym włączeniem programów analizy skupień do wielu statystycznych pakietów mikrokomputerowych. 8.2 Znaczenie grupowania obiektów i zmiennych w nauce Grupowanie obiektów wydaje się być immanentnie związane z wszelką działalnością poznawczą człowieka. Operacja grupowania leży u podstaw spostrzegania, myślenia, podejmowania decyzji, czy wreszcie powstawania określonych emocji. Każdy sąd wydawany przez człowieka poprzedzony jest zaliczeniem osądzanego obiektu do takiej czy innej grupy obiektów. Grupowaniu podlegają jednostki, klasy społeczne, 141

2 ustroje, wszelkie wytwory człowieka, bogactwa mineralne, flora i fauna, czy wreszcie same sposoby grupowania. Grupowanie pozwala człowiekowi nie tylko na poznawanie otaczającej go rzeczywistości, ale również na znalezienie w niej właściwego miejsca dla siebie, zaliczenie się do odpowiadającej mu grupy. Dzięki pogrupowaniu obiektów budujących otaczającą człowieka rzeczywistość ulega redukcji entropia i to co było nieznane, niepewne i nieokreślone staje się możliwe do zbadania i poznania. Problem grupowania obiektów i zmiennych w nauce jest tak stary jak sama nauka. Uporządkowanie otaczającej człowieka rzeczywistości stanowi wyjściowy warunek do zadania pytania o istotę (esencję) badanych zjawisk. Wyodrębnianie podobnych obiektów, łączenie ich w homogeniczne grupy daje możliwość takiego uporządkowania. Należy zwrócić uwagę na dualną naturę zabiegu grupowania. Z jednej strony grupowanie uwarunkowane jest potrzebą (naturalną) człowieka do nazywania, sortowania i zliczania tych wszystkich obiektów otaczającej go rzeczywistości, które są przez niego postrzegane jako różne, z drugiej zaś potrzebą porządkowania tego wszystkiego co jawi mu się jako niewyraźne, amorficzne, bezpostaciowe. Grupując obiekty (zmienne), dokonując ich uporządkowania, badacz robi pierwszy krok na drodze poznawania rzeczywistości. Grupowanie obiektów i zmiennych prowadzi do zmniejszenia entropii i w konsekwencji umożliwia zadawanie pytań dotyczących istoty rzeczy, esencji badanych zjawisk. Badacz, przystępując do grupowania obiektów, decyduje się abstrahować od pewnych ich cech, biorąc pod uwagę tylko te cechy, które są jego zdaniem ważne. Kryterium ważności przyjmuje z punktu widzenia celu badania, celu, któremu dokonywane uporządkowywanie ma służyć. Operacja grupowania w poznaniu naukowym może być wykorzystywana do wykrywania istoty zjawiska. W przypadku biologii, botaniki czy zoologii obiektami poddawanymi grupowaniu są głównie organizmy żywe. Dokonywany proces ich grupowania przyczynia się do odzwierciedlenia i zrozumienia ich morfologii i ewolucji filogenetycznej, udoskonalenia istniejących czy też tworzenia nowych systematyzacji. W naukach medycznych, psychopatologii obiektami grupowanymi są pacjenci, choroby i ich symptomy, dolegliwości, sposoby leczenia itp. Bardzo ważną rolę odgrywa, z punktu widzenia poznania naukowego operacja grupowania w takich naukach opisowych jak: antropologia, archeologia, etnografia, literaturoznawstwo, lingwistyka. Ostatnio grupowanie obiektów znajduje specyficzne zastosowanie w badaniach nad sztuczną inteligencją, komputerowo wspomaganym rozpoznawaniem: 142

3 obrazów, pisma ręcznego, głosu ludzkiego, sygnałów radiowych. Jak widać funkcja eksploracyjna operacji grupowania w nauce jest w wysokim stopniu znacząca. Grupowanie przyczynia się w znacznej mierze do wykrywania esencji badanych zjawisk, formułowania praw, ich konkrety oraz ich praktycznego wykorzystania. 8.3 Podział metod statystycznych analizy skupień Celem analizy skupień jest podział zbioru obiektów na pewną liczbę (k) grup (zwanych skupieniami) tak, że obiekty znajdujące się w jednej grupie są do siebie podobne (jednorodne), a obiekty w różnych grupach sa bardziej niejednorodne. W procedurach analizy skupień dostępne sa różne techniki grupowania. Techniki te różnią się rozpoczęciem procesu grupowania i hierarchią grupowania. Ze względu na kryterium rozpoczęcia procesu grupowania wyróżnia się techniki [29]: aglomeracyjne podziałowe W technikach aglomeracyjnych punktem wyjścia są pojedyncze obiekty, z których każdy stanowi osobną grupę - jednoelementowe skupienie. Następnie obiekty są łączone w liczniejsze grupy, aż do otrzymania na końcu jednej grupy, zawierającej wszystkie obiekty. W technikach podziałowych zakłada się na początku, że cały zbiór obiektów stanowi jedną grupę. Następnie grupę tę dzieli się na coraz większą liczbę grup, aż do otrzymania grup jednoelementowych. Ze względu na hierarchię grupowania wyróżnia się techniki [29]: hierarchiczne niehierarchiczne Podział metod statystycznych analizy skupień można przedstawić następująco: W technikach hierarchicznych są wyodrębnione szczeble, na których poszczególne obiekty łączą się w grupy (w przypadku aglomeracji) lub rozpadają się na podgrupy 143

4 Rysunek 8.1: Podział metod analizy skupień (w przypadku podziału). W technikach niehierarchicznych nie uwzględnia się porządku tworzenia grup. Obiekty, które znalazły się w jednej grupie, niekoniecznie muszą pozostawać razem. Obiekty mogą przechodzić z jednej grupy do innej. W badaniach statystycznych, spośród wszystkich technik grupowania, do najczęściej używanych należą hierarchiczne techniki aglomeracyjne. W przypadku hierarchicznych technik aglomeracyjnych najpierw każdy obiekt stanowi osobną grupę, zatem mamy tyle samo grup co obiektów. W pierwszym kroku dwa określone obiekty są łączone w jedną grupę, natomiast grupowanie pozostałych obiektów nie zmienia się. W następnym kroku może zajść jeden z dwóch przypadków: albo dwa inne obiekty zostają połączone w grupę, albo do już utworzonej grupy dwóch obiektów zostaje dołączony trzeci obiekt. Ogólnie, w każdym następnym kroku albo pojedynczy obiekt zostaje dołączony do jakiejś grupy, albo następuje połączenie dwóch istniejących grup. W każdym z tych przypadków przy przejściu do następnego kroku liczba grup zmniejsza się o jeden. Zauważmy, że w hierarchicznych metodach aglomeracyjnych grupy nie mogą rozpadać się w żadnym stadium grupowania. Jeżeli dwa dane obiekty zostaną zaliczone do tej samej grupy w pewnym kroku, to pozostaną już w tej samej grupie. Żaden obiekt nie może przechodzić jednej grupy do 144

5 innej. Ponieważ w każdym kroku liczba grup zmniejsza się o jeden, po n-l krokach wszystkie obiekty zostają zaliczone do jednej grupy. Za ostateczny podział na grupy przyjmuje się podział uzyskany po n-k iteracjach (mamy wówczas k grup). Liczba k może być ustalona arbitralnie przed rozpoczęciem grupowania lub w pewien sposób optymalizowana. 145

6 8.4 Metody hierarchiczne analizy skupień Metody hierarchiczne wyróżniają się spośród innych metod skupiania obiektów tym, że w wyniku analizy badacz otrzymuje hierarchiczną strukturę skupień. Jest ona najczęściej prezentowana w formie drzewa skupień (dendrogramu). Uzyskiwana hierarchia zezwala na dokładne określenie jak wzajemnie usytuowane są poszczególne skupienia oraz obiekty zawarte w wyodrębnionych skupieniach. W odróżnieniu od wyników uzyskiwanych na drodze stosowania metod niehierarchicznych, badacz otrzymuje tutaj strukturę skupień i strukturę obiektów uporządkowaną hierarchicznie, zgodnie z malejącym podobieństwem lub rosnącą odległością. W podejściu niehierarchicznym badacz uzyskuje jedynie informacje dotyczą tego, jakie obiekty wchodzą, w skład poszczególnych skupień, jaka jest rozpiętość poszczególnych skupień oraz jaka jest odległość pomiędzy skupieniami. Ujęcie hierarchiczne gwarantuje badaczowi, oprócz informacji uzyskiwanych w metodach niehierarchicznych, informacje dotyczące każdego pojedynczego obiektu w terminach takiej miary odległości czy też podobieństwa, w jakiej badacz pierwotnie wyrażał związki pomiędzy interesującymi go obiektami. Metody hierarchiczne w porównaniu z niehierarchicznymi mniej zniekształcają rzeczywisty obraz. Przetworzenie danych surowych jest tutaj bardziej subtelne. W celu uzyskania ostatecznej struktury skupień nie zostaje dokonana praktycznie żadna ingerencja zakłócająca naturalną konfigurację badanych obiektów. Przekształcenie wyników surowych jest stosunkowo małe. Wszystko to przyczyniło się zapewne do znacznie większej popularności metod hierarchicznych niż niehierarchicznych. Bardzo dobrym wskaźnikiem popularności metod hierarchicznych są programy komputerowe zawarte w popularniejszych pakietach i bibliotekach statystycznych. W zdecydowanej większości poświęcone są one metodom hierarchicznym. Metody niehierarchiczne sprowadzają w zasadzie do paru metod zakładających z góry liczbę skupień jakie badacz chce otrzymać. Są to przeważnie takie metody, jak metoda k- średnich oraz metody tzw. heurystyczne. Charakterystyczne jest to, iż w pakietach zawartych w dużych bibliotekach statystycznych, jak na przykład SPSS (Statistical Pakage for Social Sciences - Pakiet Statystycznych Programów Komputerowych dla Nauk Społecznych) pod hasłem analiza skupień figurują w zasadzie metody analizy hierarchicznej. Metody analizy niehierarchicznej ujmowane są osobno. Jest to zrozumiałe, gdy weźmie się pod uwagę fakt, iż są to przeważnie metody z narzucaną z góry liczbą skupień. A zatem, nie są one typowymi metodami skupiania. Badacz, aby zdecydować się na określoną z góry liczbę skupień musi dysponować pewnym zewnętrznym kryterium, które zezwoli mu na określenie tej liczby. Tym samym metody te znajdują się w zasadzie na pograniczu metod klasyfikowania i skupiania. Metody analizy hierarchicznej sa metodami z wyboru w sytuacji gdy badacz ma do czynienia ze zbiorem obiektów i chce uzyskać pełny, w niczym nie uproszczony obraz struktury podobieństwa pomiędzy badanymi obiektami. 146

7 8.5 Hierarchiczne dzielące metody analizy skupień na przykładzie algorytmu Gower a Jak było wspomniane wyżej, hierarchiczne metody dzielące analizy skupień prowadzą do otrzymania skupień ułożonych hierarchicznie na drodze dychotomicznych podziałów, następujących po sobie kolejno. Pierwszy podział jest podziałem całego zbioru obiektów poddawanych grupowaniu. Kolejne podziały prowadzone sa wewnątrz otrzymywanych wcześniej skupień. W 1967 roku Gower podał metodę dzielącą skupiania obiektów która składa się z trzech kroków. W pierwszym kroku wybierane są w zbiorze obiektów G takie dwa obiekty O i oraz O j, między którymi występuje największa odległość euklidesowa. Obiekty te stanowią dwa skupienia s 1 = {O i }, które jako jednoelementowe są oczywiście tożsame ze swoimi środkami ciężkości: x s1, x s2. W drugim kroku wyszukuje się te obiekty spośród pozostałych, które leżą najbliżej skupienia pierwszego s 1 i odpowiednio skupienia drugiego s2. Obiekt leżący najbliżej skupienia pierwszego s 1 i odpowiednio skupienia drugiego s 2. Obiekt leżący najbliżej skupienia pierwszego zostaje do niego dołączony, zaś obiekt leżący najbliżej skupienia drugiego zostaje dołączony do skupienia drugiego. W ten sposób uzyskuje się dwa skupienia dwuelementowe. Dla każdego z nich wyznacza się nowe środki ciężkości. W trzecim kroku wyszukiwane sa kolejne dwa obiekty spośród pozostałych, najbliższe odpowiednio pierwszemu i drugiemu skupieniu. Wyznaczane są znów nowe środki ciężkości. Krok trzeci powtarzany jest tak długo, aż wszystkie obiekty zostają zaliczone do jednego z dwóch wyodrębnionych skupień. W efekcie otrzymywany jest podział zbioru obiektów G na dwa skupienia s 1 i s 2. Procedura ta jest powtarzana dla obu otrzymywanych skupień. w wyniku tego obiekty wchodzące w skład skupienia s 1 dzielone są na dwa kolejne skupienia s 11 i s 12, a obiekty wchodzące w skład skupienia s 2 na skupienia s 21 i s 22. Dalsze podziały dychotomiczne kolejnych skupień prowadzone są tak długo, aż każdy pojedynczy obiekt będzie osobnym jednoelementowym skupieniem. Skupienia te określane są mianem tzw. skupień słabych. Dla przykładu można przyjąć sześć obiektów do pogrupowania: O 1, O 2, O 3, O 4, O 5, O 6, z których każdy jest scharakteryzowany przez dwie cechy. Rysunek 8.2 przedstawia te obiekty w dwuwymiarowej przestrzeni cech. Zgodnie z ideą metod analizy dzielącej, badacz ma więc pierwotnie skupienie sześcioelementowe: {O 1, O 2, O 3, O 4, O 5, O 6 }. Skupienie takie bywa często nazywane skupieniem silnym (mocnym). Analizę rozpoczyna się od analizy macierzy odległości (czy też podobieństwa) pomiędzy wszystkimi obiektami. Tabela 8.1 zawiera macierz kwadratów odległości euklidesowych pomiędzy wszystkimi sześcioma obiektami. Posłużenie się macierzą 147

8 148 algorytmu Gower a Rysunek 8.2: Graficzna prezentacja obiektów w dwuwymiarowej przestrzeni cech. kwadratów odległości, lub inaczej macierzą norm euklidesowych, jest podyktowane względami technicznymi. Posługiwanie się normami euklidesowymi może się okazać wysoce istotne w momencie interpretacji otrzymanych skupień. Jest ono równoważne z wariancją, a więc umożliwia statystyczną ocenę otrzymanych skupień. W ten sposób powstaje skala odległości, która pokazuje, jak odległe są od siebie poszczególne skupienia i obiekty. algorytm Gowera 1. Analizując macierz norm euklidesowych (tabela 8.1) wybiera się najwyższą normę. Jak widać jest to liczba 130, odpowiadająca kwadratowi odległości pomiędzy obiektami O 1 i O 4. W związku z tym obiekty te, zgodnie z algorytmem zostają zidentyfikowane jako dwa pierwsze skupienia. Uzyskano więc dwa skupienia jednoelementowe: s 1 = {O 1 } oraz s 2 = {O 4 }. Obiekty O 1 i O 4 są równocześnie tożsame ze środkami ciężkości x 1,0 oraz x 2,0. 148

9 O 1 O 2 O 3 O 4 O 5 O 6 O 1 0 O O O O O Tabela 8.1: Macierz norm euklidesowych pomiędzy obiektami 2. W dalszym ciągu analizując macierz norm euklidesowych (tabela 8.1) wybiera się obiekty najbliższe środkom ciężkości skupień jednoelementowych s 1 i S 2, czyli po prostu obiektom O 1 i odpowiednio O 4. Jak widać, najbliższy środkowi ciężkości x 1,0 jest obiekt O 2 (norma euklidesowa=2). Zgodnie z algorytmem obiekt ten dołączany jest do skupienia s 1. W ten sposób skupienie s 1 staje się skupieniem dwuelementowym. Dla skupienia tego wyliczany jest nowy środek ciężkości x 1,1. aby tego dokonać należy obliczyć średnie wartości ze współrzędnych punktów odpowiadających obiektom O 1 i O 2. Innymi słowy należy obliczyć średnie wartości z pierwszej cechy dla obu obiektów i z drugiej cechy dla obu obiektów. Wyliczone wartości średnie stanowią współrzędne nowego środka ciężkości x 1,1 dla dwuelementowego skupienia s 1. W przypadku środka ciężkości x 2,0 najbliższy okazał się obiekt O 3 (norma euklidesowa=8). A zatem obiekt ten jest dołączany do skupienia s 2. Nowy środek ciężkości x 2,1 wyliczany dla skupienia dwuelementowego s 2, tak samo jak dla skupienia dwuelementowego s 1, ma współrzędne (9,8). 3. W kroku tym modyfikowana jest macierz norm euklidesowych (tabela 8.1), ponieważ obiekty O 1,O 2 budujące skupienie s 1 oraz obiekty O 3 i O 4 budujące skupienie s 2 muszą być zastąpione przez środki ciężkości skupień s 1 i s 2 odpowiednio x 1,1 i x 2,1. Tabela 8.2 prezentuje nową macierz norm euklidesowych pomiędzy środkami ciężkości x 1,1, x 2,1 oraz obiektami, które jeszcze nie weszły do żadnego skupienia, to znaczy obiektami O 5 i O 6. Tabela 8.2: Macierz norm euklidesowych pomiędzy punktami ciężkości i obiektami. x 1,1 x 2,1 O 5 O 6 x 1,1 0 x 2, O O Zgodnie z metodą, w macierzy tej wyszukujemy obiekt najbliższy jednemu z 149

10 150 algorytmu Gower a dwóch środków ciężkości. Jak widać obiekt O 6 jest najbliższy środkowi ciężkości x 2,1. Jednocześnie obiekt O 5 jest bliższy środkowi ciężkości x 2,1 niż środkowi ciężkości x 1,1. Zatem obiekt O 6 zostaje dołączony do skupienia s 2, natomiast do skupienia s 1 nie zostaje dołączony żaden obiekt. Skupienie s 2 po tej operacji jest już skupieniem trzyelementowym. W związku z tym wylicza się dla niego nowy środek ciężkości x 2,2, biorąc oczywiście pod uwagę położenie wszystkich trzech obiektów wchodzących w jego skład. W dalszym ciągu procedury skupiania powtarza się krok trzeci algorytmu. Powstaje zatem nowa macierz norm euklidesowych, uwzględniająca nowy środek ciężkości trzyelementowego skupienia s 2. Tabela 8.3 prezentuje nową macierz. Przeszukując tę macierz stwierdzić można, iż jedyny obiekt, który nie został dotej pory włączony do skupień O 5 jest najbliższy środkowi ciężkości x 2,2. Zatem skupienie s 2 powiększa się o nowy element, obiekt O 5. Obiekt ten jest ostatnim obiektem wprowadzonym do skupienia. Tabela 8.3: Macierz norm euklidesowych pomiędzy punktami ciężkości i obiektem x 1,1 x 2,2 O 5 x 1,1 0 x 2,2 79 O Przystępując do dalszej analizy, zgodnie z algorytmem Gowera, powtarza się wszystkie trzy kroki dla każdego z otrzymanych skupień s 1 i s 2. skupienie s 1, jako dwuelementowe, może być podzielone tylko w jeden sposób na dwa skupienia jednoelementowe: s 1,1 = {O 2 } oraz s 1,2 = {O 1 }. Skupienie s 2 jest skupieniem czteroelementowym, zatem algorytm Gowera musibyć tutaj dalej stosowany. W efekcie algorytmu Gowera uzyskuje się hierarchiczne drzewo skupień (dendrogram) uzyskane dla prezentowanych danych. Przedstawia to rysunek

11 Rysunek 8.3: Dendrogram uzyskany w wyniku zastosowania metody dzielącej Gowera 151

12 8.6 Metody hierarchiczne, aglomeracyjne analizy skupień Wiele autorów twierdzi, iż hierarchiczne aglomeracyjne metody zajmują eksponowane miejsce wśród metod analizy skupień. Punktem wyjścia każdej metody aglomeracyjnej jest macierz podobieństw lub odległości. Wszystkie metody skupiania aglomeracyjnego opierają się na jednym ogólnym schemacie postępowania. Można w nim wyróżnić trzy podstawowe kroki. Przed przystąpieniem do skupiania należy utworzyć z każdego spośród n obiektów skupienie jednoelementowe. Krok pierwszy: Wyszukać w macierzy odległości lub podobieństwa D najbliższą sobie parę skupień (s i,s j ). Krok drugi: Połączyć skupienia s i oraz s j w jedno nowe zaglomerowane skupienie s a. Krok trzeci: Zmienić macierzd uwzględniając fakt powstania nowego skupienia. Zmiany tej dokonać należy zastępując j-ty wiersz i j-tą kolumnę w macierzy D nowymi odległościami (podobieństwami) pomiędzy powstałym w kroku drugim skupieniem s a a wszystkimi pozostałymi skupieniami. Następnie skreślić i-ty wiersz oraz i-tą kolumnę. Jak widać, w kroku trzecim dokonywana jest redukcja macierzy D o jeden wymiar (jeden stopień). Prowadząc procedurę należy wykonywać sekwencyjnie pętlę: krok jeden, dwa i trzy, do momentu, w którym w macierzy D występować będzie tylko jedna wartość charakteryzująca odległość pomiędzy skupieniami. Kończąc skupianie, w ostatniej pętli należy wykonać tylko kroki: jeden i dwa. Poszczególne metody aglomeracyjne różnią się w zasadzie jedynie krokiem trzecim. Decydująca jest tutaj operacja wyznaczająca odległość lub podobieństwo pomiędzy nowo powstałym skupieniem s a a pozostałymi, istniejącymi już skupieniami. Należy zaznaczyć, że istnieje zasadnicza różnica pomiędzy metodą skupiania a jej algorytmem. Różne metody skupiania definiują w różny sposób "zawartość skupień". Innymi słowy można oczekiwać, iż różne metody zastosowane do tego samego zbioru obiektów mogą dać różne rezultaty (różne skupienia o różnej konfiguracji, innej hierarchii, itp.). Algorytmy umożliwiają efektywne uzyskiwanie skupień w obrębie poszczególnych metod. Tę samą metodę można stosować opierając się na różnych algorytmach. Różne algorytmy stosowane w obrębie tej samej metody nie zmieniają w zasadzie uzyskiwanego rezultatu. Propozycje nowych metod skupiania niekiedy są w rzeczywistości jedynie nowymi algorytmami jednej z popularniejszych metod aglomeracyjnych tzw. metody prostych połączeń. Warto wspomnieć iż metoda ta opracowana została po raz pierwszy przez Polaków: K. Florek, J. Łukasiewicz. 152

13 Spośród metod aglomeracyjnych można wyróżnić następujące metody: 1. Metoda prostych połączeń (Single Linkage Method) lub najbliższego sąsiedztwa (Nearest Neighbor Method), inaczej metoda minimum (Minimum Method). 2. Metoda średnich połączeń (Group Average Method - UPGMA) (Unweighted Pair-Group Method using arithmetic Averages) 3. Metoda średnich połączeń ważonych (Weightes Average Method) - WPGMA (Weighted Pair-Group Method using arithmetic Averages) 4. Metoda zupełnych połączeń (Complete linkage Method), inaczej metoda maksimum (Maximum Method). 5. Metoda środków ciężkości (Unweighted Centroid Method) - UPGMC (Unweighted Pair-Group Method using Centroids). 6. Metoda ważonych środków ciężkości (Weighted Centroid Method) - WPGMC (Weighted Pair- Group Method using Centroids) lub mediany (Median Method). 7. Metoda minimalnej wariancji (Minimum Variance Method) lub Warda (Ward Method). 153

14 8.6.1 Metoda prostych i zupełnych połączeń Większość algorytmów aglomeracyjnych jest wariantami algorytmów prostych połączeń (ang. single-link algorithms - SLM) lub algorytmów zupełnych połączeń (ang. complete-link algorithms - CLM). Te dwa algorytmy różnią się tylko na drodze charakteryzacji podobieństwa między parą klastrów. W metodzie prostych połączeń między dwoma klastrami, brana jest pod uwagę najmniejsza odległość między parą klastrów. W metodzie zupełnych połączeń bierze się pod uwagę odległość największą. Chociaż algorytm prostych połączeń wydaje się być prostszy z obliczeniowego punktu widzenia, praktycznie uważa się algorytm zupełnych połączeń za lepszy. Jak Klaster 2 Klaster 1 Rysunek 8.4: Najmniejsza odległość między klastrami Klaster 2 Klaster 1 Rysunek 8.5: Największa odległość między klastrami opisane zostało wcześniej, oba typy algorytmów różnią się miarą odległości między klastrami. Dla obu można podać następujące kroki: Umieścić każdą daną w osobnym klastrze. Stworzyć listę odległości między każdym klastrem dla wszystkich różnych par danych. 154

15 Posortować listę rosnąco. Podążając przez listę odległości, formułujemy dla każdej wartości progowej d k graf danych, gdzie pary danych bliższe od wartości progowej powiązane są w nowym klastrze przez krawędź grafu. Jeśli wszystkie dane należą do powiązanego grafu - STOP. Jeśli nie powtórz ten krok. Wyjściem algorytmu jest zagnieżdżona hierarchia grafu, która może być ucięta na danym poziomie odległości. Przykład Niech danych bedzie pięć zmiennych: x 1 = (0, 2),x 2 = (0, 0),x 3 = (1.5, 0),x 4 = (5, 0),x 5 = (5, 2) Odległości wyliczone między tymi punktami to: d(x 1,x 2 ) = 2 d(x 1,x 3 ) = 2.5 d(x 1,x 4 ) = 5.39 d(x 1,x 5 ) = 5 d(x 2,x 3 ) = 1.5 d(x 2,x 4 ) = 5 d(x 2,x 5 ) = 5.29 d(x 3,x 4 ) = 3.5 d(x 3,x 5 ) = 4.03 d(x 4,x 5 ) = 2 Obliczenia dla każdej z dwóch wymienionych metod są różne. Używając algorytmu aglomeracyjnego na bazie prostych połączeń otrzymujemy: Na wstępie dane x 2 i x 3 są włączane w klaster {x 2,x 3 }, którego minimalna odległość wynosi 1.5. Następnie x 4 i x 5 scalane są w nowy klaster {x 4,x 5 }. W tym samym czasie, minimalna odległość między klastrami {x 2,x 3 } i {x 1 } wynosi również 2. Więc te dwa klastry łączone są na tym samym poziomie podobieństwa wynoszącym jak dane x 3 i x 4. Na końcu, dwa klastry {x 1,x 2,x 3 } i {x 3,x 4 } łączone są na najwyższym poziomie. Dendrogram uzyskany poprze metodę zupełnych połączeń różni się od uzyskanego poprzez metodę prostych połączeń. Najpierw łączone są x 2 i x 3 w klaster {x 2,x 3 }. x 4 i x 5 scalane są w nowy klaster {x 4,x 5 }. Minimalna odległość zupełna między klastrami {x 2,x 3 } i {x 1 } wynosi 2.5, więc klastry te są łączone w nowy. Na końcu klaster {x 1,x 2,x 3 } i {x 4,x 5 } są łączone na poziomie najwyższym. 155

16 X2 X3 X1 X4 X5 Rysunek 8.6: Dendrogram stworzony przez metodę prostych połączeń X2 X3 X1 X4 X5 Rysunek 8.7: Dendrogram stworzony przez metodę zupełnych połączeń Wybierając wartość progową podobieństwa s = 2, 2, widzimy, że klastry uzyskane dwiema różnymi metodami nie są takie same. 156

17 8.6.2 Metoda średnich połączeń (UPGMA) Metoda średnich połączeń określona jest przez równość określającą odległość zaglomerowanego skupienia s a od każdego innego skupienia s k : d(s a,s k ) = 0.5(d(s i,s k ) + d(s j,s k )) (8.1) Równanie 8.1 podaje przepis na obliczanie odlegości pomiędzy skupieniami na kolejnych etapach procedury prowadzonej w ramach metody średnich połączeń (krok trzeci procedury). Z powyższego równania widać, że każdorazowo wyliczana jest średnia arytmetyczna pomiędzy parami skupień (s i,s k ) i (s j,s k ). Stąd nazwa metody. W analizie skupień prowadzonej według metody średnich połączeń można wyodrębnić trzy podstawowe kroki, które składają się na całość procedury. Krok pierwszy: Przeszukać macierz odległości D i wybrać parę skupień (s i,s j ), które leżą najbliżej siebie. Krok drugi: Połączyć skupienia s i oraz s j w jedno zaglomerowane skupienie s a. Krok trzeci: Zmienic macierz D uwzględniając powstanie nowego skupienia s a. Dokonać tego skreślając i-ty wiersz oraz i-tą kolumnę, zastępując jednocześnie j-ty wiersz i j-tą kolumnę nowymi, złożonymi z odległości pomiędzy skupieniem s a a wszystkimi pozostałymi skupieniami. Odległości te wyliczyć należy jako średnie odległości pomiędzy skupieniami s i,s k oraz s j,s k. Podobnie jak w przypadku metody prostych połączeń, każdy obiekt traktowany jest jako skupienie jednoelementowe, procedura powtarzana jest cyklicznie. Różnica pomiędzy metodą prostych a metodą średnich połączeń sprowadza się w zasadzie do odmiennego wyliczania odległości pomiędzy skupieniami w trzecim kroku. Aby przeanalizować procedurę postępowania dla metody średnich połączeń poddając analizie sześć obiektów. Obiekty te są przedstawione w tabeli 8.4. Tabela 8.4: Obiekty w przestrzeni trójwymiarowej stosowane do analizy. Obiekty X Y Z O O O O O O Natomiast tabela 8.5 zawiera macierz D norm euklidesowych pomiędzy wszystkimi analizowanymi obiektami. Macierz ta stanowi oczywiście punkt wyjścia do prowadzonej analizy. 157

18 Tabela 8.5: Macierz D norm euklidesowych pomiędzy obiektami O 1, O 2, O 3, O 4, O 5, O 6 O 1 O 2 O 3 O 4 O 5 O 6 O 1 0 O O O O O Przykład działania algorytmu Krok pierwszy: Podobnie jak w przypadku metody prostych połączeń wybiera się z macierzy D najmniejszą normę n e = 2 odpowiadającą skupieniom jednoelementowym s 1 = {O 1 } oraz s 2 = {O 2 }. Krok drugi: Wyodrębnione skupienia s 1 i s 2 należy połączyć w skupienie zaglomerowane s a = s (1,2). Krok trzeci Należy zmienić macierz D (tabela 8.5) na macierz D 1 (tabela 8.6) biorąc pod uwagę nowo powstałe skupienia s a. Zmiany tej dokonuje się obliczając średnie odległości pomiędzy skupieniem s a a pozostałymi. Tabela 8.6: Macierz D 1 norm euklidesowych pomiędzy skupieniem s (1,2) i obiektami O 3, O 4, O 5 i O 6 s (1,2) O 3 O 4 O 5 O 6 s (1,2) 0 O O O O Realizując kolejną pętlę algorytmu wykonuje się kolejne kroki: Krok pierwszy: Z macierzy D 1 (tabela 8.6) wybiera się najmniejszą normę n e = 4 odpowiadająca odległości pomiędzy skupieniami s 5 = {O 5 } oraz s (1,2). Krok drugi: Następnie łączy się skupienia s 5 i s (1,2) w nowe zaglomerowane skupienie s (1,2,5). Krok trzeci Zmienia się macierz D 1 (tabela 8.6)na macierz D 2 (tabela 8.7), dokonując odpowiednich przekształceń. 158

19 Tabela 8.7: Macierz D 2 norm euklidesowych pomiędzy skupieniem s (1,2,5) i obiektami O 3, O 4, O 6 s (1,2,5) O 3 O 4 O 6 s (1,2,5) 0 O O 4 73, O 6 129, W przedostatniej pętli realizuje się kroki: Krok pierwszy: z macierzy D 2 (tabela 8.7)wybrana zostaje wartość n e = 5 odpowiadająca odległości pomiędzy skupieniami s 3 = {O 3 }oraz s 6 = {O 6 }. Krok drugi: Skupienia s 3 i s 6 łączy się w skupienie zaglomerowane s a = s (3,6). Krok trzeci: Dokonując przekształceń macierzy D 2 (tabela 8.7) przewidzianych dla kroku trzeciego otrzymuje się macierz D 2 (tabela 8.8). Tabela 8.8: Macierz D 3 norm euklidesowych pomiędzy skupieniami s (1,2,5), s (3,6) i obiektem O 4 s (1,2,5) s (3,6) O 4 s (1,2,5) 0 s (3,6) 139,25 0 O 4 73,5 201,5 0 Kończąc realizację algorytmu wykonuje się ostatnią pętlę: krok pierwszy: Zostaje wybrana norma n e = 73, 5 odpowiadająca odległości między skupieniami s 4 = {O 4 } oraz s (1,2,5). Drugi krok: Następuje połączenie skupienia zaglomerowanego s a = s 1,2,5,4. Krok trzeci: Przekształca się macierz D 3 (tabela 8.8)w macierz D 4. Tabela 8.9: Macierz D 4 norm euklidesowych pomiędzy skupieniami s (1,2,5,4), s (3,6) s (1,2,5,4) s (3,6) s (1,2,5,4) 0 s (3,6) 170,

20 W macierzy D 4 (tabela 8.9) zawarta jest tylko jedna wartość normy euklidesowej n e = 170, 33 określająca odległość pomiędzy skupieniami s (3,6) oraz s (1,2,5,4). Można te dwa skupienia połączyć tworząc skupienie mocne, spinające całą hierarchię skupień. Krok ten kończy analizę. w wyniku przeprowadzonej analizy przedstawione są graficznie w postaci dendrogramu (rysunek 8.8). Rysunek 8.8: Dendrogram uzyskany w wyniku zastosowania metody średnich połączeń 160

21 8.6.3 Metoda średnich ważonych połączeń (WPGMA) Metoda średnich ważonych połączeń określona jest następującym równaniem: d(s a,s k ) = gdzie: n i -liczba obiektów należących do skupienia s i n j -liczba obiektów należących do skupienia s j n i (n i + n j ) d(s n j i,s k ) + (n i + n j ) )d(s j,s k ) (8.2) Proste przekształcenie za pomocą równania 8.2 daje ostatecznie równość określająca odległość zaglomerowanego skupienia s a od każdego innego skupienia s k. Z równania 8.2 widać, że każdorazowo wyliczana odległość jest ważoną średnią arytmetyczną pomiędzy parami skupień ((s i,s k ), ((s j,s k ). Stąd nazwa metody. przykład działania algorytmu Procedura skupiania podobnie jak w przypadku metody prostych połączeń i średnich połączeń składa się z trzech podstawowych kroków.dwa pierwsze kroki sa identyczne i sprowadzają się do wyszukania najbliższych skupień i połączenia ich w nowe skupienia zaglomerowane. Różnica występuje w kroku trzecim, w którym dokonywane jest przekształcenie macierzy odległości (podobieństw). dla omawianej tu procedury przekształcenie to opiera się na wyliczaniu średnich ważonych odległości między nowo powstałym skupieniem zaglomerowanym s a a wszystkimi pozostałymi. Jako wagi przyjmowane są liczebności względne skupień, które w kroku drugim łączone sa w skupienie zaglomerowane s a. Jeżeli przyjmie się do analizy dane z omawianego algorytmu UPGMA (tabela 8.5) to kroki algorytmu WPGMA są następujące: Krok pierwszy: Wybiera się z macierzy D (tabela 8.5) najmniejszą normę n e = 2 odpowiadającą skupieniom s 1 = {O 1 } oraz s 2 = {O 2 }. Krok drugi: Skupienia s 1 i s 2 łączy się w skupienie s a = s 1,2. Krok trzeci: Modyfikuje się macierz D (tabela 8.5) w macierz D 1. Dokonuje się tego wprowadzając nowe odległości pomiędzy nowym zaglomerowanym skupieniem s (1,2), a wszystkimi pozostałymi skupieniami. Redukcji macierzy, która jest związana z ta operacją dokonuje się na podobnych zasadach jak w przypadku metod prostych i średnich połączeń. Stosuje się jedynie inny sposób wyliczania nowych odległości (równanie 8.2). Realizując drugą pętlę wykonujemy kroki: 161

22 Tabela 8.10: Macierz D 1 norm euklidesowych pomiędzy skupieniem s (1,2) i obiektami O3, O4, O5 i O6 s (1,2) O 3 O 4 O 5 O 6 s (1,2) 0 O O O O Krok pierwszy: Analizując macierz D 1 (tabela 8.10) wybiera się najmniejszą normę n e = 4 charakteryzującą skupienie s (1,2) oraz s 5 = {O 5 }. Krok drugi: Tworzy się nowe skupienie s a = s (1,2,5) Krok trzeci: Przekształcając, zgodnie z obowiązującymi zasadami, macierz D 1 (tabela 8.10) uzyskuje się macierz D 2 (tabela 8.11). Tabela 8.11: Macierz D 2 norm euklidesowych pomiędzy skupieniem s (1,2,5) i obiektami O 3, O 4, O 6 s (1,2,5) O 3 O 4 O 6 s (1,2,5) 0 O O 4 76, O 6 134, Realizując kolejną pętlę wykonujemy kroki: Krok pierwszy: W macierzy D 2 (tabela 8.11) wybiera się normę n e = 5 odpowiadającą skupieniom s 3 = {O 3 } oraz s 6 = {O 6 }. Krok drugi: Buduje się skupienia s a = s (3,6). Krok trzeci: Po odpowiednim przekształceniu macierzy D 2 z tabeli 8.11, uzyskuje się macierz D 3 (tabela 8.12). Pętla przedostatnia wygląda następująco: Krok pierwszy: W macierzy D 3 (tabela 8.12) została wybrana norma n e = 76, 33 charakteryzująca odległość pomiędzy skupieniami s (1,2,5) oraz s 4 = {O 4 }. Krok drugi: Zbudowane zostaje skupienie s a = s ()1,2,5,4. 162

23 Tabela 8.12: Macierz D 3 norm euklidesowych pomiędzy skupieniami s (1,2,5), s (3,6) i obiektem O 4 s (1,2,5) s (3,6) O 4 s (1,2,5) 0 s (3,6) 144,83 0 O 4 76,33 201,5 0 Tabela 8.13: Macierz D 4 norm euklidesowych pomiędzy skupieniami s (1,2,5,4), s (3,6) s (1,2,5,4) s (3,6) s (1,2,5,4) 0 s (3,6) Krok trzeci: Następnie przekształca się odpowiednio macierz D 3 (tabela 8.12) i otrzymuje się macierz D 4 (tabela 8.13). Kończąc analizę algorytmu łączy się dwa pozostałe skupienia tworząc jedno mocne skupienie zaglomerowane s a = s (1,2,5,4,3,6). Wynik skupiania można przedstawić w postaci dendrogramu: 163

24 Rysunek 8.9: Dendrogram uzyskany w wyniku zastosowania metody średnich ważonych połączeń 164

25 8.6.4 Metoda środków ciężkości (UPGMC) Metoda środków ciężkości określona jest przez równanie 8.3. d(s a,s k ) = 0.5(d(s i,s k ) + d(s j,s k )) 0.25d(s i,s j ) (8.3) Podobnie jak w przypadku metod opisywanych w poprzednich podrozdziałach, procedura skupiania za pomocą metody środków ciężkości składa się z trzech kroków. Dwa pierwsze sa identyczne z krokami procedur przedstawionych w powyższych metodach klasteryzacji aglomeracyjnej. O odmienności procedury decyduje jak zwykle krok trzeci decydujący o przekształceniu macierzy D. Zasadniczym czynnikiem określającym specyfikę tego przekształcenia jest sposób wyliczania nowych odległości pomiędzy nowym zaglomerowanym skupieniem a skupieniami pozostałymi. Dla omawianej procedury sposób ten jest określony poprzez równanie 8.3. Przykład algorytmu UPGMC Do analizy tej metody wzięto obiekty trójwymiarowe prezentowane w tabeli 8.4 dla których podstawowe odległości są przedstawione w tabeli 8.5. Pierwsza pętla algorytmu jest następująca: Krok pierwszy: Wyszukuje się w macierzy D (tabela 8.5) najmniejszą normę n e. Odpowiada ona skupieniom s 1 = {O 1 } oraz s 2 = {O 2 }. Krok drugi: Buduje się skupienie zaglomerowane s a = s (1,2). Krok trzeci: Przekształca się macierz D (tabela 8.5), posługując się odległościami wyliczonymi z równania 8.3. Uzyskuje się w ten sposób macierz D 1 (tabela 8.14). Tabela 8.14: Macierz D 1 norm euklidesowych pomiędzy skupieniem s (1,2) i obiektami O 3, O 4, O 5 i O 6 s (1,2) O 3 O 4 O 5 O 6 s (1,2) 0 O 3 166,5 0 O 4 81, O 5 3, O 6 144, W kolejnych pętlach algorytm przedstawia się następująco: Krok pierwszy: Z macierzy D 1 (tabela 8.14) wybiera się normę najmocniejszą n e = 3, 5, odpowiadającą skupieniom s (1,2) oraz s 5 = {O 5 }. 165

26 Krok drugi: Buduje się skupienie s a = s 1,2,5. Krok trzeci: Stosując równanie 8.3 przekształca się macierz D 1 (tabela 8.14) w macierz D 2 (tabela 8.15). Tabela 8.15: Macierz D 2 norm euklidesowych pomiędzy skupieniem s (1,2,5) i obiektami O 3, O 4, O 6 s (1,2,5) O 3 O 4 O 6 Trzecia pętla jest następująca: s (1,2,5) 0 O3 147,875 0 O4 72, O6 128, Krok pierwszy: Z macierzy D 2 (tabela 8.15) wybiera się najmniejszą normę n e = 5 odpowiadającą skupieniom s 3 = {O 3 } oraz s 6 = {O 6 }. Krok drugi: Buduje się skupienie zaglomerowane s a = s (3,6). Krok trzeci: Stosując równanie 8.3 przekształca się macierz D 2 w macierz D 3 (tabela 8.16). Tabela 8.16: Macierz D 3 norm euklidesowych pomiędzy skupieniami s (1,2,5), s (3,6) i obiektem O 4 s (1,2,5) s (3,6) O 4 s (1,2,5) 0 s (3,6) 136,87 0 O 4 72,37 200,25 0 Przedostatnia pętla (czwarta) wykonuje następujące kroki: Krok pierwszy: Wybiera się z macierzy D 3 normę n e = 72, 37 odpowiadającą skupieniom s (1,2,5) i s 4 = {O 4 }. Krok drugi: Buduje się skupienie s a = s (1,2,5,4). Krok trzeci: Stosując analogicznie reguły jak w poprzednich pętlach buduje się nowa macierz D 4 (tabela 8.17) Ostatnia pętla ma tylko dwa kroki postępowania: 166

27 Tabela 8.17: Macierz D 4 norm euklidesowych pomiędzy skupieniami s (1,2,5,4), s (3,6) s (1,2,5,4) s (3,6) s (1,2,5,4) 0 s (3,6) 150,47 0 Krok pierwszy: Macierz D 4 (tabela 8.17) zawiera tylko jedną normę n e = 150, 47 opisującą odległość pomiędzy skupieniami s (1,2,5,4) i s (3,6) Krok drugi: Kończąc analizę buduje się mocne skupienie s a = s (1,2,5,4,3,6) Efektem pracy algorytmu jest dendrogram przedstawiony na rysunku Rysunek 8.10: Dendrogram uzyskany w wyniku zastosowania metody środków ciężkości 167

28 8.6.5 Metoda ważonych środków ciężkości (WPGMC) Metoda ważonych środków ciężkości (WPGMC) określona jest następującym równaniem: d(s a,s k ) = (n id(s i,s k ) + n j d(s j,s k ) ninj n i +n j d(s i,d j )) (n i + n j ) gdzie: n i -liczba obiektów należących do skupienia s i n j -liczba obiektów należących do skupienia s j n k -liczba obiektów należących do skupienia s k (8.4) Równanie 8.4 określa sposób wyliczania odległości pomiędzy nowo powstałymi skupieniem zaglomerowanym s a a pozostałymi skupieniami. Jak w przypadku wszystkich metod aglomeracyjnych omawianych powyżej procedura składa się z trzech kroków. Od dotychczas omówionych procedur odróżnia ją oczywiście tylko krok trzeci, a dokładniej - sposób wyliczania odległości pomiędzy nowo powstałymi skupieniami. Równanie 8.4 określa sposób wyliczania tych odległości. Do analizy tej metody wzięto obiekty trójwymiarowe prezentowane w tabeli 8.4 dla których podstawowe odległości są przedstawione w tabeli 8.5. Przykład algorytmu Krok pierwszy: Podobnie jak w przypadku procedur opisywanych do tej pory, wybiera się z macierzy D (tabela 8.5) najmniejszą normę n e = 2 odpowiadającą odległości pomiędzy skupieniami s 1 = {O 1 } i s 2 = {O 2 }. Krok drugi: Buduje się skupienie s a = s (1,2). Krok trzeci: Posługując się równością 8.4 wylicza się nowe odległości pomiędzy skupieniem s (1,2) a pozostałymi skupieniami. Następnie przekształca się macierz D (tabela 8.5) na macierz D 1 (tabela 8.18). W kolejnych pętlach algorytm przedstawia się następująco: Krok pierwszy: Z macierzy D 1 (tabela 8.18)wybiera się nową normę n e = 3, 5 odpowiadającą skupieniom s (1,2) i s 5 = {O 5 }. Krok drugi: Łączy się skupienia s (1,2) i s 5 w zaglomerowane skupienie s a = s (1,2,5). Krok trzeci: Stosując równanie 8.4 przekształca się macierz D 1 (tabela 8.18) w macierz D 2 (tabela 8.19) 168

29 Tabela 8.18: Macierz D 1 norm euklidesowych pomiędzy skupieniem s (1,2) i obiektami O 3, O 4, O 5 i O 6 s (1,2) O 3 O 4 O 5 O 6 s (1,2) 0 O 3 166,5 0 O 4 81, O 5 3, O 6 144, Tabela 8.19: Macierz D 2 norm euklidesowych pomiędzy skupieniem s (1,2,5) i obiektami O 3, O 4, O 6 s (1,2,5) O3 O4 O6 s (1,2,5) 0 O3 153,89 0 O 4 72, O 6 133, Trzecia pętla jest następująca: Krok pierwszy: W macierzy D 2 (tabela 8.19) wyszukuje się najmniejszą normę n e = 5, która odpowiada skupieniom s 3 = {O 3 } i s 6 = {O 6 }. Krok drugi: Buduje się skupienie s a = s (3,6). Krok trzeci: Zgodnie z obowiązującymi zasadami przekształca się macierz D 2 (tabela 8.19) w macierz D 3 (tabela 8.20). Tabela 8.20: Macierz D 3 norm euklidesowych pomiędzy skupieniami s (1,2,5), s (3,6) i obiektem O 4 s (1,2,5) s (3,6) O4 s (1,2,5) 0 s (3,6) 142,475 0 O 4 75,2 200,25 0 Przedostatnia pętla (czwarta) wykonuje następujące kroki: Krok pierwszy: Z macierzy D 3 (tabela 8.20)wybiera się normę n e = 75, 2. Norma ta odpowiada odległości pomiędzy skupieniami s (1,2,5) oraz s 4 = {O 4 }. Krok drugi: Buduje się skupienie s a = s (1,2,5,4). 169

30 Krok trzeci: Zgodnie4 z dotychczasowymi zasadami buduje się nową macierz D 4 (tabela 8.21). Tabela 8.21: Macierz D 4 norm euklidesowych pomiędzy skupieniami s (1,2,5,4), s (3,6) s (1,2,5,4) s (3,6) s (1,2,5,4) 0 s (3,6) 142,82 0 Ostatnia pętla ma tylko dwa kroki postępowania: Krok pierwszy: Jedyna norma zawarta w macierzy D 4 (tabela 8.21) n e = 142, 82 charakteryzuje odległość pomiędzy skupieniami s (1,2,5,4) oraz s (3,6). Krok drugi: W końcowym etapie procedury buduje się skupienie mocne s a = s (1,2,5,4,3,6) wyodrębnione w wyniku analizy skupienia. Efektem pracy algorytmu jest dendrogram przedstawiony na rysunku Rysunek 8.11: Dendrogram uzyskany w wyniku zastosowania metody ważonych środków ciężkości 170

31 8.6.6 Metoda minimalnej wariancji Metoda minimalnej wariancji jest określona przez równanie wyliczające odległość zaglomerowanego skupienia s a od każdego innego skupienia s k. d(s a,s k ) = (n i + n k )d(s i,s k ) + (n j + n k )d(s j,s k ) n k d(s i,s j ) (n i + n j + n k ) (8.5) gdzie: n i -liczba obiektów należących do skupienia s i n j -liczba obiektów należących do skupienia s j n k -liczba obiektów należących do skupienia s k Posługując się równaniem 8.5 dokonuje się niezbędnych przekształceń macierzy odległości D w trzecim kroku procedury skupiania. Ważną cechą tej metody jest zapewnienie minimalizacji kryterium wariancyjnego. Kryterium to głosi, że wariancja wewnątrz skupień jest minimalna. Metoda ta zapewnia zatem homogeniczność wewnątrz skupień i heterogeniczność pomiędzy skupieniami (w sensie minimalizacji i maksymalizacji wariancji). Jak w przypadku metod opisywanych wcześniej algorytm minimalnej wariancji składa się z trzech kroków. Różnicującym krokiem jest oczywiście krok trzeci, w którym w przypadku metody minimalnej wariancji odległość pomiędzy nowo powstałymi skupieniami zaglomerowanym s a a skupieniami pozostałymi s k wyliczana jest na podstawie równania 8.5. Do przedstawienia funkcjonowania algorytmu minimalnej wariancji wzięto dane z poprzednich analiz (tabela 8.4) W pętli pierwszej jak zwykle wybiera się z macierzy D (tabela 8.5) najmniejszą normę n e = 2. Następnie w kroku drugim łączy się w jedno zaglomerowane skupienie skupienia jednoelementowe odpowiadające tej normie s a = S (1,2). W kroku trzecim wylicza się nowe odległości pomiędzy skupieniem s (1,2) a wszystkimi pozostałymi skupieniami, przekształcając jednocześnie macierz D w macierz D 1 (tabela 8.22). Tabela 8.22: Macierz D 1 norm euklidesowych pomiędzy skupieniem s (1,2) i obiektami O 3, O 4, O 5 i O 6 s (1,2) O3 O4 O5 O6 s (1,2) 0 O O 4 108, O 5 4, O 6 192,

32 w kolejnych pętlach: drugiej, trzeciej i czwartej z kolejno tworzonych macierzy D 1 (tabela 8.22), D 2 (tabela 8.23), D 3 (tabela 8.24) wybiera się najmniejsze normy i tworzy się odpowiadające im skupienia zaglomerowane: s (1,2,5) i s (6,3) i s (1,2,5,4). Tabela 8.23: Macierz D 2 norm euklidesowych pomiędzy skupieniem s (1,2,5) i obiektami O 3, O 4, O 6 s (1,2,5) O 3 O 4 O 6 s (1,2,5) 0 O 3 230,83 0 O 4 112, O 6 200, Tabela 8.24: Macierz D 3 norm euklidesowych pomiędzy skupieniami s (1,2,5), s (3,6) i obiektem O 4 s (1,2,5) s (3,6) O 4 s (1,2,5) 0 s (3,6) 341,94 0 O 4 112, W ostatniej, piątej pętli wykonuje się tylko dwa kroki analizy. buduje się mocne skupienie zaglomerowane na podstawie macierzy D 4 (tabela 8.25), stworzonej w pętli czwartej S (1,2,5,4,3,6). Tabela 8.25: Macierz D 4 norm euklidesowych pomiędzy skupieniami s (1,2,5,4), s (3,6) s (1,2,5,4) s (3,6) s (1,2,5,4) 0 s (3,6) W wyniku przeprowadzonej analizy można wykreślić dendrogram ilustrujący otrzymaną hierarchię skupień (rysunek 8.12). 172

33 Rysunek 8.12: Dendrogram uzyskany w wyniku zastosowania metody minimalnej wariancji 173

34 8.7 Grupowanie niehierarchiczne Każdy algorytm niehierarchiczny uzyskuje pojedynczy podział zamiast struktury klastrów, takich jak dendrogram stworzony przez algorytmy hierarchiczne. Klasteryzacja niehierarchiczna ma przewagę nad hierarchiczną w aplikacjach zawierających ogromne ilości danych, dla których tworzenie dendrogramu byłoby procesem bardzo złożonym obliczeniowo. Do metod niehierarchicznych można zaliczyć algorytmy: K-Średnich(K-Means), Narastająca, Rozmyty K-Średnich (Fuzzy K-Means). 174

35 8.7.1 Algorytm K-means Najbardziej popularnym algorytmem niehierarchicznym jest algorytm bazujący na błędzie kwadratowym. Główny cel jest taki, że dla ustalonej liczby klastrów minimalizuje się błąd kwadratowy. Przypuśćmy, że dany mamy zbiór N danych w przestrzeni n-wymiarowej, który ma być podzielony na K klastrów {C 1,C 2,...,C k }, gdzie k = 1,...,K. Średni wektor M k klastra C k jest zwany centrum klastra lub dany jest wzorem: M k = 1 n k x ik (8.6) n k i=1 gdzie x ik jest i-tą zmienną należącą do klastra C k. Błąd kwadratowy dla klastra C k zwany również wariancją wewnątrzklastrową dany jest wzorem: n k e 2 k = (x ik M k ) 2 (8.7) i=1 Błąd kwadratowy dla całej przestrzeni zawierającej klastry jest sumą wariancji wewnątrzklastrowych: K Ek 2 = e 2 k (8.8) Celem tej metody klasterującej jest takie znalezienie podziału na K klastrów, który zminimalizuje Ek 2 dla danego K. Najprostszym i najbardziej rozpowszechnionym algorytmem bazującym na wyliczaniu błędu kwadratowego jest algorytm K-means. Jest to algorytm efektowny obliczeniowo i dający zaskakująco dobre wyniki. Podstawowe jego kroki to: k=1 Wybierz wejściowy podział z K klastrami zawierający losowo wybrane dane i wylicz centra klastrów. Stwórz nowy podział przez przydzielenie każdej danej do najbliższego centrum klastra. Wylicz nowe centra klastrów. powtarzaj kroki 2 i 3 dopóki, dopóty przynależność do klastrów nie ustabilizuje się, bądź optymalna wartość funkcji przypisania jest znana. Przykład Niech dane będą wartości: x 1 = (0, 2),x 2 = (0, 0),x 3 = (1.5, 0),x 4 = (5, 0),x 5 = (5, 2) 175

36 Przypuśmy, że wymagany jest podział zawierający dwa klastry, i wstępnie sformowane klastry zawierają losowo przydzielone dane C 1 = {x 1,x 2,x 4 } i C 2 = {x 3,x 5 } Wtedy centra tych klastrów wynoszą: M 1 = {( )/3, ( )/3} = {1.66, 0.66} M 2 = {( )/2, (0 + 2)/2} = {3.25, 1.00} Wariancja wewnątrzklastrowa, po wstępnym losowym rozkładzie wynosi: e 2 1 = [(0 1.66) 2 +(2 0.66) 2 ]+[(0 1.66) 2 +(0 0.66) 2 ]+[5 1.66) 2 +(0 0.66) 2 ] = e 2 1 = [( ) 2 + (0 1) 2 ] + [(5 3.25) 2 + (2 1) 2 ] = 8.12 Wtedy całkowity błąd kwadratowy wynosi: E 2 = e e 2 2 = = Teraz, jeśli przeniesiemy dane w zależności od minimalnej odległości od centr M 1 i M 2, wtedy nowy rozkład zmiennych w klastrach będzie wyglądał następująco: d(m 1,x 1 ) = ( ) = 2.14 i d(m 2,x 1 ) = 3.40 x 1 C 1 d(m 1,x 2 ) = 1.79 i d(m 2,x 2 ) = 3.40 x 2 C 1 d(m 1,x 3 ) = 0.83 i d(m 2,x 3 ) = 2.01 x 3 C 1 d(m 1,x 4 ) = 3.41 i d(m 2,x 4 ) = 2.01 x 4 C 2 d(m 1,x 5 ) = 3.60 i d(m 2,x 5 ) = 2.01 x 5 C 2 Otrzymaliśmy nowe klastry C 1 = {x 1,x 2,x 3 } i C 2 = {x 4,x 5 }, których centra wynoszą teraz: M 1 = {0.5, 0.67} M 2 = {5.0, 1.0} Odpowiednio wariancja wewnątrzklastrowa i całkowity błąd kwadratowy wynoszą teraz: e 2 1 = 4.17 e 2 2 = 2.00 E 2 = 6.17 Jak widać, po pierwszej iteracji błąd kwadratowy został znacząco zredukowany z wartości do wartości W tym przykładzie pierwsza iteracja jest zarazem 176

37 ostatnią, ponieważ jeśli przeliczymy odległości między danymi a centrami otrzymamy identyczny rozkład danych w klastrach. Algorytm K-means ma wielu zwolenników dzięki szybkości działania. Jego złożoność czasowa wynosi O(nkl), gdzie n to liczba danych, k to liczba klastrów, a l liczba iteracji. Algorytm ten nie wymaga również wiele pamięci. Jego złożoność przestrzenna wynosi O(k + n) i dzięki temu możliwe jest trzymanie wszystkich danych w pamięci, dzięki czemu czas dostępu do wszystkich elementów jest bardzo mały i algorytm jest bardzo efektywny. Wadą algorytmu jest jego mała odporność na szumy i dane niepasujące, ponieważ znacząco one wpływają na wartość średnią. Odmianą algorytmu K-means, która jest bardziej odporna na szumy jest algorytm K-mediods, który zamiast wartości średnich wylicza obiekty reprezentujące klastry. 177

38 8.7.2 Rozmyta metoda analizy skupień Rozmyta metoda K-Średnich (Fuzzy C-Means - FCM) jest iteracyjną metodą skupiania, której idea jest podobna do stosowanej w zwykłej metodzie k-średnich. w tej metodzie centra skupień (cluster neters) - tj. obiekty, które najlepiej, według przyjętego kryterium miary odległości reprezentują skupienia - są otrzymywane w toku iteracji. Rozmyta metoda K-Średnich FCM (Fuzzy C-Means) umożliwia porównywanie obiektów, pozwalając na ujęcie (uwzględnienie) niepewności i niedokładności (rozmytości) właściwej dla tego problemu za pomocą aparatu pojęciowego i matematycznego teorii zbiorów rozmytych. Na podstawie tego algorytmu orzeka się nie to, czy obiekty należą czy nie należą do określonej klasy (jak w klasycznej metodzie skupiania), ale określamy ich stopień mniejszy lub większy przynależności do różnych klas. Liczba skupień musi zostać podana przed rozpoczęciem procedury iteracyjnego skupiania. Ta liczba skupień musi być większa lub równa 2 i mniejsza lub równa liczbie obiektów, dla których budowane są skupienia. Musimy też podać tzw. wykładnik m (m > 1) (ang. exponent). Wykładnik m określa stopień rozmytości rezultatów skupiania. Jeżeli m 1, to wyniki stają się coraz bardziej zbliżone do wyników otrzymanych za pomocą metody "nierozmytej". Jeżeli m, to wartości stopni przynależności obiektów do skupień mają tendencję przyjmowania wielkości coraz bliższych do odwrotności liczby klas c, tj. 1 c. Można założyć, że K to liczba obiektów x k (k = 1,...K), które są opisywane przez N cech z wartościami x k,n (n = 1,...,N). Obiekty te można podzielić na c skupień w następujący sposób: 1. Zainicjowanie skupienia i gdzie i = 1,...,c a k = 1,...K (np. losowo), tak że: c = 1 µ ik [0, 1] dla i = 1,...c k = 1,...,K (8.9) i=1 2. Obliczenie centrów ν i, za pomocą wartości µ ik (określonych w kroku poprzednim) K (µ ik ) m x k k=1 ν i = dla i = 1,...,c. (8.10) K (µ ik ) m k=1 3. Obliczenie nowych wartości stopni przynależności µ nowe ik za pomocą centrów skupień ν i z kroku poprzedniego: µ nowe ik = c 1 ( ν i x k j=1 ν j x k ) dla i = 1,...,c k = 1,...,K (8.11) 178

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu

Bardziej szczegółowo

Hierarchiczna analiza skupień

Hierarchiczna analiza skupień Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym

Bardziej szczegółowo

CLUSTERING. Metody grupowania danych

CLUSTERING. Metody grupowania danych CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means

Bardziej szczegółowo

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania Analiza skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania Analiza Skupień Elementy składowe procesu grupowania obiekt Ekstrakcja cech Sprzężenie zwrotne Grupowanie klastry Reprezentacja

Bardziej szczegółowo

Elementy statystyki wielowymiarowej

Elementy statystyki wielowymiarowej Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych

Bardziej szczegółowo

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633 Grupowanie Grupowanie 7 6 5 4 y 3 2 1 0-3 -2-1 0 1 2 3 4 5-1 -2-3 -4 x Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633 Wprowadzenie Celem procesu grupowania jest podział zbioru

Bardziej szczegółowo

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska Algorytmy rozpoznawania obrazów 11. Analiza skupień dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Analiza skupień Określenia: analiza skupień (cluster analysis), klasteryzacja (clustering), klasyfikacja

Bardziej szczegółowo

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny

Bardziej szczegółowo

operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je.

operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je. Problem porządkowania zwanego również sortowaniem jest jednym z najważniejszych i najpopularniejszych zagadnień informatycznych. Dane: Liczba naturalna n i ciąg n liczb x 1, x 2,, x n. Wynik: Uporządkowanie

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Analiza składowych głównych. Wprowadzenie

Analiza składowych głównych. Wprowadzenie Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących

Bardziej szczegółowo

Agnieszka Nowak Brzezińska

Agnieszka Nowak Brzezińska Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia

Bardziej szczegółowo

Sortowanie Shella Shell Sort

Sortowanie Shella Shell Sort Sortowanie Shella Shell Sort W latach 50-tych ubiegłego wieku informatyk Donald Shell zauważył, iż algorytm sortowania przez wstawianie pracuje bardzo efektywnie w przypadku gdy zbiór jest w dużym stopniu

Bardziej szczegółowo

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1 Grupowanie Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Grupowanie wykład 1 Sformułowanie problemu Dany jest zbiór obiektów (rekordów). Znajdź naturalne pogrupowanie

Bardziej szczegółowo

3. FUNKCJA LINIOWA. gdzie ; ół,.

3. FUNKCJA LINIOWA. gdzie ; ół,. 1 WYKŁAD 3 3. FUNKCJA LINIOWA FUNKCJĄ LINIOWĄ nazywamy funkcję typu : dla, gdzie ; ół,. Załóżmy na początek, że wyraz wolny. Wtedy mamy do czynienia z funkcją typu :.. Wykresem tej funkcji jest prosta

Bardziej szczegółowo

Co to jest grupowanie

Co to jest grupowanie Grupowanie danych Co to jest grupowanie 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Szukanie grup, obszarów stanowiących lokalne gromady punktów Co to jest grupowanie

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

Programowanie celowe #1

Programowanie celowe #1 Programowanie celowe #1 Problem programowania celowego (PC) jest przykładem problemu programowania matematycznego nieliniowego, który można skutecznie zlinearyzować, tzn. zapisać (i rozwiązać) jako problem

Bardziej szczegółowo

Algorytm grupowania danych typu kwantyzacji wektorów

Algorytm grupowania danych typu kwantyzacji wektorów Algorytm grupowania danych typu kwantyzacji wektorów Wstęp Definicja problemu: Typowe, problemem często spotykanym w zagadnieniach eksploracji danych (ang. data mining) jest zagadnienie grupowania danych

Bardziej szczegółowo

Prawdopodobieństwo czerwonych = = 0.33

Prawdopodobieństwo czerwonych = = 0.33 Temat zajęć: Naiwny klasyfikator Bayesa a algorytm KNN Część I: Naiwny klasyfikator Bayesa Naiwny klasyfikator bayerowski jest prostym probabilistycznym klasyfikatorem. Naiwne klasyfikatory bayesowskie

Bardziej szczegółowo

Czym jest analiza skupień?

Czym jest analiza skupień? Statystyczna analiza danych z pakietem SAS Analiza skupień metody hierarchiczne Czym jest analiza skupień? wielowymiarowa technika pozwalająca wykrywać współzależności między obiektami; ściśle związana

Bardziej szczegółowo

Metody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania

Metody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania Wielowymiarowe metody segmentacji CHAID Metoda Automatycznej Detekcji Interakcji CHAID Cele CHAID Dane CHAID Przebieg analizy CHAID Parametry CHAID Wyniki Metody analizy skupień Wprowadzenie Charakterystyka

Bardziej szczegółowo

3. Macierze i Układy Równań Liniowych

3. Macierze i Układy Równań Liniowych 3. Macierze i Układy Równań Liniowych Rozważamy równanie macierzowe z końcówki ostatniego wykładu ( ) 3 1 X = 4 1 ( ) 2 5 Podstawiając X = ( ) x y i wymnażając, otrzymujemy układ 2 równań liniowych 3x

Bardziej szczegółowo

Algorytm grupowania danych typu kwantyzacji wektorów

Algorytm grupowania danych typu kwantyzacji wektorów Algorytm grupowania danych typu kwantyzacji wektorów Wstęp Definicja problemu: Typowe, rozważane dotychczas problemy koncentrowały się na nauczeniu na podstawie zbioru treningowego i zbioru etykiet klasyfikacji

Bardziej szczegółowo

Spacery losowe generowanie realizacji procesu losowego

Spacery losowe generowanie realizacji procesu losowego Spacery losowe generowanie realizacji procesu losowego Michał Krzemiński Streszczenie Omówimy metodę generowania trajektorii spacerów losowych (błądzenia losowego), tj. szczególnych procesów Markowa z

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Eksploracja danych Co to znaczy eksploracja danych Klastrowanie (grupowanie) hierarchiczne Klastrowanie

Bardziej szczegółowo

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej) Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej) 1 Podział ze względu na zakres danych użytych do wyznaczenia miary Miary opisujące

Bardziej szczegółowo

Systemy uczące się Lab 4

Systemy uczące się Lab 4 Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego

Bardziej szczegółowo

SZTUCZNA INTELIGENCJA

SZTUCZNA INTELIGENCJA SZTUCZNA INTELIGENCJA SYSTEMY ROZMYTE Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej Katedra Automatyki i Inżynierii Biomedycznej Laboratorium

Bardziej szczegółowo

Luty 2001 Algorytmy (4) 2000/2001

Luty 2001 Algorytmy (4) 2000/2001 Mając dany zbiór elementów, chcemy znaleźć w nim element największy (maksimum), bądź najmniejszy (minimum). We wszystkich naturalnych metodach znajdywania najmniejszego i największego elementu obecne jest

Bardziej szczegółowo

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów. ANALIZA SKUPIEŃ Metoda k-means I. Cel zadania Zadaniem jest analiza zbioru danych, gdzie zmiennymi są poziomy ekspresji genów. Podczas badań pobrano próbki DNA od 36 różnych pacjentów z chorobą nowotworową.

Bardziej szczegółowo

D. Miszczyńska, M.Miszczyński KBO UŁ 1 GRY KONFLIKTOWE GRY 2-OSOBOWE O SUMIE WYPŁAT ZERO

D. Miszczyńska, M.Miszczyński KBO UŁ 1 GRY KONFLIKTOWE GRY 2-OSOBOWE O SUMIE WYPŁAT ZERO D. Miszczyńska, M.Miszczyński KBO UŁ GRY KONFLIKTOWE GRY 2-OSOBOWE O SUMIE WYPŁAT ZERO Gra w sensie niżej przedstawionym to zasady którymi kierują się decydenci. Zakładamy, że rezultatem gry jest wypłata,

Bardziej szczegółowo

5. Rozwiązywanie układów równań liniowych

5. Rozwiązywanie układów równań liniowych 5. Rozwiązywanie układów równań liniowych Wprowadzenie (5.1) Układ n równań z n niewiadomymi: a 11 +a 12 x 2 +...+a 1n x n =a 10, a 21 +a 22 x 2 +...+a 2n x n =a 20,..., a n1 +a n2 x 2 +...+a nn x n =a

Bardziej szczegółowo

Analiza głównych składowych- redukcja wymiaru, wykł. 12

Analiza głównych składowych- redukcja wymiaru, wykł. 12 Analiza głównych składowych- redukcja wymiaru, wykł. 12 Joanna Jędrzejowicz Instytut Informatyki Konieczność redukcji wymiaru w eksploracji danych bazy danych spotykane w zadaniach eksploracji danych mają

Bardziej szczegółowo

Inteligencja obliczeniowa

Inteligencja obliczeniowa Ćwiczenie nr 3 Zbiory rozmyte logika rozmyta Sterowniki wielowejściowe i wielowyjściowe, relacje rozmyte, sposoby zapisu reguł, aproksymacja funkcji przy użyciu reguł rozmytych, charakterystyki przejściowe

Bardziej szczegółowo

Jeśli X jest przestrzenią o nieskończonej liczbie elementów:

Jeśli X jest przestrzenią o nieskończonej liczbie elementów: Logika rozmyta 2 Zbiór rozmyty może być formalnie zapisany na dwa sposoby w zależności od tego z jakim typem przestrzeni elementów mamy do czynienia: Jeśli X jest przestrzenią o skończonej liczbie elementów

Bardziej szczegółowo

Materiały dla finalistów

Materiały dla finalistów Materiały dla finalistów Malachoviacus Informaticus 2016 11 kwietnia 2016 Wprowadzenie Poniższy dokument zawiera opisy zagadnień, które będą niezbędne do rozwiązania zadań w drugim etapie konkursu. Polecamy

Bardziej szczegółowo

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów: Na dzisiejszym wykładzie omówimy najważniejsze charakterystyki liczbowe występujące w statystyce opisowej. Poszczególne wzory będziemy podawać w miarę potrzeby w trzech postaciach: dla szeregu szczegółowego,

Bardziej szczegółowo

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej

Bardziej szczegółowo

Pochodna i różniczka funkcji oraz jej zastosowanie do obliczania niepewności pomiarowych

Pochodna i różniczka funkcji oraz jej zastosowanie do obliczania niepewności pomiarowych Pochodna i różniczka unkcji oraz jej zastosowanie do obliczania niepewności pomiarowych Krzyszto Rębilas DEFINICJA POCHODNEJ Pochodna unkcji () w punkcie określona jest jako granica: lim 0 Oznaczamy ją

Bardziej szczegółowo

Alicja Marszałek Różne rodzaje baz danych

Alicja Marszałek Różne rodzaje baz danych Alicja Marszałek Różne rodzaje baz danych Rodzaje baz danych Bazy danych można podzielić wg struktur organizacji danych, których używają. Można podzielić je na: Bazy proste Bazy złożone Bazy proste Bazy

Bardziej szczegółowo

Inteligentna analiza danych

Inteligentna analiza danych Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki

Bardziej szczegółowo

Wykład 2. Statystyka opisowa - Miary rozkładu: Miary położenia

Wykład 2. Statystyka opisowa - Miary rozkładu: Miary położenia Wykład 2 Statystyka opisowa - Miary rozkładu: Miary położenia Podział miar Miary położenia (measures of location): 1. Miary tendencji centralnej (measures of central tendency, averages): Średnia arytmetyczna

Bardziej szczegółowo

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe PB, 2009 2010 Sztuczna Inteligencja Tematy projektów Sieci Neuronowe Projekt 1 Stwórz projekt implementujący jednokierunkową sztuczną neuronową złożoną z neuronów typu sigmoidalnego z algorytmem uczenia

Bardziej szczegółowo

Algorytmy sortujące i wyszukujące

Algorytmy sortujące i wyszukujące Algorytmy sortujące i wyszukujące Zadaniem algorytmów sortujących jest ułożenie elementów danego zbioru w ściśle określonej kolejności. Najczęściej wykorzystywany jest porządek numeryczny lub leksykograficzny.

Bardziej szczegółowo

Idea. Algorytm zachłanny Algorytmy hierarchiczne Metoda K-średnich Metoda hierarchiczna, a niehierarchiczna. Analiza skupień

Idea. Algorytm zachłanny Algorytmy hierarchiczne Metoda K-średnich Metoda hierarchiczna, a niehierarchiczna. Analiza skupień Idea jest narzędziem analizy danych służącym do grupowania n obiektów, opisanych za pomocą wektora p-cech, w K niepustych, rozłącznych i możliwie jednorodnych grup skupień. Obiekty należące do danego skupienia

Bardziej szczegółowo

Wykład 4: Statystyki opisowe (część 1)

Wykład 4: Statystyki opisowe (część 1) Wykład 4: Statystyki opisowe (część 1) Wprowadzenie W przypadku danych mających charakter liczbowy do ich charakterystyki można wykorzystać tak zwane STATYSTYKI OPISOWE. Za pomocą statystyk opisowych można

Bardziej szczegółowo

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu

Bardziej szczegółowo

Sieci Kohonena Grupowanie

Sieci Kohonena Grupowanie Sieci Kohonena Grupowanie http://zajecia.jakubw.pl/nai UCZENIE SIĘ BEZ NADZORU Załóżmy, że mamy za zadanie pogrupować następujące słowa: cup, roulette, unbelievable, cut, put, launderette, loveable Nie

Bardziej szczegółowo

Funkcje liniowe i wieloliniowe w praktyce szkolnej. Opracowanie : mgr inż. Renata Rzepińska

Funkcje liniowe i wieloliniowe w praktyce szkolnej. Opracowanie : mgr inż. Renata Rzepińska Funkcje liniowe i wieloliniowe w praktyce szkolnej Opracowanie : mgr inż. Renata Rzepińska . Wprowadzenie pojęcia funkcji liniowej w nauczaniu matematyki w gimnazjum. W programie nauczania matematyki w

Bardziej szczegółowo

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta www.michalbereta.pl Sieci radialne zawsze posiadają jedną warstwę ukrytą, która składa się z neuronów radialnych. Warstwa wyjściowa składa

Bardziej szczegółowo

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium IX: Analiza skupień

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium IX: Analiza skupień 1 Laboratorium IX: Analiza skupień Spis treści Laboratorium IX: Analiza skupień... 1 Wiadomości ogólne... 2 1. Wstęp teoretyczny.... 2 1.1. Wprowadzenie.... 2 1.2. Metody hierarchiczne analizy skupień....

Bardziej szczegółowo

Wykład 5: Statystyki opisowe (część 2)

Wykład 5: Statystyki opisowe (część 2) Wykład 5: Statystyki opisowe (część 2) Wprowadzenie Na poprzednim wykładzie wprowadzone zostały statystyki opisowe nazywane miarami położenia (średnia, mediana, kwartyle, minimum i maksimum, modalna oraz

Bardziej szczegółowo

Metody numeryczne Technika obliczeniowa i symulacyjna Sem. 2, EiT, 2014/2015

Metody numeryczne Technika obliczeniowa i symulacyjna Sem. 2, EiT, 2014/2015 Metody numeryczne Technika obliczeniowa i symulacyjna Sem. 2, EiT, 2014/2015 1 Metody numeryczne Dział matematyki Metody rozwiązywania problemów matematycznych za pomocą operacji na liczbach. Otrzymywane

Bardziej szczegółowo

1 Układy równań liniowych

1 Układy równań liniowych II Metoda Gaussa-Jordana Na wykładzie zajmujemy się układami równań liniowych, pojawi się też po raz pierwszy macierz Formalną (i porządną) teorią macierzy zajmiemy się na kolejnych wykładach Na razie

Bardziej szczegółowo

Rozdział 1 PROGRAMOWANIE LINIOWE

Rozdział 1 PROGRAMOWANIE LINIOWE Wprowadzenie do badań operacyjnych z komputerem Opisy programów, ćwiczenia komputerowe i zadania. T. Trzaskalik (red.) Rozdział 1 PROGRAMOWANIE LINIOWE 1.2 Ćwiczenia komputerowe Ćwiczenie 1.1 Wykorzystując

Bardziej szczegółowo

Przetwarzanie obrazów wykład 4

Przetwarzanie obrazów wykład 4 Przetwarzanie obrazów wykład 4 Adam Wojciechowski Wykład opracowany na podstawie Komputerowa analiza i przetwarzanie obrazów R. Tadeusiewicz, P. Korohoda Filtry nieliniowe Filtry nieliniowe (kombinowane)

Bardziej szczegółowo

Sortowanie przez wstawianie Insertion Sort

Sortowanie przez wstawianie Insertion Sort Sortowanie przez wstawianie Insertion Sort Algorytm sortowania przez wstawianie można porównać do sposobu układania kart pobieranych z talii. Najpierw bierzemy pierwszą kartę. Następnie pobieramy kolejne,

Bardziej szczegółowo

KADD Minimalizacja funkcji

KADD Minimalizacja funkcji Minimalizacja funkcji Poszukiwanie minimum funkcji Foma kwadratowa Metody przybliżania minimum minimalizacja Minimalizacja w n wymiarach Metody poszukiwania minimum Otaczanie minimum Podział obszaru zawierającego

Bardziej szczegółowo

0 + 0 = 0, = 1, = 1, = 0.

0 + 0 = 0, = 1, = 1, = 0. 5 Kody liniowe Jak już wiemy, w celu przesłania zakodowanego tekstu dzielimy go na bloki i do każdego z bloków dodajemy tak zwane bity sprawdzające. Bity te są w ścisłej zależności z bitami informacyjnymi,

Bardziej szczegółowo

METODY INŻYNIERII WIEDZY

METODY INŻYNIERII WIEDZY METODY INŻYNIERII WIEDZY Metoda K Najbliższych Sąsiadów K-Nearest Neighbours (KNN) ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

PODSTAWY AUTOMATYKI. MATLAB - komputerowe środowisko obliczeń naukowoinżynierskich - podstawowe operacje na liczbach i macierzach.

PODSTAWY AUTOMATYKI. MATLAB - komputerowe środowisko obliczeń naukowoinżynierskich - podstawowe operacje na liczbach i macierzach. WYDZIAŁ ELEKTROTECHNIKI I AUTOMATYKI Katedra Inżynierii Systemów Sterowania PODSTAWY AUTOMATYKI MATLAB - komputerowe środowisko obliczeń naukowoinżynierskich - podstawowe operacje na liczbach i macierzach.

Bardziej szczegółowo

METODY INŻYNIERII WIEDZY

METODY INŻYNIERII WIEDZY METODY INŻYNIERII WIEDZY Metoda K Najbliższych Sąsiadów K-Nearest Neighbours (KNN) ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

KADD Minimalizacja funkcji

KADD Minimalizacja funkcji Minimalizacja funkcji n-wymiarowych Forma kwadratowa w n wymiarach Procedury minimalizacji Minimalizacja wzdłuż prostej w n-wymiarowej przestrzeni Metody minimalizacji wzdłuż osi współrzędnych wzdłuż kierunków

Bardziej szczegółowo

Metody iteracyjne rozwiązywania układów równań liniowych (5.3) Normy wektorów i macierzy (5.3.1) Niech. x i. i =1

Metody iteracyjne rozwiązywania układów równań liniowych (5.3) Normy wektorów i macierzy (5.3.1) Niech. x i. i =1 Normy wektorów i macierzy (5.3.1) Niech 1 X =[x x Y y =[y1 x n], oznaczają wektory przestrzeni R n, a yn] niech oznacza liczbę rzeczywistą. Wyrażenie x i p 5.3.1.a X p = p n i =1 nosi nazwę p-tej normy

Bardziej szczegółowo

Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II

Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II Wykład 6. Drzewa cz. II 1 / 65 drzewa spinające Drzewa spinające Zliczanie drzew spinających Drzewo T nazywamy drzewem rozpinającym (spinającym) (lub dendrytem) spójnego grafu G, jeżeli jest podgrafem

Bardziej szczegółowo

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów

Bardziej szczegółowo

Testy nieparametryczne

Testy nieparametryczne Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów

Bardziej szczegółowo

Algorytmy sztucznej inteligencji

Algorytmy sztucznej inteligencji www.math.uni.lodz.pl/ radmat Przeszukiwanie z ograniczeniami Zagadnienie przeszukiwania z ograniczeniami stanowi grupę problemów przeszukiwania w przestrzeni stanów, które składa się ze: 1 skończonego

Bardziej szczegółowo

Algorytmy wyznaczania centralności w sieci Szymon Szylko

Algorytmy wyznaczania centralności w sieci Szymon Szylko Algorytmy wyznaczania centralności w sieci Szymon Szylko Zakład systemów Informacyjnych Wrocław 10.01.2008 Agenda prezentacji Cechy sieci Algorytmy grafowe Badanie centralności Algorytmy wyznaczania centralności

Bardziej szczegółowo

Metody numeryczne Wykład 4

Metody numeryczne Wykład 4 Metody numeryczne Wykład 4 Dr inż. Michał Łanczont Instytut Elektrotechniki i Elektrotechnologii E419, tel. 4293, m.lanczont@pollub.pl, http://m.lanczont.pollub.pl Zakres wykładu Metody skończone rozwiązywania

Bardziej szczegółowo

Algorytm. Krótka historia algorytmów

Algorytm. Krótka historia algorytmów Algorytm znaczenie cybernetyczne Jest to dokładny przepis wykonania w określonym porządku skończonej liczby operacji, pozwalający na rozwiązanie zbliżonych do siebie klas problemów. znaczenie matematyczne

Bardziej szczegółowo

Zmienne zależne i niezależne

Zmienne zależne i niezależne Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }

Bardziej szczegółowo

Wstęp do Techniki Cyfrowej... Teoria automatów

Wstęp do Techniki Cyfrowej... Teoria automatów Wstęp do Techniki Cyfrowej... Teoria automatów Alfabety i litery Układ logiczny opisywany jest przez wektory, których wartości reprezentowane są przez ciągi kombinacji zerojedynkowych. Zwiększenie stopnia

Bardziej szczegółowo

Spośród licznych filtrów nieliniowych najlepszymi właściwościami odznacza się filtr medianowy prosty i skuteczny.

Spośród licznych filtrów nieliniowych najlepszymi właściwościami odznacza się filtr medianowy prosty i skuteczny. Filtracja nieliniowa może być bardzo skuteczną metodą polepszania jakości obrazów Filtry nieliniowe Filtr medianowy Spośród licznych filtrów nieliniowych najlepszymi właściwościami odznacza się filtr medianowy

Bardziej szczegółowo

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Statystyka opisowa. Wykład I. Elementy statystyki opisowej Statystyka opisowa. Wykład I. e-mail:e.kozlovski@pollub.pl Spis treści Elementy statystyku opisowej 1 Elementy statystyku opisowej 2 3 Elementy statystyku opisowej Definicja Statystyka jest to nauka o

Bardziej szczegółowo

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization Wrocław University of Technology SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization Jakub M. Tomczak Studenckie Koło Naukowe Estymator jakub.tomczak@pwr.wroc.pl 4.1.213 Klasteryzacja Zmienne

Bardziej szczegółowo

Analiza składowych głównych

Analiza składowych głównych Analiza składowych głównych Wprowadzenie (1) W przypadku regresji naszym celem jest predykcja wartości zmiennej wyjściowej za pomocą zmiennych wejściowych, wykrycie związku między wielkościami wejściowymi

Bardziej szczegółowo

Poznań, 14 grudnia 2002. Case Study 2 Analiza skupień

Poznań, 14 grudnia 2002. Case Study 2 Analiza skupień Poznań, 14 grudnia 2002 Case Study 2 Analiza skupień Celem ćwiczenia jest przeprowadzenie procesu grupowania / analizy skupień dla jednego z wybranych zbiorów danych (tj. dostarczonych przez prowadzącego).

Bardziej szczegółowo

Algorytmy sortujące. sortowanie kubełkowe, sortowanie grzebieniowe

Algorytmy sortujące. sortowanie kubełkowe, sortowanie grzebieniowe Algorytmy sortujące sortowanie kubełkowe, sortowanie grzebieniowe Sortowanie kubełkowe (bucket sort) Jest to jeden z najbardziej popularnych algorytmów sortowania. Został wynaleziony w 1956 r. przez E.J.

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO

STATYSTYKA I DOŚWIADCZALNICTWO STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6 Test niezależności chi-kwadrat (χ 2 ) Cel: ocena występowania zależności między dwiema cechami jakościowymi/skategoryzowanymi X- pierwsza cecha; Y druga cecha Przykłady

Bardziej szczegółowo

Teraz bajty. Informatyka dla szkoły podstawowej. Klasa VI

Teraz bajty. Informatyka dla szkoły podstawowej. Klasa VI 1 Teraz bajty. Informatyka dla szkoły podstawowej. Klasa VI 1. Obliczenia w arkuszu kalkulacyjnym Rozwiązywanie problemów z wykorzystaniem aplikacji komputerowych obliczenia w arkuszu kalkulacyjnym wykonuje

Bardziej szczegółowo

Analiza skupień. Idea

Analiza skupień. Idea Idea Analiza skupień Analiza skupień jest narzędziem analizy danych służącym do grupowania n obiektów, opisanych za pomocą wektora p-cech, w K niepustych, rozłącznych i możliwie jednorodnych grup skupień.

Bardziej szczegółowo

Wnioskowanie bayesowskie

Wnioskowanie bayesowskie Wnioskowanie bayesowskie W podejściu klasycznym wnioskowanie statystyczne oparte jest wyłącznie na podstawie pobranej próby losowej. Możemy np. estymować punktowo lub przedziałowo nieznane parametry rozkładów,

Bardziej szczegółowo

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006 SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu

Bardziej szczegółowo

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1. Zadania ze statystyki cz. 8 I rok socjologii Zadanie 1. W potocznej opinii pokutuje przekonanie, że lepsi z matematyki są chłopcy niż dziewczęta. Chcąc zweryfikować tę opinię, przeprowadzono badanie w

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO

STATYSTYKA I DOŚWIADCZALNICTWO STATYSTYKA I DOŚWIADCZALNICTWO Wykład 9 Analiza skupień wielowymiarowa klasyfikacja obiektów Metoda, a właściwie to zbiór metod pozwalających na grupowanie obiektów pod względem wielu cech jednocześnie.

Bardziej szczegółowo

ROZKŁAD MATERIAŁU DO II KLASY LICEUM (ZAKRES ROZSZERZONY) A WYMAGANIA PODSTAWY PROGRAMOWEJ.

ROZKŁAD MATERIAŁU DO II KLASY LICEUM (ZAKRES ROZSZERZONY) A WYMAGANIA PODSTAWY PROGRAMOWEJ. ROZKŁAD MATERIAŁU DO II KLASY LICEUM (ZAKRES ROZSZERZONY) A WYMAGANIA PODSTAWY PROGRAMOWEJ. LICZBA TEMAT GODZIN LEKCYJNYCH Potęgi, pierwiastki i logarytmy (8 h) Potęgi 3 Pierwiastki 3 Potęgi o wykładnikach

Bardziej szczegółowo

Programowanie w języku C++ Agnieszka Nowak Brzezińska Laboratorium nr 2

Programowanie w języku C++ Agnieszka Nowak Brzezińska Laboratorium nr 2 Programowanie w języku C++ Agnieszka Nowak Brzezińska Laboratorium nr 2 1 program Kontynuujemy program który wczytuje dystans i ilości paliwa zużytego na trasie, ale z kontrolą danych. A więc jeśli coś

Bardziej szczegółowo

wagi cyfry 7 5 8 2 pozycje 3 2 1 0

wagi cyfry 7 5 8 2 pozycje 3 2 1 0 Wartość liczby pozycyjnej System dziesiętny W rozdziale opiszemy pozycyjne systemy liczbowe. Wiedza ta znakomicie ułatwi nam zrozumienie sposobu przechowywania liczb w pamięci komputerów. Na pierwszy ogień

Bardziej szczegółowo

Treść wykładu. Układy równań i ich macierze. Rząd macierzy. Twierdzenie Kroneckera-Capellego.

Treść wykładu. Układy równań i ich macierze. Rząd macierzy. Twierdzenie Kroneckera-Capellego. . Metoda eliminacji. Treść wykładu i ich macierze... . Metoda eliminacji. Ogólna postać układu Układ m równań liniowych o n niewiadomych x 1, x 2,..., x n : a 11 x 1 + a 12 x 2 + + a 1n x n = b 1 a 21

Bardziej szczegółowo

Skalowanie wielowymiarowe idea

Skalowanie wielowymiarowe idea Skalowanie wielowymiarowe idea Jedną z wad metody PCA jest możliwość używania jedynie zmiennych ilościowych, kolejnym konieczność posiadania pełnych danych z doświadczenia(nie da się użyć PCA jeśli mamy

Bardziej szczegółowo

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi Piotr Konieczka Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska D syst D śr m 1 3 5 2 4 6 śr j D 1

Bardziej szczegółowo

Temat: Sieci neuronowe oraz technologia CUDA

Temat: Sieci neuronowe oraz technologia CUDA Elbląg, 27.03.2010 Temat: Sieci neuronowe oraz technologia CUDA Przygotował: Mateusz Górny VIII semestr ASiSK Wstęp Sieci neuronowe są to specyficzne struktury danych odzwierciedlające sieć neuronów w

Bardziej szczegółowo

WYKŁAD 9 METODY ZMIENNEJ METRYKI

WYKŁAD 9 METODY ZMIENNEJ METRYKI WYKŁAD 9 METODY ZMIENNEJ METRYKI Kierunki sprzężone. Metoda Newtona Raphsona daje dobre przybliżenie najlepszego kierunku poszukiwań, lecz jest to okupione znacznym kosztem obliczeniowym zwykle postać

Bardziej szczegółowo

Kryteria oceniania z matematyki Klasa III poziom podstawowy

Kryteria oceniania z matematyki Klasa III poziom podstawowy Kryteria oceniania z matematyki Klasa III poziom podstawowy Potęgi Zakres Dopuszczający Dostateczny Dobry Bardzo dobry oblicza potęgi o wykładnikach wymiernych; zna prawa działań na potęgach i potrafi

Bardziej szczegółowo

Funkcje wymierne. Jerzy Rutkowski. Działania dodawania i mnożenia funkcji wymiernych określa się wzorami: g h + k l g h k.

Funkcje wymierne. Jerzy Rutkowski. Działania dodawania i mnożenia funkcji wymiernych określa się wzorami: g h + k l g h k. Funkcje wymierne Jerzy Rutkowski Teoria Przypomnijmy, że przez R[x] oznaczamy zbiór wszystkich wielomianów zmiennej x i o współczynnikach rzeczywistych Definicja Funkcją wymierną jednej zmiennej nazywamy

Bardziej szczegółowo