Algorytm k-średnich. Źródło: LaroseD.T., Okrywanie wiedzy w danych.wprowadzenie do eksploracji danych, PWN, Warszawa 2005.

Wielkość: px

Rozpocząć pokaz od strony:

Download "Algorytm k-średnich. Źródło: LaroseD.T., Okrywanie wiedzy w danych.wprowadzenie do eksploracji danych, PWN, Warszawa 2005."

Kazimierz Krupa
7 lat temu
Przeglądów:

1 Algorytm k-średnich Źródło: LaroseD.T., Okrywanie wiedzy w danych.wprowadzenie do eksploracji danych, PWN, Warszawa 005.

2 Dane a b c d e f g h (,3) (3,3) (4,3) (5,3) (,) (4,) (,) (,)

3 Algorytm k-średnich KROK. Zapytaj decydenta na ile klas podzielić zbiór danych.

4 Dane a b c d e f g h (,3) (3,3) (4,3) (5,3) (,) (4,) (,) (,) k

5 KROK. Wybierz losowo k-rekordów jako początkowe centra klas.

6 a b c d e f g h (,3) (3,3) (4,3) (5,3) (,) (4,) (,) (,) k Centra klas

7 KROK 3 (przebieg ). Dla każdego rekordu, znajdź najbliższe centrum: n n n m i n k k x i, xi,..., xri, n i k n i k i Mówimy, że każde centrum skupia pewien podzbiór danych, tym samym tworząc podział całego zbioru danych. Otrzymujemy w ten sposób kklasc,c,,c k. k k

8 a b c d e f g h (,3) (3,3) (4,3) (5,3) (,) (4,) (,) (,) Punkt Odległość od m(, ) Odległość od m(, ) a,00,4 C b,83,4 C c 3,6,83 C d 4,47 3,6 C e,00,4 C f 3,6,4 C g 0,00,00 C h,00 0,00 C klasy C{a(,3), e(,), g(,)} Najbliższe centrum centrum m(, ) m(, ) C{b(3,3), c(4,3), d(5,3), f(4,), h(,)

9 3,5 3,5,5 0, Klasy C{a(,3), e(,), g(,)} C{b(3,3), c(4,3), d(5,3), f(4,), h(,)}

10 Kryterium homogeniczności BCV WCV max gdzie: BSV d ( m m ) WCV SSE, wariancja między klasami k i p C i d ( p, m ) i wariancja wewnątrz klas

11 Punkt Kryterium homogeniczności Odległość od m(,) Odległość od m(,) Najbliższe centrum a,00,4 C b,83,4 C c 3,6,83 C d 4,47 3,6 C e,00,4 C f 3,6,4 C g 0,00,00 C h,00 0,00 C BSV d ( m, m ) WCV SSE k i p C i d ( p, m ) i BCV WCV

12 KROK 4 (pierwszy przebieg). Dla każdej klasy znajdź nowe centrum.

13 3,5 3,5,5 0, Klasy Centra C{a(,3), e(,), g(,)} m((++)/3, (3++)/3)(, ) C{b(3,3), c(4,3), d(5,3), f(4,), h(,)} m(( )/5, ( )/5))(3.6,.4)

14 KROK 5. Powtarzaj kroki 3-5 aż do spełnienia kryterium stopu.

15 KROK 3 (drugi przebieg). Dla każdego rekordu, znajdź najbliższe centrum: n n n m i n k k x i, xi,..., xri, n i k n i k i Każde centrum skupia pewien podzbiór danych (najbliższych rekordów), tym samym tworząc podział całego zbioru danych. Otrzymujemy w ten sposób kklasc,c,,c k. k k

16 a b c d e f g h (,3) (3,3) (4,3) (5,3) (,) (4,) (,) (,) Punkt Odległość od m(, ) Odległość od m(3.6,.4) a C b C c C d 4..5 C e C f C g C h.4.3 C Najbliższe centrum Nowe centra m(, ) m(3.6,.4) Nowe klasy C{a(,3), e(,), g(,), h(,)} C{b(3,3), c(4,3), d(5,3), f(4,)}

17 3,5 3,5,5 0, Klasy C{a(,3), e(,), g(,), h(,)} C{b(3,3), c(4,3), d(5,3), f(4,)}

18 Kryterium Punkt Odległość od m(, ) Odległość od m(3.6,.4) Najbliższe centrum a C b C c C d 4..5 C e C f C g C BCV WCV + BCV WCV 0.85 h.4.3 C d ( m, m ) SSE k.63 i p C > i + d 0 ( p, m ) + i ( pierwszyprzebieg) 7.88

19 KROK 4 (drugi przebieg). Dla każdej klasy znajdź nowe centrum.

20 3,5 3,5,5 0, Klasy C{a(,3), e(,), g(,), h(,)} m((+++)/4, (3+++)/4)(.5,.75) C{b(3,3), c(4,3), d(5,3), f(4,)} m(( )/4, (3+3+3)/4)(4.00,.75)

21 KROK 5. Powtarzaj kroki 3-5 aż do spełnienia kryterium stopu.

22 KROK 3 (trzeci przebieg). Dla każdego rekordu, znajdź najbliższe centrum: n n n m i n k k x i, xi,..., xri, n i k n i k i Każde centrum skupia pewien podzbiór danych (najbliższych rekordów), tym samym tworząc podział całego zbioru danych. Otrzymujemy w ten sposób kklasc,c,,c k. k k

23 a b c d e f g h (,3) (3,3) (4,3) (5,3) (,) (4,) (,) (,) Punkt Odległość od m(.5,.75) Odległość od m(4,.75) a C b.5.03 C c C d C e C f C g C h C Nowe klasy C{a(,3), e(,), g(,), h(,)} C{b(3,3), c(4,3), d(5,3), f(4,)} Najbliższe centrum Nowe centra m(.5,.75) m(4.00,.75)

24 3,5 3,5,5 0, Classes C{a(,3), e(,), g(,), h(,)} C{b(3,3), c(4,3), d(5,3), f(4,)}

25 Kryterium Punkt Odległość od m(.5,.75) Odległosć od m(4.00,.75) a C Najbliższe centrum b.5.03 C c C d C e C f C g C h C BCV d ( m, m ).93 WCV SSE k i p C i d ( p, m ) i BCV WCV > (drugiprzebieg)

26 KROK 4 (trzeci przebieg). Dla każdej klasy znajdź nowe centrum.

27 3,5 3,5,5 0, Klasy Te same centra- STOP C{a(,3), e(,), g(,), h(,)} m((+++)/4, (3+++)/4)(.5,.75) C{b(3,3), c(4,3), d(5,3), f(4,)} m(( )/4, (3+3+3)/4)(4.00,.75)

28 KROK 5. Powtarzaj kroki 3 i 5 aż do spełnienia kryterium stopu. Ponieważ centra nie zmieniły się -> STOP

29 Kryteria stopu dla ustalonego k ) Takie same centra w kolejnym kroku. )Mała zmiana funkcji kryterium BCV WCV BCV WCV ( l + ) ( l) < ε

30 Kryterium wyboru k min SSE k i p C i d ( p, m ) i

31 Przykład Imię Wzrost Rozmiar buta Płeć Płeć (0,) Zenek M Joanna 73 4 F 0 3 Paulina 7 39 F 0 4 Martina 8 4 F 0 5 Ola F 0 6 Marcel 7 4 M 7 Ewa F 0 8 Ola 8 4 F 0 9 Paulina F 0 0 Ewelina F 0 Magda F 0 Michał 75 4 M 3 Magda F 0

32 Struktura klas (k) Struktura klas Obserwacja Imię Klasa Odległość Zenek 4,979 Joanna 3,0 3 Paulina 4,535 4 Martina 5,089 5 Ola 0,79 6 Marcel 4,5 7 Ewa 6,374 8 Ola 5,089 9 Paulina 4,809 0 Ewelina,06 Magda,60 Michał,495 3 Magda 3,74

33 Finalne centra Klasa Wzrost Rozmiar buta 4 36 Płeć 0 0

34 ANOVA H 0 : µ µ... µ k H : Co najmniej jedna średnia jest różna Wszystkie średnie są równe F MSTr MSE wariancja wariancja miedzyklasowa bledu losowego F- Snedecor(k-,n-k) H 0 H

35 SSE k n ( i x ) ij xi i j MSE SSE n k SSTr k i n i ( x x ) i MSTr SSTr k

36 ANOVA ANOVA Cluster Error F Sig. Mean Square(MSTr) df Mean Square(MSE) df Wzrost 450,73 5,886 8,337 0,000 in Rozmiar buta 65,438,694 4,86 0,000 Płeć 0,308 0,8,69 0,0 zmienna nieistotna The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize the differences amongcases in different clusters. The observed significance levels are not corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are equal.

37 Struktura klas (k) Przynależność klasowa Rozmiar klasy Imię Klasa Odległość Zenek 4,934 Joanna 3,00 3 Paulina 4,53 4 Martina 5,078 5 Ola 0,79 6 Marcel 4,098 7 Ewa 6,374 8 Ola 5,078 9 Paulina 4,809 0 Ewelina,06 Magda, Michał,338 3 Magda 3,699

38 Finalne klasy Klasa Wzrost Rozmiar buta 4 36

39 ANOVA Cluster Error F Sig. Mean Square df Mean Square df Wzrost 450,73 5,886 8,337,000 Rozmiar buta 65,438,694 4,86,000 The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize the differences among cases in different clusters. The observed significance levels are not corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are equal. wszystkie zmienne istotne

40 Factor Analysis Name High Shoe Number Sex0 Zenek Joanna Paulina Martina Ola Marcel Ewa Ola Paulina Ewelina Magda Michał Magda

41 Factor Analysis dimensions reduction Total Variance Explained Component Initial Eigenvalues Extraction Sums of Squared Loadings Total % of Variance Cumulative % Total % of Variance Cumulative %,0 74,00 74,00,0 74,00 74,00 0,736 4,50 98,5 3 0,044,478 00,000 Extraction Method: Principal Component Analysis.

42 Correlation coefficients Component Matrix a Component Hight 0,87 SchoeNo 0,984 Sex0 0,70 Extraction Method: Principal Component Analysis. a. components extracted.

43 Claster Claster - -,5 - -0,5 0 0,5,5 Component

44 Total Variance Explained Component Initial Eigenvalues Extraction Sums of Squared Loadings Total % of Variance Cumulative % Total % of Variance Cumulative %,0 74,00 74,00,0 74,00 74,00 0,736 4,50 98,5,736 4,50 98,5 3 0,044,478 00,000 Extraction Method: Principal Component Analysis.

46 Składowe główne Name Składowa Składowa Zenek, ,80384 Joanna 0,007-0,64837 Paulina -0,675-0,4754 Martina 0,6950 -,4030 Ola -,7507 0,363 Marcel 0,955,6004 Ewa -,7358,0867 Ola 0,6950 -,4030 Paulina -0, ,0358 Ewelina -,0764 0,37 Magda 0,0795-0,8737 Michał,08847,3335 Magda -0,358-0,665

47 Component Matrix a Component Hight 0,87 -,473 SchoeNo 0,984 -,087 Sex0 0,70 0,70 Extraction Method: Principal Component Analysis. a. components extracted.

48 Składowe główne Name Składowa Składowa Klasa Zenek, ,80384 Joanna 0,007-0,64837 Paulina -0,675-0,4754 Martina 0,6950 -,4030 Ola -,7507 0,363 Marcel 0,955,6004 Ewa -,7358,0867 Ola 0,6950 -,4030 Paulina -0, ,0358 Ewelina -,0764 0,37 Magda 0,0795-0,8737 Michał,08847,3335 Magda -0,358-0,665

49 Klasa,5 Skladowa Klasa 0,5 Składowa 0 - -,5 - -0,5 0 0,5,5 Claster Claster -0,5 - -,5 -

Podobne dokumenty

Analiza wariancji. Źródło: Aczel A. D. Statystyka w zarządzaniu. Barbara Gładysz

Analiza wariancji. Źródło: Aczel A. D. Statystyka w zarządzaniu. Barbara Gładysz Analiza wariancji Źródło: Aczel A. D. Statystyka w zarządzaniu Analiza wariancji jednoczynnikowa Populacja Pole trójkąty 1 4 5 3 7 4 8 kwadraty 1 10 11 3 1 4 13 kółka 1 1 3 3 Populacja Pole trójkąty 1