Kryteria stopu algorytmu grupowania reguł a efektywność systemu wspomagania decyzji

Wielkość: px
Rozpocząć pokaz od strony:

Download "Kryteria stopu algorytmu grupowania reguł a efektywność systemu wspomagania decyzji"

Transkrypt

1 Kryteria stopu algorytmu grupowania reguł a efektywność systemu wspomagania decyzji Agnieszka Nowak Alicja Wakulicz-Deja Zakład Systemów Informatycznych Instytut Informatyki Uniwersytetu Śląskiego Sosnowiec, ul. Będzińska 39, +48 (0-32) gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

2 Plan referatu 1 Efektywność wnioskowania w klasycznych systemach wspomagania decyzji. 2 Motywacja tworzenia hierarchicznej bazy wiedzy. 3 Prawda o aglomeracyjnym algorytmie grupowania. 4 Efektywność osiągana różnymi drogami?. 5 Podsumowanie. gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

3 Zagadnienia... Referat powinien udzielić satysfakcjonujących odpowiedzi na pytania: 1 Dlaczego potrzebna jest zmiana struktury bazy wiedzy? 2 Dlaczego proponujemy hierarchię? 3 Dlaczego jako algorytm grupowania wybieramy akurat AHC? 4 Jak zamierzamy zmodyfikować klasyczne podejścia? 5 W jakim celu wprowadzamy swoje zmiany? 6 Jak będziemy sprawdzać efektywność (jakość) zbudowanego systemu? 7 Podsumowanie - odpowiedź na pytanie: Jaka jest efektywność proponowanego rozwiązania? gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

4 Dlaczego potrzebna jest zmiana struktury bazy wiedzy? Efektywność wnioskowania w klasycznych systemach wspomagania decyzji takich jak np MYCIN, EMYCIN etc. zależy od kilku czynników: wybranej metody wnioskowania, posiadanej w systemie wiedzy (liczby reguł w bazie wiedzy), liczby obserwacji, wybranej strategii sterowania wnioskowaniem. Konkluzje: trudna ocena takiego systemu, wymagana kompletność bazy wiedzy, czas wnioskowania rośnie gdy zwiększa się liczba reguł w bazie wiedzy, optymalny system wspomagania decyzji, to taki system, który dostarcza decyzji w jak najkrótszym czasie, angażując użytkownika tylko w pewnym minimalnym zakresie. gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

5 Dlaczego proponujemy hierarchię? Wiedza każdego systemu może być reprezentowana na wiele różnych sposobów, np. za pomocą rozkładów prawdopodobieństwa, współczynników pewnych funkcji, struktur symbolicznych gramatyk formalnych, czy hierarchii podziałów. Poprzez analizowanie przykładów, system ma odkryć nieznany podział (lub hierarchię podziałów) dostarczonego mu zbioru, czyli dokonać grupowania tego zbioru. gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

6 Motywacja tworzenia hierarchicznej bazy wiedzy Optymalizacja czasu pracy systemu, jak i metody wnioskowania jest skomplikowana. Zadaniem interpretera reguł jest znalezienie i uaktywnienie reguł odpowiednich do zaobserwowanych faktów. Oczywiste jest, że jeżeli rozmiar bazy reguł wzrasta, to i czas szukania reguł przez interpreter się zwiększa. Aby temu zapobiec proponujemy grupowanie reguł (aglomerację) w bazach wiedzy i wnioskowanie na grupach (skupieniach) reguł. Cel: Analiza skupień ma skrócić w sposób istotny czas wnioskowania. gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

7 Dlaczego spośród wszystkich algorytmów grupowania wybieramy akurat AHC? Liczba Stirlinga II-go rzędu Moc (liczba możliwych kombinacji) grupowania metodą k-optymalizacyjną n elementów na k grup (skupień) da się wyznaczyć z następującego wyrażenia: M = ( 1 n k! )[ ( k i )( 1) k i i n ]] i=1 Wówczas mając zaledwie do pogrupowania 6 (n = 6) obiektów do 3 (k = 3) grup, liczba możliwych kombinacji wynosi: M = ( 1 3! )[(3 1)( 1) ( 3 2)( 1) ( 3 3)( 1) ] = 90 Algorytm hierarchicznego łączenia obiektów - rozwiązuje ten problem poprzez samą ideę algorytmu, która zawsze nakazuje w każdym kroku połączyć dwa najbardziej podobne obiekty. gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

8 Klasyczne grupowanie hierarchiczne gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

9 Klasyczne grupowanie hierarchiczne krok 1: połączenie w grupę obiektów 1 i 2 gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

10 Klasyczne grupowanie hierarchiczne krok 2: połączenie w grupę obiektów 3 i 4 gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

11 Klasyczne grupowanie hierarchiczne krok 3: połączenie w grupę obiektów 7 i 5 gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

12 Klasyczne grupowanie hierarchiczne krok 4: połączenie w grupę obiektów 6 i 8 gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

13 Macierzowy algorytm aglomeracyjny - algorytm Johnson a 1 t=0 /*nr poziomu w hierarchii*/ 2 utworzenie początkowego podziału Podz N 0 (N) = {Gi = {xi } i = 1,..., N} 3 utworzenie początkowej N N macierzy niepodobieństwa P(t) : P(i, j)(t) = D(G i, G j )i, j = 1,..., N 4 repeat a) e): a) wybranie spośród wszystkich par grup (G i, G j ) w podziale t najbliższej pary (G i, G j ): D(G i, G j ) = min D(G i, G j ) r,s b) t = t + 1 c) utworzenie nowej grupy G q = G i G j d) utworzenie nowego podziału: Podz N 1 t (N) = {Podz N t+1 t 1 (N) {G i, G j }} {G q} e) aktualizacja macierzy niepodobieństwa P(t) dla kroku t na podstawie P(t 1) (kroki 1-2): 1.Usunięcie dwóch rzędów i dwóch kolumn z macierzy P(t 1), które odpowiadają łączonym grupom. 2.Dodanie nowego rzędu i nowej kolumny dla nowo utworzonej grupy, które zawierają obliczone odległości pomiędzy nowo utworzoną grupą i wszystkimi grupami z kroku (t 1), które nie zostały w tym kroku zmienione. 5 until (wszystkie wektory są w jednej grupie). gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

14 Sposoby aktualizacji macierzy - obliczania nowych odległości w każdym kroku Wg Jain i Dubes a: 1 Algorytm pojedynczego łączenia (ang. single linkage algorithm) D(C q, C s ) = min{d(c i, C s ), D(C j, C s )} 2 Algorytm pełnego łączenia (ang. complete linkage algorithm) D(C q, C s ) = max{d(c i, C s ), D(C j, C s )} 3 Algorytm uśredniania par (ang. weighted average linkage) D(C q, C s ) = 1 2 (D(C i, C s ) + D(C j, C s )) Ponadto: 4 Average Linkage (UPGMA),Centroid (UPGMC), Median (WPGMC), 5 Algorytm Warda (ang. Increase in Sum of Squares). gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

15 Ważne aspekty grupowania hierarchicznego Złożoność czasowa macierzowych algorytmów aglomeracyjnych wynosi O(N 2 lg N) natomiast pamięciowa O(N 2 ). Ta ostatnia wynika z konieczności pamiętania macierzy niepodobieństwa o wymiarach N N. Wynik algorytmu grupowania hierarchicznego można przedstawić w postaci tzw. dendrogramu niepodobieństwa, w którym występuje oś skojarzona z używaną miarą niepodobieństwa. Przecięcie poziome dendrogramu daje jeden z możliwych podziałów. gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

16 Jak będziemy sprawdzać efektywność (jakość) zbudowanego systemu? [Jain A.K., Dubes R.C., Algorithms for clustering data, Prentice Hall, 1998] Procedura grupowania to nie tylko samo grupowanie? Procedurę grupowania tworzą następujące zadania składowe: 1 utworzenie reprezentacji, 2 wybór miary podobieństwa, 3 ustalenie tendencji grupującej, 4 grupowanie, 5 walidacja wyniku, 6 abstrakcja cech. W zależności od użytej miary podobieństwa, rodzaju algorytmu grupowania oraz różnych wartości jego parametrów, uzyskuje się różne wynikowe podziały danego zbioru obiektów. Z tego względu konieczne jest stosowanie weryfikacji uzyskanego podziału zwanej potocznie walidacją, która stanowi procedurę sprawdzającą poprawność uzyskanego podziału. Walidacji tej dokonuje się za pomocą weryfikacji hipotez statystycznych lub odpowiednio skonstruowanych wskaźników (indeksów) walidacyjnych: np. indeks Dunn a czy Xie Beni. gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

17 Zdefiniowanie kryterium jakości [K.Stąpor, Automatyczna klasyfikacja obiektów, EXIT, W-wa 2005] W algorytmach iteracyjnej optymalizacji tj. k-means, k-medoids, najlepszy podział zbioru jest wyznaczany przez iteracyjne polepszanie pewnych wskaźników jakości, startując z początkowego podziału, najczęściej losowego. Wskaźniki jakości definiuje się w postaci funkcji kryterialnej, która jest zależna od zbioru uczącego oraz wektora nieznanych parametrów określających daną grupę. Funkcja kryterialna najczęściej jest konstruowana w postaci sumy kwadratów odległości wektorów w grupach od prototypów tych grup. Stanowi więc miarę rozproszenia wektorów w poszczególnych grupach. Ocenie może podlegać: uzyskany pojedynczy podział, hierarchia podziałów, pojedyncza grupa. Spośród wszystkich możliwych podziałów uzyskanych jako wynik działania danego algorytmu grupowania z różnymi wartościami parametrów należy wybrać ten, który najlepiej opisuje strukturę zbioru. gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

18 Jak oceniać rezultaty k-means, k-medoids? Jeśli x c - centroid, średnia wartość z wszystkich obiektów nalezących do danej grupy C. wówczas, można zdefiniować miarę dopasowania skupienia c: TD(C) = p C dist(p, x c ) 2 Dalej, całkowity koszt grupowania w danej iteracji mozna wyznaczyć jako: k TD = TD(C i ) i=1 gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

19 Jak oceniać rezultaty grupowania hierarchicznego? Problem wyboru optymalnego podziału rozwiązuje sama idea algorytmu. Jedynie, w zależności od wybranej metody tworzenia centroidu (single linkage, complete linkage, Ward, etc.), dwa najbardziej podobne obiekty mogą zostać łączone w grupę w innym czasie (w innym kroku algorytmu, raz wcześniej, raz później). Zatem, stosując techniki hierarchiczne, zwiększamy co prawda czas działania algorytmu, ale usuwamy problem oceny otrzymanego rozwiązania. Efektywność wnioskowania po grupowaniu reguł metodą analizy skupień Kryteria oceny systemów wnioskujących można podzielić na dwie grupy: kryteria związane ze złożonością obliczeniową algorytmu, kryteria związane z jakością otrzymanego podziału, kryteria związane z jakością generowanych wyników, np. trafność rozpoznawania, dokładność lokalizacji obiektu, etc.[kompletność, dokładność]. gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

20 Jak zamierzamy zmodyfikować klasyczne podejścia? Pożądane własności dobrego podziału: możliwie najmniejsza liczba parametrów koniecznych do specyfikowania, możliwie najmniejsza krotność analizy elementów zbioru U, możliwość wykrywania grup o dowolnym kształcie, wielkości, gęstości, niewrażliwość na obecność szumu (wektorów odstających) w zbiorze, możliwość przetwarzania danych różnych typów (ciągłe, dyskretne), w szczególności ich kombinacji, niezależność wyniku od kolejności analizy obiektów zbioru U, możliwie największe podobieństwo obiektów wewnątrz danej grupy oraz możliwie najmniejsze podobieństwo grup do siebie. Rzeczywistość jest inna - niepożądane własności podziału: podobieństwo między obiektami w danej grupie spada poniżej pewnego ustalonego poziomu minimum. Różne są sposoby ustalania tego minimalnego współczynnika podobieństwa. W rozważaniach podejmowanych przez nas wcześniej brane były pod uwagę dwie metody: średnia z minimum i maksimum, średnia ważona. T = min(s(x, y)) + max(s(x, y)), 2 T = s (x, y). gdzie: s(x, y)- to pewna miara podobieństwa między obiektami x oraz y(np. miara Gowera). gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

21 Kryteria oceny jakości podziału Jakość grupowania zależy od tego jak różnie obiekty są rozrzucone w węzłach drzewa a to z kolei zależy od algorytmu jakim były łączone i od tego jakich metryk używano do ich łączenia. Są 2 standardowe miary: miara oceny (ang. FScore), gdzie: FScore = 2RP R + P R - kompletność (ang. Recall), P - dokładność (ang. Precision). miara rozkładu - entropii (ang.entropy). Entropy(S r ) = 1 q nr i lg ni r lg q n r n r i=1 gdzie: q - liczba klas, nr i - liczba obiektów w i-tej klasie. Entropia całego drzewa T wynosi: t 1 Entropy(T ) = (S r ) t r=1 gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

22 Miara Theodoridis i Koutroumbas,1999 [S. Theodoridis, K. Koutroumbas, Patern Recognition, Academic Press, 1999] Odpowiedni poziom odcięcia to ten, dla którego spełniony jest warunek: Gi,G j D min (G i, G j ) > max{h(g i, G j )} gdzie: h(g i ) jest miarą samopodobieństwa grupy, tj. podobieństwa pomiędzy wektorami z danej grupy. Miarę samopodobieństwa można zdefiniować np. jako maksymalną odległość wektorów w grupie: h(g) = max{d(x, y) x,y G } lub też jako średnią wartość odległości między wektorami w grupie: gdzie: h(g) = 1 d(x, y) 2N G x G y G d(x, y) oznacza którąkolwiek z miar niepodobieństwa wektorów. Innymi słowy, w końcowym podziale niepodobieństwo pomiędzy dowolną parą grup musi być większe niż samopodobieństwo każdej z grup. gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

23 mahc gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

24 mahc gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

25 mahc gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

26 mahc gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

27 mahc gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

28 AHC kontra mahc a b c d e f g AHC [100] mahc [70] mahc [90] mahc [95] mahc - inne a - poziom w drzewie b - liczba pamietanych elementow c - liczba porównań w drzewie d - liczba porównań w innych drzewach e - suma porównań f - odchylenie g - procent błędu Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

29 mahc kontra AHC gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

30 mahc kontra AHC gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

31 Miara efektywności van Rijsbergen a, 1979 Miara ta umożliwia ocenę obydwu parametrów: kompletności oraz dokładności jednocześnie. gdzie odpowiednio: b to współczynnik skalujący [0..1], R to to kompletność (ang. recall), P to dokładność (ang. precision). E HC = b2 Idealna sytuacja R HC = 1.0, P HC = 1.0 jeśli b = 1 wówczas: E 2 HC = /4 1 = 1 = 1 1 = /4 4 Zależność jest taka, że im wartość E HC jest bliższa 0 tym większa jest efektywność systemu, i odwrotnie. b 2 R + 1 P gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

32 Eksperymenty Wyniki eksperymentów a b c d e f baza nr baza nr baza nr baza nr , 4 gdzie: a - liczba reguł, b - liczba grup,c - liczba poziomow w drzewie (wysokość drzewa), d - liczba porownań przy PZ, e - liczba porownań w AHC, f - procent BD gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

33 Podsumowanie - Wnioski 1 Hierarchiczne grupowanie reguł w bazach wiedzy przyspieszy procesy wnioskowania poprzez kryterium podobieństwa - relewantności elementów drzewa względem podanej nowej wiedzy. 2 Niekwestionowaną zaletą, drugą obok krótkiego czasu jest także fakt, iż wnioskując w ten sposób system będzie generował tylko niezbędne nowe fakty, nie obciążając w ten sposób systemu czy użytkownika nową wiedzą. 3 Dodatkowo - możemy zwiększyć jakość uzyskanego podziału poprzez grupowanie obiektów z kontrolą bliskości - kryterium stopu algorytmu. gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

34 Literatura 1 Anderberg M.R., "Cluster analysis for applications", New York, Academic Press, Dubes R.C., Jain A.K., "Algorithms for clustering data", Prentice Hall, Everitt B.S., "Cluster Analysis (3rd edition)", Edward Arnold / Halsted Press, London, Hand D., Mannila H., Smyth P., "Eksploracja danych", Wydawnictwa Naukowo-Techniczne, Warszawa, Kaufman L., Rousseeuw P.J., "Finding Groups in Data: An Introduction to Cluster Analysis", John Wiley Sons, New York, Nowak A., Wakulicz-Deja A. Bachliński S., "Optimization of Speech Recognition by Clustering of Phones", Concurrency, Specification and Concurrency Ruciane-Nida, Poland, September 28-30, Nowak A., Wakulicz-Deja A., "The concept of the hierarchical clustering algorithms for rules based systems", Intelligent Information Systems New Trends in Intelligent Information Processing and Web Mining, Gdańsk, Poland, June 13-16, Nowak A., Wakulicz-Deja A., "Aglomeracyjne metody tworzenia skupień reguł dla optymalizacji procesów wnioskowania", Systemy Wspomagania Decyzji 2004, Zakopane, Poland, Grudzień 7-9, Stąpor K., "Automatyczna klasyfikacja obiektów", Akademicka Oficyna Wydawnicza EXIT, Warszawa Theodoridis S., Koutroumbas K., "Patern Recognition", Academic Press, gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2

CLUSTERING. Metody grupowania danych

CLUSTERING. Metody grupowania danych CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means

Bardziej szczegółowo

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu

Bardziej szczegółowo

Hierarchiczna analiza skupień

Hierarchiczna analiza skupień Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym

Bardziej szczegółowo

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska Algorytmy rozpoznawania obrazów 11. Analiza skupień dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Analiza skupień Określenia: analiza skupień (cluster analysis), klasteryzacja (clustering), klasyfikacja

Bardziej szczegółowo

Agnieszka Nowak Brzezińska

Agnieszka Nowak Brzezińska Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia

Bardziej szczegółowo

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1 Grupowanie Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Grupowanie wykład 1 Sformułowanie problemu Dany jest zbiór obiektów (rekordów). Znajdź naturalne pogrupowanie

Bardziej szczegółowo

Elementy statystyki wielowymiarowej

Elementy statystyki wielowymiarowej Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych

Bardziej szczegółowo

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633 Grupowanie Grupowanie 7 6 5 4 y 3 2 1 0-3 -2-1 0 1 2 3 4 5-1 -2-3 -4 x Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633 Wprowadzenie Celem procesu grupowania jest podział zbioru

Bardziej szczegółowo

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Koncepcja wnioskowania w hierarchicznej bazie wiedzy

Koncepcja wnioskowania w hierarchicznej bazie wiedzy Koncepcja wnioskowania w hierarchicznej bazie wiedzy Agnieszka Nowak Alicja Wakulicz-Deja Instytut Informatyki, Uniwersytet Śląski, ul. Będzinska 39, Sosnowiec, Polska Tel (32) 2 918 381, Fax (32) 2 918

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Czym jest analiza skupień?

Czym jest analiza skupień? Statystyczna analiza danych z pakietem SAS Analiza skupień metody hierarchiczne Czym jest analiza skupień? wielowymiarowa technika pozwalająca wykrywać współzależności między obiektami; ściśle związana

Bardziej szczegółowo

4.3 Grupowanie według podobieństwa

4.3 Grupowanie według podobieństwa 4.3 Grupowanie według podobieństwa Przykłady obiektów to coś więcej niż wektory wartości atrybutów. Reprezentują one poszczególne rasy psów. Ważnym pytaniem, jakie można sobie zadać, jest to jak dobrymi

Bardziej szczegółowo

Metody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania

Metody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania Wielowymiarowe metody segmentacji CHAID Metoda Automatycznej Detekcji Interakcji CHAID Cele CHAID Dane CHAID Przebieg analizy CHAID Parametry CHAID Wyniki Metody analizy skupień Wprowadzenie Charakterystyka

Bardziej szczegółowo

Porównanie szeregów czasowych z wykorzystaniem algorytmu DTW

Porównanie szeregów czasowych z wykorzystaniem algorytmu DTW Zlot użytkowników R Porównanie szeregów czasowych z wykorzystaniem algorytmu DTW Paweł Teisseyre Instytut Podstaw Informatyki, Polska Akademia Nauk 21 września 2010 Miary podobieństwa między szeregami

Bardziej szczegółowo

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L, Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której

Bardziej szczegółowo

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization Wrocław University of Technology SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization Jakub M. Tomczak Studenckie Koło Naukowe Estymator jakub.tomczak@pwr.wroc.pl 4.1.213 Klasteryzacja Zmienne

Bardziej szczegółowo

Co to jest grupowanie

Co to jest grupowanie Grupowanie danych Co to jest grupowanie 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Szukanie grup, obszarów stanowiących lokalne gromady punktów Co to jest grupowanie

Bardziej szczegółowo

Algorytmy klasyfikacji

Algorytmy klasyfikacji Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe

Bardziej szczegółowo

Wykrywanie nietypowości w danych rzeczywistych

Wykrywanie nietypowości w danych rzeczywistych Wykrywanie nietypowości w danych rzeczywistych dr Agnieszka NOWAK-BRZEZIŃSKA, mgr Artur TUROS 1 Agenda 1 2 3 4 5 6 Cel badań Eksploracja odchyleń Metody wykrywania odchyleń Eksperymenty Wnioski Nowe badania

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Eksploracja danych. Grupowanie wykład 1

Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Eksploracja danych. Grupowanie wykład 1 Grupowanie Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Grupowanie wykład 1 Tematem wykładu są zagadnienia związane z grupowaniem. Rozpoczniemy od krótkiego wprowadzenia

Bardziej szczegółowo

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska e-mail: bartosz.krawczyk@pwr.wroc.pl Czym jest klasyfikacja

Bardziej szczegółowo

Algorytmy wyznaczania centralności w sieci Szymon Szylko

Algorytmy wyznaczania centralności w sieci Szymon Szylko Algorytmy wyznaczania centralności w sieci Szymon Szylko Zakład systemów Informacyjnych Wrocław 10.01.2008 Agenda prezentacji Cechy sieci Algorytmy grafowe Badanie centralności Algorytmy wyznaczania centralności

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Eksploracja danych Algorytmy klastujące Problem 3 Mając daną chmurę punktów chcielibyśmy zrozumieć ich

Bardziej szczegółowo

Metoda określania pozycji wodnicy statków na podstawie pomiarów odległości statku od głowic laserowych

Metoda określania pozycji wodnicy statków na podstawie pomiarów odległości statku od głowic laserowych inż. Marek Duczkowski Metoda określania pozycji wodnicy statków na podstawie pomiarów odległości statku od głowic laserowych słowa kluczowe: algorytm gradientowy, optymalizacja, określanie wodnicy W artykule

Bardziej szczegółowo

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania Analiza skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania Analiza Skupień Elementy składowe procesu grupowania obiekt Ekstrakcja cech Sprzężenie zwrotne Grupowanie klastry Reprezentacja

Bardziej szczegółowo

CLUSTERING METODY GRUPOWANIA DANYCH

CLUSTERING METODY GRUPOWANIA DANYCH CLUSTERING METODY GRUPOWANIA DANYCH Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia

Bardziej szczegółowo

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty

Bardziej szczegółowo

Techniki grupowania danych w środowisku Matlab

Techniki grupowania danych w środowisku Matlab Techniki grupowania danych w środowisku Matlab 1. Normalizacja danych. Jedne z metod normalizacji: = = ma ( y =, rσ ( = ( ma ( = min = (1 + e, min ( = σ wartość średnia, r współczynnik, σ odchylenie standardowe

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Eksploracja danych Co to znaczy eksploracja danych Klastrowanie (grupowanie) hierarchiczne Klastrowanie

Bardziej szczegółowo

Rozkłady wielu zmiennych

Rozkłady wielu zmiennych Rozkłady wielu zmiennych Uogólnienie pojęć na rozkład wielu zmiennych Dystrybuanta, gęstość prawdopodobieństwa, rozkład brzegowy, wartości średnie i odchylenia standardowe, momenty Notacja macierzowa Macierz

Bardziej szczegółowo

WYSZUKIWANIE I AKTYWOWANIE REGUŁ W SYSTEMACH WSPOMAGANIA DECYZJI Z WIEDZĄ NIEPEŁNĄ TOMASZ JACH

WYSZUKIWANIE I AKTYWOWANIE REGUŁ W SYSTEMACH WSPOMAGANIA DECYZJI Z WIEDZĄ NIEPEŁNĄ TOMASZ JACH WYSZUKIWANIE I AKTYWOWANIE REGUŁ W SYSTEMACH WSPOMAGANIA DECYZJI Z WIEDZĄ NIEPEŁNĄ TOMASZ JACH Uniwersytet Śląski, Instytut Informatyki 41 200 Sosnowiec, ul. Będzińska 39 email: tomasz.jach@us.edu.pl Streszczenie

Bardziej szczegółowo

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek Cel projektu Celem projektu jest przygotowanie systemu wnioskowania, wykorzystującego wybrane algorytmy sztucznej inteligencji; Nabycie

Bardziej szczegółowo

Algorytm grupowania danych typu kwantyzacji wektorów

Algorytm grupowania danych typu kwantyzacji wektorów Algorytm grupowania danych typu kwantyzacji wektorów Wstęp Definicja problemu: Typowe, problemem często spotykanym w zagadnieniach eksploracji danych (ang. data mining) jest zagadnienie grupowania danych

Bardziej szczegółowo

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny

Bardziej szczegółowo

Komputerowa Analiza Danych Doświadczalnych

Komputerowa Analiza Danych Doświadczalnych Komputerowa Analiza Danych Doświadczalnych dr inż. Adam Kisiel kisiel@if.pw.edu.pl pokój 117b (12b) 1 Materiały do wykładu Transparencje do wykładów: http://www.if.pw.edu.pl/~kisiel/kadd/kadd.html Literatura

Bardziej szczegółowo

Przestrzeń algorytmów klastrowania

Przestrzeń algorytmów klastrowania 20 listopada 2008 Plan prezentacji 1 Podstawowe pojęcia Przykłady algorytmów klastrowania 2 Odległość algorytmów klastrowania Odległość podziałów 3 Dane wejściowe Eksperymenty Praca źródłowa Podstawowe

Bardziej szczegółowo

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej) Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej) 1 Podział ze względu na zakres danych użytych do wyznaczenia miary Miary opisujące

Bardziej szczegółowo

Idea. Algorytm zachłanny Algorytmy hierarchiczne Metoda K-średnich Metoda hierarchiczna, a niehierarchiczna. Analiza skupień

Idea. Algorytm zachłanny Algorytmy hierarchiczne Metoda K-średnich Metoda hierarchiczna, a niehierarchiczna. Analiza skupień Idea jest narzędziem analizy danych służącym do grupowania n obiektów, opisanych za pomocą wektora p-cech, w K niepustych, rozłącznych i możliwie jednorodnych grup skupień. Obiekty należące do danego skupienia

Bardziej szczegółowo

Analiza współzależności zjawisk

Analiza współzależności zjawisk Analiza współzależności zjawisk Informacje ogólne Jednostki tworzące zbiorowość statystyczną charakteryzowane są zazwyczaj za pomocą wielu cech zmiennych, które nierzadko pozostają ze sobą w pewnym związku.

Bardziej szczegółowo

Aproksymacja funkcji a regresja symboliczna

Aproksymacja funkcji a regresja symboliczna Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą

Bardziej szczegółowo

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej

Bardziej szczegółowo

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Wyszukiwanie informacji w internecie. Nguyen Hung Son Wyszukiwanie informacji w internecie Nguyen Hung Son Jak znaleźć informację w internecie? Wyszukiwarki internetowe: Potężne machiny wykorzystujące najnowsze metody z różnych dziedzin Architektura: trzy

Bardziej szczegółowo

Inteligentna analiza danych

Inteligentna analiza danych Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki

Bardziej szczegółowo

Wykład 10 Skalowanie wielowymiarowe

Wykład 10 Skalowanie wielowymiarowe Wykład 10 Skalowanie wielowymiarowe Wrocław, 30.05.2018r Skalowanie wielowymiarowe (Multidimensional Scaling (MDS)) Główne cele MDS: przedstawienie struktury badanych obiektów przez określenie treści wymiarów

Bardziej szczegółowo

Dobór parametrów algorytmu ewolucyjnego

Dobór parametrów algorytmu ewolucyjnego Dobór parametrów algorytmu ewolucyjnego 1 2 Wstęp Algorytm ewolucyjny posiada wiele parametrów. Przykładowo dla algorytmu genetycznego są to: prawdopodobieństwa stosowania operatorów mutacji i krzyżowania.

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

Luty 2001 Algorytmy (4) 2000/2001

Luty 2001 Algorytmy (4) 2000/2001 Mając dany zbiór elementów, chcemy znaleźć w nim element największy (maksimum), bądź najmniejszy (minimum). We wszystkich naturalnych metodach znajdywania najmniejszego i największego elementu obecne jest

Bardziej szczegółowo

TEORETYCZNE PODSTAWY INFORMATYKI

TEORETYCZNE PODSTAWY INFORMATYKI 1 TEORETYCZNE PODSTAWY INFORMATYKI WFAiS UJ, Informatyka Stosowana II stopień studiów Wykład 13b 2 Eksploracja danych Co rozumiemy pod pojęciem eksploracja danych Algorytmy grupujące (klajstrujące) Graficzna

Bardziej szczegółowo

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka Statystyka opisowa. Wykład V. e-mail:e.kozlovski@pollub.pl Spis treści 1 Prosta regresji cechy Y względem cech X 1,..., X k. 2 3 Wyznaczamy zależność cechy Y od cech X 1, X 2,..., X k postaci Y = α 0 +

Bardziej szczegółowo

Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych

Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych ELEMENTY SZTUCZNEJ INTELIGENCJI Laboratorium nr 9 PRZESZUKIWANIE GRAFÓW Z

Bardziej szczegółowo

Rozpoznawanie obrazów

Rozpoznawanie obrazów Rozpoznawanie obrazów Laboratorium Python Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest implementacja liniowego zadania

Bardziej szczegółowo

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość Dwie metody Klasyczna metoda histogramu jako narzędzie do postawienia hipotezy, jaki rozkład prawdopodobieństwa pasuje do danych Indukcja drzewa decyzyjnego jako metoda wykrycia klasyfikatora ukrytego

Bardziej szczegółowo

Skalowanie wielowymiarowe idea

Skalowanie wielowymiarowe idea Skalowanie wielowymiarowe idea Jedną z wad metody PCA jest możliwość używania jedynie zmiennych ilościowych, kolejnym konieczność posiadania pełnych danych z doświadczenia(nie da się użyć PCA jeśli mamy

Bardziej szczegółowo

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006 SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu

Bardziej szczegółowo

Zaawansowane algorytmy i struktury danych

Zaawansowane algorytmy i struktury danych Zaawansowane algorytmy i struktury danych u dr Barbary Marszał-Paszek Opracowanie pytań teoretycznych z egzaminów. Strona 1 z 12 Pytania teoretyczne z egzaminu pisemnego z 25 czerwca 2014 (studia dzienne)

Bardziej szczegółowo

Analiza skupień. Idea

Analiza skupień. Idea Idea Analiza skupień Analiza skupień jest narzędziem analizy danych służącym do grupowania n obiektów, opisanych za pomocą wektora p-cech, w K niepustych, rozłącznych i możliwie jednorodnych grup skupień.

Bardziej szczegółowo

Asocjacyjna reprezentacja danych i wnioskowanie

Asocjacyjna reprezentacja danych i wnioskowanie Asocjacyjna reprezentacja danych i wnioskowanie Wykorzystane technologie JetBrains PyCharm 504 Python 35 Struktura drzewa GRAPH PARAM PARAM ID1 ID2 ID_N params params params param_name_1: param_value_1

Bardziej szczegółowo

Grupowanie stron WWW. Funkcje oceniające.

Grupowanie stron WWW. Funkcje oceniające. Eksploracja zasobów internetowych Wykład 6 Grupowanie stron WWW. Funkcje oceniające. mgr inż. Maciej Kopczyński Białystok 2015 Wstęp Rolą algorytmów grupujących jest pogrupowanie dokumentów na bazie ich

Bardziej szczegółowo

Modelowanie jako sposób opisu rzeczywistości. Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka

Modelowanie jako sposób opisu rzeczywistości. Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka Modelowanie jako sposób opisu rzeczywistości Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka 2015 Wprowadzenie: Modelowanie i symulacja PROBLEM: Podstawowy problem z opisem otaczającej

Bardziej szczegółowo

Grupowanie. Iteracyjno-optymalizacyjne metody grupowania Algorytm k-średnich Algorytm k-medoidów. Eksploracja danych. Grupowanie wykład 2

Grupowanie. Iteracyjno-optymalizacyjne metody grupowania Algorytm k-średnich Algorytm k-medoidów. Eksploracja danych. Grupowanie wykład 2 Grupowanie Iteracyjno-optymalizacyjne metody grupowania Algorytm k-średnich Algorytm k-medoidów Grupowanie wykład 2 Tematem wykładu są iteracyjno-optymalizacyjne algorytmy grupowania. Przedstawimy i omówimy

Bardziej szczegółowo

CLUSTERING II. Efektywne metody grupowania danych

CLUSTERING II. Efektywne metody grupowania danych CLUSTERING II Efektywne metody grupowania danych Plan wykładu Wstęp: Motywacja i zastosowania Metody grupowania danych Algorytmy oparte na podziałach (partitioning algorithms) PAM Ulepszanie: CLARA, CLARANS

Bardziej szczegółowo

WYKŁAD 9 METODY ZMIENNEJ METRYKI

WYKŁAD 9 METODY ZMIENNEJ METRYKI WYKŁAD 9 METODY ZMIENNEJ METRYKI Kierunki sprzężone. Metoda Newtona Raphsona daje dobre przybliżenie najlepszego kierunku poszukiwań, lecz jest to okupione znacznym kosztem obliczeniowym zwykle postać

Bardziej szczegółowo

Adrian Horzyk

Adrian Horzyk Metody Inteligencji Obliczeniowej Metoda K Najbliższych Sąsiadów (KNN) Adrian Horzyk horzyk@agh.edu.pl AGH Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

Drzewa decyzyjne i lasy losowe

Drzewa decyzyjne i lasy losowe Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM

Bardziej szczegółowo

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU Nazwa w języku polskim: Eksploracja Danych Nazwa w języku angielskim: Data Mining Kierunek studiów (jeśli dotyczy): MATEMATYKA I STATYSTYKA Stopień studiów i forma:

Bardziej szczegółowo

Systemy uczące się wykład 2

Systemy uczące się wykład 2 Systemy uczące się wykład 2 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 19 X 2018 Podstawowe definicje Fakt; Przesłanka; Konkluzja; Reguła; Wnioskowanie. Typy wnioskowania

Bardziej szczegółowo

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium IX: Analiza skupień

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium IX: Analiza skupień 1 Laboratorium IX: Analiza skupień Spis treści Laboratorium IX: Analiza skupień... 1 Wiadomości ogólne... 2 1. Wstęp teoretyczny.... 2 1.1. Wprowadzenie.... 2 1.2. Metody hierarchiczne analizy skupień....

Bardziej szczegółowo

PRZEWODNIK PO PRZEDMIOCIE

PRZEWODNIK PO PRZEDMIOCIE Nazwa przedmiotu: Kierunek: Mechatronika Rodzaj przedmiotu: obowiązkowy Rodzaj zajęć: wykład, laboratorium I KARTA PRZEDMIOTU CEL PRZEDMIOTU PRZEWODNIK PO PRZEDMIOCIE C1. Zapoznanie studentów z inteligentnymi

Bardziej szczegółowo

WNIOSKOWANIE W SYSTEMACH Z WIEDZĄ NIEPEŁNĄ INFERENCE PROCESSES IN DECISION SUPORT SYSTEMS WITH INCOMPLETE KNOWLEDGE

WNIOSKOWANIE W SYSTEMACH Z WIEDZĄ NIEPEŁNĄ INFERENCE PROCESSES IN DECISION SUPORT SYSTEMS WITH INCOMPLETE KNOWLEDGE STUDIA INFORMATICA 2011 Volume 32 Number 2A (96) Agnieszka NOWAK-BRZEZIŃSKA, Tomasz JACH Uniwersytet Śląski, Instytut Informatyki WNIOSKOWANIE W SYSTEMACH Z WIEDZĄ NIEPEŁNĄ Streszczenie. Autorzy niniejszego

Bardziej szczegółowo

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu

Bardziej szczegółowo

10. Redukcja wymiaru - metoda PCA

10. Redukcja wymiaru - metoda PCA Algorytmy rozpoznawania obrazów 10. Redukcja wymiaru - metoda PCA dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. PCA Analiza składowych głównych: w skrócie nazywana PCA (od ang. Principle Component

Bardziej szczegółowo

Odkrywanie algorytmów kwantowych za pomocą programowania genetycznego

Odkrywanie algorytmów kwantowych za pomocą programowania genetycznego Odkrywanie algorytmów kwantowych za pomocą programowania genetycznego Piotr Rybak Koło naukowe fizyków Migacz, Uniwersytet Wrocławski Piotr Rybak (Migacz UWr) Odkrywanie algorytmów kwantowych 1 / 17 Spis

Bardziej szczegółowo

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie: ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość

Bardziej szczegółowo

Sieci Kohonena Grupowanie

Sieci Kohonena Grupowanie Sieci Kohonena Grupowanie http://zajecia.jakubw.pl/nai UCZENIE SIĘ BEZ NADZORU Załóżmy, że mamy za zadanie pogrupować następujące słowa: cup, roulette, unbelievable, cut, put, launderette, loveable Nie

Bardziej szczegółowo

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor S O M SELF-ORGANIZING MAPS Przemysław Szczepańczyk Łukasz Myszor Podstawy teoretyczne Map Samoorganizujących się stworzył prof. Teuvo Kohonen (1982 r.). SOM wywodzi się ze sztucznych sieci neuronowych.

Bardziej szczegółowo

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH 1. Czym jest eksploracja danych Eksploracja danych definiowana jest jako zbiór technik odkrywania nietrywialnych zależności i schematów w dużych

Bardziej szczegółowo

Eksploracja danych - wykład II

Eksploracja danych - wykład II - wykład 1/29 wykład - wykład Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Październik 2015 - wykład 2/29 W kontekście odkrywania wiedzy wykład - wykład 3/29 CRISP-DM - standaryzacja

Bardziej szczegółowo

Rozdział 8. Regresja. Definiowanie modelu

Rozdział 8. Regresja. Definiowanie modelu Rozdział 8 Regresja Definiowanie modelu Analizę korelacji można traktować jako wstęp do analizy regresji. Jeżeli wykresy rozrzutu oraz wartości współczynników korelacji wskazują na istniejąca współzmienność

Bardziej szczegółowo

Metody numeryczne I Równania nieliniowe

Metody numeryczne I Równania nieliniowe Metody numeryczne I Równania nieliniowe Janusz Szwabiński szwabin@ift.uni.wroc.pl Metody numeryczne I (C) 2004 Janusz Szwabiński p.1/66 Równania nieliniowe 1. Równania nieliniowe z pojedynczym pierwiastkiem

Bardziej szczegółowo

Metoda największej wiarygodności

Metoda największej wiarygodności Rozdział Metoda największej wiarygodności Ogólnie w procesie estymacji na podstawie prób x i (każde x i może być wektorem) wyznaczamy parametr λ (w ogólnym przypadku również wektor) opisujący domniemany

Bardziej szczegółowo

Elementy modelowania matematycznego

Elementy modelowania matematycznego Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski

Bardziej szczegółowo

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych. Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(), zwaną funkcją aproksymującą

Bardziej szczegółowo

KLASYFIKACJA. Słownik języka polskiego

KLASYFIKACJA. Słownik języka polskiego KLASYFIKACJA KLASYFIKACJA Słownik języka polskiego Klasyfikacja systematyczny podział przedmiotów lub zjawisk na klasy, działy, poddziały, wykonywany według określonej zasady Klasyfikacja polega na przyporządkowaniu

Bardziej szczegółowo

METODY INŻYNIERII WIEDZY

METODY INŻYNIERII WIEDZY METODY INŻYNIERII WIEDZY Metoda K Najbliższych Sąsiadów K-Nearest Neighbours (KNN) ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

Jeśli X jest przestrzenią o nieskończonej liczbie elementów:

Jeśli X jest przestrzenią o nieskończonej liczbie elementów: Logika rozmyta 2 Zbiór rozmyty może być formalnie zapisany na dwa sposoby w zależności od tego z jakim typem przestrzeni elementów mamy do czynienia: Jeśli X jest przestrzenią o skończonej liczbie elementów

Bardziej szczegółowo

Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle

Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle Paweł Szołtysek 12 czerwca 2008 Streszczenie Planowanie produkcji jest jednym z problemów optymalizacji dyskretnej,

Bardziej szczegółowo

RILL - przyrostowy klasyfikator regułowy uczący się ze zmiennych środowisk

RILL - przyrostowy klasyfikator regułowy uczący się ze zmiennych środowisk Wprowadzenie RILL - przyrostowy klasyfikator regułowy uczący się ze zmiennych środowisk Magdalena Deckert Politechnika Poznańska, Instytut Informatyki Seminarium ISWD, 21.05.2013 M. Deckert Przyrostowy

Bardziej szczegółowo

Grupowanie danych. Wprowadzenie. Przykłady

Grupowanie danych. Wprowadzenie. Przykłady Grupowanie danych str. 1 Wprowadzenie Celem procesu grupowania jest podział zbioru obiektów, fizycznych lub abstrakcyjnych, na klasy obiektów o podobnych cechach, nazywane klastrami lub skupieniami Klaster

Bardziej szczegółowo

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY) STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY) Praca z danymi zaczyna się od badania rozkładu liczebności (częstości) zmiennych. Rozkład liczebności (częstości) zmiennej to jakie wartości zmienna

Bardziej szczegółowo

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

8. Drzewa decyzyjne, bagging, boosting i lasy losowe Algorytmy rozpoznawania obrazów 8. Drzewa decyzyjne, bagging, boosting i lasy losowe dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Drzewa decyzyjne Drzewa decyzyjne (ang. decision trees), zwane

Bardziej szczegółowo

System bonus-malus z mechanizmem korekty składki

System bonus-malus z mechanizmem korekty składki System bonus-malus z mechanizmem korekty składki mgr Kamil Gala Ubezpieczeniowy Fundusz Gwarancyjny dr hab. Wojciech Bijak, prof. SGH Ubezpieczeniowy Fundusz Gwarancyjny, Szkoła Główna Handlowa Zagadnienia

Bardziej szczegółowo

Klasyfikacja LDA + walidacja

Klasyfikacja LDA + walidacja Klasyfikacja LDA + walidacja Dr hab. Izabela Rejer Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Plan wykładu 1. Klasyfikator 2. LDA 3. Klasyfikacja wieloklasowa 4. Walidacja

Bardziej szczegółowo

TEORETYCZNE PODSTAWY INFORMATYKI

TEORETYCZNE PODSTAWY INFORMATYKI 1 TEORETYCZNE PODSTAWY INFORMATYKI 16/01/2017 WFAiS UJ, Informatyka Stosowana I rok studiów, I stopień Repetytorium złożoność obliczeniowa 2 Złożoność obliczeniowa Notacja wielkie 0 Notacja Ω i Θ Rozwiązywanie

Bardziej szczegółowo

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Kompresja danych Streszczenie Studia Dzienne Wykład 10, 1 Kwantyzacja wektorowa Kompresja danych Streszczenie Studia Dzienne Wykład 10, 28.04.2006 Kwantyzacja wektorowa: dane dzielone na bloki (wektory), każdy blok kwantyzowany jako jeden element danych. Ogólny

Bardziej szczegółowo

Ewelina Dziura Krzysztof Maryański

Ewelina Dziura Krzysztof Maryański Ewelina Dziura Krzysztof Maryański 1. Wstęp - eksploracja danych 2. Proces Eksploracji danych 3. Reguły asocjacyjne budowa, zastosowanie, pozyskiwanie 4. Algorytm Apriori i jego modyfikacje 5. Przykład

Bardziej szczegółowo

Sterowanie procesem i jego zdolność. Zbigniew Wiśniewski

Sterowanie procesem i jego zdolność. Zbigniew Wiśniewski Sterowanie procesem i jego zdolność Zbigniew Wiśniewski Wybór cech do kart kontrolnych Zaleca się aby w pierwszej kolejności były brane pod uwagę cechy dotyczące funkcjonowania wyrobu lub świadczenia usługi

Bardziej szczegółowo