Kryteria stopu algorytmu grupowania reguł a efektywność systemu wspomagania decyzji
|
|
- Patryk Skowroński
- 5 lat temu
- Przeglądów:
Transkrypt
1 Kryteria stopu algorytmu grupowania reguł a efektywność systemu wspomagania decyzji Agnieszka Nowak Alicja Wakulicz-Deja Zakład Systemów Informatycznych Instytut Informatyki Uniwersytetu Śląskiego Sosnowiec, ul. Będzińska 39, +48 (0-32) gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2
2 Plan referatu 1 Efektywność wnioskowania w klasycznych systemach wspomagania decyzji. 2 Motywacja tworzenia hierarchicznej bazy wiedzy. 3 Prawda o aglomeracyjnym algorytmie grupowania. 4 Efektywność osiągana różnymi drogami?. 5 Podsumowanie. gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2
3 Zagadnienia... Referat powinien udzielić satysfakcjonujących odpowiedzi na pytania: 1 Dlaczego potrzebna jest zmiana struktury bazy wiedzy? 2 Dlaczego proponujemy hierarchię? 3 Dlaczego jako algorytm grupowania wybieramy akurat AHC? 4 Jak zamierzamy zmodyfikować klasyczne podejścia? 5 W jakim celu wprowadzamy swoje zmiany? 6 Jak będziemy sprawdzać efektywność (jakość) zbudowanego systemu? 7 Podsumowanie - odpowiedź na pytanie: Jaka jest efektywność proponowanego rozwiązania? gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2
4 Dlaczego potrzebna jest zmiana struktury bazy wiedzy? Efektywność wnioskowania w klasycznych systemach wspomagania decyzji takich jak np MYCIN, EMYCIN etc. zależy od kilku czynników: wybranej metody wnioskowania, posiadanej w systemie wiedzy (liczby reguł w bazie wiedzy), liczby obserwacji, wybranej strategii sterowania wnioskowaniem. Konkluzje: trudna ocena takiego systemu, wymagana kompletność bazy wiedzy, czas wnioskowania rośnie gdy zwiększa się liczba reguł w bazie wiedzy, optymalny system wspomagania decyzji, to taki system, który dostarcza decyzji w jak najkrótszym czasie, angażując użytkownika tylko w pewnym minimalnym zakresie. gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2
5 Dlaczego proponujemy hierarchię? Wiedza każdego systemu może być reprezentowana na wiele różnych sposobów, np. za pomocą rozkładów prawdopodobieństwa, współczynników pewnych funkcji, struktur symbolicznych gramatyk formalnych, czy hierarchii podziałów. Poprzez analizowanie przykładów, system ma odkryć nieznany podział (lub hierarchię podziałów) dostarczonego mu zbioru, czyli dokonać grupowania tego zbioru. gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2
6 Motywacja tworzenia hierarchicznej bazy wiedzy Optymalizacja czasu pracy systemu, jak i metody wnioskowania jest skomplikowana. Zadaniem interpretera reguł jest znalezienie i uaktywnienie reguł odpowiednich do zaobserwowanych faktów. Oczywiste jest, że jeżeli rozmiar bazy reguł wzrasta, to i czas szukania reguł przez interpreter się zwiększa. Aby temu zapobiec proponujemy grupowanie reguł (aglomerację) w bazach wiedzy i wnioskowanie na grupach (skupieniach) reguł. Cel: Analiza skupień ma skrócić w sposób istotny czas wnioskowania. gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2
7 Dlaczego spośród wszystkich algorytmów grupowania wybieramy akurat AHC? Liczba Stirlinga II-go rzędu Moc (liczba możliwych kombinacji) grupowania metodą k-optymalizacyjną n elementów na k grup (skupień) da się wyznaczyć z następującego wyrażenia: M = ( 1 n k! )[ ( k i )( 1) k i i n ]] i=1 Wówczas mając zaledwie do pogrupowania 6 (n = 6) obiektów do 3 (k = 3) grup, liczba możliwych kombinacji wynosi: M = ( 1 3! )[(3 1)( 1) ( 3 2)( 1) ( 3 3)( 1) ] = 90 Algorytm hierarchicznego łączenia obiektów - rozwiązuje ten problem poprzez samą ideę algorytmu, która zawsze nakazuje w każdym kroku połączyć dwa najbardziej podobne obiekty. gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2
8 Klasyczne grupowanie hierarchiczne gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2
9 Klasyczne grupowanie hierarchiczne krok 1: połączenie w grupę obiektów 1 i 2 gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2
10 Klasyczne grupowanie hierarchiczne krok 2: połączenie w grupę obiektów 3 i 4 gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2
11 Klasyczne grupowanie hierarchiczne krok 3: połączenie w grupę obiektów 7 i 5 gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2
12 Klasyczne grupowanie hierarchiczne krok 4: połączenie w grupę obiektów 6 i 8 gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2
13 Macierzowy algorytm aglomeracyjny - algorytm Johnson a 1 t=0 /*nr poziomu w hierarchii*/ 2 utworzenie początkowego podziału Podz N 0 (N) = {Gi = {xi } i = 1,..., N} 3 utworzenie początkowej N N macierzy niepodobieństwa P(t) : P(i, j)(t) = D(G i, G j )i, j = 1,..., N 4 repeat a) e): a) wybranie spośród wszystkich par grup (G i, G j ) w podziale t najbliższej pary (G i, G j ): D(G i, G j ) = min D(G i, G j ) r,s b) t = t + 1 c) utworzenie nowej grupy G q = G i G j d) utworzenie nowego podziału: Podz N 1 t (N) = {Podz N t+1 t 1 (N) {G i, G j }} {G q} e) aktualizacja macierzy niepodobieństwa P(t) dla kroku t na podstawie P(t 1) (kroki 1-2): 1.Usunięcie dwóch rzędów i dwóch kolumn z macierzy P(t 1), które odpowiadają łączonym grupom. 2.Dodanie nowego rzędu i nowej kolumny dla nowo utworzonej grupy, które zawierają obliczone odległości pomiędzy nowo utworzoną grupą i wszystkimi grupami z kroku (t 1), które nie zostały w tym kroku zmienione. 5 until (wszystkie wektory są w jednej grupie). gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2
14 Sposoby aktualizacji macierzy - obliczania nowych odległości w każdym kroku Wg Jain i Dubes a: 1 Algorytm pojedynczego łączenia (ang. single linkage algorithm) D(C q, C s ) = min{d(c i, C s ), D(C j, C s )} 2 Algorytm pełnego łączenia (ang. complete linkage algorithm) D(C q, C s ) = max{d(c i, C s ), D(C j, C s )} 3 Algorytm uśredniania par (ang. weighted average linkage) D(C q, C s ) = 1 2 (D(C i, C s ) + D(C j, C s )) Ponadto: 4 Average Linkage (UPGMA),Centroid (UPGMC), Median (WPGMC), 5 Algorytm Warda (ang. Increase in Sum of Squares). gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2
15 Ważne aspekty grupowania hierarchicznego Złożoność czasowa macierzowych algorytmów aglomeracyjnych wynosi O(N 2 lg N) natomiast pamięciowa O(N 2 ). Ta ostatnia wynika z konieczności pamiętania macierzy niepodobieństwa o wymiarach N N. Wynik algorytmu grupowania hierarchicznego można przedstawić w postaci tzw. dendrogramu niepodobieństwa, w którym występuje oś skojarzona z używaną miarą niepodobieństwa. Przecięcie poziome dendrogramu daje jeden z możliwych podziałów. gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2
16 Jak będziemy sprawdzać efektywność (jakość) zbudowanego systemu? [Jain A.K., Dubes R.C., Algorithms for clustering data, Prentice Hall, 1998] Procedura grupowania to nie tylko samo grupowanie? Procedurę grupowania tworzą następujące zadania składowe: 1 utworzenie reprezentacji, 2 wybór miary podobieństwa, 3 ustalenie tendencji grupującej, 4 grupowanie, 5 walidacja wyniku, 6 abstrakcja cech. W zależności od użytej miary podobieństwa, rodzaju algorytmu grupowania oraz różnych wartości jego parametrów, uzyskuje się różne wynikowe podziały danego zbioru obiektów. Z tego względu konieczne jest stosowanie weryfikacji uzyskanego podziału zwanej potocznie walidacją, która stanowi procedurę sprawdzającą poprawność uzyskanego podziału. Walidacji tej dokonuje się za pomocą weryfikacji hipotez statystycznych lub odpowiednio skonstruowanych wskaźników (indeksów) walidacyjnych: np. indeks Dunn a czy Xie Beni. gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2
17 Zdefiniowanie kryterium jakości [K.Stąpor, Automatyczna klasyfikacja obiektów, EXIT, W-wa 2005] W algorytmach iteracyjnej optymalizacji tj. k-means, k-medoids, najlepszy podział zbioru jest wyznaczany przez iteracyjne polepszanie pewnych wskaźników jakości, startując z początkowego podziału, najczęściej losowego. Wskaźniki jakości definiuje się w postaci funkcji kryterialnej, która jest zależna od zbioru uczącego oraz wektora nieznanych parametrów określających daną grupę. Funkcja kryterialna najczęściej jest konstruowana w postaci sumy kwadratów odległości wektorów w grupach od prototypów tych grup. Stanowi więc miarę rozproszenia wektorów w poszczególnych grupach. Ocenie może podlegać: uzyskany pojedynczy podział, hierarchia podziałów, pojedyncza grupa. Spośród wszystkich możliwych podziałów uzyskanych jako wynik działania danego algorytmu grupowania z różnymi wartościami parametrów należy wybrać ten, który najlepiej opisuje strukturę zbioru. gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2
18 Jak oceniać rezultaty k-means, k-medoids? Jeśli x c - centroid, średnia wartość z wszystkich obiektów nalezących do danej grupy C. wówczas, można zdefiniować miarę dopasowania skupienia c: TD(C) = p C dist(p, x c ) 2 Dalej, całkowity koszt grupowania w danej iteracji mozna wyznaczyć jako: k TD = TD(C i ) i=1 gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2
19 Jak oceniać rezultaty grupowania hierarchicznego? Problem wyboru optymalnego podziału rozwiązuje sama idea algorytmu. Jedynie, w zależności od wybranej metody tworzenia centroidu (single linkage, complete linkage, Ward, etc.), dwa najbardziej podobne obiekty mogą zostać łączone w grupę w innym czasie (w innym kroku algorytmu, raz wcześniej, raz później). Zatem, stosując techniki hierarchiczne, zwiększamy co prawda czas działania algorytmu, ale usuwamy problem oceny otrzymanego rozwiązania. Efektywność wnioskowania po grupowaniu reguł metodą analizy skupień Kryteria oceny systemów wnioskujących można podzielić na dwie grupy: kryteria związane ze złożonością obliczeniową algorytmu, kryteria związane z jakością otrzymanego podziału, kryteria związane z jakością generowanych wyników, np. trafność rozpoznawania, dokładność lokalizacji obiektu, etc.[kompletność, dokładność]. gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2
20 Jak zamierzamy zmodyfikować klasyczne podejścia? Pożądane własności dobrego podziału: możliwie najmniejsza liczba parametrów koniecznych do specyfikowania, możliwie najmniejsza krotność analizy elementów zbioru U, możliwość wykrywania grup o dowolnym kształcie, wielkości, gęstości, niewrażliwość na obecność szumu (wektorów odstających) w zbiorze, możliwość przetwarzania danych różnych typów (ciągłe, dyskretne), w szczególności ich kombinacji, niezależność wyniku od kolejności analizy obiektów zbioru U, możliwie największe podobieństwo obiektów wewnątrz danej grupy oraz możliwie najmniejsze podobieństwo grup do siebie. Rzeczywistość jest inna - niepożądane własności podziału: podobieństwo między obiektami w danej grupie spada poniżej pewnego ustalonego poziomu minimum. Różne są sposoby ustalania tego minimalnego współczynnika podobieństwa. W rozważaniach podejmowanych przez nas wcześniej brane były pod uwagę dwie metody: średnia z minimum i maksimum, średnia ważona. T = min(s(x, y)) + max(s(x, y)), 2 T = s (x, y). gdzie: s(x, y)- to pewna miara podobieństwa między obiektami x oraz y(np. miara Gowera). gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2
21 Kryteria oceny jakości podziału Jakość grupowania zależy od tego jak różnie obiekty są rozrzucone w węzłach drzewa a to z kolei zależy od algorytmu jakim były łączone i od tego jakich metryk używano do ich łączenia. Są 2 standardowe miary: miara oceny (ang. FScore), gdzie: FScore = 2RP R + P R - kompletność (ang. Recall), P - dokładność (ang. Precision). miara rozkładu - entropii (ang.entropy). Entropy(S r ) = 1 q nr i lg ni r lg q n r n r i=1 gdzie: q - liczba klas, nr i - liczba obiektów w i-tej klasie. Entropia całego drzewa T wynosi: t 1 Entropy(T ) = (S r ) t r=1 gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2
22 Miara Theodoridis i Koutroumbas,1999 [S. Theodoridis, K. Koutroumbas, Patern Recognition, Academic Press, 1999] Odpowiedni poziom odcięcia to ten, dla którego spełniony jest warunek: Gi,G j D min (G i, G j ) > max{h(g i, G j )} gdzie: h(g i ) jest miarą samopodobieństwa grupy, tj. podobieństwa pomiędzy wektorami z danej grupy. Miarę samopodobieństwa można zdefiniować np. jako maksymalną odległość wektorów w grupie: h(g) = max{d(x, y) x,y G } lub też jako średnią wartość odległości między wektorami w grupie: gdzie: h(g) = 1 d(x, y) 2N G x G y G d(x, y) oznacza którąkolwiek z miar niepodobieństwa wektorów. Innymi słowy, w końcowym podziale niepodobieństwo pomiędzy dowolną parą grup musi być większe niż samopodobieństwo każdej z grup. gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2
23 mahc gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2
24 mahc gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2
25 mahc gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2
26 mahc gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2
27 mahc gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2
28 AHC kontra mahc a b c d e f g AHC [100] mahc [70] mahc [90] mahc [95] mahc - inne a - poziom w drzewie b - liczba pamietanych elementow c - liczba porównań w drzewie d - liczba porównań w innych drzewach e - suma porównań f - odchylenie g - procent błędu Agnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2
29 mahc kontra AHC gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2
30 mahc kontra AHC gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2
31 Miara efektywności van Rijsbergen a, 1979 Miara ta umożliwia ocenę obydwu parametrów: kompletności oraz dokładności jednocześnie. gdzie odpowiednio: b to współczynnik skalujący [0..1], R to to kompletność (ang. recall), P to dokładność (ang. precision). E HC = b2 Idealna sytuacja R HC = 1.0, P HC = 1.0 jeśli b = 1 wówczas: E 2 HC = /4 1 = 1 = 1 1 = /4 4 Zależność jest taka, że im wartość E HC jest bliższa 0 tym większa jest efektywność systemu, i odwrotnie. b 2 R + 1 P gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2
32 Eksperymenty Wyniki eksperymentów a b c d e f baza nr baza nr baza nr baza nr , 4 gdzie: a - liczba reguł, b - liczba grup,c - liczba poziomow w drzewie (wysokość drzewa), d - liczba porownań przy PZ, e - liczba porownań w AHC, f - procent BD gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2
33 Podsumowanie - Wnioski 1 Hierarchiczne grupowanie reguł w bazach wiedzy przyspieszy procesy wnioskowania poprzez kryterium podobieństwa - relewantności elementów drzewa względem podanej nowej wiedzy. 2 Niekwestionowaną zaletą, drugą obok krótkiego czasu jest także fakt, iż wnioskując w ten sposób system będzie generował tylko niezbędne nowe fakty, nie obciążając w ten sposób systemu czy użytkownika nową wiedzą. 3 Dodatkowo - możemy zwiększyć jakość uzyskanego podziału poprzez grupowanie obiektów z kontrolą bliskości - kryterium stopu algorytmu. gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2
34 Literatura 1 Anderberg M.R., "Cluster analysis for applications", New York, Academic Press, Dubes R.C., Jain A.K., "Algorithms for clustering data", Prentice Hall, Everitt B.S., "Cluster Analysis (3rd edition)", Edward Arnold / Halsted Press, London, Hand D., Mannila H., Smyth P., "Eksploracja danych", Wydawnictwa Naukowo-Techniczne, Warszawa, Kaufman L., Rousseeuw P.J., "Finding Groups in Data: An Introduction to Cluster Analysis", John Wiley Sons, New York, Nowak A., Wakulicz-Deja A. Bachliński S., "Optimization of Speech Recognition by Clustering of Phones", Concurrency, Specification and Concurrency Ruciane-Nida, Poland, September 28-30, Nowak A., Wakulicz-Deja A., "The concept of the hierarchical clustering algorithms for rules based systems", Intelligent Information Systems New Trends in Intelligent Information Processing and Web Mining, Gdańsk, Poland, June 13-16, Nowak A., Wakulicz-Deja A., "Aglomeracyjne metody tworzenia skupień reguł dla optymalizacji procesów wnioskowania", Systemy Wspomagania Decyzji 2004, Zakopane, Poland, Grudzień 7-9, Stąpor K., "Automatyczna klasyfikacja obiektów", Akademicka Oficyna Wydawnicza EXIT, Warszawa Theodoridis S., Koutroumbas K., "Patern Recognition", Academic Press, gnieszka Nowak, Alicja Wakulicz-Deja (Zakład Systemów Kryteria Informatycznych stopu algorytmu Instytut grupowania Informatyki regułuniwersytetu a efektywność Śląskiego systemusosnowiec, wspomagania ul. decyzji Będzińska 39, (0-32) / 34 2
CLUSTERING. Metody grupowania danych
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means
Bardziej szczegółowoData Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu
Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu
Bardziej szczegółowoHierarchiczna analiza skupień
Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym
Bardziej szczegółowoAlgorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska
Algorytmy rozpoznawania obrazów 11. Analiza skupień dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Analiza skupień Określenia: analiza skupień (cluster analysis), klasteryzacja (clustering), klasyfikacja
Bardziej szczegółowoAgnieszka Nowak Brzezińska
Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia
Bardziej szczegółowoEksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1
Grupowanie Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Grupowanie wykład 1 Sformułowanie problemu Dany jest zbiór obiektów (rekordów). Znajdź naturalne pogrupowanie
Bardziej szczegółowoElementy statystyki wielowymiarowej
Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych
Bardziej szczegółowoGrupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633
Grupowanie Grupowanie 7 6 5 4 y 3 2 1 0-3 -2-1 0 1 2 3 4 5-1 -2-3 -4 x Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633 Wprowadzenie Celem procesu grupowania jest podział zbioru
Bardziej szczegółowoKlasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną
Bardziej szczegółowoAgnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Bardziej szczegółowoKoncepcja wnioskowania w hierarchicznej bazie wiedzy
Koncepcja wnioskowania w hierarchicznej bazie wiedzy Agnieszka Nowak Alicja Wakulicz-Deja Instytut Informatyki, Uniwersytet Śląski, ul. Będzinska 39, Sosnowiec, Polska Tel (32) 2 918 381, Fax (32) 2 918
Bardziej szczegółowoAgnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Bardziej szczegółowoCzym jest analiza skupień?
Statystyczna analiza danych z pakietem SAS Analiza skupień metody hierarchiczne Czym jest analiza skupień? wielowymiarowa technika pozwalająca wykrywać współzależności między obiektami; ściśle związana
Bardziej szczegółowo4.3 Grupowanie według podobieństwa
4.3 Grupowanie według podobieństwa Przykłady obiektów to coś więcej niż wektory wartości atrybutów. Reprezentują one poszczególne rasy psów. Ważnym pytaniem, jakie można sobie zadać, jest to jak dobrymi
Bardziej szczegółowoMetody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania
Wielowymiarowe metody segmentacji CHAID Metoda Automatycznej Detekcji Interakcji CHAID Cele CHAID Dane CHAID Przebieg analizy CHAID Parametry CHAID Wyniki Metody analizy skupień Wprowadzenie Charakterystyka
Bardziej szczegółowoPorównanie szeregów czasowych z wykorzystaniem algorytmu DTW
Zlot użytkowników R Porównanie szeregów czasowych z wykorzystaniem algorytmu DTW Paweł Teisseyre Instytut Podstaw Informatyki, Polska Akademia Nauk 21 września 2010 Miary podobieństwa między szeregami
Bardziej szczegółowoKlasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,
Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której
Bardziej szczegółowoSPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization
Wrocław University of Technology SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization Jakub M. Tomczak Studenckie Koło Naukowe Estymator jakub.tomczak@pwr.wroc.pl 4.1.213 Klasteryzacja Zmienne
Bardziej szczegółowoCo to jest grupowanie
Grupowanie danych Co to jest grupowanie 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Szukanie grup, obszarów stanowiących lokalne gromady punktów Co to jest grupowanie
Bardziej szczegółowoAlgorytmy klasyfikacji
Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe
Bardziej szczegółowoWykrywanie nietypowości w danych rzeczywistych
Wykrywanie nietypowości w danych rzeczywistych dr Agnieszka NOWAK-BRZEZIŃSKA, mgr Artur TUROS 1 Agenda 1 2 3 4 5 6 Cel badań Eksploracja odchyleń Metody wykrywania odchyleń Eksperymenty Wnioski Nowe badania
Bardziej szczegółowoSpis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16
Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego
Bardziej szczegółowoGrupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Eksploracja danych. Grupowanie wykład 1
Grupowanie Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Grupowanie wykład 1 Tematem wykładu są zagadnienia związane z grupowaniem. Rozpoczniemy od krótkiego wprowadzenia
Bardziej szczegółowoMetody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska
Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska e-mail: bartosz.krawczyk@pwr.wroc.pl Czym jest klasyfikacja
Bardziej szczegółowoAlgorytmy wyznaczania centralności w sieci Szymon Szylko
Algorytmy wyznaczania centralności w sieci Szymon Szylko Zakład systemów Informacyjnych Wrocław 10.01.2008 Agenda prezentacji Cechy sieci Algorytmy grafowe Badanie centralności Algorytmy wyznaczania centralności
Bardziej szczegółowoALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH
1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Eksploracja danych Algorytmy klastujące Problem 3 Mając daną chmurę punktów chcielibyśmy zrozumieć ich
Bardziej szczegółowoMetoda określania pozycji wodnicy statków na podstawie pomiarów odległości statku od głowic laserowych
inż. Marek Duczkowski Metoda określania pozycji wodnicy statków na podstawie pomiarów odległości statku od głowic laserowych słowa kluczowe: algorytm gradientowy, optymalizacja, określanie wodnicy W artykule
Bardziej szczegółowoAnaliza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania
Analiza skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania Analiza Skupień Elementy składowe procesu grupowania obiekt Ekstrakcja cech Sprzężenie zwrotne Grupowanie klastry Reprezentacja
Bardziej szczegółowoCLUSTERING METODY GRUPOWANIA DANYCH
CLUSTERING METODY GRUPOWANIA DANYCH Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means
Bardziej szczegółowoSYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
Bardziej szczegółowo1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie
Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty
Bardziej szczegółowoTechniki grupowania danych w środowisku Matlab
Techniki grupowania danych w środowisku Matlab 1. Normalizacja danych. Jedne z metod normalizacji: = = ma ( y =, rσ ( = ( ma ( = min = (1 + e, min ( = σ wartość średnia, r współczynnik, σ odchylenie standardowe
Bardziej szczegółowoALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH
1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Eksploracja danych Co to znaczy eksploracja danych Klastrowanie (grupowanie) hierarchiczne Klastrowanie
Bardziej szczegółowoRozkłady wielu zmiennych
Rozkłady wielu zmiennych Uogólnienie pojęć na rozkład wielu zmiennych Dystrybuanta, gęstość prawdopodobieństwa, rozkład brzegowy, wartości średnie i odchylenia standardowe, momenty Notacja macierzowa Macierz
Bardziej szczegółowoWYSZUKIWANIE I AKTYWOWANIE REGUŁ W SYSTEMACH WSPOMAGANIA DECYZJI Z WIEDZĄ NIEPEŁNĄ TOMASZ JACH
WYSZUKIWANIE I AKTYWOWANIE REGUŁ W SYSTEMACH WSPOMAGANIA DECYZJI Z WIEDZĄ NIEPEŁNĄ TOMASZ JACH Uniwersytet Śląski, Instytut Informatyki 41 200 Sosnowiec, ul. Będzińska 39 email: tomasz.jach@us.edu.pl Streszczenie
Bardziej szczegółowoSztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek
Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek Cel projektu Celem projektu jest przygotowanie systemu wnioskowania, wykorzystującego wybrane algorytmy sztucznej inteligencji; Nabycie
Bardziej szczegółowoAlgorytm grupowania danych typu kwantyzacji wektorów
Algorytm grupowania danych typu kwantyzacji wektorów Wstęp Definicja problemu: Typowe, problemem często spotykanym w zagadnieniach eksploracji danych (ang. data mining) jest zagadnienie grupowania danych
Bardziej szczegółowoAlgorytmy decyzyjne będące alternatywą dla sieci neuronowych
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny
Bardziej szczegółowoKomputerowa Analiza Danych Doświadczalnych
Komputerowa Analiza Danych Doświadczalnych dr inż. Adam Kisiel kisiel@if.pw.edu.pl pokój 117b (12b) 1 Materiały do wykładu Transparencje do wykładów: http://www.if.pw.edu.pl/~kisiel/kadd/kadd.html Literatura
Bardziej szczegółowoPrzestrzeń algorytmów klastrowania
20 listopada 2008 Plan prezentacji 1 Podstawowe pojęcia Przykłady algorytmów klastrowania 2 Odległość algorytmów klastrowania Odległość podziałów 3 Dane wejściowe Eksperymenty Praca źródłowa Podstawowe
Bardziej szczegółowoCharakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)
Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej) 1 Podział ze względu na zakres danych użytych do wyznaczenia miary Miary opisujące
Bardziej szczegółowoIdea. Algorytm zachłanny Algorytmy hierarchiczne Metoda K-średnich Metoda hierarchiczna, a niehierarchiczna. Analiza skupień
Idea jest narzędziem analizy danych służącym do grupowania n obiektów, opisanych za pomocą wektora p-cech, w K niepustych, rozłącznych i możliwie jednorodnych grup skupień. Obiekty należące do danego skupienia
Bardziej szczegółowoAnaliza współzależności zjawisk
Analiza współzależności zjawisk Informacje ogólne Jednostki tworzące zbiorowość statystyczną charakteryzowane są zazwyczaj za pomocą wielu cech zmiennych, które nierzadko pozostają ze sobą w pewnym związku.
Bardziej szczegółowoAproksymacja funkcji a regresja symboliczna
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą
Bardziej szczegółowoOptymalizacja ciągła
Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej
Bardziej szczegółowoWyszukiwanie informacji w internecie. Nguyen Hung Son
Wyszukiwanie informacji w internecie Nguyen Hung Son Jak znaleźć informację w internecie? Wyszukiwarki internetowe: Potężne machiny wykorzystujące najnowsze metody z różnych dziedzin Architektura: trzy
Bardziej szczegółowoInteligentna analiza danych
Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki
Bardziej szczegółowoWykład 10 Skalowanie wielowymiarowe
Wykład 10 Skalowanie wielowymiarowe Wrocław, 30.05.2018r Skalowanie wielowymiarowe (Multidimensional Scaling (MDS)) Główne cele MDS: przedstawienie struktury badanych obiektów przez określenie treści wymiarów
Bardziej szczegółowoDobór parametrów algorytmu ewolucyjnego
Dobór parametrów algorytmu ewolucyjnego 1 2 Wstęp Algorytm ewolucyjny posiada wiele parametrów. Przykładowo dla algorytmu genetycznego są to: prawdopodobieństwa stosowania operatorów mutacji i krzyżowania.
Bardziej szczegółowoAnaliza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU
Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów
Bardziej szczegółowoLuty 2001 Algorytmy (4) 2000/2001
Mając dany zbiór elementów, chcemy znaleźć w nim element największy (maksimum), bądź najmniejszy (minimum). We wszystkich naturalnych metodach znajdywania najmniejszego i największego elementu obecne jest
Bardziej szczegółowoTEORETYCZNE PODSTAWY INFORMATYKI
1 TEORETYCZNE PODSTAWY INFORMATYKI WFAiS UJ, Informatyka Stosowana II stopień studiów Wykład 13b 2 Eksploracja danych Co rozumiemy pod pojęciem eksploracja danych Algorytmy grupujące (klajstrujące) Graficzna
Bardziej szczegółowoStatystyka opisowa. Wykład V. Regresja liniowa wieloraka
Statystyka opisowa. Wykład V. e-mail:e.kozlovski@pollub.pl Spis treści 1 Prosta regresji cechy Y względem cech X 1,..., X k. 2 3 Wyznaczamy zależność cechy Y od cech X 1, X 2,..., X k postaci Y = α 0 +
Bardziej szczegółowoUniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych
Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych ELEMENTY SZTUCZNEJ INTELIGENCJI Laboratorium nr 9 PRZESZUKIWANIE GRAFÓW Z
Bardziej szczegółowoRozpoznawanie obrazów
Rozpoznawanie obrazów Laboratorium Python Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest implementacja liniowego zadania
Bardziej szczegółowoPrzykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość
Dwie metody Klasyczna metoda histogramu jako narzędzie do postawienia hipotezy, jaki rozkład prawdopodobieństwa pasuje do danych Indukcja drzewa decyzyjnego jako metoda wykrycia klasyfikatora ukrytego
Bardziej szczegółowoSkalowanie wielowymiarowe idea
Skalowanie wielowymiarowe idea Jedną z wad metody PCA jest możliwość używania jedynie zmiennych ilościowych, kolejnym konieczność posiadania pełnych danych z doświadczenia(nie da się użyć PCA jeśli mamy
Bardziej szczegółowoSAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006
SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu
Bardziej szczegółowoZaawansowane algorytmy i struktury danych
Zaawansowane algorytmy i struktury danych u dr Barbary Marszał-Paszek Opracowanie pytań teoretycznych z egzaminów. Strona 1 z 12 Pytania teoretyczne z egzaminu pisemnego z 25 czerwca 2014 (studia dzienne)
Bardziej szczegółowoAnaliza skupień. Idea
Idea Analiza skupień Analiza skupień jest narzędziem analizy danych służącym do grupowania n obiektów, opisanych za pomocą wektora p-cech, w K niepustych, rozłącznych i możliwie jednorodnych grup skupień.
Bardziej szczegółowoAsocjacyjna reprezentacja danych i wnioskowanie
Asocjacyjna reprezentacja danych i wnioskowanie Wykorzystane technologie JetBrains PyCharm 504 Python 35 Struktura drzewa GRAPH PARAM PARAM ID1 ID2 ID_N params params params param_name_1: param_value_1
Bardziej szczegółowoGrupowanie stron WWW. Funkcje oceniające.
Eksploracja zasobów internetowych Wykład 6 Grupowanie stron WWW. Funkcje oceniające. mgr inż. Maciej Kopczyński Białystok 2015 Wstęp Rolą algorytmów grupujących jest pogrupowanie dokumentów na bazie ich
Bardziej szczegółowoModelowanie jako sposób opisu rzeczywistości. Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka
Modelowanie jako sposób opisu rzeczywistości Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka 2015 Wprowadzenie: Modelowanie i symulacja PROBLEM: Podstawowy problem z opisem otaczającej
Bardziej szczegółowoGrupowanie. Iteracyjno-optymalizacyjne metody grupowania Algorytm k-średnich Algorytm k-medoidów. Eksploracja danych. Grupowanie wykład 2
Grupowanie Iteracyjno-optymalizacyjne metody grupowania Algorytm k-średnich Algorytm k-medoidów Grupowanie wykład 2 Tematem wykładu są iteracyjno-optymalizacyjne algorytmy grupowania. Przedstawimy i omówimy
Bardziej szczegółowoCLUSTERING II. Efektywne metody grupowania danych
CLUSTERING II Efektywne metody grupowania danych Plan wykładu Wstęp: Motywacja i zastosowania Metody grupowania danych Algorytmy oparte na podziałach (partitioning algorithms) PAM Ulepszanie: CLARA, CLARANS
Bardziej szczegółowoWYKŁAD 9 METODY ZMIENNEJ METRYKI
WYKŁAD 9 METODY ZMIENNEJ METRYKI Kierunki sprzężone. Metoda Newtona Raphsona daje dobre przybliżenie najlepszego kierunku poszukiwań, lecz jest to okupione znacznym kosztem obliczeniowym zwykle postać
Bardziej szczegółowoAdrian Horzyk
Metody Inteligencji Obliczeniowej Metoda K Najbliższych Sąsiadów (KNN) Adrian Horzyk horzyk@agh.edu.pl AGH Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
Bardziej szczegółowoDrzewa decyzyjne i lasy losowe
Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM
Bardziej szczegółowoWYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU
WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU Nazwa w języku polskim: Eksploracja Danych Nazwa w języku angielskim: Data Mining Kierunek studiów (jeśli dotyczy): MATEMATYKA I STATYSTYKA Stopień studiów i forma:
Bardziej szczegółowoSystemy uczące się wykład 2
Systemy uczące się wykład 2 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 19 X 2018 Podstawowe definicje Fakt; Przesłanka; Konkluzja; Reguła; Wnioskowanie. Typy wnioskowania
Bardziej szczegółowoInżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium IX: Analiza skupień
1 Laboratorium IX: Analiza skupień Spis treści Laboratorium IX: Analiza skupień... 1 Wiadomości ogólne... 2 1. Wstęp teoretyczny.... 2 1.1. Wprowadzenie.... 2 1.2. Metody hierarchiczne analizy skupień....
Bardziej szczegółowoPRZEWODNIK PO PRZEDMIOCIE
Nazwa przedmiotu: Kierunek: Mechatronika Rodzaj przedmiotu: obowiązkowy Rodzaj zajęć: wykład, laboratorium I KARTA PRZEDMIOTU CEL PRZEDMIOTU PRZEWODNIK PO PRZEDMIOCIE C1. Zapoznanie studentów z inteligentnymi
Bardziej szczegółowoWNIOSKOWANIE W SYSTEMACH Z WIEDZĄ NIEPEŁNĄ INFERENCE PROCESSES IN DECISION SUPORT SYSTEMS WITH INCOMPLETE KNOWLEDGE
STUDIA INFORMATICA 2011 Volume 32 Number 2A (96) Agnieszka NOWAK-BRZEZIŃSKA, Tomasz JACH Uniwersytet Śląski, Instytut Informatyki WNIOSKOWANIE W SYSTEMACH Z WIEDZĄ NIEPEŁNĄ Streszczenie. Autorzy niniejszego
Bardziej szczegółowoMETODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu
Bardziej szczegółowo10. Redukcja wymiaru - metoda PCA
Algorytmy rozpoznawania obrazów 10. Redukcja wymiaru - metoda PCA dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. PCA Analiza składowych głównych: w skrócie nazywana PCA (od ang. Principle Component
Bardziej szczegółowoOdkrywanie algorytmów kwantowych za pomocą programowania genetycznego
Odkrywanie algorytmów kwantowych za pomocą programowania genetycznego Piotr Rybak Koło naukowe fizyków Migacz, Uniwersytet Wrocławski Piotr Rybak (Migacz UWr) Odkrywanie algorytmów kwantowych 1 / 17 Spis
Bardziej szczegółowo( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:
ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość
Bardziej szczegółowoSieci Kohonena Grupowanie
Sieci Kohonena Grupowanie http://zajecia.jakubw.pl/nai UCZENIE SIĘ BEZ NADZORU Załóżmy, że mamy za zadanie pogrupować następujące słowa: cup, roulette, unbelievable, cut, put, launderette, loveable Nie
Bardziej szczegółowoS O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor
S O M SELF-ORGANIZING MAPS Przemysław Szczepańczyk Łukasz Myszor Podstawy teoretyczne Map Samoorganizujących się stworzył prof. Teuvo Kohonen (1982 r.). SOM wywodzi się ze sztucznych sieci neuronowych.
Bardziej szczegółowoINDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH
INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH 1. Czym jest eksploracja danych Eksploracja danych definiowana jest jako zbiór technik odkrywania nietrywialnych zależności i schematów w dużych
Bardziej szczegółowoEksploracja danych - wykład II
- wykład 1/29 wykład - wykład Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Październik 2015 - wykład 2/29 W kontekście odkrywania wiedzy wykład - wykład 3/29 CRISP-DM - standaryzacja
Bardziej szczegółowoRozdział 8. Regresja. Definiowanie modelu
Rozdział 8 Regresja Definiowanie modelu Analizę korelacji można traktować jako wstęp do analizy regresji. Jeżeli wykresy rozrzutu oraz wartości współczynników korelacji wskazują na istniejąca współzmienność
Bardziej szczegółowoMetody numeryczne I Równania nieliniowe
Metody numeryczne I Równania nieliniowe Janusz Szwabiński szwabin@ift.uni.wroc.pl Metody numeryczne I (C) 2004 Janusz Szwabiński p.1/66 Równania nieliniowe 1. Równania nieliniowe z pojedynczym pierwiastkiem
Bardziej szczegółowoMetoda największej wiarygodności
Rozdział Metoda największej wiarygodności Ogólnie w procesie estymacji na podstawie prób x i (każde x i może być wektorem) wyznaczamy parametr λ (w ogólnym przypadku również wektor) opisujący domniemany
Bardziej szczegółowoElementy modelowania matematycznego
Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski
Bardziej szczegółowow analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(), zwaną funkcją aproksymującą
Bardziej szczegółowoKLASYFIKACJA. Słownik języka polskiego
KLASYFIKACJA KLASYFIKACJA Słownik języka polskiego Klasyfikacja systematyczny podział przedmiotów lub zjawisk na klasy, działy, poddziały, wykonywany według określonej zasady Klasyfikacja polega na przyporządkowaniu
Bardziej szczegółowoMETODY INŻYNIERII WIEDZY
METODY INŻYNIERII WIEDZY Metoda K Najbliższych Sąsiadów K-Nearest Neighbours (KNN) ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
Bardziej szczegółowoJeśli X jest przestrzenią o nieskończonej liczbie elementów:
Logika rozmyta 2 Zbiór rozmyty może być formalnie zapisany na dwa sposoby w zależności od tego z jakim typem przestrzeni elementów mamy do czynienia: Jeśli X jest przestrzenią o skończonej liczbie elementów
Bardziej szczegółowoBadania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle
Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle Paweł Szołtysek 12 czerwca 2008 Streszczenie Planowanie produkcji jest jednym z problemów optymalizacji dyskretnej,
Bardziej szczegółowoRILL - przyrostowy klasyfikator regułowy uczący się ze zmiennych środowisk
Wprowadzenie RILL - przyrostowy klasyfikator regułowy uczący się ze zmiennych środowisk Magdalena Deckert Politechnika Poznańska, Instytut Informatyki Seminarium ISWD, 21.05.2013 M. Deckert Przyrostowy
Bardziej szczegółowoGrupowanie danych. Wprowadzenie. Przykłady
Grupowanie danych str. 1 Wprowadzenie Celem procesu grupowania jest podział zbioru obiektów, fizycznych lub abstrakcyjnych, na klasy obiektów o podobnych cechach, nazywane klastrami lub skupieniami Klaster
Bardziej szczegółowoSTATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)
STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY) Praca z danymi zaczyna się od badania rozkładu liczebności (częstości) zmiennych. Rozkład liczebności (częstości) zmiennej to jakie wartości zmienna
Bardziej szczegółowo8. Drzewa decyzyjne, bagging, boosting i lasy losowe
Algorytmy rozpoznawania obrazów 8. Drzewa decyzyjne, bagging, boosting i lasy losowe dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Drzewa decyzyjne Drzewa decyzyjne (ang. decision trees), zwane
Bardziej szczegółowoSystem bonus-malus z mechanizmem korekty składki
System bonus-malus z mechanizmem korekty składki mgr Kamil Gala Ubezpieczeniowy Fundusz Gwarancyjny dr hab. Wojciech Bijak, prof. SGH Ubezpieczeniowy Fundusz Gwarancyjny, Szkoła Główna Handlowa Zagadnienia
Bardziej szczegółowoKlasyfikacja LDA + walidacja
Klasyfikacja LDA + walidacja Dr hab. Izabela Rejer Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Plan wykładu 1. Klasyfikator 2. LDA 3. Klasyfikacja wieloklasowa 4. Walidacja
Bardziej szczegółowoTEORETYCZNE PODSTAWY INFORMATYKI
1 TEORETYCZNE PODSTAWY INFORMATYKI 16/01/2017 WFAiS UJ, Informatyka Stosowana I rok studiów, I stopień Repetytorium złożoność obliczeniowa 2 Złożoność obliczeniowa Notacja wielkie 0 Notacja Ω i Θ Rozwiązywanie
Bardziej szczegółowoKompresja danych Streszczenie Studia Dzienne Wykład 10,
1 Kwantyzacja wektorowa Kompresja danych Streszczenie Studia Dzienne Wykład 10, 28.04.2006 Kwantyzacja wektorowa: dane dzielone na bloki (wektory), każdy blok kwantyzowany jako jeden element danych. Ogólny
Bardziej szczegółowoEwelina Dziura Krzysztof Maryański
Ewelina Dziura Krzysztof Maryański 1. Wstęp - eksploracja danych 2. Proces Eksploracji danych 3. Reguły asocjacyjne budowa, zastosowanie, pozyskiwanie 4. Algorytm Apriori i jego modyfikacje 5. Przykład
Bardziej szczegółowoSterowanie procesem i jego zdolność. Zbigniew Wiśniewski
Sterowanie procesem i jego zdolność Zbigniew Wiśniewski Wybór cech do kart kontrolnych Zaleca się aby w pierwszej kolejności były brane pod uwagę cechy dotyczące funkcjonowania wyrobu lub świadczenia usługi
Bardziej szczegółowo