(Raport cząstkowy z prac realizowanych w ramach projektu pt. Inteligentne metody analizy szans i zagrożeń w procesie kształcenia)

Wielkość: px
Rozpocząć pokaz od strony:

Download "(Raport cząstkowy z prac realizowanych w ramach projektu pt. Inteligentne metody analizy szans i zagrożeń w procesie kształcenia)"

Transkrypt

1 Testy porównawcze metod klasteryzacji jako narzędzia identyfikacji grup studenckich oraz tworzenia klas pytań ankietowych Marek Jaszuk, Teresa Mroczek, Barbara Fryc Wyższa Szkoła Informatyki i Zarządzania z siedzibą w Rzeszowie (Raport cząstkowy z prac realizowanych w ramach projektu pt. Inteligentne metody analizy szans i zagrożeń w procesie kształcenia) 1. Wstęp Klasteryzacja lub inaczej analiza skupień jest istotnym elementem prac badawczych prowadzonych w ramach projektu. Istnieje wiele metod klasteryzacji i prowadzone są wciąż nad nimi nowe badania (Everitt 2011). Naszym celem nie było jednak opracowanie nowego algorytmu klasteryzacji, a jedynie ocena pozwalająca na wybór spośród istniejących metod. Zasadniczo zadanie klasteryzacji polega na znalezieniu zgrupowań obiektów w zbiorze danych w wielowymiarowej przestrzeni. Zgrupowania te wyznaczają klasy obiektów, z którymi mamy do czynienia. W konsekwencji prowadzi to do zastąpienia jedną etykietą całej grupy obiektów. W przypadku naszych badań z zadaniem klasteryzacji mamy do czynienia w dwóch miejscach. Pierwszym z nich jest wyznaczenie grup studentów. Istotność tego zadania wynika z potrzeby określenia charakterystycznych grup, które osiągają określone rezultaty w trakcie studiów, czyli należą do różnych grup sukcesu edukacyjnego. Drugie z zadań polega na wyznaczeniu grup, do których możemy zakwalifikować odpowiedzi na pytania ankietowe zadawane studentom. Ta druga klasteryzacja jest o tyle istotna, że stanowi kluczowy element algorytmu budowy modelu semantycznego. Właśnie dzięki niej jesteśmy w stanie wyznaczyć zbliżone do siebie semantycznie zbiory pytań, a w konsekwencji stworzyć klasy będące podstawą każdego modelu semantycznego. Zasadniczo do rozwiązania są tutaj dwa problemy. Jednym z nich jest metoda klasteryzacji, a drugim liczba klastrów jaka będzie najbardziej odpowiednia. Każda ze znanych metod klasteryzacji ma swoją specyfikę. W niektórych metodach musimy z góry przyjąć na ile klastrów podzielimy zbiór danych. W innych metodach liczba klastrów nie jest z góry zadana, a jest konsekwencją doboru pewnych parametrów algorytmu. Pierwsze z rozwiązań jest o tyle problematyczne, że zazwyczaj nie wiemy jak wygląda naturalna struktura skupień w zbiorze danych. Narzucenie liczby klastrów może prowadzić do sytuacji, w której klastry są wyznaczone w sposób sztuczny, źle odwzorowujący strukturę zbioru danych. Lepsze są algorytmy, które samodzielnie wyznaczają liczbę klastrów przy założonych parametrach algorytmu.

2 Dobór właściwej metody klasteryzacji jest istotny z tego względu, że nie istnieje jedna najlepsza metoda dla wszystkich problemów. Wynika to z faktu, że każdy zbiór danych ma swoją charakterystykę i metoda, która będzie działała na jednych danych, wcale nie musi sprawdzić się na innych. Zasadniczo chodzi nam o to, żeby klastry najbardziej optymalnie odwzorowywały zgrupowania danych. Najprostsze metody analizy skupień tworzą klastry o kształcie kulistym. Jest to jednak przypadek bardzo idealny i w rzeczywistych warunkach rzadko osiągany. Dlatego potrzebne są metody, które odwzorowują skupienia o dowolnym kształcie. Aby ocenić jakość wybranej metody klasteryzacji mierzy się precyzję odwzorowania tych skupień wg pewnych kryteriów. W niniejszym raporcie przedstawione zostaną wybrane kryteria pomiaru jakości klasteryzacji wraz z porównaniem wyników uzyskiwanych przy użyciu różnych metod klasteryzacji branych pod uwagę w pracy. Przy okazji metody klasteryzacji należy wziąć także pod uwagę sposób mierzenia odległości pomiędzy obiektami. W przypadku klasteryzacji grup studentów, miarą odległości jest odległość euklidesowa. Algorytm wyznaczania odległości semantycznej i tworzenia klas semantycznych wśród odpowiedzi ankietowych opiera się na odległości kosinusowej. Nie każda z metod klasteryzacji pozwala na wykorzystanie obydwu z tych metod. W konsekwencji metody, w których występuje takie ograniczenie, będą nadawały się tylko do jednego bądź drugiego zadania klasteryzacyjnego. 2. Metody klasteryzacji Zacznijmy od przedstawienia branych pod uwagę metod klasteryzacji, wraz z krótką charakterystyką cech każdego z algorytmów, które mogłyby mieć istotny wpływ na wybór optymalnej metody. Wśród znanych w literaturze metod należało wybrać te, które rokują uzyskanie dobrych wyników na analizowanym zbiorze danych. Przy ocenie wzięto pod uwagę następujące metody klasteryzacji: hierarchiczną, k-means, DIANA, FANNY, SOM, PAM, SOTA, CLARA, Farthest First, X-means, Density Based Clustering. Poniżej krótka charakterystyka każdej z nich. Klasteryzacja hierarchiczna Jest to jedna z najpopularniejszych metod klasteryzacji. Wyróżniamy dwa rodzaje tej metody (Rokach 2005): Aglomeracyjna jest to podejście typu bottom up. Algorytm rozpoczyna swoje działanie od przyporządkowania każdemu elementowi zbioru danych osobnego klastra (Murtagh 2014). W kolejnych krokach algorytmu klastry leżące najbliżej siebie są łączone i w ten sposób tworzą nowe klastry. Algorytm jest powtarzany aż do momentu, kiedy wszystkie klastry są połączone w jeden. Deaglomeracyjna (podziałowa) podejście przeciwne do metody aglomeracyjnej, czyi top down. Algorytm rozpoczyna swoje działanie od zgrupowania wszystkich danych w jednym klastrze. Następnie klaster ten jest dzielony rekursywnie, aż do momentu, każdemu elementowi zbioru danych zostanie przyporządkowany indywidualny klaster. Bez względu na wybrane podejście, wynikiem zastosowania metody hierarchicznej jest struktura drzewiasta klastrów, przedstawiana często w postaci dendrogramu. W zasadzie nie mamy tutaj jednego podziału na klastry ale całe spektrum możliwości, w zależności od tego, które miejsce w hierarchii wybierzemy. Sama struktura hierarchiczna zazwyczaj nie nadaje się do użycia, gdyż klastry zawierają się

3 jedne w drugich i dla wybranego wektora danych nie możemy podać jednego klastra, do którego on należy, ale całą hierarchię. Dlatego potrzebne jest przecięcie hierarchii w określonym punkcie, dzięki czemu każdy punkt danych będzie przyporządkowany tylko do jednego klastra. Do określenia punktu odcięcia hierarchii posługujemy się parametrem liczbowym, zazwyczaj w zakresie wartości 0-1. Wartość 1 oznacza szczyt hierarchii, wartość 0 to najniższy poziom hierarchii. Przypadki skrajne nie są interesujące. Wybieramy pewną wartość pośrednią. Jest to więc wolny parametr tej metody. Im wyższą wartość wybierzemy, tym mniejszą liczbę klastrów uzyskamy. Precyzyjny wybór tego parametru zazwyczaj nie jest rzeczą oczywistą. Dlatego należy przeanalizować różne kryteria, które pozwolą nam ocenić wyniki uzyskane przy takim lub innym podziale zbioru na klastry. Metoda k-średnich (k-means) Jest to jedna z najstarszych i najprostszych metod klasteryzacji (MacQueen 1967). W większości przypadków daje słabsze wyniki niż bardziej zaawansowane metody klasteryzacji, chociaż zdarzają się wyjątki. Dlatego warto ją włączyć do analizy celem porównania wyników. Zadaniem do zrealizowania jest minimalizacja sumy kwadratów odległości pomiędzy elementami poszczególnych klastrów a wektorem centralnym każdego z klastrów. Problem należy do zagadnień obliczeniowo NP-trudnych, a więc jego dokładne rozwiązanie nie jest możliwe. W praktyce metoda k-średnich stosuje podejście heurystyczne, które pozwala na znalezienie zbliżonego do optymalnego rozwiązania. Z punktu widzenia potrzeb projektu istotne jest, że metoda sama nie potrafi określić optymalnej liczby klastrów. Konieczne jest ustalenie tej liczby z góry. Jest to pewne ograniczenie, jednak gdybyśmy znali tę liczbę z góry, to metoda ta mogłaby być przydatna. DIANA (Divisive Analysis) Jest to metoda należąca do metod klasteryzacji hierarchicznej (Borgatti 1994). Zgodnie z nazwą, jej działanie polega na podziale klastrów. Algorytm w pierwszym kroku buduje jeden duży klaster ze wszystkich obiektów w zbiorze danych. Następnie wyszukuje się obiekty najbardziej różniące się od wszystkich pozostałych. Takie obiekty traktowane są jako zalążki osobnych klastrów, na które dzielony jest klaster główny. Reprezentacja graficzna klasteryzacji uzyskanej tą metodą ma postać dendrogramu niepodobieństwa. Wybór odpowiedniego punktu w tym dendrogramie generuje nam konkretny zbiór rozłącznych klastrów. Dzięki temu nie mamy z góry narzuconej liczby klastrów, ale liczba klastrów wynika naturalnie ze struktury zbioru oraz przyjętej wysokości na dendrogramie. PAM (Partitioning Around Medoids) Jest to metoda klasteryzacji wykazująca pewne podobieństwa do metody k-średnich (Kaufman 1987). Jej założeniem jest skupienie obiektów tworzących klastry wokół tzw. medoidów, czyli obiektów o najmniejszej średniej odległości od wszystkich obiektów tworzących klaster. W lite raturze funkcjonuje nazwa k-medoids dla tej metody, a właściwie grupy metod. Kluczową różnicą pomiędzy k-średnich, a tą metodą jest brak ograniczenia przez założenie odległości euklidesowej między obiektami (co ma miejsce w przypadku k-średnich). Odległość między obiektami jest mierzona poprzez macierz odległości z dowolnie wyrażoną miarą odległości. Jest to o tyle istotne, że w naszym przypadku interesujące są dwa możliwe sposoby pomiaru odległości miedzy obiektami odległość euklidesowa i kosinusowa.

4 Metoda klasteryzacji rozmytej (FANNY) Jest to istotnie różna metoda od poprzednio wymienionych pod względem tego, że opiera się na teorii zbiorów rozmytych. Nie mamy więc stuprocentowej przynależności danego obiektu do określonego zbioru. Zamiast tego posługujemy się funkcją przynależności i algorytm klasteryzacji opiera się na takiej właśnie funkcji. Oczywiście końcowy wynik musi odpowiadać na pytanie do jakiego klastra należy dany obiekt. Dlatego na końcu przeprowadza się defuzyfikację poszczególnych klastrów i w ten sposób uzyskujemy podział na klastry taki jak w innych metodach. Podstawowa wersja algorytmu zakłada ustaloną liczbę klastrów. Mamy tu więc sytuację podobną jak w przypadku algorytmu k-średnich. Z perspektywy omawianego projektu, wykorzystanie teorii zbiorów rozmytych jest uzasadnione, gdyż zarówno klasyfikacja studentów jak również odpowiedzi przez nich udzielanych ma charakter rozmyty. Zazwyczaj nie możemy stwierdzić jednoznacznie, że dany student jest dobry lub słaby. Stwierdzamy to z pewną dozą przekonania, co w teorii zbiorów rozmytych przekłada się na wartość funkcji przynależności do danego zbioru. To samo dotyczy odpowiedzi w ankietach. Odpowiadający rzadko są w 100% pewni swoich odpowiedzi. Raczej wybierają odpowiedź, która najbardziej im odpowiada, co nie oznacza, że nie mogliby udzielić odpowiedzi zbliżonej, gdyby jeszcze raz wypełniali ankietę. Dlatego wykorzystanie zbiorów rozmytych jest wartą przetestowania alternatywą dla standardowych rozwiązań opartych na klasycznej teorii zbiorów (z zero-jedynkową funkcją przynależności). SOM SOM (Self-Organizing Map) jest rodzajem sieci neuronowej, której nienadzorowany trening prowadzi do stworzenia jedno- lub dwuwymiarowej mapy odwzorowania przestrzeni wejściowej. Od nazwiska twórcy jest również nazywana siecią Kohonena (Kohonen 1982). Atutem tego rozwiązania jest możliwość wizualizacji rozkładu z wielowymiarowej przestrzeni. O tego typu sieci mówi się, że odwzorowuje relacje topologiczne w danych. Daje to możliwość wyrobienia sobie wyobrażenia o rozkładzie przestrzennym danych. Z punktu widzenia projektu jest to kolejna warta rozważenia i analizy porównawczej alternatywa. CLARA Nazwa metody jest skrótem od Clustering for LARge Applications (Kaufman 1990). Zgodnie z nazwą jest to rozwiązanie służące do klasteryzowania większych zbiorów danych. Działanie opiera się na klasteryzacji z wykorzystaniem k-medoid. Można powiedzieć, że jest to rozszerzenie metody PAM. Czynnikiem odróżniającym te dwie metody jest oparcie wyników na klasteryzacji próbki wybranej z całego zbioru. Dzięki temu uzyskujemy większą wydajność obliczeń, a przez to możliwość szybkiego przetworzenia dużych zbiorów. Czynnikiem ryzyka w tej metodzie jest właściwy dobór próbek. Dlatego ważne jest zapewnienie pełnej losowości wyboru próbek do klasteryzacji. SOTA Nazwa metody jest skrótem od Self-Organizing Tree Algorithm (Dopazo 1997, Herrero 2001). Jest to metoda nienadzorowanego uczenia sieci neuronowej o topologii drzewa binarnego. Łączy w sobie zalety zarówno klasteryzacji hierarchicznej, jak i metody samoorganizujących sieci SOM. Jest to metoda podziałowa, która rozpoczyna działanie od topologii binarnej składającej się z korzenia i dwóch liści. Proces samoorganizujący dzieli dane na dwa klastry. Po osiągnięciu zbieżności na tym poziomie, sieć

5 jest sprawdzana. Jeśli poziom zmienności jest powyżej zadanego poziomu w jednym lub większej liczbie końcowych węzłów, wówczas drzewo rozrasta się w obszarze tych węzłów. Dwóch nowych potomków jest dodawanych w obszarze tych węzłów. Proces jest kontynuowany aż do os iągnięcia zakładanego kryterium we wszystkich węzłach. Farthest First To podejście opiera się na wyborze punktów danych o maksymalnej odległości, przez co maksymalizowany jest promień klastra (Dasgupta 2002). Stąd bierze się nazwa metody Farthest First (Hochbaum 1985). Podobnie jak w przypadku k-średnich mamy tu do czynienia z działaniem w dwóch fazach: wybór centroidów, oraz przypisanie do klastrów. Wybór centroidów rozpoczyna się od wyboru losowego punktu jako początkowego centrum klastra. Następnie wybierane jest następne centrum, które jest najdalszym punktem (zgodnie z zadaną metryką) od pierwszego centrum. Kolejne centra są wybierane w podobny sposób są najbardziej odległymi punktami od już wybranych. Po wybraniu zakładanej liczby centroidów, algorytm przypisuje wszystkie pozostałe punkty danych do najbliżej leżących centroidów. Odmiennie niż metoda k-średnich, tutaj wystarczy jednokrotna iteracja algorytmu. Centrami klastrów są punkty danych, a nie centra geometryczne klastrów, jak w metodzie k-średnich. Warto porównać wyniki generowane przez te dwie metody. X-średnich (X-means) Ten algorytm jest rozszerzeniem metody k-średnich (Pelleg 2000). Początkowo działa jak metoda k- średnich aż do przypisania wszystkich punktów danych do klastrów. Następnie metoda prób uje podzielić każdy z klastrów na dwa odrębne klastry. Metoda x-średnich robi to przez obliczenie Bayesowskiego kryterium informacyjnego zarówno dla oryginalnego klastra, jak również dla dwóch nowych klastrów po podziale. Jeśli wartość kryterium jest wyższa dla nowych klastrów, wówczas są one zachowywane i liczba podziałów jest zwiększana. Atutem tej metody jest to, że liczba klastrów nie jest z góry ustalona. Jest ona wynikiem analizy skupień danych, więc sam algorytm poprzez wynikową liczbę klastrów dostarcza nam informacji o strukturze danych. DBSCAN (Density-Based Spatial Clustering of Applications with Noise) Mając zbiór punktów danych w pewnej przestrzeni, algorytm grupuje razem punkty leżące w mniejszej odległości od siebie (Ester 1996). Jednocześnie punkty leżące w obszarach o małej gęstości są oznaczane jako szum. Jest to jeden z najpopularniejszych i najczęściej cytowanych algorytmów. DBSCAN wymaga dwóch parametrów: : ε promień otoczenia punktu, oraz minimalna liczba punktów wymagana do stworzenia regionu gęstego. Algorytm startuje z dowolnego punktu, który nie został dotychczas odwiedzony. Otoczenie punktu o promieniu ε jest analizowane i jeśli zawiera wystarczająco wiele punktów, wówczas staje się początkiem klastra. W przeciwnym wypadku punkt jest oznaczany jako szum. Jednocześnie ten sam punkt może zostać znaleziony w otoczeniu innego punktu i w ten sposób uczyniony częścią klastra. Proces jest kontynuowany aż do momentu odszukania całego klastra połączonego przez gęstość. Następnie nowy punkt, który dotychczas nie był sprawdzany jest analizowany w ten sam sposób i może się stać zalążkiem nowego klastra. Istotne w tej metodzie jest to, że klastry odszukiwane w taki sposób mogą mieć bardzo dowolny kształt. Jednocześnie liczba klastrów nie jest z góry ustalona, gdyż wynika to ze skupień danych. Oczywiści liczba odkrytych skupień będzie zależała od parametru otoczenia punktów ε.

6 Model Based Clustering Dane do klasteryzacji wynikają z pewnego rozkładu statystycznego, będącego kombinacją dwóch lub większej liczby komponentów. Każdy z komponentów jest opisywany przez funkcję gęstości, oraz ma dowiązane prawdopodobieństwo lub wagę w mieszance. W zasadzie możemy zaadaptować dowolny model dla komponentów, ale typowo przyjmuje się, że rozkłady są p-wymiarowymi rozkładami normalnymi. Dlatego rozkład prawdopodobieństwa dla klasteryzacji będzie często mieszanką wielowymiarowych rozkładów normalnych. Każdy z komponentów w mieszance jest tym co nazywamy klastrem. 3. Walidacja jakości klasteryzacji Zadanie oceny klasteryzacji nie jest rzeczą oczywistą. Wynika to z faktu, że metody klasteryzacji nie należą do metod uczenia nadzorowanego, ale do metod nienadzorowanych. Dlatego nie ma danych testowych, z którymi można byłoby porównać wyniki generowane przez daną metodę. Dlatego konieczne jest stworzenie odpowiedniego kryterium ewaluacyjnego. W literaturze Istnieje wiele metod oceny jakości klasteryzacji. Dzielą się one na dwie kategorie: ewaluację zewnętrzną i ewaluację wewnętrzną. Trudno jednoznacznie określić, które z kryteriów są właściwe dla celów stawianych w projekcie, którego dotyczy opracowanie. Dlatego wziętych zostało pod uwagę kilka kryteriów, które zostaną tutaj pokrótce omówione. 3.1 Ewaluacja wewnętrzna Jeśli klasteryzacja jest ewaluowana w oparciu o dane, które zostały poddane klasteryzacji, to o takiej metodzie mówimy, że jest to ewaluacja wewnętrzna. Metody tego typu przypisują wysoką wartość algorytmom, które tworzą klastry o wysokim podobieństwie obiektów należących do poszczególnych klastrów, przy jednoczesnym niskim podobieństwie pomiędzy klastrami (Manning 2008). Wadą kryteriów wewnętrznych jest to, że wysokie rezultaty w mierze wewnętrznej nie koniecznie muszą przekładać się na dobre rezultaty w konkretnych zadaniach. Ponadto takie metody preferuję algorytmy opierające się na tym samym kryterium, które wcale nie musi być najlepsze. Wielkościami jakie poddawane są ocenie jest kompaktowość (compactness), łączność (connectedness) oraz rozseparowanie poszczególnych klastrów. Łączność jest związana z tym, do jakiego stopnia dane są umieszczone w tym samym klastrze, co ich najbliżsi sąsiedzi w przestrzeni danych (Handl 2005). Kompaktowość ocenia jednorodność klastrów, zazwyczaj przez sprawdzanie wewnątrzklastrowej zmienności. Rozseparowanie ocenia stopień rozdzielenia, zazwyczaj przez pomiar odległości między centroidami klastrów. Kompaktowość i rozseparowanie dotyczą przeciwnych zależności. Kompaktowość zwiększa się z liczbą klastrów, a rozseparowanie zmniejsza. Popularne metody łączą w sobie te dwie miary w postać jednego parametru. Indeks Dunn (Dunn 1974) oraz Silhouette Width (Rousseeuw 1987) są dwoma przykładami nieliniowych kombinacji kompaktowości, rozseparowania i łączności (Handl 2005). Łączność (connectedness) Niech N oznacza całkowitą liczbę punktów danych w zbiorze (wierszy), a M oznacza całkowitą liczbę kolumn. Oznaczmy przez nn i(j) j-tego najbliższego sąsiada punktu danych i. Niech x i,nni(j) wynosi 0

7 jeśli i oraz j są w tym samym klastrze, a 1 j w przeciwnym przypadku. Wówczas dla określonego podziału na klastry = {C 1,..., C K } zbioru N punktów danych na K odrębnych klastrów, łączność jest zdefiniowana następująco: N L i 1 j=1, Conn( ) = x i,nni(j) gdzie L jest parametrem dającym liczbę najbliższych sąsiadów, których chcemy użyć do obliczenia. Łączność osiąga wartości między 0 a i powinna być minimalizowana. Wyniki analizy walidacji wewnętrznej wg kryterium łączności została przedstawiona na Rys. 1. Widać wzrost tego parametru dla rosnącej liczby klastrów. Większość metod daje zbliżone do siebie wyniki. Jedyną metodą wyraźnie odstającą od pozostałych jest klasteryzacja hierarchiczna, która daje wyraźnie lepsze rezultaty, niż pozostałe metody. Silhouette Width Rysunek 1 Walidacja wewnętrzna wg kryterium łączności dla różnej liczby klastrów Silhouette Width jest średnią wartości Silhouette dla każdego punktu danych. Wartość ta mierzy stopień pewności przypisania do klastra danego punktu, gdzie dobrze sklasteryzowany punkt ma wartość bliską 1, a słabo sklasteryzowany punkt ma wartość -1. Dla obserwacji i parametr ten jest zdefiniowany jako

8 S(i) = b i a i max(b i,a i ), gdzie a i jest średnią odległością między punktem i oraz wszystkimi innymi punktami danych w tym samym klastrze, natomiast b i jest średnią odległością między i oraz wszystkimi punktami danych tworzącymi najbliżej położony klaster, czyli b i = min C k \C(i) dist(i,j) j C k, n(c k ) gdzie C(i) jest klastrem zawierającym punkt i, dist(i, j) jest odległością między punktami i oraz j (wg dowolnej miary), natomiast n(c k ) jest liczebnością klastra C k. Silhouette Width mieści się w interwale [ 1, 1] i powinna być zmaksymalizowana. Wyniki analizy walidacji wewnętrznej wg kryterium Silhouette Width została przedstawiona na Rys. 2 (legenda jak w Rys. 1). Wartości maleją wraz ze wzrostem liczby klastrów, co dawałoby preferencję mniejszym liczbom klastrów. Nie da się wskazać jednoznacznie najlepszej metody klasteryzacji. Dla małych liczb klastrów może być to klasteryzacja hierarchiczna, lub DANA. Dla większych liczb klastrów (4 i więcej) najlepsze wyniki zostały uzyskane przy pomocy metody k-średnich. Indeks Dunna Rysunek 2 Walidacja wewnętrzna wg kryterium indeksu Dunna dla różnej liczby klastrów Indeks Dunna jest stosunkiem najmniejszej odległości między punktami danych, które nie należą do tego samego klastra do największej odległości wewnątrzklastrowej. Wartość jest obliczana jako: D( ) = min ( min dist(i,j)) C k,c l, C k C l i C k,j C l max diam(c m ), Cm gdzie diam(c m ) jest maksymalną odległością między punktami danych w klastrze C m. Indeks Dunna ma wartość między 0 a i powinien być minimalizowany.

9 Wyniki analizy walidacji wewnętrznej wg kryterium indeksu Dunna zostały przedstawione na Rys. 3 (legenda jak w Rys. 1). Nie widać wyraźnego trendu dla tej wartości w zależności od liczby klastrów. Najlepsze wyniki zostały uzyskane dla metody DIANA. Rysunek 3 Walidacja wewnętrzna wg kryterium indeksu Dunna dla różnej liczby klastrów 3.2 Walidacja stabilności Miary stabilności porównują rezultaty klasteryzacji na całym zbiorze danych z rezultatami na danych uzyskanych przez usunięcie jednej kolumny. Za każdym razem usuwa się inną kolumnę. Ta miara działa bardzo dobrze, jeśli dane są mocno skorelowane. Miary jakie się tu stosuje to średnia proporcja nieprzekrycia (APN Average Proportion of Non-overlap), średnia odległość (AD Average Distance), średnia odległość między średnimi (ADM Average Distance between Means), oraz wydajność (FOM Figure of Merit) (Datta 2003; Yeung 2001). We wszystkich przypadkach średnia jest brana po wszystkich usuniętych kolumnach, a wartość miary powinna zostać zminimalizowana. APN (Average Proportion of Non-overlap) Jest to miara określająca średnią proporcję punktów danych, które znalazły się w innym klastrze przy zamianie zbioru danych z pełnego na zbiór danych z usuniętą jedną kolumną. Niech C i,0 reprezentuje klaster zawierający punkt danych i, gdzie klasteryzacja jest oparta na zbiorze z usuniętą kolumną l. Wówczas z całkowitą liczbą klastrów K, miara APN jest zdefiniowana następująco: N M APN(K) = 1 MN (1 n(ci,l C i,0 ) n(c i,0 ) ) i 1 l=1 Wartość APN mieści się przedziale [0,1], gdzie wartości bliskie 0 oznaczają stabilne rezultaty klasteryzacji. Rys. 4. przedstawia wyniki badania wartości kryterium APN dla klasteryzacji zbioru studentów w przestrzeni ocen jakie uzyskali z poszczególnych przedmiotów na koniec semestru. Badania przeprowadzono dla wymienionych wcześniej metod klasteryzacji oraz dla różnych liczb klastrów. Wyniki mają nam dostarczyć zarówno, która metoda klasteryzacji jest optymalna, jak również jaka liczba klastrów jest daje najlepsze wyniki. Obserwując otrzymane wartości, widzimy, że wartość parametru stabilności generalnie rośnie wraz z liczbą klastrów. Można by stąd wysnuć wniosek, że im mniej klastrów tym

10 lepiej. Jest to oczywiście słuszne rozumowanie, jednak należy też brać pod uwagę, że ten parametr nie jest jedynym kryterium, które należy brać pod uwagę dobierając liczbę klastrów. Co do metody klasteryzacji, to nie widać wyraźnego lidera. Jedną z mniejszych wartości przyjmuje metoda SOTA, ale nie działa to w pełnym zakresie. Przy mniejszych liczbach klastrów najlepsza okazuje się metoda SOM. AD (Average Distance) Rysunek 4 Walidacja stabilności wg kryterium APN dla różnej liczby klastrów Miara AD oblicza średnią odległość między punktami danych mieszczącymi się w tym samym klastrze, przez klasteryzację opartą na pełnych danych oraz na danych z usuniętą jedną kolumną. Miara jest zdefiniowana następująco: AD(K) = 1 MN 1 N M i 1 l=1 n(c i,0 )n(c i,l ) ( dist(i, j) i C i,0,j C i,l ) AD ma wartości z zakresu od 0 do. Im mniejsza wartość, tym lepsza klasteryzacja.

11 Rys. 5. przedstawia wyniki badania wartości kryterium AD dla klasteryzacji zbioru studentów w przestrzeni ocen jakie uzyskali z poszczególnych przedmiotów na koniec semestru. Badania przeprowadzono dla wymienionych wcześniej metod klasteryzacji (legenda taka jak na Rys. 4), oraz dla różnych liczb klastrów. Wszystkie metody klasteryzacji oprócz hierarchicznej, dają podobne wartości kryterium, z tendencją do spadku wartości przy większej liczbie klastrów. Jest to więc wskazówka odwrotna niż daje kryterium. Klasteryzacja hierarchiczna daje wyraźnie gorsze wartości stabilności wg tego kryterium APN. Rysunek 5 Walidacja stabilności wg kryterium AD dla różnej liczby klastrów ADM (Average Distance between Means) Miara ADM oblicza średnią odległość miedzy centrami klastrów, a punktami danych umiejscowionymi w tym samym klastrze, dla klasteryzacji opartej na pełnym zbiorze i klasteryzacji z usuniętą jedną kolumną danych. Miara jest zdefiniowana następująco: ADM(K) = 1 N M dist MN i 1 l=1 (x, C i,l x ), C i,0 gdzie x C i,0 jest średnią z obserwacji w klastrze zawierający punkt danych i, przy klasteryzacji opartej na pełnych danych, a x C i,l to taka sama średnia przy klasteryzacji opartej na zbiorze danych usuniętą kolumną l. ADM posiada wartość pomiędzy 0 i, gdzie pożądane są wartości mniejsze. Rys. 6. przedstawia wyniki badania wartości kryterium ADM dla klasteryzacji zbioru studentów w przestrzeni ocen jakie uzyskali z poszczególnych przedmiotów na koniec semestru. Badania przeprowadzono dla wymienionych wcześniej metod klasteryzacji (legenda taka jak na Rys. 4), oraz dla różnych liczb klastrów. Wyniki większości metod nie różnią się między sobą. Można zauważyć pewne podobieństwo do wyników uzyskanych przy pomocy metody APN. Wartości rosną wraz ze wzrostem liczby klastrów. Uśredniając wyniki po wszystkich wartościach, najgorsze wartości daje klasteryzacja hierarchiczna, chociaż dla liczby klastrów równej 4, najgorsze wyniki daje klasteryzacja metodą k-średnich.

12 Rysunek 6 Walidacja stabilności wg kryterium ADM dla różnej liczby klastrów 3.3 Ewaluacja zewnętrzna W ewaluacji zewnętrznej, rezultaty klasteryzacji są oceniane w oparciu o dane, które nie były używane do klasteryzacji, takie jak znane etykiety klas lub zewnętrzne benchmarki. Takie benchmarki składają się ze zbioru sklasyfikowanych danych (np. przy wykorzystaniu ekspertów). Tego typu benchmarki mogą być uważane za złote standardy do ewaluacji. Te rodzaje metod ewaluacji mierzą jak blisko jest klasteryzacja do określnych przez standard klas. Omawiane metody budzą wątpliwości związane z zakresem stosowalności. Uważa się, że można je wykorzystywać ale dla danych wygenerowanych w sposób sztuczny do celów testowych (Färber 2010). W przypadku realistycznych danych możliwość wykorzystania tego typu metod wydaje się ograniczona. Z punktu widzenia odkrywania wiedzy, odtwarzanie znanej wiedzy niekoniecznie musi być tym o co nam chodzi. W projekcie, którego dotyczy sprawozdanie, nie ma odgórnie narzuconych punktów danych i etykiet. Dlatego przeprowadzenie takiej ewaluacji nie jest możliwe. Aczkolwiek takiej ewaluacji ni e można wykluczyć w przyszłości, gdy będzie można zidentyfikować wyraźnie rozróżnialne klasy obiektów. Podsumowanie W tekście zostały przedstawione wyniki ewaluacji dla zbioru metod klasteryzacji. Brane były pod uwagę metody wewnętrznej oceny jakości klasteryzacji, oraz testy stabilności. Nie były prowadzone testy wg zewnętrznych metod ewaluacji, ze względu na brak danych, które mogłyby być wykorzystane do takich testów. Jednocześnie obliczenia zostały przeprowadzone dla różnych liczb klastrów w celu sprawdzenia, czy metody oceny klasteryzacji dają sugestię co do liczby klastrów. Uzyskane wyniki nie pozwalają na jednoznaczne wyróżnienie którejś z metod klasteryzacji. W zależności od przyjętego kryterium, rożne metody wydają się być najlepsze. W przypadku kryterium łączności, wyraźnie najlepsze wyniki

13 dała metoda hierarchiczna. Jeśli jednak weźmiemy pod uwagę kryterium stabilności ADM, to ta sama metoda wypadła najsłabiej. Dlatego nie możemy wykluczyć użycia żadnej z metod klasteryzacji. Biorąc pod uwagę, że dla kryterium łączności klasteryzacja hierarchiczna była wyraźnym liderem, oraz biorąc pod uwagę jej zalety z użytkowego punktu widzenia, można rekomendować tę metodę do wykorzystania w dalszych pracach. Co do liczby klastrów, to nie ma żadnych wskazówek, które pozwalałyby zdecydować się na określoną ich liczbę. Powinna ona więc wynikać ze względów praktycznych, tzn. w omawianym przypadku użytkownik rozwiązania, musiałby sam określić jaka liczba grup studentów odpowiadałaby realnemu zapotrzebowaniu. Szczegóły przedstawionego rozwiązania zostały dotychczas opublikowane w dwóch artykułach o zasięgu międzynarodowym: 1. Marek Jaszuk, Teresa Mroczek, Barbara Fryc, Data Integration through Clustering and Finding Statistical Relations - Validation of Approach, Proc. of the international workshop Concurrency Specification and Programming CS&P 2015, Rzeszów, Marek Jaszuk, Teresa Mroczek, Barbara Fryc, Identifying Semantic Classes within Student's Data Using Clustering Technique, Proc. of the 3-rd International Conference on Data Management Technologies and Applications DATA 2014, Wiedeń, pp Marek Jaszuk, Teresa Mroczek, Barbara Fryc, Automatyczna identyfikacja relacji semantycznych na przykładzie ankiet studenckich, publikacja on-line: Literatura 1. Borgatti S.P., How to explain hierarchical clustering. Connections, 17(2), 1994, pp Dasgupta S., Performance guarantees for hierarchical clustering, in Proceedings of the 15th Annual Conference on Computational Learning Theory (COLT 02), Sydney, Australia, July 8-10, 2002, pp Datta and S. Datta. Comparisons and validation of statistical clustering techniques for microarray gene expression data. Bioinformatics, 19(4):459 66, Dopazo J., Carazo, J.M., Phylogenetic reconstruction using a growing neural network that adopts the topology of a phylogenetic tree. J. Mol. Evol. 44, 1997, pp Dunn J.C., Well separated clusters and fuzzy partitions, Journal on Cybernetics, 4, 1974 pp Everitt B., Cluster analysis. Chichester, West Sussex, U.K: Wiley, Ester M., Kriegel H.P., Sander J., Xu X., A density-based algorithm for discovering clusters in large spatial databases with noise, Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96), AAAI Press, 1996, pp Färber I., Günnemann S., Kriegel H.P., Kröger P., Müller E., Schubert E., Seidl T., Zimek A., On Using Class-Labels in Evaluation of Clusterings, In Fern, Xiaoli Z.; Davidson, Ian; Dy, Jennifer. MultiClust: Discovering, Summarizing, and Using Multiple Clusterings, ACM SigKDD, Handl J., Knowles J., Kell D.B., Computational cluster validation in postgenomic data analysis. Bioinformatics, 21(15) 2005, pp

14 10. Herrero J., Valencia A., Dopazo J., A hierarchical unsupervised growing neural network for clustering gene expression patterns. Bioinformatics 17, 2001, pp Hochbaum D. S., Shmoys D.B., A best possible heuristic for the k-center problem, Mathematics of Operations Research, vol. 10, no. 2, 1985, pp Kaufman L., Rousseeuw P.J., Clustering by means of Medoids, in Statistical Data Analysis Based on the L1 Norm and Related Methods, edited by Y. Dodge, North-Holland, 1987, pp Kaufman L., Rousseeuw P. J., Clustering Large Applications (Program CLARA), in Finding Groups in Data: An Introduction to Cluster Analysis, John Wiley & Sons, Inc., Hoboken, NJ, USA, Kaufman L., Rousseeuw P.J., Finding Groups in Data: An Introduction to Cluster Analysis, Wiley- Interscience, Kohonen, T., Self-Organized Formation of Topologically Correct Feature Maps, Biological Cybernetics, 43 (1), 1982, pp MacQueen J., Some methods for classification and analysis of multivariate observations, Proc. Fifth Berkeley Sympos. Math. Statist. and Probability (Berkeley, Calif., 1965/66) Vol. I: Statistics, 1967, pp Manning C.D., Raghavan P., Schütze H., Introduction to Information Retrieval, Cambridge University Press, New York, NY, USA, Murtagh, F., Legendre, P.: Ward s Hierarchical Agglomerative Clustering Method: Which Algorithms Implement Ward s Criterion?. Journal of Classification, 31(3), 2014, pp Pelleg D., Moore A., X-Means: Extending K-Means with Efficient Estimation of the Number of Clusters, In Proceedings of the Seventeenth International Conference on Machine Le arning, 2000, pp Rokach L., Oded M., Clustering methods. Data mining and knowledge discovery handbook. Springer US, 2005, pp Rousseeuw P.J., Silhouettes: a graphical aid to the interpretation and validation of cluster analysis, Journal of Computational and Applied Mathematics, , pp

Hierarchiczna analiza skupień

Hierarchiczna analiza skupień Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym

Bardziej szczegółowo

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu

Bardziej szczegółowo

Michał Kozielski Łukasz Warchał. Instytut Informatyki, Politechnika Śląska

Michał Kozielski Łukasz Warchał. Instytut Informatyki, Politechnika Śląska Michał Kozielski Łukasz Warchał Instytut Informatyki, Politechnika Śląska Algorytm DBSCAN Algorytm OPTICS Analiza gęstego sąsiedztwa w grafie Wstępne eksperymenty Podsumowanie Algorytm DBSCAN Analiza gęstości

Bardziej szczegółowo

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633 Grupowanie Grupowanie 7 6 5 4 y 3 2 1 0-3 -2-1 0 1 2 3 4 5-1 -2-3 -4 x Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633 Wprowadzenie Celem procesu grupowania jest podział zbioru

Bardziej szczegółowo

CLUSTERING. Metody grupowania danych

CLUSTERING. Metody grupowania danych CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means

Bardziej szczegółowo

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska Algorytmy rozpoznawania obrazów 11. Analiza skupień dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Analiza skupień Określenia: analiza skupień (cluster analysis), klasteryzacja (clustering), klasyfikacja

Bardziej szczegółowo

Sieci Kohonena Grupowanie

Sieci Kohonena Grupowanie Sieci Kohonena Grupowanie http://zajecia.jakubw.pl/nai UCZENIE SIĘ BEZ NADZORU Załóżmy, że mamy za zadanie pogrupować następujące słowa: cup, roulette, unbelievable, cut, put, launderette, loveable Nie

Bardziej szczegółowo

CLUSTERING II. Efektywne metody grupowania danych

CLUSTERING II. Efektywne metody grupowania danych CLUSTERING II Efektywne metody grupowania danych Plan wykładu Wstęp: Motywacja i zastosowania Metody grupowania danych Algorytmy oparte na podziałach (partitioning algorithms) PAM Ulepszanie: CLARA, CLARANS

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Eksploracja danych Co to znaczy eksploracja danych Klastrowanie (grupowanie) hierarchiczne Klastrowanie

Bardziej szczegółowo

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization Wrocław University of Technology SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization Jakub M. Tomczak Studenckie Koło Naukowe Estymator jakub.tomczak@pwr.wroc.pl 4.1.213 Klasteryzacja Zmienne

Bardziej szczegółowo

4.3 Grupowanie według podobieństwa

4.3 Grupowanie według podobieństwa 4.3 Grupowanie według podobieństwa Przykłady obiektów to coś więcej niż wektory wartości atrybutów. Reprezentują one poszczególne rasy psów. Ważnym pytaniem, jakie można sobie zadać, jest to jak dobrymi

Bardziej szczegółowo

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015 Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner rok akademicki 2014/2015 Sieci Kohonena Sieci Kohonena Sieci Kohonena zostały wprowadzone w 1982 przez fińskiego

Bardziej szczegółowo

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor S O M SELF-ORGANIZING MAPS Przemysław Szczepańczyk Łukasz Myszor Podstawy teoretyczne Map Samoorganizujących się stworzył prof. Teuvo Kohonen (1982 r.). SOM wywodzi się ze sztucznych sieci neuronowych.

Bardziej szczegółowo

Analiza skupień. Idea

Analiza skupień. Idea Idea Analiza skupień Analiza skupień jest narzędziem analizy danych służącym do grupowania n obiektów, opisanych za pomocą wektora p-cech, w K niepustych, rozłącznych i możliwie jednorodnych grup skupień.

Bardziej szczegółowo

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1 Grupowanie Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Grupowanie wykład 1 Sformułowanie problemu Dany jest zbiór obiektów (rekordów). Znajdź naturalne pogrupowanie

Bardziej szczegółowo

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu

Bardziej szczegółowo

Co to jest grupowanie

Co to jest grupowanie Grupowanie danych Co to jest grupowanie 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Szukanie grup, obszarów stanowiących lokalne gromady punktów Co to jest grupowanie

Bardziej szczegółowo

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów

Bardziej szczegółowo

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania Analiza skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania Analiza Skupień Elementy składowe procesu grupowania obiekt Ekstrakcja cech Sprzężenie zwrotne Grupowanie klastry Reprezentacja

Bardziej szczegółowo

Algorytm grupowania danych typu kwantyzacji wektorów

Algorytm grupowania danych typu kwantyzacji wektorów Algorytm grupowania danych typu kwantyzacji wektorów Wstęp Definicja problemu: Typowe, rozważane dotychczas problemy koncentrowały się na nauczeniu na podstawie zbioru treningowego i zbioru etykiet klasyfikacji

Bardziej szczegółowo

Elementy statystyki wielowymiarowej

Elementy statystyki wielowymiarowej Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych

Bardziej szczegółowo

Elementy modelowania matematycznego

Elementy modelowania matematycznego Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Wyszukiwanie informacji w internecie. Nguyen Hung Son Wyszukiwanie informacji w internecie Nguyen Hung Son Jak znaleźć informację w internecie? Wyszukiwarki internetowe: Potężne machiny wykorzystujące najnowsze metody z różnych dziedzin Architektura: trzy

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18 Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)

Bardziej szczegółowo

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną

Bardziej szczegółowo

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny

Bardziej szczegółowo

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej

Bardziej szczegółowo

Metoda określania pozycji wodnicy statków na podstawie pomiarów odległości statku od głowic laserowych

Metoda określania pozycji wodnicy statków na podstawie pomiarów odległości statku od głowic laserowych inż. Marek Duczkowski Metoda określania pozycji wodnicy statków na podstawie pomiarów odległości statku od głowic laserowych słowa kluczowe: algorytm gradientowy, optymalizacja, określanie wodnicy W artykule

Bardziej szczegółowo

Inteligentna analiza danych

Inteligentna analiza danych Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki

Bardziej szczegółowo

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006 SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu

Bardziej szczegółowo

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L, Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta

Bardziej szczegółowo

Algorytm grupowania danych typu kwantyzacji wektorów

Algorytm grupowania danych typu kwantyzacji wektorów Algorytm grupowania danych typu kwantyzacji wektorów Wstęp Definicja problemu: Typowe, problemem często spotykanym w zagadnieniach eksploracji danych (ang. data mining) jest zagadnienie grupowania danych

Bardziej szczegółowo

Czym jest analiza skupień?

Czym jest analiza skupień? Statystyczna analiza danych z pakietem SAS Analiza skupień metody hierarchiczne Czym jest analiza skupień? wielowymiarowa technika pozwalająca wykrywać współzależności między obiektami; ściśle związana

Bardziej szczegółowo

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO

STATYSTYKA I DOŚWIADCZALNICTWO STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6 Test niezależności chi-kwadrat (χ 2 ) Cel: ocena występowania zależności między dwiema cechami jakościowymi/skategoryzowanymi X- pierwsza cecha; Y druga cecha Przykłady

Bardziej szczegółowo

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne Wykład 4 Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym 2. Rozkłady próbkowe 3. Centralne twierdzenie graniczne Przybliżenie rozkładu dwumianowego rozkładem normalnym Niech Y ma rozkład

Bardziej szczegółowo

Wykrywanie nietypowości w danych rzeczywistych

Wykrywanie nietypowości w danych rzeczywistych Wykrywanie nietypowości w danych rzeczywistych dr Agnieszka NOWAK-BRZEZIŃSKA, mgr Artur TUROS 1 Agenda 1 2 3 4 5 6 Cel badań Eksploracja odchyleń Metody wykrywania odchyleń Eksperymenty Wnioski Nowe badania

Bardziej szczegółowo

Techniki grupowania danych w środowisku Matlab

Techniki grupowania danych w środowisku Matlab Techniki grupowania danych w środowisku Matlab 1. Normalizacja danych. Jedne z metod normalizacji: = = ma ( y =, rσ ( = ( ma ( = min = (1 + e, min ( = σ wartość średnia, r współczynnik, σ odchylenie standardowe

Bardziej szczegółowo

Agnieszka Nowak Brzezińska

Agnieszka Nowak Brzezińska Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia

Bardziej szczegółowo

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner Wydział Matematyki i Nauk Informacyjnych Politechnika Warszawska Elementy nieprzystające Definicja odrzucania Klasyfikacja

Bardziej szczegółowo

Badania biegłości laboratorium poprzez porównania międzylaboratoryjne

Badania biegłości laboratorium poprzez porównania międzylaboratoryjne Badania biegłości laboratorium poprzez porównania międzylaboratoryjne Dr inż. Maciej Wojtczak, Politechnika Łódzka Badanie biegłości (ang. Proficienty testing) laboratorium jest to określenie, za pomocą

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Eksploracja danych Algorytmy klastujące Problem 3 Mając daną chmurę punktów chcielibyśmy zrozumieć ich

Bardziej szczegółowo

2. Reprezentacje danych wielowymiarowych sposoby sobie radzenia z nimi. a. Wprowadzenie, aspekt psychologiczny, wady statystyki

2. Reprezentacje danych wielowymiarowych sposoby sobie radzenia z nimi. a. Wprowadzenie, aspekt psychologiczny, wady statystyki 1. Wstęp 2. Reprezentacje danych wielowymiarowych sposoby sobie radzenia z nimi a. Wprowadzenie, aspekt psychologiczny, wady statystyki b. Metody graficzne i. Wykres 1.zmiennej ii. Rzut na 2 współrzędne

Bardziej szczegółowo

KLASYFIKACJA. Słownik języka polskiego

KLASYFIKACJA. Słownik języka polskiego KLASYFIKACJA KLASYFIKACJA Słownik języka polskiego Klasyfikacja systematyczny podział przedmiotów lub zjawisk na klasy, działy, poddziały, wykonywany według określonej zasady Klasyfikacja polega na przyporządkowaniu

Bardziej szczegółowo

operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je.

operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je. Problem porządkowania zwanego również sortowaniem jest jednym z najważniejszych i najpopularniejszych zagadnień informatycznych. Dane: Liczba naturalna n i ciąg n liczb x 1, x 2,, x n. Wynik: Uporządkowanie

Bardziej szczegółowo

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Kompresja danych Streszczenie Studia Dzienne Wykład 10, 1 Kwantyzacja wektorowa Kompresja danych Streszczenie Studia Dzienne Wykład 10, 28.04.2006 Kwantyzacja wektorowa: dane dzielone na bloki (wektory), każdy blok kwantyzowany jako jeden element danych. Ogólny

Bardziej szczegółowo

Spacery losowe generowanie realizacji procesu losowego

Spacery losowe generowanie realizacji procesu losowego Spacery losowe generowanie realizacji procesu losowego Michał Krzemiński Streszczenie Omówimy metodę generowania trajektorii spacerów losowych (błądzenia losowego), tj. szczególnych procesów Markowa z

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia

Bardziej szczegółowo

Widzenie komputerowe (computer vision)

Widzenie komputerowe (computer vision) Widzenie komputerowe (computer vision) dr inż. Marcin Wilczewski 2018/2019 Organizacja zajęć Tematyka wykładu Cele Python jako narzędzie uczenia maszynowego i widzenia komputerowego. Binaryzacja i segmentacja

Bardziej szczegółowo

Metody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania

Metody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania Wielowymiarowe metody segmentacji CHAID Metoda Automatycznej Detekcji Interakcji CHAID Cele CHAID Dane CHAID Przebieg analizy CHAID Parametry CHAID Wyniki Metody analizy skupień Wprowadzenie Charakterystyka

Bardziej szczegółowo

Wykład 9 Wnioskowanie o średnich

Wykład 9 Wnioskowanie o średnich Wykład 9 Wnioskowanie o średnich Rozkład t (Studenta) Wnioskowanie dla jednej populacji: Test i przedziały ufności dla jednej próby Test i przedziały ufności dla par Porównanie dwóch populacji: Test i

Bardziej szczegółowo

Zadania ze statystyki, cz.6

Zadania ze statystyki, cz.6 Zadania ze statystyki, cz.6 Zad.1 Proszę wskazać, jaką część pola pod krzywą normalną wyznaczają wartości Z rozkładu dystrybuanty rozkładu normalnego: - Z > 1,25 - Z > 2,23 - Z < -1,23 - Z > -1,16 - Z

Bardziej szczegółowo

Systemy uczące się Lab 4

Systemy uczące się Lab 4 Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego

Bardziej szczegółowo

Priorytetyzacja przypadków testowych za pomocą macierzy

Priorytetyzacja przypadków testowych za pomocą macierzy Priorytetyzacja przypadków testowych za pomocą macierzy W niniejszym artykule przedstawiony został problem przyporządkowania priorytetów do przypadków testowych przed rozpoczęciem testów oprogramowania.

Bardziej szczegółowo

Zastosowanie rozmytych map kognitywnych do badania scenariuszy rozwoju jednostek naukowo-dydaktycznych

Zastosowanie rozmytych map kognitywnych do badania scenariuszy rozwoju jednostek naukowo-dydaktycznych Konferencja Systemy Czasu Rzeczywistego 2012 Kraków, 10-12 września 2012 Zastosowanie rozmytych map kognitywnych do badania scenariuszy rozwoju jednostek naukowo-dydaktycznych Piotr Szwed AGH University

Bardziej szczegółowo

Prawdopodobieństwo czerwonych = = 0.33

Prawdopodobieństwo czerwonych = = 0.33 Temat zajęć: Naiwny klasyfikator Bayesa a algorytm KNN Część I: Naiwny klasyfikator Bayesa Naiwny klasyfikator bayerowski jest prostym probabilistycznym klasyfikatorem. Naiwne klasyfikatory bayesowskie

Bardziej szczegółowo

Analiza składowych głównych

Analiza składowych głównych Analiza składowych głównych Wprowadzenie (1) W przypadku regresji naszym celem jest predykcja wartości zmiennej wyjściowej za pomocą zmiennych wejściowych, wykrycie związku między wielkościami wejściowymi

Bardziej szczegółowo

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU Nazwa w języku polskim: ANALIZA DANYCH ANKIETOWYCH Nazwa w języku angielskim: Categorical Data Analysis Kierunek studiów (jeśli dotyczy): MATEMATYKA I STATYSTYKA Specjalność

Bardziej szczegółowo

Metoda Karnaugh. B A BC A

Metoda Karnaugh. B A BC A Metoda Karnaugh. Powszechnie uważa się, iż układ o mniejszej liczbie elementów jest tańszy i bardziej niezawodny, a spośród dwóch układów o takiej samej liczbie elementów logicznych lepszy jest ten, który

Bardziej szczegółowo

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335 Sztuczne sieci neuronowe Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335 Wykład 10 Mapa cech Kohonena i jej modyfikacje - uczenie sieci samoorganizujących się - kwantowanie wektorowe

Bardziej szczegółowo

Przestrzeń algorytmów klastrowania

Przestrzeń algorytmów klastrowania 20 listopada 2008 Plan prezentacji 1 Podstawowe pojęcia Przykłady algorytmów klastrowania 2 Odległość algorytmów klastrowania Odległość podziałów 3 Dane wejściowe Eksperymenty Praca źródłowa Podstawowe

Bardziej szczegółowo

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów: Na dzisiejszym wykładzie omówimy najważniejsze charakterystyki liczbowe występujące w statystyce opisowej. Poszczególne wzory będziemy podawać w miarę potrzeby w trzech postaciach: dla szeregu szczegółowego,

Bardziej szczegółowo

Prawdopodobieństwo geometryczne

Prawdopodobieństwo geometryczne Prawdopodobieństwo geometryczne Krzysztof Jasiński Wydział Matematyki i Informatyki UMK, Toruń V Lieceum Ogólnokształące im. Jana Pawała II w Toruniu 13.03.2014 Krzysztof Jasiński (WMiI UMK) Prawdopodobieństwo

Bardziej szczegółowo

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl

Bardziej szczegółowo

Wszystkie wyniki w postaci ułamków należy podawać z dokładnością do czterech miejsc po przecinku!

Wszystkie wyniki w postaci ułamków należy podawać z dokładnością do czterech miejsc po przecinku! Pracownia statystyczno-filogenetyczna Liczba punktów (wypełnia KGOB) / 30 PESEL Imię i nazwisko Grupa Nr Czas: 90 min. Łączna liczba punktów do zdobycia: 30 Czerwona Niebieska Zielona Żółta Zaznacz znakiem

Bardziej szczegółowo

Wnioskowanie bayesowskie

Wnioskowanie bayesowskie Wnioskowanie bayesowskie W podejściu klasycznym wnioskowanie statystyczne oparte jest wyłącznie na podstawie pobranej próby losowej. Możemy np. estymować punktowo lub przedziałowo nieznane parametry rozkładów,

Bardziej szczegółowo

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej) Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej) 1 Podział ze względu na zakres danych użytych do wyznaczenia miary Miary opisujące

Bardziej szczegółowo

Testy nieparametryczne

Testy nieparametryczne Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów

Bardziej szczegółowo

PROGRAMOWANIE DYNAMICZNE W ROZMYTYM OTOCZENIU DO STEROWANIA STATKIEM

PROGRAMOWANIE DYNAMICZNE W ROZMYTYM OTOCZENIU DO STEROWANIA STATKIEM Mostefa Mohamed-Seghir Akademia Morska w Gdyni PROGRAMOWANIE DYNAMICZNE W ROZMYTYM OTOCZENIU DO STEROWANIA STATKIEM W artykule przedstawiono propozycję zastosowania programowania dynamicznego do rozwiązywania

Bardziej szczegółowo

Systemy uczące się wykład 2

Systemy uczące się wykład 2 Systemy uczące się wykład 2 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 19 X 2018 Podstawowe definicje Fakt; Przesłanka; Konkluzja; Reguła; Wnioskowanie. Typy wnioskowania

Bardziej szczegółowo

Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych

Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych autor: Robert Drab opiekun naukowy: dr inż. Paweł Rotter 1. Wstęp Zagadnienie generowania trójwymiarowego

Bardziej szczegółowo

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład Data Mining Wykład 5 Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny Indeks Gini Popularnym kryterium podziału, stosowanym w wielu produktach komercyjnych, jest indeks Gini Algorytm SPRINT

Bardziej szczegółowo

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

8. Drzewa decyzyjne, bagging, boosting i lasy losowe Algorytmy rozpoznawania obrazów 8. Drzewa decyzyjne, bagging, boosting i lasy losowe dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Drzewa decyzyjne Drzewa decyzyjne (ang. decision trees), zwane

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

Prawdopodobieństwo i rozkład normalny cd.

Prawdopodobieństwo i rozkład normalny cd. # # Prawdopodobieństwo i rozkład normalny cd. Michał Daszykowski, Ivana Stanimirova Instytut Chemii Uniwersytet Śląski w Katowicach Ul. Szkolna 9 40-006 Katowice E-mail: www: mdaszyk@us.edu.pl istanimi@us.edu.pl

Bardziej szczegółowo

METODY INŻYNIERII WIEDZY

METODY INŻYNIERII WIEDZY METODY INŻYNIERII WIEDZY Metoda K Najbliższych Sąsiadów K-Nearest Neighbours (KNN) ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

METODY INŻYNIERII WIEDZY

METODY INŻYNIERII WIEDZY METODY INŻYNIERII WIEDZY WALIDACJA KRZYŻOWA dla ZAAWANSOWANEGO KLASYFIKATORA KNN ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Algorytmy metaheurystyczne Wykład 11. Piotr Syga Algorytmy metaheurystyczne Wykład 11 Piotr Syga 22.05.2017 Drzewa decyzyjne Idea Cel Na podstawie przesłanek (typowo zbiory rozmyte) oraz zbioru wartości w danych testowych, w oparciu o wybrane miary,

Bardziej szczegółowo

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania

Bardziej szczegółowo

Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa

Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa Konrad Miziński 14 stycznia 2015 1 Temat projektu Grupowanie hierarchiczne na podstawie algorytmu k-średnich. 2 Dokumenty

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU Nazwa w języku polskim: Eksploracja Danych Nazwa w języku angielskim: Data Mining Kierunek studiów (jeśli dotyczy): MATEMATYKA I STATYSTYKA Stopień studiów i forma:

Bardziej szczegółowo

Metody komputerowe statystyki Computer Methods in Statistics. Matematyka. Poziom kwalifikacji: II stopnia. Liczba godzin/tydzień: 2W, 3L

Metody komputerowe statystyki Computer Methods in Statistics. Matematyka. Poziom kwalifikacji: II stopnia. Liczba godzin/tydzień: 2W, 3L Nazwa przedmiotu: Kierunek: Metody komputerowe statystyki Computer Methods in Statistics Matematyka Rodzaj przedmiotu: przedmiot obowiązkowy dla specjalności matematyka przemysłowa Rodzaj zajęć: wykład,

Bardziej szczegółowo

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N = HISTOGRAM W pewnych przypadkach interesuje nas nie tylko określenie prawdziwej wartości mierzonej wielkości, ale także zbadanie całego rozkład prawdopodobieństwa wyników pomiarów. W takim przypadku wyniki

Bardziej szczegółowo

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING NEURONOWE MAPY SAMOORGANIZUJĄCE SIĘ Self-Organizing Maps SOM Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki,

Bardziej szczegółowo

KADD Minimalizacja funkcji

KADD Minimalizacja funkcji Minimalizacja funkcji n-wymiarowych Forma kwadratowa w n wymiarach Procedury minimalizacji Minimalizacja wzdłuż prostej w n-wymiarowej przestrzeni Metody minimalizacji wzdłuż osi współrzędnych wzdłuż kierunków

Bardziej szczegółowo

Wstęp do sieci neuronowych, wykład 04. Skierowane sieci neuronowe. Algorytmy konstrukcyjne dla sieci skierowanych

Wstęp do sieci neuronowych, wykład 04. Skierowane sieci neuronowe. Algorytmy konstrukcyjne dla sieci skierowanych Wstęp do sieci neuronowych, wykład 04. Skierowane sieci neuronowe. dla sieci skierowanych Maja Czoków, Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2011-10-25 1 Motywacja

Bardziej szczegółowo

TEORETYCZNE PODSTAWY INFORMATYKI

TEORETYCZNE PODSTAWY INFORMATYKI 1 TEORETYCZNE PODSTAWY INFORMATYKI WFAiS UJ, Informatyka Stosowana II stopień studiów Wykład 13b 2 Eksploracja danych Co rozumiemy pod pojęciem eksploracja danych Algorytmy grupujące (klajstrujące) Graficzna

Bardziej szczegółowo

Algorytmy zrandomizowane

Algorytmy zrandomizowane Algorytmy zrandomizowane http://zajecia.jakubw.pl/nai ALGORYTMY ZRANDOMIZOWANE Algorytmy, których działanie uzależnione jest od czynników losowych. Algorytmy typu Monte Carlo: dają (po pewnym czasie) wynik

Bardziej szczegółowo

13. Równania różniczkowe - portrety fazowe

13. Równania różniczkowe - portrety fazowe 13. Równania różniczkowe - portrety fazowe Grzegorz Kosiorowski Uniwersytet Ekonomiczny w Krakowie rzegorz Kosiorowski (Uniwersytet Ekonomiczny 13. wrównania Krakowie) różniczkowe - portrety fazowe 1 /

Bardziej szczegółowo

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - zastosowanie na sztucznym zbiorze danych

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - zastosowanie na sztucznym zbiorze danych Kombinacja jądrowych estymatorów gęstości w klasyfikacji - zastosowanie na sztucznym zbiorze danych Mateusz Kobos, 07.04.2010 Seminarium Metody Inteligencji Obliczeniowej Spis treści Opis algorytmu i zbioru

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO

STATYSTYKA I DOŚWIADCZALNICTWO STATYSTYKA I DOŚWIADCZALNICTWO Wykład 9 Analiza skupień wielowymiarowa klasyfikacja obiektów Metoda, a właściwie to zbiór metod pozwalających na grupowanie obiektów pod względem wielu cech jednocześnie.

Bardziej szczegółowo

CLUSTERING METODY GRUPOWANIA DANYCH

CLUSTERING METODY GRUPOWANIA DANYCH CLUSTERING METODY GRUPOWANIA DANYCH Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means

Bardziej szczegółowo

Propensity score matching (PSM)

Propensity score matching (PSM) Propensity score matching (PSM) Jerzy Mycielski Uniwersytet Warszawski Maj 2010 Jerzy Mycielski (Uniwersytet Warszawski) Propensity score matching (PSM) Maj 2010 1 / 18 Badania ewaluacyjne Ocena wpływu

Bardziej szczegółowo

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd. Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru

Bardziej szczegółowo

Porównanie szeregów czasowych z wykorzystaniem algorytmu DTW

Porównanie szeregów czasowych z wykorzystaniem algorytmu DTW Zlot użytkowników R Porównanie szeregów czasowych z wykorzystaniem algorytmu DTW Paweł Teisseyre Instytut Podstaw Informatyki, Polska Akademia Nauk 21 września 2010 Miary podobieństwa między szeregami

Bardziej szczegółowo

Przedmiot statystyki. Graficzne przedstawienie danych. Wykład-26.02.07. Przedmiot statystyki

Przedmiot statystyki. Graficzne przedstawienie danych. Wykład-26.02.07. Przedmiot statystyki Przedmiot statystyki. Graficzne przedstawienie danych. Wykład-26.02.07 Statystyka dzieli się na trzy części: Przedmiot statystyki -zbieranie danych; -opracowanie i kondensacja danych (analiza danych);

Bardziej szczegółowo