Ćwiczenie 10. Metody eksploracji danych



Podobne dokumenty
Analiza danych OGÓLNY SCHEMAT. Dane treningowe (znana decyzja) Klasyfikator. Dane testowe (znana decyzja)

D Archiwum Prac Dyplomowych - Instrukcja dla studentów

KURS STATYSTYKA. Lekcja 6 Regresja i linie regresji ZADANIE DOMOWE. Strona 1

Analiza rodzajów skutków i krytyczności uszkodzeń FMECA/FMEA według MIL STD A

WikiWS For Business Sharks

SZTUCZNA INTELIGENCJA

Sprawozdanie powinno zawierać:

Twierdzenie Bezouta i liczby zespolone Javier de Lucas. Rozwi azanie 2. Z twierdzenia dzielenia wielomianów, mamy, że

Rozwiązywanie zadań optymalizacji w środowisku programu MATLAB

Projekt 6 6. ROZWIĄZYWANIE RÓWNAŃ NIELINIOWYCH CAŁKOWANIE NUMERYCZNE

D Archiwum Prac Dyplomowych - Instrukcja dla opiekunów/promotorów/recenzentów

Regulamin promocji 14 wiosna

Plan wykładu: Typowe dane. Jednoczynnikowa Analiza wariancji. Zasada: porównać zmienność pomiędzy i wewnątrz grup

EKONOMETRIA I Spotkanie 1, dn

( ) ( ) 2. Zadanie 1. są niezależnymi zmiennymi losowymi o. oraz. rozkładach normalnych, przy czym EX. i σ są nieznane. 1 Niech X


Statystyka. Zmienne losowe

Evaluation of estimation accuracy of correlation functions with use of virtual correlator model

Ćwiczenie 12. Metody eksploracji danych

Weryfikacja hipotez dla wielu populacji

) będą niezależnymi zmiennymi losowymi o tym samym rozkładzie normalnym z następującymi parametrami: nieznaną wartością 1 4

Regulamin promocji upalne lato

Zapis informacji, systemy pozycyjne 1. Literatura Jerzy Grębosz, Symfonia C++ standard. Harvey M. Deitl, Paul J. Deitl, Arkana C++. Programowanie.

SZACOWANIE NIEPEWNOŚCI POMIARU METODĄ PROPAGACJI ROZKŁADÓW

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Funkcje i charakterystyki zmiennych losowych

Problemy jednoczesnego testowania wielu hipotez statystycznych i ich zastosowania w analizie mikromacierzy DNA

0 0,2 0, p 0,1 0,2 0,5 0, p 0,3 0,1 0,2 0,4

KRZYWA BÉZIERA TWORZENIE I WIZUALIZACJA KRZYWYCH PARAMETRYCZNYCH NA PRZYKŁADZIE KRZYWEJ BÉZIERA

STATECZNOŚĆ SKARP. α - kąt nachylenia skarpy [ o ], φ - kąt tarcia wewnętrznego gruntu [ o ],

1.1. Uprość opis zdarzeń: 1.2. Uprościć opis zdarzeń: a) A B A Uprościć opis zdarzeń: 1.4. Uprościć opis zdarzeń:

Modele wieloczynnikowe. Modele wieloczynnikowe. Modele wieloczynnikowe ogólne. α β β β ε. Analiza i Zarządzanie Portfelem cz. 4.

Zestaw przezbrojeniowy na inne rodzaje gazu. 1 Dysza 2 Podkładka 3 Uszczelka

Proces narodzin i śmierci

KURS STATYSTYKA. Lekcja 1 Statystyka opisowa ZADANIE DOMOWE. Strona 1

BADANIA OPERACYJNE. Podejmowanie decyzji w warunkach niepewności. dr Adam Sojda

Proste modele ze złożonym zachowaniem czyli o chaosie

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Zmodyfikowana technika programowania dynamicznego

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 4

Stanisław Cichocki. Natalia Nehrebecka. Wykład 7

ZESTAW ZADAŃ Z INFORMATYKI

4.1. Komputer i grafika komputerowa

Zaawansowane metody numeryczne Komputerowa analiza zagadnień różniczkowych 1. Układy równań liniowych

Regulamin promocji zimowa piętnastka

65120/ / / /200

W praktyce często zdarza się, że wyniki obu prób możemy traktować jako. wyniki pomiarów na tym samym elemencie populacji np.

(M2) Dynamika 1. ŚRODEK MASY. T. Środek ciężkości i środek masy

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie


PODSTAWA WYMIARU ORAZ WYSOKOŚĆ EMERYTURY USTALANEJ NA DOTYCHCZASOWYCH ZASADACH

ZESZYTY NAUKOWE INSTYTUTU POJAZDÓW 2(88)/2012

Zapytanie ofertowe nr 4/2016/Młodzi (dotyczy zamówienia na usługę ochrony)

Systemy Ochrony Powietrza Ćwiczenia Laboratoryjne

Regulamin promocji fiber xmas 2015

8. Optymalizacja decyzji inwestycyjnych

SYSTEMY UCZĄCE SIĘ WYKŁAD 7. KLASYFIKATORY BAYESA. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Rozkład dwupunktowy. Rozkład dwupunktowy. Rozkład dwupunktowy x i p i 0 1-p 1 p suma 1

Bonus! Odpowiedzi do zadań na FTP. Pewnie wkrocz w świat baz danych z programem Access 2010!

= σ σ. 5. CML Capital Market Line, Rynkowa Linia Kapitału

CLUSTERING. Metody grupowania danych

TECH 3341 POMIARY GŁOŚNOŚCI: POMIAR W TRYBIE EBU UZUPEŁNIAJĄCY NORMALIZACJĘ GŁOŚNOŚCI ZGODNIE Z EBU R 128 INFORMACJE DODATKOWE DLA ZALECENIA R 128

Programowanie Równoległe i Rozproszone

6. ROŻNICE MIĘDZY OBSERWACJAMI STATYSTYCZNYMI RUCHU KOLEJOWEGO A SAMOCHODOWEGO

ZESZYTY NAUKOWE INSTYTUTU POJAZDÓW 5(96)/2013

MODELOWANIE LICZBY SZKÓD W UBEZPIECZENIACH KOMUNIKACYJNYCH W PRZYPADKU WYSTĘPOWANIA DUŻEJ LICZBY ZER, Z WYKORZYSTANIEM PROCEDURY KROSWALIDACJI

PAŃSTWOWA WYŻSZA SZKOŁA ZAWODOWA W PILE INSTYTUT POLITECHNICZNY. Zakład Budowy i Eksploatacji Maszyn PRACOWNIA TERMODYNAMIKI TECHNICZNEJ INSTRUKCJA

MATEMATYKA POZIOM ROZSZERZONY Kryteria oceniania odpowiedzi. Arkusz A II. Strona 1 z 5

Statyczna alokacja kanałów (FCA)

Zastosowanie symulatora ChemCad do modelowania złożonych układów reakcyjnych procesów petrochemicznych

Metody eksploracji danych Laboratorium 1. Weka + Python + regresja

Wielokryterialny Trójwymiarowy Problem Pakowania

Pattern Classification

Prawdopodobieństwo i statystyka r.

Portfele zawierające walor pozbawiony ryzyka. Elementy teorii rynku kapitałowego

Nowe europejskie prawo jazdy w celu większej ochrony, bezpieczeństwa i swobodnego przemieszczania się

Hipotezy o istotności oszacowao parametrów zmiennych objaśniających ˆ ) ˆ

Kier. MTR Programowanie w MATLABie Laboratorium Ćw. 12

Określanie mocy cylindra C w zaleŝności od ostrości wzroku V 0 Ostrość wzroku V 0 7/5 6/5 5/5 4/5 3/5 2/5 Moc cylindra C 0,5 0,75 1,0 1,25 1,5 > 2

Andrzej Borowiecki. Open Office. Calc arkusz kalkulacyjny. Przykłady zadań dla geodetów

Pewnie wkrocz w świat baz danych z programem Access 2010! Bonus! Odpowiedzi do zadań na FTP

NAFTA-GAZ marzec 2011 ROK LXVII. Wprowadzenie. Tadeusz Kwilosz

Statystyka Opisowa 2014 część 1. Katarzyna Lubnauer

Wprowadzenie do Sieci Neuronowych Sieci rekurencyjne

Współczynnik przenikania ciepła U v. 4.00

Model ASAD. ceny i płace mogą ulegać zmianom (w odróżnieniu od poprzednio omawianych modeli)

Statystyka Inżynierska

Teoria niepewności pomiaru (Rachunek niepewności pomiaru) Rodzaje błędów pomiaru

Andrzej Borowiecki. Wybrane zagadnienia z programowania dla geodetów.

System Przeciwdziałania Powstawaniu Bezrobocia na Terenach Słabo Zurbanizowanych SPRAWOZDANIE Z BADAŃ Autor: Joanna Wójcik

Stanisław Cichocki. Natalia Nehrebecka Katarzyna Rosiak-Lada. Zajęcia 3

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

TRANZYSTOR BIPOLARNY CHARAKTERYSTYKI STATYCZNE

Laboratorium ochrony danych

dy dx stąd w przybliżeniu: y

SYSTEM ZALICZEŃ ĆWICZEŃ

Ćwiczenie 6. Analiza przetwornicy dławikowej obniŝającej napięcie PODSTAWY ENERGOELEKTRONIKI LABORATORIUM. Opracowanie: Łukasz Starzak.

Natalia Nehrebecka. Wykład 2

Ć w i c z e n i e 3 : W i z u a l i z a c j a d a n y c h - w y k r e s y S t r o n a 1

XXX OLIMPIADA FIZYCZNA ETAP III Zadanie doświadczalne

Transkrypt:

Ćwczene 10. Metody eksploracj danych Grupowane (Clusterng) 1. Zadane grupowana Grupowane (ang. clusterng) oznacza grupowane rekordów, obserwacj lub przypadków w klasy podobnych obektów. Grupa (ang. cluster) jest zborem rekordów, które są podobne do sebe nawzajem nepodobne do rekordów z nnych grup. Grupowane różn sę od klasyfkacj tym, że w przypadku grupowana ne ma zmennej celu. Zadane grupowana ne próbuje klasyfkować, szacować lub przewdywać wartośc zmennej celu. Zamast tego grupowane próbuje podzelć cały zbór danych w stosunkowo zgodne podgrupy lub grupy, przy czym podobeństwo rekordów wewnątrz grup jest maksymalzowane, a podobeństwo do rekordów z nnych grup jest mnmalzowane. 1. Algorytm k-średnch Załóżmy, że z góry znamy lczbę grup, które algorytm pownen utworzyć. Wtedy bardzej właścwa będze stratega podzału, poneważ jedyna decyzja, którą musmy podjąć, dotyczy sposobu podzału grupy. Taka metoda byłaby równeż bardzej efektywna nż aglomeracyjne grupowane, w którym należy ocenć wszystke możlwe połączena. Najlepsze znane podejśce, które jest oparte na tej de, to grupowane k-średnch, prosty wydajny algorytm, od welu lat używany przez statystyków. Idea polega na reprezentacj grupy przez centrod dla dokumentów, które należą do tej grupy (centrod grupy S jest 1 zdefnowany jako c d. Przynależność do grupy jest określana przez znalezene S d S najbardzej podobnego centrodu grupy dla każdego dokumentu. Algorytm wczytuje zbór dokumentów S oraz parametr k oznaczający lczbę pożądanych grup wykonuje ponższe krok: 1) Wyberz k dokumentów z S, które mają zostać użyte jako centrody grup. Zwykle są one wyberane losowo. 2) Przypsz dokumenty do grup zgodne z ch podobeństwem do centrodów (tj. dla każdego dokumentu znajdź najbardzej podobny centrod przypsz ten dokument do odpowednej grupy). 3) Dla każdej grupy oblcz ponowne centrody grup, używając śweżo oblczonej przynależnośc do grup. 4) Wróć do kroku 2 dopók proces ne zbega (tj. te same dokumenty są przypsane do tych samych grup w dwóch kolejnych teracjach lub centrody pozostają w tym samym punkce). Punktem kluczowym algorytmu jest krok 2. W tym kroku dokumenty są przesuwane pomędzy grupam, aby zmaksymalzować podobeństwo wewnątrz grupy. Funkcja kryteralna grupowana jest oparta na centrodach grup jest podobna do sumy kwadratów błędu w grupowanu opartym na odległośc, który używa średnej. Zamast tego tutaj używamy centrodów podobeństwa. Zatem funkcja to 1

gdze c jest centrodem grupy J k 1 d D sm( c, d ) j D sm ( c, d j ) jest odległoścą kosnusową pomędzy c które maksymalzuje tę funkcję jest nazywany grupowanem o raz d j. Grupowane, mnmalnej warancj (ang. mnmum varance clusterng) (aby unknąć pomyłk, warancja zależy od odległośc maksymalzacja podobeństwa odległośc). jest równoważna mnmalzacj 3. Grupowane oparte na prawdopodobeństwe - algorytm EM Algorytm EM (ang. Expectaton Maxmzaton) jest popularnym algorytmem używanym do grupowana w kontekśce model meszanych. Algorytm ten został początkowo zaproponowany przez Dempstera n. do oszacowana brakujących parametrów modelu probablstycznego. Zasadnczo jest to podejśce optymalzacyjne. Algorytm dla pewnego początkowego przyblżena parametrów grupy teracyjne wykonuje dwa krok: w perwszym kroku E (ang. estmaton) oblcza wartośc oczekwane dla prawdopodobeństw grup, a w drugm kroku M (maksymalzacja) oblcza parametry rozkładu ch warygodność dla danych. Te dwa krok są powtarzane dopóty, dopók parametry, które są szukane, ne znajdą sę w punkce stałym lub logarytm funkcj warygodnośc, który merzy jakość grupowana, ne osągne (lokalnego) maksmum. Lteratura: 1. P. Berkhn, Survey of Clusterng Data Mnng Techmques, 2006 http://cteseerx.st.psu.edu/vewdoc/download?do=10.1.1.145.895&rep=rep1&type=pdf. 2. A. Moore, k-means and Herarchcal Clusterng, Course Notes. 2001 http://www-2.cs.cmu.edu/~awm/tutorals/ 3. J. MacQueen, Some Methods for Classfcaton and Analyss of Multvarate Observatons, Proc. 5th Berkeley Symposum on Mathematcal Statstcs and Probablty, Vol. 1, pp. 281 297, Unversty of Calforna Press, Berkeley, CA 1967. Ćwczene 1 Zastosowane systemu Weka 1. Otwórz Explorer w systeme Weka. 2. Otwórz plk z danym. W tym celu otwórz plk Open Fle -> data. W katalogu data wyberz plk bank_data.arff. 2

3. Następne nacśnj Explorer, a potem wyberz opcję Cluster, a następne Choose. Wówczas trzeba wybrać SmpleKMeans. 4. Następne nacśnj słowo SmpleKMeans w ramce Choose. Wówczas otworzy sę formatka, która pozwala wybrać parametry tego algorytmu grupowana. Przyjmj, że lczba grup będze wynosć 5. Jest to defaultowa wartość lczby grup. funkcję jądrową. (patrz rysunek) Potwerdź zmany klawszem OK. Wreszce nacśnj button Start. 3

5. Po wykonanu oblczeń uzyskuje sę wynk przedstawone na rys. ponżej). 6.Następne powtórz procedurę grupowana 10 grup. Przeprowadź oblczena, jak podano powyżej. 4

7. Przeprowadź wzualzację uzyskanych danych. W tym celu nacśnj Vsualze Cluster Assgnment dla wszystkch uzyskanych rezultatów. 5

Zastosowane systemu RapdMner Ćwczene 2 1. Uruchom narzędze RapdMner 5.3 2. Utwórz przepływ polegający na wczytanu zboru danych bank_data.csv przesłanu ch do operatora Nomnal to Numercal (Data Transformaton -> Type Converson -> Nomnal to Numercal) przekazanu ch do operatora Clusterng (Modelng -> Clusterng and Segmentaton -> k-means). Utwórz drug przepływ tych danych do operatora Select Attrbutes w celu wybrana czterech perwszych atrybutów (wyberz jako typ fltra subset), a następne należy zbór danych przesłać do operatora Nomnal to Numercal ponowne operator Clusterng. Wskazać, że transformacj ma podlegać będą wybrane atrybuty (jako typ fltra wyberz multple, a także koneczne zaznacz pole wyboru nclude specal attrbutes). Tak przygotowane dane prześlj do operatora Clusterng. Obejrzyj uzyskany model. 3. Utwórz kolejny przepływ, w którym będze przeprowadzana wyłączne agregacja. W tym celu sporządź tak przepływ danych, w którym zamast Clusterng będze użyty operator Aggregaton. 6

4. Utwórz kolejny przepływ, w którym będze przeprowadzana agregacja w klastrach. W tym celu sporządź tak przepływ danych, w którym zamast Clusterng będze użyty operator Aglomeratve Clusterng. Uzyskane przepływy będą mały postać, jak ponżej. Sprawdź wynk. 5. Zwzualzuj uzyskane wynk. 7

Zadane 1 Wykonaj ćwczene 1 dla zboru danych people.arff. Sprawdź, która z użytych metod grupowana k-means jest lepsza. Czy dokładnejsze jest grupowane dla 5 grup, czy też grupowane dla 10 grup. Znajdź najlepszy podzał na grupy. Następne przeprowadź grupowane z użycem algorytmu EM porównaj uzyskane wynk z poprzednm. Który z algorytmów jest lepszy? Zadane 2 Wykonaj ćw. 2, tzn. korzystając z systemu RapdMner przeprowadź analzę drzewa decyzyjnego dla plków danych bank_data.csv. Porównaj uzyskane wynk. Zadane 3 1) Zberz pewną lczbę stron nternetowych poprzez przeszukwane katalogu stron poprzez wykorzystane robota nternetowego lub za pomocą wyszukwana w Internece. Użyj robota nternetowego o nazwe WebSPHINX (http://www.cs.cmu.edu/~rcm/websphnx/} lub znajdź go za pomocą wyszukwark w Internece. Robota użyj do znajdowana kategor tematycznych (jeżel są dostępne) lub podzel je (ręczne) na dwe lub węcej kategor. Utwórz plk danych WEKA, aby reprezentować zbór. Wykonaj następujące krok. a) Upewnj sę, że w każdej kategor jest od 20 do 50 stron. Wyberaj strony z wększą loścą tekstu małą loścą grafk. b) Po zapsanu każdej strony zameń ją na czysty tekst. Na przykład otwórz stronę nternetową w programe Internet Explorer użyj opcj ''Zapsz jako...'' z ''Zapsz jako typ: plk tekstowy (*.txt)''}. Upewnj sę, że rozmar każdego plku tekstowego jest wększy nż 1 kb mnejszy nż 10 kb. c) Utwórz pojedynczy plk w formace systemu WEKA ARFF (z atrybutam będącym łańcucham), który będze zawerał wszystke teksty wydobyte ze stron nternetowych (ops formatu ARFF znajduje sę na strone http://www.cs.wakato.ac.nz/~ml/weka/. Zawartość każdego tekstu pownna znajdować sę w pojedynczej ln (usuń wszystke znak CR LF) mus znajdować sę w cudzysłowach (''_''). Dodaj tytuł strony na początku ln kategorę strony na jej końcu. Następne utwórz nagłówek plku w następujący sposób: @web_pages_n_strng_format @{\tt attrbute web_page_name strng @{\tt attrbute web_page_content strng @{\tt attrbute web_page_class strng 8

@data ''Internet Archve'', ''nternet archve web movng...'', nfo... Sekcja danych (lne po data} zawerają właścwe teksty stron nternetowych: jedna (długa) lna na stronę. Na strone nternetowej podręcznka Larose Eksploracja zasobów nternetowych (www.datamnngconsultant.com) jest dostępny plk danych WEKA utworzony jak opsano powyżej. Plk nazywa sę Top-100-webstes.arff zawera 100 perwszych stron zwróconych przez wyszukwarkę Google dla hasła web 18 kwetna 2006 roku. Klasa została przypsana (ręczne) jako ''prof'' dla stron nternetowych zaprojektowanych z myślą o profesjonalstach z dzedzny IT, a ''nfo'' to klasa stron, które zawerają różnego rodzaju nformacje lub bezpośredno serwsy nternetowe. 2) Załaduj zbór danych stworzony powyżej (lub Top-100-webstes.arff) do systemu WEKA, zameń na reprezentację: bnarną, częstośc termów TFTDF zachowaj każdą z nch w osobnym plku ARFF. Użyj fltru StrngTo-World-Vector wykonaj krok wyjaśnone w ćwczenach 3 4 z rozdzału 1. Na strone nternetowej ksążk www. datamnngconsultant. com dostępne są plk po konwersj plku Top-100-webstes.arff w reprezentacjach: bnarnej, częstośc termów TFIDF nazwane odpowedno Top-100- webstes-bnary.arff, Top-100-webstes-count.arff Top-100-webstes-TFIDF.arff. 3) Załaduj bnarny zbór danych przeanalzuj atrybuty, sprawdzając ch grafczne przedstawena w trybe wstępnego przetworzena systemu WEKA. a) Jak jest najczęścej obserwowany wzór w okne grafcznego przedstawena atrybutów? Co mów nam wzorzec z wysokm słupkem 0 nskm słupkem 1 o rozkładze danych? A co mów nam odwrotny wzór? b) Co kolor klas mów nam o wadze atrybutów w grupowanu? A co o rozkładze częstośc? c) Jak byłby najlepszy wzór dla dobrze wyważonego grupowana? d) Porównaj następujące atrybuty (dla zboru danych Top-100-webstes-bnary.arff): nput, accountng, nternet, web, support, software desgn. Przeanalzuj ch wykresy słupkowe pod kątem poprzednch pytań. 4) Przeanalzuj grafczne przedstawene atrybutów w reprezentacjach: częstośc termów TFIDF (używając odpowednch zborów danych stworzonych w ćwczenu poprzednm. Jak sę zmen reprezentacja? Dlaczego? Które atrybuty będą lepsze do grupowana, z grubszym czy ceńszym słupkam? 9

5) Wykonaj eksperyment z grupowanem dla Top-100-webstes-bnary.arff za pomocą algorytmu k-średnch dla dwóch grup (numclusters = 2). Pomń atrybut klasy. a) Użyj dwóch różnych losowych zaren (tj. różnych początkowych centrodów grup) zobacz jak zmeną sę wynk. Wyjaśnj, dlaczego algorytm jest tak wrażlwy na zmany początkowych ustaweń. b) Znajdź najbardzej wyważone grupowane zachowaj przypsane do klas, w nowym plku. Nacśnj prawym przycskem myszy na okno wynków wyberz Vsualze cluster assgnments} (pokaż przypsana do grup). Następne użyj guzka Save (zapsz) w okne Clusterer vsualze; nowy atrybut został dodany (jako ostatn) z wartoścam odpowadającym przynależnośc do grupy dla każdego rekordu. c) Załaduj plk z wynkam grupowana pokaż orygnalne przypsane do klas, używając nowego atrybutu grupy jako koloru. Przeanalzuj wynk (to wyjaśna, w jak sposób system WEKA wykonuje ocenę klasa-grupa omówoną w rozdzale 4). 6) Wykonaj eksperyment z poprzednego ćwczena, ale z reprezentacjam: częstośc termów (Top-100-webstes-counts.arff) TFIDF (Top-100-webstes-TFIDF.arff). Porównaj wynk. 7) Usuń wszystke atrybuty oprócz następujących: webste_ttle, developers, support, partners, developer, solutons, html, software, gov, natonal, desgn oraz webste_class. Równeż zgnoruj atrybut class. Uruchom algorytmy k-średnch EM dla dwóch grup, używając trzech zborów danych: bnarnego, częstośc termów TFIDF. a) Dla algorytmu k-średnch, zbadaj efekt zmany zarna. Porównaj zachowane dla algorytmu z tym dla całego zboru danych. Wyjaśnj różncę. b) Porównaj algorytmy k-średnch EM dla drzewastych zborów danych. Przeanalzuj rozkład klas względem grup (zobacz ćwczene 5b c). Który algorytm dzała lepej dla którego zboru danych? Wyjaśnj dlaczego. Zauważ, że w systeme WEKA mplementacja algorytmu k-średnch stosuje odległość eukldesową (ne odległość kosnusową), a algorytm EM zakłada, że rozkład jest normalny. c) Dla algorytmu EM, zbadaj ocenę logarytmu warygodnośc przedstawoną przez system WEKA porównaj ją z oceną opartą na dokładnośc otrzymaną dla grafcznego przedstawena przypsana do grup (rozkład klas względem grup). d) Dla algorytmu EM, zbadaj w jak sposób logarytm warygodnośc zmena sę dla kolejnych teracj. Zbadaj maksymalną lczbę teracj równą = l, 2, 3, obserwuj wartośc 10

logarytmu warygodnośc. Stwórz wykres logarytmu warygodnośc w zależnośc od teracj Zrób eksperyment z różną lczbą atrybutów (powedzmy l, 2, 3, 5, 10) zmenaj losowo zarna. Skomentuj wynk. 8) Usuń wszystke atrybuty poza webste_ttle, webste_class 10 nnych dowolnych atrybutów, różnych od tych, które zostały użyte w ćwczenu 7. Zgnoruj atrybut class uruchom algorytmy k-średnch EM dla dwóch grup, używając trzech reprezentacj: bnarnej, częstośc termów TFIDF. a) Wykonaj eksperyment, przeprowadź analzę odpowedz na pytana opsane w ćwczenu poprzednm (7). b) Porównaj wynk z tym otrzymanym w ćwczenu 7 wyjaśnj różnce (zbadaj grafczne przedstawena różnych zborów użytych atrybutów). 9) Używając zboru danych TFIDF, wyberz jeden z atrybutów użytych w ćwczenu 7 jeden z atrybutów użytych w ćwczenu 8 oraz stwórz model normalnych meszann dla każdego. a) Zastosuj fltr RemoveWthValues, aby otrzymać zbór rekordów z każdej klasy następne użyj średnej oraz odchylena standardowego pokazanego przez system WEKA. b) Dla każdego atrybutu stwórz wykres funkcj gęstośc prawdopodobeństwa wewnątrz każdej klasy. Można to zrobć na przykład za pomocą programu Mcrosoft Excel. c) Badając krzywe gęstośc, określ, który atrybut jest bardzej stotny dla zadana klasyfkacj. 11