Machine Learning. KISIM, WIMiIP, AGH

Podobne dokumenty
data mining machine learning data science

Podstawy Sztucznej Inteligencji Sztuczne Sieci Neuronowe Machine Learning. Krzysztof Regulski, WIMiIP, KISiM, B5, pok.

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

Metody eksploracji danych. Reguły asocjacyjne

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Eksploracja tekstu. Wprowadzenie Wyszukiwanie dokumentów Reprezentacje tekstu. Eksploracja danych. Eksploracja tekstu wykład 1

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

Ewelina Dziura Krzysztof Maryański

Eksploracja sieci Web

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Odkrywanie asocjacji

Data Mining Wykład 6. Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa.

Odkrywanie wzorców sekwencji


Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych

Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski

AUTOMATYKA INFORMATYKA

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. EKSPLORACJA DANYCH Ćwiczenia. Adrian Horzyk. Akademia Górniczo-Hutnicza

Eksploracja danych a serwisy internetowe Przemysław KAZIENKO

Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining

Ćwiczenie 5. Metody eksploracji danych

WSTĘP I TAKSONOMIA METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

Wyszukiwanie tekstów

Reguły asocjacyjne w programie RapidMiner Michał Bereta

1. Odkrywanie asocjacji

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Wstęp do przetwarzania języka naturalnego

Data Mining Kopalnie Wiedzy

Implementacja metod eksploracji danych - Oracle Data Mining

TEORETYCZNE PODSTAWY INFORMATYKI

Mail: Pokój 214, II piętro

Grzegorz Harańczyk, StatSoft Polska Sp. z o.o.

Eksploracja Danych. podstawy

METODY INŻYNIERII WIEDZY ASOCJACYJNA REPREZENTACJA POWIĄZANYCH TABEL I WNIOSKOWANIE IGOR CZAJKOWSKI

Analiza danych i data mining.

Eksploracja danych (data mining)

Proces odkrywania wiedzy z baz danych

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Wprowadzenie do technologii informacyjnej.

Bazy dokumentów tekstowych

Wielopoziomowe i wielowymiarowe reguły asocjacyjne

Techniki i algorytmy eksploracji danych. Geneza (1) Geneza (2)

ID1SII4. Informatyka I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny) stacjonarne (stacjonarne / niestacjonarne)

Analiza danych tekstowych i języka naturalnego

Eksploracja danych - wykład VIII

Adrian Horzyk

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Eksploracja danych TADEUSZ MORZY

SPOTKANIE 2: Wprowadzenie cz. I

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Odkrywanie asocjacji

ALGORYTM RANDOM FOREST

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Sylabus modułu kształcenia na studiach wyższych. Nazwa Wydziału. Nazwa jednostki prowadzącej moduł Nazwa modułu kształcenia.

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

2

Text mining w programie RapidMiner Michał Bereta

Python : podstawy nauki o danych / Alberto Boschetti, Luca Massaron. Gliwice, cop Spis treści

Krzysztof Kawa. empolis arvato. e mail: krzysztof.kawa@empolis.com

Inżynieria biomedyczna

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

W poszukiwaniu sensu w świecie widzialnym

Odkrywanie reguł asocjacyjnych. Rapid Miner

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

Opis efektów kształcenia dla modułu zajęć

w ekonomii, finansach i towaroznawstwie

Eksploracja złożonych typów danych Text i Web Mining

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM,

7. Maszyny wektorów podpierajacych SVMs

Inżynieria Wiedzy i Systemy Ekspertowe. Reguły asocjacyjne

Hurtownie danych. Analiza zachowań użytkownika w Internecie. Ewa Kowalczuk, Piotr Śniegowski. Informatyka Wydział Informatyki Politechnika Poznańska

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Wprowadzenie do uczenia maszynowego

SZTUCZNA INTELIGENCJA

Analiza danych. TEMATYKA PRZEDMIOTU

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

Wyszukiwanie dokumentów WWW bazujące na słowach kluczowych

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Widzenie komputerowe (computer vision)

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Personalizowane rekomendacje w e-commerce, czyli jak skutecznie zwiększyć przychody w sklepie on-line


Reguły asocjacyjne. 1. Uruchom system weka i wybierz aplikację Knowledge Flow.

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Data Mining Wykład 3. Algorytmy odkrywania binarnych reguł asocjacyjnych. Plan wykładu

Optymalizacja ciągła

Systemy uczące się wykład 2

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM, regulski@metal.agh.edu.pl

Mikołaj Morzy, Marek Wojciechowski: "Integracja technik eksploracji danych z systemem zarządzania bazą danych na przykładzie Oracle9i Data Mining"

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

Metody Inżynierii Wiedzy

Ćwiczenia z Zaawansowanych Systemów Baz Danych

Analiza zawartości dokumentów za pomocą probabilistycznych modeli graficznych

Ontogeniczne sieci neuronowe. O sieciach zmieniających swoją strukturę

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

O szukaniu sensu w stogu siana

INFORMATYKA Pytania ogólne na egzamin dyplomowy

Transkrypt:

Machine Learning KISIM, WIMiIP, AGH 1

Machine Learning Uczenie maszynowe jest konsekwencją rozwoju idei sztucznej inteligencji i jej praktycznego wdrażania. Algorytmy pozwalają na zautomatyzowanie procesu pozyskiwania i analizy danych do ulepszania i rozwoju własnego systemu. KISIM, WIMiIP, AGH 2

Machine Learning Data Mining pozyskiwanie wiedzy przez człowieka Machine Learning odbiorcą jest maszyna, celem usprawnienie działania. Metody (przykładowe): Indukcja drzew decyzyjnych Uczenie Bayesowskie (Bayesian Learning) Uczenie z przykładów (Instance-based Learning) (np. knn) Sieci neuronowe Clustering Support vector machines (SVM) Analiza asocjacji (Association rule learning) Algorytmy genetyczne Wnioskowanie epizodyczne (CBR) Uczenie przez wzmacnianie (Reinforcement Learning) KISIM, WIMiIP, AGH 3

Metody eksploracji tekstu Text mining

Zadania eksploracji tekstu Wyszukiwanie w oparciu o zapytania (słowa kluczowe) w oparciu o podobne dokumenty Grupowanie dokumentów Klasyfikacja dokumentów Ranking ważności dokumentów Analiza zależności pomiędzy dokumentami (np. analiza sieci cytowań).

Problemy: synonimy i polisemia Podstawowe problemy związane z wyszukiwaniem w oparciu o zbiór słów kluczowych: Synonimy: Polisemia: W jaki sposób definiować słowa kluczowe: liczba mnoga czy pojedyncza? Problem odmiany słów w niektórych językach

Wyszukiwanie w oparciu o reprezentację wektorową Reprezentacja tekstu - macierz częstości występowania słów kluczowych (Frequency matrix):» Term_Frequency_Matrix(d i, t i ): liczba wystąpień słowa t i, w dokumencie d i. TFM[d i, t i ]» Zbiór słów kluczowych może być bardzo duży (50 000 słów)» Każdy dokument d i, 1 i N, jest reprezentowany w postaci wektora słów» współczynnik d ij - waga słowa d i Reprezentacja boolowska wektora - waga przyjmuje dwie wartości 0 lub 1 Reprezentacja dokumentu w postaci T-wymiarowego wektora słów powoduje utratę informacji o strukturze zdania jak i kolejności występowania słów w zdaniu

Zapytania do bazy danych: wagi Podejście, w którym waga słowa przyjmuje wartość różną od 0, jeżeli słowo występuje gdziekolwiek w dokumencie, preferuje duże dokumenty (niekoniecznie relewantne). Różne słowa mają różną wartość dyskryminacyjną. Niektóre słowa występują prawie we wszystkich dokumentach, inne tylko w niektórych. Te drugie, siłą rzeczy, lepiej opisują dany dokument - mówimy, że posiadają większą silę dyskryminacyjną (lepiej rozróżniają dokumenty). Schemat nadawania wag: TF IDF» Waga słowa j (idf j ):» gdzie N łączna liczba dokumentów, n j liczba dokumentów zawierających słowo j

Wagi TF-IDF Wagi TF-IDF faworyzują słowa, które występują w niewielu dokumentach - mają zatem większą siłę dyskryminacyjną Waga słowa j w wektorze D i jest iloczynem częstości występowania słowa w dokumencie d i i wagi słowa j (idf j ) Zauważmy, że wagi niektórych słów znacząco uległy zmianie. Przykładowo, waga TF-IDF słowa t1 w dokumencie d1, poprzednio wynosząca 24, wynosi 2,54 i jest 6-krotnie mniejsza aniżeli waga TF-IDF słowa t2 w dokumencie d1, która poprzednio wynosiła 21. Wynika to stąd, że słowo t1 występuje praktycznie we wszystkich dokumentach, za wyjątkiem dokumentu d7, stąd jego siła dyskryminacyjna jest stosunkowo mała. Słowo t2 występuje tylko w połowie dokumentów, stąd jego siła dyskryminacyjna jest znacznie większa - stąd większa waga słowa t2.

Ukryte indeksowanie semantyczne Latent Semantic Indexing (LSI) Oryginalną macierz TFM o rozmiarze N x T można zastąpić macierzą o rozmiarze N x k, gdzie k << T (z niewielką utratą informacji) LSI odkrywa zależności pomiędzy słowami kluczowymi tworząc nowe pseudosłowa" kluczowe dokładniej wyrażające semantyczną zawartość dokumentów

Metody eksploracji WWW WebMining

Czym jest eksploracja Web? Eksploracja sieci Web - podstawowe metody:» Eksploracja zawartości sieci (Web content mining)» Eksploracja połączeń sieci (Web linkage mining)» Eksploracja korzystania z sieci (Web usage mining)

Przykłady zastosowania metod eksploracji Przeszukiwanie sieci: Google, Yahoo,... Handel elektroniczny: systemy rekomendacyjne (Ceneo, Nokaut), odkrywanie asocjacji, itp.. Reklamy: Google AdSense Wykrywanie oszustw: aukcje internetowe, analiza reputacji kupujących/sprzedających Projektowanie serwerów WWW - personalizacja usług, adaptatywne serwery WWW,... Policja: analizy sieci socjalnych Wiele innych: optymalizacja zapytań,...

Taksonomia metod eksploracji Web Eksploracja zawartości sieci (Web Page Content Mining)» Wyszukiwanie stron WWW (języki zapytań do sieci Web (WebSQL, WebOQL, WebML, WebLog, W3QL)» Grupowanie stron WWW (algorytmy grupowania dokumentów XML)» Klasyfikacja stron WWW (algorytmy klasyfikacji dokumentów XML)» Dwie ostatnie grupy metod wymagają zdefiniowania specyficznych miar podobieństwa (odległości) pomiędzy dokumentami XML (XML = struktura grafowa)

Eksploracja połączeń Celem eksploracji połączeń sieci Web: Ranking wyników wyszukiwania stron WWW Znajdowanie lustrzanych serwerów Web Problem rankingu - (1970) w ramach systemów IR zaproponowano metody oceny (rankingu) artykułów naukowych w oparciu o cytowania Ranking produktów - ocena jakości produktu w oparciu o opinie innych klientów (zamiast ocen dokonywanych przez producentów) najpopularniejsze algorytmy: Page Rank i H&A

Czym jest eksploracja logów? Serwery Web rejestrują każdy dostęp do swoich zasobów (stron) w postaci zapisów w pliku logu; stąd, logi serwerów przechowują olbrzymie ilości informacji dotyczące realizowanych dostępów do stron Metody eksploracji logów:» Charakterystyka danych» Porównywanie klas» Odkrywanie asocjacji» Predykcja» Klasyfikacja» Analiza przebiegów czasowych» Analiza ruchu w sieci» Odkrywanie wzorców sekwencji» Analiza przejść» Analiza trendów

Carrot 2 clustering web search results

KISIM, WIMiIP, AGH 21

Analiza koszykowa w sklepie internetowym Cross-selling

Metoda wektorów nośnych (wspierających) KISIM, WIMiIP, AGH 23

Metoda wektorów nośnych (wspierających) stosowane gdy do poprawnego klasyfikowania potrzebne są bardziej skomplikowane struktury niż linia prosta oryginalne obiekty są "mapowane" (transformowane) za pomocą funkcji jądrowych (kernels) na przestrzeń ilustrowaną po prawej. w nowej przestrzeni dwie klasy są liniowo separowalne, co pozwala uniknąć skomplikowanej postaci granicy klas. KISIM, WIMiIP, AGH 24

Węższe czy szersze marginesy? Szerszy margines lepsze własności generalizacji, mniejsza podatność na ew. przeuczenie (overfitting) Wąski margines mała zmiana granicy, radykalne zmiany klasyfikacji KISIM, WIMiIP, AGH 25

FUNKCJE JĄDRA wielomian 2-stopnia wielomian 3-stopnia wielomian 4-stopnia funkcja radialna σ = 1.0 funkcja radialna σ = 2.0 funkcja radialna σ = 5.0 KISIM, WIMiIP, AGH 26

Zbiory przybliżone KISIM, WIMiIP, AGH 27

Aproksymacja elementy bez wątpliwości należą do zbioru elementów nie można wykluczyć cards ( a, U) Dokładność aproksymacji określa wyrażenie: card S gdzie: card symbol określający moc (liczbę elementów) danego zbioru. KISIM, WIMiIP, AGH 28

Przykład klasyfikacji KISIM, WIMiIP, AGH 29

KISIM, WIMiIP, AGH 30

KISIM, WIMiIP, AGH 31

Analiza (odkrywanie) Asocjacji Association rule learning

Odkrywanie asocjacji Celem procesu odkrywania asocjacji jest znalezienie interesujących zależności lub korelacji, nazywanych ogólnie asocjacjami, pomiędzy danymi w dużych zbiorach danych. Wynikiem procesu odkrywania asocjacji jest zbiór reguł asocjacyjnych opisujących znalezione zależności lub korelacje między danymi. zastosowania odkrytych asocjacji: planowanie kampanii promocyjnych rozmieszczenie stoisk w supermarketach planowanie programów lojalnościowych opracowania koncepcji katalogu

Analiza koszykowa Indukcja reguł asocjacyjnych powstała w zastosowaniach analizy danych koszyka sklepowego (MBA market basket analysis) Koszyk sklepowy z zakupami można przedstawić jako macierz o n wierszach (odpowiadających koszykom, nawet miliony zakupów) i p kolumnach (odpowiadających wszystkim produktom, czasem dziesiątki tysięcy) Macierz taka będzie duża i rzadka (sparse), ponieważ typowy koszyk zawiera zazwyczaj kilkanaście produktów. Algorytmy analizy asocjacji służą odnajdowaniu wzorców w sposób sprawny obliczeniowo.

Ufność i wsparcie informację o tym, że większość klientów, którzy kupują MS Windows kupują również MS Office można zapisać za pomocą następującej reguły asocjacyjnej: windows office [support = 15%, confidence = 75%]» Wsparcie 15% oznacza, że wśród zbadanych transakcji windows i office występują razem w piętnastu procentach,» wiarygodność 75% oznacza, że wśród klientów kupujących windows 75% klientów również kupuje office.

Przykład bazy transakcyjnej i reguły asocjacyjnej

Przykład bazy transakcyjnej i reguły asocjacyjnej

Przykład bazy transakcyjnej i reguły asocjacyjnej

Ocena reguł kryteria dla reguł interesujących W jaki sposób system eksploracji danych, odkrywając reguły asocjacyjne, może określić, które ze znalezionych reguł są interesujące dla użytkownika? Reguły o dużym wsparciu niekoniecznie muszą okazać się interesujące reguły te są z reguły dobrze znane użytkownikom. Podobnie rzecz ma się w odniesieniu do reguł o wysokim współczynniku ufności. ciąża = 1 płeć = kobieta przetoczenie ponad 2,5 jednostek krwi prowadzi często do komplikacji pooperacyjnych Przydatność reguły potrafi określić tylko i wyłącznie użytkownik.

Przykłady wizualizacji

Przykłady wizualizacji

Przykłady wizualizacji

Zmniejszanie minsup -coraz więcej reguł. -na początku reguły oczywiste i znane, - później ciekawe i wcześniej niezauważane. -Warto zacząć również od reguł najmocniejszych i później zmniejszać poziom minconf

Przykład Dane MarketBasket, Ponad 60 tys transakcji, ponad 600 kategorii produktów

Niesekwencyjna analiza asocjacji Wszystkie reguły, a więc też cały model, zapisywane są w bazie danych (.dbs). Domyślnie baza ta jest przechowywana w pliku C:\Documents and Settings\USER\My Documents\Default.dbs. 45

minsup 0,1 minconf 0,5 minsup 0,05 minconf 0,5 46

47

48

KISIM, WIMiIP, AGH 49

Adult KISIM, WIMiIP, AGH 50

KISIM, WIMiIP, AGH 51

KISIM, WIMiIP, AGH 52

KISIM, WIMiIP, AGH 53

minsup = 0,4 minsup = 0,3 brak reguł >50K w konkluzji minsup = 0,2 minconf=0,1 KISIM, WIMiIP, AGH 54

minsup = 0,2 minconf=0,1 KISIM, WIMiIP, AGH 55

minsup = 0,2 minconf=0,1 KISIM, WIMiIP, AGH 56

KISIM, WIMiIP, AGH minsup = 0,1 minconf=0,1 57

KISIM, WIMiIP, AGH 58

KISIM, WIMiIP, AGH 59

KISIM, WIMiIP, AGH 60

Algorytm Apriori (R) Apriori wykonane w środowisku R na zbiorze Adult minsup = 0,4 minconf = 0,7 Interesują nas reguły, które w konkluzji mają: race=white lub sex=male

Algorytm Apriori (R) sortujemy reguły po wskaźniku lift. wyświetlamy 5 najlepszych reguł

Association rules viewers 63

arulesviz R library association rule learning with 64

Text mining with RapidMiner 65

NewsMapping 66

67

68

Odkrywanie wzorców sekwencji Mining Sequential Patterns

Eksploracja wzorców sekwencji Wzorce sekwencji stanowią klasę wzorców symbolicznych opisujących zależności występujące pomiędzy zdarzeniami zachodzącymi w pewnym przedziale czasu. W przypadku wzorców symbolicznych zdarzenia są opisane wartościami atrybutów kategorycznych. W przypadku, gdy zdarzenia są opisane wartościami numerycznymi mówimy o przebiegach czasowych lub o analizie trendów. W przypadku analizy trendów, najczęściej stosuje się metody analizy przebiegów czasowych lub metody predykcji. Przykłady:» klient, który wypożyczył tydzień temu film Gwiezdne Wojny, w ciągu tygodnia wypożyczy Imperium Kontratakuje, a następnie, w kolejnym tygodniu Powrót Jedi» użytkownik, który odczytał strony A i B, przejdzie, w kolejnych krokach, do strony D, a następnie, strony F