Machine Learning KISIM, WIMiIP, AGH 1
Machine Learning Uczenie maszynowe jest konsekwencją rozwoju idei sztucznej inteligencji i jej praktycznego wdrażania. Algorytmy pozwalają na zautomatyzowanie procesu pozyskiwania i analizy danych do ulepszania i rozwoju własnego systemu. KISIM, WIMiIP, AGH 2
Machine Learning Data Mining pozyskiwanie wiedzy przez człowieka Machine Learning odbiorcą jest maszyna, celem usprawnienie działania. Metody (przykładowe): Indukcja drzew decyzyjnych Uczenie Bayesowskie (Bayesian Learning) Uczenie z przykładów (Instance-based Learning) (np. knn) Sieci neuronowe Clustering Support vector machines (SVM) Analiza asocjacji (Association rule learning) Algorytmy genetyczne Wnioskowanie epizodyczne (CBR) Uczenie przez wzmacnianie (Reinforcement Learning) KISIM, WIMiIP, AGH 3
Metody eksploracji tekstu Text mining
Zadania eksploracji tekstu Wyszukiwanie w oparciu o zapytania (słowa kluczowe) w oparciu o podobne dokumenty Grupowanie dokumentów Klasyfikacja dokumentów Ranking ważności dokumentów Analiza zależności pomiędzy dokumentami (np. analiza sieci cytowań).
Problemy: synonimy i polisemia Podstawowe problemy związane z wyszukiwaniem w oparciu o zbiór słów kluczowych: Synonimy: Polisemia: W jaki sposób definiować słowa kluczowe: liczba mnoga czy pojedyncza? Problem odmiany słów w niektórych językach
Wyszukiwanie w oparciu o reprezentację wektorową Reprezentacja tekstu - macierz częstości występowania słów kluczowych (Frequency matrix):» Term_Frequency_Matrix(d i, t i ): liczba wystąpień słowa t i, w dokumencie d i. TFM[d i, t i ]» Zbiór słów kluczowych może być bardzo duży (50 000 słów)» Każdy dokument d i, 1 i N, jest reprezentowany w postaci wektora słów» współczynnik d ij - waga słowa d i Reprezentacja boolowska wektora - waga przyjmuje dwie wartości 0 lub 1 Reprezentacja dokumentu w postaci T-wymiarowego wektora słów powoduje utratę informacji o strukturze zdania jak i kolejności występowania słów w zdaniu
Zapytania do bazy danych: wagi Podejście, w którym waga słowa przyjmuje wartość różną od 0, jeżeli słowo występuje gdziekolwiek w dokumencie, preferuje duże dokumenty (niekoniecznie relewantne). Różne słowa mają różną wartość dyskryminacyjną. Niektóre słowa występują prawie we wszystkich dokumentach, inne tylko w niektórych. Te drugie, siłą rzeczy, lepiej opisują dany dokument - mówimy, że posiadają większą silę dyskryminacyjną (lepiej rozróżniają dokumenty). Schemat nadawania wag: TF IDF» Waga słowa j (idf j ):» gdzie N łączna liczba dokumentów, n j liczba dokumentów zawierających słowo j
Wagi TF-IDF Wagi TF-IDF faworyzują słowa, które występują w niewielu dokumentach - mają zatem większą siłę dyskryminacyjną Waga słowa j w wektorze D i jest iloczynem częstości występowania słowa w dokumencie d i i wagi słowa j (idf j ) Zauważmy, że wagi niektórych słów znacząco uległy zmianie. Przykładowo, waga TF-IDF słowa t1 w dokumencie d1, poprzednio wynosząca 24, wynosi 2,54 i jest 6-krotnie mniejsza aniżeli waga TF-IDF słowa t2 w dokumencie d1, która poprzednio wynosiła 21. Wynika to stąd, że słowo t1 występuje praktycznie we wszystkich dokumentach, za wyjątkiem dokumentu d7, stąd jego siła dyskryminacyjna jest stosunkowo mała. Słowo t2 występuje tylko w połowie dokumentów, stąd jego siła dyskryminacyjna jest znacznie większa - stąd większa waga słowa t2.
Ukryte indeksowanie semantyczne Latent Semantic Indexing (LSI) Oryginalną macierz TFM o rozmiarze N x T można zastąpić macierzą o rozmiarze N x k, gdzie k << T (z niewielką utratą informacji) LSI odkrywa zależności pomiędzy słowami kluczowymi tworząc nowe pseudosłowa" kluczowe dokładniej wyrażające semantyczną zawartość dokumentów
Metody eksploracji WWW WebMining
Czym jest eksploracja Web? Eksploracja sieci Web - podstawowe metody:» Eksploracja zawartości sieci (Web content mining)» Eksploracja połączeń sieci (Web linkage mining)» Eksploracja korzystania z sieci (Web usage mining)
Przykłady zastosowania metod eksploracji Przeszukiwanie sieci: Google, Yahoo,... Handel elektroniczny: systemy rekomendacyjne (Ceneo, Nokaut), odkrywanie asocjacji, itp.. Reklamy: Google AdSense Wykrywanie oszustw: aukcje internetowe, analiza reputacji kupujących/sprzedających Projektowanie serwerów WWW - personalizacja usług, adaptatywne serwery WWW,... Policja: analizy sieci socjalnych Wiele innych: optymalizacja zapytań,...
Taksonomia metod eksploracji Web Eksploracja zawartości sieci (Web Page Content Mining)» Wyszukiwanie stron WWW (języki zapytań do sieci Web (WebSQL, WebOQL, WebML, WebLog, W3QL)» Grupowanie stron WWW (algorytmy grupowania dokumentów XML)» Klasyfikacja stron WWW (algorytmy klasyfikacji dokumentów XML)» Dwie ostatnie grupy metod wymagają zdefiniowania specyficznych miar podobieństwa (odległości) pomiędzy dokumentami XML (XML = struktura grafowa)
Eksploracja połączeń Celem eksploracji połączeń sieci Web: Ranking wyników wyszukiwania stron WWW Znajdowanie lustrzanych serwerów Web Problem rankingu - (1970) w ramach systemów IR zaproponowano metody oceny (rankingu) artykułów naukowych w oparciu o cytowania Ranking produktów - ocena jakości produktu w oparciu o opinie innych klientów (zamiast ocen dokonywanych przez producentów) najpopularniejsze algorytmy: Page Rank i H&A
Czym jest eksploracja logów? Serwery Web rejestrują każdy dostęp do swoich zasobów (stron) w postaci zapisów w pliku logu; stąd, logi serwerów przechowują olbrzymie ilości informacji dotyczące realizowanych dostępów do stron Metody eksploracji logów:» Charakterystyka danych» Porównywanie klas» Odkrywanie asocjacji» Predykcja» Klasyfikacja» Analiza przebiegów czasowych» Analiza ruchu w sieci» Odkrywanie wzorców sekwencji» Analiza przejść» Analiza trendów
Carrot 2 clustering web search results
KISIM, WIMiIP, AGH 21
Analiza koszykowa w sklepie internetowym Cross-selling
Metoda wektorów nośnych (wspierających) KISIM, WIMiIP, AGH 23
Metoda wektorów nośnych (wspierających) stosowane gdy do poprawnego klasyfikowania potrzebne są bardziej skomplikowane struktury niż linia prosta oryginalne obiekty są "mapowane" (transformowane) za pomocą funkcji jądrowych (kernels) na przestrzeń ilustrowaną po prawej. w nowej przestrzeni dwie klasy są liniowo separowalne, co pozwala uniknąć skomplikowanej postaci granicy klas. KISIM, WIMiIP, AGH 24
Węższe czy szersze marginesy? Szerszy margines lepsze własności generalizacji, mniejsza podatność na ew. przeuczenie (overfitting) Wąski margines mała zmiana granicy, radykalne zmiany klasyfikacji KISIM, WIMiIP, AGH 25
FUNKCJE JĄDRA wielomian 2-stopnia wielomian 3-stopnia wielomian 4-stopnia funkcja radialna σ = 1.0 funkcja radialna σ = 2.0 funkcja radialna σ = 5.0 KISIM, WIMiIP, AGH 26
Zbiory przybliżone KISIM, WIMiIP, AGH 27
Aproksymacja elementy bez wątpliwości należą do zbioru elementów nie można wykluczyć cards ( a, U) Dokładność aproksymacji określa wyrażenie: card S gdzie: card symbol określający moc (liczbę elementów) danego zbioru. KISIM, WIMiIP, AGH 28
Przykład klasyfikacji KISIM, WIMiIP, AGH 29
KISIM, WIMiIP, AGH 30
KISIM, WIMiIP, AGH 31
Analiza (odkrywanie) Asocjacji Association rule learning
Odkrywanie asocjacji Celem procesu odkrywania asocjacji jest znalezienie interesujących zależności lub korelacji, nazywanych ogólnie asocjacjami, pomiędzy danymi w dużych zbiorach danych. Wynikiem procesu odkrywania asocjacji jest zbiór reguł asocjacyjnych opisujących znalezione zależności lub korelacje między danymi. zastosowania odkrytych asocjacji: planowanie kampanii promocyjnych rozmieszczenie stoisk w supermarketach planowanie programów lojalnościowych opracowania koncepcji katalogu
Analiza koszykowa Indukcja reguł asocjacyjnych powstała w zastosowaniach analizy danych koszyka sklepowego (MBA market basket analysis) Koszyk sklepowy z zakupami można przedstawić jako macierz o n wierszach (odpowiadających koszykom, nawet miliony zakupów) i p kolumnach (odpowiadających wszystkim produktom, czasem dziesiątki tysięcy) Macierz taka będzie duża i rzadka (sparse), ponieważ typowy koszyk zawiera zazwyczaj kilkanaście produktów. Algorytmy analizy asocjacji służą odnajdowaniu wzorców w sposób sprawny obliczeniowo.
Ufność i wsparcie informację o tym, że większość klientów, którzy kupują MS Windows kupują również MS Office można zapisać za pomocą następującej reguły asocjacyjnej: windows office [support = 15%, confidence = 75%]» Wsparcie 15% oznacza, że wśród zbadanych transakcji windows i office występują razem w piętnastu procentach,» wiarygodność 75% oznacza, że wśród klientów kupujących windows 75% klientów również kupuje office.
Przykład bazy transakcyjnej i reguły asocjacyjnej
Przykład bazy transakcyjnej i reguły asocjacyjnej
Przykład bazy transakcyjnej i reguły asocjacyjnej
Ocena reguł kryteria dla reguł interesujących W jaki sposób system eksploracji danych, odkrywając reguły asocjacyjne, może określić, które ze znalezionych reguł są interesujące dla użytkownika? Reguły o dużym wsparciu niekoniecznie muszą okazać się interesujące reguły te są z reguły dobrze znane użytkownikom. Podobnie rzecz ma się w odniesieniu do reguł o wysokim współczynniku ufności. ciąża = 1 płeć = kobieta przetoczenie ponad 2,5 jednostek krwi prowadzi często do komplikacji pooperacyjnych Przydatność reguły potrafi określić tylko i wyłącznie użytkownik.
Przykłady wizualizacji
Przykłady wizualizacji
Przykłady wizualizacji
Zmniejszanie minsup -coraz więcej reguł. -na początku reguły oczywiste i znane, - później ciekawe i wcześniej niezauważane. -Warto zacząć również od reguł najmocniejszych i później zmniejszać poziom minconf
Przykład Dane MarketBasket, Ponad 60 tys transakcji, ponad 600 kategorii produktów
Niesekwencyjna analiza asocjacji Wszystkie reguły, a więc też cały model, zapisywane są w bazie danych (.dbs). Domyślnie baza ta jest przechowywana w pliku C:\Documents and Settings\USER\My Documents\Default.dbs. 45
minsup 0,1 minconf 0,5 minsup 0,05 minconf 0,5 46
47
48
KISIM, WIMiIP, AGH 49
Adult KISIM, WIMiIP, AGH 50
KISIM, WIMiIP, AGH 51
KISIM, WIMiIP, AGH 52
KISIM, WIMiIP, AGH 53
minsup = 0,4 minsup = 0,3 brak reguł >50K w konkluzji minsup = 0,2 minconf=0,1 KISIM, WIMiIP, AGH 54
minsup = 0,2 minconf=0,1 KISIM, WIMiIP, AGH 55
minsup = 0,2 minconf=0,1 KISIM, WIMiIP, AGH 56
KISIM, WIMiIP, AGH minsup = 0,1 minconf=0,1 57
KISIM, WIMiIP, AGH 58
KISIM, WIMiIP, AGH 59
KISIM, WIMiIP, AGH 60
Algorytm Apriori (R) Apriori wykonane w środowisku R na zbiorze Adult minsup = 0,4 minconf = 0,7 Interesują nas reguły, które w konkluzji mają: race=white lub sex=male
Algorytm Apriori (R) sortujemy reguły po wskaźniku lift. wyświetlamy 5 najlepszych reguł
Association rules viewers 63
arulesviz R library association rule learning with 64
Text mining with RapidMiner 65
NewsMapping 66
67
68
Odkrywanie wzorców sekwencji Mining Sequential Patterns
Eksploracja wzorców sekwencji Wzorce sekwencji stanowią klasę wzorców symbolicznych opisujących zależności występujące pomiędzy zdarzeniami zachodzącymi w pewnym przedziale czasu. W przypadku wzorców symbolicznych zdarzenia są opisane wartościami atrybutów kategorycznych. W przypadku, gdy zdarzenia są opisane wartościami numerycznymi mówimy o przebiegach czasowych lub o analizie trendów. W przypadku analizy trendów, najczęściej stosuje się metody analizy przebiegów czasowych lub metody predykcji. Przykłady:» klient, który wypożyczył tydzień temu film Gwiezdne Wojny, w ciągu tygodnia wypożyczy Imperium Kontratakuje, a następnie, w kolejnym tygodniu Powrót Jedi» użytkownik, który odczytał strony A i B, przejdzie, w kolejnych krokach, do strony D, a następnie, strony F