Podstawy Sztucznej Inteligencji Sztuczne Sieci Neuronowe Machine Learning. Krzysztof Regulski, WIMiIP, KISiM, B5, pok.

Podobne dokumenty
Podstawy Sztucznej Inteligencji Sztuczne Sieci Neuronowe. Krzysztof Regulski, WIMiIP, KISiM, B5, pok. 408

Machine Learning. KISIM, WIMiIP, AGH

data mining machine learning data science

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

Metody Sztucznej Inteligencji II

SZTUCZNA INTELIGENCJA

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

Sztuczne sieci neuronowe (SNN)

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

AUTOMATYKA INFORMATYKA

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Wstęp do sieci neuronowych, wykład 6 Wsteczna propagacja błędu - cz. 3

O badaniach nad SZTUCZNĄ INTELIGENCJĄ

Wstęp do teorii sztucznej inteligencji Wykład II. Uczenie sztucznych neuronów.

Uczenie sieci typu MLP

Wprowadzenie do teorii systemów ekspertowych

ALGORYTM RANDOM FOREST

Zastosowania sieci neuronowych

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

synaptycznych wszystko to waży 1.5 kg i zajmuje objętość około 1.5 litra. A zużywa mniej energii niż lampka nocna.

8. Neuron z ciągłą funkcją aktywacji.

Podstawy Sztucznej Inteligencji (PSZT)

Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe.

O badaniach nad SZTUCZNĄ INTELIGENCJĄ

2

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Metody i techniki sztucznej inteligencji / Leszek Rutkowski. wyd. 2, 3 dodr. Warszawa, Spis treści

Podstawy sztucznej inteligencji

Systemy uczące się wykład 2

Projekt Sieci neuronowe

WSTĘP I TAKSONOMIA METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

TEORETYCZNE PODSTAWY INFORMATYKI

Sieć przesyłająca żetony CP (counter propagation)

Automatyczna predykcja. Materiały/konsultacje. Co to jest uczenie maszynowe? Przykład 6/10/2013. Google Prediction API, maj 2010

Najprostsze modele sieci z rekurencją. sieci Hopfielda; sieci uczone regułą Hebba; sieć Hamminga;

Data Mining Wykład 6. Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa.

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Prof. Stanisław Jankowski

PRZEWODNIK PO PRZEDMIOCIE

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335

ID1SII4. Informatyka I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny) stacjonarne (stacjonarne / niestacjonarne)

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

6. Perceptron Rosenblatta

ALGORYTMY SZTUCZNEJ INTELIGENCJI

1. Historia 2. Podstawy neurobiologii 3. Definicje i inne kłamstwa 4. Sztuczny neuron i zasady działania SSN. Agenda

Zastosowania sieci neuronowych

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

ZACHODNIOPOMORSKI UNIWERSYTET TECHNOLOGICZNY W SZCZECINIE

Temat: Sztuczne Sieci Neuronowe. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE

PROGNOZOWANIE OSIADAŃ POWIERZCHNI TERENU PRZY UŻYCIU SIECI NEURONOWYCH**

Sztuczne sieci neuronowe

Elementy Sztucznej Inteligencji. Sztuczne sieci neuronowe cz. 2

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych

SIECI REKURENCYJNE SIECI HOPFIELDA

Sieci neuronowe w Statistica

Sztuczna Inteligencja a Industry 4.0

I EKSPLORACJA DANYCH

Sztuczna inteligencja stan wiedzy, perspektywy rozwoju i problemy etyczne. Piotr Bilski Instytut Radioelektroniki i Technik Multimedialnych

Elementy inteligencji obliczeniowej

Optymalizacja ciągła

Elementy kognitywistyki III: Modele i architektury poznawcze

Inteligentne systemy przeciw atakom sieciowym

Analiza danych. TEMATYKA PRZEDMIOTU

Wstęp do teorii sztucznej inteligencji Wykład III. Modele sieci neuronowych.

Uczenie sieci radialnych (RBF)

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Lekcja 5: Sieć Kohonena i sieć ART

Systemy uczące się Lab 4

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Literatura. Sztuczne sieci neuronowe. Przepływ informacji w systemie nerwowym. Budowa i działanie mózgu

Algorytmy genetyczne

Widzenie komputerowe

WIEDZA METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

Uniwersytet w Białymstoku Wydział Ekonomiczno-Informatyczny w Wilnie SYLLABUS na rok akademicki 2012/2013

Sieci neuronowe do przetwarzania informacji / Stanisław Osowski. wyd. 3. Warszawa, Spis treści

Adrian Horzyk

wiedzy Sieci neuronowe

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

SIECI NEURONOWE Liniowe i nieliniowe sieci neuronowe

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Metody klasyfikacji i rozpoznawania wzorców. Najważniejsze rodzaje klasyfikatorów

Sztuczne sieci neuronowe

Sieci neuronowe jako sposób na optymalizacje podejmowanych decyzji. Tomasz Karczyoski Wydział W-08 IZ

w ekonomii, finansach i towaroznawstwie

Sztuczne sieci neuronowe i sztuczna immunologia jako klasyfikatory danych. Dariusz Badura Letnia Szkoła Instytutu Matematyki 2010

MODELOWANIE RZECZYWISTOŚCI

Agnieszka Nowak Brzezińska Wykład III

Widzenie komputerowe (computer vision)

Inteligentne systemy informacyjne

Wprowadzenie do uczenia maszynowego

Rozdział 1 Sztuczne sieci neuronowe. Materiały do zajęć dydaktycznych - na podstawie dokumentacji programu Matlab opracował Dariusz Grzesiak

Uczenie sieci neuronowych i bayesowskich

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

Agnieszka Nowak Brzezińska Wykład III

Transkrypt:

Podstawy Sztucznej Inteligencji Sztuczne Sieci Neuronowe Machine Learning Krzysztof Regulski, WIMiIP, KISiM, regulski@agh.edu.pl B5, pok. 408

Inteligencja Czy inteligencja jest jakąś jedną dziedziną, czy też jest to nazwa dla zbioru odrębnych i niepowiązanych zdolności? Co zyskujemy w procesie uczenia się? Co to jest intuicja? Czy inteligencja może być nabyta wskutek nauki lub obserwacji, czy też jest jakoś uwarunkowana wewnętrznie? Jak wiedza wpływa na wzrost inteligencji? Czy inteligencja to szczegółowa wiedza o jakiejś dziedzinie, czy zbiór związanych ze sobą różnych zdolności? 2

Inteligencja Inteligencja jest zdolnością do sprawnego rozwiązywania zadań intelektualnych, które zazwyczaj uchodzą za trudne. 3

Czy nam to szybko grozi? 4

Robot kolejkowy EWA-1 -Pan tu nie stał, pan nie jest w ciąży. Krzysztof Manc (Wynalazca) - Moja konstrukcja jest optymalna, tylko ludzie nie dorośli do tego. Wolą sami stać w kolejkach. 5

Co to jest sztuczna inteligencja? czy istnieje? Puryści językowi i niektórzy badacze (zwłaszcza filozofowie) kwestionują możliwość istnienia czegoś takiego jak sztuczna inteligencja twierdząc, że inteligencja jest cechą specyficznie ludzką, więc żadne sztuczne narzędzie nie może wykazywać inteligencji. Dobrze, zgódźmy się, że sztucznej inteligencji nie ma, ale nawet jeśli ona nie istnieje to i tak może się przydać, jest to bowiem część informatyki charakteryzująca się m. in. tym, że potrafi dostarczać odpowiedzi na niepostawione jawnie pytania Ryszard Tadeusiewcz 6

Sztuczna Inteligencja Sztuczna inteligencja sprawne rozwiązywanie zadań, które według powszechnej opinii wymagają inteligencji, jeśli są wykonywane przez człowieka. Niekiedy żartobliwie mówi się, że trudne zadania uważa się za leżące w zakresie sztucznej inteligencji tak długo, jak długo nie są znane skuteczne i efektywne algorytmy ich rozwiązywania. Po znalezieniu takich algorytmów zadania te przestają być traktowane jako zadania sztucznej inteligencji. W ten sposób sztuczna inteligencja nigdy nie ma żadnych osiągnięć, gdyż odbiera jej się wszystko, co uda jej się rozwiązać. 7

Sztuczna Inteligencja Słaba sztuczna inteligencja - rozwiązywanie trudnych zadań w sposób umożliwiający praktyczne zastosowania. Gałąź informatyki, wyróżniająca się rodzajem rozwiązywanych zadań. Pokrewna automatycznemu sterowaniu, robotyce, itp. Inspirowana przez biologię, psychologię, lingwistykę,... Mocna sztuczna inteligencja - zdolność do myślenia w sposób w pewnym stopniu dający się porównywać z myśleniem ludzkim. Zajmuje się próbą realizacji sztucznego mózgu, symulacji działania mózgu, myślenia ludzkiego, problemu świadomości itp. jest to dziedzina ciągle jeszcze w powijakach i daleko jest do tego, by udało się stworzyć choćby namiastkę symulatora człowieka 8

Zagadnienia AI Soft Computing Optymalizacja badania operacyjne Logika rozmyta Sieci neuronowe Algorytmy ewolucyjne i genetyczne Wizualizacja Data mining Systemy ekspertowe Computational I ntelligencenumeryczne Dane + Wiedza Artificial I ntelligencesymboliczne Uczenie maszynowe Rozpoznawanie Wzorców Metody statystyczne Rachunek prawdop. 9

Przykłady zadań sztucznej inteligencji dokonywanie ekspertyz ekonomicznych, prawnych, technicznych, medycznych (ocena) wspomaganie podejmowania decyzji (doradzanie) rozpoznawanie obrazów, twarzy, wzorców, etc. optymalizacja (harmonogramowanie, alokacja zasobów, planowanie tras) generacja nowej wiedzy (poszukiwanie zalezności, tendencji, reguł, etc data mining) prognozowanie zjawisk ekonomicznych, przyrodniczych rozumienie języka naturalnego sterowanie urządzeniami (roboty etc) i inne 10

Zadania sztucznej inteligencji Wnioskowanie» procesem stosowania reguł wnioskowania w sposób skutecznie i efektywnie prowadzący do określonego celu wnioskowania, którym zazwyczaj jest uzyskania pewnego docelowego stwierdzenia. Uczenie się» proces zmiany zachodzącej w systemie na podstawie doświadczeń, która prowadzi do poprawy jego jakości działania rozumianej jako sprawność rozwiązywania stojących przed systemem zadań. Przeszukiwanie» Znajdowanie zadawalających rozwiązań bez pełnego przeglądania wszystkich możliwości, a więc jak najbardziej efektywne przeszukiwanie przestrzeni rozwiązań» Przeszukiwanie przestrzeni jest procesem stosowania dostępnych operatorów do przemieszczania się między różnymi stanami w tej przestrzeni, tak aby ostatecznie trafić ze stanu początkowego do jednego ze stanów końcowych 11

Uczenie się Sztuczne Sieci Neuronowe 12

Sztuczny neuron, McCulloch i Pitts,1943 13

Z czego składa się sztuczna sieć neuronowa? neurony 14

Jak to wszystko działa?» Rozproszone są: program działania baza wiedzy dane proces obliczania» Sieć działa zawsze jako całość, równolegle» Wszystkie elementy mają wkład we wszystkie czynności» Duża zdolność do działania nawet po uszkodzeniach» wagi pojęcie kluczowe 15

Po co są wagi? WAGA "NOWY" WAGA ŁADNY" 5 1 Co na to neuron? Lubi nowe samochody; ich wygląd mało się liczy. 1-1 Wszystko mu jedno... -5 4 Samochód musi być ładny, ale stary. 4 5 Lubi nowe i piękne auta. -4-4 Ekstrawagancki neuron - lubi stare, brzydkie maszyny. 16

Po co są funkcje aktywacji? Wartość sygnału wyjściowego zależy od rodzaju funkcji w bloku aktywacji 17

Rozpoznawanie 18

Rozpoznawanie W jaki sposób błyskawicznie rozpoznajemy twarze znanych osób? (nawet zniekształcone) Cudów nie ma! Rozpoznajemy tylko taką twarz, której nasz mózg się nauczył. 19

Kojarzenie 20

Przewidywanie 21

Do czego służy sieć neuronowa?... do wszelkiego rodzaju rozpoznawania, kojarzenia, przewidywania... praktycznie we wszystkich dziedzinach życia, nauki, techniki, przemysłu,... 22

Klasyfikacja Klasyfikacja. Do budowy klasyfikatorów wykorzystuje się neurony o wyjściach binarnych. Przy prezentacji obrazu uaktywnia się tylko jeden element wyjściowy. Obraz wejściowy zostaje przyporządkowany określonej klasie reprezentowanej przez aktywny element. - klasyfikacja - rozpoznawanie Zadaniem procesu uczenia jest podział wzorców uczących na klasy obrazów zbliżonych do siebie i przyporządkowanie każdej klasie osobnego elementu wyjściowego 23

Co ma wpływ na sygnały wyjściowe? Sygnał wyjściowy neuronu zależy od: sygnałów wejściowych, współczynników wagowych, funkcji aktywacji, budowy sieci 24

Uczenie Zmieniając wartości współczynników wagowych możemy zmieniać zależności pomiędzy wektorami sygnałów wejściowych i wyjściowych sieci. Jak ustawić te współczynniki aby uzyskać żądane zależności pomiędzy tymi wektorami? Sieci neuronowych się nie programuje. Oznacza to, że wartości współczynników wag nie ustala się bezpośrednio, ulegają one zmianom podczas procesu nazywanego uczeniem sieci. 25

Uczenie bez nauczyciela 26

Uczenie bez nauczyciela W procesie uczenia z nauczycielem, dla nowych wartości sygnałów wejściowych nauczyciel podpowiada pożądaną odpowiedź. Błąd odpowiedzi służy do korygowania wag sieci. p Sieć adaptacyjna W = var a p Sieć adaptacyjna a W = var Obliczenie błędu = t - a t Podczas uczenia bez nauczyciela pożądana odpowiedź nie jest znana. Sieć sama musi uczyć się poprzez analizę reakcji na pobudzenia (o których naturze wie mało albo nic). 27

Uczenie bez nauczyciela x2 + + + + + + + + + + + + + + + + + + + + + + x 1 Istnieją sytuacje, gdy sieć nie może się sama nauczyć, bez nauczyciela lub bez dodatkowej informacji o analizowanym problemie. x2 + + + + + + + + + + + + + + + + + + + + + + + x 1 Uczenie bez nauczyciela jest możliwe, gdy mamy nadmiarowość danych wejściowych. 28

Reguła Hebba Reguła Hebba (1949) oparta jest na doświadczeniu Pawłowa (odruch Pawłowa). pokarm (BB) pokarm (BB) + dzwonek (BW) dzwonek (BW) ślinienie (OB) ślinienie (OW) ślinienie (OW) OB - odruch bezwarunkowy, OW - odruch warunkowy, BB - bodziec bezwarunkowy, BW - bodziec warunkowy. 29

Reguła (model neuronu) Hebba (1949) Często powtarzające się obrazy wejściowe dają silniejsza odpowiedź na wyjściu. Jeżeli akson komórki A bierze systematycznie udział w pobudzaniu komórki B powodującym jej aktywację, to wywołuje to zmianę metaboliczną w jednej lub w obu komórkach, prowadzącą do wzrostu skuteczności pobudzania B przez A y B A y A B 30

Reguła Hebba x x 1 x 2 x j x n...... w ij w in w i2 w i1 x i-ty neuron c w i r generator sygnału uczącego r y i t i nazywa się także niekiedy uczeniem korelacyjnym Sygnałem uczącym jest po prostu sygnał wyjściowy neuronu. w i ( k Korekta wektora wag: 1) w ( k) w w ( k) i i i cy i x Często powtarzające się obrazy wejściowe dają więc silniejsza odpowiedź na wyjściu. 31

Interpretacja geometryczne reguły Hebba w Δw w(t+1) φ w cos(φ) x w T x= x w cos(φ) x Wektor wag przemieszcza się w kierunku środka ciężkości wielkości uczących Niebezpieczeństwo: Długość wektora wag rośnie w sposób nieograniczony (o ile nie zapewnimy stopniowego zmniejszania współczynnika c) 32

Uczenie sieci jednowarstwowej y 1 w 11 1 z 1 minimalizacja błędu uczenia w k1 w. K1 w 1j w 1J.. w k1... y j w kj k z k... w Kj w kj... y J w KJ K z K Dla jakich wartości współczynników wagowych, błąd uczenia przyjmuje najmniejszą (minimalną) wartość? 33

Uczenie sieci wielowarstwowej Algorytm wstecznej propagacji błędu WE (x) x 1 x i x I-1...... v 11 v j1 v 1i v 11 warstwa ukryta v 1i v ji v J-1,I v j1 v 1I v ji 1... j... J-1 w kj w 11 w 1j warstwa wyjściowa w 1J w k1 w kj w Kj 1... k... K z 1 z k z K WY (z) Dla każdej próbnej liczby neuronów ukrytych tworzymy losowe wagi początkowe i uczymy sieć do chwili, gdy przestajemy osiągać poprawę. Sprawdzamy działanie sieci przy pomocy danych testowych. Jeżeli jakość sieci jest wyraźnie gorsza niż na zbiorze uczącym, to: WY ( j ) x J = -1 y J = -1 w KJ Rzutowanie wstecz błędu WE ( k ) - albo zbiór uczący jest zły (za mały lub mało reprezentatywny) - albo mamy za dużo neuronów ukrytych. Sieć jest przetrenowana. 34

Ile warstw ukrytych? Sieci o większej liczbie warstw ukrytych uczą się dłużej i proces uczenia jest słabiej zbieżny. Rozbudowanie sieci do dwóch warstw ukrytych jest uzasadnione w zagadnieniach w których sieć ma nauczyć się funkcji nieciągłych. Zaleca się rozpoczynać zawsze od jednej warstwy ukrytej. Jeżeli pomimo zwiększenia liczby neuronów sieć uczy się źle, wówczas należy podjąć próbę dodania dodatkowej drugiej warstwy ukrytej i zmniejszyć jednocześnie liczbę neuronów ukrytych. 35

Ile neuronów w warstwach ukrytych? Również i tutaj brak jednoznacznej odpowiedzi Zbyt mała liczba neuronów w warstwie ukrytej - mogą wystąpić trudności w uczenia sieci. Zbyt duża liczba neuronów - wydłużenie czasu uczenia. Może doprowadzić do tzw. nadmiernego dopasowania. Sieć uczy się wtedy "na pamięć" pewnych szczegółów i zatraca zdolność do uogólnień. Taka sieć uczy się wprost idealnie i wiernie odwzorowuje wartości zbioru uczącego. Jednakże wyniki testowania sieci na danych spoza zbioru uczącego są zazwyczaj bardzo słabe. 36

Jak konstruować sieć? Reasumując: Ze względu na fakt, że brak jest teoretycznych przesłanek do projektowania topologii sieci, zgodnie z zaleceniami podanymi przez Masters'a, we wstępnych pracach nad siecią dobrze jest przestrzegać następujących 3 zasad: 1. należy stosować tylko jedną warstwę ukrytą, 2. należy używać niewielu neuronów ukrytych, 3. należy uczyć sieć do granic możliwości. 37

Jak długo uczyć sieć? Oznaką przetrenowania jest wzrost błędu dla danych testowych, przy malejącym błędzie danych uczących Błąd Dane testowe Dane uczące Liczba iteracji 38

Prawidłowa procedura uczenia sieci Ocena jakości sieci Zbiór danych do uczenia sieci Skalowanie sygnałów Liczebność zbioru danych uczących Rozkład danych w zbiorze uczącym Trendy danych uczących Sieć nie ma zdolności do ekstrapolacji 39

Machine Learning Uczenie maszynowe jest konsekwencją rozwoju idei sztucznej inteligencji i jej praktycznego wdrażania. Algorytmy pozwalają na zautomatyzowanie procesu pozyskiwania i analizy danych do ulepszania i rozwoju własnego systemu. 40

Machine Learning Data Mining pozyskiwanie wiedzy przez człowieka Machine Learning odbiorcą jest maszyna, celem usprawnienie działania. Metody (przykładowe): Indukcja drzew decyzyjnych Uczenie Bayesowskie (Bayesian Learning) Uczenie z przykładów (Instance-based Learning) (np. knn) Sieci neuronowe Clustering Support vector machines (SVM) Analiza asocjacji (Association rule learning) Algorytmy genetyczne Wnioskowanie epizodyczne (CBR) Uczenie przez wzmacnianie (Reinforcement Learning) 41

Analiza (odkrywanie) Asocjacji Association rule learning

Odkrywanie asocjacji Celem procesu odkrywania asocjacji jest znalezienie interesujących zależności lub korelacji, nazywanych ogólnie asocjacjami, pomiędzy danymi w dużych zbiorach danych. Wynikiem procesu odkrywania asocjacji jest zbiór reguł asocjacyjnych opisujących znalezione zależności lub korelacje między danymi. zastosowania odkrytych asocjacji: planowanie kampanii promocyjnych rozmieszczenie stoisk w supermarketach planowanie programów lojalnościowych opracowania koncepcji katalogu

Analiza koszykowa Indukcja reguł asocjacyjnych powstała w zastosowaniach analizy danych koszyka sklepowego (MBA market basket analysis) Koszyk sklepowy z zakupami można przedstawić jako macierz o n wierszach (odpowiadających koszykom, nawet miliony zakupów) i p kolumnach (odpowiadających wszystkim produktom, czasem dziesiątki tysięcy) Macierz taka będzie duża i rzadka (sparse), ponieważ typowy koszyk zawiera zazwyczaj kilkanaście produktów. Algorytmy analizy asocjacji służą odnajdowaniu wzorców w sposób sprawny obliczeniowo.

Ufność i wsparcie informację o tym, że większość klientów, którzy kupują MS Windows kupują również MS Office można zapisać za pomocą następującej reguły asocjacyjnej: windows office [support = 15%, confidence = 75%]» Wsparcie 15% oznacza, że wśród zbadanych transakcji windows i office występują razem w piętnastu procentach,» wiarygodność 75% oznacza, że wśród klientów kupujących windows 75% klientów również kupuje office.

Przykład bazy transakcyjnej i reguły asocjacyjnej

Ocena reguł kryteria dla reguł interesujących W jaki sposób system eksploracji danych, odkrywając reguły asocjacyjne, może określić, które ze znalezionych reguł są interesujące dla użytkownika? Reguły o dużym wsparciu niekoniecznie muszą okazać się interesujące reguły te są z reguły dobrze znane użytkownikom. Podobnie rzecz ma się w odniesieniu do reguł o wysokim współczynniku ufności. ciąża = 1 płeć = kobieta przetoczenie ponad 2,5 jednostek krwi prowadzi często do komplikacji pooperacyjnych Przydatność reguły potrafi określić tylko i wyłącznie użytkownik.

Przykłady wizualizacji

Przykłady wizualizacji

Przykłady wizualizacji

51

Odkrywanie wzorców sekwencji Mining Sequential Patterns

Eksploracja wzorców sekwencji Wzorce sekwencji stanowią klasę wzorców symbolicznych opisujących zależności występujące pomiędzy zdarzeniami zachodzącymi w pewnym przedziale czasu. W przypadku wzorców symbolicznych zdarzenia są opisane wartościami atrybutów kategorycznych. W przypadku, gdy zdarzenia są opisane wartościami numerycznymi mówimy o przebiegach czasowych lub o analizie trendów. W przypadku analizy trendów, najczęściej stosuje się metody analizy przebiegów czasowych lub metody predykcji. Przykłady:» klient, który wypożyczył tydzień temu film Gwiezdne Wojny, w ciągu tygodnia wypożyczy Imperium Kontratakuje, a następnie, w kolejnym tygodniu Powrót Jedi» użytkownik, który odczytał strony A i B, przejdzie, w kolejnych krokach, do strony D, a następnie, strony F

Metody eksploracji tekstu Text mining

Zadania eksploracji tekstu Wyszukiwanie w oparciu o zapytania (słowa kluczowe) w oparciu o podobne dokumenty Grupowanie dokumentów Klasyfikacja dokumentów Ranking ważności dokumentów Analiza zależności pomiędzy dokumentami (np. analiza sieci cytowań).

Problemy: synonimy i polisemia Podstawowe problemy związane z wyszukiwaniem w oparciu o zbiór słów kluczowych: Synonimy: Polisemia: W jaki sposób definiować słowa kluczowe: liczba mnoga czy pojedyncza? Problem odmiany słów w niektórych językach

Wyszukiwanie w oparciu o reprezentację wektorową Reprezentacja tekstu - macierz częstości występowania słów kluczowych (Frequency matrix):» Term_Frequency_Matrix(d i, t i ): liczba wystąpień słowa t i, w dokumencie d i. TFM[d i, t i ]» Zbiór słów kluczowych może być bardzo duży (50 000 słów)» Każdy dokument d i, 1 i N, jest reprezentowany w postaci wektora słów» współczynnik d ij - waga słowa d i Reprezentacja boolowska wektora - waga przyjmuje dwie wartości 0 lub 1 Reprezentacja dokumentu w postaci T-wymiarowego wektora słów powoduje utratę informacji o strukturze zdania jak i kolejności występowania słów w zdaniu

Zapytania do bazy danych: wagi Podejście, w którym waga słowa przyjmuje wartość różną od 0, jeżeli słowo występuje gdziekolwiek w dokumencie, preferuje duże dokumenty (niekoniecznie relewantne). Różne słowa mają różną wartość dyskryminacyjną. Niektóre słowa występują prawie we wszystkich dokumentach, inne tylko w niektórych. Te drugie, siłą rzeczy, lepiej opisują dany dokument - mówimy, że posiadają większą silę dyskryminacyjną (lepiej rozróżniają dokumenty). Schemat nadawania wag: TF IDF» Waga słowa j (idf j ):» gdzie N łączna liczba dokumentów, n j liczba dokumentów zawierających słowo j

Wagi TF-IDF Wagi TF-IDF faworyzują słowa, które występują w niewielu dokumentach - mają zatem większą siłę dyskryminacyjną Waga słowa j w wektorze D i jest iloczynem częstości występowania słowa w dokumencie d i i wagi słowa j (idf j ) Zauważmy, że wagi niektórych słów znacząco uległy zmianie. Przykładowo, waga TF-IDF słowa t1 w dokumencie d1, poprzednio wynosząca 24, wynosi 2,54 i jest 6-krotnie mniejsza aniżeli waga TF-IDF słowa t2 w dokumencie d1, która poprzednio wynosiła 21. Wynika to stąd, że słowo t1 występuje praktycznie we wszystkich dokumentach, za wyjątkiem dokumentu d7, stąd jego siła dyskryminacyjna jest stosunkowo mała. Słowo t2 występuje tylko w połowie dokumentów, stąd jego siła dyskryminacyjna jest znacznie większa - stąd większa waga słowa t2.

Ukryte indeksowanie semantyczne Latent Semantic Indexing (LSI) Oryginalną macierz TFM o rozmiarze N x T można zastąpić macierzą o rozmiarze N x k, gdzie k << T (z niewielką utratą informacji) LSI odkrywa zależności pomiędzy słowami kluczowymi tworząc nowe pseudosłowa" kluczowe dokładniej wyrażające semantyczną zawartość dokumentów

Metody eksploracji WWW WebMining

Czym jest eksploracja Web? Eksploracja sieci Web - podstawowe metody:» Eksploracja zawartości sieci (Web content mining)» Eksploracja połączeń sieci (Web linkage mining)» Eksploracja korzystania z sieci (Web usage mining)

Przykłady zastosowania metod eksploracji Przeszukiwanie sieci: Google, Yahoo,... Handel elektroniczny: systemy rekomendacyjne (Ceneo, Nokaut), odkrywanie asocjacji, itp.. Reklamy: Google AdSense Wykrywanie oszustw: aukcje internetowe, analiza reputacji kupujących/sprzedających Projektowanie serwerów WWW - personalizacja usług, adaptatywne serwery WWW,... Policja: analizy sieci socjalnych Wiele innych: optymalizacja zapytań,...

Taksonomia metod eksploracji Web Eksploracja zawartości sieci (Web Page Content Mining)» Wyszukiwanie stron WWW (języki zapytań do sieci Web (WebSQL, WebOQL, WebML, WebLog, W3QL)» Grupowanie stron WWW (algorytmy grupowania dokumentów XML)» Klasyfikacja stron WWW (algorytmy klasyfikacji dokumentów XML)» Dwie ostatnie grupy metod wymagają zdefiniowania specyficznych miar podobieństwa (odległości) pomiędzy dokumentami XML (XML = struktura grafowa)

Eksploracja połączeń Celem eksploracji połączeń sieci Web: Ranking wyników wyszukiwania stron WWW Znajdowanie lustrzanych serwerów Web Problem rankingu - (1970) w ramach systemów IR zaproponowano metody oceny (rankingu) artykułów naukowych w oparciu o cytowania Ranking produktów - ocena jakości produktu w oparciu o opinie innych klientów (zamiast ocen dokonywanych przez producentów) najpopularniejsze algorytmy: Page Rank i H&A

Czym jest eksploracja logów? Serwery Web rejestrują każdy dostęp do swoich zasobów (stron) w postaci zapisów w pliku logu; stąd, logi serwerów przechowują olbrzymie ilości informacji dotyczące realizowanych dostępów do stron Metody eksploracji logów:» Charakterystyka danych» Porównywanie klas» Odkrywanie asocjacji» Predykcja» Klasyfikacja» Analiza przebiegów czasowych» Analiza ruchu w sieci» Odkrywanie wzorców sekwencji» Analiza przejść» Analiza trendów

Carrot 2 clustering web search results

71

Analiza koszykowa w sklepie internetowym Cross-selling

Metoda wektorów nośnych (wspierających) 73

Metoda wektorów nośnych (wspierających) stosowane gdy do poprawnego klasyfikowania potrzebne są bardziej skomplikowane struktury niż linia prosta oryginalne obiekty są "mapowane" (transformowane) za pomocą funkcji jądrowych (kernels) na przestrzeń ilustrowaną po prawej. w nowej przestrzeni dwie klasy są liniowo separowalne, co pozwala uniknąć skomplikowanej postaci granicy klas. 74

Węższe czy szersze marginesy? Szerszy margines lepsze własności generalizacji, mniejsza podatność na ew. przeuczenie (overfitting) Wąski margines mała zmiana granicy, radykalne zmiany klasyfikacji 75

FUNKCJE JĄDRA wielomian 2-stopnia wielomian 3-stopnia wielomian 4-stopnia funkcja radialna σ = 1.0 funkcja radialna σ = 2.0 funkcja radialna σ = 5.0 76

Zbiory przybliżone 77

Aproksymacja elementy bez wątpliwości należą do zbioru elementów nie można wykluczyć cards ( a, U) Dokładność aproksymacji określa wyrażenie: card S gdzie: card symbol określający moc (liczbę elementów) danego zbioru. 78

Przykład klasyfikacji 79

80

81