I Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska 2 grudnia 2016 1/31
1 2 2/31
(ang. affinity analysis) polega na badaniu atrybutów lub cech, które są ze sobą powiązane. Metody koszyka sklepowego (ang. market basket analysis) są metodami analizy podobieństw, które szukają nieodkrytych powiązań między atrybutami (ilościowych relacji pomiędzy nimi). 3/31
Odkrywanie polega na ilościowym określeniu relacji pomiędzy dwoma lub więcej atrybutami. przyjmują postać jeżeli poprzednik to następnik z uwzględnieniem miary wsparcia i dokładności lub ufności y. 4/31
Przykłady zadań Zbadanie odsetka abonentów sieci komórkowej, którzy pozytywnie odpowiedzieli na ofertę podniesienia standardu usług. Zbadanie stosunku liczby dzieci, którym czytają rodzice, do liczby tych, które same dużo czytają. Przewidywanie pogorszenia jakości usług w sieci telefonicznej. Znalezienie rzeczy w supermarketach, które są kupowane razem, lub nigdy nie są kupowane razem. Określenie odsetka przypadków, w których nowy lek wywoła dany efekt uboczny. 5/31
Przekleństwo wymiarowości Liczba możliwych asocjacyjnych rośnie wykładniczo wraz ze wzrostem liczby atrybutów: dla k-atrybutów, przy ograniczeniu do atrybutów binarnych i wyjaśnieniu tylko pozytywnych przypadków liczba możliwych wynosi: k 2 (k 1) 6/31
Algorytmy Algorytmy tworzenia asocjacyjnych naiwny A priori uogólniona indukcja - GRI wykorzystywane w metodach nienadzorowanych i nadzorowanych. 7/31
Studium przypadku I Odkrywanie asocjacyjnych z sądowych baz danych 1 Zrozumienie uwarunkowań biznesowych - badacze z dwóch Australijskich uniwersytetów mieli na celu poprawę dostępności usług prawnych i uzyskiwanie sprawiedliwych wyroków poprzez lepsze wykorzystanie dostępnych danych sądowych. 2 Zrozumienie dane udostępniła częściowo rządowa organizacja Victoria Legal Aid niosąca pomoc prawną osobom nieprzystosowanym społecznie. Zebrano 380 000 podań o pomoc prawną z 11 filii, zawierające informacje o ponad 300 zmiennych. Eksperci wybrali z tego 7 najważniejszych zmiennych: płeć, wiek, zawód, 8/31
Studium przypadku II powód odmowy udzielenia pomocy, rodzaj prawa (cywilne itp.), decyzja, typ sprawy. 3 Przygotowanie zbiór świetnie przygotowany, zmienne czyste i poprawne. Wiek skategoryzowano. 4 Modelowanie - y ograniczono do jednego poprzednika i jednego następnika. Odkryto liczne zależności, w tym 144 ciekawe y. 5 Ewaluacja - poproszono 3 ekspertów o ocenę poziomu ufności dla każdej z wykrytych. 6 Wdrożenie - powstała aplikacja internetowa WebAssociator wspomagająca budowanie. Badacze sugerują wykorzystanie aplikacji w sądownictwie. 9/31
Podział asocjacyjncyh Ze względu na typ rozważanych danych: binarne (kupuje kabaczki = tak/nie) ilościowe (zarobki mniejsze niż 85000 rocznie) Ze względu na dziedzinę danych: jednowymiarowe - dane z tej samej dziedziny wielowymiarowe - dane z różnych dziedzin Ze względu na stopień abstrakcji: jednopoziomowe wielopoziomowe 10/31
Prosty przykład Miejscowy rolnik sprzedaje swoje warzywa. Jest 7 rodzajów warzyw, zbiór I. I = { szparagi, fasola, brokuły, kukurydza, zielona papryka, kabaczki, pomidory } Klienci robią różne zakupy - różne podzbiory I. Nie interesuje nas ilość kupionych warzyw tylko czy kupiono dane warzywo czy nie. 11/31
Reprezentacja spis transakcji Dwa możliwe sposoby reprezentacji danych: transakcyjny format danych, macierzowy format danych. 12/31
Transakcyjny format danych Tylko dwa pola (ID transakcji i nazwa towaru). Każdy rekord to pojedynczy artykuł. 13/31
Macierzowy format danych Jeden rekord to jedna transakcja. Rekord ma tyle pól binarnych ile jest towarów... 14/31
Wsparcie Niech D będzie zbiorem transakcji, gdzie każda transakcja T z D reprezentuje zbiór artykułów z I. Mając dwa zbiory artykułów A i B, a asocjacyjna przybieże postać A B (gdzie A i B są rozłączne - wykluczenie trywialnych). Wsparcie s dla danej y j A B jest procentem transakcji w D, które zawierają A i B: s = P(A B) = liczba transakcji zawierających A i B całkowita liczba transakcji 15/31
Ufność Ufność c dla danej y j A B jest miarą dokładności y, określoną jako procent transakcji zawierających A, które również zawierają B: c = P(B A) = P(A B) P(A) = liczba transakcji zawierających A i B liczba transakcji zawierających A 16/31
Dalsze cechy Mocne y to takie, dla których ufność i wsparcie są większe lub równe niż określone przez ekspertów wartości minimalne. Częstość zbioru zdarzeń jest liczbą transakcji zawierających dany zbiór zdarzeń. Zbiór częsty to zbiór występujący przynajmniej określoną liczbę razy. Próg częstości wystąpienia określa liczba φ. Częste zbiory zdarzeń o k elementach oznaczamy F k. 17/31
Odkrywanie asocjacyjnych 1 Znajdź wszystkie częste zbiory zdarzeń ( φ). 2 Na bazie częstych zdarzeń utwórz y, które spełniają warunek minimalnego wsparcia i minimalnego poziomu ufności. 18/31
Dany jest zbiór elementów I i baza danych D. Wygeneruj wszystkie możliwe podzbiory zbioru I i następnie, dla każdego podzbioru oblicz częstość tego zbioru w bazie danych D. Dla każdego zbioru, którego częstość jest większa/równa φ, wygeneruj ę asocjacyjną. Dla każdej otrzymanej y oblicz wsparcie i ufność. 19/31
Właściwość A priori Właściwość A priori Jeżeli zbiór zdarzeń Z nie jest częsty, to dla dowolnego elementu A, zbiór Z A również nie będzie częsty. 20/31
Działanie algorytmu A priori 1 Określamy wartość φ. 2 Tworzenie częstych zbiorów zdarzeń (F 1, F 2, F 3,...). 3 Tworzenie asocjacyjnych. 21/31
Tworzenie częstych zbiorów zdarzeń Tworzenie zbiorów F k Aby znaleźć F k konstruujemy najpierw C k (zbiór k-elementowych kandydatów) poprzez połączenia zbiorów F k 1. Zbiory zdarzeń są łączone jeśli mają wspólnych pierwszych k 1 elementów. 1 Znajdujemy F 1 (jednoelementowe zbiory częste). 2 Znajdujemy F 2 (dwuelementowe zbiory częste): 1 Tworzymy C 2 (zbiór dwuelementowych kandydatów) łącząc zbiory z F 1. 2 Przycinamy C 2 za pomocą właściwości A priori. 3 Pozostałe zbiory tworzą F 2. 3 Znajdujemy F 3 1 Tworzymy C 3 używając F 2. 2 Przycinamy C 3 za pomocą właściwości A priori (tworzone są dwuelementowe podzbiory i sprawdzamy ich częstość). 4... 22/31
Przykład I 23/31
Przykład II Dla φ = 4: F1 : {szparagi, fasola, brokuły, kukurydza, zielona papryka, kabaczki, pomidory} F2 : { {szparagi, fasola}, {szparagi, kabaczki}, {fasola, kukurydza}, {fasola, kabaczki}, {fasola, pomidory}, {kukurydza, pomidory}, {brokuły, zielona papryka} } C3 : { {szparagi, fasola, kabaczki}, {fasola, kukurydza, kabaczki}, {fasola, kukurydza, pomidory}, {fasola, kabaczki, pomidory} } F3 : { {szparagi, fasola, kabaczki} } 24/31
Tworzenie asocjacyjnych Dla jedynego zbioru F 3, s = { szparagi, fasola, kabaczki }: istnieje 6 możliwych podzbiorów s, można stworzyć 6 możliwych asocjacyjnych, np. jeśli ss= { szapragi, fasola } to (s-ss) = { kabaczki } 25/31
Etapy działania I dla 2-elementowego poprzednika i 1-elementowego następnika 26/31
Etapy działania II o pojedynczym poprzedniku i następniku (otrzymane z F 2 ) 27/31
Etapy działania III Ogólna miara użyteczności y j: iloczyn wsparcia i ufności, pozwala ustawić y pod względem występowania i dokładności. Końcowa lista dla ufności nie mniejszej niż 80%: 28/31
Podejście A priori - możliwości i wady może działać też dla zmiennych jakościowych, nie tylko binarnych (1/0). Poprzednikami i następnikami w ach asocjacyjnych będą konkretne wartości zmiennych jakościowych, np.: Jeśli płeć=mężczyzna to zatrudnienie=samozatrudnienie, ufność 85%. Wady: słaba obsługa zmiennych ilościowych - potrzeba ich dyskretyzacji dyskretyzacja może powodować utratę informacji 29/31
(ang. generalized rule induction) - wprowadzona przez Smytha i Goodmana w 1992 r. stosuje podejście teorii informacji aby określić czy dana kandydująca a jest interesujaca. GRI stosuje miarę: J-miara faworyzuje: y, których wartości poprzedników są częste, y, w których p-two następnika jest skrajne (0 lub 1), lub ufność y jest skrajna. 30/31
W wykładzie wykorzystano materiały: D. Hand, H. Mannila, P. Smyth, danych, WNT, Warszawa 2005 D. T. Larose, Odkrywanie Wiedzy z Danych, Wydawnictwo Naukowe PWN, Warszawa 2006 31/31