Generowanie zbioru reguł asocjacyjnych i decyzyjnych ze statystycznie reprezentatywnym wsparciem i anty-wsparciem

Podobne dokumenty
Testowanie hipotez statystycznych

Spis treści 3 SPIS TREŚCI

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Statystyka matematyczna dla leśników

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - zastosowanie na sztucznym zbiorze danych

Model EWD dla II etapu edukacyjnego.

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

STATYSTYKA

Prawdopodobieństwo i statystyka

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

STATYSTYKA MATEMATYCZNA

Czego się nie dowiemy z NHST? Efekt size, stupid!1. Null Hypothesis Significance Testing

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Stanisław Cichocki. Natalia Nehrebecka

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Testowanie hipotez statystycznych

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Testowanie hipotez statystycznych

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - testy na sztucznych danych

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Stanisław Cichocki. Natalia Nehrebecka

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Własności statystyczne regresji liniowej. Wykład 4

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Założenia: wyniki są binarne próby są niezależne liczba prób n ustalona przed pomiarem to samo prawdopodobieństwo sukcesu we wszystkich próbach

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Wykład 8 Dane kategoryczne

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

Odkrywanie asocjacji

Statystyka Matematyczna Anna Janicka

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Rozdział 8. Regresja. Definiowanie modelu

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

STATYSTYKA MATEMATYCZNA

Statystyka Matematyczna Anna Janicka

Wykład 9 Wnioskowanie o średnich

STATYSTYKA MATEMATYCZNA WYKŁAD 5. 2 listopada 2009

Metoda największej wiarogodności

SPIS TEŚCI CZĘŚĆ I RACHUNEK PRAWDOPODOBIEŃSTWA

Weryfikacja hipotez statystycznych

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Testowanie hipotez statystycznych.

Porównanie dwóch rozkładów normalnych

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

BADANIE POWTARZALNOŚCI PRZYRZĄDU POMIAROWEGO

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 11 i 12 - Weryfikacja hipotez statystycznych

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

Systemy uczące się wykład 2

Statystyka matematyczna i ekonometria

VII WYKŁAD STATYSTYKA. 30/04/2014 B8 sala 0.10B Godz. 15:15

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Zwiększenie wartości zmiennej losowej o wartość stałą: Y=X+a EY=EX+a D 2 Y=D 2 X

Biostatystyka, # 3 /Weterynaria I/

DOBÓR PRÓBY. Czyli kogo badać?

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Testowanie hipotez dla frakcji. Wrocław, 29 marca 2017

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 30 zaliczenie z oceną

BADANIE POWTARZALNOŚCI PRZYRZĄDU POMIAROWEGO

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Testowanie hipotez dla proporcji. Wrocław, 13 kwietnia 2015

Stanisław Cichocki. Natalia Nehrebecka

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

Ważne rozkłady i twierdzenia c.d.

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

5. WNIOSKOWANIE PSYCHOMETRYCZNE

Wykład 12 Testowanie hipotez dla współczynnika korelacji

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

5. Model sezonowości i autoregresji zmiennej prognozowanej

Wykład 3 Testowanie hipotez statystycznych o wartości średniej. średniej i wariancji z populacji o rozkładzie normalnym

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Algorytmy klasyfikacji

FUNKCJE. Rozwiązywanie zadań Ćw. 1-3 a) b) str Ćw. 5 i 6 str. 141 dodatkowo podaj przeciwdziedzinę.

Ekonometria. Zajęcia

1.1 Wstęp Literatura... 1

Transkrypt:

Generowanie zbioru reguł asocjacyjnych i decyzyjnych ze statystycznie reprezentatywnym wsparciem i anty-wsparciem Opiekun naukowy: prof. dr hab. inż. Roman Słowiński Poznań, 30 października 2012

Spis treści 1 Wprowadzenie reguły i ich ewaluacja 2 3 4

Plan prezentacji 1 Wprowadzenie reguły i ich ewaluacja 2 3 4

Podstawowe definicje Zbiór danych S = (U, A) Reguła asocjacyjna Para formuł (φ, ψ) połączonych relacją konsekwencji : φ ψ [Pieluszki = tak i Czas = popołudnie] [Piwo > 2] Reguła decyzyjna Reguła asocjacyjna, gdzie ψ = const. [Temperatura = gorąco i Wiatr = nie] [Golf? = tak]

Podstawowe definicje Miara atrakcyjności Funkcja F określona na zbiorze R S reguł φ ψ wyindukowanych z S: Przykłady: sup(φ ψ), anti-sup(φ ψ), conf(φ ψ) = sup(φ ψ) sup(φ), F : R S R f(φ ψ) = conf(ψ φ) conf( ψ φ) conf(ψ φ)+conf( ψ φ).

Podstawowe definicje Notacja Większość miar atrakcyjności może być wyrażona za pomocą: a = sup(φ ψ), b = sup( φ ψ), c = sup(φ ψ) = anti-sup(φ ψ), d = sup( φ ψ). Przykłady sup(φ ψ) = a, anti-sup(φ ψ) = c, conf(φ ψ) = a a+c.

Własność miary atrakcyjności Warunki nałożone na funkcję F (miarę atrakcyjności). Własność konfirmacji Bayesa > 0 dla conf(φ ψ) > sup(ψ) U F(φ ψ) = 0 dla conf(φ ψ) = sup(ψ) U < 0 dla conf(φ ψ) < sup(ψ) U (P(ψ φ) > P(ψ)), (P(ψ φ) = P(ψ)), (P(ψ φ) < P(ψ)). Własności symetrii evidence symmetry (ES): commutativity symmetry (CS): hypothesis symmetry (HS): total symmetry (TS): F(φ ψ) = F( φ ψ), F(φ ψ) = F(ψ φ), F(φ ψ) = F(φ ψ), F(φ ψ) = F( φ ψ).

Podstawowe definicje Własność M Miary o charakterze zysku: niemalejąca ze wzgl. na a = sup(φ ψ), nierosnąca ze wzgl. na b = sup( φ ψ), nierosnąca ze wzgl. na c = sup(φ ψ), niemalejąca ze wzgl. na d = sup( φ ψ). Miary o charakterze kosztu: nierosnąca ze wzgl. na a = sup(φ ψ), niemalejąca ze wzgl. na b = sup( φ ψ), niemalejąca ze wzgl. na c = sup(φ ψ), nierosnąca ze wzgl. na d = sup( φ ψ).

Płaszczyzny ewaluacji Wsparcie pewność [AIS93] Zbiór Pareto-optymalny zawiera reguły optymalne ze względu na wiele innych miar. Wsparcie f [Szc09] Zbiór Pareto-optymalny zawiera te same reguły co zbiór Pareto-optymalny w poprzednim przypadku. Wsparcie anty-wsparcie [BGS07] Zbiór Pareto-optymalny zawiera wszystkie reguły ze zbioru Pareto-optymalnego w przypadku pierwszym oraz reguły optymalizujące dowolną miarę z własnością M.

Statystyczna reprezentatywność Testowanie wielokrotne κ poziom istotności pojedynczego testu, n liczba testów 1 (1 κ) n prawdopodobieństwo popełnienia błędu typu I Pojedyncze test statystyczne korelacja (niezależność χ 2, test Fishera), minimalne wsparcie (test dwumianowy).

Plan prezentacji 1 Wprowadzenie reguły i ich ewaluacja 2 3 4

Założenia i cele 1 Płaszczyzna wsparcie anty-wsparcie. 2 Statystyczna ocena parametrów. 3 Automatyczne dobieranie progów.

Wsparcie anty-wsparcie i dziedzina Q 1 0.8 Minimum support threshold Anti-support related to the universe U 0.6 0.4 0.2 Q Positive confirmation values Pareto-optimal border Maximum anti-support threshold 0 0 0.2 0.4 0.6 0.8 1 Support related to the universe U

Postać dziedziny Na pojedynczej płaszczyźnie wsparcie anty-wsparcie rozpatrywane są reguły o stałym następniku (ψ = const.). Ograniczenia: sup(φ ψ) + sup( φ ψ) + sup(φ ψ) + sup( φ ψ) = U = const. sup(ψ) = sup(φ ψ) + sup( φ ψ) = const. Parametr q opisujący klasę decyzyjną q = U sup(ψ) sup(ψ)

Dziedziny dla różnych wartości parametru q Anti-support related to the universe U: anti-sup(φ ψ) U 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 q=4 sup(φ ψ) U + anti-sup(φ ψ) U = 1 No rules beyond this line q=1 q=0.25 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Support related to the universe U: sup(φ ψ) U

Motywacja Jak zmiany w progach na wsparcie i anty-wsparcie wpływają na wartość miary f? Obszary dużej wrażliwości f = 0, duże klasy decyzyjne, małe wartości wsparcia i anty-wsparcia.

anti-sup(φ ψ) U 1 0.8 0.6 0.4 Isoquants of f 1 0.5 0-0.5 1 0.5 0 anti-sup(φ ψ) U 1 0.8 0.6 0.4 Isoquants of f 1 0.5 0-0.5 1 0.5 0 0.2-0.5 0.2-0.5 0 0 0.2 0.4 0.6 0.8 1 sup(φ ψ) U -1 0 0 0.2 0.4 0.6 0.8 1 sup(φ ψ) U -1 Rysunek: q = U sup(ψ) sup(ψ) = 0.25 Rysunek: q = U sup(ψ) sup(ψ) = 1

Interpretacja statystyczna Rozpatrzmy dowolną regułę asocjacyjną φ ψ: zbiór danych S = (U, A) stanowi próbę losową, każdy rekord w S zawiera formułę φ ψ lub nie, każdy rekord w S to realizacja zero-jedynkowej zmiennej losowej z parametrem p ( U prób Bernoulliego), obserwowana wartość wsparcia sup(φ ψ), to realizacja zmiennej o rozkładzie dwumianowym z parametrami U i p, parametr p, to prawdziwa (nieobserwowana) wartość wsparcia wynikająca z rozkładu, z którego S jest próbką.

Estymacja punktowa wsparcia ˆp = Przedział ufności dla wsparcia p 1 = ˆp Z p 2 = ˆp + Z sup(φ ψ) U ˆp(1 ˆp) U ˆp(1 ˆp) U P(p 1 p p 2 ) = 1 α

Przedział ufności 1 p p 1 0.9 p 2 0.8 0.7 0.6 0.5 Upper bound of the confidence interval Width W of the confidence interval 0.4 0.3 0.2 Lower bound of the confidence interval 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Observed value of the parameter p (sup min / U ) Rysunek: Szerokość przedziału ufności dla wsparcia dla różnych obserwowanych wartości sup(φ ψ) U.

Błąd względny e r = Wˆp = 2Z 1 ˆp U ˆp W szerokość przedziału ufności (W = p 2 p 1 ) Miara maksymalnego odchylenia prawdziwej wartości wsparcia od wartości obserwowanej.

Maksymalny błąd względny e max e max maksymalny akceptowalny błąd względny e r e r jest ściśle malejącą funkcją obserwowanego wsparcia sup(φ ψ) U Minimalne wsparcie sup min = 4Z 2 e 2 max U +4Z2 = ˆp.

Błąd względny jako funkcja zaobserwowanego wsparcia Relative error: e r 0.8 0.75 0.7 0.65 0.6 0.55 0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 U = 1000 U = 10000 U =100000 Minimal support for e r =0.1 and universe U of size 100000: 0.026* U 2594 objects Minimal support for e r =0.1 and universe U of size 10000: 0.21* U 2103 objects Minimal support for e r =0.1 and universe U of size 1000: 0.73* U 727 objects Maximal relative error: e r = 0.1 0 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 Minimal support: sup min / U

Dolne i górne ograniczenia prawdziwej wartości parametru Lower and upper bounds of the confidence interval: p 1, p 2 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 U =10 4, lower U =10 4, upper U =10 5, lower U =10 5, upper U =10 6, lower U =10 6, upper 0 0 0.05 0.1 0.15 0.2 0.25 0.3 Relative error: e r

Błąd względny 1e+009 1e+008 support/ U = 1/3 support/ U = 1/100 support/ U =1/10000 Minimal universe size needed: U 1e+007 1e+006 100000 10000 1000 100 10 0 0.5 1 1.5 2 Relative error: e r Rysunek: Minimalny rozmiar zbioru danych potrzebny do sklasyfikowania reguły z danym wsparciem jako istotną.

Interpretacja statystyczna Rozpatrzmy dowolną regułę asocjacyjną φ ψ: zbiór danych S = (U, A) stanowi próbę losową, każdy rekord w S zawiera formułę φ ψ lub nie, każdy rekord w S to realizacja zero-jedynkowej zmiennej losowej z parametrem p ( U prób Bernoulliego), obserwowana wartość wsparcia anti-sup(φ ψ), to realizacja zmiennej o rozkładzie dwumianowym z parametrami U i p, parametr p, to prawdziwa (nieobserwowana) wartość anty-wsparcia wynikająca z rozkładu, z którego S jest próbką.

Estymacja punktowa anty-wsparcia ˆp = anti-sup(φ ψ) U Przedział ufności dla anty-wsparcia ˆp(1 ˆp) p 1 = ˆp Z U p 2 = ˆp + Z ˆp(1 ˆp) U P(p 1 p p 2 ) = 1 α

Błąd względny e r = W 1 ˆp = 2Z ˆp U 1 ˆp W szerokość przedziału ufności (W = p 2 p 1 ) Miara maksymalnego odchylenia prawdziwej wartości 1 anti-sup(φ ψ) U od wartości obserwowanej.

Maksymalny błąd względny e max e max maksymalny akceptowalny błąd względny e r e r jest ściśle rosnącą funkcją obserwowanego anty-wsparcia anti-sup(φ ψ) U = ˆp. Maksymalne anty-wsparcie anti-sup max = e2 max U e 2 max U +4Z2

Błąd względny jako funkcja obs. anty-wsparcia Relative error: e r 0.8 0.75 0.7 0.65 0.6 0.55 0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 Maximal anti-support for e r =0.1 and universe U of size 100000: 0.974* U 97406 objects Maximal anti-support for e r =0.1 and universe U of size 10000: 0.79* U 7897 objects Maximal anti-support for e r =0.1 and universe U of size 1000: 0.27* U 273 objects Maximal relative error: e r = 0.1 U = 1000 U = 10000 U =100000 0 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 Maximal anti-support: anti-sup max / U

Zalety Wprowadzenie reguły i ich ewaluacja 1 Interpretacja e r w porównaniu z progiem we wsparciu (anty-wsparciu). 2 Statystyczna reprezentatywność. 3 Monotoniczna zależność od wsparcia (anty-wsparcia).

Plan prezentacji 1 Wprowadzenie reguły i ich ewaluacja 2 3 4

Cele Wprowadzenie reguły i ich ewaluacja 1 Czy statystyczna reprezentatywność zwiększa wartość predykcyjną? 2 Czy istnieje uniwersalna (domyślna) wartość błędu względnego?

Organizacja eksperymentu generowanie zbiorów częstych i reguł asocjacyjnych (FP-growth), zbiory trenujący i testowy w stosunku 3 : 1, 10-krotny sub-sampling Rysunek: Zbiory danych. Zbiór Rozmiar ( U ) Rozmiar zbioru trenującego ( 2 3 U ) Census 32561 21707 Chess 3196 2131 Mushroom 8124 5416 Retail 88162 58775

Organizacja eksperymentu Średni błąd predykcyjny err = 1 Act (φ ψ) Act P( ψ φ) = 1 Act (φ ψ) Act sup(φ ψ) sup(φ) Accuracy gain 1 (φ ψ) Act P( ψ) Act gain = 1 Act (φ ψ) Act P( ψ φ) = (φ ψ) Act sup( ψ) U test (φ ψ) Act sup(φ ψ) sup(φ)

Wyniki eksperymentu błąd predykcyjny emax in support [sup max ] 0.09 [0.13] 0.085 [0.14] 0.08 [0.16] 0.075 [0.18] 0.07 [0.20] 0.065 [0.22] 0.06 [0.25] 0.055 [0.29] 0.05 [0.33] 0.045 [0.37] 0.04 [0.43] 0.035 [0.50] 0.03 [0.58] 0.025 [0.66] 0.02 [0.75] 0.02 [0.25] 0.025 [0.33] 0.03 [0.42] Value of prediction error err (Census) 0.035 [0.5] 0.04 [0.57] 0.045 [0.62] 0.05 [0.67] 0.055 [0.71] 0.06 [0.75] 0.065 [0.78] 0.07 [0.8] 0.075 [0.82] 0.08 [0.84] emax in anti-support [anti-sup max ] 0.085 [0.86] 0.09 [0.87] 0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 emax in support [sup max ] 0.12 [0.03] 0.115 [0.03] 0.11 [0.04] 0.105 [0.04] 0.1 [0.04] 0.095 [0.05] 0.09 [0.05] 0.085 [0.06] 0.08 [0.07] 0.075 [0.07] 0.07 [0.08] 0.065 [0.10] 0.06 [0.11] 0.055 [0.13] 0.05 [0.15] 0.045 [0.18] 0.04 [0.21] 0.01 [0.18] 0.015 [0.33] Value of prediction error err (Retail) 0.02 [0.47] 0.025 [0.58] 0.03 [0.67] 0.035 [0.73] 0.04 [0.78] 0.045 [0.82] emax in anti-support [anti-sup max ] 0.05 [0.85] 0.65 0.6 0.55 0.5 0.45 0.4 0.35 0.3 0.25 Value of prediction error err (Chess) Value of prediction error err (Mushroom) emax in support [sup max ] 0.05 [0.83] 0.045 [0.86] 0.04 [0.89] 0.035 [0.91] 0.03 [0.93] 0.025 [0.95] 0.02 [0.97] 0.015 [0.98] 0.01 [0.99] 0.01 [0.99] 0.015 [0.98] 0.02 [0.97] 0.025 [0.95] 0.03 [0.93] 0.035 [0.91] 0.04 [0.89] 0.045 [0.86] 0.05 [0.83] 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0 emax in support [sup max ] 0.11 [0.29] 0.105 [0.31] 0.1 [0.33] 0.095 [0.35] 0.09 [0.38] 0.085 [0.40] 0.08 [0.43] 0.075 [0.47] 0.07 [0.50] 0.065 [0.54] 0.06 [0.58] 0.055 [0.62] 0.05 [0.66] 0.045 [0.71] 0.04 [0.75] 0.035 [0.80] 0.03 [0.84] 0.025 [0.89] 0.02 [0.92] 0.02 [0.08] 0.025 [0.11] 0.03 [0.16] 0.035 [0.2] 0.04 [0.25] 0.045 [0.29] 0.05 [0.34] 0.055 [0.38] 0.06 [0.42] 0.065 [0.46] 0.07 [0.5] 0.075 [0.53] 0.08 [0.57] 0.085 [0.6] 0.09 [0.62] 0.095 [0.65] 0.1 [0.67] 0.105 [0.69] 0.11 [0.71] 0.3 0.25 0.2 0.15 0.1 0.05 0 emax in anti-support [anti-sup max] emax in anti-support [anti-sup max]

Wyniki eksperymentu Accuracy gain emax in support [sup max ] 0.09 [0.13] 0.085 [0.14] 0.08 [0.16] 0.075 [0.18] 0.07 [0.20] 0.065 [0.22] 0.06 [0.25] 0.055 [0.29] 0.05 [0.33] 0.045 [0.37] 0.04 [0.43] 0.035 [0.50] 0.03 [0.58] 0.025 [0.66] 0.02 [0.75] 0.02 [0.25] 0.025 [0.33] Value of prediction accuracy gain gain (Census) 0.03 [0.42] 0.035 [0.5] 0.04 [0.57] 0.045 [0.62] 0.05 [0.67] 0.055 [0.71] 0.06 [0.75] 0.065 [0.78] 0.07 [0.8] 0.075 [0.82] 0.08 [0.84] emax in anti-support [anti-sup max ] 0.085 [0.86] 0.09 [0.87] 1.7 1.6 1.5 1.4 1.3 1.2 1.1 1 emax in support [sup max ] 0.12 [0.03] 0.115 [0.03] 0.11 [0.04] 0.105 [0.04] 0.1 [0.04] 0.095 [0.05] 0.09 [0.05] 0.085 [0.06] 0.08 [0.07] 0.075 [0.07] 0.07 [0.08] 0.065 [0.10] 0.06 [0.11] 0.055 [0.13] 0.05 [0.15] 0.045 [0.18] 0.04 [0.21] 0.01 [0.18] Value of prediction accuracy gain gain (Retail) 0.015 [0.33] 0.02 [0.47] 0.025 [0.58] 0.03 [0.67] 0.035 [0.73] 0.04 [0.78] 0.045 [0.82] emax in anti-support [anti-sup max ] 0.05 [0.85] 1.5 1.45 1.4 1.35 1.3 1.25 1.2 1.15 1.1 Value of prediction accuracy gain gain (Chess) Value of prediction accuracy gain gain (Mushroom) emax in support [sup max ] 0.05 [0.83] 0.045 [0.86] 0.04 [0.89] 0.035 [0.91] 0.03 [0.93] 0.025 [0.95] 0.02 [0.97] 0.015 [0.98] 0.01 [0.99] 0.01 [0.99] 0.015 [0.98] 0.02 [0.97] 0.025 [0.95] 0.03 [0.93] 0.035 [0.91] 0.04 [0.89] 0.045 [0.86] 0.05 [0.83] 2.4 2.2 2 1.8 1.6 1.4 1.2 1 0.8 emax in support [sup max ] 0.11 [0.29] 0.105 [0.31] 0.1 [0.33] 0.095 [0.35] 0.09 [0.38] 0.085 [0.40] 0.08 [0.43] 0.075 [0.47] 0.07 [0.50] 0.065 [0.54] 0.06 [0.58] 0.055 [0.62] 0.05 [0.66] 0.045 [0.71] 0.04 [0.75] 0.035 [0.80] 0.03 [0.84] 0.025 [0.89] 0.02 [0.92] 0.02 [0.08] 0.025 [0.11] 0.03 [0.16] 0.035 [0.2] 0.04 [0.25] 0.045 [0.29] 0.05 [0.34] 0.055 [0.38] 0.06 [0.42] 0.065 [0.46] 0.07 [0.5] 0.075 [0.53] 0.08 [0.57] 0.085 [0.6] 0.09 [0.62] 0.095 [0.65] 0.1 [0.67] 0.105 [0.69] 0.11 [0.71] 5 4.5 4 3.5 3 2.5 2 1.5 1 emax in anti-support [anti-sup max] emax in anti-support [anti-sup max]

Wyniki eksperymentu 0.05 Value of average prediction error err 1 0.05 Value of average prediction accuracy gain gain 1 0.045 0.8 0.045 0.8 emax in support 0.04 0.035 0.03 0.025 0.02 0.02 0.025 0.03 0.035 0.04 0.045 0.05 0.6 0.4 0.2 0 emax in support 0.04 0.035 0.03 0.025 0.02 0.02 0.025 0.03 0.035 0.04 0.045 0.05 0.6 0.4 0.2 0 emax in anti-support emax in anti-support Rysunek: Uśredniona wartość średniego błędu predykcyjnego. Rysunek: Uśredniona wartość wzrostu trafności klasyfikacji.

Plan prezentacji 1 Wprowadzenie reguły i ich ewaluacja 2 3 4

Wnioski 1 Błąd względny jest kryterium kosztowym. 2 Wzrost statystycznej reprezentatywności skutkuje mniejszym błędem predykcyjnym. 3 Próg w błędzie względnym jest bardziej intuicyjny i uniwersalny niż we wsparciu (anty-wsparciu).

Co dalej? 1 Statystyczna istotność konfirmacji. 2 Odniesienie miar korelacji / statystycznej istotności konfirmacji do własności M / symetrii.

Dziękuję za uwagę.

Wybrana bibliografia Rakesh Agrawal, Tomasz Imieliński, and Arun Swami. Mining association rules between sets of items in large databases. SIGMOD Rec., 22:207 216, June 1993. Izabela Brzezińska, Salvatore Greco, and Roman Słowiński. Mining pareto-optimal rules with respect to support and confirmation or support and anti-support. Eng. Appl. Artif. Intell., 20:587 600, August 2007. Izabela Szczęch. Multicriteria attractiveness evaluation of decision and association rules. T. Rough Sets, 10:197 274, 2009.