Drzewa Decyzyjne, cz.2

Podobne dokumenty
Temat: BADANIE NIEZALEśNOŚCI DWÓCH CECH JAKOŚCIOWYCH TEST CHI KWADRAT. Anna Rajfura 1

Drzewa Decyzyjne, cz.1

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Wydział Matematyki. Testy zgodności. Wykład 03

Wykład 3 Hipotezy statystyczne

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)

Testowanie hipotez statystycznych

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

Testowanie hipotez statystycznych.

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Testowanie hipotez statystycznych

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

Statystyka matematyczna dla leśników

Testowanie hipotez statystycznych

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Testowanie hipotez cz. I

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Testy zgodności. Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych. Wykład 11

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

VII WYKŁAD STATYSTYKA. 30/04/2014 B8 sala 0.10B Godz. 15:15

166 Wstęp do statystyki matematycznej

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Weryfikacja hipotez statystycznych

NIEZALEŻNOŚĆ i ZALEŻNOŚĆ między cechami Test chi-kwadrat, OR, RR

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

Gdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k 1).

Matematyka i statystyka matematyczna dla rolników w SGGW

Wykład 8 Dane kategoryczne

Badanie zgodności z określonym rozkładem. F jest dowolnym rozkładem prawdopodobieństwa. Test chi kwadrat zgodności. F jest rozkładem ciągłym

Porównanie modeli statystycznych. Monika Wawrzyniak Katarzyna Kociałkowska

GRUPY NIEZALEŻNE Chi kwadrat Pearsona GRUPY ZALEŻNE (zmienne dwuwartościowe) McNemara Q Cochrana

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI TESTOWANIE HIPOTEZ PARAMETRYCZNYCH

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Wszystkie wyniki w postaci ułamków należy podawać z dokładnością do czterech miejsc po przecinku!

Statystyka matematyczna dla kierunku Rolnictwo w SGGW. BADANIE WSPÓŁZALEśNOŚCI DWÓCH CECH. ANALIZA KORELACJI PROSTEJ.

Statystyka Matematyczna Anna Janicka

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Statystyka matematyczna i ekonometria

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Typowe błędy w analizie rynku nieruchomości przy uŝyciu metod statystycznych

Wykład 11 Testowanie jednorodności

Statystyka i opracowanie danych - W 4: Wnioskowanie statystyczne. Weryfikacja hipotez statystycznych. Dr Anna ADRIAN Paw B5, pok407

Elementy modelowania matematycznego

Weryfikacja przypuszczeń odnoszących się do określonego poziomu cechy w zbiorowości (grupach) lub jej rozkładu w populacji generalnej,

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Matematyka i statystyka matematyczna dla rolników w SGGW WYKŁAD 9. TESTOWANIE HIPOTEZ STATYSTYCZNYCH cd.

Korelacja krzywoliniowa i współzależność cech niemierzalnych

LABORATORIUM 9 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Hipotezy statystyczne

Statystyka matematyczna Test χ 2. Wrocław, r

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

STATYSTYKA wykład 8. Wnioskowanie. Weryfikacja hipotez. Wanda Olech

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas

WYKORZYSTYWANE W ANALIZIE WYNIKÓW METOD WYCENY OBSZARÓW CHRONIONYCH. Dr Dariusz Kayzer

PDF created with FinePrint pdffactory Pro trial version

Statystyka matematyczna i ekonometria

METODY INŻYNIERII WIEDZY

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Spis treści 3 SPIS TREŚCI

Elementy statystyki STA - Wykład 5

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Kilka uwag o testowaniu istotności współczynnika korelacji

Zawartość. Zawartość

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa

Matematyka i statystyka matematyczna dla rolników w SGGW WYKŁAD 11 DOŚWIADCZENIE JEDNOCZYNNIKOWE W UKŁADZIE CAŁKOWICIE LOSOWYM PORÓWNANIA SZCZEGÓŁOWE

Testowanie hipotez statystycznych

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Hipotezy statystyczne

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 11 i 12 - Weryfikacja hipotez statystycznych

Transkrypt:

Drzewa Decyzyjne, cz.2 Inteligentne Systemy Decyzyjne Katedra Systemów Multimedialnych WETI, PG Opracowanie: dr inŝ. Piotr Szczuko

Podsumowanie poprzedniego wykładu Cel: przewidywanie wyniku (określania kategorii, klasyfikowanie) na podstawie posiadanych parametrów opisujących obiekt Analiza tablic kontyngencji DuŜa i mała entropia Zysk informacyjny IG(Y X) Budowanie drzewa decyzyjnego Błąd treningowy i testowy

Gotowe Drzewo Decyzyjne Liczba błędów Liczba obiektów Procent błędnych decyzji 1 40 2,5% (zbiór treningowy)

Gotowe Drzewo Decyzyjne Liczba błędów Liczba obiektów Procent błędnych decyzji 1 40 2,5% (zbiór treningowy) 74 352 21,02% (zbiór testowy) Procent błędnych decyzji 2,5% (zbiór treningowy) 21,02% (zbiór testowy) Skąd wynika tak duŝa róŝnica? Czy moŝna poprawić efektywność klasyfikacji? Czy drzewo moŝe być mniejsze?

Przykład zbiór treningowy Zbiór danych treningowych wytworzony w kontrolowany sposób: wszystkie kombinacje 5 bitów abcde wyjście y jako kopia e, poza 25% przypadków, gdzie zastosowana jest inwersja logiczna!e

Przykład zbiór testowy Zbiór testowy: wszystkie kombinacje 5 bitów abcde wyjście y jako kopia e, poza 25% przypadków (innych niŝ wcześniej), gdzie zastosowana jest inwersja logiczna!e Zbiory są prawie identyczne: niektóre y uszkodzone w zbiorze treningowym nie będą uszkodzone w testowym (i odwrotnie)

Przykład drzewo decyzyjne (Dlaczego w pierwszym rozgałęzieniu jest sprawdzany bit e?) Błąd treningowy wynosi 0%! Drzewo uwzględnia całość zbioru danych, wszystkie 32 kombinacje i właściwe wyjścia y dla nich

Przykład błąd testowy ¼ danych uszkodzonych ¾ danych dobrych ¼ liści uszkodzonych 1/16 zbioru testowego zostanie przypadkowo dobrze sklasyfikowana 3/16 zbioru testowego zostanie błędnie sklasyfikowanych poniewaŝ liście są uszkodzone ¾ liści dobrych 3/16 zbioru testowego zostanie błędnie sklasyfikowanych poniewaŝ dane są uszkodzone 9/16 zbioru testowego zostanie przypadkowo dobrze sklasyfikowanych Spodziewamy się popełnić błędy w 3/8 przypadków (37,5%)

Wnioski Zbiór treningowy i testowy bardzo znacząca rozbieŝność wyników NaleŜy odpowiednio przygotować się do klasyfikacji danych w przyszłości - jak?

Przykład redukcja danych Niech zbiór danych będzie następujący: Bity a-d ukryte Wyjście y równe bitowi e z wyjątkiem 25% przypadków

Drzewo decyzyjne Uwzględnia tylko te dane do których mamy dostęp: 12/16 12/16 y=0 y=1 Nie pozwala na uwzględnienie uszkodzonych wyjściowych y=!e JuŜ na starcie klasyfikacja obciąŝona jest błędem treningowym

Błąd testowy Ten sam zbiór co poprzednio 25% y jest negacją e Te 25% zostanie sklasyfikowanych błędnie 25% w porównaniu do 37,5% wcześniej

Przetrenowanie JeŜeli inteligentny system decyzyjny analizuje dane nieistotne (szum) wówczas zachodzi przetrenowanie (ang. overfitting) Przetrenowany system decyzyjny osiąga: wysoką trafność klasyfikacji danych treningowych niską trafność klasyfikacji danych testowych

Przetrenowanie Zwykle brak jest informacji ujawniających, które atrybuty są nieistotne Ponadto istotność zaleŝeć moŝe od kontekstu, np.: y = a AND b dla a = 0 informacja o wartości b jest nieistotna dla a = 1 informacja o wartości b jest istotna

Przetrenowanie Statystyka moŝe dostarczyć informacji o tym, które atrybuty są nieistotne Test Chi 2 Pearsona, test istotności dla zmiennych jakościowych (skategoryzowanych). Miara ta oparta jest na moŝliwości obliczenia liczności oczekiwanych, tj. liczności, jakich oczekiwalibyśmy, gdyby nie istniała zaleŝność między zmiennymi.

Test Chi 2 Pearsona Przypuśćmy, Ŝe pytamy 20 męŝczyzn i 20 kobiet o upodobanie do jednej z dwóch gatunków wody mineralnej (gatunki A i B). Gdyby nie było Ŝadnej zaleŝności między upodobaniem odnośnie wody mineralnej a płcią, wówczas naleŝałoby oczekiwać mniej więcej jednakowych liczności w preferencjach gatunku Ai B dla obu płci. Test Chi-kwadrat staje się istotny w miarę wzrostu odstępstwa od tego oczekiwanego schematu (to znaczy w miarę jak liczności odpowiedzi dla męŝczyzn i kobiet zaczynają się róŝnić).

Test Chi 2 Pearsona Sprawdzana jest hipoteza zerowa o niezaleŝności cech n>30, n-elementowa próba z populacji Dwie cechy, indeksowane po i oraz po j ^ 2 k r 2 ( n n k r ij ij ) nij 2 χ = = n ^ ^ j= 1 i= 1 n j= 1 i= 1 ij nij n ij liczba elementów opisanych wartościami i,j kryteriów n ij teoretyczna liczność, wg. wzoru: ^ n ij = k j= 1 n ij n r i= 1 n ij

Test Chi 2 Pearsona Wartość χ 2 porównać naleŝy z χ 2 α;(r-1)(k-1) odczytaną z tablic statystycznych: α to zakładany poziom istotności (np. 0,005; 0,01; 0,05) (r-1)(k-1) to liczba stopni swobody JeŜeli χ 2 >= χ 2 α;(r-1)(k-1) to odrzucamy hipotezę H 0 o niezaleŝności cech (cechy są zaleŝne) JeŜeli χ 2 < χ 2 α;(r-1)(k-1) to nie ma podstaw do odrzucenia H 0

Gotowe Drzewo Decyzyjne

Test Chi 2 Przypuśćmy, Ŝe MPG jest całkowicie niezaleŝne (nieskorelowane) z producentem Jakie jest wówczas prawdopodobieństwo zaobserwowania takich danych? (danych, które są dziełem przypadku, a nie wynikają z zaleŝności między atrybutami) p = 13,5%

Wykorzystanie testu Chi 2 Zbudować pełne drzewo decyzyjne Upraszczanie (ang. Prunning) drzewa: Usuwać od dołu te rozgałęzienia, w których p>maxp Parametr MaxP dobrany w zaleŝności od chęci podejmowania ryzyka dopasowania drzewa do szumu (danych nieistotnych)

Przykład Dla MaxP = 0,1 uzyskuje się drzewo: Poprzednio: Teraz: Liczba błędów Liczba obiektów Procent błędnych decyzji 1 40 2,5% (zbiór treningowy) 74 352 21,02% (zbiór testowy) Liczba błędów Liczba obiektów Procent błędnych decyzji 5 40 12,5% (zbiór treningowy) 56 352 15,91% (zbiór testowy)

Wartość MaxP Zbyt małe MaxP duŝy błąd z powodu zbyt duŝego uogólnienia Zbyt duŝe MaxP duŝy błąd z powodu przetrenowania Nie ma jednej uniwersalnej wartości MaxP ALE: Dla określonego zbioru danych moŝna automatyczne wyznaczyć najlepsze MaxP Metoda kros-walidacji

Drzewa dla danych rzeczywistych Zbiory danych zawierać mogą atrybuty opisane wartościami ciągłymi Przyspieszenie, rok produkcji, zuŝycie paliwa Rozgałęzienie na kaŝde moŝliwe wartości? Przetrenowanie! DuŜa wartość p doprowadzi do usunięcia całych poziomów drzewa! Rozgałęzienie na przedziały wartości!

Przedziały wartości Dyskretyzacja wartości ciągłych Zamiast wartości posługujemy się nazwą/etykietą/symbolem przedziału Jak wyznaczać przedziały?

Przedziały wartości zysk informacyjny Było: IG(Y X) = H(Y) H(Y X) Niech: IG(Y X:t) = H(Y) H(Y X:t) H(Y X:t) = H(Y X<t)*P(Y X<t) + + H(Y X>=t)*P(Y X>=t) IG(Y X:t) zysk informacyjny dla wartości Y pod warunkiem, Ŝe wiadomo, czy X jest większe czy mniejsze od t t - wartość dzieląca dziedzinę X na przedziały

Przedziały wartości zysk informacyjny Niech: IG*(Y X) = max t ( IG(Y X:t) ) t miejsce podziału generujące największy IG W trakcie budowania drzewa atrybut X nadaje się na rozgałęzienie w zaleŝności od jego wartości IG*(Y X)

Przykład drzewo decyzyjne

Przykład drzewo decyzyjne Liczba błędów Liczba obiektów Procent błędnych decyzji 1 40 2,5% (zbiór treningowy) 53 352 15,06% (zbiór testowy)

Podsumowanie Drzewa decyzyjne: Łatwe do interpretacji Łatwe do implementacji Łatwe do wykorzystania Proste obliczeniowo Uwaga na przetrenowanie Realizują skutecznie zadanie klasyfikacji