Metody eksploracji danych

Transkrypt

1 Metody eksploracji danych Adam Pelikant DEDUKCJA Rozumowanie polegające na wyprowadzeniu z pewnych zdań (prawdziwych przesłanek) wynikającego z nich logicznie następstwa (prawdziwego wniosku) Rozumowanie polegające na dobieraniu następstwa do danej racji logicznej Rozumowanie polegające na uzasadnieniu następstwa za pomocą prawdziwej racji logicznej 1

2 INDUKCJA w filozofii Jedna z metod poznania i ustalania prawdy Wnioskowanie, polegające na wyprowadzeniu ogólnych wniosków z przesłanek, które są poszczególnymi przypadkami tych wniosków INDUKCJA według Sokratesa ( p.n.e.) Metoda ustalania prawdy na podstawie: uzgadniania cech ogólnych w różnorodności i rozbieżności wyprowadzenia pojęcia zawierającego wiedzę pewną i powszechną Powszechna metoda dochodzenia do definiowania pojęć

3 INDUKCJA według Epikurejczyków Amynomachos z Aten Metrodoros z Lampsakos (ok p.n.e.) Polyajnos z Lampsaku Hermachos z Mityleny Epikur ( p.n.e.) Zenon z Sydonu (150 p.n.e.. 70 p.n.e.), Filodemos z Gadary (110 p.n.e p.n.e.) Lukrecjusz Titus Lucretius Carus (99 p.n.e., 55 p.n.e.) Wnioskowanie przez podobieństwa Logiczne uogólnienia indukcji obejmują nie tylko dostępne nam zjawiska, ale także rzeczy niedostępne INDUKCJA nauki empiryczne Metoda polegająca na wprowadzeniu uogólnień na podstawie eksperymentów i obserwacji faktów, formułowaniu i weryfikacji hipotez Zaczątki indukcji w sensie nowożytnym stworzył Fransis acon, który uznał, że indukcja i eksperyment to dwie skuteczne metody ustalania prawdy 3

4 DEDUKCJA A INDUKCJA Dedukcja: wyprowadzanie sądów szczegółowych z sądów ogólnych, przechodzenie od ogółu do szczegółu Indukcja: wyprowadzanie sądów ogólnych ze szczegółowych, przechodzenie od szczegółu do ogółu LUDZKA INTELIGENCJA Praktyczna: umiejętność rozwiązywania konkretnych zagadnień Abstrakcyjna: zdolność operowania symbolami i pojęciami Społeczna: umiejętność zachowania się w grupie Test ineta ok Iloraz inteligencji (IQ) 4

5 SZTUCZNA INTELIGENCJA (ARTIFICIAL INTELLIGENCE) Allen Newell, Herbert Simon (Uniwersytet Carnegie Mellon) John McCarthy (Massachusetts Institute of Technology) Konstruowanie maszyn, o których działaniu dałoby się powiedzieć, że są podobne do ludzkich przejawów inteligencji Dział informatyki, którego przedmiot to: badanie reguł rządzących inteligentnymi zachowaniami człowieka tworzenie modeli formalnych zachowań człowieka tworzenie programów komputerowych symulujących zachowania człowieka Test Turinga (1950 Alan Turing) Nagroda Loebnera - od 1990 dla programu, który skutecznie przejdzie Test Turinga. Konkurs Loebnera najlepszy program do konwersacji ELIZA program symulujący psychoanalityka, Josepha Weizenbauma 1966 r. ALICE - nazwa najskuteczniejszego obecnie programu starającego naśladować ludzką konwersację (projekt Open Source - pomysłodawca Richard Wallace) SYSTEMY UCZĄCE SIĘ Systemy posiadające zdolność poprawiania jakości swojego działania poprzez zdobywanie nowych doświadczeń, które są następnie wykorzystywane podczas kolejnych interakcji ze środowiskiem 5

6 SYSTEMY EKSPERTOWE Systemy te starają się zastąpić fachowca w jednej szczególnej dziedzinie wiedzy Wzorują się one na procesach dedukcyjnych, podobnych do tych, jakie stosuje każdy na co dzień, nie zdając sobie nawet z tego sprawy AZY WIEDZY Systemy ekspertowe opierają się zwykle na bazach wiedzy, czyli zbiorach reguł zapisanych w formie implikacji azy wiedzy mogą powstawać: automatycznie, w oparciu o inteligentną analizę danych eksperymentalnych w wyniku interaktywnego procesu komunikowania się eksperta z interfejsem podszytym sztuczną inteligencją 6

7 PRZYKŁAD Fakty F1: Andrzej ma rybki F: Andrzej ma grzałkę Reguły R1: IF x ma rybki THEN x ma akwarium AZA WIEDZY R: IF x ma grzałkę AND x ma akwarium THEN x ma rybki żyjące Wnioski W1: Andrzej ma akwarium W: Rybki Andrzeja żyją MODUS PONENS Modus ponendo ponens (łac. sposób potwierdzający przez potwierdzenie) - tautologia rachunku zdań mówiąca, że jeśli uznajemy prawdziwość poprzednika prawdziwej implikacji, to musimy uznać też prawdziwość jej następnika: [( p q) p] q Reguła ta może być zapisana także w ten sposób: ( P Q), P Q Reguła odrywania: α α β β Reguła odrywania z podstawieniem: ( R( x) A( x) ) R( a) x A( a) Inny zapis 7

8 MODUS TOLLENS modus tollendo tollens, (łac. sposób zaprzeczający przy pomocy zaprzeczenia) wnioskowanie logiczne, reguła logiki mówiąca, że jeśli zaakceptujemy że z X wynika Y, oraz że Y jest fałszywe, to musimy zaakceptować też fałszywość X. [( p q) q] p Tablica prawdy a b XOR

9 Podstawowe prawa logiczne P (Q R) (P Q) R P (Q R) (P Q) R P Q Q P P Q Q P P (Q R) (P Q) (P R) P (Q R) (P Q) (P R) (P Q) P Q (P Q) P Q P Q Q P P P P Q P Q P Q (P Q) (Q P) P Q (P Q) ( P Q) P P False P P True Zadanie odkrywania wiedzy 1. Na podstawie analizy dostępnych danych odkryć występujące w nich regularności.. Dane - zazwyczaj z bazy danych, w postaci zbioru rekordów charakteryzowanych przez pewne atrybuty. 3. Regularności mogą polegać na zależności pewnych atrybutów od innych lub korelacji występujących między atrybutami (w szczególności współwystępowaniu pewnych wartości atrybutów). 4. Rregularności mogą występować nie tylko dla atrybutów pierwotnie występujących w danych, lecz także dla nowych atrybutów zdefiniowanych w procesie odkrywania (np. atrybutach agregujących pewne pierwotne atrybuty). 5. Odkryte regularności muszą być statystycznie istotne (zweryfikowane przez odpowiednie testy statystyczne). 6. Odkryte regularności muszą być interesujące, przydatne dla posiadacza danych (np. dotyczyć interesujących atrybutów). 7. Odkryte regularności należy sformułować w postaci umożliwiającej ich wykorzystanie do wnioskowania przez człowieka lub automatycznego 9

10 Rodzaje metod odkrywania wiedzy Klasyfikacja: jak przynależność do pewnych kategorii (klas) zależy od atrybutów (drzewa decyzyjne, reguły, klasyfikacja bayesowska). Aproksymacja: jak wartość pewnej funkcji zależy od atrybutów. (algorytmy uczenia się aproksymacji i statystyczne metody regresji) Zależności przyczynowe:, jakie zależności przyczynowe występują między różnymi atrybutami. Uogólnienie klasyfikacji na dowolną liczbę atrybutów zależnych, która dotyczy zależności jednego atrybutu (kategorii) - (sieci bayesowskie). Zależności funkcyjne: jakimi wzorami najlepiej wyrażają się zależności występujące między atrybutami o wartościach liczbowych. Uogólnienie aproksymacji na dowolną liczbę atrybutów zależnych (metody odkrywania równań). Podobieństwo: jakie w analizowanych danych występują grupy rekordów podobnych i jak to podobieństwo zależy od poszczególnych atrybutów, co umożliwia wnioskowanie (metody grupowania). Asocjacje: jakie wartości różnych atrybutów często współwystępują w danych (reguły asocjacyjne). Przykładowe zastosowania Profilowanie klientów - określanie profilu zachowań klienta (banku, operatora telekomunikacyjnego) na podstawie jego historii (transakcji bankowych, połączeń itp.) w celu wykrywania zachowań podejrzanych. Adresowanie ofert - określanie, od jakich cech klienta zależy prawdopodobieństwo jego pozytywnej odpowiedzi na ofertę nowego produktu w celu bardziej efektywnego adresowania ofert. Lojalność klientów - określanie, od jakich cech klienta lub używanych przez niego produktów zależy lojalność wobec firmy w celu minimalizacji prawdopodobieństwa przejścia do firmy konkurencyjnej. Analiza koszyka sklepowego - określanie, jakie grupy towarów są często kupowane łącznie lub w bliskiej sekwencji czasowej. Przewidywanie obciążenia - określanie, jak zapotrzebowanie na dostawy (energii, surowca itp.) zależy od czynników zewnętrznych (pora roku, miesiąca, tygodnia, dnia, pogoda itp.) i ostatniej historii zapotrzebowania, w celu przewidywania przyszłego zapotrzebowania. 10

11 Odkrywanie wiedzy Identyfikacja i zdefiniowanie problemu Uzyskanie i wstępne przetworzenie danych Ekstrakcja wiedzy Ocena i interpretacja wyników Wykorzystanie odkrytej wiedzy Proces odkrywania wiedzy w bazach danych 1. Selekcja danych wybór relacji i krotek, które będą eksplorowane, definicja sposobu łączenia relacji. Transformacja danych konwersja typów atrybutów, definicja atrybutów wywiedzionych, dyskretyzacja wartości ciągłych 3. Eksploracja ekstrakcja wiedzy z danych: generowanie reguł, drzew decyzyjnych, sieci neuronowych itp. 4. Interpretacja wyników wybór najbardziej interesującej wiedzy, logiczna i graficzna wizualizacja wyników Selekcja Transformacja Eksploracja Interpretacja 11

12 Etapy eksploracji danych Analiza problemu dane Selekcja i czyszczenie danych dane wyselekcjonowane Transformacja danych Wybór strategii co do badania danych Konwersja Dyskretyzacja Zmiana reprezentacji z relacyjnej na transakcyjną dane przetworzone Etapy eksploracji danych Wybór narzędzi Wybór algorytmów Zastosowania ich Eksploracja danych wzorce Przygotowanie wyników 50 do oceny 10 0 Obróbka graficzna Analiza wyników A C dane wygodne do analizowania Zastosowanie uzyskanej wiedzy w praktyce 1

13 Stwórz, wybierz bazę danych A dokładniej... Wybierz techn. próbkowania i próbkuj dane Dostarcz brakujące wartości Usuń szumy Normalizuj wartości Przetwórz wartości Utwórz wywiedzione atrybuty Znajdź ważne atrybuty i zakresy wartości Wybierz zadania eksploracji danych Wybierz metodę eksploracji danych Wyekstrahuj wiedzę Sprawdź wiedzę Udoskonal wiedzę Przetwórz do innej formy reprezentacji PUSTY 13

14 Są to zmienne, które mogą przyjmować wartości z nieprzeliczalnego zbioru wartości (przy założeniu, że będą mierzone z wystarczającą dokładnością). Zmienna ciągła jest opisywana dwoma funkcjami: funkcją gęstości f(x) dystrybuantą F(X) F ( X ) = a f ( x) dx Twierdzenie: Definicje: X ) xf ( Najważniejsze rozkłady ciągłe: prostokątny trójkątny normalny (Gaussa) (z) logarytmiczno-normalny Studenta (t) χ (chi kwadrat) Fishera-Snedecora (F) Wallace a-snedecora (R) wykładniczy ZMIENNE LOSOWE CIĄGŁE P(X=a) = O f ( a) = P( X a) E = x) dx ( V ( X ) = [ x E( X )] f ( x) dx dystrybuanta Pojęcia podstawowe funkcja gęstości Funkcja dystrybuanty Funkcja gę stoś ci f(a) dystrybuanta 1 Funkcja dystrybuanty F(a) Wartości zmiennej X Wartości zmie nnej X Interpretacja wykresu całe pole pod funkcją gęstości ma powierzchnię równą 1 wartość funkcji dystrybuanty zmienia się wraz z wartością x w sposób pokazany strzałką (prawa granica pola przesuwa się) znajomość funkcji dystrybuanty umożliwia rozwiązywanie zadań typu: P(X<a), P(X>a), P(7<X<11) itd. 14

15 Rozkład prostokątny (rozkład równomierny, jednostajny, amodalny). Jego funkcja gęstości ma stałą wartość w przedziale (a, b), natomiast dla pozostałych wartości ma wartość równą 0. f ( X ) = 1 b a Funkcja gę stości f(x) 0,14 0,1 0,1 0,08 0,06 0,04 0,0 a=0 b= Wartości zmiennej X a b E( X ) = ( b a) V ( X ) = 1 Rozkład trójkątny Rozkład ten opisują trzy wartości zmiennej: f(x) c a dystrybuanta funkcja gęstości a najmniejsza przewidywana b najbardziej prawdopodobna c największa przewidywana a b c x i X Zalety rozkładu łatwy do matematycznego przetwarzania nadaje się do modelowania wszystkich rozkładów jednomodalnych zrozumiały dla osób nie znających statystyki 15

16 Rozkład wykładniczy f(x) Zmienną losową X jest czas między zajściem dwóch zdarzeń o rozkładzie Poissona ( ) = λ λ x f X e 1 dla x 0, λ 0 X E( X ) = D( X ) = λ F ( X ) = 1 e λx Rozkład wykładniczy w praktyce wykorzystywany jest w teorii niezawodności do modelowania tzw. funkcji niezawodności R(t). Funkcja niezawodności określa prawdopodobieństwo bezawaryjnej pracy elementu w chwili t: P (T t) = 1 F(t) = R(t) λ -intensywność uszkodzenia (awarii) R(t) = e λx Jakie jest prawdopodobieństwo bezawaryjnej pracy maszyny przez co najmniej t godz. (min)? P( T t) Jaki jest średni odstęp czasu między awariami? E(X) (rozkład Gaussa lub krzywa dzwonowa). Jest to rozkład jednomodalny z funkcją gęstości prawdopodobieństwa: f ( x m) 1 σ ( ) x Rozkład normalny = e σ π Parametry rozkładu: wartością średnią m odchyleniem standardowym σ dla - <x< N (m;σ ) Funkcja gę stości f(x) m σ 0,45 0,4 0,35 0,3 0,5 0, σ 0,15 0,1 0,05 0 Wartości zmiennej X WARTOŚĆ ŚREDNIA DECYDUJE O PRZESUNIĘCIU WYKRESU W LEWO LU PRAWO ODCHYLENIE STANDARDOWE DECYDUJE O SMUKŁOŚCI WYKRESU m σ punkt przegięcia mσ Właściwości rozkładu normalnego: dla jednoznacznego określenia wystarczy podać: wartość średnią (oczekiwaną) m i odchylenie standardowe σ; punkty przegięcia funkcji gęstości występują przy wartościach zmiennej losowej równych m- σ i m σ; wartość mjest jednocześnie modą i medianą rozkładu; wartości zmiennej teoretycznie występują w przedziale od - do ; praktycznie wszystkie mieszczą się w granicach od m-3σ do m3σ (99,73% wartości); w przedziale od m-σ do mσ mieści się 95,45% wartości; w przedziale od m-σ do mσ mieści się 68,7% wartości; 1 Funkcja gęstoś ci f(z) 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0, 0, Zmienna standaryzowana Z 0 0, 0,4 0,6 0,8 1 1, 0,13% 13,59%,15% 34,14% 16

17 Rozkład normalny Rozkład normalny jest charakterystyczny dla dowolnego zbioru wartości, na które oddziaływuje wiele niezależnych i jednakowo ważnych czynników przypadkowych, z których żaden nie jest dominujący. TWIERDZENIE CENTRALNE - ogólne Które zmienne zachowują się według rozkładu normalnego? Te, które kształtują się pod wpływem wielu czynników, z których żaden nie ma charakteru dominującego. Standaryzowany rozkład normalny Aby rozwiązywać zadania z rozkładu normalnego, musimy korzystać z tablicy dystrybuanty. Tablica została przygotowana dla rozkładu znormalizowanego zmiennej standaryzowanej Z. POWIERZCHNIA CAŁEGO POLA POD FUNKCJĄ GĘSTOŚCI RÓWNA SIĘ 1 xi m zi = N(0;1) σ Prawo trzech sigm: w przedziale od (m 3σ) do (m3σ) (oś X) od 3 do 3 (oś Z) mieszczą się praktycznie wszystkie (99,74%) wartości zmiennej losowej o rozkładzie normalnym. Tablice rozkładu normalnego tablica funkcji gęstości tablice dystrybuanty tablica kwantyli (wartości krytycznych) Tablica funkcji gęstości służy do budowy wykresu funkcji gęstości (krzywej Gaussa) do odczytu P(X a) lub P(Z a) Tablice dystrybuanty: w przedziale z od 0 do 3: F(z) od 0,5 do 1 (połowa funkcji) Z 0,00 0,01 0,0 0,1... 0,5 0,6... 1,0 1,5,0 3,0 4,0 0,5000 0, ,6915 0, ,8413 0,933 0,977 0, , z ,0 0,1 0, 0,3... 1,0,0 3,0 4, Funkcja gęstoś ci f(z) 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0, 0, Zmienna standaryzowana Z 0 0, 0,4 0,6 0,8 1 1, Przechodząc ze zmiennej Z na zmienną X: x i = m z i σ 17

18 Rozkład logarytmiczno-normalny Jest to rozkład, który po zlogarytmowaniu zmiennej X staje się rozkładem normalnym. Służy do opisywania tych zjawisk, które oprócz wielu wartości małych i średnich mają również wartości bardzo duże (zanieczyszczenie środowiska, wydajność produkcji, wielkość złóż kopalin użytecznych itd.). f(x) małe średnie duże bardzo duże X Jednostki-giganty, które zglobalizowały gospodarkę światową: duże złoża węgla, ropy i gazu, wielkie zakłady produkcyjne itp. Przetwarzanie danych empirycznych w rozkład normalny 1. Podzielenie danych x i na przedziały (liczebność 8-1). Ustalenie liczebności empirycznych n ie 3. Przeliczenie liczebności na prawdopodobieństwa empiryczne p ie 4. Obliczenie parametrów x oraz s 5. Standaryzacja końców przedziałów 6. Wyznaczenie prawdopodobieństw teoretycznych p it 7. Wyliczenie liczebności teoretycznych n it 8. Ustalenie czy dwa rozkłady różnią się od siebie istotnie porównanie n ie i n it X 18

19 WNIOSKOWANIE STATYSTYCZNE Przedmiotem tego działu jest a) szacowanie nieznanych parametrów rozkładów zmiennych losowych; b) wyciąganie wniosków o rozkładzie i parametrach populacji generalnej na podstawie badania próbki (hipotezy statystyczne). Teoria estymacji zajmuje się szacowaniem parametrów populacji generalnej na podstawie próbki statystycznej. Rodzaje estymacji punktowa Sposoby pobierania próbek statystycznych przedziałowa Próbka musi być pobrana w sposób losowy, tzn. każdy element populacji (tj. zbiorowości generalnej) musi mieć jednakową szansę trafienia do próbki. losowanie systematyczne Wybór co k-tej jednostki zbiorowości generalnej. Pierwszą jednostkę wybieramy losowo (np.tablice liczb losowych) losowanie warstwowe Podział zbiorowości na podzbiory, a następnie losowanie bez zwracania w każdej warstwie (podzbiorze). Próbę stanowi suma wylosowanych jednostek. losowanie proporcjonalne Zróżnicowane prawdopodobieństwo dostania się do próby. Pojęcia z teorii estymacji parametr populacji liczbowa charakterystyka całej populacji statystyka z próby liczbowa charakterystyka próby estymator (estimator) parametru populacji statystyka z próby używana do oszacowania tego parametru. Oceną lub szacunkiem parametru jest konkretna wartość liczbowa estymatora z danej próby estymacja - podanie wartości oceny nieznanego parametru populacji Estymator jest to zmienna losowa, której realizacjami są wartości rozważanego parametru powstałe przez pobranie z populacji bardzo wielu próbek. Estymator jak każda zmienna ma swoją wartość oczekiwaną i odchylenie standardowe. Wartość oszacowana (estimate) jest to wartość danego parametru wyznaczona na podstawie jednej, rzeczywiście pobranej próbki. Statystyka z próby X Rozkłady z próby Estymatorem parametru μ x Ocena (oszacowanie) parametru μ Rozkład statystyki z próby jest rozkładem prawdopodobieństwa wszystkich możliwych wartości, jakie ta statystyka może przyjąć, jeżeli obliczamy je na podstawie badania losowych prób o tych samych rozmiarach n, pobranych z określonej populacji. 19

20 Pojęcia z teorii estymacji Zależności σ x σ = n σ x = σ n s x = s n s = ( x x) i n 1 oraz wnioski średnia estymatora równa się średniej populacji znamy wzór na błąd oszacowania średniej gdy n, σ x N( μ, ) n E ( x) σ s x = n = x μ =μ Centralne twierdzenie graniczne Jeżeli pobieramy próbę z populacji o średniej μ i skończonym odchyleniu standardowym σ, to rozkład średniej z próby X, dąży do rozkładu normalnego o średniej μ i odchyleniu standardowym σ, gdy liczebność próby wzrasta n σ nieograniczenie, czyli dla dostatecznie dużych n : X N ( μ, ) n Oznaczenia: nieobciążony Θ parametr populacji Θˆ estymator E( Θˆ ) = średnia estymatora E( Θ) ˆ μ Θ ˆ wartość oczekiwana estymatora jest równa szacowanemu parametrowi zgodny (PWL) prawdopodobieństwo, że jego wartość jest bliska wartości szacowanego parametru, wzrasta wraz ze wzrostem liczebności próby (jeśli podlega prawu wielkich liczb - tw. Kołmogorowa) gdy dla każdego ε>0 = Θ najefektywniejszy (V min ) estymator o najmniejszej wariancji Cechy dobrego estymatora lim n P { Θˆ Θ < ε} = 1 0

21 Metody uzyskiwania estymatorów: metoda momentów metoda najmniejszych kwadratów metoda największej wiarygodności Nazwa parametru Wartość średnia Odchylenie standardowe Wariancja Proporcja (struktura) Symbol dla populacji μ σ σ π Symbol dla próbki x s s p Liczba stopni swobody ν Jest to liczba określająca ile danych ze zbioru można zmienić bez zagrożenia zmianą wyznaczanego parametru (statystyki). przy obliczaniu średniej ν = n 1 ogólnie ν = n k x 1 x x 3 x 4 x 5 x 6 = Σx i /6 można można można można można nie można nie można zmieniać zmieniać zmieniać zmieniać zmieniać zmieniać zmieniać ESTYMACJA WARTOŚCI ŚREDNIEJ POPULACJI Celem jest ustalenie ile wynosi nieznana wartość μ: estymacja punktowa: μ = x estymacja przedziałowa: budowa przedziału ufności, w którym z prawdopodobieństwem 1 α znajdzie się nieznane μ Przedział ufności jest to przedział, w którym z prawdopodobieństwem 1 α znajduje się nieznana wartość średnia populacji μ. Poziom ufności (1 α) jest to prawdopodobieństwo, że nieznana wartość μ znajduje się w przedziale ufności. Poziom istotności (α) jest to prawdopodobieństwo, że nieznana wartość μ nie znajduje się wewnątrz przedziału ufności. α ustala statystyk kluczowe w statystyce matematycznej inne nazwy: margines błędu, poziom krytyczny 1

22 Przedział ufności dla nieznanej średniej dla populacji przy dużej próbce: jeśli znamy odchylenie standardowe populacji σ P( x z σ < μ < x z σ ) = 1 α α x α x jeśli nie znamy odchylenia standardowego populacji P( x z s < μ < x z ) = 1 α s α x α x Postępowanie: pobieramy próbkę, liczymy dla niej x oraz s budujemy przedział ufności (g d, g g ), w którym z prawdopodobieństwem 1 α znajduje się nieznana wartość średniej μ dla populacji Szerokość przedziału ufności dla μ zależy od: przyjętego poziomu istotności α wielkości próbki n jej odchylenia standardowego s Funkcja gę stoś ci g d α 1 α Średnia dla populacji x α g g ESTYMACJA WSKAŹNIKA STRUKTURY (PROPORCJI DLA POPULACJI) Jeżeli badana cecha ma charakter jakościowy, w wyniku badań uzyskujemy jedynie informację o tym, czy dany element populacji ma czy też nie wyróżnioną cechę jakościową. Elementy populacji możemy więc podzielić na dwie klasy: elementy wyróżnione w populacji (posiadające interesującą cechę); i niewyróżnione. Ustala się proporcję p=k/n (frakcję, wskaźnik struktury) dla próbki i po przyjęciu określonego poziomu istotności α buduje się przedział ufności dla nieznanej proporcji π dla populacji: P( p z α s p < π < p z s α p ) = 1 α s p = p(1 p) n I tym razem szerokość przedziału jest zależna od przyjętego poziomu istotności oraz od błędu oszacowania proporcji s p, który z kolei jest funkcją wielkości próbki i jej proporcji.

23 PRZEDZIAŁ UFNOŚCI DLA ŚREDNIEJ POPULACJI PRZY MAŁEJ PRÓCE W przypadku małej próbki estymator Studenta. Rozkład Studenta x μ x μ t = = s s x n zachowuje się według rozkładu Funkcja gęstości rozkładu t jest funkcją liczby stopni swobody Gdy ν dąży do, rozkład t dąży do rozkładu normalnego X ν = n 1 Rozkład normalny standaryzowany, z tablica rozkładu Studenta (Skrypt) pokazuje kwantyle rzędu α dla danego ν (wartości t odpowiadające założonemu poziomowi istotności dla danej liczby stopni swobody) Rozkład Studenta, t Parametry rozkładu μ, σ ν Średnia 0 0 Wariancja 1 ν/ν 0 rozkład normalny z rozkład Studenta t ν=8 z α/ t α/ (ν) Fragment tablicy rozkładu Studenta Stopnie swobody, ν α = 0,0 α / = 0, , , ,8 α = 0,10 α / = 0,0 5. 1,81. 1,684. 1,645 α = 0,05 α / = 0,0 5.,8.,01. 1,960 Przedział ufności dla średniej dla populacji przy małej próbce P( x t s < μ < x t s ) = 1 α α x α x ( n 1) ( n 1) rozkład Studenta daje szersze przedziały ufności niż rozkład normalny, gdyż zabezpiecza nas przed skutkami pobrania mniejszej próbki Podsumowanie estymacji wartości średniej dla populacji Typ rozkładu Wielkość zmiennej X próbki, n Odchylenie standardowe populacji, σ Znane Nieznane Granice przedziału ufności Normalny Dowolna x ± z α/ σ x Inny n 30 x ± z α/ σ x Normalny n 30 x ± z α/ s x Dowolna x ± t α/ s x Inny n 50 x ± z α/ s x n < 50 Unikać 3

24 ESTYMACJA WARIANCJI DLA POPULACJI Jeśli z populacji o rozkładzie normalnym pobierzemy bardzo wiele próbek, to estymator wariancji S będzie miał rozkład zwany chi kwadrat ( n 1) χ = s σ Rozkład χ : jest zależny od liczby stopni swobody ν jest asymetryczny: ogony nie są jednakowe przy ν >30 zbliżony do normalnego E(χ ) = ν V(χ )= ν f(χ ) ν =1 ν = 4 ν = 15 0 χ tablica rozkładu χ (SKRYPT) nie pokazuje ani funkcji gęstości, ani funkcji dystrybuanty pokazuje wartości kwantyli dla odpowiedniego rozkładu χ (dla ustalonej liczby stopni swobody) f(χ ) α / 1 α α / Liczba Lewy ogon Prawy ogon stopni swobody 0,990 0,975 0,950 0,050 0,05 0, ,053 3,816 4,575 19,68 1,9 4,7 0 χ χ 1- α / χ α / Przedział ufności dla nieznanej wariancji populacji (niesymetryczny) Mała próbka Duża próbka ( n 1) s P χ ( n 1) s < σ < χ ( α / 1 α / s s P < σ < = 1 α zα α 1 / z 1 / n n ) = 1 α 4

25 systematyczny łędy RODZAJE ŁĘDÓW losowy Pomiar wykonany w tych samych warunkach daje błąd o stałej wartości Wystąpienie błędu -a i a ma to samo prawdopodobieństwo Przy zmianie warunków błąd przyjmuje różną od zera stałą wartość Prawdopodobieństwo błędu a jest funkcją malejącą Im błąd a bliższy zera tym bardziej prawdopodobny statystycznym. mała próba populacja niejednorodna zły operator losowania obciążenie estymatora o charakterze pozastatystycznym uwikłanie wielu czynników bardzo niebezpieczny statystycznym pozastatystycznym ŁĄD SYSTEMATYCZNY łędy 0,11 0,17 0,4 0,75 0,31 0,34 0,36 0,375 0,38 0,388 Θ parametr Θˆ estymator parametru Serie1 0,11 0,17 0,4 0,75 0,31 0,34 0,36 0,375 0,38 0,388 ŁĄD LOSOWY E( Θˆ ) Θ Serie1 D( Θˆ ) Θˆ D( Θˆ ) 5

26 Wielkość błędu systematycznego to miara obciążenia estymatora E( Θ) ˆ łędy Θ absolutny błąd oceny Δ= Θ Θˆ Ponieważ nieznany jest względny błąd oceny Δ'= Θ W praktyce wyznacza się: Θ Θˆ ustalenie błędu systematycznego jest niemożliwe. poziom absolutny (d) dokładności poziom względny (δ) dokładności zakłada się prawdopodobieństwo 1 - α dotrzymania błędu d Θ lub P{ Θˆ Θ d} = P{ d Θˆ Θ d} = 1 α P{ Θ ˆ Θ > d} = α LICZNOŚĆ PRÓY DO OSZACOWANIA ŚREDNIEJ nieznane odchylenie standardowe populacji d - błąd szacunku średniej wynosi: d = tα/ t n = d s n α/ s tα/ - kwantyl rozkładu Studenta dla no-1 stopni swobody, no - liczność tzw. próby pilotażowej użytej do oszacowania odchylenia standardowego s 6

27 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH Hipoteza statystyczna to każde przypuszczenie dotyczące populacji generalnej wysnute na podstawie próbki statystycznej Hipotezy statystyczne dzielimy na: parametryczne nieparametryczne Ponieważ przy posługiwaniu się próbką nigdy nie ma pewności, stawia się dwie wykluczające się hipotezy: hipotezę zerową H 0 hipotezę alternatywną H 1 (H a ) Weryfikacja: polega na sprawdzeniu, która z nich jest prawdziwa, a która fałszywa posługujemy się testami statystycznymi (z, t, χ, F, R i inne) Kolejność czynności przy weryfikacji hipotez: 1. Sformułowanie H 0 i H 1 (H 0 : μ=4,0 H 1 : μ 4,0; lub μ>4,0; lub μ<4,0). Przyjęcie poziomu błędu I rodzaju α (α = 0,05) 3. Dobranie testu weryfikującego (statystyki, sprawdzianu hipotezy Zn) w zależności od rodzaju hipotezy 4. Ustalenie obszaru krytycznego testu (odczytanie wartości krytycznej statystyki weryfikującej z tablic dla α: z tabl, z kr, z α ) 5. Obliczenie wartości statystyki na podstawie próbki (z obl, z emp ) 6. Porównanie dwu statystyk i podjęcie decyzji o przyjęciu lub odrzuceniu hipotezy H 0 7. Interpretacja podjętej decyzji Prawidłowość podejmowanych decyzji HIPOTEZA DECYZJA STATYSTYKA ZEROWA JEST przyjąć H 0 odrzucić H 0 PRAWDZIWA Nie ma błędu łąd I rodzaju FAŁSZYWA 1 α łąd II rodzaju β α Nie ma błędu 1 β α=poziom błędu I rodzaju, β = poziom błędu II rodzaju, 1 β =moc testu α=p(h0 odrzucona/h0 jest prawdziwa) β = P(H0 nieodrzucona/h0 jest fałszywa) Obszar krytyczny testu W należy tak ustalić, aby zminimalizować błąd II rodzaju. Obszar krytyczny to zbiór wartości statystyki Z n (tj. sprawdzianu hipotezy) spełniającej warunki: P( Z n W/ H 1) 0 ) α = P( Z n W/ H1) max ) = W praktyce bierze się warunek (1) stąd szczególny rodzaj testów, zwanych testami istotności. 7

28 Hipotezy nieparametryczne Dotyczą rozkładów populacji lub cech niemierzalnych Do ich weryfikacji stosuje się następujące testy: test χ test Kołmogorowa-Smirnowa testy serii (długości i liczności serii) Przykład hipotezy nieparametrycznej: H 0 : rozkład populacji nie różni się istotnie od rozkładu normalnego H 1 : rozkład populacji różni się istotnie od rozkładu normalnego Testowanie przy użyciu testu (statystyki) χ TEST DLA ROZKŁADÓW ZMIENNEJ LOSOWEJ CIĄGŁEJ i SKOKOWEJ!!! n e liczebność empiryczna n t liczebność teoretyczna k liczba przedziałów (klas) χ = k obl i= 1 ( nie nit ) nit Reguła decyzyjna: jeżeli χ obl > χ tabl, odrzucamy H 0 na korzyść H 1 jeżeli χ obl < χ tabl, nie ma podstaw do odrzucenia H 0 Przykład Sprawdzić, czy rozkład szybkości czytania uczniów wybranego gimnazjum jest rozkładem normalnym. Do próbki wylosowano 101 uczniów ostatniej klasy gimnazjalnej jednej ze szkół w woj. Małopolskim. Przyjmij α=0,01. Szybkość czytania Liczba słów/5 min uczniów Razem 101 wartości x oraz s obliczono z szeregu dwustopniowego x = 103,6 słów/5 min s = 3,95 słów/5 min Test nieparametryczny χ H 0 : rozkład populacji nie różni się istotnie od rozkładu normalnego H 1 : rozkład populacji różni się istotnie od rozkładu normalnego 8

29 wyliczanie liczności teoretycznych na podstawie funkcji gęstości xi ni xi x zi f(zi) nit ,6 8,6 6,6,68,18 1,67 0, , , ,6 1,9 5, ,6 1,16 0, , ,6 0,66 0, , ,6 0,15 0, , ,4 0,35 0, , ,4 0,86 0,756 14, ,4 1,36 0,158 8, ,4 1,87 0, , ,4,38 0,0406 1, ,4,88 0, ,3 Razem ,0 wartości z i obliczono przez standaryzację środków przedziałów klasowych wartości f(z i ) odczytano z tablicy funkcji gęstości liczebności teoretyczne policzono według wzoru d nit = f(zi ) n s d = szerokość przedziału (d=) n = liczebność próbki (n=101) Liczebności faktyczne teoretyczne ne nt,5 5,0 10,4 16,4 0, 19, 14,1 8,1 3,6 1,5 Różnice ne nt (ne nt) (ne nt) /nt 1,5,0 4,4 0,4 11,8 0,8 6,1 4,1 0,4,5,5 4,00 19,36 0,16 139,4 0,64 37,1 16,81 0,16 6,5 0,90 0,80 1,86 0,01 6,89 0,03,64,08 0,04 4, ,0 0,0 19,4 połączono dwa pierwsze i dwa ostatnie przedziały odczytujemy χ tabl = 18,48 dla α=0,01 i ν = 7 (k=10 po połączeniu, r=) stwierdzamy, że χ obl > χ tabl odrzucamy hipotezę, że rozkład populacji jest rozkładem normalnym (decyzja obarczona błędem nie większym niż 0,01) stwierdzamy, że rozkład szybkości czytania uczniów różni się istotnie od rozkładu normalnego Test nieparametryczny χ wyliczanie liczności teoretycznych na podstawie dystrybuanty xi ni xi x zi F(zi) pt nt ,9 7,6 5,6 3,6 1,6 0,4,4 4,4 6,4 8,4 10,4 1,4,43 1,9 1,4 0,91 0,41 0,10 0,61 1,11 1,6,13,63 3,14 0,0075 0,074 0,0778 0,1814 0,3409 0,5398 0,791 0,8665 0,9474 0,9834 0,9957 1,0000 0,0075 0,0199 0,0504 0,1036 0,1595 0,1989 0,1893 0,1374 0,0809 0,0360 0,013 0,0043 0,9,0 5,1 10,5 16,1 0,1 19,1 13,9 8, 3,6 1, 0,5 Razem 101 1, połączono dwa pierwsze i dwa ostatnie przedziały odczytujemy χ tabl = 18,48 dla α = 0,01 i ν = 7 (k = 10 po połączeniu, r = ) stwierdzamy, że χ obl < χ tabl nie ma podstaw do odrzucenia hipotezy, że rozkład populacji jest rozkładem normalnym (decyzja ta jest obarczona błędem nie większym niż 0,01) stwierdzamy, że rozkład szybkości czytania uczniów nie różni się istotnie od rozkładu normalnego 9

30 Testowanie przy użyciu testu Kołmogorowa-Smirnowa TEST TYLKO DLA ROZKŁADÓW ZMIENNEJ LOSOWEJ CIĄGŁEJ!!! dane dzieli się na przedziały klasowe (klasy) do sprawdzenia, czy dana próbka może pochodzić z populacji o założonym rozkładzie, używa się dwu dystrybuant empirycznej i teoretycznej dla każdej klasy określa się wartość obu dystrybuant i określa bezwzględną wartość różnicy pomiędzy nimi znajduje się największą różnicę D i wylicza empiryczną wartość statystyki λ według wzoru λ obl = D n Test ten jest mniej dokładny niż test χ i może dać inny wynik F(X) 1 dystrybuanta empiryczna dystrybuanta teoretyczna największa różnica D z tablicy statystyki λ (SKRYPT) odczytuje się wartość λ tabl dla wybranego poziomu ufności decyzję o przyjęciu lub odrzuceniu H 0 podejmuje się jak poprzednio klasy wielkości X Przykład cd x i n i n icum F(x i) F(z i) /F(x i)-f(z i)/ ,0099 0,0396 0,0693 0,187 0,871 0,6040 0,800 0,881 0,908 0,9604 0,9901 1,0000 0,0075 0,074 0,0778 0,1814 0,3409 0,5398 0,791 0,8665 0,9474 0,9834 0,9957 1,0000 0,004 0,01 0,0085 0,057 0,0538 0,064 0,079 0,0147 0,066 0,030 0,0056 0,0000 λ obl = D n = 0,079*10,05=0,73 Razem 101 z tablicy odczytujemy wartość λ tabl = 1,63 dla α = 0,01 stwierdzamy, że λ tabl > λ 0bl nie ma podstaw do odrzucenia hipotezy, że rozkład populacji jest rozkładem normalnym (decyzja ta jest obarczona błędem nie większym niż 0,01) stwierdzamy, że rozkład szybkości czytania uczniów nie różni się istotnie od rozkładu normalnego 30

31 Testowanie przy użyciu testów serii test liczby serii test długości (najdłuższej) serii Serię tworzą elementy ułożone w kolejności rosnącej wartości, pochodzące z dwu różnych populacji: kobiety i mężczyźni (wzrost), ludzie z dwu krajów (spożycie), pracownicy dwu firm (wydajność). test liczby serii H 0 populacje nie różnią się od siebie istotnie Przykład serii: A A A A liczba elementów: 10 (n 1 =4, n =6) liczba serii: k = 6 Z tablicy testu serii dla n 1 i n odczytujemy k α Lewostronny obszar krytyczny: P(k k α ) = α Jeżeli k < k α odrzucamy H 0 Jeżeli k > k α nie ma podstaw do odrzucenia H 0 test długości (najdłuższej) serii Przykład serii: A A A A długość najdłuższej serii: l = 3 Z tablicy odczytujemy l α Prawostronny obszar krytyczny: P(l > l α ) = α Jeżeli l > l α odrzucamy H 0 l < l α Jeżeli nie ma podstaw do odrzucenia H 0 Hipotezy parametryczne dotyczą one parametrów populacji generalnej, które oznaczymy ogólnym symbolem θ hipoteza zerowa polega na przyjęciu, że nieznane θ jest równe θ 0 weryfikacja prawdziwości tej hipotezy polega na sprawdzeniu, czy wartość θ 0 znajduje się w przedziale ufności parametru θ 1. Trzy sytuacje przy weryfikacji hipotez H0 : θ = θ0 H1 : θ θ0 Przedział przyjęcia H 0 : z α/ <z obl <z α/ Przedziały odrzucenia H 0 : z obl < z α/ oraz z obl >z α/ czyli z obl > z α/ α/ 1 α α / z α/ z α/ 1 α α. H0 : θ = θ0 H1 : θ > θ0 z α Przedział przyjęcia H0 :z obl <z α Przedział odrzucenia H 0 : z obl >z α 31

32 3. Hipotezy parametryczne H0 : θ = θ0 H1 : θ < θ0 Przedział przyjęcia H 0 :z obl > z α Przedział odrzucenia H 0 : z obl < z α α 1 α z z α Rzeczywisty poziom istotności α założony poziom istotności(błąd I rodzaju) α = 0,05 z tabl = 1,645 1 α α z α 1 P P P poziom istotności rzeczywisty z obl =,0 P = 0,017 z obl HIPOTEZY O ŚREDNIEJ DLA POPULACJI I. Duża próbka stosujemy statystykę z [o rozkładzie normalnym N(0;1)] Pobieramy próbkę i liczymy x μ z 0 obl = lub σx σ s σx = sx = x μ z 0 n n obl = sx H 0 : μ = μ 0 H 0 : μ = μ 0 H 0 : μ = μ 0 H 1 : μ μ 0 H 1 : μ > μ 0 H 1 : μ < μ 0 Reguła decyzyjna Odrzucamy H 0, jeżeli... z obl >z α/ z obl >z α z obl < z α H 0 : μ=μ 0 3

33 II. Mała próbka stosujemy statystykę t (o rozkładzie Studenta) Pobieramy n-elementową próbkę i liczymy x μ t 0 obl = sx H 0 : μ = μ 0 H 0 : μ = μ 0 H 0 : μ = μ 0 H 1 : μ μ 0 H 1 : μ > μ 0 H 1 : μ < μ 0 Reguła decyzyjna Odrzucamy H 0, jeżeli... t obl >t α/(n-1) t obl >t α(n-1) t obl <t α(n-1) Przykład 15. W celu sprawdzenia, czy nowy lek jest lepszy od dotych-czasowego, zbadano jego skuteczność na 6 chorych mierząc współczyn-nik odbudowy czerwonych ciałek krwi: 6,3; 7,8; 8,1; 8,3; 8,7 i 9,4. Lek używany dotychczas daje 8,3. Sprawdź hipotezę przy poziomie istotności 0,01. Zakładamy rozkład normalny współczynnika i wybieramy test t. Parametry próbki: n = 6; x = 8,1; s = 1,04 8,1 8,3 t Hipotezy: H 0 : μ = 8,3; H 1 : μ < 8,3 obl = = 0,47 1,04 Statystyka t: t 0,01(5) = - 3,365 6 Porównanie: t obl > t tabl Wniosek: nowy lek z pewnością nie jest lepszy od dotychczasowego HIPOTEZY O WARIANCJI POPULACJI wariancja jest miarą jakości wyrobów; dla klienta jest ważniejsza niż średnia stosujemy χ tabl = χ α,n 1 zakładamy rozkład normalny populacji (n 1)s pobieramy n-elementową próbkę, dla której wyznaczamy s i liczymy χobl = σ 0 H 0 : σ = σ 0 H 0 : σ = σ 0 H 0 : σ = σ 0 H 1 : σ σ 0 H 1 : σ > σ 0 H 1 : σ < σ 0 Reguła decyzyjna Odrzucamy H 0, jeżeli... χ obl >χ α/ χ obl >χ α χ obl <χ 1- α lub χ obl <χ 1-α/ σ 0 Przykład 16. Dla sprawdzenia hipotezy, że wariancja wykonania normy =1,5(%) wylosowano 81-osobową grupę robotników, dla których wariancja równa się 11,4 (%). Przyjmij α=0,10 do zweryfikowania tej hipotezy (przy założeniu, że populacja ma rozkład normalny). H 0 : σ = 1,5 α / = 0,05 (80)(11,4) χ 73 H 1 : σ 1,5 1 α / = 0,95 obl = χ 1- α / 1,5 =60,39 χ α / =101,88 NIE MA PODSTAW DO ODRZUCENIA H 0 istotniemoże YĆ 1,5 (%) WARIANCJA normy dla POPULACJI nie różni się 33

34 HIPOTEZY O FRAKCJI W POPULACJI w przypadku dużej próby Stosujemy statystykę z [o rozkładzie normalnym N(0;1)] Pobieramy próbkę i liczymy pˆ p z = o gdzie qo = 1 po poqo / n H 0 : p = p 0 H 0 : p = p 0 H 0 : p = p 0 H 1 : p p 0 H 1 : p > p 0 H 1 : p < p 0 Reguła decyzyjna Odrzucamy H 0, jeżeli... z obl >z α/ z obl >z α z obl < z α Przykład 17. Udział pewnej spółki w rynku bardzo wyraźnie reaguje na nasilenie reklamy własnej i konkurencji. Obecnie udział w rynku wynosi 56%. Zarząd spółki chce wiedzieć czy udział ten zmienił się wskutek ostatniej kampanii reklamowej konkurentów oraz wskutek nasilenia własnej kampanii reklamowej. W pobranej próbie 500 klientów, 98 nabyło produkt spółki. Czy są podstawy do wniosku, że udział spółki w rynku nie wynosi już 56%? Przyjąć poziom istotności 0,01. z = pˆ po 0,596-0,56 = = 1,615 poqo / n 0,56 0,44/500 Wnioskowanie WNIOSKOWANIE STATYSTYCZNE Z DWU PRÓEK Eksperyment statystyczny polega na pobraniu dwu próbek: badanej, którą poddaje się działaniu danego czynnika kontrolnej, która nie podlega działaniu i służy do porównania Estymacja różnicy pomiędzy średnimi dwu populacji mamy dwie populacje o rozkładzie normalnym lub pobieramy próbki (o liczebności >30) populacje te mają średnie μ 1 i μ oraz znane wariancje σ 1 i σ pobieramy z nich próbki o liczebności n 1 i n, średniej x 1 i x, oraz wariancji s 1 i s interesuje nas nieznana różnica pomiędzy średnimi: μ 1 μ mamy do czynienia z estymatorem x 1 x, którego błąd oszacowania Gdyż z własności wariancji wynika, że σ1 σ σ x1 x = n1 n σ ( X Y ) = σ ( X ) σ (Y ) ( x 1 x ) z α/ σ x1 x dolna Granice przedziału ufności dla μ 1 μ : ( x 1 x ) z α/ σ x1 x górna σ σ σ σ P ( x 1 α < μ μ < 1 α = 1 α 1 x ) z / 1 ( x1 x ) z / n 1 n n1 n Jeżeli nie znamy wariancji obu populacji, możemy zastąpić je wariancjami próbek s 1 i s ale: jeśli rozkłady normalne oraz n 1 >30 i n >30 jeśli rozkłady nie normalne oraz n 1 >50 i n >50 34

35 TESTOWANIE HIPOTEZ H 0 : μ 1 - μ = D 0 H 0 : μ 1 - μ = D 0 H 0 : μ 1 - μ = D 0 H 1 : μ 1 - μ D 0 H 1 : μ 1 - μ >D 0 H 1 : μ 1 - μ <D 0 Reguła decyzyjna Odrzucamy H 0, jeżeli... z obl >z α/ z obl >z α z obl < z α ( x1 x ) D z 0 obl = s1 s n1 n Przykład 18. Porównujemy dwie metody sprzedaży pewnego towaru, realizowane w dwu grupach sklepów. Zmienną losową X jest tygodniowa sprzedaż wyrażona w sztukach. Wyznacz 95-procentowy przedział ufności dla rzeczywistej różnicy wielkości sprzedaży dwoma metodami. Próbka jest duża I metoda n 1 = 51 II metoda n = 54 x 1 = 6,5 x =,4 s 1 = 9,1 s = 6,7 wartość oszacowana różnicy x 1 x = 4,1 błąd oszacowania różnicy sx 1, x = P ( 1, 0 < μ1 μ < 7, ) = 0, 95 W przypadku małych próbek, pobranych z populacji o rozkładzie normalnym i o nieznanej wariancji, rozróżniamy dwa przypadki: A wariancje populacji są sobie równe wariancje populacji nie są sobie równe W przypadku A stosujemy statystykę t o (n 1 n ) stopniach swobody, zaś przedział ufności dla różnicy średnich jest dany wzorem P ( x1 x tα / s < μ1 μ < x1 x tα / s ) = 1 α n1 n n1 n gdzie s = TESTOWANIE HIPOTEZ ( n1 1 )s1 ( n 1 )s n1 n Przykład 19. Pewien koncern chemiczny bada zanieczyszczenie powietrza w dwu różnych miejscowościach (w ciągu kilku dni o ustalonej godzinie): Próbka jest mała I miasto n 1 = 8 II miasto n = 11 x 1 = 0,3 ppm s 1 = 0,07 ppm wartość oszacowana różnicy x 1 x = 0,09 ppm błąd oszacowania różnicy 0,04758 x = 0,3 ppm s = 0,1 ppm wartość statystyki t 0,05(17) =,11 dolna granica przedziału ufności ( 0,09) (,11)(0,04758) = 0,19 ppm górna granica przedziału ufności ( 0,09) (,11)(0,04758) = 0,01 ppm P ( 0, 19 < μ1 μ < 0, 01) = 0, 95 35

36 TESTOWANIE HIPOTEZ W przypadku stosujemy statystykę t Fishera-ehrensa ' s 1 s ' s < μ μ < 1 s P ( x = 1 α 1 x ) t 1 ( x1 x ) t n 1 n n1 n ' t = tα /, ν ( s1 / n1 s / n ) ( ) ( s / n s / n ) ν = 1 1 n1-1 n -1 Przykład 0. Przedsiębiorstwo rozważa, w której stacji telewizyjnej uloko-wać reklamę. Zbadano ceny wynegocjowane za 30-sekundowe spoty przez różnych klientów: Próbka jest mała I stacja n 1 = 14 II stacja n = 4 x 1 = 883 zł x = 47 zł s 1 = 13 zł s = 63 zł Szef firmy stwierdził, że decyzję podejmie w zależności od tego, czy I stacja jest średnio droższa od II tylko o 500 zł, czy o więcej. Sprawdź odpowiednie hipotezy przy poziomie istotności 0,05. H 0 : μ 1 μ = 500 ( x1 x ) 500 t obl = H 0 : μ 1 μ > 500 s1 s Jest to przypadek stosujemy statystykę t n1 n t obl =,33 t 0,05(14) = 1,761 Odrzucamy H 0 na korzyść H 1 : stacja I jest średnio droższa od stacji II o co najmniej 500 zł z prawdopodobieństwem poniżej 0,05 (rzeczywisty poziom istotności). Wariancje dwu populacji Wariancja jest wielokrotnie ważniejsza niż średnia Statystyka Fishera, dana dwoma parametrami: ν 1, ν χ1 ν F = 1 χ ν f(f) Rozkład F dla α F Liczba stopni swobody mianownika Liczba stopni swobody licznika , 19,3 3 9,1 9,01 4 α=0,05 6,39 5 5,19 6 4,53 7 4,1 8 3,84 9 5,1 4,6 3,86 3,63 3,48 Tablice rozkładu F dla każdego α oddzielna tablica! Obszar krytyczny zawsze prawostronny 36

37 Rozkład F dla α f(f) Próbki: n 1 n s 1 s α/ lub α 0 F α/ lub F α F Zawsze prawostronny obszr krytyczny testu Gdy s 1 > s ν 1 = n 1-1 ν = n -1 s F obl = s 1 Gdy s 1 < s ν 1 = n -1 ν = n 1-1 s F obl = s 1 H 0 : σ 1 = σ σ 1 = σ H 1 : σ 1 σ σ 1 > σ Reguła decyzyjna Odrzucamy H 0, jeżeli... F obl >F α/(ν1, ν) F obl >F α(ν1, ν) OIE ZMIENNE MUSZĄ MIEĆ ROZKŁAD NORMALNY Przykład Analityk ma rozstrzygnąć, czy akcje dwóch firm A i charakteryzują się tym samym ryzykiem (wariancja miarą ryzyka). Zmienną losową jest cena akcji na kolejnych sesjach giełdy. Wyniki dla dwu próbek dały następujące wyniki. Rozstrzygnij problem przy poziomie 0,05. H 0 : σ 1 = σ I: akcje A n 1 = 5 II: akcje n = 4 H 1 : σ 1 σ x 1 = 4,11 $ x = 3,35 $ s 1 = 1,85 $ s = 1,17 $ F obl =(1,85) /(1,17) =,50 F tabl(0,05;4;3) =,9 Odrzucamy hipotezę zerową. Wariancje populacji nie są sobie równe. Akcje są mniej ryzykowne; mniejsze wahania ceny (decyzja z błędem do 0,05). H 0 : σ 1 = σ F tabl(0,05;4;3) =,01 Wniosek jak powyżej H 1 : σ 1 > σ Przedział ufności dla stosunku wariancji dwu populacji (???) s dolna granica 1 s F α / ( ν, ν = 1) s s F α / ( ν1, ν ) s1 górna granica F α / ( ν, ν1 ) s W przykładzie 1: F 0,05;4;3 =,9 F 0,05;3;4 =,30 1,09<σ 1 / σ <5,75 37

38 Stosowane symbole L liczba klas T drzewo decyzyjne t węzeł drzewa T t poddrzewo drzewa T o korzeniu w węźle t T L zbiór liści drzewa T T L liczba liści drzewa T m liczba przykładów m i liczba przykładów, dla których dany atrybut przyjmuje wartość i-tą m j liczba przykładów klasy c j 38

39 Klasyfikacja jednoetapowa Podczas całego procesu decyzyjnego uwzględniane wszystkie cechy i klasy. sekwencyjna Decyzja rozłożona na szereg prostszych decyzji; w różnych etapach wykorzystywane są różne cechy i uwzględniane różne podzbiory klas. Schemat działania klasyfikatora przedstawia drzewo decyzyjne Drzewo decyzyjne Odległość < 30 km tak nie Pogoda słonecznie deszczowo Działanie klasyfikatora wieloetapowego ilustruje drzewo decyzyjne. Pojęcia: korzeń drzewa, węzeł wewnętrzny, węzeł końcowy (liść), gałąź, ścieżka. 39

40 Drzewo decyzyjne Odległość: 8 Pogoda: deszczowo Odległość < 30 km tak nie Pogoda słonecznie deszczowo Zalety drzew decyzyjnych szybka klasyfikacja zrozumiały proces decyzyjny możliwość aproksymacji złożonych powierzchni decyzyjnych możliwość stosowania cech różnego typu efektywne z punktu widzenia przechowywania w pamięci 40

41 Wady drzew decyzyjnych im więcej klas oraz im bardziej się one nakładają, tym większe drzewo decyzyjne trudno zapewnić jednocześnie wysoką jakość klasyfikacji i małe rozmiary drzewa w węzłach testowany jeden atrybut lokalna optymalizacja metody nieadaptacyjne Konstrukcja drzewa decyzyjnego y a 1 A A AA x y a 1 A A AA x a a 3 y< a 1 y< a 3 tak nie tak nie x< a x< a 1 tak nie tak nie A A 41

42 Konstrukcja drzew decyzyjnych Jeden zbiór danych wiele możliwych drzew Czym należy się kierować wybierając (konstruując) drzewo? Kryteria optymalizacji Globalne Lokalne - średnie prawdopodobieństwo błędu - średnia długość ścieżki - liczba węzłów drzewa - stopień zróżnicowania danych - przyrost informacji - współczynnik przyrostu informacji i inne 4

43 Zstępująca konstrukcja drzew decyzyjnych function Konstrukcja_drzewa(P-przykłady,t-węzeł) if not kryterium_stopu then podział_węzła t for i=a to n (n-liczba węzłów potomnych) Konstrukcja_drzewa(P i,t i ) else utworzenie_liścia t endif end function Utworzenie liścia Do węzła końcowego przypisuje się etykietę tej klasy, której obrazów najwięcej dociera do tego węzła. 43

44 Podział węzła - przykłady A. Cecha porównana z wartością progową (typowe dla atrybutów ciągłych). y i > α i tak nie. Uwzględnione wszystkie możliwe wartości danego atrybutu (typowe dla atrybutów nominalnych). y i y i1 y i y ik Podział węzła Najczęściej reguły decyzyjne budowane są na podstawie pojedynczych cech źródłowych. Prowadzi to do dzielenia przestrzeni cech hiperłaszczyznami prostopadłymi do osi cech. Wybierając cechę można się kierować jedną ze znanych miar, np. przyrostem informacji, wskaźnikiem przyrostu informacji, wskaźnikiem zróżnicowania danych itd. 44

45 Podział węzła w przypadku atrybutów nominalnych A. Dla każdego atrybutu y i oblicz wartość wybranej miary.. Wybierz atrybut optymalny w sensie powyższej miary. 3. Od danego węzła utwórz tyle gałęzi, ile różnych wartości przyjmuje atrybut y i. t y i y i1 yi y ik t 1 t t k Kryteria wyboru atrybutu mierzące różnicę między zbiorem przykładów w węźle t a zbiorami przykładów w węzłach potomnych ze względu na rozkład częstości klas; mierzące różnice między poszczególnymi zbiorami przykładów w węzłach potomnych ze względu na rozkład częstości klas; mierzące statystyczną niezależność między rozkładem klas a podziałem zbioru przykładów na podzbiory. 45

46 Kryteria wyboru atrybutu przyrost informacji Przyrost informacji IM (information measure): IM = H i ci m H = m j m j m H ci m log m j y H, m przykładów y 1 yj y k H 1,m 1 H j, m j Hk, m k Dla każdego atrybutu obliczamy wartość IM i wybieramy atrybut, dla którego wartość ta jest największa (H nie zależy od atrybutu, wystarczy porównywać drugi składnik). Miara IM preferuje atrybuty o dużej liczbie różnych wartości. Kryteria wyboru atrybutu współczynnik przyrostu informacji Współczynik przyrostu informacji GR (gain ratio): GR = IM m j m j log m m j Dla każdego atrybutu obliczamy wartość GR i wybieramy atrybut, dla którego wartość ta jest największa. Miara GR preferuje atrybuty o małej liczbie różnych wartości. 46

47 Kryteria wyboru atrybutu - miara zróżnicowania danych (Gini index) Stopień zróżnicowania danych: i = p k j k j p j = 1 j j p j = 1 Spadek zróżnicowania: m j Δi = i i m j j c m m j Dla każdego atrybutu obliczamy Δi i wybieramy atrybut, dla którego wartość ta jest największa. Kryteria wyboru atrybutu statystyka χ Statystyka χ służy do porównywania rzeczywistych rozkładów z oczekiwanymi. χ c ( m j i ij ) = E E i j ij E ij = mim m c j Dla każdego atrybutu obliczamy χ i wybieramy atrybut, dla którego wartość ta jest największa. 47

48 Eksperymenty pokazują że: Kryteria wyboru atrybutu przedstawione kryteria wyboru atrybutu nie wpływają na błąd klasyfikacji; można otrzymać równie dobre drzewa wybierając atrybuty w węzłach losowo, ale przedstawione miary wpływają na rozmiary skonstruowanego drzewa (przed przycięciem); drzewa, dla których losowano atrybuty zawierają około dwa razy więcej węzłów; przeważnie korzystając z miary GR otrzymuje się najmniejsze drzewa a za pomocą χ największe; na błąd klasyfikacji ma wpływ przycinanie drzewa. Kryterium stopu Możliwe dwa podejścia: 1. Przerwanie rozbudowy drzewa, gdy spełniony jest jeden z poniższych warunków: liczba błędnie klasyfikowanych obrazów jest mniejsza niż ustalony próg; liczba obrazów w węźle jest mniejsza niż ustalony próg; drzewo osiągnęło maksymalny dopuszczalny rozmiar (maksymalna liczba węzłów lub maksymalna wysokość).. Zbudowanie drzewa klasyfikującego poprawnie wszystkie lub prawie wszystkie przykłady, a następnie przycięcie drzewa. 48

49 Przycinanie drzew y A A AA A A A x Cel: zlikwidować nadmierne dopasowanie klasyfikatora do niepoprawnych danych. Przycinanie drzew 1 poprawność 0,8 0,6 0,4 0, zbiór uczący zbiór testowy liczba węzłów 49

50 Przycinanie drzew Na podstawie oddzielnego zbioru przycinania Na podstawie zbioru uczącego Wykorzystujące zasadę minimalnej długości kodu Przycinanie drzew Większość algorytmów przycinania (reduced error pruning, pessimistic error pruning, minimum error pruning) opiera się na następującym schemacie: repeat przeglądaj węzły wewnętrzne drzewa T if błąd dla poddrzewa T t > błąd dla liścia t then zastąp poddrzewo T t liściem przypisz do liścia t etykietę odpowiedniej klasy end if until przycinanie zmniejsza błąd Poszczególne metody różnią się sposobem szacowania błędu oraz kolejnością przeglądania węzłów drzewa. 50

51 Przycinanie drzew reduced error pruning łąd szacowany na podstawie odrębnego zbioru przycinania. Węzły przeglądane od dołu. Poddrzewo T t zastępowane liściem t gdy error(t) error(t t ). Procedura powtarzana dopóki dalsze przycinanie nie zwiększa błędu. Zalety: prostota, niski koszt obliczeniowy. Wady: konieczność poświęcenia części danych na przycinanie; czasem drzewo zostaje przycięte zbyt mocno (zwłaszcza gdy zbiór przycinania jest znacznie mniejszy niż zbiór uczący). Przycinanie drzew reduced error pruning, przykład < 0 wiek 0 typ y A tak nie Zbiór przycinania kolor wiek 1 czarny 11 biały 3 3 czarny 4 czarny 18 typ A y tak tak nie nie Klasa biały 6-1 kolor A 4 5 czarny A 7 - biały typ kolor - A -5 czarny A typ czarny 15 tak - 6 biały 7 nie 51

52 Przycinanie drzew reduced error pruning, przykład < 0 wiek 0 typ y A tak nie 6-0 biały kolor czarny kolor biały czarny A typ typ A 4 5 A 4 5 A Przycinanie drzew reduced error pruning, przykład wiek A -5 A 4 5 A typ < 0 0 tak y nie A 4 5 kolor biały czarny A typ typ A

53 Przycinanie drzew reduced error pruning, przykład < 0 wiek 0 A tak y nie kolor typ biały czarny A 8-7 A 7 - typ Przycinanie drzew reduced error pruning, przykład < 0 wiek 0 A tak y nie biały typ kolor czarny A typ A

54 Przycinanie drzew reduced error pruning, przykład < 0 wiek tak y nie biały kolor czarny A typ Przycinanie drzew pessimistic error pruning łąd szacowany na podstawie zbioru uczącego. Węzły przeglądane od korzenia. Poddrzewo T t o korzeniu w węźle t zastępowane liściem gdy error (t) error (T t ) SE(error (T t )) error (t) = error(t) ½ error (T t ) = error(t t ) ½ T tl SE(error (T t )) = [error (T t )(m(t) - error (T t )) / m(t)] ½. 54

Pokazać jeszcze