Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki
|
|
- Kazimiera Murawska
- 7 lat temu
- Przeglądów:
Transkrypt
1 Rozpoznawanie wzorców Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki mbereta@pk.edu.pl beretam@torus.uck.pk.edu.pl
2 Metody Bayesa
3 Niepewnośd wiedzy Wiedza uzyskana od ekspertów jest często niepewna niekompletna niespójna niedoskonała
4 Niepewnośd wiedzy Eksperci są w stanie podejmowad decyzje w oparciu o swoją często niedoskonałą wiedzę. Systemy ekspertowe również muszą byd w stanie radzid sobie z wiedzą tego typu.
5 Czym jest niepewnośd? Niepewnośd można zdefiniowad jako brak dokładnej wiedzy, tzn. takiej, która umożliwia podejmowanie w pełni uzasadnionych decyzji i w pełni wiarygodnych wniosków.
6 Źródła niepewności Nieprecyzyjnośd języka naturalnego Trudności ze sformułowaniem zależności w postaci reguł Łączenie wiedzy kilku ekspertów Niekompletnośd danych, na których system ma operowad Specyfika problemu Przyjęta forma reprezentacji (atrybuty) Rozkład danych z klas
7 Nieprecyzyjnośd języka naturalnego Always 99 Very often 88 Usually 85 Sometimes 20 Usualluy not 10 Never 0 (Ray Simpson 1944) Always 100 Very often 87 Usually 79 Sometimes 29 Usualluy not 16 Never 0 (Milton Hakel 1968)
8 Teoria prawdopodobieostwa Prawdopodobieostwo zdarzenia A to proporcja przypadków, kiedy dane zdarzenie zachodzi. p(a) = 0 całkowita niemożliwośd p(a) = 1 całkowita pewnośd Jeśli wynikiem może byd sukces lub porażka: p(sukces) = liczba_sukcesów / liczba_prób p(porażka) = liczba_porażek / liczba_prób
9 Prawdopodobieostwo warunkowe Załóżmy, że zdarzenia A i B nie są wzajemnie wykluczające się. Prawdopodobieostwo zdarzenia A może zależed od tego, czy miało miejsce zdarzenie B. p(a B) = liczba_wystąpieo_a_oraz_b / liczba_wystąpieo_b
10 Prawdopodobieostwo warunkowe Prawdopodobieostwo tego, że wystąpi A i B nazywamy prawdopodobieostwem łącznym tych zdarzeo. Zatem prawdopodobieostwo warunkowe definiujemy jako:
11 Prawdopodobieostwo warunkowe Analogicznie prawdopodobieostwo B pod warunkiem A: Prawdopodobieostwo łączne jest przemienne:
12 Twierdzenie Bayesa Analogicznie prawdopodobieostwo B pod warunkiem A: Wzór Bayesa p(a) prawdopodobieostwo zdarzenia A p(b) prawdopodobieostwo zdarzenia B p(a B) prawdopodobieostwo zdarzenia A pod warunkiem, że zaszło zdarzenie B p(b A) prawdopodobieostwo zdarzenia B pod warunkiem, że zaszło zdarzenie A
13 Prawdopodobieostwo warunkowe W przypadku, gdy A zależy od zdarzeo B1, B2,...,Bn wzajemnie się wykluczających: wtedy
14 Prawdopodobieostwo całkowite Jeśli Bi i=1...n wyczerpują wszystkie możliwe zdarzenia: B1 A B4 B2 S zbiór wszystkich możliwych zdarzeń; wtedy prawdopodobieństwo całkowite p(a): B3
15 Prawdopodobieostwo całkowite Jeśli A zależy jedynie od dwóch wykluczających się zdarzeo, np. B oraz NOT B:
16 Reguła Bayesa Analogicznie dla B: Korzystając z reguły Bayesa otrzymamy:
17 Reguła Bayesa
18 Systemy ekspertowe i wiedza niepewna Załóżmy, że mamy regułę w postaci: IF E is TRUE THEN H is TRUE {z prawd. p} Reguła ta mówi, że jeśli wystąpi E to H wystąpi z prawdopodobieośtwem p.
19 Systemy ekspertowe IF E is TRUE THEN H is TRUE {p} Wiemy, że E wystąpiło. i wiedza niepewna Jak policzyd prawdopodobieostwo, że wystąpiło H? Odpowiedź:
20 Systemy ekspertowe i wiedza niepewna p(h) prawdopodobieostwo a priori wystąpienia H p(e H) prawdopodobieostwo, że jeśli wystąpi H, to wystąpiło też E p(~h) prawdopodobieostwo a priori nie wystąpienia H p(e ~H) prawdopodobieostwo, że jeśli nie wystąpi H, to mimo wszystko wystąpiło E p(h E) prawdopodobieostwo a posteriori wystąpienia H, jeśli wystąpiło E
21 Systemy ekspertowe i wiedza niepewna Prawdopodobieostwa p(h), p(e H), p(~h) oraz p(e ~H) są określane przez eksperta bądź też szacowane statystycznie.
22 Systemy ekspertowe i wiedza niepewna Co w przypadku wystąpienia wielu hipotez? (Hipotezy oraz przesłanki (dowody, ang. Evidences) muszą byd wzajemnie wykluczające się oraz wyczerpujące).
23 Systemy ekspertowe i wiedza niepewna Co w przypadku wystąpienia wielu przesłanek Ei? (Hipotezy oraz przesłanki (dowody, ang. Evidences) muszą byd wzajemnie wykluczające się oraz wyczerpujące).
24 Systemy ekspertowe i wiedza niepewna Co w przypadku wystąpienia wielu przesłanek Ei? (Hipotezy oraz przesłanki (dowody, ang. Evidences) muszą byd wzajemnie wykluczające się oraz wyczerpujące). Powyższy wzór wymaga od nas pliczenia wszystkich prawdopodobieństw warunkowych dla wszystkich możliwych kombinacji przesłanek Ei oraz hipotez Hi.
25 Systemy ekspertowe i wiedza niepewna Powyższy wzór wymaga od nas pliczenia wszystkich prawdopodobieostw warunkowych dla wszystkich możliwych kombinacji przesłanek Ei oraz hipotez Hi. W praktyce jest to często niemożliwe. W przypadku szacowania na podstawie danych pojawiają się watpliwości o jakość uzyskanych szacowań, jeśli np. przykładowych danych pokrywających dany przypadek jest mało.
26 Systemy ekspertowe i wiedza niepewna Często zakłada się zatem, że E1, E2,..., En są wzajemnie niezależne. Dwa zdarzenia A oraz B są określane jako niezależne wtedy i tylko wtedy, gdy:
27 Systemy ekspertowe i wiedza niepewna Zamiast: otrzymujemy zatem: Założenie takie nie jest zawsze uzasadnione i może przyczynić się do błędnego działania systemu.
28 Przykład Warunki E1, E2 oraz E3 są wzajemnie warunkowo niezależne. Trzy hipotezy H1, H2 oraz H3 są wzajemnie wykluczające się oraz wyczerpujące. Ekspert dostarcza prawdopodobieostw a priori p(h1), p(h2), p(h3) oraz prawdopodobieostwa warunkowe p(ei Hj) Hipoteza Prawdopodobieostwo i=1 i=2 i=3 p(hi) p(e1 Hi) p(e2 Hi) p(e3 Hi)
29 Przykład Zakładamy, że jako pierwszy zaobserwowane jest E3 :
30 Przykład Następnie zaobserwowano E1 : Powinno byd: Ale E1, E2, E3 są warunkowo niezależne, zatem:
31 Przykład Następnie zaobserwowano E2 : Ostatecznie zatem najbardziej prawdopodobna jest hipoteza H3.
32 Zalety reguły Bayesa Dobrze rozwinięta teoria matematyczna. Decyzje oparte na metodzie Bayesa są optymalne (pod warunkiem, że znamy odpowiednie rozkłady prawdopodobieostw). Wszystkie inne metody podejmowania decyzji mogą byd co najwyżej zbieżne do metody Bayesa.
33 Wady reguły Bayesa Czasami trzeba czynid nieuprawnione założenia upraszczające problem (np. założenie o niezależności bądź warunkowej niezależności między zmiennymi). Badania psychologiczne dowodzą, iż ludziom cieżko jest szacowad prawdopodobieostwa często prawd. a priori są niespójne z prawd. warunkowymi.
34 Wady reguły Bayesa Samochód nie chce zapalid. Jaka jest przyczyna? IF oznaką są dziwne odgłosy THEN rozrusznik jest zepsuty {p=0.7}
35 Wady reguły Bayesa p(rozrusznik nie jest zly są dziwne odgłosy) = p(rozrusznik jest dobry są dziwne odgłosy) = = 0.3 IF oznaką są dziwne odgłosy THEN rozrusznik jest dobry {p=0.3} Jest to reguła w pewnym sensie ukryta, której istnienie może wprowadzad niejasności.
36 Wady reguły Bayesa Spójrzmy od innej strony na sytuację: IF rozrusznik jest zepsuty THEN są dziwne odgłosy {p=0.85} IF rozrusznik jest zepsuty THEN nie ma dziwnych odgłosów {p=0.15} Aby użyd reguły Bayesa potrzebujemy jeszcze prawd. a priori, że rozrusznik jest zły jeśli samochód nie chce zapalid. Załóżmy, że ekspert szacuje je na 5%.
37 Wady reguły Bayesa Z reguły Bayesa otrzymamy: Jest to wartość dużo mniejsza niż wcześniej oszacowane przez eksperta prawd. = 0.7.
38 Wady reguły Bayesa Skąd ta rozbieżnośd? Różne założenia eksperta podczas szacowania prawd. a priori oraz prawd. warunkowych. p(h) = p(rozrusznik jest zepsuty) p(h E) = p(rozrusznik jest zepsuty są dziwne odgłosy) p(e H) = p(są dziwne odgłosy rozrusznik jest zepsuty) p(e ~H) = p(są dziwne odgłosy rozrusznik jest dobry)
39 Wady reguły Bayesa Skąd ta rozbieżnośd? Różne założenia eksperta podczas szacowania prawd. a priori oraz prawd. warunkowych. Jest to dużo większa wartość niż 0.05 podana wcześniej przez eksperta.
40 Optymalność reguły Bayesa
41 Klasyfikator bayesowski Naturalnym sposobem konstrukcji klasyfikatora jest oparcie się na rozkładach prawdopodobieostwa obserwacji w klasach. Załóżmy, że rozkład obserwacji x z klasy k, k=1,..,g, jest dany dyskretnym rozkładem prawdopodobieostwa lub gęstością prawdopodobieostwa p(x k) Prawdopodobieostwo a priori, że obserwacja pochodzi z klasy k wynosi π k, k = 1,,g (np. oszacowane na podstawie procentu ludzi cierpiących na daną chorobę i nie cierpiących na nią)
42 Klasyfikator bayesowski Na podstawie twierdzenia Bayesa, prawdopodobieostwo a posteriori, że obserwacja x pochodzi z klasy k, wynosi p( k x) g k p( x k) r1 r p( x r)
43 Klasyfikator bayesowski Załóżmy, że znamy prawdopodobieostwa π k oraz rozkłady p(x k). KLASYFIKATOR BAYESOWSKI (reguła Bayesa) Zaobserwowany wektor x klasyfikujemy jako pochodzący z tej klasy k, dla której wartośd jest największa. p( k x) g p( x k) r1 k p( x r) r
44 Klasyfikator bayesowski Równoważnie możemy wybrad tę klasę, dla której wartośd k jest największa p( x k W praktyce rozkłady te są szacowane na podstawie próby uczącej. )
45 Klasyfikator bayesowski π 1 = 1/3 π 2 = 1/3 π 3 = 1/3
46 Klasyfikator bayesowski π 1 = 1/4 π 2 = 1/2 π 3 = 1/4
47 Klasyfikator bayesowski Przykład: p( x Dwie klasy g = 2 Wielowymiarowy rozkład normalny k) (2 ) 1 exp T 1 p / 2 1/ 2 k k 1 ( x m 2 ) ( x m ) Gęstości obserwacji w klasach mają taką samą macierz kowariancji Σ
48 Klasyfikator bayesowski Szukanie maksimum p(x k) można zastąpid szukaniem maksimum logarytmu naturalnego: ln p( x k k) ln k ln p( x k) Biorąc pod uwagę postad gęstości normalnej zadanie sprowadza się do znalezienia maksimum względem k wielkości T 1 ( x mk ) 1 2 ( x m k ) ln k stala _ niezalezna _ od _ k
49 Klasyfikator bayesowski Po przekształceniu otrzymujemy funkcje dyskryminacyjne postaci: ( x) k Warto zauważyd, że są one liniowe x T 1 m k Jeżeli prawdopodobieostwa a priori są równe (π 1 = π 2 ) i jeżeli macierz Σ zastąpid macierzą próbkową oraz wektory wartości oczekiwanych próbkowymi wartościami średnimi, to otrzymana granica decyzyjna jest równoważna tej otrzymanej z liniowej analizy dyskryminacyjnej Fishera (LDA Linear Discriminant Analysis) 1 2 m T k 1 m k ln k
50 Klasyfikator bayesowski Przy założeniu w klasach rozkładów normalnych, ale o różnych macierzach kowariancji, otrzymujemy kwadratowe powierzchnie rozdzielające klasy { x : ( x) ( x)} k l
51 Klasyfikator bayesowski Jeśli prawdopodobieostwa a priori są równe lub są pomijane, wtedy reguła bayesowska jest równoważna maksymalizacji względem k wartości prawdopodobieostw p( x k) Takie zadanie klasyfikacji nazywamy dyskryminacją metodą największej wiarygodności (NW)
52 Klasyfikator bayesowski Jeśli: Obserwacje pochodzą z rozkładów normalnych Takie same macierze kowariancji Równośd π 1 = π 2 = = π g Wtedy reguła Bayesa jest równoważna następującej: Zaklasyfikuj obserwację x do tej klasy k, dla której kwadrat odległości Mahalanobisa ( x m osiąga wartośd minimalną. k ) T 1 ( x m k )
53 Optymalnośd reguły Bayesa Klasyfikator d: d : X {1,2,..., g} wygodnie przedstawid jako wektor (c 1, c 2,, c g ), na który składa się g funkcji wskaźnikowych 1 gdy d( x) c ( x) k 0 gdy d( x) k k
54 Optymalnośd reguły Bayesa Chcemy wiedzied, na ile dobry jest dany klasyfikator, czy istnieje inny, lepszy od niego. Punktem wyjścia jest wprowadzenie pojęcia funkcji straty związanej z zaklasyfikowaniem obserwacji z klasy i do klasy j : L( i, j) 0 1 gdy gdy i i j j
55 Optymalnośd reguły Bayesa L( i, j) 0 1 gdy gdy Funkcja ta implikuje zerowy koszt podjęcia dobrej decyzji oraz jednostkowy koszt błędnej decyzji. Błędna decyzja nie zawsze musi byd tak samo oceniana (np. koszt błędnej diagnozy lekarskiej jest inny jeśli lekarz zdiagnozuje chorobę, której pacjent nie ma, a inny, jeśli nie wykryje choroby, którą pacjent ma) i i j j
56 Optymalnośd reguły Bayesa Ryzyko klasyfikatora d : R(d,k) oczekiwany koszt, gdy prawdziwą klasą jest klasa k (oczekiwana wartośd funkcji straty przy założeniu prawdziwości klasy k ) R( d, k) E [ L( k, d( x)) klasa k] x g L( k, r) P[ d( x) r1 r klasa k] P[ d( x) k klasa k]
57 Optymalnośd reguły Bayesa Ryzyko całkowite (bayesowskie) klasyfikatora d : Otrzymujemy je uznawszy także klasę obserwacji (a nie tylko wartośd tej obserwacji) za losową. R( d) E [ R( d, k)] P[ d( x) k g k1 k k klasa k]
58 Optymalnośd reguły Bayesa Statystyczna teoria decyzji każe szukad klasyfikatorów i estymatorów minimalizujących odpowiednio określone ryzyko całkowite będące wartością oczekiwaną przyjętej funkcji straty.
59 Optymalnośd reguły Bayesa Twierdzenie Reguła Bayesa minimalizuje ryzyko całkowite g k k k k klasa k x P d k d R E d R 1 ] ) ( [ )], ( [ ) ( ) ( max ) ( 0 ) ( max ) ( 1 ) ( * k x p i x p gdy k x p i x p gdy x c k k i k k i i
60 Optymalnośd reguły Bayesa Funkcja straty II L( i, j) 0 1 b gdy gdy gdy j i j i j brak _ decyzji b(0,1)
61 Optymalnośd reguły Bayesa Uogólnienie reguły Bayesa d( x) brak _ k decyzji gdy gdy p( k x) max max lg lg p( l p( l x) x) 1b 1b Twierdzenie: Tak uogólniona reguła Bayesa, uwzględniająca możliwośd braku decyzji, minimalizuje ryzyko całkowite przy funkcji straty II.
62 Optymalnośd reguły Bayesa Funkcja straty III L( i, j) 0 lij b gdy gdy gdy j i j i j brak _ decyzji b(0,1)
63 Optymalnośd reguły Bayesa Uogólnienie (kolejne) reguły Bayesa Twierdzenie: Tak uogólniona reguła Bayesa, uwzględniająca możliwośd braku decyzji, minimalizuje ryzyko całkowite przy funkcji straty III. b x i p l i L gdy decyzji brak b x i p l i L x i p k i L gdy k x d g i G l g i G l g i ) ( ), ( min _ ) ( ), ( min ) ( ), ( ) (
64 Optymalnośd reguły Bayesa Jeśli rozkłady są znane to problem klasyfikacji jest rozwiązany. W praktyce rozkłady są szacowane na podstawie danych uczących i niekoniecznie dostatecznie dobrze przybliżają prawdziwy rozkład stąd otrzymany klasyfikator nie jest optymalny.
65 Klasyfikator bayesowski Przykład Jeżeli rozkłady π k nie są znane, ale próba ucząca jest reprezentatywna, wtedy rozkłady te szacujemy jako równe stosunkowi liczności podpróbki elementów k-tej klasy, n k, do liczności całej próbki uczącej, n=n 1 +n 2 + +n g. ˆk n k n
66 Klasyfikator bayesowski Jeśli zakładamy, że macierze kowariancji w klasach są identyczne, za estymator tej macierzy można przyjąd macierze kowariancji wewnątrzgrupowej W: ˆ W n 1 g g n k k1 i1 ( x ki mˆ k )( x ki mˆ k ) T
67 Klasyfikator bayesowski Jeśli zakładamy, że macierze kowariancji w klasach są różne, za estymator tych macierzy w każdej z klas można przyjąd macierze próbkowe S k : ˆ k S k n k 1 1 n k l1 ( x kl mˆ k )( x kl mˆ k ) T
68 Klasyfikator bayesowski Uwaga! Jeśli próba ucząca nie jest wystarczająco liczna estymatory mogą byd niedokładne. Możemy otrzymad estymatory o dużej wariancji, chod nieobciążone, czyli nieprecyzyjne lub obarczone dużym błędem losowym.
69 Klasyfikator bayesowski Był to przykład estymacji parametrycznej gęstości prawdopodobieostwa zakładana była znana postad rozkładu (np. normalny) lecz nieznane były jego parametry Innym przypadkiem są metody estymacji nieparametrycznej, w których nie zakłada się żadnej postaci funkcji gęstości rozkładu, a jedynie to, że jest to funkcja odpowiednio gładka, np. ma pochodne trzeciego rzędu. Przykładem są estymatory jądrowe.
70 Klasyfikator bayesowski Przypadek estymacji parametrycznego rozkładu normalnego można uogólnid na estymację danego rozkładu za pomocą mieszaniny rozkładów normalnych o znanej liczbie rozkładów składowych (liczba ta w praktyce jest dobierana eksperymentalnie). Np. dla k-tej klasy mamy mieszaninę s k rozkładów normalnych, gdzie p kr to tzw. współczynniki mieszania s k p( x k) p ( x; r1 kr m kr, kr )
71 Klasyfikator bayesowski Mieszaniny tego typu są modelami bardzo ogólnymi mogącymi oddad kształt dowolnej gęstości. Można udowodnid, że dla każdej ciągłej i ograniczonej gęstości istnieje mieszanina gęstości normalnych przybliżająca tę gęstośd z dowolnie dużą dokładnością. W celu oszacowania wartości parametrów stosuje się algorytm EM (ang. Expectation Maximization) estymacja największej wiarygodności.
72 Klasyfikator bayesowski Naiwny Klasyfikator Bayesa Naiwny klasyfikator Bayesa zakłada, że wartości poszczególnych atrybutów są od siebie warunkowo (względem kategorii) niezależne, czyli zachodzi następująca równośd: ) ) ( ) (... ) ( ) ( ( k x d v x a v x a v x a p n n n i i i i i n i k x d v x a p k x d v x a p 1 1 ) ) ( ) ( ( ) ) ( ) ( (
73 Wybór i ocena klasyfikatora Dysponując kilkoma klasyfikatorami bayesowskimi lub innymi musimy je porównad i wybrad najlepszy z nich. Naturalnym sposobem wyboru jest przeanalizowanie prawdopodobieostw dokonania przez klasyfikatory błędnej klasyfikacji nowej, losowej obserwacji. Prawdopodobieostwo błędnej klasyfikacji jest równe oczekiwanemu ułamkowi błędnych klasyfikacji i jest równe ryzyku całkowitemu klasyfikatora przy zero-jedynkowej funkcji straty.
74 Wybór i ocena klasyfikatora Prawdopodobieostwo to szacujemy eksperymentalnie Dane, którymi dysponujemy = Dane uczące + Dane walidacyjne + Dane testowe
75 Wybór i ocena klasyfikatora Dane uczące służą do stworzenia klasyfikatorów Dane walidacyjne służą do wybrania spośród wszystkich klasyfikatorów tego, który ma najmniejszy błąd na tym zbiorze danych walidacyjnych Dane testowe służą do ostatecznego oszacowania błędu wybranego klasyfikatora Aby takie oszacowanie były wiarygodne, próby te muszą byd od siebie niezależne.
76 Wybór i ocena klasyfikatora Przykład: Jeśli do oszacowania błędu klasyfikatora wykorzystamy ten sam zbiór uczący, to oszacowanie będzie obciążone, tzn. w tym przypadku systematycznie zaniżone (zbyt optymistyczny poziom błędu). Estymator jest nieobciążony, jeśli wartośd oczekiwana rozkładu estymatora jest równa wartości szacowanego parametru.
77 Wybór i ocena klasyfikatora Wydzielenie próby walidacyjnej nie jest potrzebne, jeśli trenujemy jedynie jeden klasyfikator. Próba walidacyjna może byd użyta w momencie podejmowania decyzji o zakooczeniu nauki np. sieci neuronowej. Jeśli błąd przestaje się zmniejszad na próbie walidacyjnej, uczenie zostaje zatrzymane.
78 Wybór i ocena klasyfikatora Proporcje podziału dostępnych danych na uczące, walidacyjne i testowe: np. 50% + 25% + 25% lub 60% + 20% + 20%
79 Wybór i ocena klasyfikatora Czasami (np. jeśli próba jest zbyt mała) nie można sobie pozwolid na podział danych na trzy części. Należy wtedy wielokrotnie wykorzystad zbiór uczący, lecz w odpowiedni sposób, tak by obciążenie oszacowania było jak najmniejsze.
80 Wybór i ocena klasyfikatora KROSWALIDACJA (sprawdzanie krzyżowe) Próba ucząca zostaje podzielona na K (np. 5) możliwie równych części (K-krotna kroswalidacja). Tworzy się K różnych pseudoprób poprzez usuwanie z próby oryginalnej kolejno części 1,,K Klasyfikator jest konstruowany K-krotnie, za każdym razem na podstawie innej pseudopróby Każda wersja klasyfikatora jest oceniana przez sprawdzenie liczby błędnych klasyfikacji na tej części oryginalnych danych, która nie weszła do pseudopróby uczącej tego klasyfikatora
81 Wybór i ocena klasyfikatora KROSWALIDACJA (sprawdzanie krzyżowe) Sumaryczna liczba błędów klasyfikacji dla wszystkich K wersji klasyfikatora podzielona przez licznośd oryginalnej próby uczącej, daje kroswalidacyjne oszacowanie prawdopodobieostwa dokonania błędnej klasyfikacji przez dany klasyfikator (dany typ klasyfikatora np. sied neuronową o zadanej liczbie warstw i neuronów).
82 Wybór i ocena klasyfikatora Kroswalidacja jest kosztowna obliczeniowo. Po wybraniu klasyfikatora metodą kroswalidacji, konstruuje się go raz jeszcze ale tym razem na podstawie całej próby uczącej. Zwykle przyjmuje się K równe 5 lub 10. Jeśli przyjmiemy n-krotną kroswalidację (n rozmiar danych) to mówimy o metodzie leave-one-out crossvalidation każda pseudopróba powstaje przez usunięcie tylko jednego przykładu uczącego.
83 Wybór i ocena klasyfikatora Powstałe oszacowanie kroswalidacyjne jest prawie nieobciążone tzn. jest nieobciążone, ale dla klasyfikatora powstałego na podstawie próby o liczności mniejszej niż interesująca nas licznośd n. (Obciążenie to jest najmniejsze dla kroswalidacji n-krotnej.) Można wykazad, że jest to jednocześnie estymator o największej wariancji Wariancja estymatora jest tym mniejsza im mniejsze jest K
84 Wybór i ocena klasyfikatora Wymaganie jednoczesnej minimalizacji obciążenia oraz wariancji jest niemożliwe do spełnienia.
85 Wybór i ocena klasyfikatora Metoda BOOTSTRAP Jest to inna metoda wielokrotnego wykorzystania elementów tej samej próby uczącej do konstrukcji wielu wersji tego samego klasyfikatora Polega na dokonaniu wielokrotnego repróbkowania elementów z tej samej oryginalnej próby uczącej Repróbkowanie oznacza losowanie ze zwracaniem z oryginalnej próby uczącej (o liczności n).
86 Wybór i ocena klasyfikatora Metoda BOOTSTRAP Średnio 1/3 (dokładniej 0.368) próby oryginalnej nie zostanie wylosowana do danej pseudopróby (1 1/n) n to w przybliżeniu e -1 = Na podstawie kolejnych n-elementowych pseudoprób konstruuje się kolejne wersje klasyfikatora Dla każdego elementu oryginalnej próby uczącej oblicza się ułamek błędnych zaklasyfikowao tego elementu przez te wersje klasyfikatora, w których budowie nie brał udziału ów element
87 Wybór i ocena klasyfikatora Metoda BOOTSTRAP Oblicza się średnią wartośd ułamków otrzymanych dla wszystkich n elementów oryginalnej próby uczącej. Ta średnia wartośd jest przybliżeniem szukanego estymatora prawdopodobieostwa błędnego zaklasyfikowania nowej obserwacji. Oznaczenie: error boot
88 Wybór i ocena klasyfikatora Metoda BOOTSTRAP Estymator ten jest zbyt pesymistyczny jego obciążenie systematycznie zawyża otrzymywane oszacowanie prawdopodobieostwa błędnej klasyfikacji.
89 KOREKCJA Wybór i ocena klasyfikatora Konstruujemy kolejny estymator oparty na uśrednieniu ułamka błędnych klasyfikacji otrzymanych dla wszystkich (bootstrapowych) wersji danego klasyfikatora, gdy dla każdej wersji jej zdolnośd poprawnej klasyfikacji sprawdzana jest na wszystkich elementach oryginalnej próby uczącej. Jest to estymator zbyt optymistyczny jego obciążenie jest ujemne. Oznaczenie: error boot-opt
90 Wybór i ocena klasyfikatora Ostatecznie można stworzyd estymator postaci: error boot error boot-opt Estymator ten jest zwany estymatorem boostrap 0.632
91 Wybór i ocena klasyfikatora Ocena klasyfikatora przez powtórne podstawienie ma sens jeśli metoda dyskryminacji z góry zakłada prostą (np. liniową) postad hiperpowierzchni dyskryminacyjnej, dając pewnośd, że nie powstanie nadmierne dopasowanie się tej hiperpowierzchni do losowej próby uczącej.
92 Wybór i ocena klasyfikatora Wszystkie powyższe uwagi odnoszą się do sytuacji, gdy rozkłady danych w klasach nie są znane. Jeśli rozkłady są znane (z dokładnością do pewnej liczby nieznanych parametrów) problem sprowadza się do estymacji tych rozkładów i zastosowania dyskryminacji bayesowskiej. Jednak czasami warto nieznane parametry rozkładów szacowad z wykorzystaniem opisanych metod.
93 Przykład testy medyczne Koszt błędnej klasyfikacji czasami zależy od tego, do jakiej klasy naprawdę należy dana obserwacja. Tak jest w przypadku diagnozowania chorób. Test diagnostyczny daje wynik dodatni (pozytywny) choroba jest zdiagnozowana Test diagnostyczny daje wynik ujemny (negatywny) choroba nie jest zdiagnozowana
94 Przykład testy medyczne Lepiej jest fałszywie wykryd nieistniejącą chorobę niż błędnie zdiagnozowad brak choroby. Test diagnostyczny jest w tym przypadku rodzajem klasyfikatora w problemie klasyfikacji z dwoma klasami.
95 Przykład testy medyczne Osoba klasyfikowana jako zdrowa Osoba klasyfikowana jako chora Osoba zdrowa TN FP Osoba chora FN TP TN true negatives liczba przypadków, w których test dał poprawnie wyniki ujemny TP true positives - liczba przypadków, w których test dał poprawnie wyniki dodatni FP false positives - liczba przypadków, w których test dał niepoprawnie wyniki dodatni FN false negatives - liczba przypadków, w których test dał niepoprawnie wyniki ujemny
96 Przykład testy medyczne Osoba klasyfikowana jako zdrowa Osoba klasyfikowana jako chora Osoba zdrowa Osoba chora 3 97 TN true negatives liczba przypadków, w których test dał poprawnie wyniki ujemny TP true positives - liczba przypadków, w których test dał poprawnie wyniki dodatni FP false positives - liczba przypadków, w których test dał niepoprawnie wyniki dodatni FN false negatives - liczba przypadków, w których test dał niepoprawnie wyniki ujemny
97 Przykład testy medyczne Osoba klasyfikowana jako zdrowa Osoba klasyfikowana jako chora Osoba zdrowa Osoba chora 3 97 Oszacowanie prawdopodobieostwa błędnej klasyfikacji: FP FN TN FP FN TP
98 Przykład testy medyczne To oszacowanie odnosi się do sumy błędów, a nie oddzielnie do każdego z dwóch typów błędów. Dlatego wprowadza się pojęcia czułości i specyficzności testu. TP TP FN Czułośd oszacowanie prawdopodobieostwa przewidzenia przez test choroby po warunkiem, że pacjent jest na nią chory. TN TN FP 1 FP TN FP Specyficznośd oszacowanie prawdopodobieostwa przewidzenia przez test braku choroby po warunkiem, że pacjent jest zdrowy. 1 - Specyficznośd oszacowanie prawdopodobieostwa błędu przewidzenia przez test choroby po warunkiem, że pacjent jest zdrowy (fałszywy wynik dodatni).
99 Przykład testy medyczne Podobna sytuacja ma miejsce gdy klasyfikator ma za zadanie stwierdzid, czy dany moduł urządzenia działa poprawnie, czy też nie. Chcemy by klasyfikator był czuły a jednocześnie nie wywoływał fałszywych alarmów (duża specyficznośd) Podobnie jest w problemie uznawania kredytobiorcy za godnego zaufania lub nie.
100 Czułośd a specyficznośd Czułośd i specyficznośd są wymaganiami przeciwstawnymi - zwiększenie jednego prowadzi do zmniejszenia drugiego. Dlatego często konstruuje się nie jeden klasyfikator, ale wiele klasyfikatorów, z których każdy odpowiada innej parze kosztów błędnej klasyfikacji Następnie, na podstawie analizy czułości i specyficzności, wybieramy spośród nich klasyfikator zapewniający najlepszy kompromis między obydwoma wymaganiami.
101 Przykład testy medyczne Przykład W danym problemie z dwoma klasami porównamy dwie rodziny klasyfikatorów bayesowskich. Np. zakładamy rozkład normalny, ale w pierwszym przypadku zakładamy równośd macierzy kowariancji w obu klasach, w drugim przypadku nie ma tego założenia. Oznaczamy: 1 klasa osób zdrowych 2 klasa osób chorych
102 Przykład testy medyczne Przykład Zakładamy l 21 koszt błędu stały równy 1 l 12 > 0 koszt błędu zmienny w celu porównania czułości i specyficzności Zmieniając wartośd kosztu l 12, otrzymujemy rodzinę klasyfikatorów wybranego typu.
103 Przykład testy medyczne Przykład W przypadku dwóch klas klasyfikator bayesowski klasyfikuje obserwację x do klasy 2, gdy l21p( 2 x) l12(1 p(2 x)) czyli gdy p(2 x) l 12 l 12 l 21
104 Przykład testy medyczne Bliski zera koszt l 12 sprawia, że obserwacje są klasyfikowane do klasy 2 już dla bliskich zera wartości prawdopodobieostwa p(2 x). Taki klasyfikator jest bardzo czuły, jednak jego specyficznośd musi byd bliska zeru.
105 Przykład testy medyczne Sumarycznej informacji o zachowaniu się danego typu klasyfikatora przy zmiennych kosztach błędnych decyzji daje krzywa operacyjno-charakterystyczna odbiornika (krzywa ROC ang. receiver operating characteristic curve) Krzywa ROC to miejsce geometryczne punktów na płaszczyźnie o współrzędnych (1-specyficznośd, czułośd)
106 Przykład testy medyczne Który typ klasyfikatora jest lepszy (czerwony czy zielony)?
107 Przykład testy medyczne Który typ klasyfikatora jest lepszy (czerwony czy zielony)? Typ klasyfikatora czerwony jest lepszy w tym sensie, że podczas zwiększania specyficzności, czułośd dłużej utrzymuje się na wysokim poziomie.
108 Przykład testy medyczne Sytuacja idealna czułośd 1 dla specyficzności 1
109 Przykład testy medyczne AUC Area under Curve Pole powierzchni pod krzywą ROC może służyc jako kryterium do porównania typów klasyfikatorów (ich rodzin), bez ustalania wartości pewnych ich parametrów. - Preferowane są klasyfikatory o jak największym AUC - Maksymalna wartośd AUC to 1 (klasyfikator idealny: maksymalna czułośd i zero fałszywych alarmów) - Wartośd AUC poniżej 0.5 wskazuje na bardzo słaby klasyfikator (dany typ klasyfikatora nie radzi sobie z problemem). Lepsze wyniki dostajemy wtedy odwracając decyzje tego klasyfikatora, wtedy, jeśli AUC < 0.5 to AUC = 1 AUC > 0.5
110 Przykład testy medyczne Koniec
PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 5 Kwadratowa analiza dyskryminacyjna QDA. Metody klasyfikacji oparte na rozkładach prawdopodobieństwa.
Wykład 5 Kwadratowa analiza dyskryminacyjna QDA. Metody klasyfikacji oparte na rozkładach prawdopodobieństwa. Kwadratowa analiza dyskryminacyjna Przykład analizy QDA Czasem nie jest możliwe rozdzielenie
Bardziej szczegółowoRozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki
Rozpoznawanie wzorców Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki mbereta@pk.edu.pl beretam@torus.uck.pk.edu.pl www.michalbereta.pl Twierzdzenie: Prawdopodobieostwo, że n obserwacji wybranych
Bardziej szczegółowoStatystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r
Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów
Bardziej szczegółowoStan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta
Stan dotychczasowy OCENA KLASYFIKACJI w diagnostyce Wybraliśmy metodę uczenia maszynowego (np. sieć neuronowa lub drzewo decyzyjne), która będzie klasyfikować nieznane przypadki Na podzbiorze dostępnych
Bardziej szczegółowoMetody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 2 autorzy: A. Gonczarek, J.M. Tomczak Metody estymacji Zad. 1 Pojawianie się spamu opisane jest zmienną losową x o rozkładzie dwupunktowym
Bardziej szczegółowoAgnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Bardziej szczegółowoESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA
ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA Jan Mielniczuk Wisła, grudzień 2009 PLAN Błędy predykcji i ich podstawowe estymatory Estymacja błędu predykcji w modelu liniowym. Funkcje kryterialne Własności
Bardziej szczegółowoIdea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość
Idea Niech θ oznacza parametr modelu statystycznego. Dotychczasowe rozważania dotyczyły metod estymacji tego parametru. Teraz zamiast szacować nieznaną wartość parametru będziemy weryfikowali hipotezę
Bardziej szczegółowoWeryfikacja hipotez statystycznych, parametryczne testy istotności w populacji
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki
Bardziej szczegółowoStatystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl
Bardziej szczegółowoElementy modelowania matematycznego
Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski
Bardziej szczegółowoAgnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Bardziej szczegółowo5. Analiza dyskryminacyjna: FLD, LDA, QDA
Algorytmy rozpoznawania obrazów 5. Analiza dyskryminacyjna: FLD, LDA, QDA dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Liniowe funkcje dyskryminacyjne Liniowe funkcje dyskryminacyjne mają ogólną
Bardziej szczegółowoKlasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną
Bardziej szczegółowoWeryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1
Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie
Bardziej szczegółowoEksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18
Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)
Bardziej szczegółowoMetody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 3 Metody estymacji. Estymator największej wiarygodności Zad. 1 Pojawianie się spamu opisane jest zmienną losową y o rozkładzie zero-jedynkowym
Bardziej szczegółowoWYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 9 i 10 1 / 30 TESTOWANIE HIPOTEZ STATYSTYCZNYCH
Bardziej szczegółowo9. Praktyczna ocena jakości klasyfikacji
Algorytmy rozpoznawania obrazów 9. Praktyczna ocena jakości klasyfikacji dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Zbiór uczacy i zbiór testowy 1. Zbiór uczacy służy do konstrukcji (treningu)
Bardziej szczegółowoStatystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych
Statystyka matematyczna. Wykład IV. e-mail:e.kozlovski@pollub.pl Spis treści 1 2 3 Definicja 1 Hipoteza statystyczna jest to przypuszczenie dotyczące rozkładu (wielkości parametru lub rodzaju) zmiennej
Bardziej szczegółowoKlasyfikacja LDA + walidacja
Klasyfikacja LDA + walidacja Dr hab. Izabela Rejer Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Plan wykładu 1. Klasyfikator 2. LDA 3. Klasyfikacja wieloklasowa 4. Walidacja
Bardziej szczegółowoUwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości
TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu, z którego pochodzi próbka. Hipotezy dzielimy na parametryczne i nieparametryczne. Parametrycznymi
Bardziej szczegółowoRozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów
Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,
Bardziej szczegółowoMikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński
Mikroekonometria 5 Mikołaj Czajkowski Wiktor Budziński Zadanie 1. Wykorzystując dane me.medexp3.dta przygotuj model regresji kwantylowej 1. Przygotuj model regresji kwantylowej w którym logarytm wydatków
Bardziej szczegółowoWłasności statystyczne regresji liniowej. Wykład 4
Własności statystyczne regresji liniowej Wykład 4 Plan Własności zmiennych losowych Normalna regresja liniowa Własności regresji liniowej Literatura B. Hansen (2017+) Econometrics, Rozdział 5 Własności
Bardziej szczegółowoStanisław Cichocki Natalia Nehrebecka. Wykład 7
Stanisław Cichocki Natalia Nehrebecka Wykład 7 1 1. Metoda Największej Wiarygodności MNW 2. Założenia MNW 3. Własności estymatorów MNW 4. Testowanie hipotez w MNW 2 1. Metoda Największej Wiarygodności
Bardziej szczegółowoTestowanie hipotez statystycznych.
Statystyka Wykład 10 Wrocław, 22 grudnia 2011 Testowanie hipotez statystycznych Definicja. Hipotezą statystyczną nazywamy stwierdzenie dotyczące parametrów populacji. Definicja. Dwie komplementarne w problemie
Bardziej szczegółowoSPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization
Wrocław University of Technology SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization Jakub M. Tomczak Studenckie Koło Naukowe Estymator jakub.tomczak@pwr.wroc.pl 4.1.213 Klasteryzacja Zmienne
Bardziej szczegółowoTestowanie hipotez statystycznych
Agenda Instytut Matematyki Politechniki Łódzkiej 2 stycznia 2012 Agenda Agenda 1 Wprowadzenie Agenda 2 Hipoteza oraz błędy I i II rodzaju Hipoteza alternatywna Statystyka testowa Zbiór krytyczny Poziom
Bardziej szczegółowoRozpoznawanie obrazów
Rozpoznawanie obrazów Ćwiczenia lista zadań nr 5 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie
Bardziej szczegółowoSystemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018
Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład II bogumil.konopka@pwr.edu.pl 2017/2018 Określenie rzeczywistej dokładności modelu Zbiór treningowym vs zbiór testowy Zbiór treningowy
Bardziej szczegółowoWprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne
Wprowadzenie Prostym podejściem do klasyfikacji jest estymacja funkcji regresji r(x) =E(Y X =x)zpominięciemestymacjigęstościf k. Zacznijmyodprzypadkudwóchgrup,tj.gdy Y = {1,0}. Wówczasr(x) =P(Y =1 X =x)ipouzyskaniuestymatora
Bardziej szczegółowoJakość uczenia i generalizacja
Jakość uczenia i generalizacja Dokładność uczenia Jest koncepcją miary w jakim stopniu nasza sieć nauczyła się rozwiązywać określone zadanie Dokładność mówi na ile nauczyliśmy się rozwiązywać zadania które
Bardziej szczegółowoWnioskowanie bayesowskie
Wnioskowanie bayesowskie W podejściu klasycznym wnioskowanie statystyczne oparte jest wyłącznie na podstawie pobranej próby losowej. Możemy np. estymować punktowo lub przedziałowo nieznane parametry rozkładów,
Bardziej szczegółowoSTATYSTYKA
Wykład 1 20.02.2008r. 1. ROZKŁADY PRAWDOPODOBIEŃSTWA 1.1 Rozkład dwumianowy Rozkład dwumianowy, 0 1 Uwaga: 1, rozkład zero jedynkowy. 1 ; 1,2,, Fakt: Niech,, będą niezależnymi zmiennymi losowymi o jednakowym
Bardziej szczegółowoMatematyka z el. statystyki, # 6 /Geodezja i kartografia II/
Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/ Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Głęboka 28, bud. CIW, p. 221 e-mail: zdzislaw.otachel@up.lublin.pl
Bardziej szczegółowoWprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe
Wprowadzenie do teorii ekonometrii Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Zajęcia Wykład Laboratorium komputerowe 2 Zaliczenie EGZAMIN (50%) Na egzaminie obowiązują wszystkie informacje
Bardziej szczegółowoOcena dokładności diagnozy
Ocena dokładności diagnozy Diagnoza medyczna, w wielu przypadkach może być interpretowana jako działanie polegające na podjęciu jednej z dwóch decyzji odnośnie stanu zdrowotnego pacjenta: 0 pacjent zdrowy
Bardziej szczegółowoRozpoznawanie obrazów
Rozpoznawanie obrazów Ćwiczenia lista zadań nr 7 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie
Bardziej szczegółowoTestowanie hipotez statystycznych
Testowanie hipotez statystycznych Przypuśdmy, że mamy do czynienia z następującą sytuacją: nieznany jest rozkład F rządzący pewnym zjawiskiem losowym. Dysponujemy konkretną próbą losową ( x1, x2,..., xn
Bardziej szczegółowoWprowadzenie. Data Science Uczenie się pod nadzorem
Wprowadzenie Wprowadzenie Wprowadzenie Wprowadzenie Machine Learning Mind Map Historia Wstęp lub uczenie się z przykładów jest procesem budowy, na bazie dostępnych danych wejściowych X i oraz wyjściowych
Bardziej szczegółowoSystemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017
Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład III bogumil.konopka@pwr.edu.pl 2016/2017 Wykład III - plan Regresja logistyczna Ocena skuteczności klasyfikacji Macierze pomyłek Krzywe
Bardziej szczegółowoNatalia Neherbecka. 11 czerwca 2010
Natalia Neherbecka 11 czerwca 2010 1 1. Konsekwencje heteroskedastyczności i autokorelacji 2. Uogólniona MNK 3. Stosowalna Uogólniona MNK 4. Odporne macierze wariancji i kowariancji b 2 1. Konsekwencje
Bardziej szczegółowo1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie
Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty
Bardziej szczegółowoMetody probabilistyczne
Metody probabilistyczne 13. Elementy statystki matematycznej I Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 17.01.2019 1 / 30 Zagadnienia statystki Przeprowadzamy
Bardziej szczegółowoSpis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16
Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego
Bardziej szczegółowoTestowanie hipotez statystycznych
9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :
Bardziej szczegółowoNiech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.
Prawdopodobieństwo i statystyka 3..00 r. Zadanie Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX 4 i EY 6. Rozważamy zmienną losową Z. X + Y Wtedy (A) EZ 0,
Bardziej szczegółowoStatystyka Matematyczna Anna Janicka
Statystyka Matematyczna Anna Janicka wykład IX, 25.04.2016 TESTOWANIE HIPOTEZ STATYSTYCZNYCH Plan na dzisiaj 1. Hipoteza statystyczna 2. Test statystyczny 3. Błędy I-go i II-go rodzaju 4. Poziom istotności,
Bardziej szczegółowoKlasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,
Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której
Bardziej szczegółowoModele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11
Modele DSGE Jerzy Mycielski Maj 2008 Jerzy Mycielski () Modele DSGE Maj 2008 1 / 11 Modele DSGE DSGE - Dynamiczne, stochastyczne modele równowagi ogólnej (Dynamic Stochastic General Equilibrium Model)
Bardziej szczegółowoOptymalizacja ciągła
Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej
Bardziej szczegółowoWykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap
Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap Magdalena Frąszczak Wrocław, 21.02.2018r Tematyka Wykładów: Próba i populacja. Estymacja parametrów z wykorzystaniem metody
Bardziej szczegółowoElementy statystyki wielowymiarowej
Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych
Bardziej szczegółowoPODSTAWY STATYSTYCZNEJ ANALIZY DANYCH
Wykład 3 Liniowe metody klasyfikacji. Wprowadzenie do klasyfikacji pod nadzorem. Fisherowska dyskryminacja liniowa. Wprowadzenie do klasyfikacji pod nadzorem. Klasyfikacja pod nadzorem Klasyfikacja jest
Bardziej szczegółowoMetoda największej wiarygodności
Metoda największej wiarygodności Próbki w obecności tła Funkcja wiarygodności Iloraz wiarygodności Pomiary o różnej dokładności Obciążenie Informacja z próby i nierówność informacyjna Wariancja minimalna
Bardziej szczegółowoPracownia Astronomiczna. Zapisywanie wyników pomiarów i niepewności Cyfry znaczące i zaokrąglanie Przenoszenie błędu
Pracownia Astronomiczna Zapisywanie wyników pomiarów i niepewności Cyfry znaczące i zaokrąglanie Przenoszenie błędu Każdy pomiar obarczony jest błędami Przyczyny ograniczeo w pomiarach: Ograniczenia instrumentalne
Bardziej szczegółowoEstymacja parametrów w modelu normalnym
Estymacja parametrów w modelu normalnym dr Mariusz Grządziel 6 kwietnia 2009 Model normalny Przez model normalny będziemy rozumieć rodzine rozkładów normalnych N(µ, σ), µ R, σ > 0. Z Centralnego Twierdzenia
Bardziej szczegółowoWykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu
Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotności, p-wartość i moc testu Wrocław, 01.03.2017r Przykład 2.1 Właściciel firmy produkującej telefony komórkowe twierdzi, że wśród jego produktów
Bardziej szczegółowoMetody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji
Bardziej szczegółowoWeryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta
Bardziej szczegółowoPrawdopodobieństwo i rozkład normalny cd.
# # Prawdopodobieństwo i rozkład normalny cd. Michał Daszykowski, Ivana Stanimirova Instytut Chemii Uniwersytet Śląski w Katowicach Ul. Szkolna 9 40-006 Katowice E-mail: www: mdaszyk@us.edu.pl istanimi@us.edu.pl
Bardziej szczegółowoPODSTAWY WNIOSKOWANIA STATYSTYCZNEGO czȩść II
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO czȩść II Szkic wykładu 1 Wprowadzenie 2 3 4 5 Weryfikacja hipotez statystycznych Obok estymacji drugim działem wnioskowania statystycznego jest weryfikacja hipotez
Bardziej szczegółowoSztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek
Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek Cel projektu Celem projektu jest przygotowanie systemu wnioskowania, wykorzystującego wybrane algorytmy sztucznej inteligencji; Nabycie
Bardziej szczegółowoWYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 7 i 8 1 / 9 EFEKTYWNOŚĆ ESTYMATORÓW, próba
Bardziej szczegółowoPrawdopodobieństwo czerwonych = = 0.33
Temat zajęć: Naiwny klasyfikator Bayesa a algorytm KNN Część I: Naiwny klasyfikator Bayesa Naiwny klasyfikator bayerowski jest prostym probabilistycznym klasyfikatorem. Naiwne klasyfikatory bayesowskie
Bardziej szczegółowo10/15/2016. Reguła. Czułość PV(+) Bayesa. Swoistość PV(-)
A=symptom B= choroba Czułość Swoistość A ~ A ~ Reguła Bayesa ~ B ~ A) PV(+) PV(-) 1 / 2016_10_13 PV ( ) A PV ( ) A A ~ ~ sensitivity * PV ( ) sensitivity * (1 specificity)(1- ) specificity *(1- ) specificity
Bardziej szczegółowoSTATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010
STATYSTYKA MATEMATYCZNA WYKŁAD 14 18 stycznia 2010 Model statystyczny ROZKŁAD DWUMIANOWY ( ) {0, 1,, n}, {P θ, θ (0, 1)}, n ustalone P θ {K = k} = ( ) n θ k (1 θ) n k, k k = 0, 1,, n Geneza: Rozkład Bernoulliego
Bardziej szczegółowoWykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu
Wykład 11-12 Centralne twierdzenie graniczne Statystyka matematyczna: Estymacja parametrów rozkładu Centralne twierdzenie graniczne (CTG) (Central Limit Theorem - CLT) Centralne twierdzenie graniczne (Lindenberga-Levy'ego)
Bardziej szczegółowoWprowadzenie. Metody bayesowskie Drzewa klasyfikacyjne i lasy losowe Sieci neuronowe SVM. Klasyfikacja. Wstęp
Wstęp Problem uczenia się pod nadzorem, inaczej nazywany uczeniem się z nauczycielem lub uczeniem się na przykładach, sprowadza się do określenia przydziału obiektów opisanych za pomocą wartości wielu
Bardziej szczegółowoIndukowane Reguły Decyzyjne I. Wykład 8
Indukowane Reguły Decyzyjne I Wykład 8 IRD Wykład 8 Plan Powtórka Krzywa ROC = Receiver Operating Characteristic Wybór modelu Statystyka AUC ROC = pole pod krzywą ROC Wybór punktu odcięcia Reguły decyzyjne
Bardziej szczegółowoLABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI
LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI WERYFIKACJA HIPOTEZ Hipoteza statystyczna jakiekolwiek przypuszczenie dotyczące populacji generalnej- jej poszczególnych
Bardziej szczegółowoStatystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )
Statystyka Rozkład prawdopodobieństwa Testowanie hipotez Wykład III (04.01.2016) Rozkład t-studenta Rozkład T jest rozkładem pomocniczym we wnioskowaniu statystycznym; stosuje się go wyznaczenia przedziału
Bardziej szczegółowo2. Empiryczna wersja klasyfikatora bayesowskiego
Algorytmy rozpoznawania obrazów 2. Empiryczna wersja klasyfikatora bayesowskiego dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Brak pełnej informacji probabilistycznej Klasyfikator bayesowski
Bardziej szczegółowoWażne rozkłady i twierdzenia c.d.
Ważne rozkłady i twierdzenia c.d. Funkcja charakterystyczna rozkładu Wielowymiarowy rozkład normalny Elipsa kowariacji Sploty rozkładów Rozkłady jednostajne Sploty z rozkładem normalnym Pobieranie próby
Bardziej szczegółowoKORELACJE I REGRESJA LINIOWA
KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem
Bardziej szczegółowoZadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych
Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zad. 1 Średnia ocen z semestru letniego w populacji studentów socjologii w roku akademickim 2011/2012
Bardziej szczegółowoSystemy uczące się wykład 2
Systemy uczące się wykład 2 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 19 X 2018 Podstawowe definicje Fakt; Przesłanka; Konkluzja; Reguła; Wnioskowanie. Typy wnioskowania
Bardziej szczegółowoAnaliza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU
Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów
Bardziej szczegółowo1 Klasyfikator bayesowski
Klasyfikator bayesowski Załóżmy, że dane są prawdopodobieństwa przynależności do klasp( ),P( 2 ),...,P( L ) przykładów z pewnego zadania klasyfikacji, jak również gęstości rozkładów prawdopodobieństw wystąpienia
Bardziej szczegółowoMetody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 2 autorzy: A. Gonczarek, J.M. Tomczak Metody estymacji ML Zad. 1 Pojawianie się spamu opisane jest zmienną losową x o rozkładzie dwupunktowym
Bardziej szczegółowoStatystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28
Statystyka #5 Testowanie hipotez statystycznych Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik rok akademicki 2016/2017 1 / 28 Testowanie hipotez statystycznych 2 / 28 Testowanie hipotez statystycznych
Bardziej szczegółowoSTATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.
STATYSTYKA MATEMATYCZNA WYKŁAD 4 WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X. Wysuwamy hipotezy: zerową (podstawową H ( θ = θ i alternatywną H, która ma jedną z
Bardziej szczegółowoSTATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów
STATYSTYKA MATEMATYCZNA WYKŁAD 4 Testowanie hipotez Estymacja parametrów WSTĘP 1. Testowanie hipotez Błędy związane z testowaniem hipotez Etapy testowana hipotez Testowanie wielokrotne 2. Estymacja parametrów
Bardziej szczegółowoOznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji
Wykład 11. Metoda najmniejszych kwadratów Szukamy zależności Dane są wyniki pomiarów dwóch wielkości x i y: (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ). Przypuśćmy, że nanieśliśmy je na wykres w układzie
Bardziej szczegółowoKomputerowa analiza danych doświadczalnych
Komputerowa analiza danych doświadczalnych Wykład 9 27.04.2018 dr inż. Łukasz Graczykowski lukasz.graczykowski@pw.edu.pl Semestr letni 2017/2018 Metoda największej wiarygodności ierównosć informacyjna
Bardziej szczegółowoKADD Minimalizacja funkcji
Minimalizacja funkcji n-wymiarowych Forma kwadratowa w n wymiarach Procedury minimalizacji Minimalizacja wzdłuż prostej w n-wymiarowej przestrzeni Metody minimalizacji wzdłuż osi współrzędnych wzdłuż kierunków
Bardziej szczegółowoStatystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.
Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru
Bardziej szczegółowoPrawdopodobieństwo i statystyka r.
Zadanie. Niech (X, Y) ) będzie dwuwymiarową zmienną losową, o wartości oczekiwanej (μ, μ, wariancji każdej ze współrzędnych równej σ oraz kowariancji równej X Y ρσ. Staramy się obserwować niezależne realizacje
Bardziej szczegółowoWykład 4 Wybór najlepszej procedury. Estymacja parametrów re
Wykład 4 Wybór najlepszej procedury. Estymacja parametrów regresji z wykorzystaniem metody bootstrap. Wrocław, 22.03.2017r Wybór najlepszej procedury - podsumowanie Co nas interesuje przed przeprowadzeniem
Bardziej szczegółowoVI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15
VI WYKŁAD STATYSTYKA 9/04/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 6 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI Weryfikacja hipotez ( błędy I i II rodzaju, poziom istotności, zasady
Bardziej szczegółowoBłędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa
Weryfikacja hipotez statystycznych Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o prawdziwości lub fałszywości którego wnioskuje się na podstawie
Bardziej szczegółowoAdam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska
Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska Anna Stankiewicz Izabela Słomska Wstęp- statystyka w politologii Rzadkie stosowanie narzędzi statystycznych Pisma Karla Poppera
Bardziej szczegółowoMonte Carlo, bootstrap, jacknife
Monte Carlo, bootstrap, jacknife Literatura Bruce Hansen (2012 +) Econometrics, ze strony internetowej: http://www.ssc.wisc.edu/~bhansen/econometrics/ Monte Carlo: rozdział 8.8, 8.9 Bootstrap: rozdział
Bardziej szczegółowoSpis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla
Bogumiła Koprowska Elżbieta Kukla 1 Wstęp Czym są efekty losowe? Przykłady Model mieszany 2 Estymacja Jednokierunkowa klasyfikacja (ANOVA) Metoda największej wiarogodności (ML) Metoda największej wiarogodności
Bardziej szczegółowoZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.
Opracowała: Joanna Kisielińska ZMIENNE LOSOWE Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R tzn. X: R. Realizacją zmiennej losowej
Bardziej szczegółowoBaza dla predykcji medycznej
1 rof. Danuta Makowiec Instytut Fizyki Teoretycznej i Astrofizyki UG Kontakt: pok. 353 tel.: 58 523 2466 e-mail danuta.makowiec at gmail.com http://www.fizdm.strony.ug.edu.pl/me/biostatystyka.html Reguła
Bardziej szczegółowoWykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne
Wykład 4 Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym 2. Rozkłady próbkowe 3. Centralne twierdzenie graniczne Przybliżenie rozkładu dwumianowego rozkładem normalnym Niech Y ma rozkład
Bardziej szczegółowoTestowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.
Testowanie hipotez Niech X = (X 1... X n ) będzie próbą losową na przestrzeni X zaś P = {P θ θ Θ} rodziną rozkładów prawdopodobieństwa określonych na przestrzeni próby X. Definicja 1. Hipotezą zerową Θ
Bardziej szczegółowoLABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI
LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI WERYFIKACJA HIPOTEZ Hipoteza statystyczna jakiekolwiek przypuszczenie dotyczące populacji generalnej- jej poszczególnych
Bardziej szczegółowo