Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki

Wielkość: px
Rozpocząć pokaz od strony:

Download "Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki"

Transkrypt

1 Rozpoznawanie wzorców Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki mbereta@pk.edu.pl beretam@torus.uck.pk.edu.pl

2 Metody Bayesa

3 Niepewnośd wiedzy Wiedza uzyskana od ekspertów jest często niepewna niekompletna niespójna niedoskonała

4 Niepewnośd wiedzy Eksperci są w stanie podejmowad decyzje w oparciu o swoją często niedoskonałą wiedzę. Systemy ekspertowe również muszą byd w stanie radzid sobie z wiedzą tego typu.

5 Czym jest niepewnośd? Niepewnośd można zdefiniowad jako brak dokładnej wiedzy, tzn. takiej, która umożliwia podejmowanie w pełni uzasadnionych decyzji i w pełni wiarygodnych wniosków.

6 Źródła niepewności Nieprecyzyjnośd języka naturalnego Trudności ze sformułowaniem zależności w postaci reguł Łączenie wiedzy kilku ekspertów Niekompletnośd danych, na których system ma operowad Specyfika problemu Przyjęta forma reprezentacji (atrybuty) Rozkład danych z klas

7 Nieprecyzyjnośd języka naturalnego Always 99 Very often 88 Usually 85 Sometimes 20 Usualluy not 10 Never 0 (Ray Simpson 1944) Always 100 Very often 87 Usually 79 Sometimes 29 Usualluy not 16 Never 0 (Milton Hakel 1968)

8 Teoria prawdopodobieostwa Prawdopodobieostwo zdarzenia A to proporcja przypadków, kiedy dane zdarzenie zachodzi. p(a) = 0 całkowita niemożliwośd p(a) = 1 całkowita pewnośd Jeśli wynikiem może byd sukces lub porażka: p(sukces) = liczba_sukcesów / liczba_prób p(porażka) = liczba_porażek / liczba_prób

9 Prawdopodobieostwo warunkowe Załóżmy, że zdarzenia A i B nie są wzajemnie wykluczające się. Prawdopodobieostwo zdarzenia A może zależed od tego, czy miało miejsce zdarzenie B. p(a B) = liczba_wystąpieo_a_oraz_b / liczba_wystąpieo_b

10 Prawdopodobieostwo warunkowe Prawdopodobieostwo tego, że wystąpi A i B nazywamy prawdopodobieostwem łącznym tych zdarzeo. Zatem prawdopodobieostwo warunkowe definiujemy jako:

11 Prawdopodobieostwo warunkowe Analogicznie prawdopodobieostwo B pod warunkiem A: Prawdopodobieostwo łączne jest przemienne:

12 Twierdzenie Bayesa Analogicznie prawdopodobieostwo B pod warunkiem A: Wzór Bayesa p(a) prawdopodobieostwo zdarzenia A p(b) prawdopodobieostwo zdarzenia B p(a B) prawdopodobieostwo zdarzenia A pod warunkiem, że zaszło zdarzenie B p(b A) prawdopodobieostwo zdarzenia B pod warunkiem, że zaszło zdarzenie A

13 Prawdopodobieostwo warunkowe W przypadku, gdy A zależy od zdarzeo B1, B2,...,Bn wzajemnie się wykluczających: wtedy

14 Prawdopodobieostwo całkowite Jeśli Bi i=1...n wyczerpują wszystkie możliwe zdarzenia: B1 A B4 B2 S zbiór wszystkich możliwych zdarzeń; wtedy prawdopodobieństwo całkowite p(a): B3

15 Prawdopodobieostwo całkowite Jeśli A zależy jedynie od dwóch wykluczających się zdarzeo, np. B oraz NOT B:

16 Reguła Bayesa Analogicznie dla B: Korzystając z reguły Bayesa otrzymamy:

17 Reguła Bayesa

18 Systemy ekspertowe i wiedza niepewna Załóżmy, że mamy regułę w postaci: IF E is TRUE THEN H is TRUE {z prawd. p} Reguła ta mówi, że jeśli wystąpi E to H wystąpi z prawdopodobieośtwem p.

19 Systemy ekspertowe IF E is TRUE THEN H is TRUE {p} Wiemy, że E wystąpiło. i wiedza niepewna Jak policzyd prawdopodobieostwo, że wystąpiło H? Odpowiedź:

20 Systemy ekspertowe i wiedza niepewna p(h) prawdopodobieostwo a priori wystąpienia H p(e H) prawdopodobieostwo, że jeśli wystąpi H, to wystąpiło też E p(~h) prawdopodobieostwo a priori nie wystąpienia H p(e ~H) prawdopodobieostwo, że jeśli nie wystąpi H, to mimo wszystko wystąpiło E p(h E) prawdopodobieostwo a posteriori wystąpienia H, jeśli wystąpiło E

21 Systemy ekspertowe i wiedza niepewna Prawdopodobieostwa p(h), p(e H), p(~h) oraz p(e ~H) są określane przez eksperta bądź też szacowane statystycznie.

22 Systemy ekspertowe i wiedza niepewna Co w przypadku wystąpienia wielu hipotez? (Hipotezy oraz przesłanki (dowody, ang. Evidences) muszą byd wzajemnie wykluczające się oraz wyczerpujące).

23 Systemy ekspertowe i wiedza niepewna Co w przypadku wystąpienia wielu przesłanek Ei? (Hipotezy oraz przesłanki (dowody, ang. Evidences) muszą byd wzajemnie wykluczające się oraz wyczerpujące).

24 Systemy ekspertowe i wiedza niepewna Co w przypadku wystąpienia wielu przesłanek Ei? (Hipotezy oraz przesłanki (dowody, ang. Evidences) muszą byd wzajemnie wykluczające się oraz wyczerpujące). Powyższy wzór wymaga od nas pliczenia wszystkich prawdopodobieństw warunkowych dla wszystkich możliwych kombinacji przesłanek Ei oraz hipotez Hi.

25 Systemy ekspertowe i wiedza niepewna Powyższy wzór wymaga od nas pliczenia wszystkich prawdopodobieostw warunkowych dla wszystkich możliwych kombinacji przesłanek Ei oraz hipotez Hi. W praktyce jest to często niemożliwe. W przypadku szacowania na podstawie danych pojawiają się watpliwości o jakość uzyskanych szacowań, jeśli np. przykładowych danych pokrywających dany przypadek jest mało.

26 Systemy ekspertowe i wiedza niepewna Często zakłada się zatem, że E1, E2,..., En są wzajemnie niezależne. Dwa zdarzenia A oraz B są określane jako niezależne wtedy i tylko wtedy, gdy:

27 Systemy ekspertowe i wiedza niepewna Zamiast: otrzymujemy zatem: Założenie takie nie jest zawsze uzasadnione i może przyczynić się do błędnego działania systemu.

28 Przykład Warunki E1, E2 oraz E3 są wzajemnie warunkowo niezależne. Trzy hipotezy H1, H2 oraz H3 są wzajemnie wykluczające się oraz wyczerpujące. Ekspert dostarcza prawdopodobieostw a priori p(h1), p(h2), p(h3) oraz prawdopodobieostwa warunkowe p(ei Hj) Hipoteza Prawdopodobieostwo i=1 i=2 i=3 p(hi) p(e1 Hi) p(e2 Hi) p(e3 Hi)

29 Przykład Zakładamy, że jako pierwszy zaobserwowane jest E3 :

30 Przykład Następnie zaobserwowano E1 : Powinno byd: Ale E1, E2, E3 są warunkowo niezależne, zatem:

31 Przykład Następnie zaobserwowano E2 : Ostatecznie zatem najbardziej prawdopodobna jest hipoteza H3.

32 Zalety reguły Bayesa Dobrze rozwinięta teoria matematyczna. Decyzje oparte na metodzie Bayesa są optymalne (pod warunkiem, że znamy odpowiednie rozkłady prawdopodobieostw). Wszystkie inne metody podejmowania decyzji mogą byd co najwyżej zbieżne do metody Bayesa.

33 Wady reguły Bayesa Czasami trzeba czynid nieuprawnione założenia upraszczające problem (np. założenie o niezależności bądź warunkowej niezależności między zmiennymi). Badania psychologiczne dowodzą, iż ludziom cieżko jest szacowad prawdopodobieostwa często prawd. a priori są niespójne z prawd. warunkowymi.

34 Wady reguły Bayesa Samochód nie chce zapalid. Jaka jest przyczyna? IF oznaką są dziwne odgłosy THEN rozrusznik jest zepsuty {p=0.7}

35 Wady reguły Bayesa p(rozrusznik nie jest zly są dziwne odgłosy) = p(rozrusznik jest dobry są dziwne odgłosy) = = 0.3 IF oznaką są dziwne odgłosy THEN rozrusznik jest dobry {p=0.3} Jest to reguła w pewnym sensie ukryta, której istnienie może wprowadzad niejasności.

36 Wady reguły Bayesa Spójrzmy od innej strony na sytuację: IF rozrusznik jest zepsuty THEN są dziwne odgłosy {p=0.85} IF rozrusznik jest zepsuty THEN nie ma dziwnych odgłosów {p=0.15} Aby użyd reguły Bayesa potrzebujemy jeszcze prawd. a priori, że rozrusznik jest zły jeśli samochód nie chce zapalid. Załóżmy, że ekspert szacuje je na 5%.

37 Wady reguły Bayesa Z reguły Bayesa otrzymamy: Jest to wartość dużo mniejsza niż wcześniej oszacowane przez eksperta prawd. = 0.7.

38 Wady reguły Bayesa Skąd ta rozbieżnośd? Różne założenia eksperta podczas szacowania prawd. a priori oraz prawd. warunkowych. p(h) = p(rozrusznik jest zepsuty) p(h E) = p(rozrusznik jest zepsuty są dziwne odgłosy) p(e H) = p(są dziwne odgłosy rozrusznik jest zepsuty) p(e ~H) = p(są dziwne odgłosy rozrusznik jest dobry)

39 Wady reguły Bayesa Skąd ta rozbieżnośd? Różne założenia eksperta podczas szacowania prawd. a priori oraz prawd. warunkowych. Jest to dużo większa wartość niż 0.05 podana wcześniej przez eksperta.

40 Optymalność reguły Bayesa

41 Klasyfikator bayesowski Naturalnym sposobem konstrukcji klasyfikatora jest oparcie się na rozkładach prawdopodobieostwa obserwacji w klasach. Załóżmy, że rozkład obserwacji x z klasy k, k=1,..,g, jest dany dyskretnym rozkładem prawdopodobieostwa lub gęstością prawdopodobieostwa p(x k) Prawdopodobieostwo a priori, że obserwacja pochodzi z klasy k wynosi π k, k = 1,,g (np. oszacowane na podstawie procentu ludzi cierpiących na daną chorobę i nie cierpiących na nią)

42 Klasyfikator bayesowski Na podstawie twierdzenia Bayesa, prawdopodobieostwo a posteriori, że obserwacja x pochodzi z klasy k, wynosi p( k x) g k p( x k) r1 r p( x r)

43 Klasyfikator bayesowski Załóżmy, że znamy prawdopodobieostwa π k oraz rozkłady p(x k). KLASYFIKATOR BAYESOWSKI (reguła Bayesa) Zaobserwowany wektor x klasyfikujemy jako pochodzący z tej klasy k, dla której wartośd jest największa. p( k x) g p( x k) r1 k p( x r) r

44 Klasyfikator bayesowski Równoważnie możemy wybrad tę klasę, dla której wartośd k jest największa p( x k W praktyce rozkłady te są szacowane na podstawie próby uczącej. )

45 Klasyfikator bayesowski π 1 = 1/3 π 2 = 1/3 π 3 = 1/3

46 Klasyfikator bayesowski π 1 = 1/4 π 2 = 1/2 π 3 = 1/4

47 Klasyfikator bayesowski Przykład: p( x Dwie klasy g = 2 Wielowymiarowy rozkład normalny k) (2 ) 1 exp T 1 p / 2 1/ 2 k k 1 ( x m 2 ) ( x m ) Gęstości obserwacji w klasach mają taką samą macierz kowariancji Σ

48 Klasyfikator bayesowski Szukanie maksimum p(x k) można zastąpid szukaniem maksimum logarytmu naturalnego: ln p( x k k) ln k ln p( x k) Biorąc pod uwagę postad gęstości normalnej zadanie sprowadza się do znalezienia maksimum względem k wielkości T 1 ( x mk ) 1 2 ( x m k ) ln k stala _ niezalezna _ od _ k

49 Klasyfikator bayesowski Po przekształceniu otrzymujemy funkcje dyskryminacyjne postaci: ( x) k Warto zauważyd, że są one liniowe x T 1 m k Jeżeli prawdopodobieostwa a priori są równe (π 1 = π 2 ) i jeżeli macierz Σ zastąpid macierzą próbkową oraz wektory wartości oczekiwanych próbkowymi wartościami średnimi, to otrzymana granica decyzyjna jest równoważna tej otrzymanej z liniowej analizy dyskryminacyjnej Fishera (LDA Linear Discriminant Analysis) 1 2 m T k 1 m k ln k

50 Klasyfikator bayesowski Przy założeniu w klasach rozkładów normalnych, ale o różnych macierzach kowariancji, otrzymujemy kwadratowe powierzchnie rozdzielające klasy { x : ( x) ( x)} k l

51 Klasyfikator bayesowski Jeśli prawdopodobieostwa a priori są równe lub są pomijane, wtedy reguła bayesowska jest równoważna maksymalizacji względem k wartości prawdopodobieostw p( x k) Takie zadanie klasyfikacji nazywamy dyskryminacją metodą największej wiarygodności (NW)

52 Klasyfikator bayesowski Jeśli: Obserwacje pochodzą z rozkładów normalnych Takie same macierze kowariancji Równośd π 1 = π 2 = = π g Wtedy reguła Bayesa jest równoważna następującej: Zaklasyfikuj obserwację x do tej klasy k, dla której kwadrat odległości Mahalanobisa ( x m osiąga wartośd minimalną. k ) T 1 ( x m k )

53 Optymalnośd reguły Bayesa Klasyfikator d: d : X {1,2,..., g} wygodnie przedstawid jako wektor (c 1, c 2,, c g ), na który składa się g funkcji wskaźnikowych 1 gdy d( x) c ( x) k 0 gdy d( x) k k

54 Optymalnośd reguły Bayesa Chcemy wiedzied, na ile dobry jest dany klasyfikator, czy istnieje inny, lepszy od niego. Punktem wyjścia jest wprowadzenie pojęcia funkcji straty związanej z zaklasyfikowaniem obserwacji z klasy i do klasy j : L( i, j) 0 1 gdy gdy i i j j

55 Optymalnośd reguły Bayesa L( i, j) 0 1 gdy gdy Funkcja ta implikuje zerowy koszt podjęcia dobrej decyzji oraz jednostkowy koszt błędnej decyzji. Błędna decyzja nie zawsze musi byd tak samo oceniana (np. koszt błędnej diagnozy lekarskiej jest inny jeśli lekarz zdiagnozuje chorobę, której pacjent nie ma, a inny, jeśli nie wykryje choroby, którą pacjent ma) i i j j

56 Optymalnośd reguły Bayesa Ryzyko klasyfikatora d : R(d,k) oczekiwany koszt, gdy prawdziwą klasą jest klasa k (oczekiwana wartośd funkcji straty przy założeniu prawdziwości klasy k ) R( d, k) E [ L( k, d( x)) klasa k] x g L( k, r) P[ d( x) r1 r klasa k] P[ d( x) k klasa k]

57 Optymalnośd reguły Bayesa Ryzyko całkowite (bayesowskie) klasyfikatora d : Otrzymujemy je uznawszy także klasę obserwacji (a nie tylko wartośd tej obserwacji) za losową. R( d) E [ R( d, k)] P[ d( x) k g k1 k k klasa k]

58 Optymalnośd reguły Bayesa Statystyczna teoria decyzji każe szukad klasyfikatorów i estymatorów minimalizujących odpowiednio określone ryzyko całkowite będące wartością oczekiwaną przyjętej funkcji straty.

59 Optymalnośd reguły Bayesa Twierdzenie Reguła Bayesa minimalizuje ryzyko całkowite g k k k k klasa k x P d k d R E d R 1 ] ) ( [ )], ( [ ) ( ) ( max ) ( 0 ) ( max ) ( 1 ) ( * k x p i x p gdy k x p i x p gdy x c k k i k k i i

60 Optymalnośd reguły Bayesa Funkcja straty II L( i, j) 0 1 b gdy gdy gdy j i j i j brak _ decyzji b(0,1)

61 Optymalnośd reguły Bayesa Uogólnienie reguły Bayesa d( x) brak _ k decyzji gdy gdy p( k x) max max lg lg p( l p( l x) x) 1b 1b Twierdzenie: Tak uogólniona reguła Bayesa, uwzględniająca możliwośd braku decyzji, minimalizuje ryzyko całkowite przy funkcji straty II.

62 Optymalnośd reguły Bayesa Funkcja straty III L( i, j) 0 lij b gdy gdy gdy j i j i j brak _ decyzji b(0,1)

63 Optymalnośd reguły Bayesa Uogólnienie (kolejne) reguły Bayesa Twierdzenie: Tak uogólniona reguła Bayesa, uwzględniająca możliwośd braku decyzji, minimalizuje ryzyko całkowite przy funkcji straty III. b x i p l i L gdy decyzji brak b x i p l i L x i p k i L gdy k x d g i G l g i G l g i ) ( ), ( min _ ) ( ), ( min ) ( ), ( ) (

64 Optymalnośd reguły Bayesa Jeśli rozkłady są znane to problem klasyfikacji jest rozwiązany. W praktyce rozkłady są szacowane na podstawie danych uczących i niekoniecznie dostatecznie dobrze przybliżają prawdziwy rozkład stąd otrzymany klasyfikator nie jest optymalny.

65 Klasyfikator bayesowski Przykład Jeżeli rozkłady π k nie są znane, ale próba ucząca jest reprezentatywna, wtedy rozkłady te szacujemy jako równe stosunkowi liczności podpróbki elementów k-tej klasy, n k, do liczności całej próbki uczącej, n=n 1 +n 2 + +n g. ˆk n k n

66 Klasyfikator bayesowski Jeśli zakładamy, że macierze kowariancji w klasach są identyczne, za estymator tej macierzy można przyjąd macierze kowariancji wewnątrzgrupowej W: ˆ W n 1 g g n k k1 i1 ( x ki mˆ k )( x ki mˆ k ) T

67 Klasyfikator bayesowski Jeśli zakładamy, że macierze kowariancji w klasach są różne, za estymator tych macierzy w każdej z klas można przyjąd macierze próbkowe S k : ˆ k S k n k 1 1 n k l1 ( x kl mˆ k )( x kl mˆ k ) T

68 Klasyfikator bayesowski Uwaga! Jeśli próba ucząca nie jest wystarczająco liczna estymatory mogą byd niedokładne. Możemy otrzymad estymatory o dużej wariancji, chod nieobciążone, czyli nieprecyzyjne lub obarczone dużym błędem losowym.

69 Klasyfikator bayesowski Był to przykład estymacji parametrycznej gęstości prawdopodobieostwa zakładana była znana postad rozkładu (np. normalny) lecz nieznane były jego parametry Innym przypadkiem są metody estymacji nieparametrycznej, w których nie zakłada się żadnej postaci funkcji gęstości rozkładu, a jedynie to, że jest to funkcja odpowiednio gładka, np. ma pochodne trzeciego rzędu. Przykładem są estymatory jądrowe.

70 Klasyfikator bayesowski Przypadek estymacji parametrycznego rozkładu normalnego można uogólnid na estymację danego rozkładu za pomocą mieszaniny rozkładów normalnych o znanej liczbie rozkładów składowych (liczba ta w praktyce jest dobierana eksperymentalnie). Np. dla k-tej klasy mamy mieszaninę s k rozkładów normalnych, gdzie p kr to tzw. współczynniki mieszania s k p( x k) p ( x; r1 kr m kr, kr )

71 Klasyfikator bayesowski Mieszaniny tego typu są modelami bardzo ogólnymi mogącymi oddad kształt dowolnej gęstości. Można udowodnid, że dla każdej ciągłej i ograniczonej gęstości istnieje mieszanina gęstości normalnych przybliżająca tę gęstośd z dowolnie dużą dokładnością. W celu oszacowania wartości parametrów stosuje się algorytm EM (ang. Expectation Maximization) estymacja największej wiarygodności.

72 Klasyfikator bayesowski Naiwny Klasyfikator Bayesa Naiwny klasyfikator Bayesa zakłada, że wartości poszczególnych atrybutów są od siebie warunkowo (względem kategorii) niezależne, czyli zachodzi następująca równośd: ) ) ( ) (... ) ( ) ( ( k x d v x a v x a v x a p n n n i i i i i n i k x d v x a p k x d v x a p 1 1 ) ) ( ) ( ( ) ) ( ) ( (

73 Wybór i ocena klasyfikatora Dysponując kilkoma klasyfikatorami bayesowskimi lub innymi musimy je porównad i wybrad najlepszy z nich. Naturalnym sposobem wyboru jest przeanalizowanie prawdopodobieostw dokonania przez klasyfikatory błędnej klasyfikacji nowej, losowej obserwacji. Prawdopodobieostwo błędnej klasyfikacji jest równe oczekiwanemu ułamkowi błędnych klasyfikacji i jest równe ryzyku całkowitemu klasyfikatora przy zero-jedynkowej funkcji straty.

74 Wybór i ocena klasyfikatora Prawdopodobieostwo to szacujemy eksperymentalnie Dane, którymi dysponujemy = Dane uczące + Dane walidacyjne + Dane testowe

75 Wybór i ocena klasyfikatora Dane uczące służą do stworzenia klasyfikatorów Dane walidacyjne służą do wybrania spośród wszystkich klasyfikatorów tego, który ma najmniejszy błąd na tym zbiorze danych walidacyjnych Dane testowe służą do ostatecznego oszacowania błędu wybranego klasyfikatora Aby takie oszacowanie były wiarygodne, próby te muszą byd od siebie niezależne.

76 Wybór i ocena klasyfikatora Przykład: Jeśli do oszacowania błędu klasyfikatora wykorzystamy ten sam zbiór uczący, to oszacowanie będzie obciążone, tzn. w tym przypadku systematycznie zaniżone (zbyt optymistyczny poziom błędu). Estymator jest nieobciążony, jeśli wartośd oczekiwana rozkładu estymatora jest równa wartości szacowanego parametru.

77 Wybór i ocena klasyfikatora Wydzielenie próby walidacyjnej nie jest potrzebne, jeśli trenujemy jedynie jeden klasyfikator. Próba walidacyjna może byd użyta w momencie podejmowania decyzji o zakooczeniu nauki np. sieci neuronowej. Jeśli błąd przestaje się zmniejszad na próbie walidacyjnej, uczenie zostaje zatrzymane.

78 Wybór i ocena klasyfikatora Proporcje podziału dostępnych danych na uczące, walidacyjne i testowe: np. 50% + 25% + 25% lub 60% + 20% + 20%

79 Wybór i ocena klasyfikatora Czasami (np. jeśli próba jest zbyt mała) nie można sobie pozwolid na podział danych na trzy części. Należy wtedy wielokrotnie wykorzystad zbiór uczący, lecz w odpowiedni sposób, tak by obciążenie oszacowania było jak najmniejsze.

80 Wybór i ocena klasyfikatora KROSWALIDACJA (sprawdzanie krzyżowe) Próba ucząca zostaje podzielona na K (np. 5) możliwie równych części (K-krotna kroswalidacja). Tworzy się K różnych pseudoprób poprzez usuwanie z próby oryginalnej kolejno części 1,,K Klasyfikator jest konstruowany K-krotnie, za każdym razem na podstawie innej pseudopróby Każda wersja klasyfikatora jest oceniana przez sprawdzenie liczby błędnych klasyfikacji na tej części oryginalnych danych, która nie weszła do pseudopróby uczącej tego klasyfikatora

81 Wybór i ocena klasyfikatora KROSWALIDACJA (sprawdzanie krzyżowe) Sumaryczna liczba błędów klasyfikacji dla wszystkich K wersji klasyfikatora podzielona przez licznośd oryginalnej próby uczącej, daje kroswalidacyjne oszacowanie prawdopodobieostwa dokonania błędnej klasyfikacji przez dany klasyfikator (dany typ klasyfikatora np. sied neuronową o zadanej liczbie warstw i neuronów).

82 Wybór i ocena klasyfikatora Kroswalidacja jest kosztowna obliczeniowo. Po wybraniu klasyfikatora metodą kroswalidacji, konstruuje się go raz jeszcze ale tym razem na podstawie całej próby uczącej. Zwykle przyjmuje się K równe 5 lub 10. Jeśli przyjmiemy n-krotną kroswalidację (n rozmiar danych) to mówimy o metodzie leave-one-out crossvalidation każda pseudopróba powstaje przez usunięcie tylko jednego przykładu uczącego.

83 Wybór i ocena klasyfikatora Powstałe oszacowanie kroswalidacyjne jest prawie nieobciążone tzn. jest nieobciążone, ale dla klasyfikatora powstałego na podstawie próby o liczności mniejszej niż interesująca nas licznośd n. (Obciążenie to jest najmniejsze dla kroswalidacji n-krotnej.) Można wykazad, że jest to jednocześnie estymator o największej wariancji Wariancja estymatora jest tym mniejsza im mniejsze jest K

84 Wybór i ocena klasyfikatora Wymaganie jednoczesnej minimalizacji obciążenia oraz wariancji jest niemożliwe do spełnienia.

85 Wybór i ocena klasyfikatora Metoda BOOTSTRAP Jest to inna metoda wielokrotnego wykorzystania elementów tej samej próby uczącej do konstrukcji wielu wersji tego samego klasyfikatora Polega na dokonaniu wielokrotnego repróbkowania elementów z tej samej oryginalnej próby uczącej Repróbkowanie oznacza losowanie ze zwracaniem z oryginalnej próby uczącej (o liczności n).

86 Wybór i ocena klasyfikatora Metoda BOOTSTRAP Średnio 1/3 (dokładniej 0.368) próby oryginalnej nie zostanie wylosowana do danej pseudopróby (1 1/n) n to w przybliżeniu e -1 = Na podstawie kolejnych n-elementowych pseudoprób konstruuje się kolejne wersje klasyfikatora Dla każdego elementu oryginalnej próby uczącej oblicza się ułamek błędnych zaklasyfikowao tego elementu przez te wersje klasyfikatora, w których budowie nie brał udziału ów element

87 Wybór i ocena klasyfikatora Metoda BOOTSTRAP Oblicza się średnią wartośd ułamków otrzymanych dla wszystkich n elementów oryginalnej próby uczącej. Ta średnia wartośd jest przybliżeniem szukanego estymatora prawdopodobieostwa błędnego zaklasyfikowania nowej obserwacji. Oznaczenie: error boot

88 Wybór i ocena klasyfikatora Metoda BOOTSTRAP Estymator ten jest zbyt pesymistyczny jego obciążenie systematycznie zawyża otrzymywane oszacowanie prawdopodobieostwa błędnej klasyfikacji.

89 KOREKCJA Wybór i ocena klasyfikatora Konstruujemy kolejny estymator oparty na uśrednieniu ułamka błędnych klasyfikacji otrzymanych dla wszystkich (bootstrapowych) wersji danego klasyfikatora, gdy dla każdej wersji jej zdolnośd poprawnej klasyfikacji sprawdzana jest na wszystkich elementach oryginalnej próby uczącej. Jest to estymator zbyt optymistyczny jego obciążenie jest ujemne. Oznaczenie: error boot-opt

90 Wybór i ocena klasyfikatora Ostatecznie można stworzyd estymator postaci: error boot error boot-opt Estymator ten jest zwany estymatorem boostrap 0.632

91 Wybór i ocena klasyfikatora Ocena klasyfikatora przez powtórne podstawienie ma sens jeśli metoda dyskryminacji z góry zakłada prostą (np. liniową) postad hiperpowierzchni dyskryminacyjnej, dając pewnośd, że nie powstanie nadmierne dopasowanie się tej hiperpowierzchni do losowej próby uczącej.

92 Wybór i ocena klasyfikatora Wszystkie powyższe uwagi odnoszą się do sytuacji, gdy rozkłady danych w klasach nie są znane. Jeśli rozkłady są znane (z dokładnością do pewnej liczby nieznanych parametrów) problem sprowadza się do estymacji tych rozkładów i zastosowania dyskryminacji bayesowskiej. Jednak czasami warto nieznane parametry rozkładów szacowad z wykorzystaniem opisanych metod.

93 Przykład testy medyczne Koszt błędnej klasyfikacji czasami zależy od tego, do jakiej klasy naprawdę należy dana obserwacja. Tak jest w przypadku diagnozowania chorób. Test diagnostyczny daje wynik dodatni (pozytywny) choroba jest zdiagnozowana Test diagnostyczny daje wynik ujemny (negatywny) choroba nie jest zdiagnozowana

94 Przykład testy medyczne Lepiej jest fałszywie wykryd nieistniejącą chorobę niż błędnie zdiagnozowad brak choroby. Test diagnostyczny jest w tym przypadku rodzajem klasyfikatora w problemie klasyfikacji z dwoma klasami.

95 Przykład testy medyczne Osoba klasyfikowana jako zdrowa Osoba klasyfikowana jako chora Osoba zdrowa TN FP Osoba chora FN TP TN true negatives liczba przypadków, w których test dał poprawnie wyniki ujemny TP true positives - liczba przypadków, w których test dał poprawnie wyniki dodatni FP false positives - liczba przypadków, w których test dał niepoprawnie wyniki dodatni FN false negatives - liczba przypadków, w których test dał niepoprawnie wyniki ujemny

96 Przykład testy medyczne Osoba klasyfikowana jako zdrowa Osoba klasyfikowana jako chora Osoba zdrowa Osoba chora 3 97 TN true negatives liczba przypadków, w których test dał poprawnie wyniki ujemny TP true positives - liczba przypadków, w których test dał poprawnie wyniki dodatni FP false positives - liczba przypadków, w których test dał niepoprawnie wyniki dodatni FN false negatives - liczba przypadków, w których test dał niepoprawnie wyniki ujemny

97 Przykład testy medyczne Osoba klasyfikowana jako zdrowa Osoba klasyfikowana jako chora Osoba zdrowa Osoba chora 3 97 Oszacowanie prawdopodobieostwa błędnej klasyfikacji: FP FN TN FP FN TP

98 Przykład testy medyczne To oszacowanie odnosi się do sumy błędów, a nie oddzielnie do każdego z dwóch typów błędów. Dlatego wprowadza się pojęcia czułości i specyficzności testu. TP TP FN Czułośd oszacowanie prawdopodobieostwa przewidzenia przez test choroby po warunkiem, że pacjent jest na nią chory. TN TN FP 1 FP TN FP Specyficznośd oszacowanie prawdopodobieostwa przewidzenia przez test braku choroby po warunkiem, że pacjent jest zdrowy. 1 - Specyficznośd oszacowanie prawdopodobieostwa błędu przewidzenia przez test choroby po warunkiem, że pacjent jest zdrowy (fałszywy wynik dodatni).

99 Przykład testy medyczne Podobna sytuacja ma miejsce gdy klasyfikator ma za zadanie stwierdzid, czy dany moduł urządzenia działa poprawnie, czy też nie. Chcemy by klasyfikator był czuły a jednocześnie nie wywoływał fałszywych alarmów (duża specyficznośd) Podobnie jest w problemie uznawania kredytobiorcy za godnego zaufania lub nie.

100 Czułośd a specyficznośd Czułośd i specyficznośd są wymaganiami przeciwstawnymi - zwiększenie jednego prowadzi do zmniejszenia drugiego. Dlatego często konstruuje się nie jeden klasyfikator, ale wiele klasyfikatorów, z których każdy odpowiada innej parze kosztów błędnej klasyfikacji Następnie, na podstawie analizy czułości i specyficzności, wybieramy spośród nich klasyfikator zapewniający najlepszy kompromis między obydwoma wymaganiami.

101 Przykład testy medyczne Przykład W danym problemie z dwoma klasami porównamy dwie rodziny klasyfikatorów bayesowskich. Np. zakładamy rozkład normalny, ale w pierwszym przypadku zakładamy równośd macierzy kowariancji w obu klasach, w drugim przypadku nie ma tego założenia. Oznaczamy: 1 klasa osób zdrowych 2 klasa osób chorych

102 Przykład testy medyczne Przykład Zakładamy l 21 koszt błędu stały równy 1 l 12 > 0 koszt błędu zmienny w celu porównania czułości i specyficzności Zmieniając wartośd kosztu l 12, otrzymujemy rodzinę klasyfikatorów wybranego typu.

103 Przykład testy medyczne Przykład W przypadku dwóch klas klasyfikator bayesowski klasyfikuje obserwację x do klasy 2, gdy l21p( 2 x) l12(1 p(2 x)) czyli gdy p(2 x) l 12 l 12 l 21

104 Przykład testy medyczne Bliski zera koszt l 12 sprawia, że obserwacje są klasyfikowane do klasy 2 już dla bliskich zera wartości prawdopodobieostwa p(2 x). Taki klasyfikator jest bardzo czuły, jednak jego specyficznośd musi byd bliska zeru.

105 Przykład testy medyczne Sumarycznej informacji o zachowaniu się danego typu klasyfikatora przy zmiennych kosztach błędnych decyzji daje krzywa operacyjno-charakterystyczna odbiornika (krzywa ROC ang. receiver operating characteristic curve) Krzywa ROC to miejsce geometryczne punktów na płaszczyźnie o współrzędnych (1-specyficznośd, czułośd)

106 Przykład testy medyczne Który typ klasyfikatora jest lepszy (czerwony czy zielony)?

107 Przykład testy medyczne Który typ klasyfikatora jest lepszy (czerwony czy zielony)? Typ klasyfikatora czerwony jest lepszy w tym sensie, że podczas zwiększania specyficzności, czułośd dłużej utrzymuje się na wysokim poziomie.

108 Przykład testy medyczne Sytuacja idealna czułośd 1 dla specyficzności 1

109 Przykład testy medyczne AUC Area under Curve Pole powierzchni pod krzywą ROC może służyc jako kryterium do porównania typów klasyfikatorów (ich rodzin), bez ustalania wartości pewnych ich parametrów. - Preferowane są klasyfikatory o jak największym AUC - Maksymalna wartośd AUC to 1 (klasyfikator idealny: maksymalna czułośd i zero fałszywych alarmów) - Wartośd AUC poniżej 0.5 wskazuje na bardzo słaby klasyfikator (dany typ klasyfikatora nie radzi sobie z problemem). Lepsze wyniki dostajemy wtedy odwracając decyzje tego klasyfikatora, wtedy, jeśli AUC < 0.5 to AUC = 1 AUC > 0.5

110 Przykład testy medyczne Koniec

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 5 Kwadratowa analiza dyskryminacyjna QDA. Metody klasyfikacji oparte na rozkładach prawdopodobieństwa.

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 5 Kwadratowa analiza dyskryminacyjna QDA. Metody klasyfikacji oparte na rozkładach prawdopodobieństwa. Wykład 5 Kwadratowa analiza dyskryminacyjna QDA. Metody klasyfikacji oparte na rozkładach prawdopodobieństwa. Kwadratowa analiza dyskryminacyjna Przykład analizy QDA Czasem nie jest możliwe rozdzielenie

Bardziej szczegółowo

Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki

Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki Rozpoznawanie wzorców Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki mbereta@pk.edu.pl beretam@torus.uck.pk.edu.pl www.michalbereta.pl Twierzdzenie: Prawdopodobieostwo, że n obserwacji wybranych

Bardziej szczegółowo

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów

Bardziej szczegółowo

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta Stan dotychczasowy OCENA KLASYFIKACJI w diagnostyce Wybraliśmy metodę uczenia maszynowego (np. sieć neuronowa lub drzewo decyzyjne), która będzie klasyfikować nieznane przypadki Na podzbiorze dostępnych

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 2 autorzy: A. Gonczarek, J.M. Tomczak Metody estymacji Zad. 1 Pojawianie się spamu opisane jest zmienną losową x o rozkładzie dwupunktowym

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA Jan Mielniczuk Wisła, grudzień 2009 PLAN Błędy predykcji i ich podstawowe estymatory Estymacja błędu predykcji w modelu liniowym. Funkcje kryterialne Własności

Bardziej szczegółowo

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość Idea Niech θ oznacza parametr modelu statystycznego. Dotychczasowe rozważania dotyczyły metod estymacji tego parametru. Teraz zamiast szacować nieznaną wartość parametru będziemy weryfikowali hipotezę

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl

Bardziej szczegółowo

Elementy modelowania matematycznego

Elementy modelowania matematycznego Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

5. Analiza dyskryminacyjna: FLD, LDA, QDA

5. Analiza dyskryminacyjna: FLD, LDA, QDA Algorytmy rozpoznawania obrazów 5. Analiza dyskryminacyjna: FLD, LDA, QDA dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Liniowe funkcje dyskryminacyjne Liniowe funkcje dyskryminacyjne mają ogólną

Bardziej szczegółowo

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną

Bardziej szczegółowo

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1 Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie

Bardziej szczegółowo

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18 Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 3 Metody estymacji. Estymator największej wiarygodności Zad. 1 Pojawianie się spamu opisane jest zmienną losową y o rozkładzie zero-jedynkowym

Bardziej szczegółowo

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 9 i 10 1 / 30 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Bardziej szczegółowo

9. Praktyczna ocena jakości klasyfikacji

9. Praktyczna ocena jakości klasyfikacji Algorytmy rozpoznawania obrazów 9. Praktyczna ocena jakości klasyfikacji dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Zbiór uczacy i zbiór testowy 1. Zbiór uczacy służy do konstrukcji (treningu)

Bardziej szczegółowo

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych Statystyka matematyczna. Wykład IV. e-mail:e.kozlovski@pollub.pl Spis treści 1 2 3 Definicja 1 Hipoteza statystyczna jest to przypuszczenie dotyczące rozkładu (wielkości parametru lub rodzaju) zmiennej

Bardziej szczegółowo

Klasyfikacja LDA + walidacja

Klasyfikacja LDA + walidacja Klasyfikacja LDA + walidacja Dr hab. Izabela Rejer Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Plan wykładu 1. Klasyfikator 2. LDA 3. Klasyfikacja wieloklasowa 4. Walidacja

Bardziej szczegółowo

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu, z którego pochodzi próbka. Hipotezy dzielimy na parametryczne i nieparametryczne. Parametrycznymi

Bardziej szczegółowo

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,

Bardziej szczegółowo

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński Mikroekonometria 5 Mikołaj Czajkowski Wiktor Budziński Zadanie 1. Wykorzystując dane me.medexp3.dta przygotuj model regresji kwantylowej 1. Przygotuj model regresji kwantylowej w którym logarytm wydatków

Bardziej szczegółowo

Własności statystyczne regresji liniowej. Wykład 4

Własności statystyczne regresji liniowej. Wykład 4 Własności statystyczne regresji liniowej Wykład 4 Plan Własności zmiennych losowych Normalna regresja liniowa Własności regresji liniowej Literatura B. Hansen (2017+) Econometrics, Rozdział 5 Własności

Bardziej szczegółowo

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Stanisław Cichocki Natalia Nehrebecka. Wykład 7 Stanisław Cichocki Natalia Nehrebecka Wykład 7 1 1. Metoda Największej Wiarygodności MNW 2. Założenia MNW 3. Własności estymatorów MNW 4. Testowanie hipotez w MNW 2 1. Metoda Największej Wiarygodności

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Statystyka Wykład 10 Wrocław, 22 grudnia 2011 Testowanie hipotez statystycznych Definicja. Hipotezą statystyczną nazywamy stwierdzenie dotyczące parametrów populacji. Definicja. Dwie komplementarne w problemie

Bardziej szczegółowo

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization Wrocław University of Technology SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization Jakub M. Tomczak Studenckie Koło Naukowe Estymator jakub.tomczak@pwr.wroc.pl 4.1.213 Klasteryzacja Zmienne

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych Agenda Instytut Matematyki Politechniki Łódzkiej 2 stycznia 2012 Agenda Agenda 1 Wprowadzenie Agenda 2 Hipoteza oraz błędy I i II rodzaju Hipoteza alternatywna Statystyka testowa Zbiór krytyczny Poziom

Bardziej szczegółowo

Rozpoznawanie obrazów

Rozpoznawanie obrazów Rozpoznawanie obrazów Ćwiczenia lista zadań nr 5 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie

Bardziej szczegółowo

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018 Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład II bogumil.konopka@pwr.edu.pl 2017/2018 Określenie rzeczywistej dokładności modelu Zbiór treningowym vs zbiór testowy Zbiór treningowy

Bardziej szczegółowo

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne Wprowadzenie Prostym podejściem do klasyfikacji jest estymacja funkcji regresji r(x) =E(Y X =x)zpominięciemestymacjigęstościf k. Zacznijmyodprzypadkudwóchgrup,tj.gdy Y = {1,0}. Wówczasr(x) =P(Y =1 X =x)ipouzyskaniuestymatora

Bardziej szczegółowo

Jakość uczenia i generalizacja

Jakość uczenia i generalizacja Jakość uczenia i generalizacja Dokładność uczenia Jest koncepcją miary w jakim stopniu nasza sieć nauczyła się rozwiązywać określone zadanie Dokładność mówi na ile nauczyliśmy się rozwiązywać zadania które

Bardziej szczegółowo

Wnioskowanie bayesowskie

Wnioskowanie bayesowskie Wnioskowanie bayesowskie W podejściu klasycznym wnioskowanie statystyczne oparte jest wyłącznie na podstawie pobranej próby losowej. Możemy np. estymować punktowo lub przedziałowo nieznane parametry rozkładów,

Bardziej szczegółowo

STATYSTYKA

STATYSTYKA Wykład 1 20.02.2008r. 1. ROZKŁADY PRAWDOPODOBIEŃSTWA 1.1 Rozkład dwumianowy Rozkład dwumianowy, 0 1 Uwaga: 1, rozkład zero jedynkowy. 1 ; 1,2,, Fakt: Niech,, będą niezależnymi zmiennymi losowymi o jednakowym

Bardziej szczegółowo

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/ Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/ Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Głęboka 28, bud. CIW, p. 221 e-mail: zdzislaw.otachel@up.lublin.pl

Bardziej szczegółowo

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Wprowadzenie do teorii ekonometrii Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Zajęcia Wykład Laboratorium komputerowe 2 Zaliczenie EGZAMIN (50%) Na egzaminie obowiązują wszystkie informacje

Bardziej szczegółowo

Ocena dokładności diagnozy

Ocena dokładności diagnozy Ocena dokładności diagnozy Diagnoza medyczna, w wielu przypadkach może być interpretowana jako działanie polegające na podjęciu jednej z dwóch decyzji odnośnie stanu zdrowotnego pacjenta: 0 pacjent zdrowy

Bardziej szczegółowo

Rozpoznawanie obrazów

Rozpoznawanie obrazów Rozpoznawanie obrazów Ćwiczenia lista zadań nr 7 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych Testowanie hipotez statystycznych Przypuśdmy, że mamy do czynienia z następującą sytuacją: nieznany jest rozkład F rządzący pewnym zjawiskiem losowym. Dysponujemy konkretną próbą losową ( x1, x2,..., xn

Bardziej szczegółowo

Wprowadzenie. Data Science Uczenie się pod nadzorem

Wprowadzenie. Data Science Uczenie się pod nadzorem Wprowadzenie Wprowadzenie Wprowadzenie Wprowadzenie Machine Learning Mind Map Historia Wstęp lub uczenie się z przykładów jest procesem budowy, na bazie dostępnych danych wejściowych X i oraz wyjściowych

Bardziej szczegółowo

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017 Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład III bogumil.konopka@pwr.edu.pl 2016/2017 Wykład III - plan Regresja logistyczna Ocena skuteczności klasyfikacji Macierze pomyłek Krzywe

Bardziej szczegółowo

Natalia Neherbecka. 11 czerwca 2010

Natalia Neherbecka. 11 czerwca 2010 Natalia Neherbecka 11 czerwca 2010 1 1. Konsekwencje heteroskedastyczności i autokorelacji 2. Uogólniona MNK 3. Stosowalna Uogólniona MNK 4. Odporne macierze wariancji i kowariancji b 2 1. Konsekwencje

Bardziej szczegółowo

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty

Bardziej szczegółowo

Metody probabilistyczne

Metody probabilistyczne Metody probabilistyczne 13. Elementy statystki matematycznej I Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 17.01.2019 1 / 30 Zagadnienia statystki Przeprowadzamy

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych 9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :

Bardziej szczegółowo

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =. Prawdopodobieństwo i statystyka 3..00 r. Zadanie Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX 4 i EY 6. Rozważamy zmienną losową Z. X + Y Wtedy (A) EZ 0,

Bardziej szczegółowo

Statystyka Matematyczna Anna Janicka

Statystyka Matematyczna Anna Janicka Statystyka Matematyczna Anna Janicka wykład IX, 25.04.2016 TESTOWANIE HIPOTEZ STATYSTYCZNYCH Plan na dzisiaj 1. Hipoteza statystyczna 2. Test statystyczny 3. Błędy I-go i II-go rodzaju 4. Poziom istotności,

Bardziej szczegółowo

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L, Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której

Bardziej szczegółowo

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11 Modele DSGE Jerzy Mycielski Maj 2008 Jerzy Mycielski () Modele DSGE Maj 2008 1 / 11 Modele DSGE DSGE - Dynamiczne, stochastyczne modele równowagi ogólnej (Dynamic Stochastic General Equilibrium Model)

Bardziej szczegółowo

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej

Bardziej szczegółowo

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap Magdalena Frąszczak Wrocław, 21.02.2018r Tematyka Wykładów: Próba i populacja. Estymacja parametrów z wykorzystaniem metody

Bardziej szczegółowo

Elementy statystyki wielowymiarowej

Elementy statystyki wielowymiarowej Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych

Bardziej szczegółowo

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH Wykład 3 Liniowe metody klasyfikacji. Wprowadzenie do klasyfikacji pod nadzorem. Fisherowska dyskryminacja liniowa. Wprowadzenie do klasyfikacji pod nadzorem. Klasyfikacja pod nadzorem Klasyfikacja jest

Bardziej szczegółowo

Metoda największej wiarygodności

Metoda największej wiarygodności Metoda największej wiarygodności Próbki w obecności tła Funkcja wiarygodności Iloraz wiarygodności Pomiary o różnej dokładności Obciążenie Informacja z próby i nierówność informacyjna Wariancja minimalna

Bardziej szczegółowo

Pracownia Astronomiczna. Zapisywanie wyników pomiarów i niepewności Cyfry znaczące i zaokrąglanie Przenoszenie błędu

Pracownia Astronomiczna. Zapisywanie wyników pomiarów i niepewności Cyfry znaczące i zaokrąglanie Przenoszenie błędu Pracownia Astronomiczna Zapisywanie wyników pomiarów i niepewności Cyfry znaczące i zaokrąglanie Przenoszenie błędu Każdy pomiar obarczony jest błędami Przyczyny ograniczeo w pomiarach: Ograniczenia instrumentalne

Bardziej szczegółowo

Estymacja parametrów w modelu normalnym

Estymacja parametrów w modelu normalnym Estymacja parametrów w modelu normalnym dr Mariusz Grządziel 6 kwietnia 2009 Model normalny Przez model normalny będziemy rozumieć rodzine rozkładów normalnych N(µ, σ), µ R, σ > 0. Z Centralnego Twierdzenia

Bardziej szczegółowo

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotności, p-wartość i moc testu Wrocław, 01.03.2017r Przykład 2.1 Właściciel firmy produkującej telefony komórkowe twierdzi, że wśród jego produktów

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta

Bardziej szczegółowo

Prawdopodobieństwo i rozkład normalny cd.

Prawdopodobieństwo i rozkład normalny cd. # # Prawdopodobieństwo i rozkład normalny cd. Michał Daszykowski, Ivana Stanimirova Instytut Chemii Uniwersytet Śląski w Katowicach Ul. Szkolna 9 40-006 Katowice E-mail: www: mdaszyk@us.edu.pl istanimi@us.edu.pl

Bardziej szczegółowo

PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO czȩść II

PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO czȩść II PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO czȩść II Szkic wykładu 1 Wprowadzenie 2 3 4 5 Weryfikacja hipotez statystycznych Obok estymacji drugim działem wnioskowania statystycznego jest weryfikacja hipotez

Bardziej szczegółowo

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek Cel projektu Celem projektu jest przygotowanie systemu wnioskowania, wykorzystującego wybrane algorytmy sztucznej inteligencji; Nabycie

Bardziej szczegółowo

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 7 i 8 1 / 9 EFEKTYWNOŚĆ ESTYMATORÓW, próba

Bardziej szczegółowo

Prawdopodobieństwo czerwonych = = 0.33

Prawdopodobieństwo czerwonych = = 0.33 Temat zajęć: Naiwny klasyfikator Bayesa a algorytm KNN Część I: Naiwny klasyfikator Bayesa Naiwny klasyfikator bayerowski jest prostym probabilistycznym klasyfikatorem. Naiwne klasyfikatory bayesowskie

Bardziej szczegółowo

10/15/2016. Reguła. Czułość PV(+) Bayesa. Swoistość PV(-)

10/15/2016. Reguła. Czułość PV(+) Bayesa. Swoistość PV(-) A=symptom B= choroba Czułość Swoistość A ~ A ~ Reguła Bayesa ~ B ~ A) PV(+) PV(-) 1 / 2016_10_13 PV ( ) A PV ( ) A A ~ ~ sensitivity * PV ( ) sensitivity * (1 specificity)(1- ) specificity *(1- ) specificity

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010 STATYSTYKA MATEMATYCZNA WYKŁAD 14 18 stycznia 2010 Model statystyczny ROZKŁAD DWUMIANOWY ( ) {0, 1,, n}, {P θ, θ (0, 1)}, n ustalone P θ {K = k} = ( ) n θ k (1 θ) n k, k k = 0, 1,, n Geneza: Rozkład Bernoulliego

Bardziej szczegółowo

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu Wykład 11-12 Centralne twierdzenie graniczne Statystyka matematyczna: Estymacja parametrów rozkładu Centralne twierdzenie graniczne (CTG) (Central Limit Theorem - CLT) Centralne twierdzenie graniczne (Lindenberga-Levy'ego)

Bardziej szczegółowo

Wprowadzenie. Metody bayesowskie Drzewa klasyfikacyjne i lasy losowe Sieci neuronowe SVM. Klasyfikacja. Wstęp

Wprowadzenie. Metody bayesowskie Drzewa klasyfikacyjne i lasy losowe Sieci neuronowe SVM. Klasyfikacja. Wstęp Wstęp Problem uczenia się pod nadzorem, inaczej nazywany uczeniem się z nauczycielem lub uczeniem się na przykładach, sprowadza się do określenia przydziału obiektów opisanych za pomocą wartości wielu

Bardziej szczegółowo

Indukowane Reguły Decyzyjne I. Wykład 8

Indukowane Reguły Decyzyjne I. Wykład 8 Indukowane Reguły Decyzyjne I Wykład 8 IRD Wykład 8 Plan Powtórka Krzywa ROC = Receiver Operating Characteristic Wybór modelu Statystyka AUC ROC = pole pod krzywą ROC Wybór punktu odcięcia Reguły decyzyjne

Bardziej szczegółowo

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI WERYFIKACJA HIPOTEZ Hipoteza statystyczna jakiekolwiek przypuszczenie dotyczące populacji generalnej- jej poszczególnych

Bardziej szczegółowo

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( ) Statystyka Rozkład prawdopodobieństwa Testowanie hipotez Wykład III (04.01.2016) Rozkład t-studenta Rozkład T jest rozkładem pomocniczym we wnioskowaniu statystycznym; stosuje się go wyznaczenia przedziału

Bardziej szczegółowo

2. Empiryczna wersja klasyfikatora bayesowskiego

2. Empiryczna wersja klasyfikatora bayesowskiego Algorytmy rozpoznawania obrazów 2. Empiryczna wersja klasyfikatora bayesowskiego dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Brak pełnej informacji probabilistycznej Klasyfikator bayesowski

Bardziej szczegółowo

Ważne rozkłady i twierdzenia c.d.

Ważne rozkłady i twierdzenia c.d. Ważne rozkłady i twierdzenia c.d. Funkcja charakterystyczna rozkładu Wielowymiarowy rozkład normalny Elipsa kowariacji Sploty rozkładów Rozkłady jednostajne Sploty z rozkładem normalnym Pobieranie próby

Bardziej szczegółowo

KORELACJE I REGRESJA LINIOWA

KORELACJE I REGRESJA LINIOWA KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem

Bardziej szczegółowo

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zad. 1 Średnia ocen z semestru letniego w populacji studentów socjologii w roku akademickim 2011/2012

Bardziej szczegółowo

Systemy uczące się wykład 2

Systemy uczące się wykład 2 Systemy uczące się wykład 2 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 19 X 2018 Podstawowe definicje Fakt; Przesłanka; Konkluzja; Reguła; Wnioskowanie. Typy wnioskowania

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

1 Klasyfikator bayesowski

1 Klasyfikator bayesowski Klasyfikator bayesowski Załóżmy, że dane są prawdopodobieństwa przynależności do klasp( ),P( 2 ),...,P( L ) przykładów z pewnego zadania klasyfikacji, jak również gęstości rozkładów prawdopodobieństw wystąpienia

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 2 autorzy: A. Gonczarek, J.M. Tomczak Metody estymacji ML Zad. 1 Pojawianie się spamu opisane jest zmienną losową x o rozkładzie dwupunktowym

Bardziej szczegółowo

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28 Statystyka #5 Testowanie hipotez statystycznych Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik rok akademicki 2016/2017 1 / 28 Testowanie hipotez statystycznych 2 / 28 Testowanie hipotez statystycznych

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X. STATYSTYKA MATEMATYCZNA WYKŁAD 4 WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X. Wysuwamy hipotezy: zerową (podstawową H ( θ = θ i alternatywną H, która ma jedną z

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów STATYSTYKA MATEMATYCZNA WYKŁAD 4 Testowanie hipotez Estymacja parametrów WSTĘP 1. Testowanie hipotez Błędy związane z testowaniem hipotez Etapy testowana hipotez Testowanie wielokrotne 2. Estymacja parametrów

Bardziej szczegółowo

Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji

Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji Wykład 11. Metoda najmniejszych kwadratów Szukamy zależności Dane są wyniki pomiarów dwóch wielkości x i y: (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ). Przypuśćmy, że nanieśliśmy je na wykres w układzie

Bardziej szczegółowo

Komputerowa analiza danych doświadczalnych

Komputerowa analiza danych doświadczalnych Komputerowa analiza danych doświadczalnych Wykład 9 27.04.2018 dr inż. Łukasz Graczykowski lukasz.graczykowski@pw.edu.pl Semestr letni 2017/2018 Metoda największej wiarygodności ierównosć informacyjna

Bardziej szczegółowo

KADD Minimalizacja funkcji

KADD Minimalizacja funkcji Minimalizacja funkcji n-wymiarowych Forma kwadratowa w n wymiarach Procedury minimalizacji Minimalizacja wzdłuż prostej w n-wymiarowej przestrzeni Metody minimalizacji wzdłuż osi współrzędnych wzdłuż kierunków

Bardziej szczegółowo

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd. Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru

Bardziej szczegółowo

Prawdopodobieństwo i statystyka r.

Prawdopodobieństwo i statystyka r. Zadanie. Niech (X, Y) ) będzie dwuwymiarową zmienną losową, o wartości oczekiwanej (μ, μ, wariancji każdej ze współrzędnych równej σ oraz kowariancji równej X Y ρσ. Staramy się obserwować niezależne realizacje

Bardziej szczegółowo

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re Wykład 4 Wybór najlepszej procedury. Estymacja parametrów regresji z wykorzystaniem metody bootstrap. Wrocław, 22.03.2017r Wybór najlepszej procedury - podsumowanie Co nas interesuje przed przeprowadzeniem

Bardziej szczegółowo

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15 VI WYKŁAD STATYSTYKA 9/04/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 6 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI Weryfikacja hipotez ( błędy I i II rodzaju, poziom istotności, zasady

Bardziej szczegółowo

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa Weryfikacja hipotez statystycznych Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o prawdziwości lub fałszywości którego wnioskuje się na podstawie

Bardziej szczegółowo

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska Anna Stankiewicz Izabela Słomska Wstęp- statystyka w politologii Rzadkie stosowanie narzędzi statystycznych Pisma Karla Poppera

Bardziej szczegółowo

Monte Carlo, bootstrap, jacknife

Monte Carlo, bootstrap, jacknife Monte Carlo, bootstrap, jacknife Literatura Bruce Hansen (2012 +) Econometrics, ze strony internetowej: http://www.ssc.wisc.edu/~bhansen/econometrics/ Monte Carlo: rozdział 8.8, 8.9 Bootstrap: rozdział

Bardziej szczegółowo

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla Bogumiła Koprowska Elżbieta Kukla 1 Wstęp Czym są efekty losowe? Przykłady Model mieszany 2 Estymacja Jednokierunkowa klasyfikacja (ANOVA) Metoda największej wiarogodności (ML) Metoda największej wiarogodności

Bardziej szczegółowo

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1. Opracowała: Joanna Kisielińska ZMIENNE LOSOWE Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R tzn. X: R. Realizacją zmiennej losowej

Bardziej szczegółowo

Baza dla predykcji medycznej

Baza dla predykcji medycznej 1 rof. Danuta Makowiec Instytut Fizyki Teoretycznej i Astrofizyki UG Kontakt: pok. 353 tel.: 58 523 2466 e-mail danuta.makowiec at gmail.com http://www.fizdm.strony.ug.edu.pl/me/biostatystyka.html Reguła

Bardziej szczegółowo

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne Wykład 4 Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym 2. Rozkłady próbkowe 3. Centralne twierdzenie graniczne Przybliżenie rozkładu dwumianowego rozkładem normalnym Niech Y ma rozkład

Bardziej szczegółowo

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4. Testowanie hipotez Niech X = (X 1... X n ) będzie próbą losową na przestrzeni X zaś P = {P θ θ Θ} rodziną rozkładów prawdopodobieństwa określonych na przestrzeni próby X. Definicja 1. Hipotezą zerową Θ

Bardziej szczegółowo

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI WERYFIKACJA HIPOTEZ Hipoteza statystyczna jakiekolwiek przypuszczenie dotyczące populacji generalnej- jej poszczególnych

Bardziej szczegółowo