Klasyfikacja i dyskrymiancja - Statystyka w SAS

Wielkość: px
Rozpocząć pokaz od strony:

Download "Klasyfikacja i dyskrymiancja - Statystyka w SAS"

Transkrypt

1 Klasyfikacja i dyskrymiancja - Statystyka w SAS Agnieszka Gołota, Paweł Grabowski Dariusz Bełczowski, Paweł Cejrowski Politechnika Gdańska Wydział Fizyki Technicznej i Matematyki Stosowanej

2 Pojęcie klasyfikacji i dyskryminacji Pojęcie klasyfikacji i dyskryminacji Cele użycia dyskryminacji klasyfikacji Klasyfikacja i dyskryminacja dla dwóch populacji Definicja Dyskryminacja i klasyfikacja są wielowymiarowymi metodami zajmującymi się rozdzieleniem odrębnych zbiorów obiektów (lub obserwacji) oraz przydzieleniem nowych obiektów (obserwacji) do wcześniej zdefiniowanych zbiorów (grup). Analiza dyskryminacyjna (jako procedura rozdzielająca) jest często wykorzystywana w celu zbadania obserwowanych różnic (kiedy zwyczajne relacje nie są dobrze znane). Procedury klasyfikacji prowadzą natomiast do dobrze zdefiniowanych reguł, które mogą być wykorzystywane do przydzielenia nowego obiektu do danego zbioru.

3 Cele użycia dyskryminacji klasyfikacji Pojęcie klasyfikacji i dyskryminacji Cele użycia dyskryminacji klasyfikacji Klasyfikacja i dyskryminacja dla dwóch populacji Główne cele wykorzystania dyskryminacji i klasyfikacji: 1. (dyskriminacja) Do opisu zarówno graficznego (w trzech lub mniej wymiarach) jak i algebraicznego, różniących cech obiektów (obserwacji) z kilku znanych zbiorów (populacji). Staramy się znaleźć wyróżniki, których wartości liczbowe pozwalają rozdzielić zbiory tak bardzo jak to jest możliwe. 2. (klasyfikacja) Aby posortować obiekty (obserwacje) na dwie lub więcej klas. Nacisk kładzie się na uzyskiwanie reguły, która może być używana do optymalnego przypisania nowego obiektu do poszczególnej klasy. Uwaga: Funkcja która rozdziela obiekty może czasami posłużyć jako rozdzielnik (allocator) i odwrotnie, zasada, która przydziela obiekty może sugerować procedurę dyskryminacji. W praktyce cele 1 i 2 często się pokrywają, a różnica między rozdzieleniem i przydzieleniem staje się niewyraźna.

4 Pojęcie klasyfikacji i dyskryminacji Cele użycia dyskryminacji klasyfikacji Klasyfikacja i dyskryminacja dla dwóch populacji Klasyfikacja i dyskryminacja dla dwóch populacji Zajmiemy się teraz rozdzieleniem dwóch klas obiektów albo przydzieleniem nowego obiektu do jeden z dwóch klas. Oznaczmy nasze dwie klasy (inaczej populacje) przez π 1 i π 2. Obiekty są zwykle rozdzielone lub sklasyfikowane na podstawie pomiarów, na przykład: p powiązanych między sobą zmiennych losowych X = [X 1, X 2,..., X p]. Zaobserwowane wartości X różnią się w pewnym stopniu między klasami. Wszystkie wartości pochodzące z pierwszej klasy możemy traktować jako populację π 1 o wartościach x, a dla tych pochodzących z klasy drugiej, jako populację dla π 2 o wartościach x. Te dwie populacje mogą być opisane przez funkcję gęstości prawdopodobieństwa f 1 (x) i f 2 (x), a tym samym możemy mówić o przypisywaniu obserwacji do populacji (albo równoważnie: obiektów do klas).

5 Pojęcie klasyfikacji i dyskryminacji Cele użycia dyskryminacji klasyfikacji Klasyfikacja i dyskryminacja dla dwóch populacji Przykłady populacji i badanych dla nich zmiennych. Populacje π 1 i π 2 Zmienne pomiarowe X 1. Wypłacalne i źle prosperujące aktywa ogółem, cena akcji i obligacji, firmy ubezpieczeniowe wartość rynkowa akcji i obligacji, (o złym stanie finansowym) wysokość strat, nadwyżki 2. Dwa gatunki gwiazdnicy długość kielicha kwiatowego i płatka, długość rysy na płatku, długość przykwiatku, średnica pyłku 3. Nabywcy nowego produktu wykształcenie, dochód, wielkość rodziny, i opieszali ludzie ilość poprzednich zmian marek (którzy powoli kupują) danego produktu 4. Osoby które dostaną się wyniki egzaminu wstępnego, średnia ocen i nie dostaną na studia z liceum, liczba zajęć w liceum 5. Mężczyźni i kobiety pomiary antropologiczne taki jak np. obwód i objętość wykonane na starożytnych czaszkach 6. Pozytywne lub negatywne dochody, wiek, ilość kart kredytowych, ryzyko kredytowe wielkość rodziny 7. Alkoholicy i osoby aktywność enzymu oksydazy monoaminowej, nie będące alkoholikami aktywność enzymu cyklazy adenylanowej

6 Pojęcie klasyfikacji i dyskryminacji Cele użycia dyskryminacji klasyfikacji Klasyfikacja i dyskryminacja dla dwóch populacji Przykłady populacji i badanych dla nich zmiennych. Uwaga: Weźmy pod uwagę, na przykład punkt 6. Widzimy, że obiekt ( klienci banku starający się o kredyt ) został rozdzieleny na dwie klasy ( pozytywne ryzyko kredytowe i negatywne ryzyko kredytowe ) na podstawie zaobserwowanych wartości (dochody, wiek, ilość kart kredytowych, wielkość rodziny). Używając terminologii obserwacji i populacji, chcieliśmy zidentyfikować obserwacje postaci x =[x 1 (dochody), x 2 (wiek), x 3 (ilość kart kredytowych), x 4 (wielkość rodziny)] jako populacje π 1 ( pozytywne ryzyko kredytowe ) lub populację π 2 ( negatywne ryzyko kredytowe ).

7 Klasyfikacja dla dwóch populacji Przedstawimy teraz metodę klasyfikacji dla dwóch populacji (wracając do rozdzielenia w dalszej części naszej prezentacji). Zmierzone właściwości losowo wybranych obiektów pochodzących z każdej z dwóch populacji są analizowane ze względu na różnice. Zazwyczaj zbiór wszystkich wyników dzieli się na dwa regiony R 1 i R 2, takie że, jeżeli nowa obserwacja wpadnie do R 1 to jest przypisywana do populacji π 1, a jeżeli do R 2 to jest przypisywana do populacji π 2. Tak więc, jeden zbiór obserwowanych wartości opowiada populacji π 1, a drugi zbiór wartości odpowiada populacji π 2.

8 Problemy w metodzie klasyfikacji Zastanówmy się teraz dlaczego pewne obserwacje możemy łatwo sklasyfikować, a o innych nie jesteśmy pewni co powiedzieć. Przedstawimy teraz wybrane sytuacje, które powodują, że klasyfikacja jest problematyczna: 1. Niepełna wiedza o przyszłych wynikach. Przykład: Biuro rekrutacyjne pewnej medycznej uczelni chce sklasyfikować aplikantów na tych co mają duże prawdopodobieństwo zostania doktorem oraz na tych których prawdopodobieństwo zostania doktorem jest małe. Chcą to wywnioskować na podstawie wyników testów podczas studiów lekarskich oraz innych uczelnianych dokumentów. Natomiast w tym przypadku rzeczywiste ustalenia mogą zostać wykonane na koniec kilkuletniej pracy.

9 Problemy w metodzie klasyfikacji 2. Niedostępne lub drogie informacje. Przykład: Zakłada się, że niektóre z Federalist Papers zostały napisane przez Jamesa Madisona i Alexandra Hamiltona, ponieważ podpisali je. Jednakże niektóre akrtykuły i eseje były niepodpisane. Przedmiotem zainteresowania jest, który z dwóch mężczyzn napisał niepodpisane dokumenty. Oczywiście, nie możemy ich zapytać. Częstotliwości słów i długości zdań mogą pomóc klasyfikować sporne dokumenty. Uwaga: Zasady klasyfikacji nie mogą zazwyczaj zapewnić bezbłędnej metody przydziału. Wynika to z tego, że nie może być wyraźnych różnic między mierzonymi cechami populacji, to znaczy, że grupy mogą się pokrywać. Jest więc możliwe, na przykład, nieprawidłowe klasyfikowanie obiektu z π 2 jako należące do π 1 lub obiektu z π 1 jako należące π 2.

10 Treść Wprowadzenie Przykład 1 - problem wyodrębnienia posiadaczy kosiarek samojezdnych. Rozważmy dwie grupy w pewnym mieście: π 1 - posiadacze kosiarek samojezdnych i π 2 - nie posiadacze kosiarek samojezdnych. W celu wyznaczenia najlepszej perspektywy sprzedaży w zbliżającej się kampanii, firma produkująca kosiarki samojezdne jest zainteresowana klasyfikacją rodzin, jako: potencjalnych posiadaczy i nie posiadaczy na podstawie x 1 =przychody i x 2 =powierzchnia działki. Wielkości losowych próbek dla każdej z populacji wynoszą: n 1 = 12 (obecni posiadacze) i n 2 = 12 (obecni nie posiadacze).

11 Dane Wprowadzenie Uzyskane wartości przedstawia tabela: π 1 : posiadacze π 2 : nie posiadacze x 1 (przychody x 2 (powierzchnia działki x 1 (przychody x 2 (powierzchnia działki w $1000s) w 1000ft 2 ) w $1000s) w 1000ft 2 )

12 Wprowadzenie Wykres Uwaga: Dobra procedura klasyfikacji powinna spowodować dosłownie kilka błędnych klasyfikacji. Innymi słowy, szansa lub prawdopodobieństwo błędnej klasyfikacji powinno być małe. Agnieszka Gołota, Paweł Grabowski Dariusz Bełczowski, Paweł Cejrowski Klasyfikacja i dyskrymiancja - Statystyka w SAS

13 Optymalna reguła klasyfikacji Cechy jakie optymalna reguła klasyfikacji powinna posiadać: bierze pod uwagę prawdopodobieństwa apriori uwzględnia (w miarę możliwości) koszty związane z błędną klasyfikacją

14 Prawdopodobieństwo Niech: f 1 (x), f 2 (x) - funkcje gęstości prawdopodobieństwa związane z wektorem p 1 zmiennej losowej X dla populacji, odpowiednio: π 1 i π 2 Ω - przestrzeń próby czyli zbiór wszystkich możliwych obserwacji x R 1 - zbiór wartości x dla których klasyfikujemy obiekty jako populacje π 1 R 2 = Ω R 1 - zbiór wartości x, dla których klasyfikujemy obiekty jako π 2. Każdy obiekt musi być przypisany jednej i tylko jednej z dwóch populacji. Zbiory R 1 i R 2 wykluczają sie wzajemnie i wyczerpują. Prawdopodobieństwo warunkowe P(2 1) czyli klasyfikacji obiektu jako π 2, kiedy w rzeczywistości należy do π 1 dane jest wzorem: P(2 1) = P(X R 2 π 1 ) = R 2=Ω R 1 f 1 (x)dx podobnie definiujemy prawdopodobieństwo warunkowe P(1 2) czyli klasyfikacje obiektu jako π 1 kiedy w rzeczywistości pochodzi z π 2 : P(1 2) = P(X R 1 π 2 ) = R 1 f 2 (x)dx

15 Wprowadzenie Prawdopodobieństwo Uwaga: Znak całki we wzorach oznacza objętość utworzoną przez funkcję gęstości f1 (x) na regionie R2 oraz objętość utworzoną przez funkcję gęstości f2 (x) na regionie R1. Ilustruje to wykres poniżej (dla p=1). Agnieszka Gołota, Paweł Grabowski Dariusz Bełczowski, Paweł Cejrowski Klasyfikacja i dyskrymiancja - Statystyka w SAS

16 Prawdopodobieństwo Niech p 1 będzie prawdopodobieństwem apriori dla π 1 oraz p 2 będzie prawdopodobieństwem apriori dla π 2, gdzie p 1 + p 2 = 1. Następnie całkowite prawdopodobieństwa poprawnie lub niepoprawnie klasyfikowanych obiektów można uzyskać jako produkt wcześniejszych i warunkowych prawdopodobieństw klasyfikacyjnych: P(obserwacja jest poprawnie sklasyfikowana jako π 1 )=P(obserwacja pochodzi z π 1 i jest poprawnie sklasyfikowana jako π 1 )=P(X R 1 π 1 )P(π 1 ) = P(1 1)p 1 P(obserwacja jest poprawnie sklasyfikowana jako π 2 )=P(obserwacja pochodzi z π 2 i jest poprawnie sklasyfikowana jako π 2 )=P(X R 2 π 2 )P(π 2 ) = P(2 2)p 2 P(obserwacja jest błędnie sklasyfikowana jako π 1 )=P(obserwacja pochodzi z π 2 i jest błędnie sklasyfikowana jako π 1 )=P(X R 1 π 2 )P(π 2 ) = P(1 2)p 2 P(obserwacja jest błędnie sklasyfikowana jako π 2 )=P(obserwacja pochodzi z π 1 i jest błędnie sklasyfikowana jako π 2 )=P(X R 2 π 1 )P(π 1 ) = P(2 1)p 2

17 Koszty błędnej klasyfikacji Koszt błędnej klasyfikacji może być zdefiniowany przez macierz kosztów : Klasyfikujemy jako: π 1 π 2 Prawdziwa populacja: π 1 0 c(2 1) π 2 c(1 2) 0 Analiza macierzy: Koszty wynoszą 0 dla poprawnej klasyfikacji, c(1 2) kiedy obserwacja z π 2 jest niepoprawnie sklasyfikowana jako π 1 oraz c(2 1) kiedy obserwacja z π 1 jest niepoprawnie sklasyfikowana jako π 2.

18 Oczekiwany koszt błędnej klasyfikacji (ECM) Dla jakiejkolwiek zasady, oczekiwany koszty błędnej klasyfikacji (ECM) jest wyznaczony poprzez pomnożenie anty-diagonalnych wyrazów (z macierzy kosztów ) przez ich prawdopodobieństwa (ze zdarzeń przedstawionych na slajdzie 16). W konsekwencji otrzymujemy: ECM = c(2 1)P(2 1)p 1 + c(1 2)P(1 2)p 2 Uwaga: Wiarygodna reguła klasyfikacji powinna mieć ECM tak małe jak to możliwe. Regiony R 1 i R 2, które minimalizują ECM są zdefiniowane przez następujące nierówności: R 1 : f 1(x) f 2 (x) ( c(1 2) c(2 1) )( p 2 ) p 1 (współczynnik gęstości) (współczynnik kosztu)(współczynnik prawdop. apriori) R 2 : f 1(x) f 2 (x) < ( c(1 2) c(2 1) )( p 2 ) p 1 (współczynnik gęstości) < (współczynnik kosztu)(współczynnik prawdop. apriori)

19 Oczekiwany koszt błędnej klasyfikacji (ECM) Wyznaczanie regionów R 1 i R 2 dla szczególnych przypadków: a) p 2 = 1 (prawdopodobieństwa apriori są równe) p 1 R 1 : f 1(x) f 2 (x) c(1 2) c(2 1) R 2 : f 1(x) f 2 (x) < c(1 2) c(2 1) b) c(1 2) (koszty błędnych klasyfikacji są równe) c(2 1) R 1 : f 1(x) f 2 (x) p 2 p 1 c) c(1 2) c(2 1) = p 2 =1 p 1 R 1 : f 1(x) f 2 (x) 1 Uwaga: R 2 : f 1(x) f 2 (x) < p 2 p 1 R 2 : f 1(x) f 2 (x) < 1 Kiedy prawdopodobieństwa apriori są nieznane, wtedy często są brane jako równe sobie. Jeżeli koszty błędnej klasyfikacji są nieokreślone, to są tak dobierane aby ich stosunek wyniósł 1.

20 Oczekiwany koszt błędnej klasyfikacji (ECM) Rozpatrzmy przypadek c) (czyli współczynnik prawdopodobieństw apriori i współczynnik błędnych klasyfikacji są sobie równe i wynoszą 1). Zauważmy, że optymalne regiony klasyfikacji wyznacza się bardzo proste, przez porównanie tylko wartości funkcji gęstości oraz jeżeli x 0 jest nową obserwacją to: a) przypisujemy x 0 do π 1 jeżeli: f 1 (x 0 ) f 2 (x 0 ) 1 czyli f 1(x 0 ) f 2 (x 0 ) b) przypisujemy x 0 do π 2 jeżeli: f 1 (x 0 ) f 2 (x 0 ) < 1 czyli f 1(x 0 ) < f 2 (x 0 ). Uwaga: Sens tej zasady jest równoznaczny przy równych prawdopodobieństwach apriori i równych kosztach błędnych klasyfikacji.

21 Treść Wprowadzenie Przykład 2 - Klasyfikowanie nowej obserwacji do jednej z dwóch populacji. Badacz ma wystarczająco dużo danych aby oszacować funkcje gęstości f 1 (x) i f 2 (x) związanych odpowiednio z populacjami π 1 i π 2. Załóżmy, że c(2 1) = 5 i c(1 2) = 10. Ponadto, dane te są znane od 20% obiektów z całej populacji (dla których pomiaru x były spisane) należącej do π 2. A zatem, nasze prawdopodobieństwa apriori wynoszą odpowiednio: p 1 = 0.8 i p 2 = 0.2. Znając apriori prawdopodobieństwa i koszty błędnej klasyfikacji, możemy korzystając z odpowiednich wzorów (slajd 18) wyznaczyć regiony klasyfikacji R 1 i R 2. Otrzymujemy: R 1 : f 1(x) f 2 (x) ( )( 5 0.8) ) = 0.5 R 2 : f 1(x) f 2 (x) < ( )( 5 0.8) ) = 0.5 Załóżmy również, że dla nowej obserwacji x 0 funkcje gęstości wynoszą odpowiednio: f 1 (x 0 ) = 0.3 i f 2 (x 0 ) = 0.4.

22 Pytanie Czy sklasyfikowałbyś nową obserwacje x 0 do populacji π 1 czy do populacji π 2?

23 Odpowiedź Wyliczamy wskaźnik funkcji gęstości: f 1 (x) f 2 (x) = = 0.75 i porównujemy to z wynikami otrzymanymi wcześniej, czyli: f 1 (x) c(1 2) f 2 (x) = 0.75 > ( c(2 1) )( p 2 p 1 ) = 0.5 Wniosek Otrzymujemy, że x 0 R 1 i klasyfikujemy nową obserwacje x 0 do populacji π 1

24 Całkowite prawdopodobieństwo błędnej klasyfikacji - TPM Kryteria inne niż oczekiwany koszt błędnej klasyfikacji (ECM) mogą być również wykorzystywane do uzyskania optymalnej reguły klasyfikacji. Ignorując koszty błędnej klasyfikacji i wybierając R 1 i R 2 do minimalizacji całkowitego prawdopodobieństwa błędnej klasyfikacji (TCM) otrzymujemy wzór: TCM=P(błędna klasyfikacja obserwacji z π 1 lub błędna klasyfikacja obserwacji π 2 )=P(obserwacja pochodząca z populacji π 1 i błędnie sklasyfikowana)+p(obserwacja pochodząca z populacji π 2 i błędnie sklasyfikowana) = p 1 f R 1 (x)dx + p 2 f 2 R 2 (x)dx 1 Uwaga Matematycznie problem ten jest równoważny do minimalizacji oczekiwanego kosztu błędnej klasyfikacji (ECM) kiedy koszty błędnej klasyfikacji są równe. W związku z tym, optymalne regiony w tym przypadku są dane wzorami ze slajdu 19 - przypadek b).

25 Klasyfikacja dla dwóch wielowymiarowych normalnych populacji Procedury klasyfikacji bazują na populacjach o normalnym rozkładzie przeważających w praktyce statystycznej (z uwagi na swoją prostotę i dużą efektywność w różnych modelach populacji). Zakładamy, ze funkcję f 1 (x) i f 2 (x) są wielowymiarowymi funkcjami gęstości rozkładu normalnego. Pierwsza z wektorem średniej µ 1 i macierzą kowariancji Σ 1, a druga z wektorem średniej µ 2 i macierzą kowariancji Σ 2.

26 Klasyfikacja normalnych populacji kiedy Σ 1 = Σ 2 = Σ. Załóżmy, że gęstości dla populacji π 1 i π 2 dane są wzorem: f i (x) = 1 (2π) p/2 Σ 1/2 exp[ 1 2 (x µ i ) Σ 1 (x µ i )] dla i=1,2 Przypuśćmy teraz, że parametry µ 1,µ 2 i Σ są znane. Następnie po skreśleniu wyrażenia (2π) p/2 Σ 1/2 minimalne regiony ECM wyglądają następująco: R 1 : exp[ 1 2 (x µ 1) Σ 1 (x µ 1 ) (x µ 2) Σ 1 (x µ 2 )] ( c(1 2) c(2 1) )( p 2 ) p 1 R 2 : exp[ 1 2 (x µ 1) Σ 1 (x µ 1 ) (x µ 2) Σ 1 (x µ 2 )] < ( c(1 2) c(2 1) )( p 2 ) p 1 Znając regiony R 1 i R 2 możemy skonstruować zasadę klasyfikacji podaną w rezultacie: Rzeultat: Niech populacje π 1 i π 2 będą opisane przez wielowymiarowe gęstości rozkładu prawdopodobieństwa. Zasada przydziału, która minimalizuje ECM wygląda następująco: a) przypisujemy x 0 do π 1 jeżeli: (µ 1 µ 2 ) Σ 1 x (µ 1 µ 2 ) Σ 1 (µ 1 + µ 2 ) ln[( c(1 2) c(2 1) )( p 2 )] p 1 b) przypisujemy x 0 do π 2 jeżeli: (µ 1 µ 2 ) Σ 1 x (µ 1 µ 2 ) Σ 1 (µ 1 + µ 2 ) < ln[( c(1 2) c(2 1) )( p 2 )] p 1

27 Klasyfikacja normalnych populacji kiedy Σ 1 = Σ 2 = Σ. W większości sytuacji parametry µ 1, µ 2 i Σ są nieznane więc zasadę (którą przedstawiliśmy w rezultacie) trzeba było zmodyfikować. Zasugerowano zastąpienie parametrów populacji przez odpowiedniki próbkowe. Załóżmy, że mamy n 1 obserwacji wielowymiarowej zmiennej losowej X = [X 1, X 2,..., X p] z π 1 i n 2 pomiarów z π 2, gdzie n 1 + n 2 2 p. Następnie, otrzymujemy następujące macierze: x 11 x X 1 = x 1(n 1 ) x 21 x X 2 = x 2(n 2 ) (n 1 p) (n 2 p)

28 Klasyfikacja normalnych populacji kiedy Σ 1 = Σ 2 = Σ. Z uzyskanych macierzy, próbkowowe wektory średnich i macierzy kowariancji są określone przez: x 1 = 1 n1 n 1 j=1 x 1j (wymiar p 1), S 1 = 1 n1 n 1 1 x 2 = 1 n 2 n2 j=1 x 2j (wymiar p 1), S 2 = 1 n 2 1 n2 j=1 (x 2j x 2 )(x 2j x 2 ) (p p) j=1 (x 1j x 1 )(x 1j x 1 ) (p p) Ponieważ, przyjmujemy, że populacje mają taką samą macierz kowariancji Σ, próbkowe macierze kowariancji S 1 i S 2 łączy się w celu uzyskania pojedyńczego, nieobciążonego estymatora Σ. n 1 1 n 2 1 S pooled = [ (n 1 1)+(n 2 1) ]S 1 + [ (n 1 1)+(n 2 1) ]S 2 jest obiektywnym estymatorem Σ jeżeli macierze X 1 i X 2 zawierają losowe próbki, odpowiednio z populacji π 1 i π 2.

29 Estymacyjna zasada minimalizacji ECM dla dwóch normalnych populacji. Podstawiając x 1 za µ 1, x 2 za µ 2 i S pooled za Σ we wzory otrzymane w rezultacie (slajd 26) otrzymujemy próbkową zasadę klasyfikacji: a) przypisujemy x 0 do π 1 jeżeli: (x 1 x 2 ) S 1 pooled x (x 1 x 2 ) S 1 pooled (x 1 + x 2 ) ln[( c(1 2) c(2 1) )( p 2 )] p 1 b) przypisujemy x 0 do π 2 jeżeli: (x 1 x 2 ) S 1 pooled x (x 1 x 2 ) S 1 pooled (x 1 + x 2 ) < ln[( c(1 2) c(2 1) )( p 2 )] p 1 Zauważmy, że jeżeli w powyższym wzorze: c(1 2) c(2 1) )( p 2 ) = 1 p 1 wtedy ln(1) = 0 i estymacyjna zasada minimalizacji ECM dla dwóch normalnych populacji sprowadza się do porównania zmiennej skalarnej: ŷ = (x 1 x 2 ) S 1 pooled x = â x oszacowanej w x 0, z liczbą: m = 1 2 (x 1 x 2 ) S 1 pooled (x 1 + x 2 ) = 1 2 (y 1 + y 2 )

30 Estymacyjna zasada minimalizacji ECM dla dwóch normalnych populacji. gdzie: y 1 = (x 1 x 2 ) S 1 pooled x 1 = â x 1 y 2 = (x 1 x 2 ) S 1 pooled x 2 = â x 2 Oznacza to, że estymacyjna metoda minimalizacji ECM dla dwóch normalnych populacji jest równoznaczna z tworzeniem dwóch jednowymiarowych populacji dla wartości y poprzez wzięcie odpowiedniej kombinacji liniowej obserwacji pochodzących z populacji π 1 i π 2, a następnie przypisaniu nowej obserwacji x 0 : a) do populacji π 1 jeżeli: ŷ 0 = â x 0 m (punkt środkowy między dwoma jednowymiarowymi średnimi y 1 i y 2.) b) do populacji π 2 jeżeli: ŷ 0 = â x 0 < m

31 Klasyfikacja dla dwóch normalnych populacji ze wspólną Σ i równymi kosztami. Przykład ten jest związany z wykrywaniem nosicieli hemofilii typu A. Do konstruowania procedury wykrywania potencjalnych nosicieli hemofilii typu A, próbki krwi pobrano od dwóch grup kobiet i zmierzono następujące dwie zmienne: X 1 = log 10 (AHFactivity) X 2 = log 10 (AHF likeantigen) (AHF - czynnik przeciwhemofilowy) Pierwsza grupa n 1 = 30 kobiet została wybrana z populacji kobiet, które nie są nosicielkami gena hemofilii typu A. Grupe tę będziemy nazywać jako normalni. Druga grupa n 2 = 22 kobiet była wybrana z populacji kobiet z rozpoznaną hemofilią typu A. Tą grupę będziemy nazywać jako nosiciele. Ich wspólna macierz kowariancji zostanie wzięta jako połączone próbkowe macierze kowariancji S pooled.

32 ...

33

34

35 Otrzymujemy następujące wyniki: x 1 = [ ] x 2 = [ ] [ ] S pooled = ŷ = x x 2 m = 4.764

36 Pomiary AHF activity oraz AHF-like antigen u kobiety, u której chcemy zbadać czy jest nosicielką [ ] hemofilii typu A wyniosły odpowiednio x 1 = 0.21 i x 2 = (czyli 0.21 x 0 = ) Czy kobieta ta powinna być sklasyfikowana do populacji π 1 (normalna) czy π 2 (nosiciele)? Powinniśmy wyliczyć ŷ(x 0 ) = ŷ 0, a następnie posłużyć się regułą (dla przypomnienia): a) przypisujemy x 0 do π 1 jeżeli: ŷ 0 = â x 0 m = b) przypisujemy x 0 do π 2 jeżeli: ŷ 0 = â x 0 < m = Uwaga: Po odpowiednich wyliczeniach otrzymamy, że ŷ 0 = 4, 421 i jest większy od m, czyli przypisujemy kobietę do populacji π 1 ( normalni ).

37

38 x 0 = [ ] x 0 = [ ]

39 Klasyfikacja populacji o rozkładzie normalnym kiedy Σ 1 Σ 2 Jak można by przypuszczać, reguły klasyfikacji są bardziej skomplikowane w przypadku kiedy macierze kowariancji populacji nie są sobie równe. Rozważmy wielowymiarowe gęstości normalne z Σ i, i = 1, 2, zastępujące Σ. Wówczas macierze kowariancji tak samo jak wektory wartości oczekiwanych są różne dla każdej z dwóch populacji. Tak jak wcześniej zauważyliśmy obszary minimum ECM oraz minimum całkowitego prawdopodobieństwa błędnej klasyfikacji TPM zależą od stosunku dwóch gęstości f 1 (x)/f 2 (x) lub równoważnie logarytmu naturalnego tej proporcji ln[f 1 (x)/f 2 (x)] = ln[f 1 (x)] ln[f 2 (x)]. Kiedy gęstości wielowymiarowego rozkładu normalnego mają różne struktury kowariancji, wtedy to wyrażenia w stosunku gęstości dotyczące Σ i 1/2 nie kasują się jak ma to miejsce gdy Σ 1 = Σ 2.

40 Regiony klasyfikacji Zastępując gęstości wielowymiarowego rozkładu normalnego innymi macierzami kowariancji w : R 1 : f ( ) ( ) 1(x) c(1 2) f 2 (x) p2, R 2 : f ( ) ( ) 1(x) c(1 2) c(2 1) p 1 f 2 (x) < p2 c(2 1) p 1 oraz po zlogarytmowaniu i uproszczeniu otrzymujemy regiony klasyfikacji: R 1 : 1 [( ) ( )] 2 x (Σ 1 1 Σ 1 c(1 2) 2 )x + (µ 1 Σ 1 1 µ 2 Σ 1 2 )x k ln p2 c(2 1) p 1 R 2 : 1 [( ) ( )] 2 x (Σ 1 1 Σ 1 c(1 2) 2 )x + (µ 1 Σ 1 1 µ 2 Σ 1 2 )x k < ln p2 c(2 1) p 1 (43) gdzie k = 1 ( ) 2 ln Σ1 + 1 Σ 2 2 (µ 1 Σ 1 1 µ 1 µ 2 Σ 1 2 µ 2 ) (44) Uwaga: Regiony klasyfikacji są zdefiniowane za pomocą funkcji kwadratowej zmiennej x.

41 Reguła klasyfikacji Rezultat 11.4 Niech populacje π 1 i π 2 będą opisane wielowymiarowymi gęstościami normalnymi z wektorami wartości oczekiwanych i macierzami kowariancji odpowiednio µ 1, Σ 1 i µ 2, Σ 2. Reguła klasyfikacji, która minimalizuje oczekiwane koszty błędnej klasyfikacji podana jest wzorem, przydziel x 0 do π 1 jeżeli 1 [( ) ( )] 2 x 0 (Σ 1 1 Σ 1 c(1 2) 2 )x 0 + (µ 1 Σ 1 1 µ 2 Σ 1 2 )x p2 0 k ln c(2 1) p 1 przydziel x 0 do π 2 w innym przypadku. Zmienna k jest określona tak samo jak w (44).

42 Reguła kwadratowej klasyfikacji (Populacje o rozkładzie normalnym z nierównymi macierzami kowariancji) Przydziel x 0 do π 1 jeżeli 1 [( ) ( )] 2 x 0 (S 1 1 S 1 c(1 2) 2 )x 0 + (x 1 S 1 1 x 2 S 1 2 )x p2 0 k ln (45) c(2 1) p 1 przydziel x 0 do π 2 w innym przypadku. Uwaga: Klasyfikacja przy użyciu funkcji kwadratowych jest raczej niefortunnym wyborem w przypadku ilości wymiarów większej niż dwa i może ona prowadzić do trochę niezwykłych rezultatów. W szczególności jest to prawdziwe, gdy dane nie pochodzą (zasadniczo) z wielowymiarowego rozkładu normalnego. Dzieje się, tak dlatego, że poważną słabością reguły kwadratowej jest fakt, że jest ona wrażliwa na odstąpienia od normalności.

43 Opcje działania w przypadku nienormalności danych Jeżeli dane nie pochodzą z wielowymiarowego rozkładu normalnego dostępne są dwie opcje działania. Opcja 1 Dane nie z rozkładu normalnego można przekształcić na dane bliższe rozkładowi normalnemu i następnie przeprowadzić test na równość macierzy kowariancji, aby sprawdzić, czy odpowiedniejsza jest reguła liniowa czy kwadratowa. Uwaga: Nienormalność ma duży wpływ na wynik zwykłych testów na jednorodność kowariancji. Dlatego zamiana danych z rozkładu nienormalnego na normalny musi się odbyć przed przeprowadzeniem tych testów.

44 Opcje działania w przypadku nienormalności danych Opcja 2 Można skorzystać z liniowej lub kwadratowej reguły bez martwienia się o kształt populacji macierzystej i mieć nadzieję, że będzie to działać w miarę dobrze. Uwaga: Badania jednakże pokazały, że są nienormalne przypadki gdzie liniowa funkcja klasyfikacyjna wypada słabo, pomimo, ze macierze kowariancji populacji są te same. Morał: Zawsze warto sprawdzać wyniki każdej z metod klasyfikacji, a przynajmniej to powinno mieć miejsce ze zbiorami danych stosowanymi do tworzenia klasyfikatorów.

45 W idealnym przypadku, byłoby wystarczająco dużo dostępnych danych do zapewnienia próbek uczących oraz walidacyjnych. Próbki uczące mogą być stosowane to opracowania funkcji klasyfikacyjnej, a próbki testowe do oceny jej skuteczności.

46 Jednym z najważniejszych sposobów oceniania wyników jakiejkolwiek metody klasyfikacyjnej jest obliczenie jej wskaźnika błędów lub prawdopodobieństwa błędnej klasyfikacji. Kiedy postacie populacji macierzystych są całkowicie znane, prawdopodobieństwa błędnej klasyfikacji mogą być obliczone stosunkowo łatwo. Ponieważ jednakże populacje macierzyste rzadko są znane, będziemy koncentrować się na wskaźnikach błędów powiązanych z próbkową funkcją klasyfikacyjną. Gdy już skonstruowana jest funkcja klasyfikacyjna, ocena jej skuteczności dla przyszłych próbek jest dla nas najważniejsza.

47 Miary oceny skuteczności funkcji klasyfikacyjnych Całkowite prawdopodobieństwo błędnej klasyfikacji (TPM) TPM = p 1 f 1 (x)dx + p 2 f 2 (x)dx R 2 R 1 Najmniejsza wartość wielkości TPM uzyskana przez rozsądny wybór między R 1 i R 2 jest nazywana najlepszym wskaźnikiem błędów (OER).

48 Miary oceny skuteczności funkcji klasyfikacyjnych Najlepszy wskaźników błędów (OER) OER = p 1 f 1 (x)dx + p 2 f 2 (x)dx R 2 R 1 gdzie R 1 oraz R 2 są ograniczone następująco: R 1 : f 1 (x) f 2 (x) p 2 p 1 R 2 : f 1 (x) f 2 (x) < p 2 p 1 Stąd OER jest wskaźnikiem błędów dla minimum całkowitego prawdopodobieństwa błędnej klasyfikacji (TPM) dla reguły klasyfikacji.

49 Miary oceny skuteczności funkcji klasyfikacyjnych Najlepszy wskaźników błędów (OER) Oznacza on jaki procent składników będzie niepoprawnie przydzielony po zastosowaniu najlepszej reguły klasyfikacji. Na przykład, jeśli mamy dwie populacje i ich parametry oraz po obliczeniu OER (minimum TPM) = oznacza to, że najlepsza reguła klasyfikacji niepoprawnie przydzieli około 21% składników do pierwszej lub drugiej populacji.

50 Miary oceny skuteczności funkcji klasyfikacyjnych Najlepszy wskaźników błędów (OER) najłatwiej może być obliczony, gdy funkcje gęstości populacji są znane. Jeżeli jednakże, jak to zwykle bywa, niektóre parametry populacji ukazujące się w regułach klasyfikacji muszą być oszacowane z próbki, wtedy to ocena wskaźników błędów już nie jest tak prosta.

51 Miary oceny skuteczności próbkowych funkcji klasyfikacyjnych Rzeczywisty wskaźnik błędów (AER) Skuteczność próbkowych funkcji klasyfikacyjnych zasadniczo może być poddana ocenie przez obliczenie rzeczywistego wskaźnika błędów (AER), AER = p 1 ˆR 2 f 1 (x)dx + p 2 ˆR 1 f 2 (x)dx gdzie ˆR 1 i ˆR 2 reprezentują obszary klasyfikacyjne wyznaczone przez odpowiednio n 1 i n 2.

52 Uwaga: AER ukazuje jak próbkowa funkcja klasyfikacyjna będzie się zachowywała dla przyszłych próbek. Podobnie jak najlepszy wskaźnik błędów (OER), na ogół nie może być on obliczony, ponieważ zależy on od nieznanych funkcji gęstości f 1 (x) i f 2 (x).

53 Miary oceny skuteczności próbkowych funkcji klasyfikacyjnych Wskaźnik błędów pozornych (APER) Istnieje miara skuteczności, która nie zależy od postaci populacji macierzystej i może być ona obliczona jakąkolwiek procedurą klasyfikacyjną. Nazywa się ona wskaźnikiem błędów pozornych (APER) i jest zdefiniowana jako ułamek obserwacji z próbki uczącej, które są błędnie sklasyfikowane przez próbkową funkcje klasyfikacyjną. Wskaźnik błędów pozornych może być łatwo obliczony z macierzy pomyłek, która pokazuje rzeczywiste i przewidywane przynależności do grup.

54 Miary oceny skuteczności próbkowych funkcji klasyfikacyjnych Macierz pomyłek Dla n 1 obserwacji z π 1 i n 2 obserwacji z π 2 macierz pomyłek ma następująca postać: Przewidywana przynależność π 1 π 2 Rzeczywista π 1 n 1C n 1M = n 1 n 1C n 1 przynależność π 2 n 2M = n 1 n 2C n 2C n 2 gdzie n 1C = liczba pozycji z π 1 poprawnie sklasyfikowanych jako pozycje z π 1 n 1M = liczba pozycji z π 1 błędnie sklasyfikowanych jako pozycje z π 2 n 2C = liczba pozycji z π 2 poprawnie sklasyfikowanych jako pozycje z π 2 n 2M = liczba pozycji z π 2 błędnie sklasyfikowanych jako pozycje z π 1

55 Miary oceny skuteczności próbkowych funkcji klasyfikacyjnych Obliczenie wskaźnika APER na podstawie macierzy pomyłek Wskaźnik błędów pozornych wtedy ma postać: APER = n 1M + n 2M n 1 + n 2 który jest rozumiany jako udział pozycji ze zbioru uczącego, które są błędnie sklasyfikowane.

56 Przykład 11.6 (Obliczanie wskaźnika błędów pozornych) Rozważmy obszary klasyfikacyjne R 1 i R 2 pokazane poniższym wykresie przedstawiające dane dotyczące kosiarek samojezdnych. W tym przypadku obserwacje na północny-wschód od linii ciągłej są sklasyfikowane jako π 1, czyli posiadacze kosiarek samojezdnych. Natomiast obserwacje na południowy-zachód od linii ciągłej są sklasyfikowane jako π 2, czyli osoby ich nie posiadające. Zauważmy, że niektóre obserwacje są błędnie sklasyfikowane.

57 Przykład 11.6 (Obliczanie wskaźnika błędów pozornych) Macierz pomyłek wygląda następująco: Przewidywana przynależność π 1 : właściciele π 2 : nie posiadacze Rzeczywista właściciele π 1 : kosiarek n 1C = 10 n 1M = 2 n 1 = 12 przynależność samojezdnych π 2 : nie posiadacze n 2M = 2 n 2C = 10 n 2 = 12 Wskaźnik błędów pozornych, wyrażony jako procent, to: ( ) ( ) APER = 100% = 100% = 16.7%

58 Miary oceny skuteczności próbkowych funkcji klasyfikacyjnych APER jest bardzo intuicyjny i łatwy do obliczenia. Niestety ma on skłonność do niedoszacowania AER i problem nie znika dopóki wielkości próbek n 1 i n 2 są bardzo duże. W zasadzie, te optymistyczne szacowanie występuje, ponieważ dane, które służą do budowy funkcji klasyfikacyjnych również są stosowane do jej ocenienia. Szacunki dotyczące wskaźników błędów mogą być lepiej skonstruowane niż wskaźnik błędów pozornych i dodatkowo pozostać dość łatwe do obliczenia i nie wymagać założeń odnośnie rozkładu.

59 Pierwszym ze sposobów jest rozdzielenie całej próbki na próbkę uczącą i próbkę testową. Próbka ucząca jest stosowana do skonstruowania funkcji klasyfikacyjnej, próbka testowa do oceny jej wyników. Wskaźnik błędów jest określony jako udział błędnie sklasyfikowanych danych w próbce testowej. Pomimo, że ta metoda radzi sobie z problemem stronniczości, nie stosując tych samych danych do określenia i oceny funkcji klasyfikacyjnej, to posiada dwie zasadnicze wady: (i) Wymaga dużych próbek. (ii) Funkcja, która jest poddawana ocenie nie jest funkcją, która nas interesuje. Ostatecznie prawie wszystkie dane musiałyby zostać użyte aby skonstruować funkcje klasyfikacyjną. Jeśli nie, to ważne informację mogą zostać utracone.

60 Drugie podejście, nazywa się metodą wydzielania holdout Lachenbruch a (inaczej nazywane metodą jackknifing lub cross-validation, czyli sprawdzianu krzyżowego) 1. Rozpocznij z grupą obserwacji π 1. Pomiń jedną obserwację z tej grupy i opracuj funkcje klasyfikacyjną opartą na pozostałych n 1 1, n 2 obserwacjach. 2. Sklasyfikuj obserwacje wydzieloną używając funkcji skonstruowanej w kroku Powtarzaj kroki 1 i 2 dopóki wszystkie obserwacje z π 1 są sklasyfikowane. Niech n (H) 1M będzie liczbą obserwacji wydzielonych (H) błędnie sklasyfikowanych w tej grupie. 4. Powtarzaj kroki 1 do 3 dla obserwacji z π 2. Niech n (H) 2M będzie liczbą obserwacji dzielących błędnie sklasyfikowanych w tej grupie.

61 Tą metodą otrzymujemy nieobciążony estymator wartości oczekiwanej rzeczywistych wskaźników błędów, E(AER). Ê(AER) = n(h) 1M + n(h) 2M n 1 + n 2 Metoda wydzielenia Lachenbruch a jest obliczeniowo wykonalna kiedy jest stosowana w połączeniu z liniową statystyką klasyfikacyjną.

62 Przykład 11.7 (Obliczanie oceny wskaźnika błędów korzystając z procedury wydzielania) Zilustrujemy procedurę wydzielenia Lachenbruch a i wyliczenie wskaźników błędów dla równych kosztów i prawdopodobieństw a priori. Rozważmy następujące macierze danych i statystyki. (Zakładamy, że n 1 = n 2 = 3 dwuwymiarowe obserwacje zostały wybrane losowo z dwóch populacji π 1 i π 2 o wspólnej macierzy kowariancji.) ] X 1 = X 2 = [ [ Sumaryczna macierz kowariancji to ] ; x 1 = [ ] 3, S 10 1 = 1 2 [ 4 ; x 2 =, S 7] 2 = 1 2 S pooled = 1 2 (S 1 + S 2 ) = [ 2 ] [ 2 ] [ 1 ] 1 1 4

63 Przykład 11.7 (Obliczanie oceny wskaźnika błędów korzystając z procedury wydzielania) Dana w przykładzie macierz pomyłek to: Klasyfikuj jako: π 1 π 2 zatem, Prawdziwa populacja: π π APER = 2 6 = 0.33 Lecz chcemy zobaczyć jaka jest różnica między APER, a estymatorem wartości oczekiwanej AER, czyli Ê(AER). Dlatego przeprowadzamy procedurę wydzielenia Lachenbrucha.

64 Przykład 11.7 (Obliczanie oceny wskaźnika błędów korzystając z procedury wydzielania) [ ] Wydzielając pierwszą obserwację x H = 2, 12 z X 1 obliczamy [ ] [ ] [ ] X 1H =, x 3 8 1H = i S 9 1H = 1 2 Nowa sumaryczna macierz kowariancji S H,pooled to z odwrotną S H,pooled = 1 3 (S 1H + 2S 2 ) = 1 3 S 1 H,pooled = 1 [ ] [ 2.5 ] Jest obliczeniowo szybciej sklasyfikować obserwację wydzielenia x 1H na podstawie jej kwadratu odległości od średniej grupy x 1H i x 2 niż od obliczenia wartości funkcji liniowej ŷ = â H x H = (x 1H x 2 ) S 1 H,pooled x H i porównania jej do punktu środkowego ˆm H = 1 2 (x 1H x 2 ) S 1 H,pooled (x 1H + x 2 )

65 Przykład 11.7 (Obliczanie oceny wskaźnika błędów korzystając z procedury wydzielania) Tak więc dla x H = [ 2, 12 ] mamy: kwadrat odległości z x 1H = (x H x 1H ) S 1 H,pooled (x H x 1H ) = [ ] [ [ ] = ] 3 kwadrat odległości z x 2 = (x H x 2 ) S 1 H,pooled (x H x 2 ) = [ 2 5 ] [ [ ] = ] 5 Ponieważ odległość od x H do x 1H jest mniejsza niż od x H do x 2, klasyfikujemy x H jako obserwację z populacji π 1. W tym przypadku klasyfikacja jest poprawna.

66 Przykład 11.7 (Obliczanie oceny wskaźnika błędów korzystając z procedury wydzielania) Analogicznie przeprowadzamy procedurę dla 2 i 3 obserwacji z 1 populacji. Obliczymy, że dla x H = [4, 10] tak samo jak dla x H = [3, 8] procedura prowadzi do niepoprawnego przydzielenia tych obserwacji do π 2. Tak więc n (H) 1M = 2.

67 Przykład 11.7 (Obliczanie oceny wskaźnika błędów korzystając z procedury wydzielania) Przechodząc do drugiej grupy, przypuśćmy, że x H = [5, 7] jest wydzielone. Wtedy [ ] [ ] [ ] X 2H =, x 4 5 2H = i S 7 2H = 2 8 Nowa sumaryczna macierz kowariancji to S H,pooled = 1 3 (2S 1 + 1S 2H ) = 1 [ ] z odwrotną S 1 H,pooled = 3 [ ]

68 Przykład 11.7 (Obliczanie oceny wskaźnika błędów korzystając z procedury wydzielania) Obliczamy, że (x H x 1 ) S 1 H,pooled (x H x 1 ) = [ 2 3 ] [ ] [ ] = (x H x 2H ) S 1 H,pooled (x H x 2H ) = [ ] [ ] [ ] = i x H = [5, 7] jest poprawnie przydzielona do π 2.

69 Przykład 11.7 (Obliczanie oceny wskaźnika błędów korzystając z procedury wydzielania) Analogicznie przeprowadzamy procedurę dla 2 i 3 obserwacji z 2 populacji. Obliczymy, że kiedy x H = [3, 9] jest wydzielone procedura prowadzi do niepoprawnego przydzielenia tej obserwacji do π 1. Na koniec wydzielenie x H = [4, 5] prowadzi do poprawnego sklasyfikowania tej obserwacji jako π 2. Zatem n (H) 2M = 1.

70 Przykład 11.7 (Obliczanie oceny wskaźnika błędów korzystając z procedury wydzielania) Mając już ilości błędnie sklasyfikowanych obserwacji dla każdej populacji możemy policzyć wartość estymatora Ê(AER): Ê(AER) = n(h) 1M + n(h) 2M = n 1 + n = 0.5 Stąd widzimy, że wskaźnik błędów pozornych APER = 0.33 jest optymistyczną miarą skuteczności. Oczywiście w praktyce, wielkości próbek są większe niż te, które rozpatrywaliśmy w tym przykładzie, zatem różnice między APER i Ê(AER) mogą nie być tak duże.

71 W teorii, uogólnienie procedur klasyfikacyjnych od 2 do g 2 grup jest całkiem proste. Jednakże, nie wiele jest znane o własnościach odpowiadającym próbkowym funkcjom klasyfikacyjnym, a zwłaszcza ich wskaźniki błędów nie są do końca poznane. Odporność statystyk dwu-grupowej liniowej klasyfikacji, na przykład, na nierówne kowariancje lub nienormalność rozkładu może być zbadana za pomocą eksperymentów przeprowadzonych z komputerowymi generatorami próbek. Dla więcej niż dwie populacje to podejście nie prowadzi do ogólnych wniosków. Dzieje się tak, ponieważ własności populacji zależą od jej lokalizacji i tym samym jest zbyt dużo możliwość konfiguracji, aby można je dogodnie zbadać.

72 Metoda Minimum Oczekiwanego Kosztu Błędnej Klasyfikacji Metoda Minimum Oczekiwanego Kosztu Błędnej Klasyfikacji Niech f i (x) będzie gęstością powiązaną z populacją π i, i = 1, 2,..., g. [Dla większości przypadków, będziemy zakładali, że f i (x) jest funkcją gęstości wielowymiarowego rozkładu normalnego, lecz to założenie nie jest potrzebne dla wprowadzenia ogólnej teorii.] Niech p i = prawdopodobieństwa a priori populacji π i i = 1, 2,..., g c(k i) = koszt przydziału pozycji do π k, jeśli ona naprawdę należy do π i dla k, i = 1, 2,..., g Dla k = i, c(i i) = 0. Ostatecznie niech R k będzie zbiorem x-ów sklasyfikowanych jako π k i P(k i) = P(klasyfikacja pozycji jako π k π i ) = f R i (x)dx k g dla k, i = 1, 2,..., g, gdzie P(i i) = 1 P(k i) k=1 k i

73 Warunkowy oczekiwany koszt błędnej klasyfikacji Warunkowy oczekiwany koszt błędnej klasyfikacji x z π 1 do π 2 lub π 3,..., lub π g to ECM(1) = P(2 1)c(2 1) + P(3 1)c(3 1) P(g 1)c(g 1) g = P(k i)c(k i) k=2 Ten warunkowy oczekiwany koszt pojawia się z prawdopodobieństwem a priori p i, prawdopodobieństwem π 1.

74 Oczekiwany koszt błędnej klasyfikacji W podobnym sposób można uzyskać warunkowe oczekiwane koszty błędnej klasyfikacji ECM(2),..., ECM(g). Wymnożenie każdego warunkowego ECM przez jego prawdopodobieństwo a priori i zsumowanie daje całkowity ECM: ECM = p 1 ECM(1) + p 2 ECM(2) p g ECM(g) ( g ) g = p 1 P(k 1)c(k 1) + p 2 P(k 2)c(k 2) k=2 k=1 k 2 ( g 1 ) + + p g P(k g)c(k g) = g i=1 p i k=1 g P(k i)c(k i) k=1 k i

75 Wyznaczenie najlepszej procedury klasyfikacyjnej sprowadza się do wybrania wzajemnie rozłącznych obszarów klasyfikacji R 1, R 2,..., R g tak aby ECM było minimum. Rezultat 11.5 Obszary klasyfikujące, które minimalizują ECM są zdefiniowane przez przydzielenie x do tej populacji π k, k = 1, 2,..., g dla której g p i f i (x)c(k i) i=1 i k jest najmniejsze. Jeżeli istnieje więcej niż jedno rozwiązanie, x może być przydzielony do jakiejkolwiek populacji ze zbioru rozwiązań.

76 Reguła Minimum Oczekiwanego Kosztu Błędnej Klasyfikacji (ECM) przy równych kosztach błędnej klasyfikacji Przydziel x 0 do π 1 jeżeli lub odpowiednio Przydziel x 0 do π 1 jeżeli p k f k (x) > p i f i (x) dla wszystkich i k ln p k f k (x) > ln p i f i (x) dla wszystkich i k

77 Interesującym faktem wartym odnotowania jest to, że reguła klasyfikacji z poprzedniego slajdu jest identyczna do tej, która maksymalizuje prawdopodobieństwa a posteriori P(π k x) = P(x pochodzi z π k pod warunkiem, że x było zaobserwowane), gdzie P(π k x) = p kf k (x) (prior) (likelihood) = g [(prior) (likelihood)] p i f i (x) i=1 dla k = 1, 2,..., g Uwaga : Należy pamiętać, że ogólnie reguły minimum ECM mają trzy składniki: prawdopodobieństwa a priori, koszty błędnej klasyfikacji i funkcje gęstości prawdopodobieństwa. Te elementy muszą być określone lub oszacowane przed możliwością realizacji reguł.

78 Przykład 11.9 (Klasyfikowanie nowej obserwacji do jednej z trzech znanych populacji) Przyporządkujmy obserwację x 0 do jednej z g = 3 populacji π 1, π 2 lub π 3 mając następujące hipotetyczne prawdopodobieństwa a priori, koszta błędnej klasyfikacji i wartości gęstości prawdopodobieństwa: Prawdziwa Populacja π 1 π 2 π 3 π 1 c(1 1) = 0 c(1 2) = 500 c(1 3) = 100 Klasyfikuj jako: π 2 c(2 1) = 10 c(2 2) = 0 c(2 3) = 50 π 3 c(3 1) = 50 c(3 2) = 200 c(3 3) = 0 Prawdopodobieństwa a priori: p 1 = 0.05 p 2 = 0.60 p 3 = 0.35 Wartość funkcji gęstości w x 0 : f 1 (x 0 ) = 0.01 f 2 (x 0 ) = 0.85 f 3 (x 0 ) = 2 Użyjemy procedur minimum ECM.

79 Przykład 11.9 (Klasyfikowanie nowej obserwacji do jednej z trzech znanych populacji) 3 Wartościami i=1 i k p i f i (x 0 )c(k i) są k = 1 : k = 2 : k = 3 : p 2 f 2 (x 0 )c(1 2) + p 3 f 3 (x 0 )c(1 3) = (0.60)(0.85)(500) + (0.35)(2)(100) = 325 p 1 f 1 (x 0 )c(2 1) + p 3 f 3 (x 0 )c(2 3) = (0.05)(0.01)(10) + (0.35)(2)(50) = p 1 f 1 (x 0 )c(3 1) + p 2 f 2 (x 0 )c(3 2) = (0.05)(0.01)(50) + (0.60)(0.85)(200) = Skoro 3 p i f i (x 0 )c(k i) jest najmniejsze dla k = 2, to przyporządkujemy x 0 do π 2. i=1 i k

80 Przykład 11.9 (Klasyfikowanie nowej obserwacji do jednej z trzech znanych populacji) Jeżeli wszystkie koszta błędnej klasyfikacji byłyby takie same, to przyporządkujemy x 0 posługując się zasadą minimum ECM przy równych kosztach, która wymaga tylko następujących iloczynów p 1 f 1 (x 0 ) = (0.05)(0.01) = p 2 f 2 (x 0 ) = (0.60)(0.85) = p 3 f 3 (x 0 ) = (0.35)(2) = Ponieważ p 3 f 3 (x 0 ) = p i f i (x 0 ), i = 1, 2 powinniśmy przyporządkować x 0 do π 3.

81 Przykład 11.9 (Klasyfikowanie nowej obserwacji do jednej z trzech znanych populacji) Równoważnie moglibyśmy obliczyć prawdopodobieństwa a posteriori, uzyskujemy P(π 1 x 0 ) = p 1f 1 (x 0 ) (0.05)(0.01) = 3 (0.05)(0.01) + (0.60)(0.85) + (0.35)(2) = = p i f i (x 0 ) i=1 P(π 2 x 0 ) = p 2f 2 (x 0 ) 3 p i f i (x 0 ) i=1 P(π 3 x 0 ) = p 3f 3 (x 0 ) 3 p i f i (x 0 ) i=1 = (0.60)(0.85) = = = (0.35)(2) = = Widzimy, że x 0 jest przydzielone do π 3 do populacji z największym prawdopodobieństwem a posterior.

82 Klasyfikacja populacji normalnych Ważny przypadek następuje wówczas gdy f i (x) = gdzie i = 1,..., g. 1 (2π) p/2 Σ i 1/2 exp[ 1 2 (x µ i ) Σ i 1 (x µ i )] (46) są wielowymiarowymi gęstościami normalnymi z wektorami średnich µ i i macierzami kowariancji Σ i. Jeśli, ponadto c(i i) = 0, c(k i) = 1, k i (lub, równoważnie koszty błędnych klasyfikacji są równe), wówczas następuje (41) Przydziel x 0 do π k jeżeli: lnp k f k (x) > lnp i f i (x) dla i k

83 Kwadratowy wynik dyskryminacji Przydziel x do π k jeżeli lnp k f k (x) = lnp k ( p 2 )ln(2π) ln Σ k 1 2 (x µ k) Σ k 1 (x µ k ) = maxlnp i f i (x) (47) Stała (p/2)ln(2π) może zostać pominięta w (44), ponieważ jest ona taka sama dla wszystkich populacji. W związku z tym zdefiniujmy kwadratowy wynik dyskryminacji dla i-tej populacji jako

84 Kwadratowy wynik dyskryminacji d Q i (x) = ln Σ i 1 2 (x µ i ) Σ i 1 (x µ i ) + lnp i (48) gdzie i = 1,..., g. d Q i (x) składa się z wkładów uogólnionej wariancji Σ i, prawdopodobieństwa priori, oraz z kwadratu odległości x od średniej populacji µ i.

85 Używając kwadratowych wyników dyskryminacji, dostajemy, że zasada klasyfikacji (44) przedstawia się następująco: Zasada minimalnego całkowitego prawdopodobieństwa błędnej klasyfikacji (TPM) dla populacji normalnych - nierówne Σ i Przydziel x do π k jeżeli: d Q k (x) = największy z d Q 1 (x), d Q 2 (x),..., d Q g (x) (49) gdzie d Q k (x) jest dany wzorem (45) W praktyce, µ i i Σ i są nieznane, ale zbiór uczący poprawnie sklasyfikowanych obserwacji jest często dostępny do budowy oszacowań. Odpowiednie ilości prób dla populacji π i są: x i - próbka wektora średniej S i - próbka macierzy kowariancji n i - rozmiar próbki

86 Wtedy estymacja (oszacowanie) kwadratowego wyniku dyskryminacyjnego d Q i (x) to: ˆ d Q i (x) = ln S i 1 2 (x x i) S i 1 (x x i ) + lnp i (50) gdzie i = 1,..., g. i zasada klasyfikacji oparta na próbie jest następująca:

87 Zasada szacowania minimum (TPM) dla kilku populacji normalnych nierówne Σ i Przydziel x do π k jeżeli d ˆ Q k (x) = największy z d ˆ Q 1 (x), d ˆQ 2 (x),..., d ˆ g Q (x) (51) gdzie d ˆQ k (x) jest dany wzorem (47) Uproszczenie jest możliwe, gdy macierze kowariancji populacji Σ i są równe. Gdy Σ i =Σ, dla i=1,2,...,g wynik dyskryminacji w (45) staje się: d Q i (x) = 1 ln Σ x Σ 1 x + µ i Σ 1 x 1 2 µ i Σ 1 µ i + lnp i Pierwsze dwa składniki są takie same dla d Q 1 (x), d Q 2 (x),..., d Q g (x) i, konsekwentnie mogą zostać zignorowane dla celów alokacyjnych. Pozostałe składniki składają się ze stałej c i = lnp i 1 2 µ i Σ 1 µ i oraz liniowej kombinacji składników x.

88 Następnie, zdefiniujmy liniowy wynik dyskryminacji gdzie i = 1,..., g d Q i (x) = µ i Σ 1 x 1 2 µ i Σ 1 µ i + lnp i (52) Oszacowanie ˆd i (x) liniowego dyskryminantu d i (x) oparte jest na sumarycznym oszacowaniu Σ. S pooled = 1 n 1 + n n g g ((n1 1)S 1 +(n 2 1)S (n g 1)S g ) (53) i dany jest wzorem Liniowy wynik dyskryminacji ˆd i (x) = x i S 1 pooled x 1 2 x i S 1 pooled x i + lnp i (54)

89 W konsekwencji, mamy następująco: Zasada szacowania minimum (TPM) dla równych kowariancji populacji normalnych. Przydziel x do π k jeżeli: d ˆ Q k (x) = największy z d ˆ Q 1 (x), d ˆQ 2 (x),..., d ˆ g Q (x) (55) z ˆ d Q i (x) dany jest wzorem (51). Równoważny klasyfikator w przypadku równej kowariancji można uzyskać z (45) ignorując stałą, 1 2ln Σ. W rezultacie, oszacowania próbki umiejscowione dla nieznanej ilości populacji, mogą być interpretowane w przypadkach kwadratów odległości D i 2 (x) = (x x i ) S 1 pooled (x x i) (56) x do próbki wektora średniej x i.

90 Zasada przydziału jest wtedy następująca: Przydział x do populacji π i dla której 1 2 D i 2 (x) + lnp i jest największe (57) Widzimy, że ta zasada, lub równoważnie (52) przypisuje x do najbliższej populacji. Jeżeli prawdopodobieństwa priori są nieznane, najczęstszą procedurą jest przypisanie p 1 = p 2 =... = p g = 1 g. Obserwacja jest wtedy przypisana do najbliższej populacji.

91 Przykład Obliczenie przykładowych dyskryminantów, zakładając wspólną macierz kowariancji. Policzmy liniowe dyskryminanty oparte na 3 populacjach zakładając, że pochodzą one z dwuwymiarowego rozkładu normalnego ze wspólną macierzą kowariancji. Losowe próbki z populacji π 1, π 2,π 3 wraz ze próbką wektorów średnich i macierzy kowariancji są następujące: [ 2 5 π 1 : X 1 = [ 0 6 π 2 : X 2 = π 3 : X 3 = ] ] [ [ 1 więc n1 = 3 x 1 = 3 [ 1 więc n2 = 3 x 2 = 4 ] ] ] [ 0 więc n3 = 3 x 3 = 4 [ 1 1 oraz S1 = 1 4 [ 1 1 oraz S2 = 1 4 ] [ 1 1 oraz S3 = 1 4 ] ] ]

92 Mając p 2 = p 2 = 0.25 oraz p 3 = 0.50 sklasyfikujmy obserwacje x 0 = [x 01, x 02 ] = [ 2 1] nawiązując do (52). Z (50) [ ] [ ] [ S pooled = [ ] [ ] = = ] więc Następnie i [ S 1 pooled = ] [ = 1 35 [ 1 x 1 S pooled = [-1 3] x 1 S 1 pooled x 1 = 1 35 [-27 24] [ 1 3 ] ] = 1 [-27 24] 35 ] = więc 1 Agnieszka ˆd 1 (x Gołota, 0 ) = Paweł lnp 1 Grabowski + x 1 S pooled Dariusz x 0 Bełczowski, 1 2 x 1 S 1 pooled Paweł x Cejrowski 1 = Klasyfikacja ln(0.25) i dyskrymiancja + ( )x Statystyka ( )x 02w SAS 1 2 ( )

93 Zauważmy liniową formę ˆd i (x) =stała +(stała)x 1 +(stała)x 2. W prostszej postaci: [ 1 x 2 S pooled = [1 4] x 2 S 1 pooled x 2 = 1 35 [48 39] [ 1 4 ] = 1 [48 39] 35 ] = i Ostatecznie ˆd 2 (x 0 ) = ln(0.25) + ( )x 01 + ( )x ( ) [ 1 x 3 S pooled = [0-2] x 3 S 1 pooled x 3 = 1 35 [-6-18] [ 0 2 ] = 1 [-6-18] 35 ] = i ˆd 3 (x 0 ) = ln(0.50) + ( 6 35 )x 01 + ( )x ( )

94 Podstawiając numeryczne wartości x 01 = 2 oraz x 02 = 1 otrzymujemy: ˆd 1 (x 0 ) = ( ˆd 2 (x 0 ) = ( ˆd 3 (x 0 ) = ( 6 35 )( 2) + ( )( 2) + ( )( 2) + ( )( 1) = )( 1) = )( 1) = Ponieważ ˆd 3 (x 0 ) = jest największe, przydzielamy x 0 do π 3.

95 Klasyfikowanie potencjalnych absolwentów szkoły biznesowej Pracownik szkoły biznesowej użył indeksu zawierającego średnią z uzyskanych ocen (GPA) oraz wyniki testu końcowego (GMAT), które miały mu pomóc w podjęciu decyzji którzy studenci mogą zostać dopuszczeni do studiów podyplomowych. Dane przedstawiają pary wartości GPA oraz GMAT dla grup ostatnich aplikujących którzy zostali podzieleni na trzy grupy: A-dopuszczeni, B - graniczący, C-niedopuszczeni.

96

97 Próbka testowa - kod Rysunek: Kod dla próbki testowej

98 Wyniki procedury proc surveyselect Wyniki dla procedury surveyselect, w której określiliśmy wielkość próbki testowej: Rysunek: Procedura proc surveyselect

99 Wyniki procedury proc sql Rysunek: Procedura proc sql gdzie pierwsza pozycja podaje liczebność próbki testowej, druga liczebność zbioru wejściowego a trzecia liczebność różnicy między zbiorami.

100 Kod procedury proc discrim Rysunek: Kod proc discrim

101 Procedura proc discrim - opis danych Rysunek: Opis danych

102 Opcja WCOV Opcja WCOV wyświetla macierze kowariancji osobno dla admit,bordline,noadmit. Rysunek: Macierze kowariancji

103 Opcja VCOV Opcja VCOW wyświetla sumaryczną macierz kowariancji. Rysunek: Sumaryczna macierz kowariancji

104 Opcja MANOVA Rysunek: MANOVA

105 Liniowa funkcja rozpoznawcza Liniowa funkcja rozpoznawcza, gdzie: stała = 1 2 x j S 1 pooled x j + lnpj wartość współczynnika = S 1 pooled x j Rysunek: Liniowa funkcja rozpoznawcza Liniowe funkcje rozpoznawcze dla: d admit ˆ (x) = gpa gmat d noadmit ˆ (x) = gpa gmat d bordline ˆ (x) = gpa gmat

106 Uogólniona odległość kwadratowa Uogólniona odległość kwadratowa: Dj 2(x) = (x x j ) S 1 pooled (x x j ) Prawdopodobieństwo a posteriori uczestnictwa w grupie Status: p(j x) = exp( 1 2 D2 j (x))/ k = 1 n ( 1 2 D2 k (x)) Rysunek: Uogólniona odległość kwadratowa

107 Opcja LISTERR Opcja listerr pokazuje błędnie sklasyfikowane obserwacje

108 Wyniki - próbka testowa Rysunek: Wyniki dla próbki testowej

109 Liniowe wyniki dyskryminacyjne (49) mogą zostać porównane. Możemy zauważyć, że jeżeli d k (x) jest największym dyskryminantem liniowym spośród d 1(x), d 2(x),..., d g (x) to jest to równoważne dla 0 d k (x) d i (x) = (µ k µ i ) Σ 1 x 1 2 (µ k µ i ) Σ 1 (µ k + µ i ) + ln( p k p i ) dla każdego i = 1, 2,..., g. Dodanie ln(p k /p i ) = ln(p i /p k ) do obydwu stron poprzedniej nierówności daje alternatywną formę zasady klasyfikacji, która minimalizuje całkowite prawdopodobieństwo błędnej klasyfikacji. Tak więc przydzielamy x do π k jeżeli (µ k µ i ) Σ 1 x 1 2 (µ k µ i ) Σ 1 (µ k + µ i ) ln( p i p k ) (58) dla każdego i = 1, 2,..., g.

Klasyfikacja i dyskryminacja

Klasyfikacja i dyskryminacja i dyskryminacja Nina Stulich Kazimierz Najmajer Statystyka II i dyskryminacja Definicja Cel Definicja i dyskryminacja - pod tymi pojęciami rozumie się wielowymiarowe metody zajmujące się rozdzielaniem

Bardziej szczegółowo

Klasyfikacja i dyskryminacja

Klasyfikacja i dyskryminacja 2018 Wstęp Dyskryminacja i klasyfikacja dla dwóch populacji Klasyfikacja dla dwóch populacji Wstęp Definicja klasyfikacji i dyskryminacji Dyskriminacja i klasyfikacja są wielowymiarowymi metodami zajmującymi

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Statystyka Wykład 10 Wrocław, 22 grudnia 2011 Testowanie hipotez statystycznych Definicja. Hipotezą statystyczną nazywamy stwierdzenie dotyczące parametrów populacji. Definicja. Dwie komplementarne w problemie

Bardziej szczegółowo

Wnioskowanie bayesowskie

Wnioskowanie bayesowskie Wnioskowanie bayesowskie W podejściu klasycznym wnioskowanie statystyczne oparte jest wyłącznie na podstawie pobranej próby losowej. Możemy np. estymować punktowo lub przedziałowo nieznane parametry rozkładów,

Bardziej szczegółowo

Klasyfikacja metodą Bayesa

Klasyfikacja metodą Bayesa Klasyfikacja metodą Bayesa Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski warunkowe i bezwarunkowe 1. Klasyfikacja Bayesowska jest klasyfikacją statystyczną. Pozwala przewidzieć prawdopodobieństwo

Bardziej szczegółowo

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne Wykład 4 Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym 2. Rozkłady próbkowe 3. Centralne twierdzenie graniczne Przybliżenie rozkładu dwumianowego rozkładem normalnym Niech Y ma rozkład

Bardziej szczegółowo

Wprowadzenie do analizy dyskryminacyjnej

Wprowadzenie do analizy dyskryminacyjnej Wprowadzenie do analizy dyskryminacyjnej Analiza dyskryminacyjna to zespół metod statystycznych używanych w celu znalezienia funkcji dyskryminacyjnej, która możliwie najlepiej charakteryzuje bądź rozdziela

Bardziej szczegółowo

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,

Bardziej szczegółowo

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Spis treści Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis treści Spis treści 1 Wstęp Bardzo często interesujący

Bardziej szczegółowo

Ważne rozkłady i twierdzenia c.d.

Ważne rozkłady i twierdzenia c.d. Ważne rozkłady i twierdzenia c.d. Funkcja charakterystyczna rozkładu Wielowymiarowy rozkład normalny Elipsa kowariacji Sploty rozkładów Rozkłady jednostajne Sploty z rozkładem normalnym Pobieranie próby

Bardziej szczegółowo

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N = HISTOGRAM W pewnych przypadkach interesuje nas nie tylko określenie prawdziwej wartości mierzonej wielkości, ale także zbadanie całego rozkład prawdopodobieństwa wyników pomiarów. W takim przypadku wyniki

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Wnioskowanie statystyczne dla zmiennych numerycznych Porównywanie dwóch średnich Boot-strapping Analiza

Bardziej szczegółowo

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( ) Statystyka Rozkład prawdopodobieństwa Testowanie hipotez Wykład III (04.01.2016) Rozkład t-studenta Rozkład T jest rozkładem pomocniczym we wnioskowaniu statystycznym; stosuje się go wyznaczenia przedziału

Bardziej szczegółowo

Zmienne zależne i niezależne

Zmienne zależne i niezależne Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }

Bardziej szczegółowo

166 Wstęp do statystyki matematycznej

166 Wstęp do statystyki matematycznej 166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej

Bardziej szczegółowo

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl

Bardziej szczegółowo

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18 Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)

Bardziej szczegółowo

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/ Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/ Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Głęboka 28, bud. CIW, p. 221 e-mail: zdzislaw.otachel@up.lublin.pl

Bardziej szczegółowo

Elementy modelowania matematycznego

Elementy modelowania matematycznego Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski

Bardziej szczegółowo

Metody probabilistyczne

Metody probabilistyczne Metody probabilistyczne 13. Elementy statystki matematycznej I Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 17.01.2019 1 / 30 Zagadnienia statystki Przeprowadzamy

Bardziej szczegółowo

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd. Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru

Bardziej szczegółowo

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne Wprowadzenie Prostym podejściem do klasyfikacji jest estymacja funkcji regresji r(x) =E(Y X =x)zpominięciemestymacjigęstościf k. Zacznijmyodprzypadkudwóchgrup,tj.gdy Y = {1,0}. Wówczasr(x) =P(Y =1 X =x)ipouzyskaniuestymatora

Bardziej szczegółowo

Wstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński

Wstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński Wstęp do teorii niepewności pomiaru Danuta J. Michczyńska Adam Michczyński Podstawowe informacje: Strona Politechniki Śląskiej: www.polsl.pl Instytut Fizyki / strona własna Instytutu / Dydaktyka / I Pracownia

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

Elementy statystyki wielowymiarowej

Elementy statystyki wielowymiarowej Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1. Zadania ze statystyki cz. 8 I rok socjologii Zadanie 1. W potocznej opinii pokutuje przekonanie, że lepsi z matematyki są chłopcy niż dziewczęta. Chcąc zweryfikować tę opinię, przeprowadzono badanie w

Bardziej szczegółowo

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L, Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której

Bardziej szczegółowo

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1 Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie

Bardziej szczegółowo

R ozkład norm alny Bardzo często używany do modelowania symetrycznych rozkładów zmiennych losowych ciągłych

R ozkład norm alny Bardzo często używany do modelowania symetrycznych rozkładów zmiennych losowych ciągłych R ozkład norm alny Bardzo często używany do modelowania symetrycznych rozkładów zmiennych losowych ciągłych Przykłady: Błąd pomiarowy Wzrost, wydajność Temperatura ciała Zawartość różnych składników we

Bardziej szczegółowo

Zagadnienie klasyfikacji (dyskryminacji)

Zagadnienie klasyfikacji (dyskryminacji) Zagadnienie klasyfikacji (dyskryminacji) Przykład Bank chce klasyfikować klientów starających się o pożyczkę do jednej z dwóch grup: niskiego ryzyka (spłacających pożyczki terminowo) lub wysokiego ryzyka

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Prawdopodobieństwo i statystyka

Prawdopodobieństwo i statystyka Wykład VIII: Przestrzenie statystyczne. Estymatory 1 grudnia 2014 Wprowadzenie Przykład: pomiar z błędem Współczynnik korelacji r(x, Z) = 0, 986 Wprowadzenie Przykład: pomiar z błędem Współczynnik korelacji

Bardziej szczegółowo

Wprowadzenie. Data Science Uczenie się pod nadzorem

Wprowadzenie. Data Science Uczenie się pod nadzorem Wprowadzenie Wprowadzenie Wprowadzenie Wprowadzenie Machine Learning Mind Map Historia Wstęp lub uczenie się z przykładów jest procesem budowy, na bazie dostępnych danych wejściowych X i oraz wyjściowych

Bardziej szczegółowo

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Testowanie hipotez statystycznych. Wnioskowanie statystyczne Testowanie hipotez statystycznych Wnioskowanie statystyczne Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Hipotezy

Bardziej szczegółowo

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa Weryfikacja hipotez statystycznych Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o prawdziwości lub fałszywości którego wnioskuje się na podstawie

Bardziej szczegółowo

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów

Bardziej szczegółowo

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych

Bardziej szczegółowo

Wykład 3 Hipotezy statystyczne

Wykład 3 Hipotezy statystyczne Wykład 3 Hipotezy statystyczne Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu obserwowanej zmiennej losowej (cechy populacji generalnej) Hipoteza zerowa (H 0 ) jest hipoteza

Bardziej szczegółowo

Hierarchiczna analiza skupień

Hierarchiczna analiza skupień Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym

Bardziej szczegółowo

Wykład 9 Wnioskowanie o średnich

Wykład 9 Wnioskowanie o średnich Wykład 9 Wnioskowanie o średnich Rozkład t (Studenta) Wnioskowanie dla jednej populacji: Test i przedziały ufności dla jednej próby Test i przedziały ufności dla par Porównanie dwóch populacji: Test i

Bardziej szczegółowo

Biostatystyka, # 3 /Weterynaria I/

Biostatystyka, # 3 /Weterynaria I/ Biostatystyka, # 3 /Weterynaria I/ dr n. mat. Zdzisław Otachel Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Głęboka 28, p. 221 bud. CIW, e-mail: zdzislaw.otachel@up.lublin.pl

Bardziej szczegółowo

Statystyka i Analiza Danych

Statystyka i Analiza Danych Warsztaty Statystyka i Analiza Danych Gdańsk, 20-22 lutego 2014 Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych Janusz Wątroba StatSoft Polska Centrum Zastosowań Matematyki -

Bardziej szczegółowo

Wykład 9 Testy rangowe w problemie dwóch prób

Wykład 9 Testy rangowe w problemie dwóch prób Wykład 9 Testy rangowe w problemie dwóch prób Wrocław, 18 kwietnia 2018 Test rangowy Testem rangowym nazywamy test, w którym statystyka testowa jest konstruowana w oparciu o rangi współrzędnych wektora

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych 9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :

Bardziej szczegółowo

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi. Spis treści 1 Wstęp: generatywne algorytmy uczące 2 Gaussowska analiza dyskryminacyjna 2.1 Gaussowska analiza dyskryminacyjna a regresja logistyczna 3 Naiwny Klasyfikator Bayesa 3.1 Wygładzanie Laplace'a

Bardziej szczegółowo

Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących

Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących Cezary Dendek Wydział Matematyki i Nauk Informacyjnych PW Plan prezentacji Plan prezentacji Wprowadzenie

Bardziej szczegółowo

1 Klasyfikator bayesowski

1 Klasyfikator bayesowski Klasyfikator bayesowski Załóżmy, że dane są prawdopodobieństwa przynależności do klasp( ),P( 2 ),...,P( L ) przykładów z pewnego zadania klasyfikacji, jak również gęstości rozkładów prawdopodobieństw wystąpienia

Bardziej szczegółowo

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Stanisław Cichocki Natalia Nehrebecka. Wykład 7 Stanisław Cichocki Natalia Nehrebecka Wykład 7 1 1. Metoda Największej Wiarygodności MNW 2. Założenia MNW 3. Własności estymatorów MNW 4. Testowanie hipotez w MNW 2 1. Metoda Największej Wiarygodności

Bardziej szczegółowo

WYKŁAD 8 ANALIZA REGRESJI

WYKŁAD 8 ANALIZA REGRESJI WYKŁAD 8 ANALIZA REGRESJI Regresja 1. Metoda najmniejszych kwadratów-regresja prostoliniowa 2. Regresja krzywoliniowa 3. Estymacja liniowej funkcji regresji 4. Testy istotności współczynnika regresji liniowej

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Bioinformatyka Wykład 4 Wrocław, 17 października 2011 Temat. Weryfikacja hipotez statystycznych dotyczących wartości oczekiwanej w dwóch populacjach o rozkładach normalnych. Model 3. Porównanie średnich

Bardziej szczegółowo

STATYSTYKA

STATYSTYKA Wykład 1 20.02.2008r. 1. ROZKŁADY PRAWDOPODOBIEŃSTWA 1.1 Rozkład dwumianowy Rozkład dwumianowy, 0 1 Uwaga: 1, rozkład zero jedynkowy. 1 ; 1,2,, Fakt: Niech,, będą niezależnymi zmiennymi losowymi o jednakowym

Bardziej szczegółowo

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu, z którego pochodzi próbka. Hipotezy dzielimy na parametryczne i nieparametryczne. Parametrycznymi

Bardziej szczegółowo

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12 Stanisław Cichocki Natalia Nehrebecka Zajęcia 11-12 1. Zmienne pominięte 2. Zmienne nieistotne 3. Obserwacje nietypowe i błędne 4. Współliniowość - Mamy 2 modele: y X u 1 1 (1) y X X 1 1 2 2 (2) - Potencjalnie

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Statystyka opisowa. Wykład I. Elementy statystyki opisowej Statystyka opisowa. Wykład I. e-mail:e.kozlovski@pollub.pl Spis treści Elementy statystyku opisowej 1 Elementy statystyku opisowej 2 3 Elementy statystyku opisowej Definicja Statystyka jest to nauka o

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji

Bardziej szczegółowo

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006 SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu

Bardziej szczegółowo

Natalia Neherbecka. 11 czerwca 2010

Natalia Neherbecka. 11 czerwca 2010 Natalia Neherbecka 11 czerwca 2010 1 1. Konsekwencje heteroskedastyczności i autokorelacji 2. Uogólniona MNK 3. Stosowalna Uogólniona MNK 4. Odporne macierze wariancji i kowariancji b 2 1. Konsekwencje

Bardziej szczegółowo

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych Statystyka matematyczna. Wykład IV. e-mail:e.kozlovski@pollub.pl Spis treści 1 2 3 Definicja 1 Hipoteza statystyczna jest to przypuszczenie dotyczące rozkładu (wielkości parametru lub rodzaju) zmiennej

Bardziej szczegółowo

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25 Testowanie hipotez Marcin Zajenkowski Marcin Zajenkowski () Testowanie hipotez 1 / 25 Testowanie hipotez Aby porównać ze sobą dwie statystyki z próby stosuje się testy istotności. Mówią one o tym czy uzyskane

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski Statystyczna analiza danych w programie STATISTICA (wykład ) Dariusz Gozdowski Katedra Doświadczalnictwa i Bioinformatyki Wydział Rolnictwa i Biologii SGGW Weryfikacja (testowanie) hipotez statystycznych

Bardziej szczegółowo

REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój

REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój 1 REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój 2 DOTYCHCZASOWE MODELE Regresja liniowa o postaci: y

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych Agenda Instytut Matematyki Politechniki Łódzkiej 2 stycznia 2012 Agenda Agenda 1 Wprowadzenie Agenda 2 Hipoteza oraz błędy I i II rodzaju Hipoteza alternatywna Statystyka testowa Zbiór krytyczny Poziom

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010 STATYSTYKA MATEMATYCZNA WYKŁAD 14 18 stycznia 2010 Model statystyczny ROZKŁAD DWUMIANOWY ( ) {0, 1,, n}, {P θ, θ (0, 1)}, n ustalone P θ {K = k} = ( ) n θ k (1 θ) n k, k k = 0, 1,, n Geneza: Rozkład Bernoulliego

Bardziej szczegółowo

Prawdopodobieństwo i statystyka r.

Prawdopodobieństwo i statystyka r. Zadanie. Niech (X, Y) ) będzie dwuwymiarową zmienną losową, o wartości oczekiwanej (μ, μ, wariancji każdej ze współrzędnych równej σ oraz kowariancji równej X Y ρσ. Staramy się obserwować niezależne realizacje

Bardziej szczegółowo

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie Wprowadzenie Konstrukcja binarnych drzew klasyfikacyjnych polega na sekwencyjnym dzieleniu podzbiorów przestrzeni próby X na dwa rozłączne i dopełniające się podzbiory, rozpoczynając od całego zbioru X.

Bardziej szczegółowo

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu Wykład 11-12 Centralne twierdzenie graniczne Statystyka matematyczna: Estymacja parametrów rozkładu Centralne twierdzenie graniczne (CTG) (Central Limit Theorem - CLT) Centralne twierdzenie graniczne (Lindenberga-Levy'ego)

Bardziej szczegółowo

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zad. 1 Średnia ocen z semestru letniego w populacji studentów socjologii w roku akademickim 2011/2012

Bardziej szczegółowo

Statystyka matematyczna i ekonometria

Statystyka matematyczna i ekonometria Statystyka matematyczna i ekonometria Wykład 5 Anna Skowrońska-Szmer lato 2016/2017 Hipotezy 2 Hipoteza zerowa (H 0 )- hipoteza o wartości jednego (lub wielu) parametru populacji. Traktujemy ją jako prawdziwą

Bardziej szczegółowo

STATYSTYKA INDUKCYJNA. O sondażach i nie tylko

STATYSTYKA INDUKCYJNA. O sondażach i nie tylko STATYSTYKA INDUKCYJNA O sondażach i nie tylko DWA DZIAŁY ESTYMACJA Co na podstawie wyników z próby mogę powiedzieć o wynikach w populacji? WERYFIKACJA HIPOTEZ Czy moje przypuszczenia uczynione przed badaniami

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 3 Metody estymacji. Estymator największej wiarygodności Zad. 1 Pojawianie się spamu opisane jest zmienną losową y o rozkładzie zero-jedynkowym

Bardziej szczegółowo

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński Mikroekonometria 5 Mikołaj Czajkowski Wiktor Budziński Zadanie 1. Wykorzystując dane me.medexp3.dta przygotuj model regresji kwantylowej 1. Przygotuj model regresji kwantylowej w którym logarytm wydatków

Bardziej szczegółowo

Kolokwium ze statystyki matematycznej

Kolokwium ze statystyki matematycznej Kolokwium ze statystyki matematycznej 28.05.2011 Zadanie 1 Niech X będzie zmienną losową z rozkładu o gęstości dla, gdzie 0 jest nieznanym parametrem. Na podstawie pojedynczej obserwacji weryfikujemy hipotezę

Bardziej szczegółowo

Statystyka w przykładach

Statystyka w przykładach w przykładach Tomasz Mostowski Zajęcia 10.04.2008 Plan Estymatory 1 Estymatory 2 Plan Estymatory 1 Estymatory 2 Własności estymatorów Zazwyczaj w badaniach potrzebujemy oszacować pewne parametry na podstawie

Bardziej szczegółowo

Komputerowa analiza danych doświadczalnych

Komputerowa analiza danych doświadczalnych Komputerowa analiza danych doświadczalnych Wykład 9 27.04.2018 dr inż. Łukasz Graczykowski lukasz.graczykowski@pw.edu.pl Semestr letni 2017/2018 Metoda największej wiarygodności ierównosć informacyjna

Bardziej szczegółowo

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotności, p-wartość i moc testu Wrocław, 01.03.2017r Przykład 2.1 Właściciel firmy produkującej telefony komórkowe twierdzi, że wśród jego produktów

Bardziej szczegółowo

Statystyka matematyczna i ekonometria

Statystyka matematyczna i ekonometria Statystyka matematyczna i ekonometria Wykład 5 dr inż. Anna Skowrońska-Szmer zima 2017/2018 Hipotezy 2 Hipoteza zerowa (H 0 )- hipoteza o wartości jednego (lub wielu) parametru populacji. Traktujemy ją

Bardziej szczegółowo

6.4 Podstawowe metody statystyczne

6.4 Podstawowe metody statystyczne 156 Wstęp do statystyki matematycznej 6.4 Podstawowe metody statystyczne Spóbujemy teraz w dopuszczalnym uproszczeniu przedstawić istotę analizy statystycznej. W szczególności udzielimy odpowiedzi na postawione

Bardziej szczegółowo

Własności statystyczne regresji liniowej. Wykład 4

Własności statystyczne regresji liniowej. Wykład 4 Własności statystyczne regresji liniowej Wykład 4 Plan Własności zmiennych losowych Normalna regresja liniowa Własności regresji liniowej Literatura B. Hansen (2017+) Econometrics, Rozdział 5 Własności

Bardziej szczegółowo

Porównywanie populacji

Porównywanie populacji 3 Porównywanie populacji 2 Porównywanie populacji Tendencja centralna Jednostki (w grupie) według pewnej zmiennej porównuje się w ten sposób, że dokonuje się komparacji ich wartości, osiągniętych w tej

Bardziej szczegółowo

Jeśli powyższy opis nie jest zrozumiały należy powtórzyć zagadnienie standaryzacji zanim przejdzie się dalej!

Jeśli powyższy opis nie jest zrozumiały należy powtórzyć zagadnienie standaryzacji zanim przejdzie się dalej! CO POWINNIŚMY WIEDZIEĆ (I ROZUMIEĆ) ZABIERAJĄC SIĘ DO CZYTANIA 1. Jeśli mamy wynik (np. z kolokwium) podany w wartościach standaryzowanych (np.: z=0,8) to wiemy, że aby ustalić jaki był wynik przed standaryzacją

Bardziej szczegółowo

Pochodna i różniczka funkcji oraz jej zastosowanie do rachunku błędów pomiarowych

Pochodna i różniczka funkcji oraz jej zastosowanie do rachunku błędów pomiarowych Pochodna i różniczka unkcji oraz jej zastosowanie do rachunku błędów pomiarowych Krzyszto Rębilas DEFINICJA POCHODNEJ Pochodna unkcji () w punkcie określona jest jako granica: lim 0 Oznaczamy ją symbolami:

Bardziej szczegółowo

W naukach technicznych większość rozpatrywanych wielkości możemy zapisać w jednej z trzech postaci: skalara, wektora oraz tensora.

W naukach technicznych większość rozpatrywanych wielkości możemy zapisać w jednej z trzech postaci: skalara, wektora oraz tensora. 1. Podstawy matematyki 1.1. Geometria analityczna W naukach technicznych większość rozpatrywanych wielkości możemy zapisać w jednej z trzech postaci: skalara, wektora oraz tensora. Skalarem w fizyce nazywamy

Bardziej szczegółowo

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x ZJAZD 4 KORELACJA, BADANIE NIEZALEŻNOŚCI, ANALIZA REGRESJI Analiza korelacji i regresji jest działem statystyki zajmującym się badaniem zależności i związków pomiędzy rozkładami dwu lub więcej badanych

Bardziej szczegółowo

KADD Minimalizacja funkcji

KADD Minimalizacja funkcji Minimalizacja funkcji Poszukiwanie minimum funkcji Foma kwadratowa Metody przybliżania minimum minimalizacja Minimalizacja w n wymiarach Metody poszukiwania minimum Otaczanie minimum Podział obszaru zawierającego

Bardziej szczegółowo

Komputerowa Analiza Danych Doświadczalnych

Komputerowa Analiza Danych Doświadczalnych Komputerowa Analiza Danych Doświadczalnych Prowadząca: dr inż. Hanna Zbroszczyk e-mail: gos@if.pw.edu.pl tel: +48 22 234 58 51 konsultacje: poniedziałek, 10-11, środa: 11-12 www: http://www.if.pw.edu.pl/~gos/students/kadd

Bardziej szczegółowo

Pobieranie prób i rozkład z próby

Pobieranie prób i rozkład z próby Pobieranie prób i rozkład z próby Marcin Zajenkowski Marcin Zajenkowski () Pobieranie prób i rozkład z próby 1 / 15 Populacja i próba Populacja dowolnie określony zespół przedmiotów, obserwacji, osób itp.

Bardziej szczegółowo

Zadania ze statystyki cz.8. Zadanie 1.

Zadania ze statystyki cz.8. Zadanie 1. Zadania ze statystyki cz.8. Zadanie 1. Wykonano pewien eksperyment skuteczności działania pewnej reklamy na zmianę postawy. Wylosowano 10 osobową próbę studentów, których poproszono o ocenę pewnego produktu,

Bardziej szczegółowo

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH Wykład 3 Liniowe metody klasyfikacji. Wprowadzenie do klasyfikacji pod nadzorem. Fisherowska dyskryminacja liniowa. Wprowadzenie do klasyfikacji pod nadzorem. Klasyfikacja pod nadzorem Klasyfikacja jest

Bardziej szczegółowo

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) PODSTAWY STATYSTYKI. Teoria prawdopodobieństwa i elementy kombinatoryki. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5. Testy parametryczne (na

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 2 autorzy: A. Gonczarek, J.M. Tomczak Metody estymacji Zad. 1 Pojawianie się spamu opisane jest zmienną losową x o rozkładzie dwupunktowym

Bardziej szczegółowo

Testy nieparametryczne

Testy nieparametryczne Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów

Bardziej szczegółowo

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH RÓWNOWAŻNOŚĆ METOD BADAWCZYCH Piotr Konieczka Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska Równoważność metod??? 2 Zgodność wyników analitycznych otrzymanych z wykorzystaniem porównywanych

Bardziej szczegółowo

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11 Modele DSGE Jerzy Mycielski Maj 2008 Jerzy Mycielski () Modele DSGE Maj 2008 1 / 11 Modele DSGE DSGE - Dynamiczne, stochastyczne modele równowagi ogólnej (Dynamic Stochastic General Equilibrium Model)

Bardziej szczegółowo

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4. Testowanie hipotez Niech X = (X 1... X n ) będzie próbą losową na przestrzeni X zaś P = {P θ θ Θ} rodziną rozkładów prawdopodobieństwa określonych na przestrzeni próby X. Definicja 1. Hipotezą zerową Θ

Bardziej szczegółowo