PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH

Wielkość: px
Rozpocząć pokaz od strony:

Download "PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH"

Transkrypt

1 Wykład 3 Liniowe metody klasyfikacji. Wprowadzenie do klasyfikacji pod nadzorem. Fisherowska dyskryminacja liniowa.

2 Wprowadzenie do klasyfikacji pod nadzorem.

3 Klasyfikacja pod nadzorem Klasyfikacja jest przykładem funkcjonowania systemów uczących się czyli algorytmicznych metod uczenia się na podstawie danych Uczenie pod nadzorem: Dane: wektor zmiennych objaśniających (wejściowy) i wektor zmiennych objaśnianych (wyjściowy). Zadanie polega na nauczeniu się przez system na podstawie zaobserwowanego zbioru danych, zależności wiążącej wektor wejściowy z wektorem wyjściowym. Zadaniem systemu jest nauczenie się przewidzenia wartości wektora wyjściowego w odpowiedzi na przedstawienie wektora wejściowego. Nauka odbywa się dzięki obserwowaniu zbioru danych, tzw. zbioru uczącego (próby uczącej) Przykład: regresja liniowa algorytm uczy się nieznanych wartości parametrów funkcji regresji.

4 Klasyfikacja pod nadzorem Rozważana sytuacja g niezależnych prób losowych o licznościach n 1, n 2,..., n g z g różnych populacji (g 2). Obserwacje są wektorami losowymi o tym samym wymiarze p, (p 1). Dane: x 11, x 12,..., x 1n1, z klasy (populacji) 1. x 21, x 22,..., x 2n2, z klasy (populacji) 2... x g1, x g2,..., x gng, z klasy (populacji) g. x ki = (x (1) ki, x (2),..., x (p) ) - i-ta obserwacja z k-tej populacji. ki ki

5 Klasyfikacja pod nadzorem Krótko można to zapisać jako (x i, y i ) dla i = 1, 2,..., n, gdzie n = n 1 + n n g x i oznacza i-tą obserwację y i - etykieta klasy do której należy x i, y i {1, 2,..., g} Mamy więc schemat: (wektor obserwacji; populacja do której wektor należy). Zadanie klasyfikacji pod nadzorem: podać regułę klasyfikacyjną przypisującą danej obserwacji przynależność do klasy ze zbioru {1, 2..., g} Regułę tworzymy w oparciu o próbę uczącą. Klasyfikację pod nadzorem nazywa się też klasyfikacją z nauczycielem.

6 Klasyfikacja pod nadzorem Utworzona na podstawie próby uczącej reguła pozwala każdemu zaobserwowanemu wektorowi x o którym nie wiemy do jakiej klasy należy, przypisać przynależność do pewnej klasy. Jest to zatem zadanie predykcji - przewidzenia klasy do której należy obserwacja. Reguły decyzyjne nazywamy klasyfikatorami. Tworzą one podział przestrzeni obserwacji na g rozłącznych podzbiorów Każdej nowej obserwacji (z nieznaną przynależnością do populacji) chcemy przydzielić pewną (domniemaną) klasę, popełniając możliwie mały błąd.

7 Klasyfikacja pod nadzorem Posiadając dostatecznie dużą liczbę danych, w celu oszacowania błędu, próbę uczącą dzieli się na podpróbę uczącą oraz podpróbę testową. Reguła konstruowana jest jedynie na podstawie podpróby uczącej. Obserwacje należące do podpróby testowej umożliwiają oszacowanie jakości predykcji (liczba błędnych klasyfikacji dokonanych na podpóbie testowej, porównanie oryginalnej etykiety z etykietą nadaną przez klasyfikator).

8 Klasyfikacja pod nadzorem - przykład - dane z dwóch klas Zadaniem klasyfikatora jest wyznaczenie prostej rozdzielającej klasy

9 Klasyfikacja pod nadzorem Przykłady zastosowania klasyfikacji pod nadzorem: Podleganie ryzyku zachorowania na daną chorobę Zdolność kredytowa klientów banku Maszynowe rozpoznawanie pisma Niechciane wiadomości (SPAM) Każdy z tych problemów można przedstawić jako zadanie klasyfikacji pod nadzorem, jeżeli posiadamy dostateczną ilość danych wraz z precyzyjną definicją grup. W praktyce procesy klasyfikacyjne obarczone są niepewnością wynikającą na ogół z braku rozdzielności klas.

10 Fisherowska dyskryminacja liniowa - przypadek dwóch klas Ronald Fisher (1936) zaproponował algorytm liniowej analizy dyskryminacyjnej (LDA) Metoda prowadzi do reguły dyskryminacyjnej (klasyfikacyjnej) opartej na funkcji liniowej. Dla przypadku dwóch klas zadanie polega na wyznaczeniu kierunku a, który najlepiej rozdziela dwie podpróby uczące. Reguła dyskryminacyjna jest wyznaczana następująco: Znaleźć kierunek ã najlepiej rozdzielający dwie podpróby uczące, tzn kierunku maksymalizującego wyrażenie (a T x 2 a T x 1) 2, a T W a gdzie x i,i = 1, 2 są średnimi próbkowymi w klasach 1. i 2. odpowiednio oraz W = 1 n 2 2 (n k 1)S k k=1 S k - próbkowe macierze kowariancji w klasach 1. i 2.

11 Fisherowska dyskryminacja liniowa - przypadek dwóch klas Mając kierunek ã najlepiej rozdzielający klasy oraz nową obserwację x o nieznanej klasie, zaklasyfikuj x do klasy j jeżeli dla k j, j {1, 2}. Definicja ã T x ã T x j < ã T x ã T x k Zmienną ãx nazywamy pierwszą zmienną kanoniczną odpowiadającą wektorowi x, wektor ã - pierwszym wektorem kanonicznym.

12 Fisherowska dyskryminacja liniowa - przypadek dwóch klas

13 Fisherowska dyskryminacja liniowa - problem wielu klas Zaproponowane rozwiązanie możemy uogólnić na przypadek większej liczby klas, czyli gdy g > 2. Należy: Znaleźć kierunek ã maksymalizujący wyrażenie a T Ba a T W a, gdzie B = 1 g 1 g k=1 n k(x k x)(x k x) T oraz W = 1 n g g (n k 1)S k k=1 S k - próbkowe macierze kowariancji w klasach k {1, 2,..., g}. Mając kierunek ã najlepiej rozdzielający klasy oraz nową obserwację x o nieznanej klasie, zaklasyfikuj x do klasy j jeżeli dla k j, j {1, 2,..., g}. ã T x ã T x j < ã T x ã T x k

14 Fisherowska dyskryminacja liniowa Zaproproponowana metoda rozdziela klasy poprzez rzutowanie obserwacji na jeden kierunek kanoniczny ã. Aby takie rozdzielenie było w miarę dobre, obserwacje muszą być dość korzystnie ułożone. Przykład: dwie klasy : (a) niewłaściwy kierunek rzutowania (b) kierunek właściwy dobrze rozdzielający klasy

15 Fisherowska dyskryminacja liniowa Przykład: trzy klasy

16 LDA - wiecej kierunków kanonicznych Czasami nie wystarcza wyznaczenie jednej prostej (jednego kierunku kanonicznego)

17 LDA - wiecej kierunków kanonicznych Mając wyznaczony pierwszy kierunek kanoniczny ã najlepiej rozdzielający klasy poszukujemy kolejnego kierunku najlepiej rozdzielającego klasy ( w pewnym sensie ortogonalnego do kierunku pierwszego). Mając kierunek drugi, możemy wyznaczyć trzeci itd. Kierunki te nazywamy kierunkami kanonicznymi, drugim, trzecim itd.

18 LDA - wiecej kierunków kanonicznych Formalnie zadanie wyznaczenia kierunków kanonicznych przyjmuje postać Znaleźć kierunki ã r, r = 1, 2,..., t, maksymalizujące wyrażenie przy ograniczeniach s = 1, 2,..., r 1. Tutaj ã 1 = ã. a T Ba a T W a, ã r T W ã s = 0 Definicja ã r T x nazywamy r-tą zmienną kanoniczną odpowiadającą wektorowi x, zaś ã r - r- tym wektorem kanonicznym.

19 Przypadek gdy nie istnieje prosta dyskryminacyjna Jeżeli punkty (0, 0) oraz (1, 1) pochodzą z jednej klasy, natomiast obserwacje (0, 1) oraz (1, 0) pochodzą z drugiej klasy, to nie istnieje prosta rozdzielająca klasy.

20 Atrybuty jakościowe Co jeśli obserwacje mają charakter jakościowy? Na przykład Wzrost : niski/ wysoki Płeć : kobieta/ mężczyzna Trzeba zakodować liczbowo. W przypadku dwóch możliwych wartości zmiennej jedną kodujemy jako 0, drugą jako 1 Wzrost : niski (0) / wysoki (1) Płeć : kobieta (1) / mężczyzna (0)

21 Atrybuty jakościowe Co jeśli mamy więcej niż dwie wartości? Wzrost : niski/ średni / wysoki Jeśli np.: Niski oznacza mniej niż 170 cm Wysoki oznacza więcej niż 180 cm to można zastosować kodowanie Niski : 165 Średni : 175 Wysoki : 185

22 Atrybuty jakościowe - metody skoringowe Sposobem radzenia sobie z atrybutem jakościowym o m > 2 wartościach jest zastosowanie tzw. metod skoringowych. Metody skoringowe przypisują atrybutom pewne wagi Przypiszemy wagi poziomom atrybutu jakościowego (np: wzrost niski (0.35), średni (0.45), wysoki (0.20)) Wag użyjemy jako poziomów, jako możliwych liczbowych wartości zmiennej.

23 Atrybuty jakościowe - klasyfikator bayesowski Klasyfikator bayesowski (lub reguła dyskryminacyjna Bayesa) działa następująco: Niech p(k x) oznacza prawdopodobieństwo, że zaobserwowana wartość x pochodzi z klasy k. Zaobserwowany wektor x klasyfikujemy jako pochodzący z tej klasy k dla której wartość p(k x), k = 1, 2,..., g jest największa. Czyli wybieramy najbardziej prawdopodobną klasę.

24 Klasyfikator bayesowski Załóżmy, że dysponujemy obserwacją x, o której nie wiemy do której klasy należy (np. nie wiemy czy zaklasyfikować osobę jako niską czy jako wysoką). p(1 x) oznacza prawdopodobieństwo, że zaobserwowana wartość x pochodzi z klasy 1 (osoba jest niska) p(2 x) oznacza prawdopodobieństwo, że zaobserwowana wartość x pochodzi z klasy 2 (osoba jest wysoka) Zaklasyfikujemy obserwację x jako pochodzącą z klasy 1 jeżeli p(1 x) > p(2 x) Zaklasyfikujemy obserwację x jako pochodzącą z klasy 2 jeżeli p(2 x) > p(1 x)

25 Klasyfikator bayesowski Prawdopodobieństwa p(k x) nazywamy p-stwami a posteriori i wyznaczamy ze wzoru: p(k x) = π kp(x k), gdzie p(x) = p(x) g π j p(x j) oraz π j, j {1, 2,..., g} są prawdopodobieństwami pojawienia się obserwacji z klasy j (nazywane prawdopodobieństwami a priori) j=1

26 Przykład Załóżmy, że dysponujemy danymi na temat osób o których wiemy na pewno, że chorowały na raka płuc. Jest to nasza próba ucząca. Dla nowej grupy osób, o których nie wiemy czy są chore (zbiór testowy) chcemy wyznaczyć ich przynależność do klasy chory lub zdrowy (czyli powiedzieć czy są chore czy nie i z jakim prawdopodobieństwem) W tym celu stosujemy prawdopodobieństwa (a priori) przynależności do klas (chory/zdrowy) z próby uczącej. Uwzględniając ponadto rozkłady cech w poszczególnych klasach (czyli p-stwa p(x k)) wyznaczamy prawdopodobieństwa (a posteriori) przynależności do klas dla osób z nowej grupy i klasyfikujemy je do klasy o większym p-stwie a posteriori.

27 Przykład - dane iris Dane iris zawierają informacje o długości i szerokości kielicha (sepal length/ width) długości i szerokości płatka (petal length/ width) w centymetrach, dla 50 kwiatów pochodzących z trzech różnych gatunków iris: Iris setosa, Iris versicolor, Iris virginica (Anderson (1935)). Sepal.Length Sepal.Width Petal.Length Petal.Width Species setosa setosa setosa virginica virginica virginica

28 Przykład - dane iris Za zmienną objaśnianą przyjmujemy gatunek (przynależność do jednej z trzech klas) Które zmienne są istotne? (regresja) Ile kierunków kanonicznych wystarczy? Za zmienne objaśniające przyjmujemy długość i szerokość płatka: 1 data ( iris ) 2 names ( iris ) = c(" sepal. length ", " sepal. width ", " petal. length ", " petal. width ", " iris. type ") 3 library ( MASS ) 4 iris. lda = lda ( iris. type ~ petal. length + petal. width, data=iris ) 5 iris. lda

29 Interpretacja wyniku Wartości prawdopodobieństw a priori dla trzech rozważanych gatunków: Prior probabilities of groups: setosa versicolor virginica Średnie wartości zmiennych objaśniających (długość i szerokość płatka) w poszczególnych grupach: Group means: petal.length petal.width setosa versicolor virginica

30 Interpretacja wyniku Współczynniki funkcji dyskryminacyjnych Coefficients of linear discriminants: LD1 LD2 petal.length petal.width Wskazują która zmienna objaśniająca odgrywa istotną rolę. Im większy współczynnik zmiennej objaśniającej w funkcji dyskryminacyjnej, tym istotniejsza jego rola w funkcji dyskryminacyjnej. Współczynniki reprezentują korelacje cząstkowe: wkład zmiennej w wartość funkcji dyskryminacyjnej, gdy pozostałe zmienne znajdują się w modelu. Ograniczenia: w przypadku więcej niż dwóch kierunków kanonicznych, współczynniki są trudne do interpretacji.

31 Interpretacja wyniku Współczynniki funkcji dyskryminacyjnych Aby ocenić która z funkcji dyskryminacyjnych ma największą moc dyskryminacji oceniamy tzw. wartości singularne: każdej funkcji dyskryminacyjnej odpowiada wartosść singularna odzwierciedlają one część wariancji wyjaśnianej przez zmienne objaśniające w funkcji dyskryminacyjnej ich wzajemny stosunek pozwala ocenić relatywną istotność funkcji dyskryminującej. Uzyskujemy je stosując polecenie: 1 iris. lda $ svd > iris.lda$svd [1] Pierwsza wartość odpowiada pierwszej, druga- drugiej funcji dyskryminacyjnej

32 Interpretacja wyniku Proporcje śladów Proportion of trace: LD1 LD Pierwsza liczba wskazuje procent wariancji międzygrupowej wyjaśnianej przez pierwszą funkcję dyskryminacyjną Wysoka wartość śladu oznacza, że funkcja dyskryminacyjna odgrywa istotną rolę.

33 Rysunek 1 LD1 <- predict ( iris. lda )$x[,1] 2 LD2 <- predict ( iris. lda )$x[,2] 3 # 1=" setosa " 4 # 2=" versicolor " 5 # 3=" virginica " 6 plot (LD1,LD2, xlab=" Pierwsza zmienna kanoniczna ", ylab=" Druga zmienna kanoniczna ", type="n") 7 text ( cbind (LD1, LD2 ), labels = unclass ( iris$iris. type ))

34 Rysunek Pozwala ocenić czy funkcje dyskryminacyjne właściwie rozdzielają grupy Rysunek zestawiamy ze średnimi wartościami funkcji dyskryminacyjnych w każdej z grup: 1 sum ( LD1 *( iris$iris. type ==" setosa "))/ sum ( iris$iris. type ==" setosa ") [1] sum ( LD2 *( iris$iris. type ==" setosa "))/ sum ( iris$iris. type ==" setosa ") [1] sum ( LD1 *( iris$iris. type ==" versicolor "))/ sum ( iris$iris. type ==" versicolor ") [1] sum ( LD2 *( iris$iris. type ==" versicolor "))/ sum ( iris$iris. type ==" versicolor ") [1]

35 Rysunek 1 sum ( LD1 *( iris$iris. type ==" virginica "))/ sum ( iris$iris. type ==" virginica ") [1] sum ( LD2 *( iris$iris. type ==" virginica "))/ sum ( iris$iris. type ==" virginica ") [1] 0.513

36 Predykcja Stosując wyestymowany model dyskryminacyjny, chcemy zaklasyfikować nowe obserwacje do jednej z trzech klas. Stosujemy następującą metodę: Obliczmy prawdopodobieństwa tego, że nowa obserwacja należy do konkretnej klasy, stosując wyestymowany model dyskryminacyjny. Te prawdopodobieństwa wyznaczamy dla wszystkich grup. Obserwacja zostanie zaklasyfikowana jako przynależąca do tej klasy, dla której prawdopodobieństwo przynależności jest największe. Wyznaczenie tych prawdopodobieństw wymaga informacji o wartościach p-stw a priori - zazwyczaj przyjmowane frakcje obserwacji w poszczególnych grupach.

37 Predykcja Dokonujemy predykcji na zbiorze testowym, aby sprawdzić jak dobrze wyestymowany model przewiduje przynależność do klas. Predykcja na nowym zbiorze danych ma na celu klasyfikację nowych obserwacji do poszczególnych grup. 1 ## Predykcja przynależności do klasy : 2 iris. predict <- predict ( iris.lda, iris [,1:4]) > iris.predict$class [1] setosa setosa setosa setosa setosa [9] setosa setosa setosa setosa setosa... [49] setosa setosa versicolor versicolor [57] versicolor...

38 Predykcja Prawdopodobieństwa przynależności do klas (a posteriori) > iris.predict$posterior setosa versicolor virginica e e e e e e e e e Współczynniki funkcji dyskryminacyjnych > iris.predict$x LD1 LD

39 Predykcja 1 ## Klasy do których należą obiekty : 2 iris. classify <- iris. predict $class > iris.classify [1] setosa setosa setosa setosa setosa [9] setosa setosa setosa setosa setosa... 1 ## Procent właściwie zaklasyfikowanych obiektów : 2 iris. classperc <-sum ( iris. classify == iris [,5]) / 150 > iris.classperc [1] 0.98 Poprawna klasyfikacja 98% obserwacji.

40 Ocena jakości dokonanej predykcji Aby ocenić jakość predykcji konstruuje się tabele predykcji Wiersze zawierają zaobserwowane przynależności do klas zmiennej objaśnianej Kolumny zawierają klasy przewidywane przez model dla zmiennej objaśnianej W sytuacji idealnej elementy poza przekątną tabeli powinny być równe zero.

41 Ocena jakości dokonanej predykcji 1 table ( Original =iris$iris. type, Predicted = predict ( iris. lda )$class ) Predicted Original setosa versicolor virginica setosa versicolor virginica Oznacza to, że 50 spośród 50 obserwacji z grupy setosa zostało poprawnie zaklasyfikowanych przez model. Dwie obserwacje z grupy versicolor zostały błędnie zaklasyfikowane jako obserwacje z grupy virginica. Jedna obserwacja z grupy virginica została błędnie zaklasyfikowana jako obserwacja z grupy versicolor

42 Konieczne założenia Niezależność obserwacji. Normalność: macierz kowariancji zmiennych objaśniających taka sama we wszystkich grupach Jeśli nie jest spełnione założenie o normalności należy zastosować metodę kwadratowej analizy dyskryminacyjnej (QDA).

43 Przykład analizy QDA

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 5 Kwadratowa analiza dyskryminacyjna QDA. Metody klasyfikacji oparte na rozkładach prawdopodobieństwa.

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 5 Kwadratowa analiza dyskryminacyjna QDA. Metody klasyfikacji oparte na rozkładach prawdopodobieństwa. Wykład 5 Kwadratowa analiza dyskryminacyjna QDA. Metody klasyfikacji oparte na rozkładach prawdopodobieństwa. Kwadratowa analiza dyskryminacyjna Przykład analizy QDA Czasem nie jest możliwe rozdzielenie

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

Zagadnienie klasyfikacji (dyskryminacji)

Zagadnienie klasyfikacji (dyskryminacji) Zagadnienie klasyfikacji (dyskryminacji) Przykład Bank chce klasyfikować klientów starających się o pożyczkę do jednej z dwóch grup: niskiego ryzyka (spłacających pożyczki terminowo) lub wysokiego ryzyka

Bardziej szczegółowo

Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki

Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki Rozpoznawanie wzorców Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki mbereta@pk.edu.pl beretam@torus.uck.pk.edu.pl www.michalbereta.pl Twierzdzenie: Prawdopodobieostwo, że n obserwacji wybranych

Bardziej szczegółowo

5. Analiza dyskryminacyjna: FLD, LDA, QDA

5. Analiza dyskryminacyjna: FLD, LDA, QDA Algorytmy rozpoznawania obrazów 5. Analiza dyskryminacyjna: FLD, LDA, QDA dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Liniowe funkcje dyskryminacyjne Liniowe funkcje dyskryminacyjne mają ogólną

Bardziej szczegółowo

Wprowadzenie do analizy dyskryminacyjnej

Wprowadzenie do analizy dyskryminacyjnej Wprowadzenie do analizy dyskryminacyjnej Analiza dyskryminacyjna to zespół metod statystycznych używanych w celu znalezienia funkcji dyskryminacyjnej, która możliwie najlepiej charakteryzuje bądź rozdziela

Bardziej szczegółowo

Inteligentna analiza danych

Inteligentna analiza danych Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska BUDOWA DRZEW DECYZYJNYCH Drzewa decyzyjne są metodą indukcyjnego

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną

Bardziej szczegółowo

Klasyfikacja LDA + walidacja

Klasyfikacja LDA + walidacja Klasyfikacja LDA + walidacja Dr hab. Izabela Rejer Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Plan wykładu 1. Klasyfikator 2. LDA 3. Klasyfikacja wieloklasowa 4. Walidacja

Bardziej szczegółowo

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18 Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)

Bardziej szczegółowo

Wprowadzenie. Data Science Uczenie się pod nadzorem

Wprowadzenie. Data Science Uczenie się pod nadzorem Wprowadzenie Wprowadzenie Wprowadzenie Wprowadzenie Machine Learning Mind Map Historia Wstęp lub uczenie się z przykładów jest procesem budowy, na bazie dostępnych danych wejściowych X i oraz wyjściowych

Bardziej szczegółowo

WYKŁAD I: PROBLEM KLASYFIKACJI POD NADZOREM, LINIOWA ANALIZA DYSKRYMINACYJNA. Wydział Matematyki i Nauk Informacyjnych PW

WYKŁAD I: PROBLEM KLASYFIKACJI POD NADZOREM, LINIOWA ANALIZA DYSKRYMINACYJNA. Wydział Matematyki i Nauk Informacyjnych PW WYKŁAD I: PROBLEM KLASYFIKACJI POD NADZOREM, LINIOWA ANALIZA DYSKRYMINACYJNA Wydział Matematyki i Nauk Informacyjnych PW Problem klasyfikacji (pod nadzorem) LDA Model sytuacji praktycznej: n par losowych

Bardziej szczegółowo

Klasyfikacja metodą Bayesa

Klasyfikacja metodą Bayesa Klasyfikacja metodą Bayesa Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski warunkowe i bezwarunkowe 1. Klasyfikacja Bayesowska jest klasyfikacją statystyczną. Pozwala przewidzieć prawdopodobieństwo

Bardziej szczegółowo

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 4 Dyskryminacja oparta na regresji liniowej i logistycznej. Perceptron Rosenblatta.

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 4 Dyskryminacja oparta na regresji liniowej i logistycznej. Perceptron Rosenblatta. Wykład 4 Dyskryminacja oparta na regresji liniowej i logistycznej. Perceptron Rosenblatta. Dyskryminacja oparta na regresji liniowej i logistycznej Wprowadzenie Problem analizy dyskryminacyjnej jest ściśle

Bardziej szczegółowo

ALGORYTMY SZTUCZNEJ INTELIGENCJI

ALGORYTMY SZTUCZNEJ INTELIGENCJI ALGORYTMY SZTUCZNEJ INTELIGENCJI Sieci neuronowe 06.12.2014 Krzysztof Salamon 1 Wstęp Sprawozdanie to dotyczy ćwiczeń z zakresu sieci neuronowych realizowanym na przedmiocie: Algorytmy Sztucznej Inteligencji.

Bardziej szczegółowo

Indukowane Reguły Decyzyjne I. Wykład 8

Indukowane Reguły Decyzyjne I. Wykład 8 Indukowane Reguły Decyzyjne I Wykład 8 IRD Wykład 8 Plan Powtórka Krzywa ROC = Receiver Operating Characteristic Wybór modelu Statystyka AUC ROC = pole pod krzywą ROC Wybór punktu odcięcia Reguły decyzyjne

Bardziej szczegółowo

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona; LABORATORIUM 4 Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona; dwie zmienne zależne mierzalne małe próby duże próby rozkład normalny

Bardziej szczegółowo

Wnioskowanie bayesowskie

Wnioskowanie bayesowskie Wnioskowanie bayesowskie W podejściu klasycznym wnioskowanie statystyczne oparte jest wyłącznie na podstawie pobranej próby losowej. Możemy np. estymować punktowo lub przedziałowo nieznane parametry rozkładów,

Bardziej szczegółowo

Elementy statystyki wielowymiarowej

Elementy statystyki wielowymiarowej Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych

Bardziej szczegółowo

Klasyfikator liniowy Wstęp Klasyfikator liniowy jest najprostszym możliwym klasyfikatorem. Zakłada on liniową separację liniowy podział dwóch klas między sobą. Przedstawia to poniższy rysunek: 5 4 3 2

Bardziej szczegółowo

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L, Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której

Bardziej szczegółowo

Testy nieparametryczne

Testy nieparametryczne Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów

Bardziej szczegółowo

Stanisław Cichocki. Natalia Neherebecka. Zajęcia 15-17

Stanisław Cichocki. Natalia Neherebecka. Zajęcia 15-17 Stanisław Cichocki Natalia Neherebecka Zajęcia 15-17 1 1. Binarne zmienne zależne 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników 3. Probit a) Interpretacja współczynników b) Miary

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka

Stanisław Cichocki. Natalia Nehrebecka Stanisław Cichocki Natalia Nehrebecka 1 1. Binarne zmienne zależne 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników 3. Probit a) Interpretacja współczynników b) Miary dopasowania 4.

Bardziej szczegółowo

Agnieszka Nowak Brzezińska

Agnieszka Nowak Brzezińska Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia

Bardziej szczegółowo

Analiza składowych głównych. Wprowadzenie

Analiza składowych głównych. Wprowadzenie Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących

Bardziej szczegółowo

Wprowadzenie. Metody bayesowskie Drzewa klasyfikacyjne i lasy losowe Sieci neuronowe SVM. Klasyfikacja. Wstęp

Wprowadzenie. Metody bayesowskie Drzewa klasyfikacyjne i lasy losowe Sieci neuronowe SVM. Klasyfikacja. Wstęp Wstęp Problem uczenia się pod nadzorem, inaczej nazywany uczeniem się z nauczycielem lub uczeniem się na przykładach, sprowadza się do określenia przydziału obiektów opisanych za pomocą wartości wielu

Bardziej szczegółowo

Hierarchiczna analiza skupień

Hierarchiczna analiza skupień Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym

Bardziej szczegółowo

Analiza składowych głównych

Analiza składowych głównych Analiza składowych głównych Wprowadzenie (1) W przypadku regresji naszym celem jest predykcja wartości zmiennej wyjściowej za pomocą zmiennych wejściowych, wykrycie związku między wielkościami wejściowymi

Bardziej szczegółowo

Rozglądanie się w przestrzeni Iris czyli kręcenie (głową/płaszczyzną) w czterech wymiarach

Rozglądanie się w przestrzeni Iris czyli kręcenie (głową/płaszczyzną) w czterech wymiarach Rozglądanie się w przestrzeni Iris czyli kręcenie (głową/płaszczyzną) w czterech wymiarach maja, 7 Rozglądanie się w D Plan Klasyka z brodą: zbiór danych Iris analiza składowych głównych (PCA), czyli redukcja

Bardziej szczegółowo

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego Łukasz Kończyk WMS AGH Plan prezentacji Model regresji liniowej Uogólniony model liniowy (GLM) Ryzyko ubezpieczeniowe Przykład

Bardziej szczegółowo

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi. Spis treści 1 Wstęp: generatywne algorytmy uczące 2 Gaussowska analiza dyskryminacyjna 2.1 Gaussowska analiza dyskryminacyjna a regresja logistyczna 3 Naiwny Klasyfikator Bayesa 3.1 Wygładzanie Laplace'a

Bardziej szczegółowo

Sieć przesyłająca żetony CP (counter propagation)

Sieć przesyłająca żetony CP (counter propagation) Sieci neuropodobne IX, specyficzne architektury 1 Sieć przesyłająca żetony CP (counter propagation) warstwa Kohonena: wektory wejściowe są unormowane jednostki mają unormowane wektory wag jednostki są

Bardziej szczegółowo

Projekt Sieci neuronowe

Projekt Sieci neuronowe Projekt Sieci neuronowe Chmielecka Katarzyna Gr. 9 IiE 1. Problem i dane Sieć neuronowa miała za zadanie nauczyć się klasyfikować wnioski kredytowe. W projekcie wykorzystano dane pochodzące z 110 wniosków

Bardziej szczegółowo

Regresja logistyczna (LOGISTIC)

Regresja logistyczna (LOGISTIC) Zmienna zależna: Wybór opcji zachodniej w polityce zagranicznej (kodowana jako tak, 0 nie) Zmienne niezależne: wiedza o Unii Europejskiej (WIEDZA), zamieszkiwanie w regionie zachodnim (ZACH) lub wschodnim

Bardziej szczegółowo

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA Jan Mielniczuk Wisła, grudzień 2009 PLAN Błędy predykcji i ich podstawowe estymatory Estymacja błędu predykcji w modelu liniowym. Funkcje kryterialne Własności

Bardziej szczegółowo

Elementy modelowania matematycznego

Elementy modelowania matematycznego Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski

Bardziej szczegółowo

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew.

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew. PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew. Wprowadzenie Drzewo klasyfikacyjne Wprowadzenie Formalnie : drzewo

Bardziej szczegółowo

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania

Bardziej szczegółowo

Prawdopodobieństwo i statystyka

Prawdopodobieństwo i statystyka Wykład XV: Zagadnienia redukcji wymiaru danych 2 lutego 2015 r. Standaryzacja danych Standaryzacja danych Własności macierzy korelacji Definicja Niech X będzie zmienną losową o skończonym drugim momencie.

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji

Bardziej szczegółowo

METODY INŻYNIERII WIEDZY

METODY INŻYNIERII WIEDZY METODY INŻYNIERII WIEDZY Metoda K Najbliższych Sąsiadów K-Nearest Neighbours (KNN) ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

Statystyka i eksploracja danych

Statystyka i eksploracja danych Wykład XII: Zagadnienia redukcji wymiaru danych 12 maja 2014 Definicja Niech X będzie zmienną losową o skończonym drugim momencie. Standaryzacją zmiennej X nazywamy zmienną losową Z = X EX Var (X ). Definicja

Bardziej szczegółowo

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne Wprowadzenie Prostym podejściem do klasyfikacji jest estymacja funkcji regresji r(x) =E(Y X =x)zpominięciemestymacjigęstościf k. Zacznijmyodprzypadkudwóchgrup,tj.gdy Y = {1,0}. Wówczasr(x) =P(Y =1 X =x)ipouzyskaniuestymatora

Bardziej szczegółowo

Zmienne zależne i niezależne

Zmienne zależne i niezależne Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }

Bardziej szczegółowo

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Współczynnik korelacji Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Własności współczynnika korelacji 1. Współczynnik korelacji jest liczbą niemianowaną 2. ϱ 1,

Bardziej szczegółowo

Quick Launch Manual:

Quick Launch Manual: egresja Odds atio Quick Launch Manual: regresja logistyczna i odds ratio Uniwesytet Warszawski, Matematyka 28.10.2009 Plan prezentacji egresja Odds atio 1 2 egresja egresja logistyczna 3 Odds atio 4 5

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

METODY INŻYNIERII WIEDZY

METODY INŻYNIERII WIEDZY METODY INŻYNIERII WIEDZY Metoda K Najbliższych Sąsiadów K-Nearest Neighbours (KNN) ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta

Bardziej szczegółowo

Systemy uczące się wykład 2

Systemy uczące się wykład 2 Systemy uczące się wykład 2 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 19 X 2018 Podstawowe definicje Fakt; Przesłanka; Konkluzja; Reguła; Wnioskowanie. Typy wnioskowania

Bardziej szczegółowo

Regresyjne metody łączenia klasyfikatorów

Regresyjne metody łączenia klasyfikatorów Regresyjne metody łączenia klasyfikatorów Tomasz Górecki, Mirosław Krzyśko Wydział Matematyki i Informatyki Uniwersytet im. Adama Mickiewicza XXXV Konferencja Statystyka Matematyczna Wisła 7-11.12.2009

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia

Bardziej szczegółowo

Prawdopodobieństwo i statystyka

Prawdopodobieństwo i statystyka Wykład VIII: Przestrzenie statystyczne. Estymatory 1 grudnia 2014 Wprowadzenie Przykład: pomiar z błędem Współczynnik korelacji r(x, Z) = 0, 986 Wprowadzenie Przykład: pomiar z błędem Współczynnik korelacji

Bardziej szczegółowo

Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań

Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań TABELA ODNIESIEŃ EFEKTÓW KSZTAŁCENIA OKREŚLONYCH DLA PROGRAMU KSZTAŁCENIA DO EFEKTÓW KSZTAŁCENIA OKREŚLONYCH DLA OBSZARU KSZTAŁCENIA I PROFILU STUDIÓW PROGRAM KSZTAŁCENIA: POZIOM KSZTAŁCENIA: PROFIL KSZTAŁCENIA:

Bardziej szczegółowo

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak 1 Wprowadzenie. Zmienne losowe Podczas kursu interesować nas będzie wnioskowanie o rozpatrywanym zjawisku. Poprzez wnioskowanie rozumiemy

Bardziej szczegółowo

Ekonometria Analiza dyskryminacyjna

Ekonometria Analiza dyskryminacyjna Ekonometria Analiza dyskryminacyjna Paweł Cibis pawel@cibis.pl 11 maja 2007 A dlaczego Power Point? a tak dla odmiany ;-); Wielowymiarowa analiza porównawcza Dyscyplina naukowa zajmująca się porównywaniem

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA STATYSTYKA MATEMATYCZNA 1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich rozkłady 3. opulacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5.

Bardziej szczegółowo

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Spis treści Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis treści Spis treści 1 Wstęp Bardzo często interesujący

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

Data Mining Wykład 6. Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa.

Data Mining Wykład 6. Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa. GLM (Generalized Linear Models) Data Mining Wykład 6 Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa Naiwny klasyfikator Bayesa jest klasyfikatorem statystycznym -

Bardziej szczegółowo

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna Regresja wieloraka Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna zmienna niezależna (można zobrazować

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych 9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :

Bardziej szczegółowo

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska Wrocław University of Technology WYKŁAD 4 Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie autor: Maciej Zięba Politechnika Wrocławska Klasyfikacja Klasyfikacja (ang. Classification):

Bardziej szczegółowo

Analiza regresji - weryfikacja założeń

Analiza regresji - weryfikacja założeń Medycyna Praktyczna - portal dla lekarzy Analiza regresji - weryfikacja założeń mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof.

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska DRZEWO REGRESYJNE Sposób konstrukcji i przycinania

Bardziej szczegółowo

Mail: Pokój 214, II piętro

Mail: Pokój 214, II piętro Wykład 2 Mail: agnieszka.nowak@us.edu.pl Pokój 214, II piętro http://zsi.tech.us.edu.pl/~nowak Predykcja zdolność do wykorzystania wiedzy zgromadzonej w systemie do przewidywania wartości dla nowych danych,

Bardziej szczegółowo

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne Wykład 4 Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym 2. Rozkłady próbkowe 3. Centralne twierdzenie graniczne Przybliżenie rozkładu dwumianowego rozkładem normalnym Niech Y ma rozkład

Bardziej szczegółowo

Analizy wariancji ANOVA (analysis of variance)

Analizy wariancji ANOVA (analysis of variance) ANOVA Analizy wariancji ANOVA (analysis of variance) jest to metoda równoczesnego badania istotności różnic między wieloma średnimi z prób pochodzących z wielu populacji (grup). Model jednoczynnikowy analiza

Bardziej szczegółowo

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1. tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1

Bardziej szczegółowo

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74 3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15

Bardziej szczegółowo

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno WSTĘP DO REGRESJI LOGISTYCZNEJ Dr Wioleta Drobik-Czwarno REGRESJA LOGISTYCZNA Zmienna zależna jest zmienną dychotomiczną (dwustanową) przyjmuje dwie wartości, najczęściej 0 i 1 Zmienną zależną może być:

Bardziej szczegółowo

Politechnika Warszawska Wydział Matematyki i Nauk Informacyjnych METODY ŁĄCZENIA KLASYFIKATORÓW W ANALIZIE DYSKRYMINACYJNEJ

Politechnika Warszawska Wydział Matematyki i Nauk Informacyjnych METODY ŁĄCZENIA KLASYFIKATORÓW W ANALIZIE DYSKRYMINACYJNEJ Politechnika Warszawska Wydział Matematyki i Nauk Informacyjnych PRACA DYPLOMOWA MAGISTERSKA MATEMATYKA METODY ŁĄCZENIA KLASYFIKATORÓW W ANALIZIE DYSKRYMINACYJNEJ Autor: Iwona Głowacka Promotor: Prof.

Bardziej szczegółowo

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta Stan dotychczasowy OCENA KLASYFIKACJI w diagnostyce Wybraliśmy metodę uczenia maszynowego (np. sieć neuronowa lub drzewo decyzyjne), która będzie klasyfikować nieznane przypadki Na podzbiorze dostępnych

Bardziej szczegółowo

Jądrowe klasyfikatory liniowe

Jądrowe klasyfikatory liniowe Jądrowe klasyfikatory liniowe Waldemar Wołyński Wydział Matematyki i Informatyki UAM Poznań Wisła, 9 grudnia 2009 Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 1 / 19 Zagadnienie

Bardziej szczegółowo

ANALIZA REGRESJI WIELOKROTNEJ. Zastosowanie statystyki w bioinżynierii Ćwiczenia 8

ANALIZA REGRESJI WIELOKROTNEJ. Zastosowanie statystyki w bioinżynierii Ćwiczenia 8 ANALIZA REGRESJI WIELOKROTNEJ Zastosowanie statystyki w bioinżynierii Ćwiczenia 8 ZADANIE 1A 1. Irysy: Sprawdź zależność długości płatków korony od ich szerokości Utwórz wykres punktowy Wyznacz współczynnik

Bardziej szczegółowo

Natalia Neherbecka. 11 czerwca 2010

Natalia Neherbecka. 11 czerwca 2010 Natalia Neherbecka 11 czerwca 2010 1 1. Konsekwencje heteroskedastyczności i autokorelacji 2. Uogólniona MNK 3. Stosowalna Uogólniona MNK 4. Odporne macierze wariancji i kowariancji b 2 1. Konsekwencje

Bardziej szczegółowo

Analiza wariancji i kowariancji

Analiza wariancji i kowariancji Analiza wariancji i kowariancji Historia Analiza wariancji jest metodą zaproponowaną przez Ronalda A. Fishera. Po zakończeniu pierwszej wojny światowej był on pracownikiem laboratorium statystycznego w

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010 STATYSTYKA MATEMATYCZNA WYKŁAD 14 18 stycznia 2010 Model statystyczny ROZKŁAD DWUMIANOWY ( ) {0, 1,, n}, {P θ, θ (0, 1)}, n ustalone P θ {K = k} = ( ) n θ k (1 θ) n k, k k = 0, 1,, n Geneza: Rozkład Bernoulliego

Bardziej szczegółowo

2. Empiryczna wersja klasyfikatora bayesowskiego

2. Empiryczna wersja klasyfikatora bayesowskiego Algorytmy rozpoznawania obrazów 2. Empiryczna wersja klasyfikatora bayesowskiego dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Brak pełnej informacji probabilistycznej Klasyfikator bayesowski

Bardziej szczegółowo

Statystyczna analiza Danych

Statystyczna analiza Danych Statystyczna analiza Danych Dla bioinformatyków Wykład pierwszy: O testowaniu hipotez Plan na dziś Quiz! Cele wykładu Plan na semestr Kryteria zaliczenia Sprawy organizacyjne Quiz (15 minut) Jakie znasz

Bardziej szczegółowo

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład Rozdział 1 Wektory losowe 1.1 Wektor losowy i jego rozkład Definicja 1 Wektor X = (X 1,..., X n ), którego każda współrzędna jest zmienną losową, nazywamy n-wymiarowym wektorem losowym (krótko wektorem

Bardziej szczegółowo

Metody Sztucznej Inteligencji II

Metody Sztucznej Inteligencji II 17 marca 2013 Neuron biologiczny Neuron Jest podstawowym budulcem układu nerwowego. Jest komórką, która jest w stanie odbierać i przekazywać sygnały elektryczne. Neuron działanie Jeżeli wartość sygnału

Bardziej szczegółowo

KLASYFIKACJA. Słownik języka polskiego

KLASYFIKACJA. Słownik języka polskiego KLASYFIKACJA KLASYFIKACJA Słownik języka polskiego Klasyfikacja systematyczny podział przedmiotów lub zjawisk na klasy, działy, poddziały, wykonywany według określonej zasady Klasyfikacja polega na przyporządkowaniu

Bardziej szczegółowo

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8 Stanisław Cichocki Natalia Nehrebecka Zajęcia 8 1. Testy diagnostyczne 2. Testowanie prawidłowości formy funkcyjnej modelu 3. Testowanie normalności składników losowych 4. Testowanie stabilności parametrów

Bardziej szczegółowo

Wykład 3 Hipotezy statystyczne

Wykład 3 Hipotezy statystyczne Wykład 3 Hipotezy statystyczne Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu obserwowanej zmiennej losowej (cechy populacji generalnej) Hipoteza zerowa (H 0 ) jest hipoteza

Bardziej szczegółowo

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1 Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie

Bardziej szczegółowo

Centralne twierdzenie graniczne

Centralne twierdzenie graniczne Instytut Sterowania i Systemów Informatycznych Universytet Zielonogórski Wykład 4 Ważne uzupełnienie Dwuwymiarowy rozkład normalny N (µ X, µ Y, σ X, σ Y, ρ): f XY (x, y) = 1 2πσ X σ Y 1 ρ 2 { [ (x ) 1

Bardziej szczegółowo

Metody klasyfikacji danych - część 1 p.1/24

Metody klasyfikacji danych - część 1 p.1/24 Metody klasyfikacji danych - część 1 Inteligentne Usługi Informacyjne Jerzy Dembski Metody klasyfikacji danych - część 1 p.1/24 Plan wykładu - Zadanie klasyfikacji danych - Przeglad problemów klasyfikacji

Bardziej szczegółowo

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ Celem ćwiczenia jest zapoznanie się ze sposobem działania sieci neuronowych typu MLP (multi-layer perceptron) uczonych nadzorowaną (z nauczycielem,

Bardziej szczegółowo

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński Mikroekonometria 5 Mikołaj Czajkowski Wiktor Budziński Zadanie 1. Wykorzystując dane me.medexp3.dta przygotuj model regresji kwantylowej 1. Przygotuj model regresji kwantylowej w którym logarytm wydatków

Bardziej szczegółowo

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie Wprowadzenie Konstrukcja binarnych drzew klasyfikacyjnych polega na sekwencyjnym dzieleniu podzbiorów przestrzeni próby X na dwa rozłączne i dopełniające się podzbiory, rozpoczynając od całego zbioru X.

Bardziej szczegółowo

MODELE LINIOWE. Dr Wioleta Drobik

MODELE LINIOWE. Dr Wioleta Drobik MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą

Bardziej szczegółowo

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4. Testowanie hipotez Niech X = (X 1... X n ) będzie próbą losową na przestrzeni X zaś P = {P θ θ Θ} rodziną rozkładów prawdopodobieństwa określonych na przestrzeni próby X. Definicja 1. Hipotezą zerową Θ

Bardziej szczegółowo

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych Regresja logistyczna i jej zastosowanie Model regresji logistycznej jest budowany za pomocą klasy Logistic programu WEKA. Jako danych wejściowych

Bardziej szczegółowo

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re Wykład 4 Wybór najlepszej procedury. Estymacja parametrów regresji z wykorzystaniem metody bootstrap. Wrocław, 22.03.2017r Wybór najlepszej procedury - podsumowanie Co nas interesuje przed przeprowadzeniem

Bardziej szczegółowo