Mail: Pokój 214, II piętro

Podobne dokumenty
Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska

Prawdopodobieństwo czerwonych = = 0.33

Sztuczna inteligencja : Algorytm KNN

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Elementy modelowania matematycznego

Regresja liniowa, klasyfikacja metodą k-nn. Agnieszka Nowak Brzezińska

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Analiza danych. TEMATYKA PRZEDMIOTU

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki


Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować?

KLASYFIKACJA. Słownik języka polskiego

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Rozdział 8. Regresja. Definiowanie modelu

Wprowadzenie do analizy korelacji i regresji

Testowanie hipotez statystycznych.

Własności statystyczne regresji liniowej. Wykład 4

Regresja i Korelacja

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Klasyfikacja LDA + walidacja

Analiza współzależności zjawisk

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.

STATYSTYKA MATEMATYCZNA

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

MODELE LINIOWE. Dr Wioleta Drobik

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Sposoby prezentacji problemów w statystyce

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

Hierarchiczna analiza skupień

Co to jest klasyfikacja? Klasyfikacja a grupowanie Naiwny klasyfikator Bayesa

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Statystyka w zarządzaniu : pełny wykład / Amir D. Aczel. wyd. 1, dodr. 5. Warszawa; Spis treści

PRZEWODNIK PO PRZEDMIOCIE

STATYSTYKA MATEMATYCZNA

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

STATYSTYKA MATEMATYCZNA

Opis efektów kształcenia dla modułu zajęć

Podstawy statystyki matematycznej w programie R

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

Spis treści 3 SPIS TREŚCI

Elementy statystyki wielowymiarowej

Badanie zależności skala nominalna

2. Empiryczna wersja klasyfikatora bayesowskiego

STATYSTYKA MATEMATYCZNA

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

data mining machine learning data science

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Wnioskowanie bayesowskie

WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO

ALGORYTM RANDOM FOREST

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

dr Jerzy Pusz, st. wykładowca, Wydział Matematyki i Nauk Informacyjnych Politechniki Warszawskiej B. Ogólna charakterystyka przedmiotu

Statystyka i Analiza Danych

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Widzenie komputerowe (computer vision)

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Z poprzedniego wykładu

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

MATEMATYKA3 Mathematics3. Elektrotechnika. I stopień ogólnoakademicki. studia stacjonarne. Katedra Matematyki dr Zdzisław Piasta

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 30 zaliczenie z oceną

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

GRUPY NIEZALEŻNE Chi kwadrat Pearsona GRUPY ZALEŻNE (zmienne dwuwartościowe) McNemara Q Cochrana

Regresja logistyczna (LOGISTIC)

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Z-LOG-033I Statystyka Statistics

Z-0033z Statystyka. Zarządzanie i Inżynieria Produkcji I stopień Ogólnoakademicki. Stacjonarne Wszystkie Katedra Matematyki dr Zdzisław Piasta

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

W1. Wprowadzenie. Statystyka opisowa

Z-LOGN1-006 Statystyka Statistics

Z-ZIPN1-004 Statystyka. Zarządzanie i Inżynieria Produkcji I stopień Ogólnoakademicki Niestacjonarne Wszystkie Katedra Matematyki dr Zdzisław Piasta

Statystyka matematyczna i ekonometria

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 30 zaliczenie z oceną. laboratoria 30 zaliczenie z oceną

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

Eksploracja danych - wykład IV

Transkrypt:

Wykład 2

Mail: agnieszka.nowak@us.edu.pl Pokój 214, II piętro http://zsi.tech.us.edu.pl/~nowak

Predykcja zdolność do wykorzystania wiedzy zgromadzonej w systemie do przewidywania wartości dla nowych danych, wcześniej niesklasyfikowanych. Opis danych - zdolność do identyfikacji interesujących faktów, wzorców, zależności, relacji lub nieprawidłowości w danych, wiedza taka ma być potem wykorzystana w odpowiednim celu, np. wykrywanie fałszywych roszczeń ubezpieczeniowych.

Asocjacje wykrywanie pewnych zależności między danymi, które wielokrotnie występują wspólnie np. produktów kupowanych razem przez klientów. Grupowanie wykrywanie profili klientów, dla ukierunkowanych kampanii marketingowych. Wykrywanie odchyleń (outliers) defraudacje.

Klasyfikacja - model może przewidzieć, czy klient kupi, czy nie dany produkt (metody takie jak regresja logistyczna, analiza dyskryminacyjna, naiwny klasyfikator Bayesa) Przewidywanie związane z estymacją, prognozowaniem i odnoszące się do generowania oceny lub prognozy na zmiennej ciągłej. Np. Model, który przewiduje sprzedaż za dany kwartał (najczęściej za pomocą regresji).

Oprogramowanie Traceis pozwala na: Przygotowanie danych do analizy, Generowanie statystyk, Wizualizacja zmiennych, grupowanie obserwacji, predykcję.

Typ zadania specyfika rola metody opis asocjacje Znajdowanie powiązań między częstymi danymi, Reguły asocjacyjne, drzewa decyzyjne, grupowanie Podział danych na grupy o podobnych cechach Analiza skupień, drzewa decyzyjne outliery Wykrywanie odchyleń w danych Grupowanie, wykresy predykcja klasyfikacja Przewidywanie wartości zmiennych jakościowych Analiza dyskryminacyjna, naiwny klasyfikator Bayesa regresja Oszacowanie wartości zmiennych ilościowych Regresja wielokrotna

Ładowanie danych: zbiory danych mogą zawierać nawet 20 tyś. Wierszy i 30 tyś. kolumn Przygotowanie danych Tabele i wykresy: tablice kontyngencji, wykresy częstości, histogram, wykresy pudełkowe Statystyki: statystyka opisowa, przedziały ufności, rozkład chi-kwadrat, testowanie hipotez statystycznych, analiza wariancji Grupowanie:analiza skupień, reguły asocjacyjne, drzewa klasyfikacyjne Predykcja: k-nn, naiwny klasyfikator Bayesa, sieci neuronowe

Abalone Database [ftp://ftp.ics.uci.edu/pub/machine-learning-databases/abalone/] Adult Database[ftp://ftp.ics.uci.edu/pub/machine-learning-databases/adult/] Auto-Mpg [ftp://ftp.ics.uci.edu/pub/machine-learning-databases/auto-mpg/] Pima Indians Diabetes Database [ftp://ftp.ics.uci.edu/pub/machine-learningdatabases/pima-indians-diabetes/] Dodatkowe źródła danych dostępne: Kdnuggets [http://www.kdnuggets.com/datasets/index.html] IEEE Neural Networks Council Standards Committee [http://neural.cs.nthu.edu.tw/jang/benchmark/] Frequent Itemset Mining Dataset Repository [http://fimi.cs.helsinki.fi/data/] National Cancer Institute Data Sets [http://discover.nci.nih.gov/datasets.jsp] KDDCUP [http://www.acm.org/sigs/sigkdd/kddcup/] StatLib [http://lib.stat.cmu.edu/datasets/]

Reguły klasyfikacji:

Wersja I

Wersja II

Wersja III

metoda typ Zmienna niezależna Regresja liniowa Regresja Wszystkie ilościowe Zakłada liniową zależność, prosta w implementacji Analiza dyskryminacyjna klasyfikacja Wszystkie ilościowe Zakłada istnienie podobnych grup Regresja logistyczna Klasyfikacja Wszystkie ilościowe Oblicza prawdopodobieństwo Naiwny klasyfikator Bayesa klasyfikacja Tylko nominalne (jakościowe) Wymaga dużego zbioru danych K-NN Regresja lub klasyfikacja Wszystkie ilościowe Dobre dla nieliniowych zależności, dla odchyleń w danych, i dobrze wyjaśnia dane Sieci neuronowe Regresja lub klasyfikacja Wszystkie ilościowe Model czarnej skrzynki CART Regresja lub klasyfikacja Każde Dobrze wyjaśnia rozumowanie za pomocą drzew klasyfikacji

mały Duże ryzyko majątek Średni, duży oszczędności Małe, średnie duże majątek Małe ryzyko duży Średni Małe ryzyko Duże ryzyko

Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe może być określenie- model cech niezależnych. Model prawdopodobieństwa można wyprowadzić korzystając z twierdzenia Bayesa. W zależności od rodzaju dokładności modelu prawdopodobieństwa, naiwne klasyfikatory bayesowskie można uczyć bardzo skutecznie w trybie uczenia z nadzorem.

Jeśli wiemy, że kulek czerwonych jest 2 razy mniej niż zielonych (bo czerwonych jest 20 a zielonych 40) to prawdopodobieństwo tego, że kolejna (nowa) kulka będzie koloru zielonego jest dwa razy większe niż tego, że kulka będzie czerwona. Dlatego możemy napisać, że znane z góry prawdopodobieństwa:

Jeśli więc czerwonych jest 20 a zielonych 40, to razem wszystkich jest 60. Więc Więc teraz gdy mamy do czynienia z nową kulką ( na rysunku biała):

To spróbujmy ustalić jaka ona będzie. Dokonujemy po prostu klasyfikacji kulki do jednej z dwóch klas: zielonych bądź czerwonych. Jeśli weźmiemy pod uwagę sąsiedztwo białej kulki takie jak zaznaczono, a więc do 4 najbliższych sąsiadów, to widzimy, że wśród nich są 3 kulka czerwone i 1 zielona. Obliczamy liczbę kulek w sąsiedztwie należących do danej klasy : zielonych bądź czerwonych z wzorów: W naszym przypadku, jest dziwnie, bo akurat w sąsiedztwie kulki X jest więcej kulek czerwonych niż zielonych, mimo, iż kulek zielonych jest ogólnie 2 razy więcej niż czerwonych. Dlatego zapiszemy, że

Dlatego ostatecznie powiemy, że Prawdopodobieństwo że kulka X jest zielona = prawdopodobieństwo kulki zielonej * prawdopodobieństwo, że kulka X jest zielona w swoim sąsiedztwie = Prawdopodobieństwo że kulka X jest czerwona = prawdopodobieństwo kulki czerwonej * prawdopodobieństwo, że kulka X jest czerwona w swoim sąsiedztwie = Ostatecznie klasyfikujemy nową kulkę X do klasy kulek czerwonych, ponieważ ta klasa dostarcza nam większego prawdopodobieostwa posteriori.

jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. -

Dany jest zbiór uczący zawierający obserwacje z których każda ma przypisany wektor zmiennych objaśniających oraz wartośd zmiennej objaśnianej Y. Dana jest obserwacja C z przypisanym wektorem zmiennych objaśniających dla której chcemy prognozowad wartośd zmiennej objaśnianej Y.

1. porównanie wartości zmiennych objaśniających dla obserwacji C z wartościami tych zmiennych dla każdej obserwacji w zbiorze uczącym. 2. wybór k (ustalona z góry liczba) najbliższych do C obserwacji ze zbioru uczącego. 3. Uśrednienie wartości zmiennej objaśnianej dla wybranych obserwacji, w wyniku czego uzyskujemy prognozę. Przez "najbliższą obserwację" mamy na myśli, taką obserwację, której odległośd do analizowanej przez nas obserwacji jest możliwie najmniejsza.

Najbliższy dla naszego obiektu buźka jest obiekt Więc przypiszemy nowemu obiektowi klasę:

Mimo, że najbliższy dla naszego obiektu buźka jest obiekt Metodą głosowania ustalimy, że skoro mamy wziąć pod uwagę 5 najbliższych sąsiadów tego obiektu, a widać, że 1 z nich ma klasę: Zaś 4 pozostałe klasę: To przypiszemy nowemu obiektowi klasę:

Schemat algorytmu: Poszukaj obiektu najbliższego w stosunku do obiektu klasyfikowanego. Określenie klasy decyzyjnej na podstawie obiektu najbliższego. Cechy algorytmu: Bardziej odporny na szumy - w poprzednim algorytmie obiekt najbliższy klasyfikowanemu może być zniekształcony - tak samo zostanie zaklasyfikowany nowy obiekt. Konieczność ustalenia liczby najbliższych sąsiadów. Wyznaczenie miary podobieństwa wśród obiektów (wiele miar podobieństwa). Dobór parametru k - liczby sąsiadów: Jeśli k jest małe, algorytm nie jest odporny na szumy jakość klasyfikacji jest niska. Jeśli k jest duże, czas działania algorytmu rośnie - większa złożoność obliczeniowa. Należy wybrać k, które daje najwyższą wartość klasyfikacji.

Wyznaczanie odległości obiektów: odległość euklidesowa

Obiekty są analizowane w ten sposób, że oblicza się odległości bądź podobieństwa między nimi. Istnieją różne miary podobieństwa czy odległości. Powinny być one wybierane konkretnie dla typu danych analizowanych: inne są bowiem miary typowo dla danych binarnych, inne dla danych nominalnych a inne dla danych numerycznych. Nazwa Wzór gdzie: x,y - to wektory wartości cech porównywanych obiektów w przestrzeni p- wymiarowej, gdzie odpowiednio wektory wartości to: oraz. odległośd euklidesowa odległośd kątowa współczynnik korelacji liniowej Pearsona Miara Gowera

Oblicz odległość punktu A o współrzędnych (2,3) do punktu B o współrzędnych (7,8). 9 8 7 6 5 4 3 2 1 0 A B 0 2 4 6 8 D (A,B) = pierwiastek ((7-2) 2 + (8-3) 2 ) = pierwiastek (25 + 25) = pierwiastek (50) = 7.07

9 8 B 7 6 5 4 3 A A B C 2 1 C 0 0 1 2 3 4 5 6 7 8 Mając dane punkty: A(2,3), B(7,8) oraz C(5,1) oblicz odległości między punktami: D (A,B) = pierwiastek ((7-2) 2 + (8-3) 2 ) = pierwiastek (25 + 25) = pierwiastek (50) = 7.07 D (A,C) = pierwiastek ((5-2) 2 + (3-1) 2 ) = pierwiastek (9 + 4) = pierwiastek (13) = 3.60 D (B,C) = pierwiastek ((7-5) 2 + (3-8) 2 ) = pierwiastek (4 + 25) = pierwiastek (29) = 5.38

Obiekt klasyfikowany podany jako ostatni : a = 3, b = 6 Teraz obliczmy odległości poszczególnych obiektów od wskazanego. Dla uproszczenia obliczeń posłużymy sie wzorem:

Znajdujemy więc k najbliższych sąsiadów. Załóżmy, że szukamy 9 najbliższych sąsiadów. Wyróżnimy ich kolorem zielonym. Sprawdzamy, które z tych 9 najbliższych sąsiadów są z klasy + a które z klasy -? By to zrobić musimy znaleźć k najbliższych sąsiadów (funkcja Excela o nazwie MIN.K)

eraz w komórce (kolumna C, wiersz 26) wreszcie możemy napisad formułę, która wstawi odpowiednią wartośd. W ten sposób stwierdzimy, że obiekt a=3 i b=6 zaliczymy do klasy -

Wyobraźmy sobie, że nie mamy 2 zmiennych opisujących każdy obiekt, ale tych zmiennych jest np. 5: {v1,v2,v3,v4,v5} i że obiekty opisane tymi zmiennymi to 3 punkty: A, B i C: V1 V2 V3 V4 V5 A 0.7 0.8 0.4 0.5 0.2 B 0.6 0.8 0.5 0.4 0.2 C 0.8 0.9 0.7 0.8 0.9 Policzmy teraz odległość między punktami: D (A,B) = pierwiastek ((0.7-0.6) 2 + (0.8-0.8) 2 + (0.4-0.3) 2 + (0.5-0.4) 2 + (0.2-0.2) 2 ) = pierwiastek (0.01 + 0.01 + 0.01) = pierwiastek (0.03) = 0.17 D (A,C) = pierwiastek ((0.7-0.8) 2 + (0.8-0.9) 2 + (0.4-0.7) 2 + (0.5-0.8) 2 + (0.2-0.9) 2 ) = pierwiastek (0.01 + 0.01 + 0.09 + 0.09 + 0.49) = pierwiastek (0.69) = 0.83 D (B,C) = pierwiastek ((0.6-0.8) 2 + (0.8-0.9) 2 + (0.5-0.7) 2 + (0.4-0.8) 2 + (0.2-0.9) 2 ) = pierwiastek (0.04 + 0.01 + 0.04+0.16 + 0.49) = pierwiastek (0.74) = 0.86 Szukamy najmniejszej odległości, bo jeśli te dwa punkty są najbliżej siebie, dla których mamy najmniejszą odległości! A więc najmniejsza odległość jest między punktami A i B!

Czym różni się predykcja od klasyfikacji? Na czym polega algorytm K-NN? Na czym bazuje alg. Naiwnego klasyfikatora Bayesa? Co wiemy dzięki badaniu korelacji?