Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować?
|
|
- Joanna Matusiak
- 7 lat temu
- Przeglądów:
Transkrypt
1 Algorytm k-nn
2 Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować? Jak daleko są położone obiekty od siebie?
3 knn k nearest neighbours jest odpowiedzią na te problemy. Jest to równie prosty klasyfikator (ściślej: algorytm regresji nieparametrycznej używany w statystyce do prognozowania wartości pewnej zmiennej losowej). Klasyfikacja nowych przypadków jest realizowana na bieżąco, tj. gdy pojawia się potrzeba klasyfikacji nowego przypadku. Schemat algorytmu: Poszukaj obiektu/ów najbliższego w stosunku do obiektu klasyfikowanego. Określ klasę nowego obiektu na podstawie klasy obiektu/ów najbliższego.
4 ścisłowiec ścisłowiec humanista humanista ścisłowiec czy humanista? ścisłowiec
5 By wyznaczyć przynależność nowego przypadku (obiektu) do danej klasy należy: Obliczyć odległość między nowym obiektem a wszystkimi innymi obiektami w zbiorze. Wybrać k-najbliższych obiektów (sąsiadów). Przyporządkować nowy obiekt do najczęściej występującej klasy w obrębie jego k-najbliższych sąsiadów. Najbliżej nowej osoby są fotograf, nauczycielka i urzędnik. To oni tworzą jego sąsiedztwo. ścisłowiec ścisłowiec Wśród tych 3 osób najczęściej występują humaniści, więc nowa osoba to też raczej humanista. humanista humanista HUMANISTA ścisłowiec
6 Nie zawsze mamy pełną siatkę obiektów. Który obiekt jest najbliżej czerwonego?
7 Nie zawsze mamy pełną siatkę obiektów. Który obiekt jest najbliżej czerwonego? Wg miary Euklidesowej: D CZ, N = = 2 2 = 2,83 D CZ, Z = 3 2 = 3 D CZ, Ż = = 5 = 2,
8 Nie zawsze mamy pełną siatkę obiektów. Który obiekt jest najbliżej czerwonego? Wg miary Euklidesowej: D CZ, N = = 2 2 = 2,83 D CZ, Z = 3 2 = 3 D CZ, Ż = = 5 = 2,24 Ale już wg miary Manhattan: D CZ, N = = 4 D CZ, Z = 3 D CZ, Ż = =
9 Więcej na:
10 Parametr k jest wybierany przed rozpoczęciem działania algorytmu i przybiera wartości od 1 do liczby obiektów w zbiorze Jeśli k=1, wtedy algorytm jest trywialny: obiektowi badanemu przypisywana jest klasa zgodna z klasą najbliższego sąsiada. Dla przykładu obok obiekt czerwony będzie miał przypisaną klasę niebieski
11 Jeśli k jest różne od 1, wtedy należy odszukać k najbliższych sąsiadów obiektu, a następnie ustawić jego klasę na taką, która jest potwierdzana przez największą liczbę sąsiadów Aby to wykonać, należy wykonać prosty algorytm (przykład dla miary Euklidesa, k=3)
12 1. Wylicz odległości wszystkich obiektów w stosunku do próbki (przykład dla miary Euklidesa): D a, X = = 5 = 2,2 D b, X = = 2 2 = 2,8 D c, X = = 3 D d, X = = 5 = 2,2 D e, X = = 2 = 1,4 D f, X = = 2 2 = 2,8 D g, X = = 10 = 3, b 2 a 3 X c 4 d e 5 f 6 g
13 2. Wyznacz k (3) najmniejszych wartości (czyli najbliższe sąsiedztwo): D a, X = = 5 = 2,2 D b, X = = 2 2 = 2,8 D c, X = = 3 D d, X = = 5 = 2,2 D e, X = = 2 = 1,4 D f, X = = 2 2 = 2,8 D g, X = = 10 = 3, b 2 a 3 X c 4 d e 5 f 6 g
14 3. Wyznacz wartości liczbowe określające stopień wsparcia dla poszczególnych klas przez sąsiadów: 1. Niebieski: 2 2. Zielony: 1 3. Żółty: 0 4. Wyznacz klasę obiektu X na podstawie klas k najbliższych sąsiadów: Obiekt X będzie niebieski b 2 a 3 X c 4 d e 5 f 6 g
15 Imię Wiek Przychód Liczba kart kredytowych VIP Tomek NIE Natalia NIE Wiesław TAK Anna NIE Emilia TAK Odległość od Czesława sqrt[(28-22) 2 + ( ) 2 + (1-1) 2 ] = sqrt[(52-22) 2 + ( ) 2 + (2-1) 2 ] = sqrt[(45-22) 2 + ( ) 2 + (4-1) 2 ] = sqrt[(33-22) 2 + ( ) 2 + (1-1) 2 ] = sqrt[(37-22) 2 + ( ) 2 + (3-1) 2 ] = Czesław NIE
16 Drzewo klasyfikacyjne k-nn Wiek < 37 TAK VIP = nie NIE Przychód < NIE NIE NIE TAK NIE TAK NIE TAK VIP = nie VIP = tak Model klasyfikuje dużo szybciej!
17 Zalety Prosty w użyciu i implementacji W łatwy sposób można wyjaśnić jak doszło do ustalenia (predykcji) klasy Odporny na wartości izolowane przez ocenę najbliższych sąsiadów Wady: Posiada duże wymogi pamięciowe musi przechować informacje o wszystkich przypadkach testowych w pamięci. Konieczność podania wartości k (liczby sąsiadów). Jest ona zależna od typu i specyfiki danych. Dla wartości k = 1, algorytm charakteryzuje się dużą podatnością na wstępowanie szumu informacyjnego. Czas dokonania klasyfikacji zwiększa się wraz z powiększaniem się zbioru danych, ponieważ zawsze trzeba wyliczyć odległość do wszystkich obiektów ze zbioru danych. Jest on zazwyczaj dużo dłuższy niż z użyciem modelu do klasyfikacji.
18 Jeśli nie zostanie dokonana normalizacja danych do przedziału 0-1, odległość między obiektami może zostać zdominowana przez wartości pewnych atrybutów (choć jest to też zależne od przyjętej miary odległości). Wiek = 45 Przychód = Liczba kart = 4 Wiek = 37 Przychód = Liczba kart = 3 Wiesław Emilia Odległość Wiesław, Emilia = Ten czynnik ma największy wpływ na wartość całego wyrażenia, reszta jest pomijalna
19 Imię Wiek Przychód Liczba kart kredytowych Tomek 28/52 = 0.54 Natalia 52/52 = 1 Wiesław 45/52 = 0.86 Anna 33/52 = 0.63 Emilia 37/52 = 0.71 Czesław 22/52= / = / = / = / = / = / = 0.08 VIP 1/4 = 0.25 NIE 2/4 = 0.5 NIE 4/4 = 1 TAK 1/4 = 0.25 NIE 3/4 = 0.75 TAK 1/4 = 0.25 NIE Odległość Wiesław, Emilia =
20 Wskazany stan prawda Wskazany stan fałsz Rzeczywisty stan prawda TP FN Rzeczywisty stan fałsz FP TN TP liczba obserwacji, które były prawdziwe i zostały wskazane jako prawdziwe FP liczba obserwacji które były fałszywe, a zostały wskazane jako prawdziwe FN liczba obserwacji które były prawdziwe, ale zostały wskazane jako fałszywe TN liczba obserwacji które były fałszywe i zostały wskazane jako fałszywe Dobry klasyfikator to taki, który minimalizuję liczbę błędów (FN oraz FP)
21 Liczba błędów (ang. error rate) miara całkowitej liczby błędów zadana jako: FN + FP Error rate = TP + FN + FP + TN Czułość (ang. sensitivity) ocenia jako dobrze klasyfikator przewiduje stan prawda: TP Sensitivity = TP + FN Specyficzność (ang. specificity) określa jako dobrze klasyfikator przewiduje stan fałszywy: TN Specificity = TN + FP
22 Do zbioru punktów określonych tabelą dodano dodatkową obserwację o współrzędnych (5,5). Do jakiej klasy będzie należeć? Używając odległości Euklidesowej, k=3 Używając miary Manhattan, k=2 Użyj programu Calc/Excel aby rozwiązać to zadanie automatycznie! Nr X Y Klasa
23 Pamiętasz SWI? Tam było coś takiego jak funkcja korelacji, czy to Ci czegoś nie przypomina? Mając dane następujące opisy dokumentów oraz ich klasyfikację do grup, sprawdź za pomocą korelacji cosinusowej do której grupy trafi nowy dokument o opisie [2,1,0,5,3,0]. Przyjmij k=3. Dok. Opis Grupa 1 [0,5,5,1,3,1] A 2 [5,0,0,4,1,5] B 3 [0,0,0,6,5,1] C 4 [0,3,3,1,1,2] A 5 [0,4,4,0,2,0] A 6 [0,0,1,6,0,3] B 7 [0,1,1,3,1,2] B 8 [0,0,1,4,5,0] C 9 [1,2,1,5,3,0] C
24 Mając dane wyniki klasyfikacji dokonaj znanymi Ci miarami oceny jej jakości. Rzeczywistość Predykcja
25 Dla następującego zbioru danych: zastosuj algorytm 5-NN do oszacowania ceny domu:
Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną
Bardziej szczegółowoAgnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Bardziej szczegółowoAgnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Bardziej szczegółowoAgnieszka Nowak Brzezińska
Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia
Bardziej szczegółowoSztuczna inteligencja : Algorytm KNN
Instytut Informatyki Uniwersytetu Śląskiego 23 kwietnia 2012 1 Algorytm 1 NN 2 Algorytm knn 3 Zadania Klasyfikacja obiektów w oparciu o najbliższe obiekty: Algorytm 1-NN - najbliższego sąsiada. Parametr
Bardziej szczegółowoEksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18
Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)
Bardziej szczegółowoPrawdopodobieństwo czerwonych = = 0.33
Temat zajęć: Naiwny klasyfikator Bayesa a algorytm KNN Część I: Naiwny klasyfikator Bayesa Naiwny klasyfikator bayerowski jest prostym probabilistycznym klasyfikatorem. Naiwne klasyfikatory bayesowskie
Bardziej szczegółowoMail: Pokój 214, II piętro
Wykład 2 Mail: agnieszka.nowak@us.edu.pl Pokój 214, II piętro http://zsi.tech.us.edu.pl/~nowak Predykcja zdolność do wykorzystania wiedzy zgromadzonej w systemie do przewidywania wartości dla nowych danych,
Bardziej szczegółowoWYKŁAD 13 ANALIZA I ROZPOZNANIE OBRAZU. Konstrukcja wektora cech z użyciem współczynników kształtu
WYKŁAD 13 ANALIZA I ROZPOZNANIE OBRAZU Współczynniki kształtu W1,...,W9 stanowią skalarną miarę kształtu analizowanego obiektu. Konstrukcja wektora cech z użyciem współczynników kształtu Wektor cech: x
Bardziej szczegółowoSztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek
Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek Cel projektu Celem projektu jest przygotowanie systemu wnioskowania, wykorzystującego wybrane algorytmy sztucznej inteligencji; Nabycie
Bardziej szczegółowoRegresja liniowa, klasyfikacja metodą k-nn. Agnieszka Nowak Brzezińska
Regresja liniowa, klasyfikacja metodą k-nn Agnieszka Nowak Brzezińska Analiza regresji Analiza regresji jest bardzo popularną i chętnie stosowaną techniką statystyczną pozwalającą opisywać związki zachodzące
Bardziej szczegółowoMETODY INŻYNIERII WIEDZY
METODY INŻYNIERII WIEDZY WALIDACJA KRZYŻOWA dla ZAAWANSOWANEGO KLASYFIKATORA KNN ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
Bardziej szczegółowoWYKŁAD 7. Testowanie jakości modeli klasyfikacyjnych metodyka i kryteria
Wrocław University of Technology WYKŁAD 7 Testowanie jakości modeli klasyfikacyjnych metodyka i kryteria autor: Maciej Zięba Politechnika Wrocławska Testowanie modeli klasyfikacyjnych Dobór odpowiedniego
Bardziej szczegółowoKlasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,
Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której
Bardziej szczegółowoRozpoznawanie obrazów
Rozpoznawanie obrazów Laboratorium Python Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest implementacja liniowego zadania
Bardziej szczegółowoElementy modelowania matematycznego
Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski
Bardziej szczegółowoMETODY INŻYNIERII WIEDZY
METODY INŻYNIERII WIEDZY Metoda K Najbliższych Sąsiadów K-Nearest Neighbours (KNN) ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
Bardziej szczegółowoIndukowane Reguły Decyzyjne I. Wykład 8
Indukowane Reguły Decyzyjne I Wykład 8 IRD Wykład 8 Plan Powtórka Krzywa ROC = Receiver Operating Characteristic Wybór modelu Statystyka AUC ROC = pole pod krzywą ROC Wybór punktu odcięcia Reguły decyzyjne
Bardziej szczegółowo9. Praktyczna ocena jakości klasyfikacji
Algorytmy rozpoznawania obrazów 9. Praktyczna ocena jakości klasyfikacji dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Zbiór uczacy i zbiór testowy 1. Zbiór uczacy służy do konstrukcji (treningu)
Bardziej szczegółowoSystemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017
Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład III bogumil.konopka@pwr.edu.pl 2016/2017 Wykład III - plan Regresja logistyczna Ocena skuteczności klasyfikacji Macierze pomyłek Krzywe
Bardziej szczegółowoAlgorytmy decyzyjne będące alternatywą dla sieci neuronowych
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny
Bardziej szczegółowoAlgorytm SAT. Marek Zając 2012. Zabrania się rozpowszechniania całości lub fragmentów niniejszego tekstu bez podania nazwiska jego autora.
Marek Zając 2012 Zabrania się rozpowszechniania całości lub fragmentów niniejszego tekstu bez podania nazwiska jego autora. Spis treści 1. Wprowadzenie... 3 1.1 Czym jest SAT?... 3 1.2 Figury wypukłe...
Bardziej szczegółowoKlasyfikacja metodą Bayesa
Klasyfikacja metodą Bayesa Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski warunkowe i bezwarunkowe 1. Klasyfikacja Bayesowska jest klasyfikacją statystyczną. Pozwala przewidzieć prawdopodobieństwo
Bardziej szczegółowoMETODY INŻYNIERII WIEDZY
METODY INŻYNIERII WIEDZY Metoda K Najbliższych Sąsiadów K-Nearest Neighbours (KNN) ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
Bardziej szczegółowoHierarchiczna analiza skupień
Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym
Bardziej szczegółowoSystemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018
Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład II bogumil.konopka@pwr.edu.pl 2017/2018 Określenie rzeczywistej dokładności modelu Zbiór treningowym vs zbiór testowy Zbiór treningowy
Bardziej szczegółowoOcena dokładności diagnozy
Ocena dokładności diagnozy Diagnoza medyczna, w wielu przypadkach może być interpretowana jako działanie polegające na podjęciu jednej z dwóch decyzji odnośnie stanu zdrowotnego pacjenta: 0 pacjent zdrowy
Bardziej szczegółowoWprowadzenie do klasyfikacji
Wprowadzenie do klasyfikacji ZeroR Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F Tutaj jest więcej obiektów klasy T, więc klasyfikator
Bardziej szczegółowoMetody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z liniowym zadaniem najmniejszych
Bardziej szczegółowoData Mining Wykład 4. Plan wykładu
Data Mining Wykład 4 Klasyfikacja danych Klasyfikacja poprzez indukcje drzew decyzyjnych Plan wykładu Sformułowanie problemu Kryteria oceny metod klasyfikacji Metody klasyfikacji Klasyfikacja poprzez indukcje
Bardziej szczegółowoAdrian Horzyk
Metody Inteligencji Obliczeniowej Metoda K Najbliższych Sąsiadów (KNN) Adrian Horzyk horzyk@agh.edu.pl AGH Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
Bardziej szczegółowoCo to jest klasyfikacja? Klasyfikacja a grupowanie Naiwny klasyfikator Bayesa
Co to jest klasyfikacja? Klasyfikacja a grupowanie Naiwny klasyfikator Bayesa Odkrywanie asocjacji Wzorce sekwencji Analiza koszykowa Podobieństwo szeregów temporalnych Klasyfikacja Wykrywanie odchyleń
Bardziej szczegółowoSystemy uczące się wykład 2
Systemy uczące się wykład 2 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 19 X 2018 Podstawowe definicje Fakt; Przesłanka; Konkluzja; Reguła; Wnioskowanie. Typy wnioskowania
Bardziej szczegółowoSystemy uczące się Lab 4
Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego
Bardziej szczegółowoZeroR. Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F
ZeroR Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 5 T 7 T 5 T 5 F 2 7 F Tutaj jest więcej obiektów klasy T, więc klasyfikator ZeroR będzie zawsze odpowiadał T niezależnie
Bardziej szczegółowoUwaga: szarych kropek po pokolorowaniu nie uwzględniaj w klasyfikowaniu kolejnych szarych.
Inteligencja obliczeniowa stud. niestac. Laboratorium 4: Zadanie klasyfikacji poznanie trzech algorytmów klasyfikujących: knn, NaiveBayes, drzewo decyzyjne. Przy pomnijmy sobie bazę danych z irysami. Na
Bardziej szczegółowoSAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006
SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu
Bardziej szczegółowo( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:
ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość
Bardziej szczegółowoRozpoznawanie obrazów
Rozpoznawanie obrazów Laboratorium Python Zadanie nr 2 κ-nn i Naive Bayes autorzy: M. Zięba, J.M. Tomczak, A. Gonczarek, S. Zaręba, J. Kaczmar Cel zadania Celem zadania jest implementacja klasyfikatorów
Bardziej szczegółowoMetody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 2 κ-nn i Naive Bayes autorzy: M. Zięba, J.M. Tomczak, A. Gonczarek, S. Zaręba Cel zadania Celem zadania jest implementacja klasyfikatorów
Bardziej szczegółowoAdam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska
Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska Anna Stankiewicz Izabela Słomska Wstęp- statystyka w politologii Rzadkie stosowanie narzędzi statystycznych Pisma Karla Poppera
Bardziej szczegółowoWprowadzenie do uczenia maszynowego
Wprowadzenie do uczenia maszynowego Agnieszka Ławrynowicz 12 stycznia 2017 Co to jest uczenie maszynowe? dziedzina nauki, która zajmuje się sprawianiem aby komputery mogły uczyć się bez ich zaprogramowania
Bardziej szczegółowoAnaliza obrazu. wykład 3. Marek Jan Kasprowicz Uniwersytet Rolniczy 2009
Analiza obrazu komputerowego wykład 3 Marek Jan Kasprowicz Uniwersytet Rolniczy 2009 Binaryzacja Binaryzacja jest jedną z ważniejszych ż czynności punktowego przetwarzania obrazów. Poprzedza prawie zawsze
Bardziej szczegółowoStan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta
Stan dotychczasowy OCENA KLASYFIKACJI w diagnostyce Wybraliśmy metodę uczenia maszynowego (np. sieć neuronowa lub drzewo decyzyjne), która będzie klasyfikować nieznane przypadki Na podzbiorze dostępnych
Bardziej szczegółowoKlasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących
Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących Cezary Dendek Wydział Matematyki i Nauk Informacyjnych PW Plan prezentacji Plan prezentacji Wprowadzenie
Bardziej szczegółowoKlasyfikator liniowy Wstęp Klasyfikator liniowy jest najprostszym możliwym klasyfikatorem. Zakłada on liniową separację liniowy podział dwóch klas między sobą. Przedstawia to poniższy rysunek: 5 4 3 2
Bardziej szczegółowoMetody klasyfikacji i rozpoznawania wzorców. Najważniejsze rodzaje klasyfikatorów
Metody klasyfikacji i rozpoznawania wzorców www.michalbereta.pl Najważniejsze rodzaje klasyfikatorów Dla określonego problemu klasyfikacyjnego (tzn. dla danego zestawu danych) należy przetestować jak najwięcej
Bardziej szczegółowoMetody Eksploracji Danych. Klasyfikacja
Metody Eksploracji Danych Klasyfikacja w wykładzie wykorzystano: 1. materiały dydaktyczne przygotowane w ramach projektu Opracowanie programów nauczania na odległość na kierunku studiów wyższych Informatyka
Bardziej szczegółowoKLASYFIKACJA. Słownik języka polskiego
KLASYFIKACJA KLASYFIKACJA Słownik języka polskiego Klasyfikacja systematyczny podział przedmiotów lub zjawisk na klasy, działy, poddziały, wykonywany według określonej zasady Klasyfikacja polega na przyporządkowaniu
Bardziej szczegółowoInformacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów
Eksploracja danych Piotr Lipiński Informacje ogólne Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów UWAGA: prezentacja to nie
Bardziej szczegółowoSTATYSTYKA I DOŚWIADCZALNICTWO
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6 Test niezależności chi-kwadrat (χ 2 ) Cel: ocena występowania zależności między dwiema cechami jakościowymi/skategoryzowanymi X- pierwsza cecha; Y druga cecha Przykłady
Bardziej szczegółowoĆwiczenia 10. Analiza regresji. Część I.
Ćwiczenia 10. Analiza regresji. Część I. Zadania obowiązkowe UWAGA! Elementy zadań oznaczone kolorem czerwonym należy przygotować lub wypełnić. Zadanie 10.1. (R/STATISTICA) Twoim zadaniem jest możliwie
Bardziej szczegółowo4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74
3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15
Bardziej szczegółowoWprowadzenie do analizy korelacji i regresji
Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących
Bardziej szczegółowoMetody Prognozowania
Wprowadzenie Ewa Bielińska 3 października 2007 Plan 1 Wprowadzenie Czym jest prognozowanie Historia 2 Ciągi czasowe Postępowanie prognostyczne i prognozowanie Predykcja długo- i krótko-terminowa Rodzaje
Bardziej szczegółowo1. Analiza algorytmów przypomnienie
1. Analiza algorytmów przypomnienie T.H. Cormen, C.E. Leiserson, R.L. Rivest, C. Stein Wprowadzenie do algorytmów, rozdziały 1-4 Wydawnictwa naukowo-techniczne (2004) Jak mierzyć efektywność algorytmu?
Bardziej szczegółowoWstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.
Wstęp do sieci neuronowych, wykład 7. M. Czoków, J. Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika w Toruniu 212-11-28 Projekt pn. Wzmocnienie potencjału dydaktycznego UMK w Toruniu
Bardziej szczegółowoALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH
1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Eksploracja danych Co to znaczy eksploracja danych Klastrowanie (grupowanie) hierarchiczne Klastrowanie
Bardziej szczegółowoWykład 4 Związki i zależności
Wykład 4 Związki i zależności Rozważmy: Dane z dwiema lub więcej zmiennymi Zagadnienia do omówienia: Zmienne objaśniające i zmienne odpowiedzi Wykres punktowy Korelacja Prosta regresji Słownictwo: Zmienna
Bardziej szczegółowoStanisław Cichocki. Natalia Neherebecka. Zajęcia 15-17
Stanisław Cichocki Natalia Neherebecka Zajęcia 15-17 1 1. Binarne zmienne zależne 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników 3. Probit a) Interpretacja współczynników b) Miary
Bardziej szczegółowoRegresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).
Statystyka i opracowanie danych Ćwiczenia 12 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA WIELORAKA Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych
Bardziej szczegółowoStanisław Cichocki. Natalia Nehrebecka
Stanisław Cichocki Natalia Nehrebecka 1 1. Binarne zmienne zależne 2. Liniowy model prawdopodobieństwa a) Interpretacja współczynników 3. Probit a) Interpretacja współczynników b) Miary dopasowania 4.
Bardziej szczegółowoAlgorytm Euklidesa. Największy wspólny dzielnik dla danych dwóch liczb całkowitych to największa liczba naturalna dzieląca każdą z nich bez reszty.
Algorytm Euklidesa Algorytm ten, jak wskazuje jego nazwa, został zaprezentowany przez greckiego matematyka - Euklidesa, żyjącego w w latach około 300r. p.n.e., w jego podstawowym dziele pt. Elementy. Algorytm
Bardziej szczegółowoRegresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com
Regresja wielokrotna Model dla zależności liniowej: Y=a+b 1 X 1 +b 2 X 2 +...+b n X n Cząstkowe współczynniki regresji wielokrotnej: b 1,..., b n Zmienne niezależne (przyczynowe): X 1,..., X n Zmienna
Bardziej szczegółowoSPRAWDZIAN NR 1 A. B. C. D.
SPRAWDZIAN NR 1 TERESA ZIEGLER IMIĘ I NAZWISKO: KLASA: GRUPA A 1. Rozwiąż równanie. log 2 x = log 4 5 2. Zaznacz takie dokończenie zdania, aby otrzymać zdanie prawdziwe. Liczbę w notacji wykładniczej można
Bardziej szczegółowoEkonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota
Ekonometria ćwiczenia 3 Prowadzący: Sebastian Czarnota Strona - niezbędnik http://sebastianczarnota.com/sgh/ Normalność rozkładu składnika losowego Brak normalności rozkładu nie odbija się na jakości otrzymywanych
Bardziej szczegółowo1 TEMAT LEKCJI: 2 CELE LEKCJI: 3 METODY NAUCZANIA 4 ŚRODKI DYDAKTYCZNE 5 UWARUNKOWANIA TECHNICZNE. Scenariusz lekcji.
Kolorowa mozaika Scenariusz lekcji Scenariusz lekcji 1 TEMAT LEKCJI: Kolorowa mozaika 2 CELE LEKCJI: 2.1 Wiadomości: Uczeń potrafi: wyjaśnić pojęcie mozaika ; opisać elementy składowe mozaiki; opisać sposób
Bardziej szczegółowoWstęp do sieci neuronowych, wykład 13-14, Walidacja jakości uczenia. Metody statystyczne.
Wstęp do sieci neuronowych, wykład 13-14,. Metody statystyczne. M. Czoków, J. Piersa Faculty of Mathematics and Computer Science, Nicolaus Copernicus University, Toruń, Poland 2011.01.11 1 Przykład Przeuczenie
Bardziej szczegółowoRegresja i Korelacja
Regresja i Korelacja Regresja i Korelacja W przyrodzie często obserwujemy związek między kilkoma cechami, np.: drzewa grubsze są z reguły wyższe, drewno iglaste o węższych słojach ma większą gęstość, impregnowane
Bardziej szczegółowoElementy statystyki wielowymiarowej
Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych
Bardziej szczegółowoTestowanie hipotez statystycznych
Testowanie hipotez statystycznych Hipotezą statystyczną jest dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Prawdziwość tego przypuszczenia
Bardziej szczegółowoStatystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r
Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów
Bardziej szczegółowoAlgorytmy klasyfikacji
Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe
Bardziej szczegółowo2. Arytmetyka procesorów 16-bitowych stałoprzecinkowych
4. Arytmetyka procesorów 16-bitowych stałoprzecinkowych Liczby stałoprzecinkowe Podstawowym zastosowaniem procesora sygnałowego jest przetwarzanie, w czasie rzeczywistym, ciągu próbek wejściowych w ciąg
Bardziej szczegółowoAlgorytm do rozpoznawania człowieka na podstawie dynamiki użycia klawiatury. Paweł Kobojek, prof. dr hab. inż. Khalid Saeed
Algorytm do rozpoznawania człowieka na podstawie dynamiki użycia klawiatury Paweł Kobojek, prof. dr hab. inż. Khalid Saeed Zakres pracy Przegląd stanu wiedzy w dziedzinie biometrii, ze szczególnym naciskiem
Bardziej szczegółowoGrupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633
Grupowanie Grupowanie 7 6 5 4 y 3 2 1 0-3 -2-1 0 1 2 3 4 5-1 -2-3 -4 x Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633 Wprowadzenie Celem procesu grupowania jest podział zbioru
Bardziej szczegółowoCLUSTERING. Metody grupowania danych
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means
Bardziej szczegółowoWstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.
Wstęp do sieci neuronowych, wykład 7. M. Czoków, J. Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika w Toruniu 213-11-19 Projekt pn. Wzmocnienie potencjału dydaktycznego UMK w Toruniu
Bardziej szczegółowoInstrukcja złożenia oferty dla uczestników w sali eaukcyjnej w systemie eaukcyjnym PROebiz.
Instrukcja złożenia oferty dla uczestników w sali eaukcyjnej w systemie eaukcyjnym PROebiz. Skrócona instrukcja poprowadzi Państwa przez proces wypełnienia (wysłania) zgłoszenia, zalogowania się i złożenia
Bardziej szczegółowoTestowanie hipotez statystycznych
9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :
Bardziej szczegółowoDokumenty środków trwałych
JDExperts Sp. z o.o. Dokumenty środków trwałych Dokumentacja rozwiązania Spis treści 1 Założenia rozwiązania... 2 1.1 Elementy rozwiązania... 2 1.2 Opis rozwiązania... 2 1.3 Ograniczenia rozwiązania...
Bardziej szczegółowoSystemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016
Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład I dr inż. Bogumil.Konopka@pwr.edu.pl 2015/2016 1 Wykład I - plan Sprawy organizacyjne Uczenie maszynowe podstawowe pojęcia Proces modelowania
Bardziej szczegółowoint suma; pralka czerwona; // definicja egzemplarza obiektu pralka * wskaŝ; // definicja wskaźnika pralka & ruda = czerwona; // definicja referencji
Pojęcie klasy Typ zmiennych informuje: o ich rozmiarze w pamięci, jaki rodzaj informacji mogą zawierać, jakie działania moŝna na nich wykonywać. W C++ dane mogą zostać powiązane z funkcjami - znaczy to,
Bardziej szczegółowoOptymalizacja ciągła
Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej
Bardziej szczegółowoKlasyfikacja. Obcinanie drzewa Naiwny klasyfikator Bayes a knn Dokładność klasyfikacji. Eksploracja danych. Klasyfikacja wykład 3
Klasyfikacja Obcinanie drzewa Naiwny klasyfikator Bayes a knn Dokładność klasyfikacji Klasyfikacja wykład 3 Kontynuujemy prezentację zagadnień związanych z klasyfikacją. Na początku przedstawimy technikę
Bardziej szczegółowoAlgorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS
Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów
Bardziej szczegółowoEgzamin / zaliczenie na ocenę*
Zał. nr do ZW /01 WYDZIAŁ / STUDIUM KARTA PRZEDMIOTU Nazwa w języku polskim Identyfikacja systemów Nazwa w języku angielskim System identification Kierunek studiów (jeśli dotyczy): Inżynieria Systemów
Bardziej szczegółowoAnaliza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania
Analiza skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania Analiza Skupień Elementy składowe procesu grupowania obiekt Ekstrakcja cech Sprzężenie zwrotne Grupowanie klastry Reprezentacja
Bardziej szczegółowoANALIZA CZYNNIKÓW ROKOWNICZYCH I METOD LECZENIA U CHORYCH NA ZIARNICĘ ZŁOŚLIWĄ
ANALIZA CZYNNIKÓW ROKOWNICZYCH I METOD LECZENIA U CHORYCH NA ZIARNICĘ ZŁOŚLIWĄ prof. dr hab. Andrzej Sokołowski, dr Adam Sagan Jednym z ważniejszych obszarów zastosowań programu STATISTICA w badaniach
Bardziej szczegółowoZapytanie ofertowe. 1. Przedmiot zamówienia: Zakup oprogramowania do analizy, agregacji i prezentacji danych i wyników prac B+R
Poznań, 1-07-2016r. ICR Sp. z o.o. Ul. Składowa 5b 61-897 Poznań NIP: 782 234 21 38, REGON: 300180642 Zapytanie ofertowe W związku z realizacją projektu pt. Zakup infrastruktury do prowadzenia prac badawczorozwojowych
Bardziej szczegółowoWszystkie wyniki w postaci ułamków należy podawać z dokładnością do czterech miejsc po przecinku!
Pracownia statystyczno-filogenetyczna Liczba punktów (wypełnia KGOB) / 30 PESEL Imię i nazwisko Grupa Nr Czas: 90 min. Łączna liczba punktów do zdobycia: 30 Czerwona Niebieska Zielona Żółta Zaznacz znakiem
Bardziej szczegółowoEgzamin ze statystyki, Studia Licencjackie Stacjonarne. TEMAT C grupa 1 Czerwiec 2007
Egzamin ze statystyki, Studia Licencjackie Stacjonarne TEMAT C grupa 1 Czerwiec 2007 (imię, nazwisko, nr albumu).. Przy rozwiązywaniu zadań, jeśli to konieczne, naleŝy przyjąć poziom istotności 0,01 i
Bardziej szczegółowomgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.
mgr inż. Magdalena Deckert Poznań, 30.11.2010r. Metody przyrostowego uczenia się ze strumieni danych. Plan prezentacji Wstęp Concept drift i typy zmian Algorytmy przyrostowego uczenia się ze strumieni
Bardziej szczegółowoTestowanie modeli predykcyjnych
Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności
Bardziej szczegółowoREGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji
Statystyka i opracowanie danych Ćwiczenia 5 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ MODEL REGRESJI LINIOWEJ Analiza regresji
Bardziej szczegółowoSzczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
Bardziej szczegółowoWybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora.
Wprowadzenie do programu RapidMiner Studio 7.6, część 7 Podstawy metod wyboru atrybutów w problemach klasyfikacyjnych, c.d. Michał Bereta www.michalbereta.pl Wybór / ocena atrybutów na podstawie oceny
Bardziej szczegółowoALGORYTM RANDOM FOREST
SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM
Bardziej szczegółowoSTATYSTYKA I DOŚWIADCZALNICTWO Wykład 4
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4 Inne układy doświadczalne 1) Układ losowanych bloków Stosujemy, gdy podejrzewamy, że może występować systematyczna zmienność między powtórzeniami np. - zmienność
Bardziej szczegółowo