Algorytmy klasyfikacji

Wielkość: px
Rozpocząć pokaz od strony:

Download "Algorytmy klasyfikacji"

Transkrypt

1 Algorytmy klasyfikacji Konrad Miziński Politechnika Warszawska Wydział Elektroniki i Technik Informacyjnych Warszawa, Polska k.mizinski@stud.elka.pw.edu.pl Streszczenie Niniejszy dokument opisuje jedna z metod odkrywania wiedzy jaka jest klasyfikacja. Zawiera ogólne wprowadzenie do samego odkrywania wiedzy oraz przybliża samo pojęcie klasyfikacji. Następnie opisuje poszczególne modelu klasyfikacji, proces ich budowy, wady, zalety oraz zastosowania. Największa uwagę przywiazuje do drzew decyzyjnych, ale przedstawia również takie algorytmy klasyfikacji jak lasy losowe, naiwny klasyfikator Bayesa czy metoda najbliższych sasiadów. Słowa kluczowe-okdrywanie wiedzy; eksploracja danych; klasyfikacja; drzewa decyzyjne; I. WSTEP W dzisiejszym świecie przechowujemy coraz większe ilości danych. Z czasem jednak samo ich gromadzenie przestało nam wystarczać. Zaczęliśmy obserwować pewne regularności w danych oraz nauczyliśmy się przewidywać jak mogą wyglądać dane jeszcze nieznane. Tak narodziła się nowa interdyscyplinarna dziedzina nauki zwana odkrywaniem wiedzy (ang. data mining). II. ODKRYWANIE WIEDZY Niezależnie od obszaru, w którym chcielibyśmy zastosować wybrane przez nas metody odkrywania wiedzy, w każdym z nich możemy wyróżnić pewne jednakowe elementy. Pierwszym z nich jest dziedzina (nazywana też populacją). Jest to zbiór wszystkich obiektów, których dotyczyć ma odkrywana przez nas wiedza. Oczywiście nigdy nie jesteśmy w stanie poznać całej dziedziny. Zazwyczaj dysponujemy jedynie jej fragmentem tzw. zbiorem danych. Zbiór taki najczęściej przyjmuje postać tabeli w relacyjnej bazie danych. Przyjmuje się ponadto, że poszczególne przykłady opisane są za pomocą tzw. atrybutów, czyli poszczególnych cech obiektów z dziedziny, które formalnie definiuje się jako dowolną funkcję określoną na dziedzinie. Atrybuty możemy podzielić na: ciągłe - określone na zbiorze liczb rzeczywistych, dyskretne - określone na skończonym zbiorze wartości, które z kolei podzielić można na: nominalne - kiedy nie możemy określić wzajemnych relacji między atrybutami, porządkowe - kiedy atrybuty daję się uporządkować. Rysunek 1. Dziedzina, zbiór danych, atrybuty Sam proces eksploracji danych podzielić można na kilka podstawowych etapów. Pierwszym z nich jest wnioskowanie indukcyjne. Polega ono na zauważaniu w danych pewnych reguł i zależności, a jego wynikiem jest uzyskanie wiedzy. Kolejnym krokiem jest formalne zapisane posiadanej wiedzy w reprezentacji obliczeniowej, czyli stworzenie tzw. modelu. Następnie możliwe jest tzw. wnioskowanie dedukcyjne - tzn. zastosowanie modelu do nowych danych z dziedziny, w celu przewidywania nieznanych do tej pory danych. III. KLASYFIKACJA Klasyfikacją nazywamy semantyczny podział przykładów na klasy, wykonywany według określonej zasady [4]. Mówiąc prościej jest to wiedza o tym jak przynależność do pewnej kategorii (tzw. klasy decyzyjnej) zależy od atrybutów. W praktyce rolę klasy decyzyjnej pełni jeden z atrybutów - tzw. atrybut docelowy. Oznacza to, że na podstawie przykładów, dla których atrybut docelowy jest znany, musimy stworzyć taki model, który będzie w stanie przywidzieć atrybut docelowy dla wszystkich przykładów z dziedziny. Model taki nazywać będziemy klasyfikatorem, a proces przewidywania klasy decyzyjnej - predykcją. IV. DRZEWA DECYZYJNE Najbardziej rozpowszechnionym modelem klasyfikacji są drzewa decyzyjne. W ogólnym przypadku drzewa są strukturą składającą się z węzłów, z których wychodzą gałęzie

2 prowadzące do innych węzłów bądź liści (przy czym nie ma ograniczenia na ilość gałęzi), oraz z liści, z których nie wychodzą już żadne gałęzie. Szczególnym przypadkiem węzła jest korzeń - węzeł do którego nie prowadzi żadna gałąź - punkt początkowy drzewa. W przypadku drzew decyzyjnych węzły reprezentują podziały przykładów na podstawie odpowiednich testów, liście zaś odpowiednie klasy docelowe. Rysunek 2. A. Konstrukcja drzewa Drzewo decyzyjne Konstrukcja drzewa decyzyjnego przebiega w sposób zstępujący (od korzenia do liści) i jest wyjątkowo prosta i intuicyjna, składa się z 2 podstawowych kroków: kryterium stopu - decyzja czy na danym etapie budowy drzewa należy utworzyć węzeł czy liść, wybór testu - w przypadku, gdy zdecydowaliśmy się na utworzenie węzła zamiast liścia, musimy określić w jaki sposób dokonać podziału przykładów znajdujących się w węźle. B. Kryterium stopu Kryterium stopu oznacza decyzję, czy w danym momencie kończymy konstrukcję drzewa i tworzymy liść - w takim przypadku musimy przypisać do niego klasę decyzyjną, najczęściej jest to klasa dominująca w danym liściu, czy tworzymy węzeł i decydujemy się na dalszy podział przykładów. Wyróżnić można kilka sytuacji, w których konstruujący drzewo nie ma wyjścia i musi utworzyć liść, są to tzw. Ostateczne kryteria stopu: zbiór zawiera przykłady tylko jednej klasy - wtedy dalsze podziały nie mają już sensu, zbiór przykładów jest pusty - bardzo rzadka sytuacja, ale możliwa w przypadku niebinarnych testów. Jako klasę docelową w danym liściu najlepiej wybrać w tym przypadku klasę dominującą w rodzicu, wyczerpaliśmy pulę dostępnych testów - żaden z możliwych do użycia testów nie daje podziału na co najmniej dwa niepuste podzbiory, np. dlatego, że wszystkie testy zostały już użyte lub zbiór zawiera sprzeczne dane (przykłady o takich samych atrybutach ale innych klasach docelowych). Ponadto możemy narzucić na drzewo różnego rodzaju ograniczenia mające wpływ na kryterium stopu: minimalna liczba przykładów w węźle - nie pozwalamy na tworzenie węzłów, w których znalazłoby się mniej przykładów, niż pewna z góry ustalona wartość, minimalna liczba przykładów w liściu - podobnie jak powyżej, ale to nie to samo, maksymalna głębokość drzewa - czyli odległość od korzenia do najbardziej oddalonego liścia, maksymalna czystość klas w liściu - wymagamy w każdym liściu był co najmniej jakiś wcześniej zdefiniowany odsetek przykładów należących do innej klasy docelowej niż dominująca w liściu, minimalny przyrost informacji po podziale - żądamy aby każdy test był co najmniej tak dobry jak pewna ustalona wartość, więcej o jakości testów w dalszej części artykułu. C. Rodzaje testów Testem nazywamy przyporządkowanie poszczególnych przykładów do gałęzi wychodzących z danego węzła. W praktyce przyjmuje się ograniczenie, że wynik testu jest tak naprawdę funkcją jednego z atrybutów. Wyróżniamy następujące rodzaje tego typu testów: testy tożsamościowe: a(x) atrybut jest testem - tyle podziałów ile możliwych wartości atrybutu, testy równościowe: { 1 a(x) = v 0 a(x) v do pierwszego poddrzewa trafiają te przykłady, których zadany atrybut przyjmuje odpowiednia wartość. Pozostałe przykłady trafiają do drugiego poddrzewa, testy przynależnościowe: { 1 a(x) V 0 a(x) / V podobnie jak w przypadku testów równościowych, ale o przynależności przykładu do pierwszego poddrzewa decyduje przynależność atrybutu do zadanego przedziału, testy podziałowe: 1 a(x) V 1 2 a(x) V 2... k a(x) V k

3 podział przeciwdziedziny atrybutu na kilka przedziałów odpowiadający przydziałowi przykładów do poszczególnych poddrzew. testy nierównościowe: { 1 a(x) < v 0 a(x) v sprawdzenie nierówności atrybutu. Test ten, w przeciwieństwie do pozostałych, może być zastosowany jedynie do atrybutów ciągłych. D. Wybór podziału Znając możliwe do wykonania testy potrzebujemy jeszcze kryterium oceny, który z nich jest najlepszy. Kryterium to powinno faworyzować testy, które przybliżają nas najbardziej do momentu utworzenia liścia - tzn. takie, które maksymalizują rozkład klas decyzyjnych na poszczególne poddrzewa. 1) Entropia: Naturalnym kandydatem wydaje się więc entropia - miara ilości informacji. W tym przypadku wyrażona wzorem: E = C i X log C i X gdzie C i to liczba przykładów danej klasy decyzyjnej, a X to liczba wszystkich przykładów w węźle. Pozwala na ona na policzenie przyrostu informacji jako: E = E E T gdzie E T to średnia ważona entropia po podziale. Dążymy oczywiście do maksymalizacji wartości E, poprzez wybór takiego testu, dla którego E T jest jak najmniejsza. 2) Indeks Giniego: Inna powszechnie stosowaną miarą jakości podziału jest tzw. indeks Giniego wyrażony wzorem: gini(x) = 1 ( C i X )2 Ma on właściwości podobne do entropii: jego wartości należą do przedziału [0, 1], a wartość 0 osiąga w przypadku maksymalnej czystości klas. W takim sam sposób pozwala również na wyliczenie i maksymalizację przyrostu informacji. Eksperymenty wykazały jednak, że w ocenie jakości podziału sprawdza się lepiej od entropii. Jest to szczególne widoczne w przypadku testów o niebinarnej ilości podziałów - wtedy entropia ma tendencje do premiowania testów o większej ilości podziałów (konieczne jest więc przeskalowanie przyrostu informacji przez odwrotność liczby podziałów w węźle). E. Ocena jakości drzewa Wyróżnić możemy 2 podstawowe kryteria oceny jakości drzewa decyzyjnego: 1) Rozmiar: Preferowane są drzewa jak najprostsze, tzn. takie, które umożliwiają predykcję na podstawie jak najmniejszej liczby atrybutów. Do numerycznej reprezentacji rozmiaru drzewa posłużyć mogą: liczba węzłów, liczba liści, wysokość drzewa. 2) Dokładność klasyfikacji: Dokładność klasyfikacji najczęściej reprezentowana jest przez odsetek błędów klasyfikacji. Ważne jest jednak aby został on policzony na innym zbiorze danych niż ten, który posłużył do budowy drzewa. Stąd jednym z pierwszych etapów konstrukcji tego typu klasyfikatora powinno być podzielenie danych na 2 zbiory: zbiór trenujący - służący do budowy drzewa, zbiór testowy - służący do jego oceny. F. Nadmierne dopasowanie Z problemem nadmiernego dopasowania mamy do czynienia gdy wygenerowany przez nas klasyfikator jest przeuczony, tzn. zbyt dobrze klasyfikuje dane ze zbioru trenującego kosztem danych rzeczywistych. Jeśli jesteśmy w stanie znaleźć taki model który, jest lepszy od wygenerowanego przez nas na zbiorze rzeczywistym, a jednocześnie gorszy na zbiorze trenującym to wygenerowany przez nas klasyfikator jest na pewno nadmiernie dopasowany. Dlatego też preferowane są dość proste drzewa, gdyż im mniejszy jest ich rozmiar tym mniejsze ryzyko nadmiernego dopasowania. G. Przycinanie Najczęściej stosowaną techniką unikania nadmiernego dopasowania jest przycinanie, czyli redukcja rozmiaru drzewa już po jego zbudowaniu. Polega ono na prostym zastąpieniu poddrzewa liściem oraz wskazaniu w nim takiej klasy decyzyjnej, jaka dominuje w całym poddrzewie. Możliwa jest różna kolejność rozpatrywania poddrzew do zastąpienia, jednak najbardziej rozpowszechnione jest przycinanie od dołu, które to pozwala nanosić łagodne zmiany w strukturze drzewa. H. Kryteria przycinania Istnieje wiele kryteriów przycinania, tzn. testów mówiących nam o tym czy dane poddrzewo należy zastąpić liściem czy też nie. Do najważniejszych z nich należą: Przycinanie redukujące błąd (ang. Reduced Error Pruning) - zastępujemy poddrzewo liściem kiedy błąd po przycięciu jest taki sam albo mniejszy. Kryterium to mimo, że jest proste ma jedną wadę - wymaga osobnego zbioru przykładów do przycinania. Przycinanie minimalizujące błąd (ang. Minimal Error Pruning) - w przypadku gdy nie możemy sobie pozwolić na wydzielenie osobnego zbioru przykładów do przycinania możemy spróbować estymować liczbę

4 błędów w poszczególnych elementach drzewa. W przypadku liści możemy posłużyć się tzw. m-estymacją tzn. dodaniem do zbioru przykładów w liściu pewnej z góry ustalonej liczby przykładów, w których odsetek przykładów danej klasy decyzyjnej jest taki sam jak w całym zbiorze trenującym. Odsetek błędów na takim zbiorze ma wtedy postać: ê = 1 C i + m p X + m gdzie m to liczba przykładów dodanych do liścia, a m p to liczba przykładów klasy dominującej. Przez jego propagację w górę (np. za pomocą średniej ważonej) możemy uzyskać odsetek błędów w poszczególnych węzłach. Przycinanie z parametrem złożoności (ang. Costcomplexity Pruning) - możemy również wprowadzić dodatkowy parametr, który dodany do odsetka błędów w węźle, zwiększa szanse na uzyskanie mniejszego odsetka błędów w ewentualnie utworzonym liściu. Przyjęło się, że parametr tan jest zazwyczaj przemnażany przez liczbę podziałów w węźle. Warunek na przycięcie przyjmuje wtedy postać: e(l) e(w) + α w gdzie e(l) i e(w) oznaczają odpowiednio odsetek błędów w liściu i węźle, α parametr złożoności, a w liczbę podziałów w węźle. Zauważyć należy, że płynnie przesuwając parametr α otrzymujemy ciąg drzew, w którym każde kolejne jest naddrzewem poprzedniego. Wybór najlepszego z nich najlepiej pozostawić intuicji. Znając odsetek błędów w poszczególnych liściach zwykle jesteśmy w stanie ocenić, które z otrzymanych drzew sprawdzi się najlepiej na danych rzeczywistych. Jeśli jednak z jakiś powodów nie jesteśmy w stanie wybrać najlepszego z nich, możemy skorzystać np. z reguły jednego odchylenia standardowego - tzn. wybrać najprostsze drzewo, które jest nie gorsze od najlepszego o więcej niż jedno odchylenie standardowe. V. LASY LOSOWE Lasy losowego są przykładem modelowania zespołowego - tzn. takiego takiego, w którym model właściwy jest zbiorem mniejszych modeli, a proces predykcji predykcji odbywa się przez głosowanie (proste lub z wagami). Lasy losowe zgodnie intuicją składają się z pewniej ilości drzew. Różnorodność poszczególnych drzew osiąga się poprzez losowe zaburzenie algorytmu ich budowy. Losowość ta przebiega w dwojaki sposób: 1) Bagging przykładów: Przykłady do budowy poszczególnych drzew wybieranie są metodą losowania ze zwracaniem. Oznacza to, że do budowy pojedynczego drzewa wykorzystanych zostanie średnio 2/3 danych ze zbioru trenującego. Podejście to pozwala zmniejszyć wrażliwość klasyfikatora na zmiany w danych trenujących, zwieszając tym samym jego stabilność. Pozwala również na uzyskanie nieobciążonego estymatora błędu klasyfikacji. 2) Losowanie atrybutów: Poszczególne drzewa decyzyjne generowanie są z wykorzystaniem losowych atrybutów. Losowanie to może odbywać się w dwojaki sposób. Albo podczas każdorazowego wyboru testu losowany jest pewien podzbiór atrybutów, a podział jest dokonywany na podstawie jednego z nich, albo atrybuty wykorzystane do konstrukcji drzewa wybierane jeszcze przed rozpoczęciem jego budowy. Szczególne dobre efekty przynosi to drugie podejście. Wylosowanie na początku niewielkiej liczby atrybutów pozwala na uzyskanie rodziny bardzo małych drzew, często tzw. pieńków, czyli drzew składających się jedynie z korzenia i liści. Drzewa takie mogą posłużyć nie tylko do klasyfikacji ale również do oceny wpływu poszczególnych atrybutów na klasę decyzyjną. Wszystkie te zalety sprawiają, że lasy losowe uznawane są za jedną z najlepszych metod klasyfikacji. VI. METODA NAJBLIŻSZYCH SASIADÓW Opisane wyżej algorytmy są przykładem tzw. zapalczywego podejścia do problemu klasyfikacji. Charakteryzuje się ono budową modelu na podstawie zbioru trenującego, a następnie całkowitym zapomnieniem danych trenujących. Przeciwieństwem takiego podejścia jest klasyfikacja leniwa. W tym podejściu model stanowią same dane, a predykcja odbywa się poprzez porównanie nowych przykładów z dziedziny z tymi ze zbioru trenującego za pomocą odpowiednich algorytmów. Przykładem takiej klasyfikacji jest bardzo prosta i intuicyjna metoda najbliższych sąsiadów. Polega ona po prostu na wyborze klasy decyzyjnej najczęściej występującej wśród k najbardziej podobnych przykładów (W przypadku remisu możemy wybrać klasę najpowszechniejszą w całym zbiorze danych, bądź rozstrygnąć arbitralnie). Jedynym wymogiem tej metody jest zdefiniowanie pewniej miary odległości (ściślej niepodobieństwa) pomiędzy poszczególnymi przykładami. VII. NAIWNY KLASYFIKATOR BAYESA Naiwny klasyfikator Bayesa bazuje na twierdzeniu Bayesu, pozwalającemu na obliczenie prawdopodobieństwa warunkowego: P (A B) = P (A)P (B A) P (B) Zakładając, że zdarzeniem A jest przynależność przykładu do zadanej klasy, a zdarzeniem B ciąg wartości jego atrybutów: A c = d B a 1 = v 1, a 2 = v 2,..., a k = v k możemy w prosty sposób otrzymać namiastkę klasyfikatora: P (c = d a 1 = v 1, a 2 = v 2,..., a k = v k ) =

5 = P (c = d)p (a 1 = v 1, a 2 = v 2,..., a k = v k c = d) = ( ) P (a 1 = v 1, a 2 = v 2,..., a k = v k ) Zauważyć można, że mianownik powyższego wyrażenia w żaden sposób nie zależy od atrybutu docelowego (Potrzebny jest tylko po to aby prawdopodobieństwa sumowały się do jedynki). Możemy się więc go pozbyć bez utraty informacji: ( ) P (c = d)p (a 1 = v 1, a 2 = v 2,..., a k = v k c = d) = ( ) Niestety tak skonstruowana funkcja prawdopodobieństwa zwróci niezerową wartość tylko wtedy gdy zbiór trenujący zawiera przykład o dokładnie takich samych atrybutach jak przykład aktualnie rozpatrywany. Aby rozwiązać ten problem wprowadźmy kolejne uproszczenie. Przyjmijmy założenie o niezależności atrybutów: i j P (a i = v i, a j = v j ) = P (a i = v i ) P (a j = v j ) Równanie przyjmuje wtedy postać: ( ) = P (c = d) k P (a i = v i c = d) i=1 Co jest formą dużo prostszą o początkowej i zwracającą w większości przypadków niezerowe wartości. Predykcja przebiega w tym przypadku w sposób bardzo prosty: P r(x) = argmax d C [P (c = d) k P (a i = a i (x) c = d)] i=1 czyli po prostu wybieramy tą klasę decyzyjną, dla której wyznaczony wcześniej wzór zwróci największą wartość. Jak łatwo zauważyć założenie o w niezależności poszczególnych atrybutów zazwyczaj nie jest spełnione. Stąd właśnie człon naiwny w nazwie tego klasyfikatora. Okazuje się jednak, że pomimo naiwnego założenia o niezależności atrybutów klasyfikator ten w większości zastosowań daje całkiem niezłe rezultaty. Dodatkową jego zaletą jest nie tylko predykcja oczekiwanej klasy decyzyjnej, ale również możliwość wyznaczenia prawdopodobieństwa przynależności do każdej z nich. LITERATURA [1] Paweł Cichosz, Systemy uczace się [2] Daniel T. Larose, Discovering knowledge in data [3] Tadeusz Morzy, Eksploracja danych: metody i algorytmy [4] Klasyfikacja Wikipedia, wolna encyklopedia [online]

Algorytmy klasyfikacji

Algorytmy klasyfikacji Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska BUDOWA DRZEW DECYZYJNYCH Drzewa decyzyjne są metodą indukcyjnego

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska DRZEWO REGRESYJNE Sposób konstrukcji i przycinania

Bardziej szczegółowo

Elementy modelowania matematycznego

Elementy modelowania matematycznego Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Michał Witczak Data Mining 20 maja 2012 r. 1. Wstęp Dostarczone zostały nam 4 pliki, z których dwa stanowiły zbiory uczące

Bardziej szczegółowo

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew.

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew. PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew. Wprowadzenie Drzewo klasyfikacyjne Wprowadzenie Formalnie : drzewo

Bardziej szczegółowo

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18 Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)

Bardziej szczegółowo

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

8. Drzewa decyzyjne, bagging, boosting i lasy losowe Algorytmy rozpoznawania obrazów 8. Drzewa decyzyjne, bagging, boosting i lasy losowe dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Drzewa decyzyjne Drzewa decyzyjne (ang. decision trees), zwane

Bardziej szczegółowo

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006 SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu

Bardziej szczegółowo

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L, Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której

Bardziej szczegółowo

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania

Bardziej szczegółowo

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne

WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne Reprezentacja wiedzy w postaci drzew decyzyjnych entropia, przyrost informacji algorytmy ID3, C4.5 problem przeuczenia wyznaczanie reguł rzykładowe drzewo decyzyjne

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną

Bardziej szczegółowo

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie Wprowadzenie Konstrukcja binarnych drzew klasyfikacyjnych polega na sekwencyjnym dzieleniu podzbiorów przestrzeni próby X na dwa rozłączne i dopełniające się podzbiory, rozpoczynając od całego zbioru X.

Bardziej szczegółowo

Metody probabilistyczne klasyfikatory bayesowskie

Metody probabilistyczne klasyfikatory bayesowskie Konwersatorium Matematyczne Metody Ekonomii narzędzia matematyczne w eksploracji danych First Prev Next Last Go Back Full Screen Close Quit Metody probabilistyczne klasyfikatory bayesowskie Wykład 8 Marcin

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia

Bardziej szczegółowo

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość Dwie metody Klasyczna metoda histogramu jako narzędzie do postawienia hipotezy, jaki rozkład prawdopodobieństwa pasuje do danych Indukcja drzewa decyzyjnego jako metoda wykrycia klasyfikatora ukrytego

Bardziej szczegółowo

Drzewa decyzyjne i lasy losowe

Drzewa decyzyjne i lasy losowe Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

Co to są drzewa decyzji

Co to są drzewa decyzji Drzewa decyzji Co to są drzewa decyzji Drzewa decyzji to skierowane grafy acykliczne Pozwalają na zapis reguł w postaci strukturalnej Przyspieszają działanie systemów regułowych poprzez zawężanie przestrzeni

Bardziej szczegółowo

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej

Bardziej szczegółowo

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl

Bardziej szczegółowo

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/ Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/ Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Głęboka 28, bud. CIW, p. 221 e-mail: zdzislaw.otachel@up.lublin.pl

Bardziej szczegółowo

Złożoność i zagadnienia implementacyjne. Wybierz najlepszy atrybut i ustaw jako test w korzeniu. Stwórz gałąź dla każdej wartości atrybutu.

Złożoność i zagadnienia implementacyjne. Wybierz najlepszy atrybut i ustaw jako test w korzeniu. Stwórz gałąź dla każdej wartości atrybutu. Konwersatorium Matematyczne Metody Ekonomii Narzędzia matematyczne w eksploracji danych Indukcja drzew decyzyjnych Wykład 3 - część 2 Marcin Szczuka http://www.mimuw.edu.pl/ szczuka/mme/ Plan wykładu Generowanie

Bardziej szczegółowo

166 Wstęp do statystyki matematycznej

166 Wstęp do statystyki matematycznej 166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej

Bardziej szczegółowo

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny

Bardziej szczegółowo

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Kompresja danych Streszczenie Studia Dzienne Wykład 10, 1 Kwantyzacja wektorowa Kompresja danych Streszczenie Studia Dzienne Wykład 10, 28.04.2006 Kwantyzacja wektorowa: dane dzielone na bloki (wektory), każdy blok kwantyzowany jako jeden element danych. Ogólny

Bardziej szczegółowo

Temat: Algorytm kompresji plików metodą Huffmana

Temat: Algorytm kompresji plików metodą Huffmana Temat: Algorytm kompresji plików metodą Huffmana. Wymagania dotyczące kompresji danych Przez M oznaczmy zbiór wszystkich możliwych symboli występujących w pliku (alfabet pliku). Przykład M = 2, gdy plik

Bardziej szczegółowo

Klasyfikacja metodą Bayesa

Klasyfikacja metodą Bayesa Klasyfikacja metodą Bayesa Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski warunkowe i bezwarunkowe 1. Klasyfikacja Bayesowska jest klasyfikacją statystyczną. Pozwala przewidzieć prawdopodobieństwo

Bardziej szczegółowo

OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA

OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) 16.01.2003 Algorytmy i Struktury Danych PIŁA ALGORYTMY ZACHŁANNE czas [ms] Porównanie Algorytmów Rozwiązyjących problem TSP 100 000 000 000,000 10 000 000

Bardziej szczegółowo

Dlaczego nie wystarczają liczby wymierne

Dlaczego nie wystarczają liczby wymierne Dlaczego nie wystarczają liczby wymierne Analiza zajmuje się problemami, w których pojawia się przejście graniczne. Przykładami takich problemów w matematyce bądź fizyce mogą być: 1. Pojęcie prędkości

Bardziej szczegółowo

SZTUCZNA INTELIGENCJA

SZTUCZNA INTELIGENCJA SZTUCZNA INTELIGENCJA WYKŁAD 4. UCZENIE SIĘ INDUKCYJNE Częstochowa 24 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska WSTĘP Wiedza pozyskana przez ucznia ma charakter odwzorowania

Bardziej szczegółowo

< K (2) = ( Adams, John ), P (2) = adres bloku 2 > < K (1) = ( Aaron, Ed ), P (1) = adres bloku 1 >

< K (2) = ( Adams, John ), P (2) = adres bloku 2 > < K (1) = ( Aaron, Ed ), P (1) = adres bloku 1 > Typy indeksów Indeks jest zakładany na atrybucie relacji atrybucie indeksowym (ang. indexing field). Indeks zawiera wartości atrybutu indeksowego wraz ze wskaźnikami do wszystkich bloków dyskowych zawierających

Bardziej szczegółowo

Systemy uczące się Lab 4

Systemy uczące się Lab 4 Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego

Bardziej szczegółowo

Sztuczna Inteligencja Projekt

Sztuczna Inteligencja Projekt Sztuczna Inteligencja Projekt Temat: Algorytm LEM2 Liczba osób realizujących projekt: 2 1. Zaimplementować algorytm LEM 2. 2. Zaimplementować klasyfikator Classif ier. 3. Za pomocą algorytmu LEM 2 wygenerować

Bardziej szczegółowo

Prawdopodobieństwo czerwonych = = 0.33

Prawdopodobieństwo czerwonych = = 0.33 Temat zajęć: Naiwny klasyfikator Bayesa a algorytm KNN Część I: Naiwny klasyfikator Bayesa Naiwny klasyfikator bayerowski jest prostym probabilistycznym klasyfikatorem. Naiwne klasyfikatory bayesowskie

Bardziej szczegółowo

B jest globalnym pokryciem zbioru {d} wtedy i tylko wtedy, gdy {d} zależy od B i nie istnieje B T takie, że {d} zależy od B ;

B jest globalnym pokryciem zbioru {d} wtedy i tylko wtedy, gdy {d} zależy od B i nie istnieje B T takie, że {d} zależy od B ; Algorytm LEM1 Oznaczenia i definicje: U - uniwersum, tj. zbiór obiektów; A - zbiór atrybutów warunkowych; d - atrybut decyzyjny; IND(B) = {(x, y) U U : a B a(x) = a(y)} - relacja nierozróżnialności, tj.

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010 STATYSTYKA MATEMATYCZNA WYKŁAD 14 18 stycznia 2010 Model statystyczny ROZKŁAD DWUMIANOWY ( ) {0, 1,, n}, {P θ, θ (0, 1)}, n ustalone P θ {K = k} = ( ) n θ k (1 θ) n k, k k = 0, 1,, n Geneza: Rozkład Bernoulliego

Bardziej szczegółowo

Uczenie się maszyn. Dariusz Banasiak. Katedra Informatyki Technicznej Wydział Elektroniki

Uczenie się maszyn. Dariusz Banasiak. Katedra Informatyki Technicznej Wydział Elektroniki Dariusz Banasiak Katedra Informatyki Technicznej Wydział Elektroniki Machine Learning (uczenie maszynowe, uczenie się maszyn, systemy uczące się) interdyscyplinarna nauka, której celem jest stworzenie

Bardziej szczegółowo

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład Data Mining Wykład 5 Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny Indeks Gini Popularnym kryterium podziału, stosowanym w wielu produktach komercyjnych, jest indeks Gini Algorytm SPRINT

Bardziej szczegółowo

Sztuczna inteligencja : Algorytm KNN

Sztuczna inteligencja : Algorytm KNN Instytut Informatyki Uniwersytetu Śląskiego 23 kwietnia 2012 1 Algorytm 1 NN 2 Algorytm knn 3 Zadania Klasyfikacja obiektów w oparciu o najbliższe obiekty: Algorytm 1-NN - najbliższego sąsiada. Parametr

Bardziej szczegółowo

Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori.

Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori. Analiza danych Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ REGUŁY DECYZYJNE Metoda reprezentacji wiedzy (modelowania

Bardziej szczegółowo

Programowanie liniowe

Programowanie liniowe Programowanie liniowe Maciej Drwal maciej.drwal@pwr.wroc.pl 1 Problem programowania liniowego min x c T x (1) Ax b, (2) x 0. (3) gdzie A R m n, c R n, b R m. Oznaczmy przez x rozwiązanie optymalne, tzn.

Bardziej szczegółowo

Metody numeryczne Technika obliczeniowa i symulacyjna Sem. 2, EiT, 2014/2015

Metody numeryczne Technika obliczeniowa i symulacyjna Sem. 2, EiT, 2014/2015 Metody numeryczne Technika obliczeniowa i symulacyjna Sem. 2, EiT, 2014/2015 1 Metody numeryczne Dział matematyki Metody rozwiązywania problemów matematycznych za pomocą operacji na liczbach. Otrzymywane

Bardziej szczegółowo

Spacery losowe generowanie realizacji procesu losowego

Spacery losowe generowanie realizacji procesu losowego Spacery losowe generowanie realizacji procesu losowego Michał Krzemiński Streszczenie Omówimy metodę generowania trajektorii spacerów losowych (błądzenia losowego), tj. szczególnych procesów Markowa z

Bardziej szczegółowo

Wnioskowanie bayesowskie

Wnioskowanie bayesowskie Wnioskowanie bayesowskie W podejściu klasycznym wnioskowanie statystyczne oparte jest wyłącznie na podstawie pobranej próby losowej. Możemy np. estymować punktowo lub przedziałowo nieznane parametry rozkładów,

Bardziej szczegółowo

0 + 0 = 0, = 1, = 1, = 0.

0 + 0 = 0, = 1, = 1, = 0. 5 Kody liniowe Jak już wiemy, w celu przesłania zakodowanego tekstu dzielimy go na bloki i do każdego z bloków dodajemy tak zwane bity sprawdzające. Bity te są w ścisłej zależności z bitami informacyjnymi,

Bardziej szczegółowo

Estymacja parametrów w modelu normalnym

Estymacja parametrów w modelu normalnym Estymacja parametrów w modelu normalnym dr Mariusz Grządziel 6 kwietnia 2009 Model normalny Przez model normalny będziemy rozumieć rodzine rozkładów normalnych N(µ, σ), µ R, σ > 0. Z Centralnego Twierdzenia

Bardziej szczegółowo

Jeśli czas działania algorytmu zależy nie tylko od rozmiaru danych wejściowych i przyjmuje różne wartości dla różnych danych o tym samym rozmiarze,

Jeśli czas działania algorytmu zależy nie tylko od rozmiaru danych wejściowych i przyjmuje różne wartości dla różnych danych o tym samym rozmiarze, Oznaczenia: Jeśli czas działania algorytmu zależy nie tylko od rozmiaru danych wejściowych i przyjmuje różne wartości dla różnych danych o tym samym rozmiarze, to interesuje nas złożoność obliczeniowa

Bardziej szczegółowo

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część populacji, którą podaje się badaniu statystycznemu

Bardziej szczegółowo

Ocena ilościowa ryzyka: analiza drzewa błędu (konsekwencji) Zajęcia 6. dr inż. Piotr T. Mitkowski. piotr.mitkowski@put.poznan.pl

Ocena ilościowa ryzyka: analiza drzewa błędu (konsekwencji) Zajęcia 6. dr inż. Piotr T. Mitkowski. piotr.mitkowski@put.poznan.pl Ocena ilościowa ryzyka: Zajęcia 6 analiza drzewa błędu (konsekwencji) dr inż. Piotr T. Mitkowski piotr.mitkowski@put.poznan.pl Materiały dydaktyczne, prawa zastrzeżone Piotr Mitkowski 1 Plan zajęć Metody

Bardziej szczegółowo

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej 7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej Definicja 1 n-elementowa losowa próba prosta nazywamy ciag n niezależnych zmiennych losowych o jednakowych rozkładach

Bardziej szczegółowo

Przepustowość kanału, odczytywanie wiadomości z kanału, poprawa wydajności kanału.

Przepustowość kanału, odczytywanie wiadomości z kanału, poprawa wydajności kanału. Przepustowość kanału, odczytywanie wiadomości z kanału, poprawa wydajności kanału Wiktor Miszuris 2 czerwca 2004 Przepustowość kanału Zacznijmy od wprowadzenia równości IA, B HB HB A HA HA B Można ją intuicyjnie

Bardziej szczegółowo

Układy stochastyczne

Układy stochastyczne Instytut Informatyki Uniwersytetu Śląskiego 21 stycznia 2009 Definicja Definicja Proces stochastyczny to funkcja losowa, czyli funkcja matematyczna, której wartości leżą w przestrzeni zdarzeń losowych.

Bardziej szczegółowo

Wykład 3 Hipotezy statystyczne

Wykład 3 Hipotezy statystyczne Wykład 3 Hipotezy statystyczne Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu obserwowanej zmiennej losowej (cechy populacji generalnej) Hipoteza zerowa (H 0 ) jest hipoteza

Bardziej szczegółowo

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2 Klasyfikacja Indeks Gini Zysk informacyjny Klasyfikacja wykład 2 Kontynuujemy prezentacje metod klasyfikacji. Na wykładzie zostaną przedstawione dwa podstawowe algorytmy klasyfikacji oparte o indukcję

Bardziej szczegółowo

Podstawy Informatyki. Metody dostępu do danych

Podstawy Informatyki. Metody dostępu do danych Podstawy Informatyki c.d. alina.momot@polsl.pl http://zti.polsl.pl/amomot/pi Plan wykładu 1 Bazy danych Struktury danych Średni czas odszukania rekordu Drzewa binarne w pamięci dyskowej 2 Sformułowanie

Bardziej szczegółowo

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne Przypominajka: 152 drzewo filogenetyczne to drzewo, którego liśćmi są istniejące gatunki, a węzły wewnętrzne mają stopień większy niż jeden i reprezentują

Bardziej szczegółowo

Wykład 1. Na początku zajmować się będziemy zbiorem liczb całkowitych

Wykład 1. Na początku zajmować się będziemy zbiorem liczb całkowitych Arytmetyka liczb całkowitych Wykład 1 Na początku zajmować się będziemy zbiorem liczb całkowitych Z = {0, ±1, ±2,...}. Zakładamy, że czytelnik zna relację

Bardziej szczegółowo

Wykład 2. Drzewa zbalansowane AVL i 2-3-4

Wykład 2. Drzewa zbalansowane AVL i 2-3-4 Wykład Drzewa zbalansowane AVL i -3-4 Drzewa AVL Wprowadzenie Drzewa AVL Definicja drzewa AVL Operacje wstawiania i usuwania Złożoność obliczeniowa Drzewa -3-4 Definicja drzewa -3-4 Operacje wstawiania

Bardziej szczegółowo

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd. Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru

Bardziej szczegółowo

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów

Bardziej szczegółowo

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd. Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Wnioskowanie statystyczne dla zmiennych numerycznych Porównywanie dwóch średnich Boot-strapping Analiza

Bardziej szczegółowo

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa Weryfikacja hipotez statystycznych Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o prawdziwości lub fałszywości którego wnioskuje się na podstawie

Bardziej szczegółowo

operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je.

operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je. Problem porządkowania zwanego również sortowaniem jest jednym z najważniejszych i najpopularniejszych zagadnień informatycznych. Dane: Liczba naturalna n i ciąg n liczb x 1, x 2,, x n. Wynik: Uporządkowanie

Bardziej szczegółowo

Testowanie modeli predykcyjnych

Testowanie modeli predykcyjnych Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności

Bardziej szczegółowo

Prawdopodobieństwo i statystyka

Prawdopodobieństwo i statystyka Wykład XIV: Metody Monte Carlo 19 stycznia 2016 Przybliżone obliczanie całki oznaczonej Rozważmy całkowalną funkcję f : [0, 1] R. Chcemy znaleźć przybliżoną wartość liczbową całki 1 f (x) dx. 0 Jeden ze

Bardziej szczegółowo

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA Jan Mielniczuk Wisła, grudzień 2009 PLAN Błędy predykcji i ich podstawowe estymatory Estymacja błędu predykcji w modelu liniowym. Funkcje kryterialne Własności

Bardziej szczegółowo

Grafy (3): drzewa. Wykłady z matematyki dyskretnej dla informatyków i teleinformatyków. UTP Bydgoszcz

Grafy (3): drzewa. Wykłady z matematyki dyskretnej dla informatyków i teleinformatyków. UTP Bydgoszcz Grafy (3): drzewa Wykłady z matematyki dyskretnej dla informatyków i teleinformatyków UTP Bydgoszcz 13 (Wykłady z matematyki dyskretnej) Grafy (3): drzewa 13 1 / 107 Drzewo Definicja. Drzewo to graf acykliczny

Bardziej szczegółowo

TEORETYCZNE PODSTAWY INFORMATYKI

TEORETYCZNE PODSTAWY INFORMATYKI 1 TEORETYCZNE PODSTAWY INFORMATYKI WFAiS UJ, Informatyka Stosowana I rok studiów, I stopień Wykład 14c 2 Definicje indukcyjne Twierdzenia dowodzone przez indukcje Definicje indukcyjne Definicja drzewa

Bardziej szczegółowo

Matematyka dyskretna. Andrzej Łachwa, UJ, a/15

Matematyka dyskretna. Andrzej Łachwa, UJ, a/15 Matematyka dyskretna Andrzej Łachwa, UJ, 2017 andrzej.lachwa@uj.edu.pl 3a/15 Indukcja matematyczna Zasada Minimum Dowolny niepusty podzbiór S zbioru liczb naturalnych ma w sobie liczbę najmniejszą. Zasada

Bardziej szczegółowo

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1 Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie

Bardziej szczegółowo

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

komputery? Andrzej Skowron, Hung Son Nguyen  Instytut Matematyki, Wydział MIM, UW Czego moga się nauczyć komputery? Andrzej Skowron, Hung Son Nguyen son@mimuw.edu.pl; skowron@mimuw.edu.pl Instytut Matematyki, Wydział MIM, UW colt.tex Czego mogą się nauczyć komputery? Andrzej Skowron,

Bardziej szczegółowo

Każdy węzeł w drzewie posiada 3 pola: klucz, adres prawego potomka i adres lewego potomka. Pola zawierające adresy mogą być puste.

Każdy węzeł w drzewie posiada 3 pola: klucz, adres prawego potomka i adres lewego potomka. Pola zawierające adresy mogą być puste. Drzewa binarne Każdy węzeł w drzewie posiada pola: klucz, adres prawego potomka i adres lewego potomka. Pola zawierające adresy mogą być puste. Uporządkowanie. Zakładamy, że klucze są różne. Klucze leżące

Bardziej szczegółowo

Indukcja drzew decyzyjnych

Indukcja drzew decyzyjnych Konwersatorium Matematyczne Metody Ekonomii Narzędzia matematyczne w eksploracji danych Indukcja drzew decyzyjnych Wykład 3 - część 2 Marcin Szczuka http://www.mimuw.edu.pl/ szczuka/mme/ Divide et impera

Bardziej szczegółowo

Rekurencje. Jeśli algorytm zawiera wywołanie samego siebie, jego czas działania moŝe być określony rekurencją. Przykład: sortowanie przez scalanie:

Rekurencje. Jeśli algorytm zawiera wywołanie samego siebie, jego czas działania moŝe być określony rekurencją. Przykład: sortowanie przez scalanie: Rekurencje Jeśli algorytm zawiera wywołanie samego siebie, jego czas działania moŝe być określony rekurencją. Przykład: sortowanie przez scalanie: T(n) = Θ(1) (dla n = 1) T(n) = 2 T(n/2) + Θ(n) (dla n

Bardziej szczegółowo

Programowanie celowe #1

Programowanie celowe #1 Programowanie celowe #1 Problem programowania celowego (PC) jest przykładem problemu programowania matematycznego nieliniowego, który można skutecznie zlinearyzować, tzn. zapisać (i rozwiązać) jako problem

Bardziej szczegółowo

Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11,

Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11, 1 Kwantyzacja skalarna Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11, 10.05.005 Kwantyzacja polega na reprezentowaniu dużego zbioru wartości (być może nieskończonego) za pomocą wartości

Bardziej szczegółowo

Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki

Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki Przetwarzanie Sygnałów Studia Podyplomowe, Automatyka i Robotyka. Wstęp teoretyczny Zmienne losowe Zmienne losowe

Bardziej szczegółowo

ALGORYTMY I STRUKTURY DANYCH

ALGORYTMY I STRUKTURY DANYCH LGORTM I STRUKTUR DNH Temat 6: Drzewa ST, VL Wykładowca: dr inż. bigniew TRPT e-mail: bigniew.tarapata@isi.wat.edu.pl http://www.tarapata.strefa.pl/p_algorytmy_i_struktury_danych/ Współautorami wykładu

Bardziej szczegółowo

Instrukcje dla zawodników

Instrukcje dla zawodników Instrukcje dla zawodników Nie otwieraj arkusza z zadaniami dopóki nie zostaniesz o to poproszony. Instrukcje poniżej zostaną ci odczytane i wyjaśnione. 1. Arkusz składa się z 3 zadań. 2. Każde zadanie

Bardziej szczegółowo

Iteracyjne rozwiązywanie równań

Iteracyjne rozwiązywanie równań Elementy metod numerycznych Plan wykładu 1 Wprowadzenie Plan wykładu 1 Wprowadzenie 2 Plan wykładu 1 Wprowadzenie 2 3 Wprowadzenie Metoda bisekcji Metoda siecznych Metoda stycznych Plan wykładu 1 Wprowadzenie

Bardziej szczegółowo

Matematyka dyskretna dla informatyków

Matematyka dyskretna dla informatyków Matematyka dyskretna dla informatyków Część I: Elementy kombinatoryki Jerzy Jaworski Zbigniew Palka Jerzy Szymański Uniwersytet im. Adama Mickiewicza Poznań 2007 4 Zależności rekurencyjne Wiele zależności

Bardziej szczegółowo

3. MINIMAX. Rysunek 1: Drzewo obrazujące przebieg gry.

3. MINIMAX. Rysunek 1: Drzewo obrazujące przebieg gry. 3. MINIMAX. Bardzo wygodną strukturą danych pozwalającą reprezentować stan i przebieg gry (szczególnie gier dwuosobowych) jest drzewo. Węzły drzewa reprezentują stan gry po wykonaniu ruchu przez jednego

Bardziej szczegółowo

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu

Bardziej szczegółowo

METODY STATYSTYCZNE W BIOLOGII

METODY STATYSTYCZNE W BIOLOGII METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne

Bardziej szczegółowo

Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne.

Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne. Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne. Funkcja homograficzna. Definicja. Funkcja homograficzna jest to funkcja określona wzorem f() = a + b c + d, () gdzie współczynniki

Bardziej szczegółowo

Drzewa klasyfikacyjne algorytm podstawowy

Drzewa klasyfikacyjne algorytm podstawowy DRZEWA DECYZYJNE Drzewa klasyfikacyjne algorytm podstawowy buduj_drzewo(s przykłady treningowe, A zbiór atrybutów) { utwórz węzeł t (korzeń przy pierwszym wywołaniu); if (wszystkie przykłady w S należą

Bardziej szczegółowo

Sprawozdanie z zadania Modele predykcyjne (2)

Sprawozdanie z zadania Modele predykcyjne (2) Maciej Karpus, 131529 Tomasz Skarżyński, 131618 19.04.2013r. Sprawozdanie z zadania Modele predykcyjne (2) 1. Wprowadzenie 1.1. Informacje wstępne Dane dotyczą wyników badań mammograficznych wykonanych

Bardziej szczegółowo

ESTYMACJA PRZEDZIAŁOWA WYBRANYCH PARAMETRÓW

ESTYMACJA PRZEDZIAŁOWA WYBRANYCH PARAMETRÓW ESTYMACJA PRZEDZIAŁOWA WYBRANYCH PARAMETRÓW POPULACJI Szkic wykładu Wprowadzenie 1 Wprowadzenie 2 3 4 Przypomnienie dotychczasowych rozważań Przedziałem ufności nazywamy przedział losowy, o którym przypuszczamy

Bardziej szczegółowo

ED Laboratorium 3. Drzewa decyzyjne

ED Laboratorium 3. Drzewa decyzyjne ED Laboratorium Drzewa decyzyjne 1 Drzewa decyzyjne Algorytmy indukcji drzew decyzyjnych to jeden z klasycznych algorytmów uczenia maszynowego służący do rozwiązywania problemu klasyfikacji. Drzewa decyzyjne

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta

Bardziej szczegółowo

zdarzenie losowe - zdarzenie którego przebiegu czy wyniku nie da się przewidzieć na pewno.

zdarzenie losowe - zdarzenie którego przebiegu czy wyniku nie da się przewidzieć na pewno. Rachunek prawdopodobieństwa Podstawowym celem rachunku prawdopodobieństwa jest określanie szans zajścia pewnych zdarzeń. Pojęcie podstawowe rachunku prawdopodobieństwa to: zdarzenie losowe - zdarzenie

Bardziej szczegółowo

CLUSTERING. Metody grupowania danych

CLUSTERING. Metody grupowania danych CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X. STATYSTYKA MATEMATYCZNA WYKŁAD 4 WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X. Wysuwamy hipotezy: zerową (podstawową H ( θ = θ i alternatywną H, która ma jedną z

Bardziej szczegółowo

Poprawność semantyczna

Poprawność semantyczna Poprawność składniowa Poprawność semantyczna Poprawność algorytmu Wypisywanie zdań z języka poprawnych składniowo Poprawne wartościowanie zdań języka, np. w języku programowania skutki wystąpienia wyróżnionych

Bardziej szczegółowo