ALGORYTM RANDOM FOREST

Wielkość: px
Rozpocząć pokaz od strony:

Download "ALGORYTM RANDOM FOREST"

Transkrypt

1 SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś Aleksandra Mańko , Warszawa

2 ALGORYTM RANDOM FOREST Eksploracja danych to proces odkrywania uogólnionych reguł i wiedzy zawartej w bazach danych, oparty na metodach statystycznych i technikach sztucznej inteligencji. Idea eksploracji danych polega na wykorzystaniu szybkości komputera do znajdowania ukrytych dla człowieka (z uwagi na ograniczone możliwości czasowe) prawidłowości w danych zgromadzonych w hurtowniach danych (ang. data warehouse). Istnieje wiele technik eksploracji danych, które wywodzą się z ugruntowanych dziedzin nauki takich jak statystyka i uczenie maszynowe. Jednym z najistotniejszych zagadnień z dziedziny uczenia się maszyn jest wybór metody klasyfikacji. Machine learning uczenie maszynowe Gałąź sztucznej inteligencji zajmująca się konstrukcją i analizą systemów, które mogą uczyć się na podstawie danych. Drzewa decyzyjne to graficzna metoda wspomagania procesu decyzyjnego. Algorytm drzew decyzyjnych jest również stosowany w uczeniu maszynowym do pozyskiwania wiedzy na podstawie przykładów. Koncepcja Bugging polega na budowie ekspertów dla podzbioru zadań. W tym przypadku, ze wszystkich problemów do rozwiązania losowany jest ze zwracaniem podzbiór problemów a następnie dla tego podzbioru szukany jest ekspert. W algorytmie tym z całego zbioru danych uczących losowany jest podzbiór (losowanie ze zwracaniem) i dla tego podzbioru budowany jest model predykcyjny, następnie po raz kolejny ze zwracaniem losowany jest inny podzbiór wektorów i dla niego budowany jest kolejny model. Całość powtarzana jest k krotnie a na koniec wszystkie zbudowane modele użyte są do głosowania. Drzewa decyzyjne Algorytm Random Forest Koncepcja Bugging

3 Algorytm Random Forest To metoda klasyfikacji (i regresji) polegająca na tworzeniu wielu drzew decyzyjnych na podstawie losowego zestawu danych. Idea tego algorytmu polega na zbudowaniu konsylium ekspertów z losowych drzew decyzyjnych, gdzie w odróżnieniu od klasycznych drzew decyzji, losowe drzewa budowane są na zasadzie, iż podzbiór analizowanych cech w węźle dobierany jest losowo. Ponadto, poszczególne drzewa z losowych lasów drzew budowane są zgodnie z koncepcją Bugging. Cechy Algorytmu Random Forest jest najlepszy jeśli chodzi o dokładność wśród pozostałych algorytmów działa skutecznie na dużych bazach danych utrzymuje dokładność w przypadku braku danych daje oszacowanie, które zmienne są istotne w klasyfikacji nie ma potrzeby przycinania drzew lasy mogą być zapisane i wykorzystane w przyszłości dla innego zbioru danych nie wymaga wiedzy eksperckiej nie jest podatny na overfitting Lasy losowe są uznawane za jedna z najlepszych metod klasyfikacji. Pojedyncze klasyfikatory lasu losowego to drzewa decyzyjne. Algorytm RandomForest bardzo dobrze nadaje się do badania próby, gdzie wektor obserwacji jest dużego wymiaru. Ich dodatkową zaletą jest możliwość użycia nauczonego lasu losowego do innych zagadnień niż tylko do klasyfikacji. Przykładowo, na podstawie drzew z lasu można wyznaczyć ranking zmiennych, a tym samym określić, które zmienne mają lepsze właściwości predykcyjne. Podczas generowania drzew zbiór wejściowy zostaje podzielony na dwa podzbiory: treningowy oraz zbiór OOB (out-of-bag), który składa się z ok. 1 3 obserwacji. Zbiór OOB służy do estymacji błędów klasyfikacji oraz istotności poszczególnych zmiennych. Błąd predykcji OOB pokazuje ile elementów ze zbioru testowego nie zostało przyporządkowanych poprawnie do ich właściwych klas. Jest on różnicą między wszystkimi elementami znajdującymi się w macierzy trafności, a elementami znajdującymi się poza przekątną macierzy.

4 Jak działa algorytm Random Forest? 1. Losujemy ze zwracaniem z n-elementowej próby uczącej n wektorów obserwacji. Na podstawie takiej pseudopróby stworzone zostanie drzewo. 2. W każdym węźle podział odbywa się poprzez wylosowanie bez zwracania m spośród p atrybutów, następnie w kolejnym węźle k spośród m atrybutów itd (p m k) (parametr m jest jedynym elementem algorytmu, który trzeba ustalić, wartość dająca dobre wyniki dla modeli decyzyjnych to około m = p, dla modeli regresyjnych ). 3. Proces budowania drzewa bez przycinania trwa, jeżeli to możliwe do momentu uzyskania w liściach elementów z tylko jednej klasy. Proces klasyfikacji 1. Dany wektor obserwacji jest klasyfikowany przez wszystkie drzewa, ostatecznie zaklasyfikowany do klasy, w której wystąpił najczęściej. 2. W przypadku elementów niewylosowanych z oryginalnej podpróby, każdy taki i-ty element zostaje poddany klasyfikacji przez drzewa, w których budowie nie brał udziału. Taki element zostaje następnie przyporządkowany klasie, która osiągana była najczęściej (w ten sposób zaklasyfikowane zostały wszystkie elementy z oryginalnej próby). Algorytm Random Forest wykorzystuje indeks Giniego, który służy jako podstawowe kryterium oceny jakości podziału węzła w drzewie decyzyjnym. Wzrost wartości współczynnika oznacza wzrost nierówności rozkładu. Zatem w rankingu należy wybrać klasę charakteryzującą się najniższym współczynnikiem Giniego. T oznacza zbiór zawierający n klas, a pj względną częstotliwość występowania danej klasy w zbiorze T.

5 START TAK Czy algorytm został przeprowadzony dla każdego drzewa? Wybierz podzbiór zmiennych m NIE Wybierz zbiór treningowy Czy została jeszcze jakaś zmienna? TAK NIE Czy został jeszcze jakiś węzeł do podziału? NIE Próbka (1) TAK Posortuj(2) Zbuduj kolejny podział Policz indeks Giniego dla każdego punktu podziału (3) Policz błąd predykcji (4) Wybierz najlepszy podział KONIEC

6 Przykład 1. W celu zilustrowania procesu tworzenia lasów losowych oraz sposobu posługiwania się wyżej opisanym algorytmem zaprezentujemy przykład oparty na danych Iris zapożyczonych z pakietu Weka. Postaramy się w sposób szczegółowy opisać kolejne etapy naszej analizy wraz z interpretacją otrzymanych wyników. Cały proces zostanie przeprowadzony z wykorzystaniem programu R. Pierwszym krokiem jest podzielenie zbioru danych Iris na dwa podzbiory: treningowy (zawierający 80% obserwacji) i testowy (zawierający 20% obserwacji). Tak dobrane proporcje zwiększają prawdopodobieństwo otrzymania lepszych wyników. test = iris[ c(1:10, 51:60, 101:110), ] train = iris[ c(11:50, 61:100, 111:150), ] Lasy losowe możemy wygenerować za pomocą funkcji randomforest, która znajduje się w pakiecie randomforest. Przy konstrukcji lasów losowych uzyskiwane są losowe wersje zbioru danych. Aby móc odtworzyć uzyskane wyniki należy skorzystać z funkcji set.seed() Poniżej przedstawiamy funkcje, które umożliwiają otrzymanie lasu losowego. iris.rf <- randomforest(species ~., data=train, ntree=500) print(iris.rf) Wyniki prezentują się następująco: Wartość błędu klasyfikacji dla pierwszej klasy wynosi zero, natomiast zarówno dla drugiej i trzeciej klasy 0,1. Błąd klasyfikacji dla wszystkich danych jest na poziomie 6,67%.

7 Aby uzyskać wgląd na proces redukcji błędu klasyfikacyjnego obliczonego dla zbioru OOB po dodaniu kolejnych drzew należy ustawić parametr do.trace. Wywołanie procesu odbywa się za pomocą funkcji: iris.rf <- randomforest(species ~., data=train, ntree=500, do.trace=50) I daje następujące rezultaty: Następnie posłużymy się procedurą plot(), która pozwali nam obserwować wpływ liczby poszczególnych modeli na wielkość błędu klasyfikacji. plot(iris.rf) W wyniku wywołania procedury otrzymujemy wykres informujący o błędzie klasyfikacji w zależności od liczby drzew.

8 Kolejną z zalet algorytmu randomforest jest wyznaczeni rankingu zmiennych, który bierze pod uwagę średnie zmiany indeksu Giniego. Służy to ocenie istotności poszczególnych zmiennych a tym samym określa, które zmienne mają lepsze właściwości predykcyjne. Taką informacje możemy uzyskać dzięki zastosowaniu poniższej komendy: importance(iris.rf) Generuje ona następujący wydruk. Interpretując powyższe wartości można wnioskować, że najlepszą zmienną pod względem wartości predykcyjnych jest zmienna Sepal.width ( ), natomiast najgorszą Petal.length ( ). Za pomocą funkcji varimpplot możemy uzyskać graficzne przedstawienie wcześniej otrzymanych wartości. varimpplot(iris.rf)

9 Kolejnym etapem jest wygenerowanie prognozy za pomocą funkcji predict dla próby testowej. iris.predict = predict(iris.rf, test) Następną komendą wywołujemy wynik. iris.predict Nieparzyste wiersze przedstawiają numer obserwacji, natomiast parzyste wartość klasy, do której dana obserwacja została przydzielona. Ostatnim etapem analizy będzie przedstawienie macierzy trafności zbudowanej ze zbioru testowego. Wywołujemy ją poleceniem: tab <- table(observed=test[,'species'], predict=iris.predict) tab Jak pokazuje poniższa tabela, klasy setosa i versicolor zostały przydzielone poprawnie, natomiast klasa virginica charakteryzowała się błędem predykcji, ponieważ jedna jej obserwacji została błędnie przyporządkowana. Naszą interpretację możemy również potwierdzić za pomocą poniższej procedury, która zwraca liczbę błędów predykcji. sum(tab)-sum(diag(tab)) W wyniku otrzymujemy 1, co oznacza, że na 30 elementów zawartych w zbiorze testowym tylko jeden został źle przyporządkowany.

ALGORYTMY SZTUCZNEJ INTELIGENCJI

ALGORYTMY SZTUCZNEJ INTELIGENCJI ALGORYTMY SZTUCZNEJ INTELIGENCJI Sieci neuronowe 06.12.2014 Krzysztof Salamon 1 Wstęp Sprawozdanie to dotyczy ćwiczeń z zakresu sieci neuronowych realizowanym na przedmiocie: Algorytmy Sztucznej Inteligencji.

Bardziej szczegółowo

Testowanie modeli predykcyjnych

Testowanie modeli predykcyjnych Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności

Bardziej szczegółowo

Drzewa decyzyjne i lasy losowe

Drzewa decyzyjne i lasy losowe Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM

Bardziej szczegółowo

Klasyfikator liniowy Wstęp Klasyfikator liniowy jest najprostszym możliwym klasyfikatorem. Zakłada on liniową separację liniowy podział dwóch klas między sobą. Przedstawia to poniższy rysunek: 5 4 3 2

Bardziej szczegółowo

Metody klasyfikacji danych - część 1 p.1/24

Metody klasyfikacji danych - część 1 p.1/24 Metody klasyfikacji danych - część 1 Inteligentne Usługi Informacyjne Jerzy Dembski Metody klasyfikacji danych - część 1 p.1/24 Plan wykładu - Zadanie klasyfikacji danych - Przeglad problemów klasyfikacji

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH Wykład 3 Liniowe metody klasyfikacji. Wprowadzenie do klasyfikacji pod nadzorem. Fisherowska dyskryminacja liniowa. Wprowadzenie do klasyfikacji pod nadzorem. Klasyfikacja pod nadzorem Klasyfikacja jest

Bardziej szczegółowo

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość Dwie metody Klasyczna metoda histogramu jako narzędzie do postawienia hipotezy, jaki rozkład prawdopodobieństwa pasuje do danych Indukcja drzewa decyzyjnego jako metoda wykrycia klasyfikatora ukrytego

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18 Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)

Bardziej szczegółowo

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu Podstawy baz danych PODSTAWY BAZ DANYCH 19. Perspektywy baz danych 1 Perspektywy baz danych Temporalna baza danych Temporalna baza danych - baza danych posiadająca informację o czasie wprowadzenia lub czasie ważności zawartych

Bardziej szczegółowo

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006 SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska BUDOWA DRZEW DECYZYJNYCH Drzewa decyzyjne są metodą indukcyjnego

Bardziej szczegółowo

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie Wprowadzenie Konstrukcja binarnych drzew klasyfikacyjnych polega na sekwencyjnym dzieleniu podzbiorów przestrzeni próby X na dwa rozłączne i dopełniające się podzbiory, rozpoczynając od całego zbioru X.

Bardziej szczegółowo

Algorytmy klasyfikacji

Algorytmy klasyfikacji Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe

Bardziej szczegółowo

Inteligentna analiza danych

Inteligentna analiza danych Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki

Bardziej szczegółowo

Projekt Sieci neuronowe

Projekt Sieci neuronowe Projekt Sieci neuronowe Chmielecka Katarzyna Gr. 9 IiE 1. Problem i dane Sieć neuronowa miała za zadanie nauczyć się klasyfikować wnioski kredytowe. W projekcie wykorzystano dane pochodzące z 110 wniosków

Bardziej szczegółowo

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

8. Drzewa decyzyjne, bagging, boosting i lasy losowe Algorytmy rozpoznawania obrazów 8. Drzewa decyzyjne, bagging, boosting i lasy losowe dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Drzewa decyzyjne Drzewa decyzyjne (ang. decision trees), zwane

Bardziej szczegółowo

Indukowane Reguły Decyzyjne I. Wykład 8

Indukowane Reguły Decyzyjne I. Wykład 8 Indukowane Reguły Decyzyjne I Wykład 8 IRD Wykład 8 Plan Powtórka Krzywa ROC = Receiver Operating Characteristic Wybór modelu Statystyka AUC ROC = pole pod krzywą ROC Wybór punktu odcięcia Reguły decyzyjne

Bardziej szczegółowo

Elementy modelowania matematycznego

Elementy modelowania matematycznego Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski

Bardziej szczegółowo

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE UNIWERSYTET WARMIŃSKO-MAZURSKI W OLSZTYNIE PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE http://matman.uwm.edu.pl/psi e-mail: psi@matman.uwm.edu.pl ul. Słoneczna 54 10-561

Bardziej szczegółowo

KLASYFIKACJA. Słownik języka polskiego

KLASYFIKACJA. Słownik języka polskiego KLASYFIKACJA KLASYFIKACJA Słownik języka polskiego Klasyfikacja systematyczny podział przedmiotów lub zjawisk na klasy, działy, poddziały, wykonywany według określonej zasady Klasyfikacja polega na przyporządkowaniu

Bardziej szczegółowo

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński Mikroekonometria 5 Mikołaj Czajkowski Wiktor Budziński Zadanie 1. Wykorzystując dane me.medexp3.dta przygotuj model regresji kwantylowej 1. Przygotuj model regresji kwantylowej w którym logarytm wydatków

Bardziej szczegółowo

Zagadnienie klasyfikacji (dyskryminacji)

Zagadnienie klasyfikacji (dyskryminacji) Zagadnienie klasyfikacji (dyskryminacji) Przykład Bank chce klasyfikować klientów starających się o pożyczkę do jednej z dwóch grup: niskiego ryzyka (spłacających pożyczki terminowo) lub wysokiego ryzyka

Bardziej szczegółowo

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016 Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład I dr inż. Bogumil.Konopka@pwr.edu.pl 2015/2016 1 Wykład I - plan Sprawy organizacyjne Uczenie maszynowe podstawowe pojęcia Proces modelowania

Bardziej szczegółowo

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną

Bardziej szczegółowo

METODY INŻYNIERII WIEDZY

METODY INŻYNIERII WIEDZY METODY INŻYNIERII WIEDZY WALIDACJA KRZYŻOWA dla ZAAWANSOWANEGO KLASYFIKATORA KNN ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Michał Witczak Data Mining 20 maja 2012 r. 1. Wstęp Dostarczone zostały nam 4 pliki, z których dwa stanowiły zbiory uczące

Bardziej szczegółowo

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów

Bardziej szczegółowo

Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński Mikroekonometria 6 Mikołaj Czajkowski Wiktor Budziński Metody symulacyjne Monte Carlo Metoda Monte-Carlo Wykorzystanie mocy obliczeniowej komputerów, aby poznać charakterystyki zmiennych losowych poprzez

Bardziej szczegółowo

Wprowadzenie. Metody bayesowskie Drzewa klasyfikacyjne i lasy losowe Sieci neuronowe SVM. Klasyfikacja. Wstęp

Wprowadzenie. Metody bayesowskie Drzewa klasyfikacyjne i lasy losowe Sieci neuronowe SVM. Klasyfikacja. Wstęp Wstęp Problem uczenia się pod nadzorem, inaczej nazywany uczeniem się z nauczycielem lub uczeniem się na przykładach, sprowadza się do określenia przydziału obiektów opisanych za pomocą wartości wielu

Bardziej szczegółowo

Wprowadzenie do uczenia maszynowego

Wprowadzenie do uczenia maszynowego Wprowadzenie do uczenia maszynowego Agnieszka Ławrynowicz 12 stycznia 2017 Co to jest uczenie maszynowe? dziedzina nauki, która zajmuje się sprawianiem aby komputery mogły uczyć się bez ich zaprogramowania

Bardziej szczegółowo

Modelowanie glikemii w procesie insulinoterapii

Modelowanie glikemii w procesie insulinoterapii Dawid Kaliszewski Modelowanie glikemii w procesie insulinoterapii Promotor dr hab. inż. Zenon Gniazdowski Cel pracy Zbudowanie modelu predykcyjnego przyszłych wartości glikemii diabetyka leczonego za pomocą

Bardziej szczegółowo

Elementy statystyki wielowymiarowej

Elementy statystyki wielowymiarowej Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych

Bardziej szczegółowo

Matlab podstawy + testowanie dokładności modeli inteligencji obliczeniowej

Matlab podstawy + testowanie dokładności modeli inteligencji obliczeniowej Matlab podstawy + testowanie dokładności modeli inteligencji obliczeniowej Podstawy matlaba cz.ii Funkcje Dotychczas kod zapisany w matlabie stanowił skrypt który pozwalał na określenie kolejności wykonywania

Bardziej szczegółowo

Systemy uczące się wykład 1

Systemy uczące się wykład 1 Systemy uczące się wykład 1 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 5 X 2018 e-mail: przemyslaw.juszczuk@ue.katowice.pl Konsultacje: na stronie katedry + na stronie domowej

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Wprowadzenie do analizy dyskryminacyjnej

Wprowadzenie do analizy dyskryminacyjnej Wprowadzenie do analizy dyskryminacyjnej Analiza dyskryminacyjna to zespół metod statystycznych używanych w celu znalezienia funkcji dyskryminacyjnej, która możliwie najlepiej charakteryzuje bądź rozdziela

Bardziej szczegółowo

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej

Bardziej szczegółowo

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej

Bardziej szczegółowo

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I Wojciech Kotłowski Instytut Informatyki Politechniki Poznańskiej email: imię.nazwisko@cs.put.poznan.pl pok. 2 (CW) tel. (61)665-2936 konsultacje:

Bardziej szczegółowo

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania

Bardziej szczegółowo

Metody eksploracji danych Laboratorium 2. Weka + Python + regresja

Metody eksploracji danych Laboratorium 2. Weka + Python + regresja Metody eksploracji danych Laboratorium 2 Weka + Python + regresja KnowledgeFlow KnowledgeFlow pozwala na zdefiniowanie procesu przetwarzania danych Komponenty realizujące poszczególne czynności można konfigurować,

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Systemy uczące się wykład 2

Systemy uczące się wykład 2 Systemy uczące się wykład 2 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 19 X 2018 Podstawowe definicje Fakt; Przesłanka; Konkluzja; Reguła; Wnioskowanie. Typy wnioskowania

Bardziej szczegółowo

Agnieszka Nowak Brzezińska

Agnieszka Nowak Brzezińska Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia

Bardziej szczegółowo

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie: ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość

Bardziej szczegółowo

5. Model sezonowości i autoregresji zmiennej prognozowanej

5. Model sezonowości i autoregresji zmiennej prognozowanej 5. Model sezonowości i autoregresji zmiennej prognozowanej 1. Model Sezonowości kwartalnej i autoregresji zmiennej prognozowanej (rząd istotnej autokorelacji K = 1) Szacowana postać: y = c Q + ρ y, t =

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z liniowym zadaniem najmniejszych

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Maja Czoków, Jarosław Piersa, Andrzej Rutkowski Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2018-10-15 Projekt

Bardziej szczegółowo

Eksploracja danych w środowisku R

Eksploracja danych w środowisku R Eksploracja danych w środowisku R Moi drodzy, niniejszy konspekt nie omawia eksploracji danych samej w sobie. Nie dowiecie się tutaj o co chodzi w generowaniu drzew decyzyjnych czy grupowaniu danych. Te

Bardziej szczegółowo

Systemy uczące się Lab 4

Systemy uczące się Lab 4 Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego

Bardziej szczegółowo

Klasyfikacja i regresja Wstęp do środowiska Weka

Klasyfikacja i regresja Wstęp do środowiska Weka Klasyfikacja i regresja Wstęp do środowiska Weka 19 listopada 2015 Opis pliku z zadaniami Wszystkie zadania na zajęciach będą przekazywane w postaci plików pdf sformatowanych podobnie do tego dokumentu.

Bardziej szczegółowo

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta Stan dotychczasowy OCENA KLASYFIKACJI w diagnostyce Wybraliśmy metodę uczenia maszynowego (np. sieć neuronowa lub drzewo decyzyjne), która będzie klasyfikować nieznane przypadki Na podzbiorze dostępnych

Bardziej szczegółowo

Rozpoznawanie obrazów

Rozpoznawanie obrazów Rozpoznawanie obrazów Laboratorium Python Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest implementacja liniowego zadania

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych 9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :

Bardziej szczegółowo

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Algorytmy metaheurystyczne Wykład 11. Piotr Syga Algorytmy metaheurystyczne Wykład 11 Piotr Syga 22.05.2017 Drzewa decyzyjne Idea Cel Na podstawie przesłanek (typowo zbiory rozmyte) oraz zbioru wartości w danych testowych, w oparciu o wybrane miary,

Bardziej szczegółowo

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań Anna Manerowska, Michal Kozakiewicz 2.12.2009 1 Wstęp Jako projekt na przedmiot MEUM (Metody Ewolucyjne Uczenia Maszyn)

Bardziej szczegółowo

Ćwiczenia IV

Ćwiczenia IV Ćwiczenia IV - 17.10.2007 1. Spośród podanych macierzy X wskaż te, których nie można wykorzystać do estymacji MNK parametrów modelu ekonometrycznego postaci y = β 0 + β 1 x 1 + β 2 x 2 + ε 2. Na podstawie

Bardziej szczegółowo

Customer Attribution Models. czyli o wykorzystaniu machine learning w domu mediowym.

Customer Attribution Models. czyli o wykorzystaniu machine learning w domu mediowym. Customer Attribution Models czyli o wykorzystaniu machine learning w domu mediowym. Proces decyzyjny MAILING SEO SEM DISPLAY RETARGETING PRZEGRANI??? ZWYCIĘZCA!!! Modelowanie atrybucja > Słowo klucz: wpływ

Bardziej szczegółowo

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew.

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew. PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew. Wprowadzenie Drzewo klasyfikacyjne Wprowadzenie Formalnie : drzewo

Bardziej szczegółowo

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 5 Kwadratowa analiza dyskryminacyjna QDA. Metody klasyfikacji oparte na rozkładach prawdopodobieństwa.

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 5 Kwadratowa analiza dyskryminacyjna QDA. Metody klasyfikacji oparte na rozkładach prawdopodobieństwa. Wykład 5 Kwadratowa analiza dyskryminacyjna QDA. Metody klasyfikacji oparte na rozkładach prawdopodobieństwa. Kwadratowa analiza dyskryminacyjna Przykład analizy QDA Czasem nie jest możliwe rozdzielenie

Bardziej szczegółowo

Automatyczne wyodrębnianie reguł

Automatyczne wyodrębnianie reguł Automatyczne wyodrębnianie reguł Jedną z form reprezentacji wiedzy jest jej zapis w postaci zestawu reguł. Ta forma ma szereg korzyści: daje się łatwo interpretować, można zrozumieć sposób działania zbudowanego

Bardziej szczegółowo

Uwaga: szarych kropek po pokolorowaniu nie uwzględniaj w klasyfikowaniu kolejnych szarych.

Uwaga: szarych kropek po pokolorowaniu nie uwzględniaj w klasyfikowaniu kolejnych szarych. Inteligencja obliczeniowa stud. niestac. Laboratorium 4: Zadanie klasyfikacji poznanie trzech algorytmów klasyfikujących: knn, NaiveBayes, drzewo decyzyjne. Przy pomnijmy sobie bazę danych z irysami. Na

Bardziej szczegółowo

Wprowadzenie. Data Science Uczenie się pod nadzorem

Wprowadzenie. Data Science Uczenie się pod nadzorem Wprowadzenie Wprowadzenie Wprowadzenie Wprowadzenie Machine Learning Mind Map Historia Wstęp lub uczenie się z przykładów jest procesem budowy, na bazie dostępnych danych wejściowych X i oraz wyjściowych

Bardziej szczegółowo

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska Anna Stankiewicz Izabela Słomska Wstęp- statystyka w politologii Rzadkie stosowanie narzędzi statystycznych Pisma Karla Poppera

Bardziej szczegółowo

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd. Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru

Bardziej szczegółowo

Własności statystyczne regresji liniowej. Wykład 4

Własności statystyczne regresji liniowej. Wykład 4 Własności statystyczne regresji liniowej Wykład 4 Plan Własności zmiennych losowych Normalna regresja liniowa Własności regresji liniowej Literatura B. Hansen (2017+) Econometrics, Rozdział 5 Własności

Bardziej szczegółowo

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Maja Czoków, Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2011-10-11 1 Modelowanie funkcji logicznych

Bardziej szczegółowo

Metody konstrukcji oraz symulacyjne badanie właściwości jednorodnych i niejednorodnych komitetów klasyfikatorów

Metody konstrukcji oraz symulacyjne badanie właściwości jednorodnych i niejednorodnych komitetów klasyfikatorów Uniwersytet Warszawski Wydział Matematyki, Informatyki i Mechaniki Zuzanna Branicka Nr albumu: 214711 Metody konstrukcji oraz symulacyjne badanie właściwości jednorodnych i niejednorodnych komitetów klasyfikatorów

Bardziej szczegółowo

Wykład 3 Hipotezy statystyczne

Wykład 3 Hipotezy statystyczne Wykład 3 Hipotezy statystyczne Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu obserwowanej zmiennej losowej (cechy populacji generalnej) Hipoteza zerowa (H 0 ) jest hipoteza

Bardziej szczegółowo

Sprawozdanie z zadania Modele predykcyjne (2)

Sprawozdanie z zadania Modele predykcyjne (2) Maciej Karpus, 131529 Tomasz Skarżyński, 131618 19.04.2013r. Sprawozdanie z zadania Modele predykcyjne (2) 1. Wprowadzenie 1.1. Informacje wstępne Dane dotyczą wyników badań mammograficznych wykonanych

Bardziej szczegółowo

Data Mining Wykład 4. Plan wykładu

Data Mining Wykład 4. Plan wykładu Data Mining Wykład 4 Klasyfikacja danych Klasyfikacja poprzez indukcje drzew decyzyjnych Plan wykładu Sformułowanie problemu Kryteria oceny metod klasyfikacji Metody klasyfikacji Klasyfikacja poprzez indukcje

Bardziej szczegółowo

Sieci neuronowe w Statistica

Sieci neuronowe w Statistica http://usnet.us.edu.pl/uslugi-sieciowe/oprogramowanie-w-usk-usnet/oprogramowaniestatystyczne/ Sieci neuronowe w Statistica Agnieszka Nowak - Brzezińska Podstawowym elementem składowym sztucznej sieci neuronowej

Bardziej szczegółowo

WYKŁAD 7. Testowanie jakości modeli klasyfikacyjnych metodyka i kryteria

WYKŁAD 7. Testowanie jakości modeli klasyfikacyjnych metodyka i kryteria Wrocław University of Technology WYKŁAD 7 Testowanie jakości modeli klasyfikacyjnych metodyka i kryteria autor: Maciej Zięba Politechnika Wrocławska Testowanie modeli klasyfikacyjnych Dobór odpowiedniego

Bardziej szczegółowo

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Jacek Szcześniak Jerzy Błaszczyński Roman Słowiński Poznań, 5.XI.2013r. Konspekt Wstęp Wprowadzenie Metody typu wrapper Nowe metody

Bardziej szczegółowo

Model EWD dla II etapu edukacyjnego.

Model EWD dla II etapu edukacyjnego. Model EWD dla II etapu edukacyjnego. Na podstawie materiałów Pracowni EWD Instytut Badań Edukacyjnych Warszawa, 28-29.11.2014 r. Plan zajęć /moduł 9. i 10./ 1. Idea EWD 2. Model EWD dla II etapu 3. Prezentacja

Bardziej szczegółowo

Szkolenie Analiza dyskryminacyjna

Szkolenie Analiza dyskryminacyjna Szkolenie Analiza dyskryminacyjna program i cennik Łukasz Deryło Analizy statystyczne, szkolenia www.statystyka.c0.pl Szkolenie Analiza dyskryminacyjna Co to jest analiza dyskryminacyjna? Inną nazwą analizy

Bardziej szczegółowo

Algorytmy klasyfikacji

Algorytmy klasyfikacji Algorytmy klasyfikacji Konrad Miziński Politechnika Warszawska Wydział Elektroniki i Technik Informacyjnych Warszawa, Polska k.mizinski@stud.elka.pw.edu.pl Streszczenie Niniejszy dokument opisuje jedna

Bardziej szczegółowo

Metody selekcji cech

Metody selekcji cech Metody selekcji cech A po co to Często mamy do dyspozycji dane w postaci zbioru cech lecz nie wiemy które z tych cech będą dla nas istotne. W zbiorze cech mogą wystąpić cechy redundantne niosące identyczną

Bardziej szczegółowo

Oprogramowanie Systemów Obrazowania SIECI NEURONOWE

Oprogramowanie Systemów Obrazowania SIECI NEURONOWE SIECI NEURONOWE Przedmiotem laboratorium jest stworzenie algorytmu rozpoznawania zwierząt z zastosowaniem sieci neuronowych w oparciu o 5 kryteriów: ile zwierzę ma nóg, czy żyje w wodzie, czy umie latać,

Bardziej szczegółowo

Trafność czyli określanie obszaru zastosowania testu

Trafność czyli określanie obszaru zastosowania testu Trafność czyli określanie obszaru zastosowania testu Trafność jest to dokładność z jaką test mierzy to, co ma mierzyć Trafność jest to stopień, w jakim test jest w stanie osiągnąć stawiane mu cele Trafność

Bardziej szczegółowo

Konstrukcja biortogonalnych baz dyskryminacyjnych dla problemu klasyfikacji sygnałów. Wit Jakuczun

Konstrukcja biortogonalnych baz dyskryminacyjnych dla problemu klasyfikacji sygnałów. Wit Jakuczun Konstrukcja biortogonalnych baz dyskryminacyjnych dla problemu klasyfikacji sygnałów Politechnika Warszawska Strona 1 Podstawowe definicje Politechnika Warszawska Strona 2 Podstawowe definicje Zbiór treningowy

Bardziej szczegółowo

Matematyka ubezpieczeń majątkowych r.

Matematyka ubezpieczeń majątkowych r. Matematyka ubezpieczeń majątkowych 3..007 r. Zadanie. Każde z ryzyk pochodzących z pewnej populacji charakteryzuje się tym że przy danej wartości λ parametru ryzyka Λ rozkład wartości szkód z tego ryzyka

Bardziej szczegółowo

Metody Sztucznej Inteligencji II

Metody Sztucznej Inteligencji II 17 marca 2013 Neuron biologiczny Neuron Jest podstawowym budulcem układu nerwowego. Jest komórką, która jest w stanie odbierać i przekazywać sygnały elektryczne. Neuron działanie Jeżeli wartość sygnału

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia

Bardziej szczegółowo

WYKŁAD 6. Reguły decyzyjne

WYKŁAD 6. Reguły decyzyjne Wrocław University of Technology WYKŁAD 6 Reguły decyzyjne autor: Maciej Zięba Politechnika Wrocławska Reprezentacje wiedzy Wiedza w postaci reguł decyzyjnych Wiedza reprezentowania jest w postaci reguł

Bardziej szczegółowo

Algorytmy zrandomizowane

Algorytmy zrandomizowane Algorytmy zrandomizowane http://zajecia.jakubw.pl/nai ALGORYTMY ZRANDOMIZOWANE Algorytmy, których działanie uzależnione jest od czynników losowych. Algorytmy typu Monte Carlo: dają (po pewnym czasie) wynik

Bardziej szczegółowo

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, 诲 瞴瞶 瞶 ƭ0 ƭ 瞰 parametrów strukturalnych modelu Y zmienna objaśniana, = + + + + + X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, α 0, α 1, α 2,,α k parametry strukturalne modelu, k+1 parametrów

Bardziej szczegółowo

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej Paweł Cibis pawel@cibis.pl 23 lutego 2007 1 Regresja liniowa 2 wzory funkcje 3 Korelacja liniowa

Bardziej szczegółowo

Spacery losowe generowanie realizacji procesu losowego

Spacery losowe generowanie realizacji procesu losowego Spacery losowe generowanie realizacji procesu losowego Michał Krzemiński Streszczenie Omówimy metodę generowania trajektorii spacerów losowych (błądzenia losowego), tj. szczególnych procesów Markowa z

Bardziej szczegółowo

Wprowadzenie do klasyfikacji

Wprowadzenie do klasyfikacji Wprowadzenie do klasyfikacji ZeroR Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F Tutaj jest więcej obiektów klasy T, więc klasyfikator

Bardziej szczegółowo

Co to są drzewa decyzji

Co to są drzewa decyzji Drzewa decyzji Co to są drzewa decyzji Drzewa decyzji to skierowane grafy acykliczne Pozwalają na zapis reguł w postaci strukturalnej Przyspieszają działanie systemów regułowych poprzez zawężanie przestrzeni

Bardziej szczegółowo

Regresja logistyczna (LOGISTIC)

Regresja logistyczna (LOGISTIC) Zmienna zależna: Wybór opcji zachodniej w polityce zagranicznej (kodowana jako tak, 0 nie) Zmienne niezależne: wiedza o Unii Europejskiej (WIEDZA), zamieszkiwanie w regionie zachodnim (ZACH) lub wschodnim

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74 3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15

Bardziej szczegółowo

9. Praktyczna ocena jakości klasyfikacji

9. Praktyczna ocena jakości klasyfikacji Algorytmy rozpoznawania obrazów 9. Praktyczna ocena jakości klasyfikacji dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Zbiór uczacy i zbiór testowy 1. Zbiór uczacy służy do konstrukcji (treningu)

Bardziej szczegółowo

Laboratorium 6. Indukcja drzew decyzyjnych.

Laboratorium 6. Indukcja drzew decyzyjnych. Laboratorium 6 Indukcja drzew decyzyjnych. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk

Bardziej szczegółowo