ALGORYTM RANDOM FOREST

Wielkość: px
Rozpocząć pokaz od strony:

Download "ALGORYTM RANDOM FOREST"

Transkrypt

1 SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś Aleksandra Mańko , Warszawa

2 ALGORYTM RANDOM FOREST Eksploracja danych to proces odkrywania uogólnionych reguł i wiedzy zawartej w bazach danych, oparty na metodach statystycznych i technikach sztucznej inteligencji. Idea eksploracji danych polega na wykorzystaniu szybkości komputera do znajdowania ukrytych dla człowieka (z uwagi na ograniczone możliwości czasowe) prawidłowości w danych zgromadzonych w hurtowniach danych (ang. data warehouse). Istnieje wiele technik eksploracji danych, które wywodzą się z ugruntowanych dziedzin nauki takich jak statystyka i uczenie maszynowe. Jednym z najistotniejszych zagadnień z dziedziny uczenia się maszyn jest wybór metody klasyfikacji. Machine learning uczenie maszynowe Gałąź sztucznej inteligencji zajmująca się konstrukcją i analizą systemów, które mogą uczyć się na podstawie danych. Drzewa decyzyjne to graficzna metoda wspomagania procesu decyzyjnego. Algorytm drzew decyzyjnych jest również stosowany w uczeniu maszynowym do pozyskiwania wiedzy na podstawie przykładów. Koncepcja Bugging polega na budowie ekspertów dla podzbioru zadań. W tym przypadku, ze wszystkich problemów do rozwiązania losowany jest ze zwracaniem podzbiór problemów a następnie dla tego podzbioru szukany jest ekspert. W algorytmie tym z całego zbioru danych uczących losowany jest podzbiór (losowanie ze zwracaniem) i dla tego podzbioru budowany jest model predykcyjny, następnie po raz kolejny ze zwracaniem losowany jest inny podzbiór wektorów i dla niego budowany jest kolejny model. Całość powtarzana jest k krotnie a na koniec wszystkie zbudowane modele użyte są do głosowania. Drzewa decyzyjne Algorytm Random Forest Koncepcja Bugging

3 Algorytm Random Forest To metoda klasyfikacji (i regresji) polegająca na tworzeniu wielu drzew decyzyjnych na podstawie losowego zestawu danych. Idea tego algorytmu polega na zbudowaniu konsylium ekspertów z losowych drzew decyzyjnych, gdzie w odróżnieniu od klasycznych drzew decyzji, losowe drzewa budowane są na zasadzie, iż podzbiór analizowanych cech w węźle dobierany jest losowo. Ponadto, poszczególne drzewa z losowych lasów drzew budowane są zgodnie z koncepcją Bugging. Cechy Algorytmu Random Forest jest najlepszy jeśli chodzi o dokładność wśród pozostałych algorytmów działa skutecznie na dużych bazach danych utrzymuje dokładność w przypadku braku danych daje oszacowanie, które zmienne są istotne w klasyfikacji nie ma potrzeby przycinania drzew lasy mogą być zapisane i wykorzystane w przyszłości dla innego zbioru danych nie wymaga wiedzy eksperckiej nie jest podatny na overfitting Lasy losowe są uznawane za jedna z najlepszych metod klasyfikacji. Pojedyncze klasyfikatory lasu losowego to drzewa decyzyjne. Algorytm RandomForest bardzo dobrze nadaje się do badania próby, gdzie wektor obserwacji jest dużego wymiaru. Ich dodatkową zaletą jest możliwość użycia nauczonego lasu losowego do innych zagadnień niż tylko do klasyfikacji. Przykładowo, na podstawie drzew z lasu można wyznaczyć ranking zmiennych, a tym samym określić, które zmienne mają lepsze właściwości predykcyjne. Podczas generowania drzew zbiór wejściowy zostaje podzielony na dwa podzbiory: treningowy oraz zbiór OOB (out-of-bag), który składa się z ok. 1 3 obserwacji. Zbiór OOB służy do estymacji błędów klasyfikacji oraz istotności poszczególnych zmiennych. Błąd predykcji OOB pokazuje ile elementów ze zbioru testowego nie zostało przyporządkowanych poprawnie do ich właściwych klas. Jest on różnicą między wszystkimi elementami znajdującymi się w macierzy trafności, a elementami znajdującymi się poza przekątną macierzy.

4 Jak działa algorytm Random Forest? 1. Losujemy ze zwracaniem z n-elementowej próby uczącej n wektorów obserwacji. Na podstawie takiej pseudopróby stworzone zostanie drzewo. 2. W każdym węźle podział odbywa się poprzez wylosowanie bez zwracania m spośród p atrybutów, następnie w kolejnym węźle k spośród m atrybutów itd (p m k) (parametr m jest jedynym elementem algorytmu, który trzeba ustalić, wartość dająca dobre wyniki dla modeli decyzyjnych to około m = p, dla modeli regresyjnych ). 3. Proces budowania drzewa bez przycinania trwa, jeżeli to możliwe do momentu uzyskania w liściach elementów z tylko jednej klasy. Proces klasyfikacji 1. Dany wektor obserwacji jest klasyfikowany przez wszystkie drzewa, ostatecznie zaklasyfikowany do klasy, w której wystąpił najczęściej. 2. W przypadku elementów niewylosowanych z oryginalnej podpróby, każdy taki i-ty element zostaje poddany klasyfikacji przez drzewa, w których budowie nie brał udziału. Taki element zostaje następnie przyporządkowany klasie, która osiągana była najczęściej (w ten sposób zaklasyfikowane zostały wszystkie elementy z oryginalnej próby). Algorytm Random Forest wykorzystuje indeks Giniego, który służy jako podstawowe kryterium oceny jakości podziału węzła w drzewie decyzyjnym. Wzrost wartości współczynnika oznacza wzrost nierówności rozkładu. Zatem w rankingu należy wybrać klasę charakteryzującą się najniższym współczynnikiem Giniego. T oznacza zbiór zawierający n klas, a pj względną częstotliwość występowania danej klasy w zbiorze T.

5 START TAK Czy algorytm został przeprowadzony dla każdego drzewa? Wybierz podzbiór zmiennych m NIE Wybierz zbiór treningowy Czy została jeszcze jakaś zmienna? TAK NIE Czy został jeszcze jakiś węzeł do podziału? NIE Próbka (1) TAK Posortuj(2) Zbuduj kolejny podział Policz indeks Giniego dla każdego punktu podziału (3) Policz błąd predykcji (4) Wybierz najlepszy podział KONIEC

6 Przykład 1. W celu zilustrowania procesu tworzenia lasów losowych oraz sposobu posługiwania się wyżej opisanym algorytmem zaprezentujemy przykład oparty na danych Iris zapożyczonych z pakietu Weka. Postaramy się w sposób szczegółowy opisać kolejne etapy naszej analizy wraz z interpretacją otrzymanych wyników. Cały proces zostanie przeprowadzony z wykorzystaniem programu R. Pierwszym krokiem jest podzielenie zbioru danych Iris na dwa podzbiory: treningowy (zawierający 80% obserwacji) i testowy (zawierający 20% obserwacji). Tak dobrane proporcje zwiększają prawdopodobieństwo otrzymania lepszych wyników. test = iris[ c(1:10, 51:60, 101:110), ] train = iris[ c(11:50, 61:100, 111:150), ] Lasy losowe możemy wygenerować za pomocą funkcji randomforest, która znajduje się w pakiecie randomforest. Przy konstrukcji lasów losowych uzyskiwane są losowe wersje zbioru danych. Aby móc odtworzyć uzyskane wyniki należy skorzystać z funkcji set.seed() Poniżej przedstawiamy funkcje, które umożliwiają otrzymanie lasu losowego. iris.rf <- randomforest(species ~., data=train, ntree=500) print(iris.rf) Wyniki prezentują się następująco: Wartość błędu klasyfikacji dla pierwszej klasy wynosi zero, natomiast zarówno dla drugiej i trzeciej klasy 0,1. Błąd klasyfikacji dla wszystkich danych jest na poziomie 6,67%.

7 Aby uzyskać wgląd na proces redukcji błędu klasyfikacyjnego obliczonego dla zbioru OOB po dodaniu kolejnych drzew należy ustawić parametr do.trace. Wywołanie procesu odbywa się za pomocą funkcji: iris.rf <- randomforest(species ~., data=train, ntree=500, do.trace=50) I daje następujące rezultaty: Następnie posłużymy się procedurą plot(), która pozwali nam obserwować wpływ liczby poszczególnych modeli na wielkość błędu klasyfikacji. plot(iris.rf) W wyniku wywołania procedury otrzymujemy wykres informujący o błędzie klasyfikacji w zależności od liczby drzew.

8 Kolejną z zalet algorytmu randomforest jest wyznaczeni rankingu zmiennych, który bierze pod uwagę średnie zmiany indeksu Giniego. Służy to ocenie istotności poszczególnych zmiennych a tym samym określa, które zmienne mają lepsze właściwości predykcyjne. Taką informacje możemy uzyskać dzięki zastosowaniu poniższej komendy: importance(iris.rf) Generuje ona następujący wydruk. Interpretując powyższe wartości można wnioskować, że najlepszą zmienną pod względem wartości predykcyjnych jest zmienna Sepal.width ( ), natomiast najgorszą Petal.length ( ). Za pomocą funkcji varimpplot możemy uzyskać graficzne przedstawienie wcześniej otrzymanych wartości. varimpplot(iris.rf)

9 Kolejnym etapem jest wygenerowanie prognozy za pomocą funkcji predict dla próby testowej. iris.predict = predict(iris.rf, test) Następną komendą wywołujemy wynik. iris.predict Nieparzyste wiersze przedstawiają numer obserwacji, natomiast parzyste wartość klasy, do której dana obserwacja została przydzielona. Ostatnim etapem analizy będzie przedstawienie macierzy trafności zbudowanej ze zbioru testowego. Wywołujemy ją poleceniem: tab <- table(observed=test[,'species'], predict=iris.predict) tab Jak pokazuje poniższa tabela, klasy setosa i versicolor zostały przydzielone poprawnie, natomiast klasa virginica charakteryzowała się błędem predykcji, ponieważ jedna jej obserwacji została błędnie przyporządkowana. Naszą interpretację możemy również potwierdzić za pomocą poniższej procedury, która zwraca liczbę błędów predykcji. sum(tab)-sum(diag(tab)) W wyniku otrzymujemy 1, co oznacza, że na 30 elementów zawartych w zbiorze testowym tylko jeden został źle przyporządkowany.

Testowanie modeli predykcyjnych

Testowanie modeli predykcyjnych Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności

Bardziej szczegółowo

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH Wykład 3 Liniowe metody klasyfikacji. Wprowadzenie do klasyfikacji pod nadzorem. Fisherowska dyskryminacja liniowa. Wprowadzenie do klasyfikacji pod nadzorem. Klasyfikacja pod nadzorem Klasyfikacja jest

Bardziej szczegółowo

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu Podstawy baz danych PODSTAWY BAZ DANYCH 19. Perspektywy baz danych 1 Perspektywy baz danych Temporalna baza danych Temporalna baza danych - baza danych posiadająca informację o czasie wprowadzenia lub czasie ważności zawartych

Bardziej szczegółowo

Zagadnienie klasyfikacji (dyskryminacji)

Zagadnienie klasyfikacji (dyskryminacji) Zagadnienie klasyfikacji (dyskryminacji) Przykład Bank chce klasyfikować klientów starających się o pożyczkę do jednej z dwóch grup: niskiego ryzyka (spłacających pożyczki terminowo) lub wysokiego ryzyka

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew.

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew. PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew. Wprowadzenie Drzewo klasyfikacyjne Wprowadzenie Formalnie : drzewo

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Jacek Szcześniak Jerzy Błaszczyński Roman Słowiński Poznań, 5.XI.2013r. Konspekt Wstęp Wprowadzenie Metody typu wrapper Nowe metody

Bardziej szczegółowo

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie: ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość

Bardziej szczegółowo

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań Anna Manerowska, Michal Kozakiewicz 2.12.2009 1 Wstęp Jako projekt na przedmiot MEUM (Metody Ewolucyjne Uczenia Maszyn)

Bardziej szczegółowo

Klasyfikacja. Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji. Eksploracja danych. Klasyfikacja wykład 1

Klasyfikacja. Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji. Eksploracja danych. Klasyfikacja wykład 1 Klasyfikacja Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji Klasyfikacja wykład 1 Niniejszy wykład poświęcimy kolejnej metodzie eksploracji danych klasyfikacji. Na początek

Bardziej szczegółowo

Szkolenie Analiza dyskryminacyjna

Szkolenie Analiza dyskryminacyjna Szkolenie Analiza dyskryminacyjna program i cennik Łukasz Deryło Analizy statystyczne, szkolenia www.statystyka.c0.pl Szkolenie Analiza dyskryminacyjna Co to jest analiza dyskryminacyjna? Inną nazwą analizy

Bardziej szczegółowo

Customer Attribution Models. czyli o wykorzystaniu machine learning w domu mediowym.

Customer Attribution Models. czyli o wykorzystaniu machine learning w domu mediowym. Customer Attribution Models czyli o wykorzystaniu machine learning w domu mediowym. Proces decyzyjny MAILING SEO SEM DISPLAY RETARGETING PRZEGRANI??? ZWYCIĘZCA!!! Modelowanie atrybucja > Słowo klucz: wpływ

Bardziej szczegółowo

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych Regresja logistyczna i jej zastosowanie Model regresji logistycznej jest budowany za pomocą klasy Logistic programu WEKA. Jako danych wejściowych

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela

Statystyka w pracy badawczej nauczyciela Statystyka w pracy badawczej nauczyciela Wykład 1: Terminologia badań statystycznych dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka (1) Statystyka to nauka zajmująca się zbieraniem, badaniem

Bardziej szczegółowo

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp. Sprawdzian 2. Zadanie 1. Za pomocą KMNK oszacowano następującą funkcję produkcji: Gdzie: P wartość produkcji, w tys. jp (jednostek pieniężnych) K wartość kapitału zaangażowanego w proces produkcji, w tys.

Bardziej szczegółowo

Wprowadzenie do klasyfikacji

Wprowadzenie do klasyfikacji Wprowadzenie do klasyfikacji ZeroR Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F Tutaj jest więcej obiektów klasy T, więc klasyfikator

Bardziej szczegółowo

Drzewa decyzyjne w SAS Enterprise Miner

Drzewa decyzyjne w SAS Enterprise Miner Drzewa decyzyjne w SAS Enterprise Miner Aneta Ptak-Chmielewska Instytut Statystyki i Demografii Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych www.sgh.waw.pl/zaklady/zahziaw 1 struktura ćwiczeń

Bardziej szczegółowo

Ćwiczenie 12. Metody eksploracji danych

Ćwiczenie 12. Metody eksploracji danych Ćwiczenie 12. Metody eksploracji danych Modelowanie regresji (Regression modeling) 1. Zadanie regresji Modelowanie regresji jest metodą szacowania wartości ciągłej zmiennej celu. Do najczęściej stosowanych

Bardziej szczegółowo

Klasyfikacja i regresja Wstęp do środowiska Weka

Klasyfikacja i regresja Wstęp do środowiska Weka Klasyfikacja i regresja Wstęp do środowiska Weka 19 listopada 2015 Opis pliku z zadaniami Wszystkie zadania na zajęciach będą przekazywane w postaci plików pdf sformatowanych podobnie do tego dokumentu.

Bardziej szczegółowo

Jakość uczenia i generalizacja

Jakość uczenia i generalizacja Jakość uczenia i generalizacja Dokładność uczenia Jest koncepcją miary w jakim stopniu nasza sieć nauczyła się rozwiązywać określone zadanie Dokładność mówi na ile nauczyliśmy się rozwiązywać zadania które

Bardziej szczegółowo

Analiza metod wykrywania przekazów steganograficznych. Magdalena Pejas Wydział EiTI PW magdap7@gazeta.pl

Analiza metod wykrywania przekazów steganograficznych. Magdalena Pejas Wydział EiTI PW magdap7@gazeta.pl Analiza metod wykrywania przekazów steganograficznych Magdalena Pejas Wydział EiTI PW magdap7@gazeta.pl Plan prezentacji Wprowadzenie Cel pracy Tezy pracy Koncepcja systemu Typy i wyniki testów Optymalizacja

Bardziej szczegółowo

Konstrukcja biortogonalnych baz dyskryminacyjnych dla problemu klasyfikacji sygnałów. Wit Jakuczun

Konstrukcja biortogonalnych baz dyskryminacyjnych dla problemu klasyfikacji sygnałów. Wit Jakuczun Konstrukcja biortogonalnych baz dyskryminacyjnych dla problemu klasyfikacji sygnałów Politechnika Warszawska Strona 1 Podstawowe definicje Politechnika Warszawska Strona 2 Podstawowe definicje Zbiór treningowy

Bardziej szczegółowo

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74 3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH 1. Czym jest eksploracja danych Eksploracja danych definiowana jest jako zbiór technik odkrywania nietrywialnych zależności i schematów w dużych

Bardziej szczegółowo

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej Paweł Cibis pawel@cibis.pl 23 lutego 2007 1 Regresja liniowa 2 wzory funkcje 3 Korelacja liniowa

Bardziej szczegółowo

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L, Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa Diagnostyka i niezawodność robotów Laboratorium nr 3 Generacja realizacji zmiennych losowych Prowadzący: mgr inż. Marcel Luzar Cele ćwiczenia: Generowanie

Bardziej szczegółowo

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2 Klasyfikacja Indeks Gini Zysk informacyjny Klasyfikacja wykład 2 Kontynuujemy prezentacje metod klasyfikacji. Na wykładzie zostaną przedstawione dwa podstawowe algorytmy klasyfikacji oparte o indukcję

Bardziej szczegółowo

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie. SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:

Bardziej szczegółowo

DRZEWA REGRESYJNE I LASY LOSOWE JAKO

DRZEWA REGRESYJNE I LASY LOSOWE JAKO DRZEWA REGRESYJNE I LASY LOSOWE JAKO NARZĘDZIA PREDYKCJI SZEREGÓW CZASOWYCH Z WAHANIAMI SEZONOWYMI Grzegorz Dudek Instytut Informatyki Wydział Elektryczny Politechnika Częstochowska www.gdudek.el.pcz.pl

Bardziej szczegółowo

Drzewa decyzyjne z użyciem pakietu R. Zastosowanie w badaniach występowania nawrotu choroby u pacjentek z nowotworem piersi.

Drzewa decyzyjne z użyciem pakietu R. Zastosowanie w badaniach występowania nawrotu choroby u pacjentek z nowotworem piersi. Uniwersytet Warszawski Wydział Matematyki, Informatyki i Mechaniki Marta Tyce Nr albumu: 277952 Drzewa decyzyjne z użyciem pakietu R. Zastosowa w badaniach występowania nawrotu choroby u pacjentek z nowotworem

Bardziej szczegółowo

WYKŁAD 6. Reguły decyzyjne

WYKŁAD 6. Reguły decyzyjne Wrocław University of Technology WYKŁAD 6 Reguły decyzyjne autor: Maciej Zięba Politechnika Wrocławska Reprezentacje wiedzy Wiedza w postaci reguł decyzyjnych Wiedza reprezentowania jest w postaci reguł

Bardziej szczegółowo

Klasyfikacja metodą Bayesa

Klasyfikacja metodą Bayesa Klasyfikacja metodą Bayesa Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski warunkowe i bezwarunkowe 1. Klasyfikacja Bayesowska jest klasyfikacją statystyczną. Pozwala przewidzieć prawdopodobieństwo

Bardziej szczegółowo

IX EKSPLORACJA DANYCH

IX EKSPLORACJA DANYCH Zastosowanie drzew decyzyjnych do analizy danych Artur Soroczyński Politechnika Warszawska Instytut Technologii Materiałowych Terminologia Datamining Drzewa decyzyjne Plan wykładu Przykład wykorzystania

Bardziej szczegółowo

Metody scoringowe w regresji logistycznej

Metody scoringowe w regresji logistycznej Metody scoringowe w regresji logistycznej Andrzej Surma Wydział Matematyki, Informatyki i Mechaniki Uniwersytetu Warszawskiego 19 listopada 2009 AS (MIMUW) Metody scoringowe w regresji logistycznej 19

Bardziej szczegółowo

Transformacja wiedzy w budowie i eksploatacji maszyn

Transformacja wiedzy w budowie i eksploatacji maszyn Uniwersytet Technologiczno Przyrodniczy im. Jana i Jędrzeja Śniadeckich w Bydgoszczy Wydział Mechaniczny Transformacja wiedzy w budowie i eksploatacji maszyn Bogdan ŻÓŁTOWSKI W pracy przedstawiono proces

Bardziej szczegółowo

R-PEARSONA Zależność liniowa

R-PEARSONA Zależność liniowa R-PEARSONA Zależność liniowa Interpretacja wyników: wraz ze wzrostem wartości jednej zmiennej (np. zarobków) liniowo rosną wartości drugiej zmiennej (np. kwoty przeznaczanej na wakacje) czyli np. im wyższe

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Wnioskowanie statystyczne dla zmiennych numerycznych Porównywanie dwóch średnich Boot-strapping Analiza

Bardziej szczegółowo

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Regresja wielokrotna Model dla zależności liniowej: Y=a+b 1 X 1 +b 2 X 2 +...+b n X n Cząstkowe współczynniki regresji wielokrotnej: b 1,..., b n Zmienne niezależne (przyczynowe): X 1,..., X n Zmienna

Bardziej szczegółowo

Dokumentacja Końcowa

Dokumentacja Końcowa Metody Sztucznej Inteligencji 2 Projekt Prognozowanie kierunku ruchu indeksów giełdowych na podstawie danych historycznych. Dokumentacja Końcowa Autorzy: Robert Wojciechowski Michał Denkiewicz Wstęp Celem

Bardziej szczegółowo

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty

Bardziej szczegółowo

Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego

Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego Dorota Witkowska Szkoła Główna Gospodarstwa Wiejskiego w Warszawie Wprowadzenie Sztuczne

Bardziej szczegółowo

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona Badanie zależności między cechami Obserwujemy dwie cechy: X oraz Y Obiekt (X, Y ) H 0 : Cechy X oraz Y są niezależne Próba: (X 1, Y 1 ),..., (X n, Y n ) Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności

Bardziej szczegółowo

Statystyczne metody analizy danych

Statystyczne metody analizy danych Statystyczne metody analizy danych Statystyka opisowa Wykład I-III Agnieszka Nowak - Brzezińska Definicje Statystyka (ang.statistics) - to nauka zajmująca się zbieraniem, prezentowaniem i analizowaniem

Bardziej szczegółowo

Testy nieparametryczne

Testy nieparametryczne Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów

Bardziej szczegółowo

Instytut Automatyki i Inżynierii Informatycznej Politechniki Poznańskiej. Adam Meissner. Elementy uczenia maszynowego

Instytut Automatyki i Inżynierii Informatycznej Politechniki Poznańskiej. Adam Meissner. Elementy uczenia maszynowego Instytut Automatyki i Inżynierii Informatycznej Politechniki Poznańskiej Adam Meissner Adam.Meissner@put.poznan.pl http://www.man.poznan.pl/~ameis Elementy uczenia maszynowego Literatura [1] Bolc L., Zaremba

Bardziej szczegółowo

Ruch jednostajnie przyspieszony wyznaczenie przyspieszenia

Ruch jednostajnie przyspieszony wyznaczenie przyspieszenia Doświadczenie: Ruch jednostajnie przyspieszony wyznaczenie przyspieszenia Cele doświadczenia Celem doświadczenia jest zbadanie zależności drogi przebytej w ruchu przyspieszonym od czasu dla kuli bilardowej

Bardziej szczegółowo

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, 2011 Spis treści Przedmowa 11 Rozdział 1. WPROWADZENIE 13 1.1. Czym jest automatyczne rozpoznawanie mowy 13 1.2. Poziomy

Bardziej szczegółowo

Scoring kredytowy w pigułce

Scoring kredytowy w pigułce Analiza danych Data mining Sterowanie jakością Analityka przez Internet Scoring kredytowy w pigułce Mariola Kapla Biuro Informacji Kredytowej S.A. StatSoft Polska Sp. z o.o. ul. Kraszewskiego 36 30-110

Bardziej szczegółowo

Inteligentny system wspomagania decyzji dla sterowania siecią wodociągową 1

Inteligentny system wspomagania decyzji dla sterowania siecią wodociągową 1 Inteligentny system wspomagania decyzji dla sterowania siecią wodociągową 1 Izabela Rojek 2 Streszczenie: Referat przedstawia inteligentny system wspomagania decyzji dla sterowania siecią wodociągową.

Bardziej szczegółowo

Algorytmy genetyczne

Algorytmy genetyczne Algorytmy genetyczne Motto: Zamiast pracowicie poszukiwać najlepszego rozwiązania problemu informatycznego lepiej pozwolić, żeby komputer sam sobie to rozwiązanie wyhodował! Algorytmy genetyczne służą

Bardziej szczegółowo

Zastosowanie metod eksploracji danych (data mining) do sterowania i diagnostyki procesów w przemyśle spożywczym

Zastosowanie metod eksploracji danych (data mining) do sterowania i diagnostyki procesów w przemyśle spożywczym POLITECHNIKA WARSZAWSKA Instytut Technik Wytwarzania Zastosowanie metod eksploracji danych (data mining) do sterowania i diagnostyki procesów w przemyśle spożywczym Marcin Perzyk Dlaczego eksploracja danych?

Bardziej szczegółowo

08.06.07r. Warszawa UCZENIE SIĘ MASZYN. Drzewa i lasy losowe Dokumentacja końcowa. Autor: Krzysztof Marcinek Prowadzący: Paweł Cichosz

08.06.07r. Warszawa UCZENIE SIĘ MASZYN. Drzewa i lasy losowe Dokumentacja końcowa. Autor: Krzysztof Marcinek Prowadzący: Paweł Cichosz 8.6.7r. Warszawa UCZENIE SIĘ MASZYN Drzewa i lasy losowe Dokumentacja końcowa Autor: Krzysztof Marcinek Prowadzący: Paweł Cichosz 1. Wprowadzenie Drzewa decyzyjne są jedną z najbardziej skutecznych i najpopularniejszych

Bardziej szczegółowo

Data Mining w doborze parametrów układu testującego urządzenia EAZ 1

Data Mining w doborze parametrów układu testującego urządzenia EAZ 1 Rozdział 6 Data Mining w doborze parametrów układu testującego urządzenia EAZ 1 Streszczenie. W rozdziale został zaproponowany sposób doboru parametrów układu testującego urządzenia elektroenergetycznej

Bardziej szczegółowo

Data Mining z wykorzystaniem programu Rapid Miner

Data Mining z wykorzystaniem programu Rapid Miner Data Mining z wykorzystaniem programu Rapid Miner Michał Bereta www.michalbereta.pl Program Rapid Miner jest dostępny na stronie: http://rapid-i.com/ Korzystamy z bezpłatnej wersji RapidMiner Community

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8 Regresja wielokrotna Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X 1, X 2, X 3,...) na zmienną zależną (Y).

Bardziej szczegółowo

ANALIZA CZYNNIKÓW ROKOWNICZYCH I METOD LECZENIA U CHORYCH NA ZIARNICĘ ZŁOŚLIWĄ

ANALIZA CZYNNIKÓW ROKOWNICZYCH I METOD LECZENIA U CHORYCH NA ZIARNICĘ ZŁOŚLIWĄ ANALIZA CZYNNIKÓW ROKOWNICZYCH I METOD LECZENIA U CHORYCH NA ZIARNICĘ ZŁOŚLIWĄ prof. dr hab. Andrzej Sokołowski, dr Adam Sagan Jednym z ważniejszych obszarów zastosowań programu STATISTICA w badaniach

Bardziej szczegółowo

Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych

Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych 3.1. Estymacja parametrów i ocena dopasowania modeli z jedną zmienną 23. Właściciel komisu w celu zbadania

Bardziej szczegółowo

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota Ekonometria ćwiczenia 3 Prowadzący: Sebastian Czarnota Strona - niezbędnik http://sebastianczarnota.com/sgh/ Normalność rozkładu składnika losowego Brak normalności rozkładu nie odbija się na jakości otrzymywanych

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

Quick Launch Manual:

Quick Launch Manual: egresja Odds atio Quick Launch Manual: regresja logistyczna i odds ratio Uniwesytet Warszawski, Matematyka 28.10.2009 Plan prezentacji egresja Odds atio 1 2 egresja egresja logistyczna 3 Odds atio 4 5

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

Sterowanie wielkością zamówienia w Excelu - cz. 3

Sterowanie wielkością zamówienia w Excelu - cz. 3 Sterowanie wielkością zamówienia w Excelu - cz. 3 21.06.2005 r. 4. Planowanie eksperymentów symulacyjnych Podczas tego etapu ważne jest określenie typu rozkładu badanej charakterystyki. Dzięki tej informacji

Bardziej szczegółowo

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów Łukasz Piątek, Jerzy W. Grzymała-Busse Katedra Systemów Ekspertowych i Sztucznej Inteligencji, Wydział Informatyki

Bardziej szczegółowo

W1. Wprowadzenie. Statystyka opisowa

W1. Wprowadzenie. Statystyka opisowa W1. Wprowadzenie. Statystyka opisowa dr hab. Jerzy Nakielski Zakład Biofizyki i Morfogenezy Roślin Plan wykładu: 1. O co chodzi w statystyce 2. Etapy badania statystycznego 3. Zmienna losowa, rozkład

Bardziej szczegółowo

Niezawodność diagnostyka systemów laboratorium. Ćwiczenie 2

Niezawodność diagnostyka systemów laboratorium. Ćwiczenie 2 dr inż. Jacek Jarnicki doc. PWr Niezawodność diagnostyka systemów laboratorium Ćwiczenie 2 1. Treść ćwiczenia Generowanie realizacji zmiennych losowych i prezentacja graficzna wyników losowania. Symulacja

Bardziej szczegółowo

(narzędzie do pomiaru cech zachowania oprac. dr hab. Zbigniew Spendel)

(narzędzie do pomiaru cech zachowania oprac. dr hab. Zbigniew Spendel) TEST PSYCHOLOGICZNY/ PEDAGOGICZNY (narzędzie do pomiaru cech zachowania oprac. dr hab. Zbigniew Spendel) 1. Jest narzędziem diagnostycznym posługiwanie się nim musi być uzasadnione celem postępowania diagnostycznego

Bardziej szczegółowo

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H W O J S K O W A A K A D E M I A T E C H N I C Z N A W Y D Z I A Ł E L E K T R O N I K I Drukować dwustronnie P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H Grupa... Data wykonania

Bardziej szczegółowo

Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2)

Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2) Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2) Ewa Wołoszko Praca pisana pod kierunkiem Pani dr hab. Małgorzaty Doman Plan tego wystąpienia Teoria Narzędzia

Bardziej szczegółowo

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1. tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1

Bardziej szczegółowo

METODY STATYSTYCZNE W BIOLOGII

METODY STATYSTYCZNE W BIOLOGII METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne

Bardziej szczegółowo

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych dr Piotr Sulewski POMORSKA AKADEMIA PEDAGOGICZNA W SŁUPSKU KATEDRA INFORMATYKI I STATYSTYKI Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych Wprowadzenie Obecnie bardzo

Bardziej szczegółowo

MEODY GRUPOWANIA DANYCH

MEODY GRUPOWANIA DANYCH Sztuczna inteligencja 9999 pages 17 MEODY GRUPOWANIA DANYCH PB 1 CWICZENIE I 1. Ze zbioru danych iris.tab wybra nastepuj ce obiekty: ID SL SW PL PW C 1 5.1 3.5 1.4 0.2 Iris-setosa 2 4.9 3.0 1.4 0.2 Iris-setosa

Bardziej szczegółowo

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1 Zadanie 1 a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1 b) W naszym przypadku populacja są inżynierowie w Tajlandii. Czy można jednak przypuszczać, że na zarobki kobiet-inżynierów

Bardziej szczegółowo

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie Wprowadzenie Konstrukcja binarnych drzew klasyfikacyjnych polega na sekwencyjnym dzieleniu podzbiorów przestrzeni próby X na dwa rozłączne i dopełniające się podzbiory, rozpoczynając od całego zbioru X.Wkażdymkrokupodziałdokonywanyjesttak,aby

Bardziej szczegółowo

KORELACJE I REGRESJA LINIOWA

KORELACJE I REGRESJA LINIOWA KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem

Bardziej szczegółowo

OCENA EFEKTYWNOŚCI INWESTYCJI. Jerzy T. Skrzypek

OCENA EFEKTYWNOŚCI INWESTYCJI. Jerzy T. Skrzypek OCENA EFEKTYWNOŚCI INWESTYCJI Jerzy T. Skrzypek 1 2 3 4 5 6 7 8 Analiza płynności Analiza rentowności Analiza zadłużenia Analiza sprawności działania Analiza majątku i źródeł finansowania Ocena efektywności

Bardziej szczegółowo

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski Narzędzia statystyczne i ekonometryczne Wykład 1 dr Paweł Baranowski Informacje organizacyjne Wydział Ek-Soc, pok. B-109 pawel@baranowski.edu.pl Strona: baranowski.edu.pl (w tym materiały) Konsultacje:

Bardziej szczegółowo

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna Badanie współzależności zmiennych Uwzględniając ilość zmiennych otrzymamy 4 odmiany zależności: Zmienna zależna jednowymiarowa oraz jedna

Bardziej szczegółowo

Metody klasyfikacji i rozpoznawania wzorców. Najważniejsze rodzaje klasyfikatorów

Metody klasyfikacji i rozpoznawania wzorców.  Najważniejsze rodzaje klasyfikatorów Metody klasyfikacji i rozpoznawania wzorców www.michalbereta.pl Najważniejsze rodzaje klasyfikatorów Dla określonego problemu klasyfikacyjnego (tzn. dla danego zestawu danych) należy przetestować jak najwięcej

Bardziej szczegółowo

Przykładowa analiza danych

Przykładowa analiza danych Przykładowa analiza danych W analizie wykorzystano dane pochodzące z publicznego repozytorium ArrayExpress udostępnionego na stronach Europejskiego Instytutu Bioinformatyki (http://www.ebi.ac.uk/). Zbiór

Bardziej szczegółowo

Pattern Classification

Pattern Classification Pattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John Wiley & Sons, 2000 with the permission of the authors

Bardziej szczegółowo

SPIS TREŚCI. Do Czytelnika... 7

SPIS TREŚCI. Do Czytelnika... 7 SPIS TREŚCI Do Czytelnika.................................................. 7 Rozdział I. Wprowadzenie do analizy statystycznej.............. 11 1.1. Informacje ogólne..........................................

Bardziej szczegółowo

CO WIE SMARTFON? ROZPOZNAWANIE AKTYWNOŚCI CZŁOWIEKA METODAMI KLASYFIKACYJNYMI STATISTICA DATA MINER

CO WIE SMARTFON? ROZPOZNAWANIE AKTYWNOŚCI CZŁOWIEKA METODAMI KLASYFIKACYJNYMI STATISTICA DATA MINER CO WIE SMARTFON? ROZPOZNAWANIE AKTYWNOŚCI CZŁOWIEKA METODAMI KLASYFIKACYJNYMI STATISTICA DATA MINER Michał Kusy, StatSoft Polska Sp. z o.o. W bardzo krótkim czasie urządzenia mobilne stały się ogólnodostępne.

Bardziej szczegółowo

Zastosowanie Excela w matematyce

Zastosowanie Excela w matematyce Zastosowanie Excela w matematyce Komputer w dzisiejszych czasach zajmuje bardzo znamienne miejsce. Trudno sobie wyobrazić jakąkolwiek firmę czy instytucję działającą bez tego urządzenia. W szkołach pierwsze

Bardziej szczegółowo

PRAKTYCZNY SKORING - NIE TYLKO KREDYTOWY

PRAKTYCZNY SKORING - NIE TYLKO KREDYTOWY PRAKTYCZNY SKORING - NIE TYLKO KREDYTOWY Piotr Wójtowicz, Grzegorz Migut StatSoft Polska Jakie są różnice pomiędzy osobami prawidłowo regulującymi swoje zobowiązania a niechętnie spłacającymi swoje długi,

Bardziej szczegółowo

Rozkład materiału nauczania

Rozkład materiału nauczania Dział/l.p. Ilość godz. Typ szkoły: TECHNIKUM Zawód: TECHNIK USŁUG FRYZJERSKICH Rok szkolny 2015/2016 Przedmiot: MATEMATYKA Klasa: III 2 godz/tyg 30 = 60 godzin Rozkład materiału nauczania Temat I. LOGARYTMY

Bardziej szczegółowo

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu

Bardziej szczegółowo

Analiza Statystyczna

Analiza Statystyczna Lekcja 5. Strona 1 z 12 Analiza Statystyczna Do analizy statystycznej wykorzystać można wbudowany w MS Excel pakiet Analysis Toolpak. Jest on instalowany w programie Excel jako pakiet dodatkowy. Oznacza

Bardziej szczegółowo

Typowe błędy w analizie rynku nieruchomości przy uŝyciu metod statystycznych

Typowe błędy w analizie rynku nieruchomości przy uŝyciu metod statystycznych Typowe błędy w analizie rynku nieruchomości przy uŝyciu metod statystycznych Sebastian Kokot XXI Krajowa Konferencja Rzeczoznawców Majątkowych, Międzyzdroje 2012 Rzetelnie wykonana analiza rynku nieruchomości

Bardziej szczegółowo

WYKŁAD 1. Wprowadzenie w tematykę kursu

WYKŁAD 1. Wprowadzenie w tematykę kursu Wrocław University of Technology WYKŁAD 1 Wprowadzenie w tematykę kursu autor: Maciej Zięba Politechnika Wrocławska Informacje dotyczące zajęć Cykl 8 wykładów. Konsultacje odbywają się w sali 121 w budynku

Bardziej szczegółowo

Krzywe ROC i inne techniki oceny jakości klasyfikatorów

Krzywe ROC i inne techniki oceny jakości klasyfikatorów Krzywe ROC i inne techniki oceny jakości klasyfikatorów Wydział Matematyki, Informatyki i Mechaniki Uniwersytetu Warszawskiego 20 maja 2009 1 2 Przykład krzywej ROC 3 4 Pakiet ROCR Dostępne metryki Krzywe

Bardziej szczegółowo

Wykład z dnia 8 lub 15 października 2014 roku

Wykład z dnia 8 lub 15 października 2014 roku Wykład z dnia 8 lub 15 października 2014 roku Istota i przedmiot statystyki oraz demografii. Prezentacja danych statystycznych Znaczenia słowa statystyka Znaczenie I - nazwa zbioru danych liczbowych prezentujących

Bardziej szczegółowo

Etapy modelowania ekonometrycznego

Etapy modelowania ekonometrycznego Etapy modelowania ekonometrycznego jest podstawowym narzędziem badawczym, jakim posługuje się ekonometria. Stanowi on matematyczno-statystyczną formę zapisu prawidłowości statystycznej w zakresie rozkładu,

Bardziej szczegółowo

Sterowanie procesem i jego zdolność. Zbigniew Wiśniewski

Sterowanie procesem i jego zdolność. Zbigniew Wiśniewski Sterowanie procesem i jego zdolność Zbigniew Wiśniewski Wybór cech do kart kontrolnych Zaleca się aby w pierwszej kolejności były brane pod uwagę cechy dotyczące funkcjonowania wyrobu lub świadczenia usługi

Bardziej szczegółowo

Automatyzacja procesu badania neuronowego systemu wnioskuj¹cego opartego na programie Statistica w praktycznym zastosowaniu***

Automatyzacja procesu badania neuronowego systemu wnioskuj¹cego opartego na programie Statistica w praktycznym zastosowaniu*** AUTOMATYKA 2009 Tom 13 Zeszyt 3 Joanna Grabska-Chrz¹stowska*, Wojciech Lazar** Automatyzacja procesu badania neuronowego systemu wnioskuj¹cego opartego na programie Statistica w praktycznym zastosowaniu***

Bardziej szczegółowo

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel według przewidywań internetowego magazynu ZDNET News z 8 lutego 2001 roku eksploracja danych (ang. data mining ) będzie jednym z najbardziej rewolucyjnych osiągnięć następnej dekady. Rzeczywiście MIT Technology

Bardziej szczegółowo