Przykład eksploracji danych Case 1.X
|
|
- Andrzej Turek
- 8 lat temu
- Przeglądów:
Transkrypt
1 Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD Zaawansowana eksploracja danych edycja 2009/2010
2 Plan 1. Przykładowe studium przypadki 2. Analiza opisu przypadku 3. Ustalenie celu analizy i scenariusza postępowania 4. Ocena poprawności danych czyszczenie 5. Badanie jakości danych (współzależność) 6. Ocena ważności atrybutów 7. Odkrywanie wiedzy klasyfikacyjnej 1. Różne podejścia 2. Ocena zdolności klasyfikacyjnej 3. Możliwości interpretacji wiedzy 8. Wymagania do sprawozdania
3 Analiza diagnostycznej bazy danych Problem dotyczy analizy stanu technicznego autobusów używanych przez jedno z przedsiębiorstw w Polsce.
4 Analiza diagnostycznej bazy danych Bada się stan techniczny 80 autobusów tego samego typu (dokładnie ich silników) na podstawie symptomów stanu technicznego - parametrów pochodzących z okresowych badań diagnostycznych Pierwsza klasyfikacja D1: autobusy są podzielone na dwie klasy: dobry i zły stan techniczny pojazdu Możliwa jest druga klasyfikacja D2 + stan przejściowy Cel analizy Ocenia się jakość diagnostyczną symptomów stanu technicznego (pośrednio ocena przydatności tzw. wartości granicznych) Ocena ważności poszczególnych symptomów Ewentualność rankingu lub selekcji Poszukuje się zależności pomiędzy wartościami najistotniejszych w tych symptomów a przydziałem do klas Konstruuje się klasyfikator stanu technicznego
5 Oryginalny format danych (isf)
6 Analiza nagłówka 80 obserwacji (autobusów) 8 atrybutów max speed km/h Compresion preasure Mpa blacking components in exhaust gas [%] torque Nm summer fuel consumption l/100km winter fuel consumption l/100km oil consumption l/1000km max horesepower km D1: [1,2] technical conditions of a vehicle: 1 - good, 2 - bad D2: [1,2,3]
7 Wartości graniczne symptomów
8 Ogląd wczytanych danych
9 Ocena jakości statystyki podstawowe Statistica descriptive statistics
10 Raport podstawowych statystyk opisowych Przeanalizujmy podstawowe miary
11 Spójrzmy dokładniej na wybrane atrybuty Np. moment obrotowy (porównaj z definicją dziedziny)
12 Poszukiwanie źródła trudności Spojrzenie na arkusz z danymi
13 Spójrz do oryginalnego pliku
14 Poprawki w pliku Przesunąć wpis wiersza id. 80 zapisy? wartości średnie w klasie decyzyjnej Symbol spoza dziedziny n pewnie niesprawne autobusy kod 2
15 Zmiany statystyk opisowych 218? Problem jest z separatorem,
16 Sprawdzenie mocy silnika (horsepower)
17 Spojrzenie na rozkłady
18 Analiza współzależności Macierz korelacji
19 Powiązanie pewnych symptomów Można zrobić wykresy korelacyjne (rozrzutu XY) horsepow er(torque) Horsepower Torque Wiedza dziedzinowa ciśnienie sprężania powiązane jest z momentem obrotowym, im większe ciśnienie tym większy można uzyskać moment obrotowy, moment obrotowy powiązany jest z mocą pojazdu, zawartość elementów smołowatych i zużycie oleju świadczyć może o wieku silnika i jego stanie technicznym, Mniejsza użyteczność info. o zużyciu paliwa (warunki, styl jazdy,..)
20 WEKA visualize
21 Select attributes z WEKA
22 Relief (ważność z wagowaniem k-nn)
23 Statistica Data Miner
24 CART - tree
25 Przeglądanie węzłów drzewa (dec 1)
26 Skategoryzowane histogramy
27 Wykresy histogramowe (skategoryzowane)
28 Podejście teorii zbiorów przybliżonych
29 Dyskretne dane + teoria zbiorów przybliżonych Hierarchia ważności symptomów dla klasyfikacji autobusów Można ustalać względna ważność symptomów dla klasyfikacji przykładów - przykładowa hierarchia ważności s8, s1, s3, s4 inne mniej istotne - analiza statystyczna w przypadku dyskretyzacji dziedzin wartości w oparciu o normy możliwe ustalenie podzbiorów zredukowanych {s2,s3,s8}, {s2,s3,s4}, {s1,s2} - teoria zbiorów przybliżonych Notacja s1 prędkość maksymalna
30 Drzewo J4.8 (WEKA)
31 C4.5 z trochę innymi parametrami
32 Algorytm MODLEM
33 Ripper alternatywne podejście do indukcji reguł
34 Podsumowanie klasyfikatorów Dość efektywny klasyfikator Trafności około 97-98% Rozpoznawanie trudniejszej klasy 90% Klasyfikatory symboliczne porównywalne do niesymbolicznych: MLP BP 97,37% SVM 97,37% (klasa n 0,93) RBF 93,27% IBL (3) 97,37% J4.8 98,68% Można dokonać oceny wiedzy symbolicznej Podobną analizę warto przeprowadzić dla drugiej klasyfikacji.
35 Trudności pomiaru alternatywne reprezentacje wiedzy klasyfikującej Ciśnienie sprężania najtrudniejsze do pomiaru
36 Pomijanie trudnych atrybutów (- ciśnienie sprężania)
37 Maskujmy dalsze atrybuty
38 Jeszcze inne możliwości Dalsze maskowania atrybutów w drzewie prowadzą do niższych trafności Jakie jeszcze metody oferują symboliczną reprezentacje wiedzy? Jak stworzyć profil/charakterystykę autobusu należącego do określonej klasy stanu technicznego?
39 Minimalny zbiór reguł klasyfikujących (MODLEM) 1. if (s2 2.4 MPa) & (s7<2.1 l/1000km) then (technical state=good) [46] 2. if (s2<2.4 MPa) then (technical state=bad) [29] 3. if (s7 2.1 l/1000km) then (technical state=bad) [24] Oszacowana trafność klasyfikowania ( leaving one out test) 98.7%.
40 Explore algorithm (Stefanowski, Vanderpooten) Inny cel poszukiwania reguł to extract from data set inducing all rules that satisfy some user s requirements connected with his interest (regarding, e.g. the strength of the rule, level of confidence, length, sometimes also emphasis on the syntax of rules). Special technique of exploration the space of possible rules: Progressively generation rules of increasing size using in the most efficient way some 'good' pruning and stopping condition that reject unnecessary candidates for rules. Similar to adaptations of Apriori principle for looking frequent itemsets [AIS94]; Brute [Etzioni] Więcej: J.Stefanowski, D.Vanderpooten: Induction of decision rules in classification and discovery-oriented perspectives, International Journal of Intelligent Systems, vol. 16 no. 1, 2001, Lub monografia J.Stefanowski: Algorytmy indukcji regul decyzyjnych w odkrywaniu wiedzy => patrz
41 Poszukiwanie zbioru reguł silnych (EXPLORE) Próg satysfakcji (51%): 1. if (s1>85 km/h) then (technical state=good) [34] 2. if (s8>134 km) then (technical state=good) [26] 3. if (s2 2.4 MPa) & (s3<61 %) then (technical state=good) [44] 4. if (s2 2.4 MPa) & (s4>444 Nm) then (technical state=good) [44] 5. if (s2 2.4 MPa) & (s7<2.1 l/1000km) then (technical state=good) [46] 6. if (s3<61 %) & (s4>444 Nm) then (technical state=good) [42] 7. if (s1 77 km/h) then (technical state=bad) [25] 8. if (s2<2.4 MPa) then (technical state=bad) [29] 9. if (s7 2.1 l/1000km) then (technical state=bad) [24] 10. if (s3 61 %) & (s4 444 Nm) then (technical state=bad) [28] 11. if (s3³61 %) & (s8<120 km) then (technical state=bad) [27]
42 Możliwość dodatkowego ograniczania Interactive Explore Sterowanie procedurą poszukiwania reguł decyzyjnych za pomocą następujących parametrów : ustalenie atrybutu decyzyjnego i jego klas decyzyjnych, zbiór preferowanych i zakazanych atrybutów warunkowych, zbiór preferowanych i zakazanych warunków elementarnych, preferowany warunek złożony (część przesłanki), zbiór zakazanych warunków złożonych, maksymalna wielkość zbioru znalezionych reguł, minimalne wsparcie reguły, maksymalna długość reguły, minimalny stopień dyskryminacji (dokładność) reguły.
43 Sterowanie wyborem Interactive Explores
44 Przeglądanie zbioru reguł
45 Wymagania do sprawozdania Krótki opis problemu (raczej Twoje zrozumienie + cele postawione przez klienta) Informacje o danych Scenariusz metodyczny Wstępna ocena danych i ew. czyszczenie Analiza statystyk opisowych / korelacji itp./ Ocena ważności atrybutów Ranking Ew. selekcja / redukcja Podsumowanie wiedzy klasyfikacyjnej Nie tylko trafności Próba interpretacji reprezentacji wiedzy Wnioski dla klienta
46 Źródło danych do problemu Dane zebrane przez dr hab. inż. J.Żak Wydziału maszyn Roboczych i Pojazdów Politechniki Poznańskiej J. Żak, J. Stefanowski. Determining maintenance activities of motor vehicles using rough sets aproach. In Precedings of Euromaintenance 94 Conference. Amsterdam 1994,
47 O jakie autobusy chodziło Autosan H9-21(prototyp 1969, produkowany lata 73-84) w Sanockiej Fabryce Autobusów. Podstawowy model autobusu międzymiastowego PKS w poprzednim okresie
Analiza Danych Case study Analiza diagnostycznej bazy danych Marek Lewandowski, inf59817 zajęcia: środa, 9.
Analiza Danych Case study Analiza diagnostycznej bazy danych Marek Lewandowski, inf59817 lewandowski.marek@gmail.com zajęcia: środa, 9.00 Spis treści: 1 Wprowadzenie... 4 2 Dostępne dane... 5 3 Przygotowanie
ALGORYTM RANDOM FOREST
SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM
SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006
SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu
Analiza danych i data mining.
Analiza danych i data mining. mgr Katarzyna Racka Wykładowca WNEI PWSZ w Płocku Przedsiębiorczy student 2016 15 XI 2016 r. Cel warsztatu Przekazanie wiedzy na temat: analizy i zarządzania danymi (data
Metody klasyfikacji danych - część 1 p.1/24
Metody klasyfikacji danych - część 1 Inteligentne Usługi Informacyjne Jerzy Dembski Metody klasyfikacji danych - część 1 p.1/24 Plan wykładu - Zadanie klasyfikacji danych - Przeglad problemów klasyfikacji
Elementy modelowania matematycznego
Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski
4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74
3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15
Data Mining Wykład 4. Plan wykładu
Data Mining Wykład 4 Klasyfikacja danych Klasyfikacja poprzez indukcje drzew decyzyjnych Plan wykładu Sformułowanie problemu Kryteria oceny metod klasyfikacji Metody klasyfikacji Klasyfikacja poprzez indukcje
Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na
Techniki indeksowania w eksploracji danych Maciej Zakrzewicz Instytut Informatyki Politechnika Poznańska Plan prezentacji Zastosowania indeksów w systemach baz danych Wprowadzenie do metod eksploracji
SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy
Załącznik nr 4 do Uchwały Senatu nr 430/01/2015 SYLABUS Dotyczy cyklu kształcenia 2014-2018 Realizacja w roku akademickim 2016/2017 1.1. PODSTAWOWE INFORMACJE O PRZEDMIOCIE/MODULE Nazwa przedmiotu/ modułu
Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)
Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania
Systemy uczące się wykład 1
Systemy uczące się wykład 1 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 5 X 2018 e-mail: przemyslaw.juszczuk@ue.katowice.pl Konsultacje: na stronie katedry + na stronie domowej
1. Odkrywanie asocjacji
1. 2. Odkrywanie asocjacji...1 Algorytmy...1 1. A priori...1 2. Algorytm FP-Growth...2 3. Wykorzystanie narzędzi Oracle Data Miner i Rapid Miner do odkrywania reguł asocjacyjnych...2 3.1. Odkrywanie reguł
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
Ćwiczenie 5. Metody eksploracji danych
Ćwiczenie 5. Metody eksploracji danych Reguły asocjacyjne (association rules) Badaniem atrybutów lub cech, które są powiązane ze sobą, zajmuje się analiza podobieństw (ang. affinity analysis). Metody analizy
Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner
Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner Wydział Matematyki i Nauk Informacyjnych Politechnika Warszawska Elementy nieprzystające Definicja odrzucania Klasyfikacja
ZASTOSOWANIE ZBIORÓW PRZYBLIŻONYCH DO ANALIZY SATYSFAKCJI KLIENTA SERWISU POJAZDÓW
Inżynieria Rolnicza 1(99)/2008 ZASTOSOWANIE ZBIORÓW PRZYBLIŻONYCH DO ANALIZY SATYSFAKCJI KLIENTA SERWISU POJAZDÓW Marek Klimkiewicz, Katarzyna Moczulska Katedra Organizacji i Inżynierii Produkcji, Szkoła
Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów
Eksploracja danych Piotr Lipiński Informacje ogólne Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów UWAGA: prezentacja to nie
Klasyfikacja. Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji. Eksploracja danych. Klasyfikacja wykład 1
Klasyfikacja Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji Klasyfikacja wykład 1 Niniejszy wykład poświęcimy kolejnej metodzie eksploracji danych klasyfikacji. Na początek
Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych
Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych Tomasz Demski StatSoft Polska www.statsoft.pl Analiza danych Zaawansowana analityka, data
Reguły asocjacyjne w programie RapidMiner Michał Bereta
Reguły asocjacyjne w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Reguły asocjacyjne mają na celu odkrycie związków współwystępowania pomiędzy atrybutami. Stosuje się je często do danych
WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU
WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU Nazwa w języku polskim: Eksploracja Danych Nazwa w języku angielskim: Data Mining Kierunek studiów (jeśli dotyczy): MATEMATYKA I STATYSTYKA Stopień studiów i forma:
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska DRZEWO REGRESYJNE Sposób konstrukcji i przycinania
Laboratorium 6. Indukcja drzew decyzyjnych.
Laboratorium 6 Indukcja drzew decyzyjnych. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk
5. Wprowadzenie do prawdopodobieństwa Wprowadzenie Wyniki i zdarzenia Różne podejścia do prawdopodobieństwa Zdarzenia wzajemnie wykluczające się i
Spis treści Przedmowa do wydania polskiego - Tadeusz Tyszka Słowo wstępne - Lawrence D. Phillips Przedmowa 1. : rola i zastosowanie analizy decyzyjnej Decyzje złożone Rola analizy decyzyjnej Zastosowanie
Zastosowania sieci neuronowych
Zastosowania sieci neuronowych klasyfikacja LABORKA Piotr Ciskowski zadanie 1. klasyfikacja zwierząt sieć jednowarstwowa żródło: Tadeusiewicz. Odkrywanie własności sieci neuronowych, str. 159 Przykład
Wprowadzenie do klasyfikacji
Wprowadzenie do klasyfikacji ZeroR Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F Tutaj jest więcej obiektów klasy T, więc klasyfikator
8. Drzewa decyzyjne, bagging, boosting i lasy losowe
Algorytmy rozpoznawania obrazów 8. Drzewa decyzyjne, bagging, boosting i lasy losowe dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Drzewa decyzyjne Drzewa decyzyjne (ang. decision trees), zwane
SYLABUS DOTYCZY CYKLU KSZTAŁCENIA REALIZACJA W ROKU AKADEMICKIM 2016/2017
SYLABUS DOTYCZY CYKLU KSZTAŁCENIA 2014-2018 REALIZACJA W ROKU AKADEMICKIM 2016/2017 1.1. Podstawowe informacje o przedmiocie/module Nazwa przedmiotu/ modułu Metody eksploracji danych Kod przedmiotu/ modułu*
Inżynieria biomedyczna
Inżynieria biomedyczna Projekt Przygotowanie i realizacja kierunku inżynieria biomedyczna studia międzywydziałowe współfinansowany ze środków Unii Europejskiej w ramach Europejskiego Funduszu Społecznego.
Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta
Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta www.michalbereta.pl W tej części: Zachowanie wytrenowanego modelu w celu późniejszego użytku Filtrowanie danych (brakujące etykiety
Wykład 1. Statystyka międzynarodowa - wprowadzenie Rynek pracy w Unii Europejskiej
Wykład 1 Statystyka międzynarodowa - wprowadzenie Rynek pracy w Unii Europejskiej Informacje o przedmiocie prowadzący: strona internetowa: wykład ćwiczenia forma zaliczenia: dr Marek Sobolewski www.msobolew.sd.prz.edu.pl
Wydawnictwo Politechniki Poznanskiej
Confusion matrix (test set): (a) (b) 10875 : bad (25.0/9.2) Credit
LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów
LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów Łukasz Piątek, Jerzy W. Grzymała-Busse Katedra Systemów Ekspertowych i Sztucznej Inteligencji, Wydział Informatyki
Wprowadzenie do analizy dyskryminacyjnej
Wprowadzenie do analizy dyskryminacyjnej Analiza dyskryminacyjna to zespół metod statystycznych używanych w celu znalezienia funkcji dyskryminacyjnej, która możliwie najlepiej charakteryzuje bądź rozdziela
WYKŁAD 6. Reguły decyzyjne
Wrocław University of Technology WYKŁAD 6 Reguły decyzyjne autor: Maciej Zięba Politechnika Wrocławska Reprezentacje wiedzy Wiedza w postaci reguł decyzyjnych Wiedza reprezentowania jest w postaci reguł
Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2
Data Mining Wykład 2 Odkrywanie asocjacji Plan wykładu Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych Geneza problemu Geneza problemu odkrywania reguł
PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE
UNIWERSYTET WARMIŃSKO-MAZURSKI W OLSZTYNIE PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE http://matman.uwm.edu.pl/psi e-mail: psi@matman.uwm.edu.pl ul. Słoneczna 54 10-561
Temat zajęć: ANALIZA DANYCH ZBIORU EKSPORT. Część I: analiza regresji
Temat zajęć: ANALIZA DANYCH ZBIORU EKSPORT Część I: analiza regresji Krok 1. Pod adresem http://zsi.tech.us.edu.pl/~nowak/adb/eksport.txt znajdziesz zbiór danych do analizy. Zapisz plik na dysku w dowolnej
Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji
Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Michał Witczak Data Mining 20 maja 2012 r. 1. Wstęp Dostarczone zostały nam 4 pliki, z których dwa stanowiły zbiory uczące
Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość
Dwie metody Klasyczna metoda histogramu jako narzędzie do postawienia hipotezy, jaki rozkład prawdopodobieństwa pasuje do danych Indukcja drzewa decyzyjnego jako metoda wykrycia klasyfikatora ukrytego
Ekonometria. Zajęcia
Ekonometria Zajęcia 16.05.2018 Wstęp hipoteza itp. Model gęstości zaludnienia ( model gradientu gęstości ) zakłada, że gęstość zaludnienia zależy od odległości od okręgu centralnego: y t = Ae βx t (1)
WSPOMAGANIE DECYZJI - MIŁOSZ KADZIŃSKI LAB IV ZBIORY PRZYBLIŻONE I ODKRYWANIE REGUŁ DECYZYJNYCH
WSOMAGANIE DECYZJI - MIŁOSZ KADZIŃSKI LAB IV ZBIORY RZYBLIŻONE I ODKRYWANIE REGUŁ DECYZYJNYCH 1. Definicje Zbiory, które nie są zbiorami definiowalnymi, są nazywane zbiorami przybliżonymi. Zbiory definiowalne
Metody eksploracji danych Laboratorium 4. Klasyfikacja dokumentów tekstowych Naiwny model Bayesa Drzewa decyzyjne
Metody eksploracji danych Laboratorium 4 Klasyfikacja dokumentów tekstowych Naiwny model Bayesa Drzewa decyzyjne Zbiory danych Podczas ćwiczeń będziemy przetwarzali dane tekstowe pochodzące z 5 książek
Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU
Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów
WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne
WYKŁAD 11 Uczenie maszynowe drzewa decyzyjne Reprezentacja wiedzy w postaci drzew decyzyjnych entropia, przyrost informacji algorytmy ID3, C4.5 problem przeuczenia wyznaczanie reguł rzykładowe drzewo decyzyjne
Łączenie indukcji reguł i uczenia z przykładów dla niezrównoważonych klas. Krystyna Napierała Jerzy Stefanowski
Łączenie indukcji reguł i uczenia z przykładów dla niezrównoważonych klas Krystyna Napierała Jerzy Stefanowski Plan prezentacji Źródła trudności w uczeniu z danych niezrównoważonych (przypomnienie) Indukcja
Laboratorium 4. Naiwny klasyfikator Bayesa.
Laboratorium 4 Naiwny klasyfikator Bayesa. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk
Nazwa przedmiotu: Informatyczne systemy statystycznej obróbki danych. Informatics systems for the statistical treatment of data Kierunek:
Nazwa przedmiotu: Informatyczne systemy statystycznej obróbki danych I KARTA PRZEDMIOTU CEL PRZEDMIOTU Informatics systems for the statistical treatment of data Kierunek: Forma studiów Informatyka Stacjonarne
Zbiory przybliżone, cz. 1 (wersja do druku) dr. Piotr Szczuko
Zbiory przybliżone, cz. 1 (wersja do druku) dr. Piotr Szczuko Katedra Systemów Multimedialnych 2009 Plan wykładu Historia zbiorów przybliżonych System informacyjny i decyzyjny Reguły decyzyjne Tożsamość
Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS
Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów
Metody eksploracji danych. Reguły asocjacyjne
Metody eksploracji danych Reguły asocjacyjne Analiza podobieństw i koszyka sklepowego Analiza podobieństw jest badaniem atrybutów lub cech, które są powiązane ze sobą. Metody analizy podobieństw, znane
Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining
Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining 0LNRáDM0RU]\ Marek Wojciechowski Instytut Informatyki PP Eksploracja danych 2GNU\ZDQLHZ]RUFyZZGX*\FK
Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska
Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska e-mail: bartosz.krawczyk@pwr.wroc.pl Czym jest klasyfikacja
Automatyczne wyodrębnianie reguł
Automatyczne wyodrębnianie reguł Jedną z form reprezentacji wiedzy jest jej zapis w postaci zestawu reguł. Ta forma ma szereg korzyści: daje się łatwo interpretować, można zrozumieć sposób działania zbudowanego
data mining machine learning data science
data mining machine learning data science deep learning, AI, statistics, IoT, operations research, applied mathematics KISIM, WIMiIP, AGH 1 Machine Learning / Data mining / Data science Uczenie maszynowe
Metody oceny wiedzy klasyfikacyjnej odkrytej z danych Jerzy Stefanowski Instytut Informatyki Politechnika Poznańska
Metody oceny wiedzy klasyfikacyjnej odkrytej z danych Jerzy Stefanowski Instytut Informatyki Politechnika Poznańska Wykład dla spec. Mgr TWO Poznań 2010 dodatek 1 Ocena wiedzy klasyfikacyjnej wykład dla
Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład
Data Mining Wykład 5 Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny Indeks Gini Popularnym kryterium podziału, stosowanym w wielu produktach komercyjnych, jest indeks Gini Algorytm SPRINT
Drzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber
Drzewa decyzyjne Inteligentne Obliczenia Wydział Mechatroniki Politechniki Warszawskiej Anna Sztyber INO (IAiR PW) Drzewa decyzyjne Anna Sztyber / Drzewa decyzyjne w podstawowej wersji algorytm klasyfikacji
Metody Eksploracji Danych. Klasyfikacja
Metody Eksploracji Danych Klasyfikacja w wykładzie wykorzystano: 1. materiały dydaktyczne przygotowane w ramach projektu Opracowanie programów nauczania na odległość na kierunku studiów wyższych Informatyka
Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek
Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek Cel projektu Celem projektu jest przygotowanie systemu wnioskowania, wykorzystującego wybrane algorytmy sztucznej inteligencji; Nabycie
Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16
Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego
Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji
Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Jacek Szcześniak Jerzy Błaszczyński Roman Słowiński Poznań, 5.XI.2013r. Konspekt Wstęp Wprowadzenie Metody typu wrapper Nowe metody
Metody probabilistyczne klasyfikatory bayesowskie
Konwersatorium Matematyczne Metody Ekonomii narzędzia matematyczne w eksploracji danych First Prev Next Last Go Back Full Screen Close Quit Metody probabilistyczne klasyfikatory bayesowskie Wykład 8 Marcin
Szczegółowy opis przedmiotu zamówienia
ZP/ITS/19/2013 SIWZ Załącznik nr 1.1 do Szczegółowy opis przedmiotu zamówienia Przedmiotem zamówienia jest: Przygotowanie zajęć dydaktycznych w postaci kursów e-learningowych przeznaczonych dla studentów
LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej
LABORATORIUM 3 Przygotowanie pliku (nazwy zmiennych, export plików.xlsx, selekcja przypadków); Graficzna prezentacja danych: Histogramy (skategoryzowane) i 3-wymiarowe; Wykresy ramka wąsy; Wykresy powierzchniowe;
Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2
Klasyfikacja Indeks Gini Zysk informacyjny Klasyfikacja wykład 2 Kontynuujemy prezentacje metod klasyfikacji. Na wykładzie zostaną przedstawione dwa podstawowe algorytmy klasyfikacji oparte o indukcję
Modelowanie glikemii w procesie insulinoterapii
Dawid Kaliszewski Modelowanie glikemii w procesie insulinoterapii Promotor dr hab. inż. Zenon Gniazdowski Cel pracy Zbudowanie modelu predykcyjnego przyszłych wartości glikemii diabetyka leczonego za pomocą
Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium VIII: Analiza kanoniczna
1 Laboratorium VIII: Analiza kanoniczna Spis treści Laboratorium VIII: Analiza kanoniczna... 1 Wiadomości ogólne... 2 1. Wstęp teoretyczny.... 2 Przykład... 2 Podstawowe pojęcia... 2 Założenia analizy
ELASTYCZNOŚĆ SILNIKA ANDORIA 4CTI90
Konrad PRAJWOWSKI, Tomasz STOECK ELASTYCZNOŚĆ SILNIKA ANDORIA 4CTI90 Streszczenie W artykule opisana jest elastyczność silnika ANDORIA 4CTi90 obliczona na podstawie rzeczywistej charakterystyki prędkościowej
Analiza metod wykrywania przekazów steganograficznych. Magdalena Pejas Wydział EiTI PW magdap7@gazeta.pl
Analiza metod wykrywania przekazów steganograficznych Magdalena Pejas Wydział EiTI PW magdap7@gazeta.pl Plan prezentacji Wprowadzenie Cel pracy Tezy pracy Koncepcja systemu Typy i wyniki testów Optymalizacja
Złożoność i zagadnienia implementacyjne. Wybierz najlepszy atrybut i ustaw jako test w korzeniu. Stwórz gałąź dla każdej wartości atrybutu.
Konwersatorium Matematyczne Metody Ekonomii Narzędzia matematyczne w eksploracji danych Indukcja drzew decyzyjnych Wykład 3 - część 2 Marcin Szczuka http://www.mimuw.edu.pl/ szczuka/mme/ Plan wykładu Generowanie
Indukowane Reguły Decyzyjne I. Wykład 3
Indukowane Reguły Decyzyjne I Wykład 3 IRD Wykład 3 Plan Powtórka Grafy Drzewa klasyfikacyjne Testy wstęp Klasyfikacja obiektów z wykorzystaniem drzewa Reguły decyzyjne generowane przez drzewo 2 Powtórzenie
Badanie zależności skala nominalna
Badanie zależności skala nominalna I. Jak kształtuje się zależność miedzy płcią a wykształceniem? II. Jak kształtuje się zależność między płcią a otyłością (opis BMI)? III. Jak kształtuje się zależność
Data Mining podstawy analizy danych Część druga
Data Mining podstawy analizy danych Część druga W części pierwszej dokonaliśmy procesu analizy danych treningowych w oparciu o algorytm drzewa decyzyjnego. Proces analizy danych treningowych może być realizowany
AUTOMATYKA INFORMATYKA
AUTOMATYKA INFORMATYKA Technologie Informacyjne Sieć Semantyczna Przetwarzanie Języka Naturalnego Internet Edytor Serii: Zdzisław Kowalczuk Inteligentne wydobywanie informacji z internetowych serwisów
Wyk lad 8: Leniwe metody klasyfikacji
Wyk lad 8: Leniwe metody Wydzia l MIM, Uniwersytet Warszawski Outline 1 2 lazy vs. eager learning lazy vs. eager learning Kiedy stosować leniwe techniki? Eager learning: Buduje globalna hipoteze Zaleta:
Eksploracja danych - wykład VIII
I Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska 2 grudnia 2016 1/31 1 2 2/31 (ang. affinity analysis) polega na badaniu atrybutów lub cech, które są ze sobą powiązane. Metody
Algorytmy klasyfikacji
Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe
Stochastyczne Metody Analizy Danych. PROJEKT: Analiza kluczowych parametrów turbin wiatrowych
PROJEKT: Analiza kluczowych parametrów turbin wiatrowych Projekt jest wykonywany z wykorzystaniem pakietu statystycznego STATISTICA. Praca odbywa się w grupach 2-3 osobowych. Aby zaliczyć projekt, należy
Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej. Adam Żychowski
Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej Adam Żychowski Definicja problemu Każdy z obiektów może należeć do więcej niż jednej kategorii. Alternatywna definicja Zastosowania
Zajęcia nr VII poznajemy Rattle i pakiet R.
Okno główne Rattle wygląda następująco: Zajęcia nr VII poznajemy Rattle i pakiet R. Widzimy główne zakładki: Data pozwala odczytad dane z różnych źródeł danych (pliki TXT, CSV) i inne bazy danych. Jak
Rodzaje testów. Testy. istnieje odpowiedź prawidłowa. autoekspresja brak odpowiedzi prawidłowej ZGADYWANIE TRAFNOŚĆ SAMOOPISU
Rodzaje testów Testy wiedza umiejętności zdolności właściwości poznawcze właściwości afektywne uczucia postawy osobowość emocje wierzenia istnieje odpowiedź prawidłowa autoekspresja brak odpowiedzi prawidłowej
Określanie ważności atrybutów. RapidMiner
Określanie ważności atrybutów RapidMiner Klasyfikacja (1/2) TEMP BÓL WYSYPKA GARDŁO DIAGNOZA 36.6 T BRAK NORMA NIESTRAWNOŚĆ 37.5 N MAŁA PRZEKR. ALERGIA 36.0 N BRAK NORMA PRZECHŁODZENIE 39.5 T DUŻA PRZEKR.
Wybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora.
Wprowadzenie do programu RapidMiner Studio 7.6, część 7 Podstawy metod wyboru atrybutów w problemach klasyfikacyjnych, c.d. Michał Bereta www.michalbereta.pl Wybór / ocena atrybutów na podstawie oceny
Metody statyczne selekcji i konstruowania cech dla wizualizacji danych wielowymiarowych
Metody statyczne selekcji i konstruowania cech dla wizualizacji danych wielowymiarowych Jerzy Stefanowski (PCA Robert Susmaga) Instytut Informatyki Politechniki Poznańskiej Wykład InfoVis dla TWO 205 Agregacje
SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.
SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:
Nowe narzędzia zarządzania jakością
Nowe narzędzia zarządzania jakością Agnieszka Michalak 106947 Piotr Michalak 106928 Filip Najdek 106946 Co to jest? Nowe narzędzia jakości - grupa siedmiu nowych narzędzi zarządzania jakością, które mają
Wybrane zagadnienia uczenia maszynowego. Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec
Wybrane zagadnienia uczenia maszynowego Zastosowania Informatyki w Informatyce W2 Krzysztof Krawiec Przygotowane na podstawie T. Mitchell, Machine Learning S.J. Russel, P. Norvig, Artificial Intelligence
KLASYFIKACJA. Słownik języka polskiego
KLASYFIKACJA KLASYFIKACJA Słownik języka polskiego Klasyfikacja systematyczny podział przedmiotów lub zjawisk na klasy, działy, poddziały, wykonywany według określonej zasady Klasyfikacja polega na przyporządkowaniu
B jest globalnym pokryciem zbioru {d} wtedy i tylko wtedy, gdy {d} zależy od B i nie istnieje B T takie, że {d} zależy od B ;
Algorytm LEM1 Oznaczenia i definicje: U - uniwersum, tj. zbiór obiektów; A - zbiór atrybutów warunkowych; d - atrybut decyzyjny; IND(B) = {(x, y) U U : a B a(x) = a(y)} - relacja nierozróżnialności, tj.
KARTY POMIAROWE DO BADAŃ DROGOWYCH
Katedra Pojazdów i Sprzętu Mechanicznego Laboratorium KARTY POMIAROWE DO BADAŃ DROGOWYCH Zawartość 5 kart pomiarowych Kielce 00 Opracował : dr inż. Rafał Jurecki str. Strona / Silnik Charakterystyka obiektu
OPTYMALIZACJA CZĘŚCIOWYCH REGUŁ ASOCJACYJNYCH WZGLĘDEM LICZBY POMYŁEK
STUDIA INFORMATICA 2016 Volume 37 Number 1 (123) Beata ZIELOSKO Uniwersytet Śląski, Instytut Informatyki Marek ROBASZKIEWICZ EL-PLUS Sp. z o.o. OPTYMALIZACJA CZĘŚCIOWYCH REGUŁ ASOCJACYJNYCH WZGLĘDEM LICZBY
Sieć społeczna przedsiębiorcy w teorii i praktyce zarządzania małą firmą
1 2 Politechnika Częstochowska Piotr Tomski Sieć społeczna przedsiębiorcy w teorii i praktyce zarządzania małą firmą Monografia Częstochowa 2016 3 Recenzenci: Prof. dr hab. inż. Stanisław Nowosielski Prof.
ALGORYTMY SZTUCZNEJ INTELIGENCJI
ALGORYTMY SZTUCZNEJ INTELIGENCJI Sieci neuronowe 06.12.2014 Krzysztof Salamon 1 Wstęp Sprawozdanie to dotyczy ćwiczeń z zakresu sieci neuronowych realizowanym na przedmiocie: Algorytmy Sztucznej Inteligencji.
Część 2: Data Mining
Łukasz Przywarty 171018 Wrocław, 18.01.2013 r. Grupa: CZW/N 10:00-13:00 Raport z zajęć laboratoryjnych w ramach przedmiotu Hurtownie i eksploracja danych Część 2: Data Mining Prowadzący: dr inż. Henryk
Sztuczna inteligencja : Zbiory rozmyte cz. III
Instytut Informatyki Uniwersytetu Śląskiego lab 3 Notacja Zadeha: symboliczny zapis zbioru rozmytego dla przestrzeni dyskretnej. Dla X jest przestrzenią o skończonej liczbie elementów X = {x 1, x 2,...,
WYKORZYSTANIE SYSTEMU EKSPERTOWEGO DO DIAGNOZOWANIA OKRĘTOWEGO SILNIKA SPALINOWEGO
Rafał Pawletko Akademia Morska w Gdyni WYKORZYSTANIE SYSTEMU EKSPERTOWEGO DO DIAGNOZOWANIA OKRĘTOWEGO SILNIKA SPALINOWEGO W artykule przedstawiono koncepcję systemu diagnostycznego okrętowego silnika tłokowego