Eksploracja danych. Definicja (Eksploracja danych)
|
|
- Antoni Chmiel
- 7 lat temu
- Przeglądów:
Transkrypt
1 Data mining Stefania Wietrzykowska, Piotr Lebiedź Politechnika Gdańska Wydział Fizyki Technicznej i Matematyki Stosowanej 11 czerwca 2017 tefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki Stosowanej) 11 czerwca / 87
2 Eksploracja danych Definicja (Eksploracja danych) Eksploracja danych (ang. data mining) to jeden z etapów procesu uzyskiwania wiedzy z baz danych (ang. Knowledge Discovery in Databases, KDD). Idea eksploracji danych bazuje na wykorzystaniu szybkości i mocy obliczeniowej komputera do znajdowania ukrytych dla człowieka (z uwagi na ograniczone możliwości czasowe) prawidłowości i schematów w danych zgromadzonych w hurtowniach danych. Istnieje wiele technik eksploracji danych, które wywodzą się z ugruntowanych dziedzin nauki, takich jak statystyka (statystyczna analiza wielowymiarowa) i uczenie maszynowe. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki Stosowanej) 11 czerwca / 87
3 Hurtownie danych Definicja (Hurtownia danych) Hurtownia danych (ang. data warehouse) to baza danych, która została zorganizowana i zoptymalizowana w celu odwzorowania pewnego wycinka rzeczywistości. Hurtownia danych jest wyższym szczeblem abstrakcji niż zwykła relacyjna baza danych (choć do jej tworzenia używa się podobnych technologii). W skład hurtowni wchodzą zbiory danych zorientowanych tematycznie (np. hurtownia danych studentów). Dane te często pochodzą z różnych źródeł, są zintegrowane i przeznaczone wyłącznie do odczytu. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki Stosowanej) 11 czerwca / 87
4 Hurtownie danych W praktyce hurtownie są bazami danych integrującymi dane ze wszystkich pozostałych systemów bazodanowych w przedsiębiorstwie. Ta integracja polega na cyklicznym zasilaniu hurtowni danymi systemów produkcyjnych (może być tych baz lub systemów dużo i mogą być rozproszone). Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki Stosowanej) 11 czerwca / 87
5 Dana mining Architektura bazy hurtowni jest zorientowana na optymalizację szybkości wyszukiwania i jak najefektywniejszą analizę zawartości. Stąd bywa, że hurtownie danych nie są realizowane za pomocą relacyjnych baz danych, gdyż takie bazy ustępują szybkością innym rozwiązaniom. Użytkownicy końcowi hurtowni, czyli najczęściej zarząd firmy, korzystają z danych hurtowni poprzez różne systemy wyszukiwania danych (np. Online Analytical Processing (OLAP)). Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki Stosowanej) 11 czerwca / 87
6 Data mining Ze względu na ilość i tematykę danych przeprowadzane analizy mogą polegać na szukaniu trendów, zależności, wzorców itp. Dane przechowywane w hurtowni są tematycznie spójne (dotyczą konkretnego problemu lub instytucji, np. politechniki) oraz zintegrowane, co najczęściej cechuje się centralizacją przechowywania danych (wszelkie dane są przechowywane w jednym miejscu). Istnieją również zawężone tematycznie hurtownie danych (np. jednego wydziału) nazywane minihurtowniami danych (z ang. data mart). Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki Stosowanej) 11 czerwca / 87
7 Metodologia Przeprowadzenie poprawnego Data Miningu to bardzo złożony proces, zawierający wiele etapów - trzeba najpierw pozyskać odpowiednie dane, zrozumieć, co przedstawia każda kolumna, sprawdzić, czy nie ma błędów lub braków danych, które mogłyby przeszkodzić w pracy, itd. Aby odpowiednio przeprowadzić Data Mining, potrzebny jest logiczny plan działania uwzględniający wszystkie kroki konieczne do zrozumienia i rozwiązania problemu. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki Stosowanej) 11 czerwca / 87
8 Rysunek: Schemat CRISP Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki Stosowanej) 11 czerwca / 87 CRISP Istnieją różne metodologie przeprowadzania eksploracji danych. Jednym z modeli Data Mining jest CRISP - Międzybranżowy standardowy proces dla eksploracji danych (ang. Cross-Industry Standard Process for Data Mining) zaproponowany w połowie lat dziewięćdziesiątych przez europejskie konsorcjum przedsiębiorstw, jako powszechnie dostępny standard dla procesów Data Mining. Model ten postuluje następujący ciąg etapów projektu Data Mining:
9 Sześć Sigma Innym podejściem jest metodyka Sześć Sigma (ang. Six Sigma). Jest to dobrze zorganizowana, bazująca na danych strategia unikania wad i problemów z jakością we wszystkich rodzajach produkcji i usług, zarządzaniu i każdej działalności biznesowej. Metodyka ta w ostatnich latach staje się coraz bardziej popularna. Zaleca ona następujące etapy (tzw. DMAIC): 1 Definiowanie (ang. Define); 2 Pomiar (ang. Measure); 3 Analiza (ang. Analyze); 4 Udoskonalenie (ang. Improve); 5 Kontrola (ang. Control) Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki Stosowanej) 11 czerwca / 87
10 SEMMA SAS Institute dla swojego programu SAS Enterprise Miner opracował metodologię nazywaną SEMMA (wariant Sześć Sigma) : 1 Próbkowanie (ang. Sample), 2 Eksploracja (ang. Explore), 3 Modyfikacja (ang. Modify), 4 Modelowanie (ang. Model), 5 Ocena (ang. Assess). Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
11 SEMMA Sample - przygotowanie i podział danych wejściowych; Explore - eksploracja danych; służy ocenie ich jakości oraz wstępnej identyfikacji istniejących zależności; Modify - modyfikacja danych; służy poprawie jakości danych i dba o to, by dane jak najlepiej pasowały do modeli; Model - modelowanie; np. drzewa decyzyjne, regresje czy sieci neuronowe; Assess - ocena jakości modeli, wybór najlepszego z nich i monitorowanie jego skuteczności. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
12 Sampling Sampling polega na doborze próby z większego zbioru tak, aby próba ta była reprezentatywna. Używa się tego przy naprawdę wielkich zbiorach danych, na których ciężko operować nawet komputerowi. Wyróżniamy metody: N pierwszych; Losowanie zwykłe każda obserwacja losowana jest z jednakowym prawdopodobieństwem; Losowanie warstwowe Losowanie według kryteriów: Proporcjonalne udział obserwacji w każdej z warstw jest identyczny; Równe węzeł losuje tę samą liczbę obserwacji z każdej z warstw; Optymalne Udział obserwacji na warstwach jak i ich wariancja jest taka sama jak w populacji. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
13 Opis danych Przejdziemy teraz do naszego przykładu. O danych: Z pewnego przedsiębiorstwa wodociągowego otrzymaliśmy tabelę zawierającą dane związane z zapewnianiem usług wodociągowych w czasie od 31 grudnia 2014 do 1 stycznia Składa się ona z 17 zmiennych i obserwacji. Zmienne to: moduł, identyfikator, lokalizacja, data odczytu, data rejestracji, energia, przepływ, temperatura zasilania (temperatura in), temperatura powrotu (temperatura out), różnica temperatur, objętość, godziny pracy, moc, kod info, numer klienta, objętość wodomierza 1, objętość wodomierza 2. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
14 Opis danych Nasze dane surowe prezentują się następująco: Rysunek: tabela danych w programie SAS Enterprise Guide 6.1 Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
15 Opis danych Część zmiennych zawierających dane chronione została sztucznie zmodyfikowana, są to: moduł, identyfikator, lokalizacja, kod info, numer klienta. Z tych danych nie będziemy więc korzystać. Porzucimy również daty odczytu, daty rejestracji, godziny pracy, objętość wodomierza 1 i objętość wodomierza 2, gdyż nie przydadzą się w realizacji naszego zagadnienia. W naszym projekcie będziemy chcieli przewidywać i klasyfikować wartości temperatury powrotu za pomocą pozostałych zmiennych. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
16 Źródło danych Surowe dane zaimportowaliśmy do programu SAS Enterprise Guide 6.1 i w ten sposób stworzyliśmy tabelę SASową, będącą później naszym źródłem danych w programie SAS Enterprise Miner Workstation Będziemy korzystać z następujących zmiennych:energia, moc, objętość, przepływ, różnica temperatur, temperatura in, temperatura out. Zmienną temperatura out oznaczamy jako zmienną celu. Zmienne: energia, moc, objętość, przepływ, różnica temperatur, temperatura in określamy jako wejście, gdyż to na ich podstawie będziemy chcieli klasyfikować i dokonywać predykcji zmiennej celu. Pozostałe zmienne decydujemy się porzucić. Z pozostawionych zmiennych energia, moc, objętość, przepływ, różnica temperatur, temperatura in, temperatura out są typu przedziałowego. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
17 SAS Miner Rysunek: nowy projekt Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
18 SAS Miner Rysunek: nowa biblioteka Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
19 SAS Miner Rysunek: nowa biblioteka Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
20 SAS Miner Rysunek: nowe źródło danych Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
21 SAS Miner Rysunek: charakterystyka źródła danych Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
22 Diagram W kolejnym kroku tworzymy diagram. Rysunek: nowy diagram Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
23 Diagram Najpierw przyjrzymy się danym za pomocą statystyk DMDB. Rysunek: DMDB Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
24 Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Rysunek: Gdańska statystyki Data Wydział mining Fizyki z zaburzeniami Technicznej i Matematyki 11 Stosowanej) czerwca / 87 Zaburzenia Jak widać na zrzucie ekranu poniżej, zmienne moc, przepływ i różnica temperatur wyraźnie zawierają jakieś błędy pomiarowe. Niektóre dane są ekstremalnie wyolbrzymione. Możemy poradzić sobie z nimi na dwa sposoby - albo użyć zastępowania, żeby nie utracić tych rekordów, tylko sztucznie nadać zaburzonym danym wartości bliższe realnym lub filtrowania, czyli wyrzucenia z tabeli rekordów zawierających zaburzenia.
25 Zastępowanie danych Jeśli chcemy dokonać zastępowania, musimy zdecydować się na metodę: średnie odchylenie bezwzględne, granice podane przez użytkownika, granice metadanych, skrajne centyle, wartość modalna, odchylenia standardowe od średniej. Rysunek: metody zastępowania Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
26 Zastępowanie danych Nie chcemy sami podawać granic, bo mogłoby to być uciążliwe, nie po to mamy taki zaawansowany program. Część metod zastępuje za dużo danych, nawet całe procenty, a to stanowczo zaburzyłoby analizę. Część nawet dokonuje poprawy zmiennej temperatura in, w której nie stwierdziliśmy nieprawidłowości. Decydujemy się więc skorzystać z kryterium wartości modalnej, gdyż wykrywa ona te zaburzenia, co my przy obserwacji surowych danych. Ponowne uruchomienie statystyk DMDB utwierdza nas w przekonaniu, że wybraliśmy dobrą metodę, gdyż pozbyliśmy się problemu nierealnych maksimów i ogromnego odchylenia standardowego bez straty wielu prawdziwych danych. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
27 Filtrowanie danych Zamiast zastępować zaburzone dane, można je po prostu usunąć. Przy filtrowaniu podobnie jak wcześniej w zastępowaniu używamy kryterium wartości modalnej, gdyż daje ono najlepsze rezultaty, zgodne z naszą intuicją przy obserwacji zbioru. Okazuje się, że problem sprawia jedynie 16 rekordów, nie będzie więc żadnym uszczerbkiem dla naszej próby ( obs.), jeśli się ich po prostu pozbędziemy, zamiast je czymś zastępować. Jednakże dla celów badawczych wprowadziliśmy w życie równolegle obie metody, żeby sprawdzić, jaka będzie między nimi różnica. Jak można się było domyślić, przy 16 rekordach jest to różnica niemalże niezauważalna. Dalszą analizę przeprowadzimy więc po filtrowaniu. W obu opcjach zaznaczyliśmy również pozbywanie się braków danych. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
28 Filtrowanie danych Rysunek: statystyki bez danych zaburzonych Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
29 Badanie korelacji, partycjonowanie i imputacja Dokonujemy również równolegle eksploracji statystyk, żeby przyjrzeć się korelacji zmiennych ze zmienną celu. Widzimy, że największą korelację stwierdzono przy zmiennej różnica temperatur, sporo mają również temperatura in i przepływ. Domyślamy się więc, że będą one miały kluczowe znaczenie w naszych modelach. Gdy nasze źródło danych zostało już odpowiednio przygotowane, możemy dokonać partycjonowania na zbiory: uczący (treningowy) (40%), walidacyjny (30%) i testowy (30%). Dokonujemy również imputacji, żeby mieć pewność, że nie będziemy mieć żadnych braków danych. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
30 Partycjonowanie Zbiór treningowy odpowiada za zbudowanie modelu; obejmuje 40-70% próby wejściowej Zbiór walidacyjny wykorzystuje się do porównywania modeli między sobą; obejmuje 20-30% próby; Zbioru testowego używa się do końcowej oceny modelu wybranego na podstawie danych walidacyjnych; są to dane, na których model nie był tworzony ani jeszcze testowany; obejmuje 20-30% próby; Im większy zbiór treningowy, tym lepszy klasyfikator; Im większy zbiór testowy, tym lepiej można aproksymować błąd klasyfikacji. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
31 Drzewa decyzyjne Budując model drzewa decyzyjnego dokonujemy podziału według poniższego wzoru: r n i Z = Z 0 Z i, (1) n 0 gdzie: i=1 Z 0 - stopień niejednorodności dzielonego elementu; r - ilość elementów powstających w wyniku podziału; n i - liczność i-tego elementu powstałego w wyniku podziału; n 0 - liczność dzielonego elementu; Z i - stopień niejednorodności i-tego elementu powstałego w wyniku podziału. Interesuje nas podział, którego różnica Z jest największa. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
32 Miary niejednorodności Do oceny stopnia niejednorodności (lub zanieczyszczenia) najczęściej używa się poniższych miar: współczynnika entropii; współczynnika Giniego; log-wartość chi-kwadrat. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
33 Współczynnik entropii Definicja (Współczynnik entropii) gdzie: Z = H(s 1, s 2,..., s k ) = k p i log 2 (p i ), (2) p i = s i s - odsetek obserwacji przyjmujących i-tą wartość zmiennej objaśnianej; k - ilość kategorii przyjmowanych przez zmienną objaśnianą. Przyjmujemy 0 log 2 (0) = 0. i=1 Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
34 Entropia Entropią podziału zbioru S ze względu na atrybut A = {a 1, a 2,..., a k } nazywamy: Definicja (Entropia) gdzie: E(a 1, a 2,..., a k ) = k j=1 s 1j + s 2j s mj H(s 1j, s 2j,..., s mj ), (3) s p ij = s ij sj - odsetek obserwacji przyjmujących i-tą wartość zmiennej objaśnianej; k - ilość kategorii przyjmowanych przez zmienną objaśnianą; H(s 1, s 2,..., s k ) = k i=1 p i log 2 (p i ). Im mniejsza wartość entropii, tym lepszy jest podział. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
35 Zysk informacyjny Definicja (Zysk informacyjny) Gain(A) = H(S) E(A), (4) gdzie: H(S) - współczynnik entropii; E(A) - entropia. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
36 Współczynnik entropii - przykład Załóżmy, że jesteśmy sklepem komputerowym i chcemy wiedzieć, jakie osoby najczęściej kupują nasze produkty, do kogo kierować reklamy i promocje. Mamy prostą przykładową bazę danych klientów i na jej podstawie będziemy chcieli dokonać późniejszej klasyfikacji. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
37 Współczynnik entropii - przykład ID Wiek Dochód Student Status Kupi komputer 1 przed 30 wysoki nie kawaler nie 2 przed 30 wysoki nie żonaty nie wysoki nie kawaler tak 4 po 40 średni nie kawaler tak 5 po 40 niski tak kawaler tak 6 po 40 niski tak żonaty nie niski tak żonaty tak 8 przed 30 średni nie kawaler nie 9 przed 30 niski tak kawaler tak 10 po 40 średni tak kawaler tak 11 przed 30 średni tak żonaty tak średni nie żonaty tak wysoki tak kawaler tak 14 po 40 średni nie żonaty nie Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
38 Współczynnik entropii - przykład Naszą zmienną celu jest Kupi komputer, możemy więc dokonać podziału według zmiennych Wiek, Dochód, Student lub Status. Kupi komputer ma dwie klasy tak i nie, a możliwe klasy podziału to: dla Wieku {przed 30}, {30-40} i {po 40}, dla Dochodu {wysoki}, {średni} i {niski}, dla Student {tak} i {nie}, natomiast dla zmiennej Status - {kawaler} i {żonaty}. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
39 Współczynnik entropii - przykład Mamy więc dwie klasy dla atrybutu Kupi komputer: Stąd C 1, gdy Kupi komputer = tak o liczności s 1 = 9; C 2, gdy Kupi komputer = nie o liczności s 2 = 5. H(s 1, s 2 ) = H(9, 5) = 9 14 log log = 0,94. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
40 Współczynnik entropii - przykład Następnie obliczamy entropię atrybutów testowych. Pierwszy będzie wiek złożony z trzech partycji: Wiek = przed 30 H(s 11, s 21 ) = H(2, 3) = 0,971; Wiek = H(s 12, s 22 ) = H(4, 0) = 0; Wiek = po 40 H(s 13, s 23 ) = H(2, 3) = 0,971; Entropia atrybutu Wiek : E( Wiek ) = 5 14 H(s 11, s 21 ) H(s 12, s 22 ) H(s 13, s 23 ) = 0,694; Zysk informacyjny z podziału zbioru S według atrybutu Wiek : Gain( Wiek ) = I (s 1, s 2 ) E( Wiek ) = 0,94 0,694 = 0,277. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
41 Współczynnik entropii - przykład Analogicznie otrzymujemy wartości zysku informacyjnego dla pozostałych atrybutów: Gain( Wiek ) = 0,277; Gain( Dochod ) = 0,029; Gain( Student ) = 0,151; Gain( Status ) = 0,048. Interesuje nas atrybut mający największą wartość zysku informacyjnego, a więc Wiek. Podzielimy więc najpierw drzewo na partycje według zmiennej Wiek. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
42 Współczynnik entropii - przykład Rysunek: podział drzewa na Wiek Jak widać wierzchołek S 2 jest liściem, gdyż wszyscy należący doń klienci kupią komputery. Należy natomiast dokonać dalszego podziału wierzchołków S 1 i S 3. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
43 Współczynnik entropii - przykład Wykonanie podobnej analizy pokazuje, że S 1 należy podzielić ze względu na atrybut Student, a S 3 ze względu na Status. Całość prezentuje się następująco: Rysunek: drzewo decyzyjne: Kupi komputer Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
44 Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Rysunek: Gdańska czy klient Data Wydział mining kupi Fizyki Technicznej komputer? i Matematyki 11 Stosowanej) czerwca / 87 Współczynnik entropii - przykład Co daje nam takie drzewo i jak z niego korzystać? Załóżmy, że pojawia się klient studiujący, mający 23 lata, będący kawalerem o niskich dochodach. Czy możemy przewidywać, że kupi on od nas komputer? TAK, gdyż trafia do odpowiedniego wierzchołka:
45 Współczynnik Giniego Definicja (Współczynnik Giniego) gdzie: Z = 1 k pi 2, (5) p i - odsetek obserwacji przyjmujących i-tą wartość zmiennej objaśnianej; k - ilość kategorii przyjmowanych przez zmienną objaśnianą. i=1 Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
46 Współczynnik Giniego - przykład Załóżmy, że jesteśmy towarzystwem ubezpieczeniowym i chcemy wiedzieć, jaką składkę zaproponować danej osobie za ubezpieczenie samochodu. W tym celu musimy stwierdzić, czy należy ona do grupy podwyższonego ryzyka spowodowania wypadku, czy też nie. Mamy bardzo prostą przykładową bazę danych kierowców i na jej podstawie będziemy chcieli dokonać późniejszej klasyfikacji naszego klienta. ID Wiek Samochód Ryzyko 1 20 Rodzinny Wysokie 2 18 Sportowy Wysokie 3 50 Sportowy Wysokie 4 70 Rodzinny Niskie 5 30 Terenowy Niskie 6 25 Rodzinny Wysokie Naszą zmienną celu jest Ryzyko, możemy więc dokonać podziału według zmiennych Wiek i Samochód. Stefania Ryzyko Wietrzykowska, ma dwie Piotr Lebiedź klasy (Politechnika - Wysokie GdańskaiData Wydział Niskie, mining Fizyki atechnicznej możliwe i Matematyki punkty11 Stosowanej) podziału czerwca 2017 dla 46 / 87
47 Współczynnik Giniego - przykład Punkt podziału g split zadany jest wzorem: gdzie: g split = m 1 + n 1 m + n Z 1 + m 2 + n 2 m + n Z 2, (6) m i - liczba elementów w S i należących do klasy Wysokie; n i - liczba elementów w S i należących do klasy Niskie. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
48 Współczynnik Giniego - przykład Weźmy najpierw podział atrybutu Wiek 18 i > 18. Podział Wysokie Niskie Wiek Wiek > Wartości współczynników Giniego oraz punkt podziału to: Z 1 = Z(S 1 ) = Z(Wiek 18) = 1 ( ) = 0; (7) Z 2 = Z(S 2 ) = Z(Wiek > 18) = 1 ( (3 5) 2 + ( 2 5 ) 2 ) = 0,73; (8) g split = m 1 + n 1 m + n Z 1 + m 2 + n 2 m + n Z 2 = ,73 = 0,61. (9) 6 Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
49 Współczynnik Giniego - przykład Postępując dalej podobnie otrzymujemy: Wiek 18 - g split = 0,61; Wiek 20 - g split = 0,33; Wiek 25 - g split = 0,22; Wiek 30 - g split = 0,29; Wiek 50 - g split = 0,27; Wiek 70 - g split = 0,44. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
50 Współczynnik Giniego - przykład Teraz weźmy podział atrybutu Samochód. Podział Wysokie Niskie Samochód = Rodzinny 2 1 Samochód = Sportowy 2 0 Samochód = Terenowy 0 1 Wartości współczynników Giniego oraz punkt podziału to: ( ) (2 2 ( 1 ) 2 Z(Samochód = Rodzinny) = 1 + = 0,44; (10) 3) 3 Z(Samochód {Sportowy, Terenowy}) = 1 ( (2 3) 2 + ( 1 3 ) 2 ) = 0,44; (11) g split = 3 6 0, ,44 = 0,44. (12) 6 Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
51 Współczynnik Giniego - przykład Z(Samochód = Sportowy) = 0; (13) Z(Samochód {Rodzinny, Terenowy}) = 0,5; (14) g split = 0,33. (15) Z(Samochód = Terenowy) = 0; (16) Z(Samochód {Rodzinny, Sportowy}) = 0,32; (17) g split = 0,27. (18) Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
52 Współczynnik Giniego - przykład Postępując dalej podobnie otrzymujemy: Wiek 18 - g split = 0,61; Wiek 20 - g split = 0,33; Wiek 25 - g split = 0,22; Wiek 30 - g split = 0,29; Wiek 50 - g split = 0,27; Wiek 70 - g split = 0,44; Samochód = Rodzinny - g split = 0,44; Samochód = Sportowy - g split = 0,33; Samochód = Terenowy - g split = 0,27. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
53 Współczynnik Giniego - przykład Znając już wszystkie możliwe wartości g split możemy dokonać najlepszego podziału. Wybieramy ten podział, który osiąga najmniejszą wartość g split Jest to 0,22 dla podziału Wieku na 25 i > 25. Mamy jednakże mały zbiór danych i duże luki między parametrami wieku, w takich sytuacjach uśrednia się punkt podziału, czyli będzie to = 27,5. Ostatecznie więc pierwszy podział naszego drzewa wygląda następująco: Rysunek: Pierwszy podział Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
54 Współczynnik Giniego - przykład Jak łatwo zauważyć, w przypadku gdy Wiek 27,5, dotarliśmy do liścia, gdyż dla naszych danych, gdy Wiek 27,5, to Ryzyko jest zawsze Wysokie. Musimy jednak dokonać kolejnego podziału prawej gałęzi. Spójrzmy znów na możliwe punkty podziału. Albo będzie to Wiek 30, Wiek 50, Wiek 70 lub typy samochodów. Rozpatrujemy już tylko tabelę: ID Wiek Samochód Ryzyko 1 50 Sportowy Wysokie 2 70 Rodzinny Niskie 3 30 Terenowy Niskie Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
55 Współczynnik Giniego - przykład Ostatecznie drzewo wygląda w poniższy sposób: Rysunek: Drzewo z przykładu Jak widać oddzielenie typu samochodu Sportowego od pozostałych pozwala osiągnąć liście. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
56 Log-wartość chi-kwadrat Log-wartość chi-kwadrat to wielkość log(p), (19) gdzie p-wartość jest granicznym poziomem istotności statystyki: gdzie: k r (R (ij) E (ij) ) 2, (20) E i=1 j=1 (ij) R (ij) to macierz rzeczywista mająca na miejscu (ij) wartość równą ilości obserwacji przyjmujących i-tą wartość zmiennej objaśnianej w j-tym węźle; E (ij) to macierz mająca w miejscu (ij) wartość równą średniej z rozkładu liczbie obserwacji przyjmujących i-tą wartość zmiennej objaśnianej w j-tym węźle. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
57 Log-wartość chi-kwadrat Gdy dzielimy węzeł wielokrotnie lepiej jest używać wzoru: gdzie m jest ilością podziałów. log(m p), (21) Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
58 Klasyfikacja Teraz, gdy mamy już przygotowane dane, możemy przejść do klasyfikacji zmiennej celu. Użyjemy do tego drzew decyzyjnych. Nasza zmienna celu jest typu przedziałowego, więc mamy do wyboru dwie metody ProbF (test F) i wariancję. Sprawdzenie, która z metod odnosi lepszy wynik w naszym przypadku pokazało, że lepiej ustawić wariancję. Zmiana poziomu istotności nie wpływa na ocenę modelu, zostawiamy więc domyślnie 0,2. Zmiana maksymalnej liczby rozgałęzień z 2 na 3 stanowczo poprawiła model, wzrost do 4 również, ale ustawienie już 5 rozgałęzień pogorszyło model, decydujemy się więc na ustawienie liczby rozgałęzień na 4. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
59 Klasyfikacja Następnie przyjrzymy się parametrowi głębi. Domyślnie ma on wartość 6, zmniejszenie głębi oczywiście pogarsza model, natomiast zwiększenie głębi do 7 przyniosło poprawę modelu, zwiększenie do 8 również, ale już nieznaczną. Także parametr głębi ustawiamy na 8. Takie duże drzewo sprawia już programowi problemy, pozwala nam jednak podzielić źródło danych na aż kilkadziesiąt kategorii na różnych poziomach głębi, także możemy dosyć dokładnie ocenić, jaką wartość będzie miała nasza zmienna celu, jeżeli dane wejściowe będą należeć do odpowiedniej kategorii co jest istotą metody klasyfikacji zmiennej celu. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
60 Interakcyjne drzewo decyzyjne Teraz omówimy proces tworzenia takiego drzewa za pomocą interakcyjnego drzewa decyzyjnego. Powinniśmy zawsze dokonywać podziału węzła względem zmiennej, która ma największy współczynnik log(p), więc na początku jest to różnica temperatur, a punkt podziału wyznaczony zostaje jako 37,6650. Potem dzielimy każdy węzeł względem temperatury in, pierwszy w punkcie 75,9500, a drugi w 77,8500. Powtarzając te kroki, dojdziemy w końcu do momentu, gdy na tym samym poziomie głębi będziemy dzielić węzły względem różnych zmiennych. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
61 Interakcyjne drzewo decyzyjne Rysunek: wybór zmiennej podziału węzła Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
62 Interakcyjne drzewo decyzyjne Rysunek: proste drzewo decyzyjne Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
63 Predykcja zmiennej celu Następnym krokiem będzie dokonanie predykcji zmiennej celu. Tworzymy kilka różnych podstawowych modeli: regresję; sieć neuronową; drzewo decyzyjne. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
64 Regresja Regresję możemy wybrać albo logistyczną, albo liniową. Przed dokonaniem regresji należy uzupełnić lub usunąć braki danych. Metoda regresji polega na takim wyznaczeniu współczynników funkcji regresji dla wybranego stopnia wielomianu, żeby krzywa regresji dopasowywała się do krzywej zmiennych w zbiorze uczącym i potem testowym. Regresja logistyczna zakłada, że wartość prawdopodobieństwa jest uzależniona predyktorem liniowym logit(ˆp) = X β = β 0 + β 1 X 1 + β 2 X β N X N. (22) Po wyestymowaniu parametrów modelu możemy wyliczyć wyestymowane prawdopodobieństwo dla wektora X = (X 1, X 2,..., X n ): ˆp = exp( X β) (23) Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
65 Regresja Przy wybieraniu zmiennych objaśniających należy się dobrze zastanowić, czy nie usunąć zmiennych zbytnio ze sobą skorelowanych lub dodać ich iloczyny. W wyborze zmiennych pomagają metody: Krokowa wprzód / postępująca (ang. Forward) Na początku dobieramy jedynie wyraz wolny, a potem pojedynczo dodajemy do modelu kolejne zmienne; Krokowa wstecz (ang. Backward) Najpierw bierzemy do modelu wszystkie zmienne i kolejno usuwamy najmniej istotne; Krokowa podobnie jak Forward, z tym że po każdym kroku badamy istotność zmiennych obecnych w modelu. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
66 Regresja - przykład Wybieramy regresję logistyczną; Podwyższenie stopnia wielomianu na 3 nic nie zmienia, więc zostajemy przy 2. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
67 Sieć neuronowa Sieć neuronowa to zbiór połączonych ze sobą jednostek wejściowo-wyjściowych. Z każdym z połączeń skojarzona jest waga, która może się zmieniać podczas procesu uczenia. Metoda ta polega głównie na wyznaczeniu wag dla kolejnych zmiennych oraz ich stopniowej i dokładnej modyfikacji, tak żeby model dopasował się do zbioru uczącego i sprawdził się w zbiorze testowym, z którym nie miał wcześniej do czynienia. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
68 Sieć neuronowa Prosta sieć neuronowa jest złożona z warstwy wejściowej zawierającej n neuronów, które odpowiadają zmiennym wejścia oraz wyjściowej sumującej ważone impulsy i transformującej je do skali zmiennej celu. Modelami bardziej złożonymi są sieci neuronowe zawierające warstwę ukrytą. Są to tzw. perceptrony wielowarstwowe (MLP - ang. Multi Layer Perceptron). Warstwa ukryta składa się z pewnej liczby neuronów (ukrytych), które nieliniowo przekształcają kombinację liniową otrzymanych sygnałów. Neuron warstwy ukrytej składa się z funkcji łączenia (link function) i funkcji aktywacji. Funkcja łączenia odpowiada za wytworzenie pojedynczej wartości wejściowej dla danego neuronu z wartości jego poprzedników. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
69 Funkcje łączenia Mamy następujące rodzaje funkcji łączenia: Addytywna Sumuje wszystkie wartości wejściowe; Liniowa Stanowi kombinację liniową wartości wejściowych i wag; EQSlopes Stanowi kombinację liniową wartości wejściowych i wag, przy czym w danej warstwie używa się tej samej wagi, dodając inną wartość współczynnika przesunięcia dla każdej wartości wejściowej; EQRadial Radialna funkcja bazowa z równymi wysokościami i szerokościami w obrębie warstwy; EHRadial Radialna funkcja bazowa z równymi wysokościami i nierównymi szerokościami w obrębie warstwy. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
70 Funkcje aktywacji Funkcja aktywacji oblicza wartość neuronu na wyjściu. Wyróżniamy funkcje: Tożsamościową g; Liniową g waga + b; Wykładniczą e g ; Odwrotną 1 g ; Kwadratową g 2 ; Logistyczną 1 1+e g ; Gaussa e g 2 ; Sinus sin g. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
71 Sieć neuronowa Rysunek: MLP Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
72 Sieć neuronowa Wynik generowany przez sieć jest rezultatem działania funkcji transformującej sumę ważonych wyjść z neuronów warstwy ukrytej. Jeśli zmienna jest binarna, to stosuje się odwrotność przekształcenia logitowego, a jeżeli jest ciągła przekształcenie identycznościowe. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
73 Sieć neuronowa Tak wygląda schemat sieci z jedną warstwą ukrytą zawierającą n neuronów: Rysunek: sieć z warstwą ukrytą Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
74 Sieć neuronowa Dodatkowo można wprowadzić połączenie między warstwą wejściową i wyjściową. Umożliwi to dodatkową analizę prostej kombinacji liniowej predyktorów, ale rozbuduje zagadnienie estymacji. Są metody wyznaczenia odpowiedniej liczby neuronów w warstwach ukrytych. Np. reguła piramidy geometrycznej mówi, że liczba neuronów powinna maleć od wejścia do wyjścia. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
75 Sieć neuronowa - przykład Ważnym parametrem w modelach sieci neuronowych jest ilość jednostek ukrytych. Może ich być od 1 do 64, a domyślnie ustawione są jedynie 3. Zmiana na 4 pogarsza model, natomiast na 20 poprawia. Jednak jeszcze lepszy wynik daje zmniejszenie ich ilości i ustawienie 2 jednostek ukrytych. Wartości skrajne, to jest 1 i 64 dają gorsze wyniki od 2. Zostaniemy więc przy 2. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
76 Uczenie się sieci Etapy uczenia się sieci: 1 Standaryzacja zmiennych objaśniających, w celu poprawnego przydzielania wag. 2 Losowanie parametrów początkowych. 3 Wczytanie obserwacji ze zbioru treningowego i na ich podstawie korekta wag w celu usprawnienia modelu. 4 Powtarzanie poprzedniego kroku aż do osiągnięcia zbieżności algorytmu optymalizacyjnego, przekroczenia ilości iteracji lub innego warunku stopu. 5 Ocena stopnia dopasowania modelu na próbie walidacyjnej wag otrzymanych w kolejnych iteracjach. Wybór najlepszego modelu. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
77 Porównanie modeli Do porównywania i oceny modeli używa się między innymi następujących metod: błąd średniokwadratowy: ASE = 1 n (yi y i ) 2, (24) n i=1 gdzie yi - wartość prognozowana przez model, a y i wartość z próby; skuteczność klasyfikacji iloraz błędu klasyfikacji; statystyka Kołmogorowa-Smirnowa: KS = max{ F n (t) F 0 (t) }, (25) t gdzie F n dystrybuanta empiryczna n-elementowej próby, a F 0 dystrybuanta teoretyczna; Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
78 Porównanie modeli ROC Indeks ROC miara określająca skuteczność modelu w rozróżnianiu podpopulacji o różnych wartościach zmiennej objaśnianej. Należy obliczyć pole pod krzywą ROC, im bliżej 1 i im bardziej wykres skierowany jest w kierunku lewego górnego rogu, tym lepszy jest model; konstrukcja krzywej ROC: sortujemy populację malejąco według przydzielonych prawdopodobieństw i wybieramy górne k % obserwacji; zakładamy, że w wybranej podpopulacji jest x jedynek i y zer. Oznaczamy n 1 i n 0 jako liczności tych klas w całej próbie. Obliczamy specyficzność = y n 0 i wrażliwość = x n 1 ; powyższe kroki powtarzamy dla różnych k i łączymy w krzywą. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
79 Porównanie modeli lift Wzrost (lift) miara obliczana jako iloraz odsetka zaobserwowanych zdarzeń w górnych n % posortowanej malejąco populacji według przewidywanych prawdopodobieństw i odsetka tych samych zdarzeń w całej populacji Wykres liftu łącznego powinien gładko spadać do 1; skoki wskazują błędy modelu. dzielimy zbiór na równe części (np. co 5 centyli); zliczamy w każdej części ilość sukcesów; liczymy skumulowaną ilość sukcesów; obliczamy skumulowaną ilość sukcesów w każdej części w procentach (Gain score); ostatecznie dzielimy Gain score przez procentowy górny kwantyl danego przedziału, np. gdy górny kwantyl wynosi 15%, to Gain score dzielimy przez 15. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
80 Porównanie modeli - przykład Jak widać na rysunku, najlepiej dopasowanym modelem, to jest takim, który osiąga najmniejszy błąd średniokwadratowy jest model regresji typu liniowego ze stopniem wielomianu 2, potem regresja logistyczna ze stopniem wielomianu 2, następnie sieć neuronowa z 2 jednostkami ukrytymi, potem inne sieci neuronowe, na szarym końcu zaś drzewa decyzyjne. Jedno drzewo zostało celowo stworzone z niskim poziomem głębi i wyraźnie odstaje od wykresu danych oraz ma ogromny błąd średniokwadratowy. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
81 Porównanie modeli Rysunek: porównanie modeli Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
82 Porównanie modeli Rysunek: przykładowe wykresy dopasowania modeli Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
83 Porównanie modeli Rysunek: wykres dopasowania modeli Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
84 Wnioski Jesteśmy w stanie dokonać dokładnej prognozy i klasyfikacji temperatury out na podstawie różnicy temperatur, temperatury in, przepływu i pozostałych zmiennych przy użyciu oprogramowania firmy SAS i zastosowanej w niej metodyki SEMMA. Nie powinno się zdawać wyłącznie na program i jego domyślne wartości, gdyż modele, w których dokonaliśmy zmian, okazały się dokładniejsze. Program więc nie zastąpi człowieka, jednakże bardzo usprawnia proces klasyfikowania i prognozowania zmiennej celu. Przed stworzeniem modeli należy zawsze dokładnie przeanalizować źródło danych, sprawdzić, skąd pochodzą dane, czym są zmienne, jakiego są typu i jakie mogą osiągać realnie wartości. Przed stworzeniem modeli należy sprawdzić, czy wśród danych nie ma błędów pomiarowych i braków danych. Niechciane rekordy zastąpić lub usunąć ze źródła, jeśli ich ilość jest statystycznie nieistotna. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
85 Wnioski Przed stworzeniem modeli należy uprzednio przygotowane źródło danych podzielić na zbiory uczący, walidacyjny i testowy, żeby modele mogły się na nich uczyć, poprawiać i sprawdzać. Dla naszych danych najlepszym typem modelu w prognozowaniu okazała się regresja, nie jest to jednak ogólnie żadną regułą. Trzeba uważać przy ustawianiu wartości w procesie uczenia modelu, żeby nie doszło do jego przeuczenia, wcale nie jest tak, że modele bardziej skomplikowane, z większą głębią etc. dają lepsze wyniki. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
86 Cały diagram Cały nasz diagram prezentuje się następująco: Rysunek: diagram Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
87 Bibliografia G. Jałocha, A. Pomykała, B. Szymecki, K. Zera; DATA MINING, ; K. Glepiak, M. Borsuk, J. Gierasimczyk, A. Gałecki; Statystyka w SAS Data Mining; Techniki zgłębiania danych (data mining); StatSoft; dostęp: Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87
Statystyka w SAS. Data Mining. Krzysztof Glapiak, Mateusz Borsuk, Jakub Gierasimczyk, Arkadiusz Gałecki. 15 czerwca Matematyka Finansowa
Statystyka w SAS Krzysztof Glapiak, Mateusz Borsuk, Jakub Gierasimczyk, Arkadiusz Gałecki Matematyka Finansowa 15 czerwca 2015 Plan prezentacji 1 Wstęp - czym jest 2 3 4 5 Sieci neuronowe 6 Czym jest?
PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"
PODSTAWY BAZ DANYCH 19. Perspektywy baz danych 1 Perspektywy baz danych Temporalna baza danych Temporalna baza danych - baza danych posiadająca informację o czasie wprowadzenia lub czasie ważności zawartych
Data mining. Wydział Fizyki Technicznej i Matematyki Stosowanej Politechnika Gdańska. 14 czerwca 2018
Data mining Maciej Jędrzejczyk Paulina Konecka Wydział Fizyki Technicznej i Matematyki Stosowanej Politechnika Gdańska 14 czerwca 2018 Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 1
SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006
SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu
Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski
Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej
Wprowadzenie do analizy korelacji i regresji
Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących
ALGORYTM RANDOM FOREST
SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM
Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład
Data Mining Wykład 5 Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny Indeks Gini Popularnym kryterium podziału, stosowanym w wielu produktach komercyjnych, jest indeks Gini Algorytm SPRINT
Sztuczna Inteligencja Tematy projektów Sieci Neuronowe
PB, 2009 2010 Sztuczna Inteligencja Tematy projektów Sieci Neuronowe Projekt 1 Stwórz projekt implementujący jednokierunkową sztuczną neuronową złożoną z neuronów typu sigmoidalnego z algorytmem uczenia
Zastosowania sieci neuronowych
Zastosowania sieci neuronowych aproksymacja LABORKA Piotr Ciskowski zadanie 1. aproksymacja funkcji odległość punktów źródło: Żurada i in. Sztuczne sieci neuronowe, przykład 4.4, str. 137 Naucz sieć taką
Analiza składowych głównych. Wprowadzenie
Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących
Sieci neuronowe w Statistica
http://usnet.us.edu.pl/uslugi-sieciowe/oprogramowanie-w-usk-usnet/oprogramowaniestatystyczne/ Sieci neuronowe w Statistica Agnieszka Nowak - Brzezińska Podstawowym elementem składowym sztucznej sieci neuronowej
Projekt Sieci neuronowe
Projekt Sieci neuronowe Chmielecka Katarzyna Gr. 9 IiE 1. Problem i dane Sieć neuronowa miała za zadanie nauczyć się klasyfikować wnioski kredytowe. W projekcie wykorzystano dane pochodzące z 110 wniosków
PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE
UNIWERSYTET WARMIŃSKO-MAZURSKI W OLSZTYNIE PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE http://matman.uwm.edu.pl/psi e-mail: psi@matman.uwm.edu.pl ul. Słoneczna 54 10-561
Sieci neuronowe w Statistica. Agnieszka Nowak - Brzezioska
Sieci neuronowe w Statistica Agnieszka Nowak - Brzezioska Podstawowym elementem składowym sztucznej sieci neuronowej jest element przetwarzający neuron. Schemat działania neuronu: x1 x2 w1 w2 Dendrites
SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU)
SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU) 1. Opis problemu - ocena końcowa projektu Projekt jako nowe, nietypowe przedsięwzięcie wymaga właściwego zarządzania. Podjęcie się realizacji
Zmienne zależne i niezależne
Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }
Weryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta
Metody Sztucznej Inteligencji II
17 marca 2013 Neuron biologiczny Neuron Jest podstawowym budulcem układu nerwowego. Jest komórką, która jest w stanie odbierać i przekazywać sygnały elektryczne. Neuron działanie Jeżeli wartość sygnału
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16
Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego
Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;
LABORATORIUM 4 Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona; dwie zmienne zależne mierzalne małe próby duże próby rozkład normalny
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2
Klasyfikacja Indeks Gini Zysk informacyjny Klasyfikacja wykład 2 Kontynuujemy prezentacje metod klasyfikacji. Na wykładzie zostaną przedstawione dwa podstawowe algorytmy klasyfikacji oparte o indukcję
Aproksymacja funkcji a regresja symboliczna
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą
ALGORYTMY SZTUCZNEJ INTELIGENCJI
ALGORYTMY SZTUCZNEJ INTELIGENCJI Sieci neuronowe 06.12.2014 Krzysztof Salamon 1 Wstęp Sprawozdanie to dotyczy ćwiczeń z zakresu sieci neuronowych realizowanym na przedmiocie: Algorytmy Sztucznej Inteligencji.
Temat: Sztuczne Sieci Neuronowe. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE
Temat: Sztuczne Sieci Neuronowe Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE Dr inż. Barbara Mrzygłód KISiM, WIMiIP, AGH mrzyglod@ agh.edu.pl 1 Wprowadzenie Sztuczne sieci neuronowe
Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta
Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta www.michalbereta.pl Sieci radialne zawsze posiadają jedną warstwę ukrytą, która składa się z neuronów radialnych. Warstwa wyjściowa składa
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:
Metoda analizy macierzy współczynników korelacji Idea metody sprowadza się do wyboru takich zmiennych objaśniających, które są silnie skorelowane ze zmienną objaśnianą i równocześnie słabo skorelowane
HURTOWNIE DANYCH I BUSINESS INTELLIGENCE
BAZY DANYCH HURTOWNIE DANYCH I BUSINESS INTELLIGENCE Akademia Górniczo-Hutnicza w Krakowie Adrian Horzyk horzyk@agh.edu.pl Google: Horzyk HURTOWNIE DANYCH Hurtownia danych (Data Warehouse) to najczęściej
Dopasowywanie modelu do danych
Tematyka wykładu dopasowanie modelu trendu do danych; wybrane rodzaje modeli trendu i ich właściwości; dopasowanie modeli do danych za pomocą narzędzi wykresów liniowych (wykresów rozrzutu) programu STATISTICA;
Systemy uczące się Lab 4
Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego
4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74
3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15
w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(), zwaną funkcją aproksymującą
Monte Carlo, bootstrap, jacknife
Monte Carlo, bootstrap, jacknife Literatura Bruce Hansen (2012 +) Econometrics, ze strony internetowej: http://www.ssc.wisc.edu/~bhansen/econometrics/ Monte Carlo: rozdział 8.8, 8.9 Bootstrap: rozdział
WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno
WSTĘP DO REGRESJI LOGISTYCZNEJ Dr Wioleta Drobik-Czwarno REGRESJA LOGISTYCZNA Zmienna zależna jest zmienną dychotomiczną (dwustanową) przyjmuje dwie wartości, najczęściej 0 i 1 Zmienną zależną może być:
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Spis treści I. Wzory ogólne... 2 1. Średnia arytmetyczna:... 2 2. Rozstęp:... 2 3. Kwantyle:... 2 4. Wariancja:... 2 5. Odchylenie standardowe:...
Optymalizacja ciągła
Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej
Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I
Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I Wojciech Kotłowski Instytut Informatyki Politechniki Poznańskiej email: imię.nazwisko@cs.put.poznan.pl pok. 2 (CW) tel. (61)665-2936 konsultacje:
Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta
Stan dotychczasowy OCENA KLASYFIKACJI w diagnostyce Wybraliśmy metodę uczenia maszynowego (np. sieć neuronowa lub drzewo decyzyjne), która będzie klasyfikować nieznane przypadki Na podzbiorze dostępnych
Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji
Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Michał Witczak Data Mining 20 maja 2012 r. 1. Wstęp Dostarczone zostały nam 4 pliki, z których dwa stanowiły zbiory uczące
Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska
Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska Anna Stankiewicz Izabela Słomska Wstęp- statystyka w politologii Rzadkie stosowanie narzędzi statystycznych Pisma Karla Poppera
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący
INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH
INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH 1. Czym jest eksploracja danych Eksploracja danych definiowana jest jako zbiór technik odkrywania nietrywialnych zależności i schematów w dużych
Algorytmy metaheurystyczne Wykład 11. Piotr Syga
Algorytmy metaheurystyczne Wykład 11 Piotr Syga 22.05.2017 Drzewa decyzyjne Idea Cel Na podstawie przesłanek (typowo zbiory rozmyte) oraz zbioru wartości w danych testowych, w oparciu o wybrane miary,
Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel
według przewidywań internetowego magazynu ZDNET News z 8 lutego 2001 roku eksploracja danych (ang. data mining ) będzie jednym z najbardziej rewolucyjnych osiągnięć następnej dekady. Rzeczywiście MIT Technology
Data Mining. Statystyka w SAS. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 1 / 98
Data Mining Klaudia Malinowska Simona Pikuła Statystyka w SAS Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 1 / 98 Plan prezentacji 1 Data Mining-co to jest? 2 Metodologia SEMMA 3 Analiza
Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość
Dwie metody Klasyczna metoda histogramu jako narzędzie do postawienia hipotezy, jaki rozkład prawdopodobieństwa pasuje do danych Indukcja drzewa decyzyjnego jako metoda wykrycia klasyfikatora ukrytego
Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe.
Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe. zajecia.jakubw.pl/nai Literatura: S. Osowski, Sieci neuronowe w ujęciu algorytmicznym. WNT, Warszawa 997. PODSTAWOWE ZAGADNIENIA TECHNICZNE AI
Spacery losowe generowanie realizacji procesu losowego
Spacery losowe generowanie realizacji procesu losowego Michał Krzemiński Streszczenie Omówimy metodę generowania trajektorii spacerów losowych (błądzenia losowego), tj. szczególnych procesów Markowa z
Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb
Współzależność Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb (x i, y i ). Geometrycznie taką parę
Wykład 4: Statystyki opisowe (część 1)
Wykład 4: Statystyki opisowe (część 1) Wprowadzenie W przypadku danych mających charakter liczbowy do ich charakterystyki można wykorzystać tak zwane STATYSTYKI OPISOWE. Za pomocą statystyk opisowych można
Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016
Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład I dr inż. Bogumil.Konopka@pwr.edu.pl 2015/2016 1 Wykład I - plan Sprawy organizacyjne Uczenie maszynowe podstawowe pojęcia Proces modelowania
Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18
Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)
KARTA INFORMACYJNA PRZEDMIOTU
Uniwersytet Rzeszowski WYDZIAŁ KIERUNEK Matematyczno-Przyrodniczy Fizyka techniczna SPECJALNOŚĆ RODZAJ STUDIÓW stacjonarne, studia pierwszego stopnia KARTA INFORMACYJNA PRZEDMIOTU NAZWA PRZEDMIOTU WG PLANU
Podstawy sztucznej inteligencji
wykład 5 Sztuczne sieci neuronowe (SSN) 8 grudnia 2011 Plan wykładu 1 Biologiczne wzorce sztucznej sieci neuronowej 2 3 4 Neuron biologiczny Neuron Jest podstawowym budulcem układu nerwowego. Jest komórką,
Uczenie się pojedynczego neuronu. Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z<0 y=1 gdy z>=0. Wówczas: W 1 x 1 + w 2 x 2 + = 0
Uczenie się pojedynczego neuronu W0 X0=1 W1 x1 W2 s f y x2 Wp xp p x i w i=x w+wo i=0 Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z=0 Wówczas: W 1 x 1 + w 2 x 2 + = 0 Algorytm
Testowanie hipotez statystycznych
Agenda Instytut Matematyki Politechniki Łódzkiej 2 stycznia 2012 Agenda Agenda 1 Wprowadzenie Agenda 2 Hipoteza oraz błędy I i II rodzaju Hipoteza alternatywna Statystyka testowa Zbiór krytyczny Poziom
Wprowadzenie do uczenia maszynowego
Wprowadzenie do uczenia maszynowego Agnieszka Ławrynowicz 12 stycznia 2017 Co to jest uczenie maszynowe? dziedzina nauki, która zajmuje się sprawianiem aby komputery mogły uczyć się bez ich zaprogramowania
Część 2: Data Mining
Łukasz Przywarty 171018 Wrocław, 18.01.2013 r. Grupa: CZW/N 10:00-13:00 Raport z zajęć laboratoryjnych w ramach przedmiotu Hurtownie i eksploracja danych Część 2: Data Mining Prowadzący: dr inż. Henryk
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki
Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com
Regresja wielokrotna Model dla zależności liniowej: Y=a+b 1 X 1 +b 2 X 2 +...+b n X n Cząstkowe współczynniki regresji wielokrotnej: b 1,..., b n Zmienne niezależne (przyczynowe): X 1,..., X n Zmienna
Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów
Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,
Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu
i business intelligence Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl Wrocław 2005-2007 Plan na dziś : 1. Wprowadzenie do przedmiotu (co będzie omawiane oraz jak będę weryfikował zdobytą wiedzę
Projekt zarządzania jakością wykorzystujący STATISTICA Data Miner przynosi w voestalpine roczne oszczędności w wysokości 800 000 EUR
Projekt zarządzania jakością wykorzystujący STATISTICA Data Miner przynosi w voestalpine roczne oszczędności w wysokości 800 000 EUR Przemysł samochodowy stawia najwyższe wymagania jakościowe w stosunku
I EKSPLORACJA DANYCH
I EKSPLORACJA DANYCH Zadania eksploracji danych: przewidywanie Przewidywanie jest podobne do klasyfikacji i szacowania, z wyjątkiem faktu, że w przewidywaniu wynik dotyczy przyszłości. Typowe zadania przewidywania
Wojciech Skwirz
1 Regularyzacja jako metoda doboru zmiennych objaśniających do modelu statystycznego. 2 Plan prezentacji 1. Wstęp 2. Część teoretyczna - Algorytm podziału i ograniczeń - Regularyzacja 3. Opis wyników badania
PROGNOZOWANIE OSIADAŃ POWIERZCHNI TERENU PRZY UŻYCIU SIECI NEURONOWYCH**
Górnictwo i Geoinżynieria Rok 31 Zeszyt 3 2007 Dorota Pawluś* PROGNOZOWANIE OSIADAŃ POWIERZCHNI TERENU PRZY UŻYCIU SIECI NEURONOWYCH** 1. Wstęp Eksploatacja górnicza złóż ma niekorzystny wpływ na powierzchnię
Sieć przesyłająca żetony CP (counter propagation)
Sieci neuropodobne IX, specyficzne architektury 1 Sieć przesyłająca żetony CP (counter propagation) warstwa Kohonena: wektory wejściowe są unormowane jednostki mają unormowane wektory wag jednostki są
Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33
Statystyka Wykład 4 Magdalena Alama-Bućko 19 marca 2018 Magdalena Alama-Bućko Statystyka 19 marca 2018 1 / 33 Analiza struktury zbiorowości miary położenia ( miary średnie) miary zmienności (rozproszenia,
Spis treści 3 SPIS TREŚCI
Spis treści 3 SPIS TREŚCI PRZEDMOWA... 1. WNIOSKOWANIE STATYSTYCZNE JAKO DYSCYPLINA MATEMATYCZNA... Metody statystyczne w analizie i prognozowaniu zjawisk ekonomicznych... Badania statystyczne podstawowe
Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński
Mikroekonometria 5 Mikołaj Czajkowski Wiktor Budziński Zadanie 1. Wykorzystując dane me.medexp3.dta przygotuj model regresji kwantylowej 1. Przygotuj model regresji kwantylowej w którym logarytm wydatków
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner rok akademicki 2014/2015 Sieci Kohonena Sieci Kohonena Sieci Kohonena zostały wprowadzone w 1982 przez fińskiego
Ćwiczenie 12. Metody eksploracji danych
Ćwiczenie 12. Metody eksploracji danych Modelowanie regresji (Regression modeling) 1. Zadanie regresji Modelowanie regresji jest metodą szacowania wartości ciągłej zmiennej celu. Do najczęściej stosowanych
Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu
i business intelligence Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl Wrocław 2005-2012 Plan na dziś : 1. Wprowadzenie do przedmiotu (co będzie omawiane oraz jak będę weryfikował zdobytą wiedzę
Metody klasyfikacji danych - część 1 p.1/24
Metody klasyfikacji danych - część 1 Inteligentne Usługi Informacyjne Jerzy Dembski Metody klasyfikacji danych - część 1 p.1/24 Plan wykładu - Zadanie klasyfikacji danych - Przeglad problemów klasyfikacji
Funkcje wymierne. Jerzy Rutkowski. Działania dodawania i mnożenia funkcji wymiernych określa się wzorami: g h + k l g h k.
Funkcje wymierne Jerzy Rutkowski Teoria Przypomnijmy, że przez R[x] oznaczamy zbiór wszystkich wielomianów zmiennej x i o współczynnikach rzeczywistych Definicja Funkcją wymierną jednej zmiennej nazywamy
8. Neuron z ciągłą funkcją aktywacji.
8. Neuron z ciągłą funkcją aktywacji. W tym ćwiczeniu zapoznamy się z modelem sztucznego neuronu oraz przykładem jego wykorzystania do rozwiązywanie prostego zadania klasyfikacji. Neuron biologiczny i
Klasyfikator liniowy Wstęp Klasyfikator liniowy jest najprostszym możliwym klasyfikatorem. Zakłada on liniową separację liniowy podział dwóch klas między sobą. Przedstawia to poniższy rysunek: 5 4 3 2
Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną
Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe
Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe Trening jednokierunkowych sieci neuronowych wykład 2. dr inż. PawełŻwan Katedra Systemów Multimedialnych Politechnika Gdańska
Testowanie modeli predykcyjnych
Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności
Inteligentne systemy przeciw atakom sieciowym
Inteligentne systemy przeciw atakom sieciowym wykład Sztuczne sieci neuronowe (SSN) Joanna Kołodziejczyk 2016 Joanna Kołodziejczyk Inteligentne systemy przeciw atakom sieciowym 2016 1 / 36 Biologiczne
Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS
Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów
Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.
Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru
Metody klasyfikacji i rozpoznawania wzorców. Najważniejsze rodzaje klasyfikatorów
Metody klasyfikacji i rozpoznawania wzorców www.michalbereta.pl Najważniejsze rodzaje klasyfikatorów Dla określonego problemu klasyfikacyjnego (tzn. dla danego zestawu danych) należy przetestować jak najwięcej
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z liniowym zadaniem najmniejszych
Algorytmy klasyfikacji
Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe
Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU
Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów
Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.
ANALIZA SKUPIEŃ Metoda k-means I. Cel zadania Zadaniem jest analiza zbioru danych, gdzie zmiennymi są poziomy ekspresji genów. Podczas badań pobrano próbki DNA od 36 różnych pacjentów z chorobą nowotworową.
3. Modele tendencji czasowej w prognozowaniu
II Modele tendencji czasowej w prognozowaniu 1 Składniki szeregu czasowego W teorii szeregów czasowych wyróżnia się zwykle następujące składowe szeregu czasowego: a) składowa systematyczna; b) składowa
Regresja linearyzowalna
1 z 5 2007-05-09 23:22 Medycyna Praktyczna - portal dla lekarzy Regresja linearyzowalna mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie Data utworzenia:
5. Model sezonowości i autoregresji zmiennej prognozowanej
5. Model sezonowości i autoregresji zmiennej prognozowanej 1. Model Sezonowości kwartalnej i autoregresji zmiennej prognozowanej (rząd istotnej autokorelacji K = 1) Szacowana postać: y = c Q + ρ y, t =
STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów
STATYSTYKA MATEMATYCZNA WYKŁAD 4 Testowanie hipotez Estymacja parametrów WSTĘP 1. Testowanie hipotez Błędy związane z testowaniem hipotez Etapy testowana hipotez Testowanie wielokrotne 2. Estymacja parametrów
SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU)
SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU) 1. Opis problemu - ocena końcowa projektu Projekt jako nowe, nietypowe przedsięwzięcie wymaga właściwego zarządzania. Podjęcie się realizacji
LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej
LABORATORIUM 3 Przygotowanie pliku (nazwy zmiennych, export plików.xlsx, selekcja przypadków); Graficzna prezentacja danych: Histogramy (skategoryzowane) i 3-wymiarowe; Wykresy ramka wąsy; Wykresy powierzchniowe;
Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego
Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego Dorota Witkowska Szkoła Główna Gospodarstwa Wiejskiego w Warszawie Wprowadzenie Sztuczne
Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna
Regresja wieloraka Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna zmienna niezależna (można zobrazować
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny