Eksploracja danych. Definicja (Eksploracja danych)

Wielkość: px
Rozpocząć pokaz od strony:

Download "Eksploracja danych. Definicja (Eksploracja danych)"

Transkrypt

1 Data mining Stefania Wietrzykowska, Piotr Lebiedź Politechnika Gdańska Wydział Fizyki Technicznej i Matematyki Stosowanej 11 czerwca 2017 tefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki Stosowanej) 11 czerwca / 87

2 Eksploracja danych Definicja (Eksploracja danych) Eksploracja danych (ang. data mining) to jeden z etapów procesu uzyskiwania wiedzy z baz danych (ang. Knowledge Discovery in Databases, KDD). Idea eksploracji danych bazuje na wykorzystaniu szybkości i mocy obliczeniowej komputera do znajdowania ukrytych dla człowieka (z uwagi na ograniczone możliwości czasowe) prawidłowości i schematów w danych zgromadzonych w hurtowniach danych. Istnieje wiele technik eksploracji danych, które wywodzą się z ugruntowanych dziedzin nauki, takich jak statystyka (statystyczna analiza wielowymiarowa) i uczenie maszynowe. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki Stosowanej) 11 czerwca / 87

3 Hurtownie danych Definicja (Hurtownia danych) Hurtownia danych (ang. data warehouse) to baza danych, która została zorganizowana i zoptymalizowana w celu odwzorowania pewnego wycinka rzeczywistości. Hurtownia danych jest wyższym szczeblem abstrakcji niż zwykła relacyjna baza danych (choć do jej tworzenia używa się podobnych technologii). W skład hurtowni wchodzą zbiory danych zorientowanych tematycznie (np. hurtownia danych studentów). Dane te często pochodzą z różnych źródeł, są zintegrowane i przeznaczone wyłącznie do odczytu. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki Stosowanej) 11 czerwca / 87

4 Hurtownie danych W praktyce hurtownie są bazami danych integrującymi dane ze wszystkich pozostałych systemów bazodanowych w przedsiębiorstwie. Ta integracja polega na cyklicznym zasilaniu hurtowni danymi systemów produkcyjnych (może być tych baz lub systemów dużo i mogą być rozproszone). Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki Stosowanej) 11 czerwca / 87

5 Dana mining Architektura bazy hurtowni jest zorientowana na optymalizację szybkości wyszukiwania i jak najefektywniejszą analizę zawartości. Stąd bywa, że hurtownie danych nie są realizowane za pomocą relacyjnych baz danych, gdyż takie bazy ustępują szybkością innym rozwiązaniom. Użytkownicy końcowi hurtowni, czyli najczęściej zarząd firmy, korzystają z danych hurtowni poprzez różne systemy wyszukiwania danych (np. Online Analytical Processing (OLAP)). Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki Stosowanej) 11 czerwca / 87

6 Data mining Ze względu na ilość i tematykę danych przeprowadzane analizy mogą polegać na szukaniu trendów, zależności, wzorców itp. Dane przechowywane w hurtowni są tematycznie spójne (dotyczą konkretnego problemu lub instytucji, np. politechniki) oraz zintegrowane, co najczęściej cechuje się centralizacją przechowywania danych (wszelkie dane są przechowywane w jednym miejscu). Istnieją również zawężone tematycznie hurtownie danych (np. jednego wydziału) nazywane minihurtowniami danych (z ang. data mart). Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki Stosowanej) 11 czerwca / 87

7 Metodologia Przeprowadzenie poprawnego Data Miningu to bardzo złożony proces, zawierający wiele etapów - trzeba najpierw pozyskać odpowiednie dane, zrozumieć, co przedstawia każda kolumna, sprawdzić, czy nie ma błędów lub braków danych, które mogłyby przeszkodzić w pracy, itd. Aby odpowiednio przeprowadzić Data Mining, potrzebny jest logiczny plan działania uwzględniający wszystkie kroki konieczne do zrozumienia i rozwiązania problemu. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki Stosowanej) 11 czerwca / 87

8 Rysunek: Schemat CRISP Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki Stosowanej) 11 czerwca / 87 CRISP Istnieją różne metodologie przeprowadzania eksploracji danych. Jednym z modeli Data Mining jest CRISP - Międzybranżowy standardowy proces dla eksploracji danych (ang. Cross-Industry Standard Process for Data Mining) zaproponowany w połowie lat dziewięćdziesiątych przez europejskie konsorcjum przedsiębiorstw, jako powszechnie dostępny standard dla procesów Data Mining. Model ten postuluje następujący ciąg etapów projektu Data Mining:

9 Sześć Sigma Innym podejściem jest metodyka Sześć Sigma (ang. Six Sigma). Jest to dobrze zorganizowana, bazująca na danych strategia unikania wad i problemów z jakością we wszystkich rodzajach produkcji i usług, zarządzaniu i każdej działalności biznesowej. Metodyka ta w ostatnich latach staje się coraz bardziej popularna. Zaleca ona następujące etapy (tzw. DMAIC): 1 Definiowanie (ang. Define); 2 Pomiar (ang. Measure); 3 Analiza (ang. Analyze); 4 Udoskonalenie (ang. Improve); 5 Kontrola (ang. Control) Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki Stosowanej) 11 czerwca / 87

10 SEMMA SAS Institute dla swojego programu SAS Enterprise Miner opracował metodologię nazywaną SEMMA (wariant Sześć Sigma) : 1 Próbkowanie (ang. Sample), 2 Eksploracja (ang. Explore), 3 Modyfikacja (ang. Modify), 4 Modelowanie (ang. Model), 5 Ocena (ang. Assess). Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

11 SEMMA Sample - przygotowanie i podział danych wejściowych; Explore - eksploracja danych; służy ocenie ich jakości oraz wstępnej identyfikacji istniejących zależności; Modify - modyfikacja danych; służy poprawie jakości danych i dba o to, by dane jak najlepiej pasowały do modeli; Model - modelowanie; np. drzewa decyzyjne, regresje czy sieci neuronowe; Assess - ocena jakości modeli, wybór najlepszego z nich i monitorowanie jego skuteczności. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

12 Sampling Sampling polega na doborze próby z większego zbioru tak, aby próba ta była reprezentatywna. Używa się tego przy naprawdę wielkich zbiorach danych, na których ciężko operować nawet komputerowi. Wyróżniamy metody: N pierwszych; Losowanie zwykłe każda obserwacja losowana jest z jednakowym prawdopodobieństwem; Losowanie warstwowe Losowanie według kryteriów: Proporcjonalne udział obserwacji w każdej z warstw jest identyczny; Równe węzeł losuje tę samą liczbę obserwacji z każdej z warstw; Optymalne Udział obserwacji na warstwach jak i ich wariancja jest taka sama jak w populacji. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

13 Opis danych Przejdziemy teraz do naszego przykładu. O danych: Z pewnego przedsiębiorstwa wodociągowego otrzymaliśmy tabelę zawierającą dane związane z zapewnianiem usług wodociągowych w czasie od 31 grudnia 2014 do 1 stycznia Składa się ona z 17 zmiennych i obserwacji. Zmienne to: moduł, identyfikator, lokalizacja, data odczytu, data rejestracji, energia, przepływ, temperatura zasilania (temperatura in), temperatura powrotu (temperatura out), różnica temperatur, objętość, godziny pracy, moc, kod info, numer klienta, objętość wodomierza 1, objętość wodomierza 2. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

14 Opis danych Nasze dane surowe prezentują się następująco: Rysunek: tabela danych w programie SAS Enterprise Guide 6.1 Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

15 Opis danych Część zmiennych zawierających dane chronione została sztucznie zmodyfikowana, są to: moduł, identyfikator, lokalizacja, kod info, numer klienta. Z tych danych nie będziemy więc korzystać. Porzucimy również daty odczytu, daty rejestracji, godziny pracy, objętość wodomierza 1 i objętość wodomierza 2, gdyż nie przydadzą się w realizacji naszego zagadnienia. W naszym projekcie będziemy chcieli przewidywać i klasyfikować wartości temperatury powrotu za pomocą pozostałych zmiennych. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

16 Źródło danych Surowe dane zaimportowaliśmy do programu SAS Enterprise Guide 6.1 i w ten sposób stworzyliśmy tabelę SASową, będącą później naszym źródłem danych w programie SAS Enterprise Miner Workstation Będziemy korzystać z następujących zmiennych:energia, moc, objętość, przepływ, różnica temperatur, temperatura in, temperatura out. Zmienną temperatura out oznaczamy jako zmienną celu. Zmienne: energia, moc, objętość, przepływ, różnica temperatur, temperatura in określamy jako wejście, gdyż to na ich podstawie będziemy chcieli klasyfikować i dokonywać predykcji zmiennej celu. Pozostałe zmienne decydujemy się porzucić. Z pozostawionych zmiennych energia, moc, objętość, przepływ, różnica temperatur, temperatura in, temperatura out są typu przedziałowego. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

17 SAS Miner Rysunek: nowy projekt Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

18 SAS Miner Rysunek: nowa biblioteka Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

19 SAS Miner Rysunek: nowa biblioteka Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

20 SAS Miner Rysunek: nowe źródło danych Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

21 SAS Miner Rysunek: charakterystyka źródła danych Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

22 Diagram W kolejnym kroku tworzymy diagram. Rysunek: nowy diagram Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

23 Diagram Najpierw przyjrzymy się danym za pomocą statystyk DMDB. Rysunek: DMDB Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

24 Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Rysunek: Gdańska statystyki Data Wydział mining Fizyki z zaburzeniami Technicznej i Matematyki 11 Stosowanej) czerwca / 87 Zaburzenia Jak widać na zrzucie ekranu poniżej, zmienne moc, przepływ i różnica temperatur wyraźnie zawierają jakieś błędy pomiarowe. Niektóre dane są ekstremalnie wyolbrzymione. Możemy poradzić sobie z nimi na dwa sposoby - albo użyć zastępowania, żeby nie utracić tych rekordów, tylko sztucznie nadać zaburzonym danym wartości bliższe realnym lub filtrowania, czyli wyrzucenia z tabeli rekordów zawierających zaburzenia.

25 Zastępowanie danych Jeśli chcemy dokonać zastępowania, musimy zdecydować się na metodę: średnie odchylenie bezwzględne, granice podane przez użytkownika, granice metadanych, skrajne centyle, wartość modalna, odchylenia standardowe od średniej. Rysunek: metody zastępowania Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

26 Zastępowanie danych Nie chcemy sami podawać granic, bo mogłoby to być uciążliwe, nie po to mamy taki zaawansowany program. Część metod zastępuje za dużo danych, nawet całe procenty, a to stanowczo zaburzyłoby analizę. Część nawet dokonuje poprawy zmiennej temperatura in, w której nie stwierdziliśmy nieprawidłowości. Decydujemy się więc skorzystać z kryterium wartości modalnej, gdyż wykrywa ona te zaburzenia, co my przy obserwacji surowych danych. Ponowne uruchomienie statystyk DMDB utwierdza nas w przekonaniu, że wybraliśmy dobrą metodę, gdyż pozbyliśmy się problemu nierealnych maksimów i ogromnego odchylenia standardowego bez straty wielu prawdziwych danych. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

27 Filtrowanie danych Zamiast zastępować zaburzone dane, można je po prostu usunąć. Przy filtrowaniu podobnie jak wcześniej w zastępowaniu używamy kryterium wartości modalnej, gdyż daje ono najlepsze rezultaty, zgodne z naszą intuicją przy obserwacji zbioru. Okazuje się, że problem sprawia jedynie 16 rekordów, nie będzie więc żadnym uszczerbkiem dla naszej próby ( obs.), jeśli się ich po prostu pozbędziemy, zamiast je czymś zastępować. Jednakże dla celów badawczych wprowadziliśmy w życie równolegle obie metody, żeby sprawdzić, jaka będzie między nimi różnica. Jak można się było domyślić, przy 16 rekordach jest to różnica niemalże niezauważalna. Dalszą analizę przeprowadzimy więc po filtrowaniu. W obu opcjach zaznaczyliśmy również pozbywanie się braków danych. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

28 Filtrowanie danych Rysunek: statystyki bez danych zaburzonych Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

29 Badanie korelacji, partycjonowanie i imputacja Dokonujemy również równolegle eksploracji statystyk, żeby przyjrzeć się korelacji zmiennych ze zmienną celu. Widzimy, że największą korelację stwierdzono przy zmiennej różnica temperatur, sporo mają również temperatura in i przepływ. Domyślamy się więc, że będą one miały kluczowe znaczenie w naszych modelach. Gdy nasze źródło danych zostało już odpowiednio przygotowane, możemy dokonać partycjonowania na zbiory: uczący (treningowy) (40%), walidacyjny (30%) i testowy (30%). Dokonujemy również imputacji, żeby mieć pewność, że nie będziemy mieć żadnych braków danych. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

30 Partycjonowanie Zbiór treningowy odpowiada za zbudowanie modelu; obejmuje 40-70% próby wejściowej Zbiór walidacyjny wykorzystuje się do porównywania modeli między sobą; obejmuje 20-30% próby; Zbioru testowego używa się do końcowej oceny modelu wybranego na podstawie danych walidacyjnych; są to dane, na których model nie był tworzony ani jeszcze testowany; obejmuje 20-30% próby; Im większy zbiór treningowy, tym lepszy klasyfikator; Im większy zbiór testowy, tym lepiej można aproksymować błąd klasyfikacji. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

31 Drzewa decyzyjne Budując model drzewa decyzyjnego dokonujemy podziału według poniższego wzoru: r n i Z = Z 0 Z i, (1) n 0 gdzie: i=1 Z 0 - stopień niejednorodności dzielonego elementu; r - ilość elementów powstających w wyniku podziału; n i - liczność i-tego elementu powstałego w wyniku podziału; n 0 - liczność dzielonego elementu; Z i - stopień niejednorodności i-tego elementu powstałego w wyniku podziału. Interesuje nas podział, którego różnica Z jest największa. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

32 Miary niejednorodności Do oceny stopnia niejednorodności (lub zanieczyszczenia) najczęściej używa się poniższych miar: współczynnika entropii; współczynnika Giniego; log-wartość chi-kwadrat. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

33 Współczynnik entropii Definicja (Współczynnik entropii) gdzie: Z = H(s 1, s 2,..., s k ) = k p i log 2 (p i ), (2) p i = s i s - odsetek obserwacji przyjmujących i-tą wartość zmiennej objaśnianej; k - ilość kategorii przyjmowanych przez zmienną objaśnianą. Przyjmujemy 0 log 2 (0) = 0. i=1 Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

34 Entropia Entropią podziału zbioru S ze względu na atrybut A = {a 1, a 2,..., a k } nazywamy: Definicja (Entropia) gdzie: E(a 1, a 2,..., a k ) = k j=1 s 1j + s 2j s mj H(s 1j, s 2j,..., s mj ), (3) s p ij = s ij sj - odsetek obserwacji przyjmujących i-tą wartość zmiennej objaśnianej; k - ilość kategorii przyjmowanych przez zmienną objaśnianą; H(s 1, s 2,..., s k ) = k i=1 p i log 2 (p i ). Im mniejsza wartość entropii, tym lepszy jest podział. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

35 Zysk informacyjny Definicja (Zysk informacyjny) Gain(A) = H(S) E(A), (4) gdzie: H(S) - współczynnik entropii; E(A) - entropia. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

36 Współczynnik entropii - przykład Załóżmy, że jesteśmy sklepem komputerowym i chcemy wiedzieć, jakie osoby najczęściej kupują nasze produkty, do kogo kierować reklamy i promocje. Mamy prostą przykładową bazę danych klientów i na jej podstawie będziemy chcieli dokonać późniejszej klasyfikacji. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

37 Współczynnik entropii - przykład ID Wiek Dochód Student Status Kupi komputer 1 przed 30 wysoki nie kawaler nie 2 przed 30 wysoki nie żonaty nie wysoki nie kawaler tak 4 po 40 średni nie kawaler tak 5 po 40 niski tak kawaler tak 6 po 40 niski tak żonaty nie niski tak żonaty tak 8 przed 30 średni nie kawaler nie 9 przed 30 niski tak kawaler tak 10 po 40 średni tak kawaler tak 11 przed 30 średni tak żonaty tak średni nie żonaty tak wysoki tak kawaler tak 14 po 40 średni nie żonaty nie Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

38 Współczynnik entropii - przykład Naszą zmienną celu jest Kupi komputer, możemy więc dokonać podziału według zmiennych Wiek, Dochód, Student lub Status. Kupi komputer ma dwie klasy tak i nie, a możliwe klasy podziału to: dla Wieku {przed 30}, {30-40} i {po 40}, dla Dochodu {wysoki}, {średni} i {niski}, dla Student {tak} i {nie}, natomiast dla zmiennej Status - {kawaler} i {żonaty}. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

39 Współczynnik entropii - przykład Mamy więc dwie klasy dla atrybutu Kupi komputer: Stąd C 1, gdy Kupi komputer = tak o liczności s 1 = 9; C 2, gdy Kupi komputer = nie o liczności s 2 = 5. H(s 1, s 2 ) = H(9, 5) = 9 14 log log = 0,94. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

40 Współczynnik entropii - przykład Następnie obliczamy entropię atrybutów testowych. Pierwszy będzie wiek złożony z trzech partycji: Wiek = przed 30 H(s 11, s 21 ) = H(2, 3) = 0,971; Wiek = H(s 12, s 22 ) = H(4, 0) = 0; Wiek = po 40 H(s 13, s 23 ) = H(2, 3) = 0,971; Entropia atrybutu Wiek : E( Wiek ) = 5 14 H(s 11, s 21 ) H(s 12, s 22 ) H(s 13, s 23 ) = 0,694; Zysk informacyjny z podziału zbioru S według atrybutu Wiek : Gain( Wiek ) = I (s 1, s 2 ) E( Wiek ) = 0,94 0,694 = 0,277. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

41 Współczynnik entropii - przykład Analogicznie otrzymujemy wartości zysku informacyjnego dla pozostałych atrybutów: Gain( Wiek ) = 0,277; Gain( Dochod ) = 0,029; Gain( Student ) = 0,151; Gain( Status ) = 0,048. Interesuje nas atrybut mający największą wartość zysku informacyjnego, a więc Wiek. Podzielimy więc najpierw drzewo na partycje według zmiennej Wiek. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

42 Współczynnik entropii - przykład Rysunek: podział drzewa na Wiek Jak widać wierzchołek S 2 jest liściem, gdyż wszyscy należący doń klienci kupią komputery. Należy natomiast dokonać dalszego podziału wierzchołków S 1 i S 3. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

43 Współczynnik entropii - przykład Wykonanie podobnej analizy pokazuje, że S 1 należy podzielić ze względu na atrybut Student, a S 3 ze względu na Status. Całość prezentuje się następująco: Rysunek: drzewo decyzyjne: Kupi komputer Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

44 Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Rysunek: Gdańska czy klient Data Wydział mining kupi Fizyki Technicznej komputer? i Matematyki 11 Stosowanej) czerwca / 87 Współczynnik entropii - przykład Co daje nam takie drzewo i jak z niego korzystać? Załóżmy, że pojawia się klient studiujący, mający 23 lata, będący kawalerem o niskich dochodach. Czy możemy przewidywać, że kupi on od nas komputer? TAK, gdyż trafia do odpowiedniego wierzchołka:

45 Współczynnik Giniego Definicja (Współczynnik Giniego) gdzie: Z = 1 k pi 2, (5) p i - odsetek obserwacji przyjmujących i-tą wartość zmiennej objaśnianej; k - ilość kategorii przyjmowanych przez zmienną objaśnianą. i=1 Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

46 Współczynnik Giniego - przykład Załóżmy, że jesteśmy towarzystwem ubezpieczeniowym i chcemy wiedzieć, jaką składkę zaproponować danej osobie za ubezpieczenie samochodu. W tym celu musimy stwierdzić, czy należy ona do grupy podwyższonego ryzyka spowodowania wypadku, czy też nie. Mamy bardzo prostą przykładową bazę danych kierowców i na jej podstawie będziemy chcieli dokonać późniejszej klasyfikacji naszego klienta. ID Wiek Samochód Ryzyko 1 20 Rodzinny Wysokie 2 18 Sportowy Wysokie 3 50 Sportowy Wysokie 4 70 Rodzinny Niskie 5 30 Terenowy Niskie 6 25 Rodzinny Wysokie Naszą zmienną celu jest Ryzyko, możemy więc dokonać podziału według zmiennych Wiek i Samochód. Stefania Ryzyko Wietrzykowska, ma dwie Piotr Lebiedź klasy (Politechnika - Wysokie GdańskaiData Wydział Niskie, mining Fizyki atechnicznej możliwe i Matematyki punkty11 Stosowanej) podziału czerwca 2017 dla 46 / 87

47 Współczynnik Giniego - przykład Punkt podziału g split zadany jest wzorem: gdzie: g split = m 1 + n 1 m + n Z 1 + m 2 + n 2 m + n Z 2, (6) m i - liczba elementów w S i należących do klasy Wysokie; n i - liczba elementów w S i należących do klasy Niskie. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

48 Współczynnik Giniego - przykład Weźmy najpierw podział atrybutu Wiek 18 i > 18. Podział Wysokie Niskie Wiek Wiek > Wartości współczynników Giniego oraz punkt podziału to: Z 1 = Z(S 1 ) = Z(Wiek 18) = 1 ( ) = 0; (7) Z 2 = Z(S 2 ) = Z(Wiek > 18) = 1 ( (3 5) 2 + ( 2 5 ) 2 ) = 0,73; (8) g split = m 1 + n 1 m + n Z 1 + m 2 + n 2 m + n Z 2 = ,73 = 0,61. (9) 6 Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

49 Współczynnik Giniego - przykład Postępując dalej podobnie otrzymujemy: Wiek 18 - g split = 0,61; Wiek 20 - g split = 0,33; Wiek 25 - g split = 0,22; Wiek 30 - g split = 0,29; Wiek 50 - g split = 0,27; Wiek 70 - g split = 0,44. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

50 Współczynnik Giniego - przykład Teraz weźmy podział atrybutu Samochód. Podział Wysokie Niskie Samochód = Rodzinny 2 1 Samochód = Sportowy 2 0 Samochód = Terenowy 0 1 Wartości współczynników Giniego oraz punkt podziału to: ( ) (2 2 ( 1 ) 2 Z(Samochód = Rodzinny) = 1 + = 0,44; (10) 3) 3 Z(Samochód {Sportowy, Terenowy}) = 1 ( (2 3) 2 + ( 1 3 ) 2 ) = 0,44; (11) g split = 3 6 0, ,44 = 0,44. (12) 6 Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

51 Współczynnik Giniego - przykład Z(Samochód = Sportowy) = 0; (13) Z(Samochód {Rodzinny, Terenowy}) = 0,5; (14) g split = 0,33. (15) Z(Samochód = Terenowy) = 0; (16) Z(Samochód {Rodzinny, Sportowy}) = 0,32; (17) g split = 0,27. (18) Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

52 Współczynnik Giniego - przykład Postępując dalej podobnie otrzymujemy: Wiek 18 - g split = 0,61; Wiek 20 - g split = 0,33; Wiek 25 - g split = 0,22; Wiek 30 - g split = 0,29; Wiek 50 - g split = 0,27; Wiek 70 - g split = 0,44; Samochód = Rodzinny - g split = 0,44; Samochód = Sportowy - g split = 0,33; Samochód = Terenowy - g split = 0,27. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

53 Współczynnik Giniego - przykład Znając już wszystkie możliwe wartości g split możemy dokonać najlepszego podziału. Wybieramy ten podział, który osiąga najmniejszą wartość g split Jest to 0,22 dla podziału Wieku na 25 i > 25. Mamy jednakże mały zbiór danych i duże luki między parametrami wieku, w takich sytuacjach uśrednia się punkt podziału, czyli będzie to = 27,5. Ostatecznie więc pierwszy podział naszego drzewa wygląda następująco: Rysunek: Pierwszy podział Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

54 Współczynnik Giniego - przykład Jak łatwo zauważyć, w przypadku gdy Wiek 27,5, dotarliśmy do liścia, gdyż dla naszych danych, gdy Wiek 27,5, to Ryzyko jest zawsze Wysokie. Musimy jednak dokonać kolejnego podziału prawej gałęzi. Spójrzmy znów na możliwe punkty podziału. Albo będzie to Wiek 30, Wiek 50, Wiek 70 lub typy samochodów. Rozpatrujemy już tylko tabelę: ID Wiek Samochód Ryzyko 1 50 Sportowy Wysokie 2 70 Rodzinny Niskie 3 30 Terenowy Niskie Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

55 Współczynnik Giniego - przykład Ostatecznie drzewo wygląda w poniższy sposób: Rysunek: Drzewo z przykładu Jak widać oddzielenie typu samochodu Sportowego od pozostałych pozwala osiągnąć liście. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

56 Log-wartość chi-kwadrat Log-wartość chi-kwadrat to wielkość log(p), (19) gdzie p-wartość jest granicznym poziomem istotności statystyki: gdzie: k r (R (ij) E (ij) ) 2, (20) E i=1 j=1 (ij) R (ij) to macierz rzeczywista mająca na miejscu (ij) wartość równą ilości obserwacji przyjmujących i-tą wartość zmiennej objaśnianej w j-tym węźle; E (ij) to macierz mająca w miejscu (ij) wartość równą średniej z rozkładu liczbie obserwacji przyjmujących i-tą wartość zmiennej objaśnianej w j-tym węźle. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

57 Log-wartość chi-kwadrat Gdy dzielimy węzeł wielokrotnie lepiej jest używać wzoru: gdzie m jest ilością podziałów. log(m p), (21) Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

58 Klasyfikacja Teraz, gdy mamy już przygotowane dane, możemy przejść do klasyfikacji zmiennej celu. Użyjemy do tego drzew decyzyjnych. Nasza zmienna celu jest typu przedziałowego, więc mamy do wyboru dwie metody ProbF (test F) i wariancję. Sprawdzenie, która z metod odnosi lepszy wynik w naszym przypadku pokazało, że lepiej ustawić wariancję. Zmiana poziomu istotności nie wpływa na ocenę modelu, zostawiamy więc domyślnie 0,2. Zmiana maksymalnej liczby rozgałęzień z 2 na 3 stanowczo poprawiła model, wzrost do 4 również, ale ustawienie już 5 rozgałęzień pogorszyło model, decydujemy się więc na ustawienie liczby rozgałęzień na 4. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

59 Klasyfikacja Następnie przyjrzymy się parametrowi głębi. Domyślnie ma on wartość 6, zmniejszenie głębi oczywiście pogarsza model, natomiast zwiększenie głębi do 7 przyniosło poprawę modelu, zwiększenie do 8 również, ale już nieznaczną. Także parametr głębi ustawiamy na 8. Takie duże drzewo sprawia już programowi problemy, pozwala nam jednak podzielić źródło danych na aż kilkadziesiąt kategorii na różnych poziomach głębi, także możemy dosyć dokładnie ocenić, jaką wartość będzie miała nasza zmienna celu, jeżeli dane wejściowe będą należeć do odpowiedniej kategorii co jest istotą metody klasyfikacji zmiennej celu. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

60 Interakcyjne drzewo decyzyjne Teraz omówimy proces tworzenia takiego drzewa za pomocą interakcyjnego drzewa decyzyjnego. Powinniśmy zawsze dokonywać podziału węzła względem zmiennej, która ma największy współczynnik log(p), więc na początku jest to różnica temperatur, a punkt podziału wyznaczony zostaje jako 37,6650. Potem dzielimy każdy węzeł względem temperatury in, pierwszy w punkcie 75,9500, a drugi w 77,8500. Powtarzając te kroki, dojdziemy w końcu do momentu, gdy na tym samym poziomie głębi będziemy dzielić węzły względem różnych zmiennych. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

61 Interakcyjne drzewo decyzyjne Rysunek: wybór zmiennej podziału węzła Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

62 Interakcyjne drzewo decyzyjne Rysunek: proste drzewo decyzyjne Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

63 Predykcja zmiennej celu Następnym krokiem będzie dokonanie predykcji zmiennej celu. Tworzymy kilka różnych podstawowych modeli: regresję; sieć neuronową; drzewo decyzyjne. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

64 Regresja Regresję możemy wybrać albo logistyczną, albo liniową. Przed dokonaniem regresji należy uzupełnić lub usunąć braki danych. Metoda regresji polega na takim wyznaczeniu współczynników funkcji regresji dla wybranego stopnia wielomianu, żeby krzywa regresji dopasowywała się do krzywej zmiennych w zbiorze uczącym i potem testowym. Regresja logistyczna zakłada, że wartość prawdopodobieństwa jest uzależniona predyktorem liniowym logit(ˆp) = X β = β 0 + β 1 X 1 + β 2 X β N X N. (22) Po wyestymowaniu parametrów modelu możemy wyliczyć wyestymowane prawdopodobieństwo dla wektora X = (X 1, X 2,..., X n ): ˆp = exp( X β) (23) Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

65 Regresja Przy wybieraniu zmiennych objaśniających należy się dobrze zastanowić, czy nie usunąć zmiennych zbytnio ze sobą skorelowanych lub dodać ich iloczyny. W wyborze zmiennych pomagają metody: Krokowa wprzód / postępująca (ang. Forward) Na początku dobieramy jedynie wyraz wolny, a potem pojedynczo dodajemy do modelu kolejne zmienne; Krokowa wstecz (ang. Backward) Najpierw bierzemy do modelu wszystkie zmienne i kolejno usuwamy najmniej istotne; Krokowa podobnie jak Forward, z tym że po każdym kroku badamy istotność zmiennych obecnych w modelu. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

66 Regresja - przykład Wybieramy regresję logistyczną; Podwyższenie stopnia wielomianu na 3 nic nie zmienia, więc zostajemy przy 2. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

67 Sieć neuronowa Sieć neuronowa to zbiór połączonych ze sobą jednostek wejściowo-wyjściowych. Z każdym z połączeń skojarzona jest waga, która może się zmieniać podczas procesu uczenia. Metoda ta polega głównie na wyznaczeniu wag dla kolejnych zmiennych oraz ich stopniowej i dokładnej modyfikacji, tak żeby model dopasował się do zbioru uczącego i sprawdził się w zbiorze testowym, z którym nie miał wcześniej do czynienia. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

68 Sieć neuronowa Prosta sieć neuronowa jest złożona z warstwy wejściowej zawierającej n neuronów, które odpowiadają zmiennym wejścia oraz wyjściowej sumującej ważone impulsy i transformującej je do skali zmiennej celu. Modelami bardziej złożonymi są sieci neuronowe zawierające warstwę ukrytą. Są to tzw. perceptrony wielowarstwowe (MLP - ang. Multi Layer Perceptron). Warstwa ukryta składa się z pewnej liczby neuronów (ukrytych), które nieliniowo przekształcają kombinację liniową otrzymanych sygnałów. Neuron warstwy ukrytej składa się z funkcji łączenia (link function) i funkcji aktywacji. Funkcja łączenia odpowiada za wytworzenie pojedynczej wartości wejściowej dla danego neuronu z wartości jego poprzedników. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

69 Funkcje łączenia Mamy następujące rodzaje funkcji łączenia: Addytywna Sumuje wszystkie wartości wejściowe; Liniowa Stanowi kombinację liniową wartości wejściowych i wag; EQSlopes Stanowi kombinację liniową wartości wejściowych i wag, przy czym w danej warstwie używa się tej samej wagi, dodając inną wartość współczynnika przesunięcia dla każdej wartości wejściowej; EQRadial Radialna funkcja bazowa z równymi wysokościami i szerokościami w obrębie warstwy; EHRadial Radialna funkcja bazowa z równymi wysokościami i nierównymi szerokościami w obrębie warstwy. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

70 Funkcje aktywacji Funkcja aktywacji oblicza wartość neuronu na wyjściu. Wyróżniamy funkcje: Tożsamościową g; Liniową g waga + b; Wykładniczą e g ; Odwrotną 1 g ; Kwadratową g 2 ; Logistyczną 1 1+e g ; Gaussa e g 2 ; Sinus sin g. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

71 Sieć neuronowa Rysunek: MLP Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

72 Sieć neuronowa Wynik generowany przez sieć jest rezultatem działania funkcji transformującej sumę ważonych wyjść z neuronów warstwy ukrytej. Jeśli zmienna jest binarna, to stosuje się odwrotność przekształcenia logitowego, a jeżeli jest ciągła przekształcenie identycznościowe. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

73 Sieć neuronowa Tak wygląda schemat sieci z jedną warstwą ukrytą zawierającą n neuronów: Rysunek: sieć z warstwą ukrytą Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

74 Sieć neuronowa Dodatkowo można wprowadzić połączenie między warstwą wejściową i wyjściową. Umożliwi to dodatkową analizę prostej kombinacji liniowej predyktorów, ale rozbuduje zagadnienie estymacji. Są metody wyznaczenia odpowiedniej liczby neuronów w warstwach ukrytych. Np. reguła piramidy geometrycznej mówi, że liczba neuronów powinna maleć od wejścia do wyjścia. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

75 Sieć neuronowa - przykład Ważnym parametrem w modelach sieci neuronowych jest ilość jednostek ukrytych. Może ich być od 1 do 64, a domyślnie ustawione są jedynie 3. Zmiana na 4 pogarsza model, natomiast na 20 poprawia. Jednak jeszcze lepszy wynik daje zmniejszenie ich ilości i ustawienie 2 jednostek ukrytych. Wartości skrajne, to jest 1 i 64 dają gorsze wyniki od 2. Zostaniemy więc przy 2. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

76 Uczenie się sieci Etapy uczenia się sieci: 1 Standaryzacja zmiennych objaśniających, w celu poprawnego przydzielania wag. 2 Losowanie parametrów początkowych. 3 Wczytanie obserwacji ze zbioru treningowego i na ich podstawie korekta wag w celu usprawnienia modelu. 4 Powtarzanie poprzedniego kroku aż do osiągnięcia zbieżności algorytmu optymalizacyjnego, przekroczenia ilości iteracji lub innego warunku stopu. 5 Ocena stopnia dopasowania modelu na próbie walidacyjnej wag otrzymanych w kolejnych iteracjach. Wybór najlepszego modelu. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

77 Porównanie modeli Do porównywania i oceny modeli używa się między innymi następujących metod: błąd średniokwadratowy: ASE = 1 n (yi y i ) 2, (24) n i=1 gdzie yi - wartość prognozowana przez model, a y i wartość z próby; skuteczność klasyfikacji iloraz błędu klasyfikacji; statystyka Kołmogorowa-Smirnowa: KS = max{ F n (t) F 0 (t) }, (25) t gdzie F n dystrybuanta empiryczna n-elementowej próby, a F 0 dystrybuanta teoretyczna; Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

78 Porównanie modeli ROC Indeks ROC miara określająca skuteczność modelu w rozróżnianiu podpopulacji o różnych wartościach zmiennej objaśnianej. Należy obliczyć pole pod krzywą ROC, im bliżej 1 i im bardziej wykres skierowany jest w kierunku lewego górnego rogu, tym lepszy jest model; konstrukcja krzywej ROC: sortujemy populację malejąco według przydzielonych prawdopodobieństw i wybieramy górne k % obserwacji; zakładamy, że w wybranej podpopulacji jest x jedynek i y zer. Oznaczamy n 1 i n 0 jako liczności tych klas w całej próbie. Obliczamy specyficzność = y n 0 i wrażliwość = x n 1 ; powyższe kroki powtarzamy dla różnych k i łączymy w krzywą. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

79 Porównanie modeli lift Wzrost (lift) miara obliczana jako iloraz odsetka zaobserwowanych zdarzeń w górnych n % posortowanej malejąco populacji według przewidywanych prawdopodobieństw i odsetka tych samych zdarzeń w całej populacji Wykres liftu łącznego powinien gładko spadać do 1; skoki wskazują błędy modelu. dzielimy zbiór na równe części (np. co 5 centyli); zliczamy w każdej części ilość sukcesów; liczymy skumulowaną ilość sukcesów; obliczamy skumulowaną ilość sukcesów w każdej części w procentach (Gain score); ostatecznie dzielimy Gain score przez procentowy górny kwantyl danego przedziału, np. gdy górny kwantyl wynosi 15%, to Gain score dzielimy przez 15. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

80 Porównanie modeli - przykład Jak widać na rysunku, najlepiej dopasowanym modelem, to jest takim, który osiąga najmniejszy błąd średniokwadratowy jest model regresji typu liniowego ze stopniem wielomianu 2, potem regresja logistyczna ze stopniem wielomianu 2, następnie sieć neuronowa z 2 jednostkami ukrytymi, potem inne sieci neuronowe, na szarym końcu zaś drzewa decyzyjne. Jedno drzewo zostało celowo stworzone z niskim poziomem głębi i wyraźnie odstaje od wykresu danych oraz ma ogromny błąd średniokwadratowy. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

81 Porównanie modeli Rysunek: porównanie modeli Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

82 Porównanie modeli Rysunek: przykładowe wykresy dopasowania modeli Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

83 Porównanie modeli Rysunek: wykres dopasowania modeli Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

84 Wnioski Jesteśmy w stanie dokonać dokładnej prognozy i klasyfikacji temperatury out na podstawie różnicy temperatur, temperatury in, przepływu i pozostałych zmiennych przy użyciu oprogramowania firmy SAS i zastosowanej w niej metodyki SEMMA. Nie powinno się zdawać wyłącznie na program i jego domyślne wartości, gdyż modele, w których dokonaliśmy zmian, okazały się dokładniejsze. Program więc nie zastąpi człowieka, jednakże bardzo usprawnia proces klasyfikowania i prognozowania zmiennej celu. Przed stworzeniem modeli należy zawsze dokładnie przeanalizować źródło danych, sprawdzić, skąd pochodzą dane, czym są zmienne, jakiego są typu i jakie mogą osiągać realnie wartości. Przed stworzeniem modeli należy sprawdzić, czy wśród danych nie ma błędów pomiarowych i braków danych. Niechciane rekordy zastąpić lub usunąć ze źródła, jeśli ich ilość jest statystycznie nieistotna. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

85 Wnioski Przed stworzeniem modeli należy uprzednio przygotowane źródło danych podzielić na zbiory uczący, walidacyjny i testowy, żeby modele mogły się na nich uczyć, poprawiać i sprawdzać. Dla naszych danych najlepszym typem modelu w prognozowaniu okazała się regresja, nie jest to jednak ogólnie żadną regułą. Trzeba uważać przy ustawianiu wartości w procesie uczenia modelu, żeby nie doszło do jego przeuczenia, wcale nie jest tak, że modele bardziej skomplikowane, z większą głębią etc. dają lepsze wyniki. Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

86 Cały diagram Cały nasz diagram prezentuje się następująco: Rysunek: diagram Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

87 Bibliografia G. Jałocha, A. Pomykała, B. Szymecki, K. Zera; DATA MINING, ; K. Glepiak, M. Borsuk, J. Gierasimczyk, A. Gałecki; Statystyka w SAS Data Mining; Techniki zgłębiania danych (data mining); StatSoft; dostęp: Stefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data Wydział mining Fizyki Technicznej i Matematyki 11 Stosowanej) czerwca / 87

Statystyka w SAS. Data Mining. Krzysztof Glapiak, Mateusz Borsuk, Jakub Gierasimczyk, Arkadiusz Gałecki. 15 czerwca Matematyka Finansowa

Statystyka w SAS. Data Mining. Krzysztof Glapiak, Mateusz Borsuk, Jakub Gierasimczyk, Arkadiusz Gałecki. 15 czerwca Matematyka Finansowa Statystyka w SAS Krzysztof Glapiak, Mateusz Borsuk, Jakub Gierasimczyk, Arkadiusz Gałecki Matematyka Finansowa 15 czerwca 2015 Plan prezentacji 1 Wstęp - czym jest 2 3 4 5 Sieci neuronowe 6 Czym jest?

Bardziej szczegółowo

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu Podstawy baz danych PODSTAWY BAZ DANYCH 19. Perspektywy baz danych 1 Perspektywy baz danych Temporalna baza danych Temporalna baza danych - baza danych posiadająca informację o czasie wprowadzenia lub czasie ważności zawartych

Bardziej szczegółowo

Data mining. Wydział Fizyki Technicznej i Matematyki Stosowanej Politechnika Gdańska. 14 czerwca 2018

Data mining. Wydział Fizyki Technicznej i Matematyki Stosowanej Politechnika Gdańska. 14 czerwca 2018 Data mining Maciej Jędrzejczyk Paulina Konecka Wydział Fizyki Technicznej i Matematyki Stosowanej Politechnika Gdańska 14 czerwca 2018 Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 1

Bardziej szczegółowo

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006 SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu

Bardziej szczegółowo

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład Data Mining Wykład 5 Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny Indeks Gini Popularnym kryterium podziału, stosowanym w wielu produktach komercyjnych, jest indeks Gini Algorytm SPRINT

Bardziej szczegółowo

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe PB, 2009 2010 Sztuczna Inteligencja Tematy projektów Sieci Neuronowe Projekt 1 Stwórz projekt implementujący jednokierunkową sztuczną neuronową złożoną z neuronów typu sigmoidalnego z algorytmem uczenia

Bardziej szczegółowo

Zastosowania sieci neuronowych

Zastosowania sieci neuronowych Zastosowania sieci neuronowych aproksymacja LABORKA Piotr Ciskowski zadanie 1. aproksymacja funkcji odległość punktów źródło: Żurada i in. Sztuczne sieci neuronowe, przykład 4.4, str. 137 Naucz sieć taką

Bardziej szczegółowo

Analiza składowych głównych. Wprowadzenie

Analiza składowych głównych. Wprowadzenie Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących

Bardziej szczegółowo

Sieci neuronowe w Statistica

Sieci neuronowe w Statistica http://usnet.us.edu.pl/uslugi-sieciowe/oprogramowanie-w-usk-usnet/oprogramowaniestatystyczne/ Sieci neuronowe w Statistica Agnieszka Nowak - Brzezińska Podstawowym elementem składowym sztucznej sieci neuronowej

Bardziej szczegółowo

Projekt Sieci neuronowe

Projekt Sieci neuronowe Projekt Sieci neuronowe Chmielecka Katarzyna Gr. 9 IiE 1. Problem i dane Sieć neuronowa miała za zadanie nauczyć się klasyfikować wnioski kredytowe. W projekcie wykorzystano dane pochodzące z 110 wniosków

Bardziej szczegółowo

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE UNIWERSYTET WARMIŃSKO-MAZURSKI W OLSZTYNIE PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE http://matman.uwm.edu.pl/psi e-mail: psi@matman.uwm.edu.pl ul. Słoneczna 54 10-561

Bardziej szczegółowo

Sieci neuronowe w Statistica. Agnieszka Nowak - Brzezioska

Sieci neuronowe w Statistica. Agnieszka Nowak - Brzezioska Sieci neuronowe w Statistica Agnieszka Nowak - Brzezioska Podstawowym elementem składowym sztucznej sieci neuronowej jest element przetwarzający neuron. Schemat działania neuronu: x1 x2 w1 w2 Dendrites

Bardziej szczegółowo

SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU)

SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU) SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU) 1. Opis problemu - ocena końcowa projektu Projekt jako nowe, nietypowe przedsięwzięcie wymaga właściwego zarządzania. Podjęcie się realizacji

Bardziej szczegółowo

Zmienne zależne i niezależne

Zmienne zależne i niezależne Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta

Bardziej szczegółowo

Metody Sztucznej Inteligencji II

Metody Sztucznej Inteligencji II 17 marca 2013 Neuron biologiczny Neuron Jest podstawowym budulcem układu nerwowego. Jest komórką, która jest w stanie odbierać i przekazywać sygnały elektryczne. Neuron działanie Jeżeli wartość sygnału

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona; LABORATORIUM 4 Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona; dwie zmienne zależne mierzalne małe próby duże próby rozkład normalny

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2 Klasyfikacja Indeks Gini Zysk informacyjny Klasyfikacja wykład 2 Kontynuujemy prezentacje metod klasyfikacji. Na wykładzie zostaną przedstawione dwa podstawowe algorytmy klasyfikacji oparte o indukcję

Bardziej szczegółowo

Aproksymacja funkcji a regresja symboliczna

Aproksymacja funkcji a regresja symboliczna Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą

Bardziej szczegółowo

ALGORYTMY SZTUCZNEJ INTELIGENCJI

ALGORYTMY SZTUCZNEJ INTELIGENCJI ALGORYTMY SZTUCZNEJ INTELIGENCJI Sieci neuronowe 06.12.2014 Krzysztof Salamon 1 Wstęp Sprawozdanie to dotyczy ćwiczeń z zakresu sieci neuronowych realizowanym na przedmiocie: Algorytmy Sztucznej Inteligencji.

Bardziej szczegółowo

Temat: Sztuczne Sieci Neuronowe. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE

Temat: Sztuczne Sieci Neuronowe. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE Temat: Sztuczne Sieci Neuronowe Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE Dr inż. Barbara Mrzygłód KISiM, WIMiIP, AGH mrzyglod@ agh.edu.pl 1 Wprowadzenie Sztuczne sieci neuronowe

Bardziej szczegółowo

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta www.michalbereta.pl Sieci radialne zawsze posiadają jedną warstwę ukrytą, która składa się z neuronów radialnych. Warstwa wyjściowa składa

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia

Bardziej szczegółowo

1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:

1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej: Metoda analizy macierzy współczynników korelacji Idea metody sprowadza się do wyboru takich zmiennych objaśniających, które są silnie skorelowane ze zmienną objaśnianą i równocześnie słabo skorelowane

Bardziej szczegółowo

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE BAZY DANYCH HURTOWNIE DANYCH I BUSINESS INTELLIGENCE Akademia Górniczo-Hutnicza w Krakowie Adrian Horzyk horzyk@agh.edu.pl Google: Horzyk HURTOWNIE DANYCH Hurtownia danych (Data Warehouse) to najczęściej

Bardziej szczegółowo

Dopasowywanie modelu do danych

Dopasowywanie modelu do danych Tematyka wykładu dopasowanie modelu trendu do danych; wybrane rodzaje modeli trendu i ich właściwości; dopasowanie modeli do danych za pomocą narzędzi wykresów liniowych (wykresów rozrzutu) programu STATISTICA;

Bardziej szczegółowo

Systemy uczące się Lab 4

Systemy uczące się Lab 4 Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego

Bardziej szczegółowo

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74 3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15

Bardziej szczegółowo

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych. Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(), zwaną funkcją aproksymującą

Bardziej szczegółowo

Monte Carlo, bootstrap, jacknife

Monte Carlo, bootstrap, jacknife Monte Carlo, bootstrap, jacknife Literatura Bruce Hansen (2012 +) Econometrics, ze strony internetowej: http://www.ssc.wisc.edu/~bhansen/econometrics/ Monte Carlo: rozdział 8.8, 8.9 Bootstrap: rozdział

Bardziej szczegółowo

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno WSTĘP DO REGRESJI LOGISTYCZNEJ Dr Wioleta Drobik-Czwarno REGRESJA LOGISTYCZNA Zmienna zależna jest zmienną dychotomiczną (dwustanową) przyjmuje dwie wartości, najczęściej 0 i 1 Zmienną zależną może być:

Bardziej szczegółowo

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Spis treści I. Wzory ogólne... 2 1. Średnia arytmetyczna:... 2 2. Rozstęp:... 2 3. Kwantyle:... 2 4. Wariancja:... 2 5. Odchylenie standardowe:...

Bardziej szczegółowo

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej

Bardziej szczegółowo

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I Wojciech Kotłowski Instytut Informatyki Politechniki Poznańskiej email: imię.nazwisko@cs.put.poznan.pl pok. 2 (CW) tel. (61)665-2936 konsultacje:

Bardziej szczegółowo

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta Stan dotychczasowy OCENA KLASYFIKACJI w diagnostyce Wybraliśmy metodę uczenia maszynowego (np. sieć neuronowa lub drzewo decyzyjne), która będzie klasyfikować nieznane przypadki Na podzbiorze dostępnych

Bardziej szczegółowo

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Michał Witczak Data Mining 20 maja 2012 r. 1. Wstęp Dostarczone zostały nam 4 pliki, z których dwa stanowiły zbiory uczące

Bardziej szczegółowo

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska Anna Stankiewicz Izabela Słomska Wstęp- statystyka w politologii Rzadkie stosowanie narzędzi statystycznych Pisma Karla Poppera

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH 1. Czym jest eksploracja danych Eksploracja danych definiowana jest jako zbiór technik odkrywania nietrywialnych zależności i schematów w dużych

Bardziej szczegółowo

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Algorytmy metaheurystyczne Wykład 11. Piotr Syga Algorytmy metaheurystyczne Wykład 11 Piotr Syga 22.05.2017 Drzewa decyzyjne Idea Cel Na podstawie przesłanek (typowo zbiory rozmyte) oraz zbioru wartości w danych testowych, w oparciu o wybrane miary,

Bardziej szczegółowo

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel według przewidywań internetowego magazynu ZDNET News z 8 lutego 2001 roku eksploracja danych (ang. data mining ) będzie jednym z najbardziej rewolucyjnych osiągnięć następnej dekady. Rzeczywiście MIT Technology

Bardziej szczegółowo

Data Mining. Statystyka w SAS. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 1 / 98

Data Mining. Statystyka w SAS. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 1 / 98 Data Mining Klaudia Malinowska Simona Pikuła Statystyka w SAS Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 1 / 98 Plan prezentacji 1 Data Mining-co to jest? 2 Metodologia SEMMA 3 Analiza

Bardziej szczegółowo

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość Dwie metody Klasyczna metoda histogramu jako narzędzie do postawienia hipotezy, jaki rozkład prawdopodobieństwa pasuje do danych Indukcja drzewa decyzyjnego jako metoda wykrycia klasyfikatora ukrytego

Bardziej szczegółowo

Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe.

Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe. Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe. zajecia.jakubw.pl/nai Literatura: S. Osowski, Sieci neuronowe w ujęciu algorytmicznym. WNT, Warszawa 997. PODSTAWOWE ZAGADNIENIA TECHNICZNE AI

Bardziej szczegółowo

Spacery losowe generowanie realizacji procesu losowego

Spacery losowe generowanie realizacji procesu losowego Spacery losowe generowanie realizacji procesu losowego Michał Krzemiński Streszczenie Omówimy metodę generowania trajektorii spacerów losowych (błądzenia losowego), tj. szczególnych procesów Markowa z

Bardziej szczegółowo

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb Współzależność Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb (x i, y i ). Geometrycznie taką parę

Bardziej szczegółowo

Wykład 4: Statystyki opisowe (część 1)

Wykład 4: Statystyki opisowe (część 1) Wykład 4: Statystyki opisowe (część 1) Wprowadzenie W przypadku danych mających charakter liczbowy do ich charakterystyki można wykorzystać tak zwane STATYSTYKI OPISOWE. Za pomocą statystyk opisowych można

Bardziej szczegółowo

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016 Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład I dr inż. Bogumil.Konopka@pwr.edu.pl 2015/2016 1 Wykład I - plan Sprawy organizacyjne Uczenie maszynowe podstawowe pojęcia Proces modelowania

Bardziej szczegółowo

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18 Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)

Bardziej szczegółowo

KARTA INFORMACYJNA PRZEDMIOTU

KARTA INFORMACYJNA PRZEDMIOTU Uniwersytet Rzeszowski WYDZIAŁ KIERUNEK Matematyczno-Przyrodniczy Fizyka techniczna SPECJALNOŚĆ RODZAJ STUDIÓW stacjonarne, studia pierwszego stopnia KARTA INFORMACYJNA PRZEDMIOTU NAZWA PRZEDMIOTU WG PLANU

Bardziej szczegółowo

Podstawy sztucznej inteligencji

Podstawy sztucznej inteligencji wykład 5 Sztuczne sieci neuronowe (SSN) 8 grudnia 2011 Plan wykładu 1 Biologiczne wzorce sztucznej sieci neuronowej 2 3 4 Neuron biologiczny Neuron Jest podstawowym budulcem układu nerwowego. Jest komórką,

Bardziej szczegółowo

Uczenie się pojedynczego neuronu. Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z<0 y=1 gdy z>=0. Wówczas: W 1 x 1 + w 2 x 2 + = 0

Uczenie się pojedynczego neuronu. Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z<0 y=1 gdy z>=0. Wówczas: W 1 x 1 + w 2 x 2 + = 0 Uczenie się pojedynczego neuronu W0 X0=1 W1 x1 W2 s f y x2 Wp xp p x i w i=x w+wo i=0 Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z=0 Wówczas: W 1 x 1 + w 2 x 2 + = 0 Algorytm

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych Agenda Instytut Matematyki Politechniki Łódzkiej 2 stycznia 2012 Agenda Agenda 1 Wprowadzenie Agenda 2 Hipoteza oraz błędy I i II rodzaju Hipoteza alternatywna Statystyka testowa Zbiór krytyczny Poziom

Bardziej szczegółowo

Wprowadzenie do uczenia maszynowego

Wprowadzenie do uczenia maszynowego Wprowadzenie do uczenia maszynowego Agnieszka Ławrynowicz 12 stycznia 2017 Co to jest uczenie maszynowe? dziedzina nauki, która zajmuje się sprawianiem aby komputery mogły uczyć się bez ich zaprogramowania

Bardziej szczegółowo

Część 2: Data Mining

Część 2: Data Mining Łukasz Przywarty 171018 Wrocław, 18.01.2013 r. Grupa: CZW/N 10:00-13:00 Raport z zajęć laboratoryjnych w ramach przedmiotu Hurtownie i eksploracja danych Część 2: Data Mining Prowadzący: dr inż. Henryk

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Regresja wielokrotna Model dla zależności liniowej: Y=a+b 1 X 1 +b 2 X 2 +...+b n X n Cząstkowe współczynniki regresji wielokrotnej: b 1,..., b n Zmienne niezależne (przyczynowe): X 1,..., X n Zmienna

Bardziej szczegółowo

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,

Bardziej szczegółowo

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu i business intelligence Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl Wrocław 2005-2007 Plan na dziś : 1. Wprowadzenie do przedmiotu (co będzie omawiane oraz jak będę weryfikował zdobytą wiedzę

Bardziej szczegółowo

Projekt zarządzania jakością wykorzystujący STATISTICA Data Miner przynosi w voestalpine roczne oszczędności w wysokości 800 000 EUR

Projekt zarządzania jakością wykorzystujący STATISTICA Data Miner przynosi w voestalpine roczne oszczędności w wysokości 800 000 EUR Projekt zarządzania jakością wykorzystujący STATISTICA Data Miner przynosi w voestalpine roczne oszczędności w wysokości 800 000 EUR Przemysł samochodowy stawia najwyższe wymagania jakościowe w stosunku

Bardziej szczegółowo

I EKSPLORACJA DANYCH

I EKSPLORACJA DANYCH I EKSPLORACJA DANYCH Zadania eksploracji danych: przewidywanie Przewidywanie jest podobne do klasyfikacji i szacowania, z wyjątkiem faktu, że w przewidywaniu wynik dotyczy przyszłości. Typowe zadania przewidywania

Bardziej szczegółowo

Wojciech Skwirz

Wojciech Skwirz 1 Regularyzacja jako metoda doboru zmiennych objaśniających do modelu statystycznego. 2 Plan prezentacji 1. Wstęp 2. Część teoretyczna - Algorytm podziału i ograniczeń - Regularyzacja 3. Opis wyników badania

Bardziej szczegółowo

PROGNOZOWANIE OSIADAŃ POWIERZCHNI TERENU PRZY UŻYCIU SIECI NEURONOWYCH**

PROGNOZOWANIE OSIADAŃ POWIERZCHNI TERENU PRZY UŻYCIU SIECI NEURONOWYCH** Górnictwo i Geoinżynieria Rok 31 Zeszyt 3 2007 Dorota Pawluś* PROGNOZOWANIE OSIADAŃ POWIERZCHNI TERENU PRZY UŻYCIU SIECI NEURONOWYCH** 1. Wstęp Eksploatacja górnicza złóż ma niekorzystny wpływ na powierzchnię

Bardziej szczegółowo

Sieć przesyłająca żetony CP (counter propagation)

Sieć przesyłająca żetony CP (counter propagation) Sieci neuropodobne IX, specyficzne architektury 1 Sieć przesyłająca żetony CP (counter propagation) warstwa Kohonena: wektory wejściowe są unormowane jednostki mają unormowane wektory wag jednostki są

Bardziej szczegółowo

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33 Statystyka Wykład 4 Magdalena Alama-Bućko 19 marca 2018 Magdalena Alama-Bućko Statystyka 19 marca 2018 1 / 33 Analiza struktury zbiorowości miary położenia ( miary średnie) miary zmienności (rozproszenia,

Bardziej szczegółowo

Spis treści 3 SPIS TREŚCI

Spis treści 3 SPIS TREŚCI Spis treści 3 SPIS TREŚCI PRZEDMOWA... 1. WNIOSKOWANIE STATYSTYCZNE JAKO DYSCYPLINA MATEMATYCZNA... Metody statystyczne w analizie i prognozowaniu zjawisk ekonomicznych... Badania statystyczne podstawowe

Bardziej szczegółowo

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński Mikroekonometria 5 Mikołaj Czajkowski Wiktor Budziński Zadanie 1. Wykorzystując dane me.medexp3.dta przygotuj model regresji kwantylowej 1. Przygotuj model regresji kwantylowej w którym logarytm wydatków

Bardziej szczegółowo

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015 Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner rok akademicki 2014/2015 Sieci Kohonena Sieci Kohonena Sieci Kohonena zostały wprowadzone w 1982 przez fińskiego

Bardziej szczegółowo

Ćwiczenie 12. Metody eksploracji danych

Ćwiczenie 12. Metody eksploracji danych Ćwiczenie 12. Metody eksploracji danych Modelowanie regresji (Regression modeling) 1. Zadanie regresji Modelowanie regresji jest metodą szacowania wartości ciągłej zmiennej celu. Do najczęściej stosowanych

Bardziej szczegółowo

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu i business intelligence Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl Wrocław 2005-2012 Plan na dziś : 1. Wprowadzenie do przedmiotu (co będzie omawiane oraz jak będę weryfikował zdobytą wiedzę

Bardziej szczegółowo

Metody klasyfikacji danych - część 1 p.1/24

Metody klasyfikacji danych - część 1 p.1/24 Metody klasyfikacji danych - część 1 Inteligentne Usługi Informacyjne Jerzy Dembski Metody klasyfikacji danych - część 1 p.1/24 Plan wykładu - Zadanie klasyfikacji danych - Przeglad problemów klasyfikacji

Bardziej szczegółowo

Funkcje wymierne. Jerzy Rutkowski. Działania dodawania i mnożenia funkcji wymiernych określa się wzorami: g h + k l g h k.

Funkcje wymierne. Jerzy Rutkowski. Działania dodawania i mnożenia funkcji wymiernych określa się wzorami: g h + k l g h k. Funkcje wymierne Jerzy Rutkowski Teoria Przypomnijmy, że przez R[x] oznaczamy zbiór wszystkich wielomianów zmiennej x i o współczynnikach rzeczywistych Definicja Funkcją wymierną jednej zmiennej nazywamy

Bardziej szczegółowo

8. Neuron z ciągłą funkcją aktywacji.

8. Neuron z ciągłą funkcją aktywacji. 8. Neuron z ciągłą funkcją aktywacji. W tym ćwiczeniu zapoznamy się z modelem sztucznego neuronu oraz przykładem jego wykorzystania do rozwiązywanie prostego zadania klasyfikacji. Neuron biologiczny i

Bardziej szczegółowo

Klasyfikator liniowy Wstęp Klasyfikator liniowy jest najprostszym możliwym klasyfikatorem. Zakłada on liniową separację liniowy podział dwóch klas między sobą. Przedstawia to poniższy rysunek: 5 4 3 2

Bardziej szczegółowo

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną

Bardziej szczegółowo

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe Trening jednokierunkowych sieci neuronowych wykład 2. dr inż. PawełŻwan Katedra Systemów Multimedialnych Politechnika Gdańska

Bardziej szczegółowo

Testowanie modeli predykcyjnych

Testowanie modeli predykcyjnych Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności

Bardziej szczegółowo

Inteligentne systemy przeciw atakom sieciowym

Inteligentne systemy przeciw atakom sieciowym Inteligentne systemy przeciw atakom sieciowym wykład Sztuczne sieci neuronowe (SSN) Joanna Kołodziejczyk 2016 Joanna Kołodziejczyk Inteligentne systemy przeciw atakom sieciowym 2016 1 / 36 Biologiczne

Bardziej szczegółowo

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów

Bardziej szczegółowo

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd. Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru

Bardziej szczegółowo

Metody klasyfikacji i rozpoznawania wzorców. Najważniejsze rodzaje klasyfikatorów

Metody klasyfikacji i rozpoznawania wzorców.  Najważniejsze rodzaje klasyfikatorów Metody klasyfikacji i rozpoznawania wzorców www.michalbereta.pl Najważniejsze rodzaje klasyfikatorów Dla określonego problemu klasyfikacyjnego (tzn. dla danego zestawu danych) należy przetestować jak najwięcej

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z liniowym zadaniem najmniejszych

Bardziej szczegółowo

Algorytmy klasyfikacji

Algorytmy klasyfikacji Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów. ANALIZA SKUPIEŃ Metoda k-means I. Cel zadania Zadaniem jest analiza zbioru danych, gdzie zmiennymi są poziomy ekspresji genów. Podczas badań pobrano próbki DNA od 36 różnych pacjentów z chorobą nowotworową.

Bardziej szczegółowo

3. Modele tendencji czasowej w prognozowaniu

3. Modele tendencji czasowej w prognozowaniu II Modele tendencji czasowej w prognozowaniu 1 Składniki szeregu czasowego W teorii szeregów czasowych wyróżnia się zwykle następujące składowe szeregu czasowego: a) składowa systematyczna; b) składowa

Bardziej szczegółowo

Regresja linearyzowalna

Regresja linearyzowalna 1 z 5 2007-05-09 23:22 Medycyna Praktyczna - portal dla lekarzy Regresja linearyzowalna mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie Data utworzenia:

Bardziej szczegółowo

5. Model sezonowości i autoregresji zmiennej prognozowanej

5. Model sezonowości i autoregresji zmiennej prognozowanej 5. Model sezonowości i autoregresji zmiennej prognozowanej 1. Model Sezonowości kwartalnej i autoregresji zmiennej prognozowanej (rząd istotnej autokorelacji K = 1) Szacowana postać: y = c Q + ρ y, t =

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów STATYSTYKA MATEMATYCZNA WYKŁAD 4 Testowanie hipotez Estymacja parametrów WSTĘP 1. Testowanie hipotez Błędy związane z testowaniem hipotez Etapy testowana hipotez Testowanie wielokrotne 2. Estymacja parametrów

Bardziej szczegółowo

SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU)

SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU) SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU) 1. Opis problemu - ocena końcowa projektu Projekt jako nowe, nietypowe przedsięwzięcie wymaga właściwego zarządzania. Podjęcie się realizacji

Bardziej szczegółowo

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej LABORATORIUM 3 Przygotowanie pliku (nazwy zmiennych, export plików.xlsx, selekcja przypadków); Graficzna prezentacja danych: Histogramy (skategoryzowane) i 3-wymiarowe; Wykresy ramka wąsy; Wykresy powierzchniowe;

Bardziej szczegółowo

Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego

Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego Dorota Witkowska Szkoła Główna Gospodarstwa Wiejskiego w Warszawie Wprowadzenie Sztuczne

Bardziej szczegółowo

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna Regresja wieloraka Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna zmienna niezależna (można zobrazować

Bardziej szczegółowo

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny

Bardziej szczegółowo