Eksploracja danych. Eksploracja danych 1 / 61

Wielkość: px
Rozpocząć pokaz od strony:

Download "Eksploracja danych. Eksploracja danych 1 / 61"

Transkrypt

1 Eksploracja danych Eksploracja danych 1 / 61

2 Lasy losowe (Random Forests) Pojedyncze drzewo decyzyjne daje prosty model, ale często jest zbyt trywialne lub zbyt szczegółowe. Las losowy łączy wiele drzew decyzyjnych w jeden zespół modeli. Możemy porównać to, do sposobu w jaki możemy połączyć panele ekspertów rozważających pewien problem, by potem dojść do wspólnej decyzji. Rządy, przemysł i uniwersytety wszystkie te instytucje zarządzają procesami biznesowymi w ten sposób. Często może to dawać lepsze wyniki w porównaniu do decyzji opartej na doświadczeniu jednego organu na dany temat. Eksploracja danych 2 / 61

3 Lasy losowe (Random Forests) Idea budowy wielu drzew wywodzi się z algorytmu multiple inductive learning (MIL, Williams, 1987, 1988). Zauważono, że podczas budowy jednego drzewa decyzyjnego, często nie było istotnej różnicy w wyborze między różnymi zmiennymi. Na przykład, dwie lub więcej zmiennych mogą być nierozróżnialne pod względem ich zdolności do podziału danych. Las losowy produkuje bardzo dokładne modele, ponieważ zespół zmniejsza niestabilność, którą możemy obserwować, podczas budowy pojedynczego drzewa. (na przykład: usunięcie małej liczby obserwacji ze szkoleniowego zestawu danych, prowadzi do uzyskania zupełnie innego drzewa decyzyjnego.) Eksploracja danych 3 / 61

4 Lasy losowe (Random Forests) Algorytm lasu losowego (i inne algorytmy zespołowe) jest bardziej odporny na zmiany danych, niż inne algorytmy. W związku z tym, jest bardzo odporny na szum (tzn. zmienne, które mają niewiele wspólnego ze zmienną docelową). Odporność na szum oznacza, że małe zmiany w szkoleniowym zestawie danych będą mieć niewielki (lub żaden) wpływ na ostateczne decyzje podjęte przez otrzymany model. Losowe lasy są na ogół konkurencyjne dla nieliniowych klasyfikatorów, takich jak sztuczne sieci neuronowe i support vector machines. Eksploracja danych 4 / 61

5 Lasy losowe (Random Forests) Lasy losowe sprawdzają się w zadaniach klasyfikacji dla niedostatecznie reprezentowanych przypadków. (na przykład: w binarnym zadaniu klasyfikacji, gdzie jedna klasa ma bardzo mało (np. 5 % lub mniej) obserwacji w porównaniu z drugą klasą.) Las losowy jest odporny na szum, punkty oddalone i przeuczenie, w porównaniu do klasyfikatora zbudowanego z jednego drzewa. Idea lasu losowego Algorytm buduje wiele drzew. Każde drzewo decyzyjne budowane jest do jego maksymalnej głębokości (bez przycinania). Każde pojedyncze drzewo jest nadmierne dopasowanie do danych, ale jest to zrekompensowane przez wiele drzew używających różnych zmiennych i różnie dopasowanych do danych. Losowość używana przez algorytm lasów losowych leży w wyborze obserwacji i zmiennych. Eksploracja danych 5 / 61

6 Lasy losowe (Random Forests) - zalety losowości Losowość daje również znaczne korzyści obliczeniowe. W budowaniu jednego drzewa decyzyjnego, algorytm może wybrać losowo podzbiór dostępnych obserwacji w szkoleniowym zbiorze danych. Ponadto, w każdym węźle podczas procesu budowania drzewa decyzyjnego, przy wyborze sposobu najlepszego podziału zestawu danych, wykorzystana jest tylko niewielka część wszystkich dostępnych zmiennych. To również znacznie zmniejsza złożoność obliczeniową. Eksploracja danych 6 / 61

7 Lasy losowe (Random Forests) Podsumowując: Małe zmiany w danych wejściowych(np ich normalizacja) nie wpływają na wynik. Lasy losowe są odporne na punkty oddalone. Nie ma potrzeby wyboru zmiennych, ponieważ algorytm robi to efektywnie za nas. Drzewa w lesie budowane są przy użyciu dwóch poziomów losowości (obserwacji i zmiennych). A każde drzewo jest wydajnym niezależnym modelem. Uzyskany wynikowy model na ogół nie jest przeuczony. Eksploracja danych 7 / 61

8 Reprezentacja wiedzy Algorytm lasu losowego buduje od 100 do 500 drzew. Decyzje podejmowane przez każde z drzew są połączone, traktując wszystkie drzewa jak równe. Ostateczna decyzja zespołu będzie decyzją większości drzew składowych. Jeśli 80 na 100 drzew w lesie, mówi że będzie padać jutro, to wybieramy tę decyzję i podejmujemy odpowiednie działania na wypadek deszczu. Nawet jeśli 51 z 100 drzew mówi, że będzie padać, możemy potraktować to jako decyzję, choć może z mniejszą pewnością. Eksploracja danych 8 / 61

9 Algorytm Każde drzewo decyzyjne w lesie, budowane jest jak pojedyncze drzewo decyzyjne. Istotą lasów losowych jest wybór zbioru treningowego i to jak zmienne są wybierane, aby dostawać różne drzewa. Algorytm lasu losowego buduje wiele drzew decyzyjnych, z wykorzystaniem koncepcji określanej w uczeniu maszynowym jako bagging lub bootstrap aggregating. Bagging to idea tworzenia losowych próbek obserwacji i zbierania ich w worku (bag). Eksploracja danych 9 / 61

10 Algorytm Algorytm tworzy wiele takich worków z losowo wybranych obserwacji, ze zbioru treningowego. Wybór obserwacji dopuszcza powtórzenia, co oznacza, że pojedyncza obserwacja może pojawiać się wiele razy w pojedynczym worku. Rozmiar próbki jest często taki sam jak rozmiar zbioru treningowego dla pełnego zestawu danych. W pojedynczym worku wygenerowanym dla jednego drzewa, znajduje się około dwóch trzecich obserwacji, a jedna trzecia zostanie pominięta. Następnie każdy worek obserwacji jest wykorzystywany jako zbiór danych szkoleniowych do budowania drzewa decyzyjnego (a te pominięte można stosować jako niezależne próbki do oceny wyników). Kolejny istotny element przypadkowości odnosi się do wyboru zmiennych dzielących zbiór danych. Na każdym etapie budowy pojedynczego węzła decyzyjnego (tzn. w każdym punkcie podziału drzewa), zazwyczaj wybierane są losowe i małe zestawy zmiennych. Eksploracja danych 10 / 61

11 Algorytm Jeśli n oznacza liczbę zmiennych wejściowych, to do budowy drzewa wybieranych jest zazwyczaj n zmiennych. Tylko te zmienne są brane pod uwagę przy wyborze punktu podziału. Dla każdego węzła, podczas budowy drzewa decyzyjnego, używany jest inny losowy zestaw zmiennych. Przez losowe pobieranie próbek zarówno danych i zmiennych, tworzymy drzewa decyzyjne, które mają różne wydajności dla różnych podzbiorów danych. Pozwala nam to rozważyć zespół takich drzew jako zespół specjalistów z różną wiedzą współpracujących razem, aby dostarczyć lepszą odpowiedź. Próbkowanie daje również inną istotną przewagę - obliczeniową wydajność. Rozważając tylko niewielki ułamek całkowitej liczby zmiennych podczas rozpatrywania podziałów, ilość obliczeń jest znacznie zmniejszona. Eksploracja danych 11 / 61

12 Algorytm Podczas budowy każdego drzewa decyzyjnego, algorytm lasu losowego nie wykona żadnego cięcia (pruning) drzewa decyzyjnego. Przy budowie pojedynczego drzewa decyzyjnego zauważyliśmy już wcześniej, że przycięcie jest konieczne, aby uniknąć zjawiska przeuczenia. Przeuczone modele raczej nie pracują dobrze na nowych danych. Jednakże, losowy las przeuczonych drzew może dawać bardzo dobry model, który sprawdza się na zupełnie nowych danych. Wdrażając wiele drzew decyzyjnych jako jeden model, każde drzewo ma równą wagę w końcowym procesie decyzyjnym. Zwykle większość może dyktować wynik. Tak więc, jeśli 300 na 500 drzew decyzyjnych przewiduje, że jutro będzie padać, to możemy spodziewać się jutro deszczu. Jeśli tylko 100 drzew na 500 przewidują deszcz jutro, to raczej nie będzie padać jutro. Eksploracja danych 12 / 61

13 Przykład budowy lasu w Rattle Naszym zadaniem jest ponownie przewidzieć prawdopodobieństwo deszczu jutro w oparciu o dzisiejsze warunki pogodowe. Będziemy to ilustrować za pomocą Rattlei bezpośrednio w R. W obu przypadkach zostanie użyty pakiet randomforest (Liaw i Wiener 2002). Pakiet ten zapewnia oryginalną implementację algorytmu lasów losowych stworzoną przez pomysłodawców. Zakładka Model w Rattlema polecenie Forest, które buduje las drzew decyzyjnych. Eksploracja danych 13 / 61

14 Przykład budowy lasu w Rattle Tworzenie lasu losowego w Rattle Eksploracja danych 14 / 61

15 Przykład budowy lasu w Rattle Pierwsze kilka linijek informuje o liczbie obserwacji użytych do budowy modelu. Następnie wskazane jest, że brakujące wartości w szkoleniowym zestawie danych są automatycznie przypisane. Jeśli imputacja brakujących wartości nie jest włączona, to liczba obserwacji będzie mniejsza niż dostępna, ponieważ domyślnie usuwane są wtedy obserwacje z brakującymi wartościami: Summary of the Random Forest Model ================================== Number of observations used to build the model: 256 Missing value imputation is active. Eksploracja danych 15 / 61

16 Przykład budowy lasu w Rattle Następne kilka linii to kod R, który wygenerował las: Call: randomforest(formula = RainTomorrow ~., data = crs$dataset[crs$sample, c(crs$input, crs$target)], ntree = 500, mtry = 4, importance = TRUE, replace = FALSE, na.action = na.roughfix) Widzimy, że liczba drzew (ntree) wynosi 500, a tylko 4 zmienne są rozważane jako ewentualne parametry podziału dla każdego węzła (mtry). Używamy też miary wagi zmiennych (importance), a obserwacje z brakującymi wartościami będą miały automatycznie przypisane wartości za pomocą metody na.roughfix. Eksploracja danych 16 / 61

17 Przykład budowy lasu w Rattle Następne kilka linii podają powyższe informacje w bardziej czytelny sposób. Warto zauważyć, że pewne wyniki mogą się trochę różnić na komputerach 32 bitowych i 64 bitowych. Type of random forest: classification Number of trees: 500 No. of variables tried at each split: 4 Eksploracja danych 17 / 61

18 Przykład budowy lasu w Rattle Następnie wypisane jest wskazanie wydajności modelu wynikowego. Oszacowanie Out-of-bag (OOB) poziomu błędu jest obliczone przy użyciu obserwacji, które nie są zawarte w worku, worek (bag) jest podzbiorem zbioru danych szkoleniowych stosowanych do budowy drzewa decyzyjnego, stąd pojęcie out-of-bag. To bezstronne oszacowanie błędu sugeruje, że kiedy powstały model będzie stosowany do nowych obserwacji, to odpowiedzi będą błędne w 13.28%. To znaczy, że jest w 86,72% poprawny, więc jest to dostatecznie dobry model. OOB estimate of error rate: 13.28% Eksploracja danych 18 / 61

19 Przykład budowy lasu w Rattle Po tej ogólnej mierze dokładności następuje macierz błędów, która rejestruje niezgodności między przewidywaniami modelu a rzeczywistymi wynikami z obserwacji szkoleniowych. Rzeczywiste obserwacje tworzą rzędy tabeli, podczas gdy kolumny odpowiadają temu co model przewiduje dla obserwacji. Komórki podają liczbę obserwacji w każdej kategorii. Oznacza to, że model przewiduje No a obserwacje mają Yes dla 26 przypadków. No Yes class.error No Yes Eksploracja danych 19 / 61

20 Przykład budowy lasu w Rattle No Yes class.error No Yes Widzimy, że model i zestaw danych szkoleniowych zgadzają się, że nie będzie deszczu dla 207 obserwacji. Zgadzają się, że będzie padać dla 15 obserwacji. Jednakże, jest 26 dni, w których model przewiduje, że nie pada następnego dnia, a jednak pada deszcz. Podobnie, model przewiduje, że będzie padać następnego dnia dla ośmiu obserwacji, gdy w rzeczywistości nie pada. Eksploracja danych 20 / 61

21 Przykład budowy lasu w Rattle No Yes class.error No Yes Ogólne błędy dla klas, również obliczone z danych out-of-bag, są zawarte w tabeli. Model daje błąd w przewidywaniu deszczu (Yes, kiedy w rzeczywistości nie pada) dla 63,41% obserwacji. Kontrastuje to z poziomem błędów 3,72%, gdy przewiduje błędnie, że pada deszcz jutro. Dopuszczalność takich błędów (false positives versus false negatives) zależy od wielu czynników. Przewidywania, że będzie padać jutro z błędem false positives może być pewną niedogodnością - nosimy parasol cały dzień. Jednak przewidując, że nie będzie padać i nie będąc na to przygotowanym false negatives, może to mieć gorsze dla nas konsekwencje. Eksploracja danych 21 / 61

22 Przykład budowy lasu w Rattle No Yes class.error No Yes Poziom błędów rzędu % w przewidywaniu, że nie będzie deszczu może być problemem. Jedno z podejść losowych lasów do rozwiązania problemu związanego z fałszywą predykcją wartości No (false negatives) może polegać na doprowadzeniu do "równowagi" pomiędzy niedostatecznie reprezentowaną klasą (66 obserwacji RainTomorrow na Yes) i nadreprezentowaną klasą (300 obserwacji ma RainTomorrow o wartości No). Eksploracja danych 22 / 61

23 Przykład budowy lasu w Rattle W szkoleniowym zestawie danych proporcje tych obserwacji wynoszą 41 i 215, odpowiednio (po usunięciu wszelkich obserwacji z brakującymi wartościami). Możemy użyć opcji Sample Size (wielkość próbki), aby wymusić na algorytmie bardziej agresywne zachowanie w przewidywaniu, że będzie padać jutro. Będziemy pobierać próbki tak, aby taka sama liczba obserwacji z Yes i No była wybierana. Robimy to określając wartość 35,35 dla wielkości próby Macierz pomyłek dla powstałego losowego lasu: OOB estimate of error rate: 30.47% Confusion matrix: No Yes class.error No Yes Eksploracja danych 23 / 61

24 Przykład budowy lasu w Rattle OOB estimate of error rate: 30.47% Confusion matrix: No Yes class.error No Yes Poziom błędu, gdy pada deszcz jutro wynosi teraz 19,51%, a teraz mamy mokre 8 dni z 41, co jest lepsze niż 26 dni z 41 dni, w których możemy zmoknąć. Cena, jaką płacimy za tą zwiększoną dokładność w przewidywaniu, kiedy jest deszcz, jest to, że teraz mamy więcej dni przewidywanych jako deszczowe, gdy w rzeczywistości nie pada. Problem biznesowy dla naszego zadania oznacza, że chodzenie z parasolem jest mniej uciążliwe niż zmoknięcie, gdy pada deszcz, a my nie mamy parasola. Nie chcemy również nosić parasola cały czas. Eksploracja danych 24 / 61

25 Przykład budowy lasu w Rattle Jednym z problemów związanych z lasami losowymi, w porównaniu z pojedynczym drzewem decyzyjnym, jest to, że staje się trudne zrozumienie odkrytej wiedzy. Jednym ze sposobów, aby dowiedzieć się jaka wiedza jest odkrywana jest wzięcie pod uwagę ważności zmiennych, która wyliczona jest w oparciu o budowanie 500 drzew decyzyjnych. Eksploracja danych 25 / 61

26 Przykład budowy lasu w Rattle Tabela znaczenia zmiennych jest kolejną informacją, która pojawia się w widoku tekstowym: Tabela ważności zmiennych Eksploracja danych 26 / 61

27 Przykład budowy lasu w Rattle Tabela zawiera listę wszystkich zmiennych wejściowych, a następnie cztery miary wagi dla każdej zmiennej. Większe wartości wskazują, że zmienna jest stosunkowo ważniejsza. Tabela jest posortowana według miary dokładności (Accuracy). Eksploracja danych 27 / 61

28 Przykład budowy lasu w Rattle Podejście naiwne do pomiaru znaczenia zmiennej może polegać na zliczeniu ile razy zmienna pojawia się w zespole drzew decyzyjnych. Rzeczywiście jest to podejście naiwne, ponieważ zmienne mogą pojawić się na różnych poziomach w drzewie, a tym samym mają różne poziomy znaczenia. Większość miar bierze pod uwagę stopień poprawy drzewa przy użyciu danej zmiennej. Eksploracja danych 28 / 61

29 Przykład budowy lasu w Rattle Większy wpływ to ważniejsza zmienna. Rzeczywista wielkość miary nie jest tak istotna jak uszeregowanie zmiennych przez tą miarę. Ostatnią miarą jest całkowite zmniejszenie nieczystości węzła drzewa decyzyjnego (kryterium podziału Gini), gdy podział następuje za pomocą tej zmiennej. Kryterium podziału stosuje wtedy wskaźnik Giniego. Jest ona mierzona dla zmiennej dla wszystkich drzew dając miarę średniego spadku wskaźnika różnorodności Giniego dotyczącego tej zmiennej. Eksploracja danych 29 / 61

30 Przykład budowy lasu w Rattle Przycisk Importance wyświetla wykres tych miar ważności. Wg miary MeanDecreaseAccuracy Sunshine jest najważniejszą zmienną, a następnie Cloud3pm. Jest to w dużej mierze zgodne z drzewem decyzyjnym, które wcześniej zbudowaliśmy. Wykres wagi zmiennych Eksploracja danych 30 / 61

31 Przykład budowy lasu w Rattle Możemy również zauważyć, że zmienne kategorialne (np. kierunku wiatru WindGustDir, WindDir9am i WindDir3pm) mają większą wagę według miary Giniego niż średniej dokładności. To zachowanie wobec zmiennych kategorialnych z wieloma kategoriami, widoczne w mierze Giniego omówimy dalej. Warto zauważyć, że to zachowanie będzie wprowadzać nas w błąd w znaczeniu zmiennych kategorialnych. Eksploracja danych 31 / 61

32 Przykład budowy lasu w Rattle Na końcu widoku tekstowego widzimy jak długo trwało zbudowanie losowego lasu z 500 drzewami. Warto zauważyć, że nawet jeśli budujemy tak wiele drzew decyzyjnych, czas nadal jest poniżej 1 sekundy: Time taken: 0.37 secs Eksploracja danych 32 / 61

33 Przykład budowy lasu w Rattle Przydatnym narzędziem diagnostycznym jest wykres błędu, uzyskany za pomocą kliknięcia na przycisk Errors. Rysunek poniżej pokazuje wykres błędu dla naszego losowego lasu. Wykres podaje dokładność lasu drzew (jako poziom błędu na osi y) wobec liczby drzew, które zostały zawarte w lesie (oś x). Poziom błędu generalnie maleje dla większej liczby drzew. Eksploracja danych 33 / 61

34 Przykład budowy lasu w Rattle Kluczowym spostrzeżeniem jest to, że po pewnej liczbie drzew bardzo mało zmienia się przez dodanie kolejnych drzew do lasu. Z rysunku wydaje się, że wykraczając poza około 20 drzew w lesie niewiele dostajemy rozważając poziom błędu out-of-bag (OOB). Pozostałe dwa wykresy przedstawiają zmiany poziomu błędów związane z przewidywaniami modelu (tu mamy dwie klasy Yes i No i tyle dodatkowych wykresów). Również bierzemy je pod uwagę przy podejmowaniu decyzji, jak wiele drzew dodać do lasu. Eksploracja danych 34 / 61

35 Przykład budowy lasu w Rattle Inną z opcji dostępnych w Lesie jest przycisk Rules (Reguły) generujący dane w polu tekstowym. Kliknięcie tego przycisku spowoduje konwersję wybranego drzewa w zestaw reguł Eksploracja danych 35 / 61

36 Przykład budowy lasu w Rattle Jeśli wybrane drzewo to 0 (domyślnie 1), to wszystkie drzewa zostaną przekształcone do reguł. Trzeba uważać, ponieważ może to zająć bardzo dużo czasu dla 500 drzew i 20 lub więcej reguł dla drzewa (około reguł). Eksploracja danych 36 / 61

37 Boosting - wzmacnianie Meta-algorytm Boosting jest wydajny i umożliwia łatwe podejście do tworzenia modeli ED. Popularna odmiana nazywana jest AdaBoost (skrót od adaptacyjne wzmacnianie - adaptive boosting) został uznany jako najlepszy gotowy klasyfikator. Eksploracja danych 37 / 61

38 Boosting - wzmacnianie - idea algorytmu Algorytm buduje wiele modeli z zestawu danych przy użyciu innych algorytmów uczenia maszynowego. Po zbudowaniu modelu, algorytm przypisuje wagi do obserwacji w zbiorze danych. Wybiera obserwacje trudne do zamodelowania i zwiększa (boosts) ich wagi. Następnie budowana jest sekwencja takich modeli. Po każdym zbudowanym modelu wagi są modyfikowane, aby dać większą wagę tym obserwacjom, które są trudniejsze do sklasyfikowania. Eksploracja danych 38 / 61

39 Boosting - wzmacnianie Wagi "trudnych" obserwacji zazwyczaj oscylują w górę i w dół od jednego modelu do następnego. Ostateczny model jest sumą kolejnych modeli. Wynik każdego modelu jest ważony za pomocą oceny. Boosting nie wymaga szczególnego strojenia i niewiele trzeba założyć o algorytmie uczącym, z wyjątkiem tego, że powinien on być raczej słabym uczniem. Warto zwrócić uwagę, że boosting możne nie działać, jeśli nie ma wystarczających danych lub jeśli słabe modele są zbyt skomplikowane. Boosting jest również podatny na szum. Eksploracja danych 39 / 61

40 Boosting - wzmacnianie Algorytmy tego typu są zatem podobne do lasów losowych. Algorytm buduje zespół modeli, a następnie łączy, tak, aby dostarczyć lepszy model niż każdy ze składowych modeli. Boosting polega na tym, że po zakończeniu budowy jednego modelu, wszystkie obserwacje, które są nieprawidłowo sklasyfikowane przez ten model, są wzmacniane (boosted). Eksploracja danych 40 / 61

41 Boosting - wzmacnianie Wzmocniona obserwacja ma większą wagę w zbiorze danych, co powoduje jej nadreprezentację. Ma to taki skutek, że następny model z większym prawdopodobieństwem właściwie sklasyfikuje tę obserwację. Jeśli nie, wówczas obserwacja zostanie ponownie wzmocniona. W boostingu może być użyty dowolny model jako algorytm uczący. Najczęściej używany jest algorytm drzewa decyzyjnego. Eksploracja danych 41 / 61

42 Reprezentacja wiedzy i działanie Kluczowym rozszerzeniem dla reprezentacji wiedzy jest sposób, w który łączymy decyzje, które są podejmowane przez poszczególnych "ekspertów" lub modele. Boosting używa ważonego wyniku, przy czym każdy z modeli w zespole ma wagę odpowiadającą jakości jego ekspertyzy (np. mierzonej jako dokładność indywidualnego drzewa). Boosting często opiera się na wykorzystaniu słabego uczenia. Zespół złożony ze słabych uczniów może prowadzić do silnego i wydajnego modelu. Słaby algorytm uczenia, to taki który jest tylko nieznacznie lepszy niż losowe zgadywanie pod względem błędów (np. model daje złą decyzję mniej niż w 50%). Przykładem może być drzewo decyzyjne o głębokości 1 (tylko jeden punkt podziału, a zatem często nazywane pniem decyzyjnym - decision stump). Eksploracja danych 42 / 61

43 Przykład boostingu Przypuśćmy, że mamy dziesięć obserwacji. Każda obserwacja będzie miała początkową wagę 0.1. Budujemy drzewo decyzyjne, które błędnie klasyfikuje cztery obserwacje (np. obserwacje 7, 8, 9 i 10). Możemy obliczyć sumę wag tych błędnie zaklasyfikowanych obserwacji, która wynosi 0.4 (ogólnie oznaczamy ją przez ɛ). Jest to miara dokładności (właściwie niedokładności) modelu. Wartości ɛ używamy dalej jako miarę używaną do aktualizacji wag i oznaczenia wagi modelu. Eksploracja danych 43 / 61

44 Przykład boostingu Oznaczmy tą przekształconą wartość jako α. Ma ona często postać ( ) 1 ɛ 0.5 log. ɛ Nowe wagi dla błędnie zaklasyfikowanych obserwacji mogą być ponownie obliczone jako wartość e α razy stara waga. W naszym przykładzie α = (0.5 log ( ) ), a więc nowe wagi dla obserwacji 7, 8, 9 i 10 wyliczone jako e α razy 0.1. W naszym przypadku daje to wagi Eksploracja danych 44 / 61

45 Przykład boostingu "Budowniczy modeli" widzi, że niektóre obserwacje mają wyższą wagę, aby mieć większy wpływ na budowane drzewo. Zatem następne drzewo może być zbudowane tak, że aby poprawnie sklasyfikować obserwacje, które mają wyższe wagi (mają one większą reprezentację w szkoleniowym zestawie danych). Ten nowy model będzie znowu mieć błędy. Załóżmy, że ten model błędnie klasyfikuje obserwacje 1 i 8. Ich obecne wagi to 0.1 i , odpowiednio. Tak więc, nowa wartość ɛ wynosi , tzn Następnie nowa α = Jest to waga, którą dostaje ten model po dodaniu do zestawu. Eksploracja danych 45 / 61

46 Przykład boostingu Używamy tej wartości do zmodyfikowania wag źle sklasyfikowanych obserwacji. Obserwacja 1 dostaje teraz wagę 0.1 e α czyli , obserwacja 8 ma teraz wagę e α czyli Obserwacja 8 ma teraz najwyższą wagę, ponieważ wydaje się być problematyczną obserwacją. Proces jest kontynuowany. Aby wdrożyć model, używamy wszystkich drzew z zestawu, do sklasyfikowania nowej obserwacji. Każde drzewo zwróci prawdopodobieństwo, że np.będzie padać jutro (liczbę z przedziału [0, 1]). Dla każdego drzewa jest to pomnożone przez wagę (α) skojarzoną z drzewem. Końcowy rezultat, to średnia tych wyników. Eksploracja danych 46 / 61

47 Przykład użycia modelu w Rattle Opcja Boost na karcie Model buduje grupę drzew decyzyjnych, stosując podejście wzmacniania błędnie zaklasyfikowanych obserwacji. Indywidualne drzewa decyzyjne są budowane przy użyciu pakietu rpart. Wynik budowania modelu jest wyświetlony w obszarze tekstowym. Eksploracja danych 47 / 61

48 Przykład użycia modelu w Rattle Budowanie modelu za pomocą AdaBoost Eksploracja danych 48 / 61

49 Przykład użycia modelu w Rattle Widok tekstowy zaczyna się zwykle od podsumowania funkcji wywoływanej do budowy modelu: Summary of the Ada Boost model: Call: ada(raintomorrow ~., data = crs$dataset[crs$train, c(crs$input, crs$target)], control = rpart::rpart.control(maxdepth = 30, cp = 0.01, minsplit = 20, xval = 10), iter = 50) Loss: exponential Method: discrete Iteration: 50 Eksploracja danych 49 / 61

50 Przykład użycia modelu w Rattle Model przewiduje wartość RainTomorrow na podstawie pozostałych zmiennych. Zbiór danych składa się z zestawu danych załadowanych do Rattle, ale wybrane są tylko obserwacje, których indeks znajduje się w wykazie danych szkoleniowych i wszystkie kolumny za wyjątkiem 1, 2, i 23. Argument control= jest przekazywany bezpośrednio do rpart () i ma takie samo znaczenie jak wcześniej omawialiśmy dla rpart (). Liczba drzew jest określona przez argument iter=. Następna linia informuje o niektórych parametrach wykorzystywanych do budowy modelu. Nie będziemy zagłębiać się w szczegóły jeśli chodzi o Loss (strata) i Method (metodę). W skrócie strata jest wykładnicza, co oznacza, że algorytm minimalizuje tzw. funkcję wykładniczą strat (exponential loss function), a metoda stosowana w algorytmie jest dyskretna (discrete), a nie gentle lub real. Iteration (iteracja): po prostu oznacza liczbę drzew. Eksploracja danych 50 / 61

51 Przykład użycia modelu w Rattle Macierz pomyłek (confusion matrix) prezentuje wydajność modelu na zbiorze treningowym, a następna linia podaje błąd na zbiorze treningowym: Final Confusion Matrix for Data: Final Prediction True value No Yes No Yes Train Error: Eksploracja danych 51 / 61

52 Przykład użycia modelu w Rattle Następnie wyświetlony jest błąd out-of-bag(błąd klasyfikatora) i związana z nim iteracja. Następnie mamy sugestię liczby powtórzeń w oparciu o błąd na zbiorze treningowym i miarę błędów opartą na statystyce Kappa. Korzystając z tych szacunkowych błędów, sugerowana jest najlepsza liczba iteracji: Out-Of-Bag Error: iteration= 39 Additional Estimates of number of iterations: train.err1 train.kap Eksploracja danych 52 / 61

53 Przykład użycia modelu w Rattle Następnie pojawia się lista zmiennych używanych do konstrukcji drzew i częstotliwość ich użycia: Variables actually used in tree construction:... Frequency~of~variables~actually~used:... Częstotliwość jest podana malejąco od najczęstszych zmiennych. Eksploracja danych 53 / 61

54 Przykład użycia modelu w Rattle Funkcja ada() działa dłużej niż randomforest(), ponieważ używa ona do budowy drzew rpart(), a nie specjalnie napisanego kodu w języku Fortran jak w przypadku randomforest() Time taken: 0.70 secs Eksploracja danych 54 / 61

55 Przykład użycia modelu w Rattle Po zbudowaniu modelu, przycisk Errors (Błędy) wyświetla wykres malejącego błędu w trakcie dodawania drzew do modelu. Na krzywej mamy pięć jedynek służących do identyfikacji tej krzywej. Błąd w zależności od ilości drzew Eksploracja danych 55 / 61

56 Przykład użycia modelu w Rattle Wykres ten jest typowy dla zestawów obserwacji, gdzie błąd spada dość szybko na początku a później jego spadek jest już raczej mniejszy. Na podstawie wykresu możemy zdecydować o liczbie drzew w modelu (po 20 błąd już tylko nieznacznie maleje). Błąd w zależności od ilości drzew Eksploracja danych 56 / 61

57 Przykład użycia modelu w Rattle Algorytm ada dostarcza również miarę znaczenia zmiennych. Wykres znaczenia zmiennych dla modelu boosting Eksploracja danych 57 / 61

58 Przykład użycia modelu w Rattle Wykres znaczenia zmiennych dla modelu boosting Miara jest względna, stąd kolejności i odległości między wynikami są bardziej istotne niż rzeczywiste wyniki. Miara obliczana jest dla każdego drzewa i pokazuje poprawę dokładności jaką daje wybrana zmienna dla podziału zbioru danych. Jest to następnie uśrednione dla wszystkich drzew w zespole. Eksploracja danych 58 / 61

59 Przykład użycia modelu w Rattle Rattleudostępnia kilka podstawowych możliwości tuningu algorytmu boosting. Pierwszą opcją jest liczba drzew, która jest ustawiona domyślnie na 50. Głębokość (Max Depth), Min Split i złożoność (Complexity) są używane przez algorytm drzew decyzyjnych i zostały już omówione. Przycisk Continue (Kontynuuj) umożliwia dodawanie do modelu dalszych drzew. To pozwala na łatwe testowanie bez uruchamiania ponownie modelowania, czy dodanie kolejnych drzew będzie dawać dużą poprawę w działaniu modelu. Aby dodać kolejne drzewa należy zwiększyć wartość określoną w polu Number of Trees (Liczba Drzew), a następnie kliknąć przycisk Continue. Pozwoli to na rozbudowanie wcześniejszego modelu i dodawanie tak wielu drzew, jak jest potrzebne. Eksploracja danych 59 / 61

60 Boosting Hung Son Nguyen. Systemy decyzyjne Wykład w formie wideo (MIT Artificial Intelligence, Fall 2010): 17. Learning: Boosting. Eksploracja danych 60 / 61

61 Dziękuję za uwagę!!! Eksploracja danych 61 / 61

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny

Bardziej szczegółowo

Drzewa decyzyjne i lasy losowe

Drzewa decyzyjne i lasy losowe Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM

Bardziej szczegółowo

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

8. Drzewa decyzyjne, bagging, boosting i lasy losowe Algorytmy rozpoznawania obrazów 8. Drzewa decyzyjne, bagging, boosting i lasy losowe dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Drzewa decyzyjne Drzewa decyzyjne (ang. decision trees), zwane

Bardziej szczegółowo

Algorytmy klasyfikacji

Algorytmy klasyfikacji Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe

Bardziej szczegółowo

Data Mining Wykład 4. Plan wykładu

Data Mining Wykład 4. Plan wykładu Data Mining Wykład 4 Klasyfikacja danych Klasyfikacja poprzez indukcje drzew decyzyjnych Plan wykładu Sformułowanie problemu Kryteria oceny metod klasyfikacji Metody klasyfikacji Klasyfikacja poprzez indukcje

Bardziej szczegółowo

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej

Bardziej szczegółowo

Sieci neuronowe w Statistica

Sieci neuronowe w Statistica http://usnet.us.edu.pl/uslugi-sieciowe/oprogramowanie-w-usk-usnet/oprogramowaniestatystyczne/ Sieci neuronowe w Statistica Agnieszka Nowak - Brzezińska Podstawowym elementem składowym sztucznej sieci neuronowej

Bardziej szczegółowo

Klasyfikator liniowy Wstęp Klasyfikator liniowy jest najprostszym możliwym klasyfikatorem. Zakłada on liniową separację liniowy podział dwóch klas między sobą. Przedstawia to poniższy rysunek: 5 4 3 2

Bardziej szczegółowo

ALGORYTMY SZTUCZNEJ INTELIGENCJI

ALGORYTMY SZTUCZNEJ INTELIGENCJI ALGORYTMY SZTUCZNEJ INTELIGENCJI Sieci neuronowe 06.12.2014 Krzysztof Salamon 1 Wstęp Sprawozdanie to dotyczy ćwiczeń z zakresu sieci neuronowych realizowanym na przedmiocie: Algorytmy Sztucznej Inteligencji.

Bardziej szczegółowo

Sieci neuronowe w Statistica. Agnieszka Nowak - Brzezioska

Sieci neuronowe w Statistica. Agnieszka Nowak - Brzezioska Sieci neuronowe w Statistica Agnieszka Nowak - Brzezioska Podstawowym elementem składowym sztucznej sieci neuronowej jest element przetwarzający neuron. Schemat działania neuronu: x1 x2 w1 w2 Dendrites

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Algorytmy metaheurystyczne Wykład 11. Piotr Syga Algorytmy metaheurystyczne Wykład 11 Piotr Syga 22.05.2017 Drzewa decyzyjne Idea Cel Na podstawie przesłanek (typowo zbiory rozmyte) oraz zbioru wartości w danych testowych, w oparciu o wybrane miary,

Bardziej szczegółowo

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta Stan dotychczasowy OCENA KLASYFIKACJI w diagnostyce Wybraliśmy metodę uczenia maszynowego (np. sieć neuronowa lub drzewo decyzyjne), która będzie klasyfikować nieznane przypadki Na podzbiorze dostępnych

Bardziej szczegółowo

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość Dwie metody Klasyczna metoda histogramu jako narzędzie do postawienia hipotezy, jaki rozkład prawdopodobieństwa pasuje do danych Indukcja drzewa decyzyjnego jako metoda wykrycia klasyfikatora ukrytego

Bardziej szczegółowo

Laboratorium 6. Indukcja drzew decyzyjnych.

Laboratorium 6. Indukcja drzew decyzyjnych. Laboratorium 6 Indukcja drzew decyzyjnych. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk

Bardziej szczegółowo

Aproksymacja funkcji a regresja symboliczna

Aproksymacja funkcji a regresja symboliczna Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą

Bardziej szczegółowo

Laboratorium 11. Regresja SVM.

Laboratorium 11. Regresja SVM. Laboratorium 11 Regresja SVM. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk Dalej>. 3. Z

Bardziej szczegółowo

Metody klasyfikacji danych - część 1 p.1/24

Metody klasyfikacji danych - część 1 p.1/24 Metody klasyfikacji danych - część 1 Inteligentne Usługi Informacyjne Jerzy Dembski Metody klasyfikacji danych - część 1 p.1/24 Plan wykładu - Zadanie klasyfikacji danych - Przeglad problemów klasyfikacji

Bardziej szczegółowo

Testowanie modeli predykcyjnych

Testowanie modeli predykcyjnych Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności

Bardziej szczegółowo

Systemy uczące się wykład 2

Systemy uczące się wykład 2 Systemy uczące się wykład 2 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 19 X 2018 Podstawowe definicje Fakt; Przesłanka; Konkluzja; Reguła; Wnioskowanie. Typy wnioskowania

Bardziej szczegółowo

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006 SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu

Bardziej szczegółowo

Ćwiczenie 12. Metody eksploracji danych

Ćwiczenie 12. Metody eksploracji danych Ćwiczenie 12. Metody eksploracji danych Modelowanie regresji (Regression modeling) 1. Zadanie regresji Modelowanie regresji jest metodą szacowania wartości ciągłej zmiennej celu. Do najczęściej stosowanych

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia

Bardziej szczegółowo

Temat zajęć: ANALIZA DANYCH ZBIORU EKSPORT. Część I: analiza regresji

Temat zajęć: ANALIZA DANYCH ZBIORU EKSPORT. Część I: analiza regresji Temat zajęć: ANALIZA DANYCH ZBIORU EKSPORT Część I: analiza regresji Krok 1. Pod adresem http://zsi.tech.us.edu.pl/~nowak/adb/eksport.txt znajdziesz zbiór danych do analizy. Zapisz plik na dysku w dowolnej

Bardziej szczegółowo

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I Wojciech Kotłowski Instytut Informatyki Politechniki Poznańskiej email: imię.nazwisko@cs.put.poznan.pl pok. 2 (CW) tel. (61)665-2936 konsultacje:

Bardziej szczegółowo

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

komputery? Andrzej Skowron, Hung Son Nguyen  Instytut Matematyki, Wydział MIM, UW Czego moga się nauczyć komputery? Andrzej Skowron, Hung Son Nguyen son@mimuw.edu.pl; skowron@mimuw.edu.pl Instytut Matematyki, Wydział MIM, UW colt.tex Czego mogą się nauczyć komputery? Andrzej Skowron,

Bardziej szczegółowo

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Maja Czoków, Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2011-10-11 1 Modelowanie funkcji logicznych

Bardziej szczegółowo

Wstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński

Wstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński Wstęp do teorii niepewności pomiaru Danuta J. Michczyńska Adam Michczyński Podstawowe informacje: Strona Politechniki Śląskiej: www.polsl.pl Instytut Fizyki / strona własna Instytutu / Dydaktyka / I Pracownia

Bardziej szczegółowo

SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU)

SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU) SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU) 1. Opis problemu - ocena końcowa projektu Projekt jako nowe, nietypowe przedsięwzięcie wymaga właściwego zarządzania. Podjęcie się realizacji

Bardziej szczegółowo

Wprowadzenie do klasyfikacji

Wprowadzenie do klasyfikacji Wprowadzenie do klasyfikacji ZeroR Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F Tutaj jest więcej obiektów klasy T, więc klasyfikator

Bardziej szczegółowo

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017 Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład III bogumil.konopka@pwr.edu.pl 2016/2017 Wykład III - plan Regresja logistyczna Ocena skuteczności klasyfikacji Macierze pomyłek Krzywe

Bardziej szczegółowo

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Kompresja danych Streszczenie Studia Dzienne Wykład 10, 1 Kwantyzacja wektorowa Kompresja danych Streszczenie Studia Dzienne Wykład 10, 28.04.2006 Kwantyzacja wektorowa: dane dzielone na bloki (wektory), każdy blok kwantyzowany jako jeden element danych. Ogólny

Bardziej szczegółowo

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Maja Czoków, Jarosław Piersa, Andrzej Rutkowski Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2018-10-15 Projekt

Bardziej szczegółowo

SZTUCZNA INTELIGENCJA

SZTUCZNA INTELIGENCJA SZTUCZNA INTELIGENCJA WYKŁAD 4. UCZENIE SIĘ INDUKCYJNE Częstochowa 24 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska WSTĘP Wiedza pozyskana przez ucznia ma charakter odwzorowania

Bardziej szczegółowo

Metody probabilistyczne klasyfikatory bayesowskie

Metody probabilistyczne klasyfikatory bayesowskie Konwersatorium Matematyczne Metody Ekonomii narzędzia matematyczne w eksploracji danych First Prev Next Last Go Back Full Screen Close Quit Metody probabilistyczne klasyfikatory bayesowskie Wykład 8 Marcin

Bardziej szczegółowo

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew.

PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH. Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew. PODSTAWY STATYSTYCZNEGO MODELOWANIA DANYCH Wykład 6 Drzewa klasyfikacyjne - wprowadzenie. Reguły podziału i reguły przycinania drzew. Wprowadzenie Drzewo klasyfikacyjne Wprowadzenie Formalnie : drzewo

Bardziej szczegółowo

Laboratorium 4. Naiwny klasyfikator Bayesa.

Laboratorium 4. Naiwny klasyfikator Bayesa. Laboratorium 4 Naiwny klasyfikator Bayesa. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Co to są drzewa decyzji

Co to są drzewa decyzji Drzewa decyzji Co to są drzewa decyzji Drzewa decyzji to skierowane grafy acykliczne Pozwalają na zapis reguł w postaci strukturalnej Przyspieszają działanie systemów regułowych poprzez zawężanie przestrzeni

Bardziej szczegółowo

9. Praktyczna ocena jakości klasyfikacji

9. Praktyczna ocena jakości klasyfikacji Algorytmy rozpoznawania obrazów 9. Praktyczna ocena jakości klasyfikacji dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Zbiór uczacy i zbiór testowy 1. Zbiór uczacy służy do konstrukcji (treningu)

Bardziej szczegółowo

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Michał Witczak Data Mining 20 maja 2012 r. 1. Wstęp Dostarczone zostały nam 4 pliki, z których dwa stanowiły zbiory uczące

Bardziej szczegółowo

Elementy modelowania matematycznego

Elementy modelowania matematycznego Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski

Bardziej szczegółowo

Systemy uczące się Lab 4

Systemy uczące się Lab 4 Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego

Bardziej szczegółowo

Regresja logistyczna (LOGISTIC)

Regresja logistyczna (LOGISTIC) Zmienna zależna: Wybór opcji zachodniej w polityce zagranicznej (kodowana jako tak, 0 nie) Zmienne niezależne: wiedza o Unii Europejskiej (WIEDZA), zamieszkiwanie w regionie zachodnim (ZACH) lub wschodnim

Bardziej szczegółowo

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów. ANALIZA SKUPIEŃ Metoda k-means I. Cel zadania Zadaniem jest analiza zbioru danych, gdzie zmiennymi są poziomy ekspresji genów. Podczas badań pobrano próbki DNA od 36 różnych pacjentów z chorobą nowotworową.

Bardziej szczegółowo

Metody klasyfikacji i rozpoznawania wzorców. Najważniejsze rodzaje klasyfikatorów

Metody klasyfikacji i rozpoznawania wzorców.  Najważniejsze rodzaje klasyfikatorów Metody klasyfikacji i rozpoznawania wzorców www.michalbereta.pl Najważniejsze rodzaje klasyfikatorów Dla określonego problemu klasyfikacyjnego (tzn. dla danego zestawu danych) należy przetestować jak najwięcej

Bardziej szczegółowo

PROGNOZOWANIE I SYMULACJE EXCEL 1 AUTOR: MARTYNA MALAK PROGNOZOWANIE I SYMULACJE EXCEL 1 AUTOR: MARTYNA MALAK

PROGNOZOWANIE I SYMULACJE EXCEL 1 AUTOR: MARTYNA MALAK PROGNOZOWANIE I SYMULACJE EXCEL 1 AUTOR: MARTYNA MALAK 1 PROGNOZOWANIE I SYMULACJE 2 http://www.outcome-seo.pl/excel1.xls DODATEK SOLVER WERSJE EXCELA 5.0, 95, 97, 2000, 2002/XP i 2003. 3 Dodatek Solver jest dostępny w menu Narzędzia. Jeżeli Solver nie jest

Bardziej szczegółowo

Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować?

Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować? Algorytm k-nn Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować? Jak daleko są położone obiekty od siebie? knn k nearest neighbours jest

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska DRZEWO REGRESYJNE Sposób konstrukcji i przycinania

Bardziej szczegółowo

OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA

OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) 16.01.2003 Algorytmy i Struktury Danych PIŁA ALGORYTMY ZACHŁANNE czas [ms] Porównanie Algorytmów Rozwiązyjących problem TSP 100 000 000 000,000 10 000 000

Bardziej szczegółowo

Projekt Sieci neuronowe

Projekt Sieci neuronowe Projekt Sieci neuronowe Chmielecka Katarzyna Gr. 9 IiE 1. Problem i dane Sieć neuronowa miała za zadanie nauczyć się klasyfikować wnioski kredytowe. W projekcie wykorzystano dane pochodzące z 110 wniosków

Bardziej szczegółowo

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych. Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(), zwaną funkcją aproksymującą

Bardziej szczegółowo

Laboratorium 5. Adaptatywna sieć Bayesa.

Laboratorium 5. Adaptatywna sieć Bayesa. Laboratorium 5 Adaptatywna sieć Bayesa. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk Dalej>.

Bardziej szczegółowo

Metody numeryczne I Równania nieliniowe

Metody numeryczne I Równania nieliniowe Metody numeryczne I Równania nieliniowe Janusz Szwabiński szwabin@ift.uni.wroc.pl Metody numeryczne I (C) 2004 Janusz Szwabiński p.1/66 Równania nieliniowe 1. Równania nieliniowe z pojedynczym pierwiastkiem

Bardziej szczegółowo

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS Dyskretyzacja - definicja Dyskretyzacja - zamiana atrybutów

Bardziej szczegółowo

Maciej Piotr Jankowski

Maciej Piotr Jankowski Reduced Adder Graph Implementacja algorytmu RAG Maciej Piotr Jankowski 2005.12.22 Maciej Piotr Jankowski 1 Plan prezentacji 1. Wstęp 2. Implementacja 3. Usprawnienia optymalizacyjne 3.1. Tablica ekspansji

Bardziej szczegółowo

Technologie cyfrowe. Artur Kalinowski. Zakład Cząstek i Oddziaływań Fundamentalnych Pasteura 5, pokój 4.15

Technologie cyfrowe. Artur Kalinowski. Zakład Cząstek i Oddziaływań Fundamentalnych Pasteura 5, pokój 4.15 Technologie cyfrowe Artur Kalinowski Zakład Cząstek i Oddziaływań Fundamentalnych Pasteura 5, pokój 4.15 Artur.Kalinowski@fuw.edu.pl Semestr letni 2014/2015 Zadanie algorytmiczne: wyszukiwanie dane wejściowe:

Bardziej szczegółowo

Szukanie rozwiązań funkcji uwikłanych (równań nieliniowych)

Szukanie rozwiązań funkcji uwikłanych (równań nieliniowych) Szukanie rozwiązań funkcji uwikłanych (równań nieliniowych) Funkcja uwikłana (równanie nieliniowe) jest to funkcja, która nie jest przedstawiona jawnym przepisem, wzorem wyrażającym zależność wartości

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

Uwaga: szarych kropek po pokolorowaniu nie uwzględniaj w klasyfikowaniu kolejnych szarych.

Uwaga: szarych kropek po pokolorowaniu nie uwzględniaj w klasyfikowaniu kolejnych szarych. Inteligencja obliczeniowa stud. niestac. Laboratorium 4: Zadanie klasyfikacji poznanie trzech algorytmów klasyfikujących: knn, NaiveBayes, drzewo decyzyjne. Przy pomnijmy sobie bazę danych z irysami. Na

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska BUDOWA DRZEW DECYZYJNYCH Drzewa decyzyjne są metodą indukcyjnego

Bardziej szczegółowo

Porównywanie populacji

Porównywanie populacji 3 Porównywanie populacji 2 Porównywanie populacji Tendencja centralna Jednostki (w grupie) według pewnej zmiennej porównuje się w ten sposób, że dokonuje się komparacji ich wartości, osiągniętych w tej

Bardziej szczegółowo

Klasyfikacja LDA + walidacja

Klasyfikacja LDA + walidacja Klasyfikacja LDA + walidacja Dr hab. Izabela Rejer Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Plan wykładu 1. Klasyfikator 2. LDA 3. Klasyfikacja wieloklasowa 4. Walidacja

Bardziej szczegółowo

Dopasowywanie modelu do danych

Dopasowywanie modelu do danych Tematyka wykładu dopasowanie modelu trendu do danych; wybrane rodzaje modeli trendu i ich właściwości; dopasowanie modeli do danych za pomocą narzędzi wykresów liniowych (wykresów rozrzutu) programu STATISTICA;

Bardziej szczegółowo

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline. Wstęp do sieci neuronowych, wykład 3 Warstwy, jednostka Adaline. Maja Czoków, Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 211-1-18 1 Pomysł Przykłady Zastosowanie 2

Bardziej szczegółowo

Indukowane Reguły Decyzyjne I. Wykład 8

Indukowane Reguły Decyzyjne I. Wykład 8 Indukowane Reguły Decyzyjne I Wykład 8 IRD Wykład 8 Plan Powtórka Krzywa ROC = Receiver Operating Characteristic Wybór modelu Statystyka AUC ROC = pole pod krzywą ROC Wybór punktu odcięcia Reguły decyzyjne

Bardziej szczegółowo

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie: ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość

Bardziej szczegółowo

Wprowadzenie do uczenia maszynowego

Wprowadzenie do uczenia maszynowego Wprowadzenie do uczenia maszynowego Agnieszka Ławrynowicz 12 stycznia 2017 Co to jest uczenie maszynowe? dziedzina nauki, która zajmuje się sprawianiem aby komputery mogły uczyć się bez ich zaprogramowania

Bardziej szczegółowo

ANALIZA JAKOŚCIOWA I ILOŚCIOWA TESTÓW SZKOLNYCH MATERIAŁ SZKOLENIOWY

ANALIZA JAKOŚCIOWA I ILOŚCIOWA TESTÓW SZKOLNYCH MATERIAŁ SZKOLENIOWY ANALIZA JAKOŚCIOWA I ILOŚCIOWA TESTÓW SZKOLNYCH MATERIAŁ SZKOLENIOWY Instrukcja przeprowadzania analiz badań edukacyjnych i sporządzania raportów po badaniach. Cele prowadzenia analiz jakościowych i ilościowych

Bardziej szczegółowo

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18 Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)

Bardziej szczegółowo

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej Paweł Cibis pawel@cibis.pl 23 lutego 2007 1 Regresja liniowa 2 wzory funkcje 3 Korelacja liniowa

Bardziej szczegółowo

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie Wprowadzenie Konstrukcja binarnych drzew klasyfikacyjnych polega na sekwencyjnym dzieleniu podzbiorów przestrzeni próby X na dwa rozłączne i dopełniające się podzbiory, rozpoczynając od całego zbioru X.

Bardziej szczegółowo

Zagadnienia programowania liniowego dotyczą modelowania i optymalizacji wielu problemów decyzyjnych, na przykład:

Zagadnienia programowania liniowego dotyczą modelowania i optymalizacji wielu problemów decyzyjnych, na przykład: Programowanie liniowe. 1. Aktywacja polecenia Solver. Do narzędzia Solver można uzyskać dostęp za pomocą polecenia Dane/Analiza/Solver, bądź Narzędzia/Solver (dla Ex 2003). Jeżeli nie można go znaleźć,

Bardziej szczegółowo

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa. Maja Czoków, Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 2012-10-10 Projekt pn. Wzmocnienie

Bardziej szczegółowo

Python : podstawy nauki o danych / Alberto Boschetti, Luca Massaron. Gliwice, cop Spis treści

Python : podstawy nauki o danych / Alberto Boschetti, Luca Massaron. Gliwice, cop Spis treści Python : podstawy nauki o danych / Alberto Boschetti, Luca Massaron. Gliwice, cop. 2017 Spis treści O autorach 9 0 recenzencie 10 Wprowadzenie 11 Rozdział 1. Pierwsze kroki 15 Wprowadzenie do nauki o danych

Bardziej szczegółowo

Jeśli czas działania algorytmu zależy nie tylko od rozmiaru danych wejściowych i przyjmuje różne wartości dla różnych danych o tym samym rozmiarze,

Jeśli czas działania algorytmu zależy nie tylko od rozmiaru danych wejściowych i przyjmuje różne wartości dla różnych danych o tym samym rozmiarze, Oznaczenia: Jeśli czas działania algorytmu zależy nie tylko od rozmiaru danych wejściowych i przyjmuje różne wartości dla różnych danych o tym samym rozmiarze, to interesuje nas złożoność obliczeniowa

Bardziej szczegółowo

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H W O J S K O W A A K A D E M I A T E C H N I C Z N A W Y D Z I A Ł E L E K T R O N I K I Drukować dwustronnie P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H Grupa... Data wykonania

Bardziej szczegółowo

Wymagania edukacyjne z informatyki w klasie VIII

Wymagania edukacyjne z informatyki w klasie VIII Wymagania edukacyjne z informatyki w klasie VIII Wymagania konieczne K dotyczą zagadnień elementarnych, stanowiących swego rodzaju podstawę, powinien je zatem opanować każdy uczeń. Wymagania podstawowe

Bardziej szczegółowo

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA Jan Mielniczuk Wisła, grudzień 2009 PLAN Błędy predykcji i ich podstawowe estymatory Estymacja błędu predykcji w modelu liniowym. Funkcje kryterialne Własności

Bardziej szczegółowo

KLASYFIKACJA. Słownik języka polskiego

KLASYFIKACJA. Słownik języka polskiego KLASYFIKACJA KLASYFIKACJA Słownik języka polskiego Klasyfikacja systematyczny podział przedmiotów lub zjawisk na klasy, działy, poddziały, wykonywany według określonej zasady Klasyfikacja polega na przyporządkowaniu

Bardziej szczegółowo

Drzewa decyzyjne w SAS Enterprise Miner

Drzewa decyzyjne w SAS Enterprise Miner Drzewa decyzyjne w SAS Enterprise Miner Aneta Ptak-Chmielewska Instytut Statystyki i Demografii Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych www.sgh.waw.pl/zaklady/zahziaw 1 struktura ćwiczeń

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Eksploracja danych Co to znaczy eksploracja danych Klastrowanie (grupowanie) hierarchiczne Klastrowanie

Bardziej szczegółowo

Szkolenie Analiza dyskryminacyjna

Szkolenie Analiza dyskryminacyjna Szkolenie Analiza dyskryminacyjna program i cennik Łukasz Deryło Analizy statystyczne, szkolenia www.statystyka.c0.pl Szkolenie Analiza dyskryminacyjna Co to jest analiza dyskryminacyjna? Inną nazwą analizy

Bardziej szczegółowo

Metody Sztucznej Inteligencji II

Metody Sztucznej Inteligencji II 17 marca 2013 Neuron biologiczny Neuron Jest podstawowym budulcem układu nerwowego. Jest komórką, która jest w stanie odbierać i przekazywać sygnały elektryczne. Neuron działanie Jeżeli wartość sygnału

Bardziej szczegółowo

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania

Bardziej szczegółowo

Sprawozdanie z zadania Modele predykcyjne (2)

Sprawozdanie z zadania Modele predykcyjne (2) Maciej Karpus, 131529 Tomasz Skarżyński, 131618 19.04.2013r. Sprawozdanie z zadania Modele predykcyjne (2) 1. Wprowadzenie 1.1. Informacje wstępne Dane dotyczą wyników badań mammograficznych wykonanych

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

Zajęcia wprowadzające W-1 termin I temat: Sposób zapisu wyników pomiarów

Zajęcia wprowadzające W-1 termin I temat: Sposób zapisu wyników pomiarów wielkość mierzona wartość wielkości jednostka miary pomiar wzorce miary wynik pomiaru niedokładność pomiaru Zajęcia wprowadzające W-1 termin I temat: Sposób zapisu wyników pomiarów 1. Pojęcia podstawowe

Bardziej szczegółowo

Rozdział 1 PROGRAMOWANIE LINIOWE

Rozdział 1 PROGRAMOWANIE LINIOWE Wprowadzenie do badań operacyjnych z komputerem Opisy programów, ćwiczenia komputerowe i zadania. T. Trzaskalik (red.) Rozdział 1 PROGRAMOWANIE LINIOWE 1.1 Opis programów Do rozwiązania zadań programowania

Bardziej szczegółowo

Eksploracja danych OCENA KLASYFIKATORÓW. Wojciech Waloszek. Teresa Zawadzka.

Eksploracja danych OCENA KLASYFIKATORÓW. Wojciech Waloszek. Teresa Zawadzka. Eksploracja danych OCENA KLASYFIKATORÓW Wojciech Waloszek wowal@eti.pg.gda.pl Teresa Zawadzka tegra@eti.pg.gda.pl Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika

Bardziej szczegółowo

Algorytm grupowania danych typu kwantyzacji wektorów

Algorytm grupowania danych typu kwantyzacji wektorów Algorytm grupowania danych typu kwantyzacji wektorów Wstęp Definicja problemu: Typowe, problemem często spotykanym w zagadnieniach eksploracji danych (ang. data mining) jest zagadnienie grupowania danych

Bardziej szczegółowo

Zadania laboratoryjne i projektowe - wersja β

Zadania laboratoryjne i projektowe - wersja β Zadania laboratoryjne i projektowe - wersja β 1 Laboratorium Dwa problemy do wyboru (jeden do realizacji). 1. Water Jug Problem, 2. Wieże Hanoi. Water Jug Problem Ograniczenia dla każdej z wersji: pojemniki

Bardziej szczegółowo

Na komputerach z systemem Windows XP zdarzenia są rejestrowane w trzech następujących dziennikach: Dziennik aplikacji

Na komputerach z systemem Windows XP zdarzenia są rejestrowane w trzech następujących dziennikach: Dziennik aplikacji Podgląd zdarzeń W systemie Windows XP zdarzenie to każde istotne wystąpienie w systemie lub programie, które wymaga powiadomienia użytkownika lub dodania wpisu do dziennika. Usługa Dziennik zdarzeń rejestruje

Bardziej szczegółowo

RÓWNANIA NIELINIOWE Maciej Patan

RÓWNANIA NIELINIOWE Maciej Patan RÓWNANIA NIELINIOWE Maciej Patan Uniwersytet Zielonogórski Przykład 1 Prędkość v spadającego spadochroniarza wyraża się zależnością v = mg ( 1 e c t) m c gdzie g = 9.81 m/s 2. Dla współczynnika oporu c

Bardziej szczegółowo

Zadanie projektowe nr 1

Zadanie projektowe nr 1 Zadanie projektowe nr 1 Badanie efektywności operacji dodawania (wstawiania), usuwania oraz wyszukiwania elementów w podstawowych strukturach danych Należy zaimplementować oraz dokonać pomiaru czasu działania

Bardziej szczegółowo

RAPORT z diagnozy umiejętności matematycznych

RAPORT z diagnozy umiejętności matematycznych RAPORT z diagnozy umiejętności matematycznych przeprowadzonej w klasach pierwszych szkół ponadgimnazjalnych 1 Analiza statystyczna Wskaźnik Liczba uczniów Liczba punktów Łatwość zestawu Wyjaśnienie Liczba

Bardziej szczegółowo

Drzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber

Drzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber Drzewa decyzyjne Inteligentne Obliczenia Wydział Mechatroniki Politechniki Warszawskiej Anna Sztyber INO (IAiR PW) Drzewa decyzyjne Anna Sztyber / Drzewa decyzyjne w podstawowej wersji algorytm klasyfikacji

Bardziej szczegółowo

Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta

Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta www.michalbereta.pl W tej części: Zachowanie wytrenowanego modelu w celu późniejszego użytku Filtrowanie danych (brakujące etykiety

Bardziej szczegółowo

Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 2. Wojciech Waloszek. Teresa Zawadzka.

Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 2. Wojciech Waloszek. Teresa Zawadzka. Eksploracja danych KLASYFIKACJA I REGRESJA cz. 2 Wojciech Waloszek wowal@eti.pg.gda.pl Teresa Zawadzka tegra@eti.pg.gda.pl Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki

Bardziej szczegółowo