Data mining. Wydział Fizyki Technicznej i Matematyki Stosowanej Politechnika Gdańska. 14 czerwca 2018

Wielkość: px
Rozpocząć pokaz od strony:

Download "Data mining. Wydział Fizyki Technicznej i Matematyki Stosowanej Politechnika Gdańska. 14 czerwca 2018"

Transkrypt

1 Data mining Maciej Jędrzejczyk Paulina Konecka Wydział Fizyki Technicznej i Matematyki Stosowanej Politechnika Gdańska 14 czerwca 2018 Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

2 Spis treści 1 Wstęp Definicja SAS Enterprise SEMMA Opis Danych 2 Sample Wczytywanie danych Partycjonowanie 3 Explore 4 Modify 5 Model Drzewa decyzyjne Regresja Sieci neuronowe 6 Assess Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

3 Czym jest Data Mining? Data Mining (eksploracja danych) - jest to proces odkrywania wzorców w dużych zbiorach danych. Jeden z etapów procesu odkrywania wiedzy z baz danych (ang. Knowledge Discovery in Databases, KDD). Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

4 Cel Data Mining u Ogólnym celem procesu eksploracji danych jest wydobycie informacji z zestawu danych i przekształcenie go w zrozumiałą strukturę. Termin jest mylący, ponieważ celem jest wydobywanie wzorców i wiedzy z dużych ilości danych, a nie eksploracja (wydobywanie) samych danych. Rzeczywiste zadanie eksploracji danych to półautomatyczna lub automatyczna analiza dużych ilości danych w celu wyodrębnienia wcześniej nieznanych, interesujących wzorców, takich jak grupy rekordów danych (analiza skupień), nietypowe rekordy (wykrywanie anomalii) i zależności (wyszukiwanie reguł asocjacyjnych, sekwencyjne modelowanie). Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

5 Zastosowanie Data Mining u Wzorce te można następnie postrzegać jako rodzaj podsumowania danych wejściowych i można je wykorzystać w dalszej analizie, uczeniu maszynowym, analizie predykcyjnej itp.. Na przykład, etap eksploracji danych może identyfikować wiele grup w danych, które można następnie wykorzystać do uzyskania bardziej dokładnych wyników prognozowania za pomocą systemu wspomagania decyzji. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

6 Metody Data Mining u Data Mining nie narzuca nam konkretnej metody działania, możemy posłużyć się wieloma metodami statystycznymi takimi jak: Drzewa decyzyjne, Regresja, Sieci neuronowe, Metody ewolucyjne, Metody uczenia maszynowego, Zbiory przybliżone. W prezentacji przybliżymy trzy pierwsze metody. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

7 SAS Enterprise Miner SAS Enterprise Miner jest narzędziem umożliwiającym tworzenie modeli predykcyjnych i opisywania dużych zbiorów danych. Jest jednym z popularniejszych programów używanych do Data Mining u. Dodatkowo mamy możliwość wygenerowania kodu w języku SAS 4GL. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

8 SEMMA SEMMA(Sample, Explore, Modify, Model, Asses) opisuje calość Data Mining u z poziomu narzędzi analitycznych SAS. Jest ona rozumiana jako rozbicie tego procesu na pięc powiązanych ze sobą etapów: Sample -przygotowanie i podział wejściowej próby danych, Explore-exploracja danych, służąca ocenie ich jakokści oraz wstęonej identyfikacji zależności pomiędzy zmiennymi, Modify- modyfikacja danych, służąca poprawie ich jakości, spełnieniu założeń metod modelowania, Model-modelowanie przy użyciu takich metod jak drzewa decyzyjne, regresja czy sieci neuronowe, Assess- ocena modeli i wybór najlepszego z nich. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

9 Dane Analizie poddany zostanie zbiór HMEQ, zanjdujący się w bibliotece SAMPSIO. ZAwiera on 13 zmiennych. Poniżej przedstawiono opis tych zmiennych. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

10 Dane Nazwa Typ Opis BAD Binarna 1 gdy kredutobiorca nie spłacił kredytu CLADGE Przedziałowa czas najdłuższego kredytu w miesiącach CLNO Przedziałowa ilość zobowiązań kredytowych DEBTINC Przedziałowa stosunek kredytu do dochodu DELINQ Przedziałowa liczba zobowiązań z zalegającą zapłatą DEROG Przedziałowa liczba krytycznych raportów JOB Nominalna rodzaj wykonywanego zawodu LOAN Przedziałowa kwota pozostała do spłaty MORTDUE Przedziałowa wysokość hipoteki NINQ Przedziałowa ilość złożónych wniosków kredytowych REASON Binarna powód wzięcia kredytu VALUE Przedziałowa wartośc obecna hipoteki YOJ Przedziałowa staż w obecnej pracy w latach Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

11 Rysunek: Wczytywanie danych Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79 Sample Import danych Aby wczytać zródło danych przechodzimy do Utwórz źrodło danych Tabela sasowa Przeglądaj Sampsio HMEQ. Następnie musimy zmienić rolę i poziom danych,tak jak jest to przedstawione poniżej.

12 Sample Partycjonowanie Kolejnym etapem jest partycjonowanie. Węzeł ten jest węzłem podziału zbioru danych na zbiory: treningowy, walidacyjny i testowy. Gdzie zbiór: treningowy jest zbiorem danych, na podstawie których wykrywamy możliwe zależności między zmiennymi, jest używany do wstępnego oszacowania parametrów modelu, liczebność tej próby powinna wynosić od 40% do 70% próby wejściowej walidacyjny jest używany do dostrojenia parametrów modelu, które zostały oszacowane w oparciu o zbiór treningowy, testowy jest zbiorem, który służy do zbadania, na ile wykryte zaleności są prawdziwe dla innych zbiorów danych. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

13 Sample Metody partycjonowania Simple Random dokonuje podziału zbioru danych na podzbiory: treningowy, walidacyjny i testowy w sposób losowy, oparty na losowaniu, gdzie prawdopodobieństwo wejścia do każdego z podzbiorów jest dla każdej obserwacji takie samo, Stratified czyli losowanie warstwowe, Cluster czyli losowanie klastrowe, Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

14 Sample Partycjonowanie Jeżeli mamy wybraną zmienną celu(objaśnianą) to wybieramy domyślną metodę partycjonowania: Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

15 Explore Eksploracja danych W tej części zajmiemy się badaniem danych, czyli zaprezentowaniem statystyk opisowych. W tym celu posłużymy się wezłęm o nazwie Exploracja statystyk. Aby korelacje pomiędzy zmiennymi o różnych typach były obliczne tą samą metodą, trzeba umożliwić oblicznie statystyki Chi-kwadrat dla zmiennych przedziałowych: Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

16 Explore Statystyki opisowe Rysunek: Statystyki opisowe Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

17 Explore Statystyka Chi-kwadrat SAS wyświetla nam również statystykę Chi-kwadrat dzięki której możemy określić istotność zmiennych. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

18 Informacje na temat zmiennych możemy także uzyskać poprzez : HMEQ Edytuj zmienne Eksploruj W ten sposób np dla zmiennej CLAGE uzyskujemy następujący wykres rozkładu : Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

19 Explore Wykresy Ważną rolę podczas eksploracji danych pełnią wykresy dzięki kórym możemy zobaczyć dane. Użyjemy do tego węzła Wykresy różne, węzeł ten generuje wykresy słupkowe zliczające ilość wystąpień wartości danej zmiennej. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

20 Explore Wykresy Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

21 Explore Wykresy Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

22 Explore Wykresy Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

23 Explore Korelacja Silne korelacje między niezależnymi zmiennymi mogą działać na niekorzyść tworzonych modeli, macierz korelacji możemy wywołać za pomocą edytora programów i poniższego kodu. Rysunek: Korelacja Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

24 Explore Korelacja Rysunek: Korelacja Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

25 Modify Gdy już posiadamy pewną wiedzę o danych, należy przygotować zbiór do modelowania. Zajmiemy się porzuceniem nieistotnych oraz silnie skorelowanych zmiennych. Na tym etapie obserwujemy pierwsze różnice między wybranymi przez nas modelami. Dzieje się tak, ponieważ drzewa decyzyjne radzą sobie z brakami danych, natomiast regresja logistyczna i sieci neuronowe pomijają zmienne, w których występują braki danych. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

26 Modify Porzucanie zmiennych Podczas eksploracji statystyk otrzymaliśmy, że zmienna Reason jest nieistotna oraz można spróbować usunąć zmienną Mortdue, która jest silnie skorelowana ze zmienną Value (korelacja wynosi około 0,88). Robimy to za pośrednictwem węzła Porzucanie w następujący sposób: Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

27 Drzewa decyzyjne W praktycznych zastosowaniach modeli predykcyjnych istotna jest łatwość interpretacji i wyjaśnienia generowanych wyników. Bardzo pomocne są przy tym drzewa decyzyjne, które generują zależności w postaci zbioru warunków logicznych. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

28 Drzewa decyzyjne Budowa drzewa Budowa drzewa rozpoczyna się od podziału korzenia. Szukamy takiego podziału. który pozwoli znaleźć grupę charakteryzującą się wysoką jednorodnością ze względu na wartość zmiennej objaśnianej. Zatem dokonujemy podziału za pomocą wzoru: Wzór Z = Z 0 + r n=i n i n 0 Z i Z 0 -stopień niejednorodności dzielonego elementu, Z i - stopień niejeednorodności i-tego elementu powstającego w wyniku podziału, n 0 -liczebność dzielonego elementu, n i -liczebność i-tego elementu powstającego w wyniku podziału, r-liczba elementów powstających w wyniku podziału. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

29 Drzewa decyzyjne Miary niejednorodności Współczynnik Giniego k Z = 1 pi 2 n=i Współczynnik Entropii k Z = H(p 1,..., p k ) = pi 2 log 2 (p i ) n=i Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

30 Współczynnik Giniego - przykład Weźmy przykładowy zbiór danych: Id Wiek Typ sam Ryzyko 0 23 family high 1 17 sport high 2 43 sport high 3 68 family low 4 32 truck low 5 20 family high Zmienna Ryzyko jest naszą zmienną celu, atrybutami względem, których będziemy dzielić zbiór wejściowy to Wiek i Typ sam. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

31 Współczynnik Giniego - przykład Punkt podziału g split dany jest wzorem: g split = m 1 + n 1 m + n Z 1 + m 2 + n 2 m + n Z 2, gdzie: m i, n i - liczba elementów w S i należących do klas High i Low. Dla wieku mamy następujące punkty podziału: Wiek 17, Wiek 20, Wiek 23, Wiek 32, Wiek 43, Wiek 68, Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

32 Współczynnik Giniego - przykład Rozważmy Wiek 23, otrzymujemy tabelę: High Low Wiek Wiek> Wartości współczynników Ginniego oraz punkt podziału wynoszą: Z 1 = Z(Wiek 23) = 1 (( 3 3 ) ) = 0 Z 2 = Z(Wiek > 23) = 1 (( 1 3 )2 + ( 2 3 )2 ) = 4 9 g split = = 2 9 Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

33 Współczynnik Giniego - przykład Analogicznie liczymy współczynniki Giniego i punkty podziału dla pozostałych przedziałów wieku. Wyniki prezentują się następująco: Wiek 17, g split = 0, 4, Wiek 20, g split = 0, 33, Wiek 32, g split = 0, 42, Wiek 43, g split = 0, 4, Wiek 68, g split = 0, 44. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

34 Współczynnik Giniego - przykład Najmniejszą wartość g split = 0, 22 otrzymaliśmy dla podziału Wiek 23 więc dostajemy drzewo postaci: Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

35 Współczynnik Giniego - przykład Zauważamy, że dla Wiek 23 Ryzyko zawsze jest wysokie więc tej gałęzi już nie rozwijamy. Przyjrzyjmy się przypadku, gdy Wiek>23, jeżeli Typ sam={sport} to ryzyko jest wysokie, a dla pozostałych ryzyko jest niskie. Co ostatecznie do drzewa postaci: Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

36 Entropia i zysk informacyjny Do wyboru atrybutu testowego w wierzchołku drzewa decyzyjnego wykorzystujemy miare zysku informacyjnego. W tym celu wybieramy atrybut o najwiekszej wartosci zysku (lub o najwiekszej redukcji entropii). Niech S oznacza zbiór przykładów, oraz atrybut decyzyjny posiada m różnych wartości(definującyh klasy C i, i = 1, 2,..., m). Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

37 Entropia i zysk informacyjny Entropia Entropię podziału zbioru S, ze względu na atrybut A definiujemy: gdzie: E(a 1, a 2,..., a k ) = k j=1 (s 1j + s 2j s mj ) H(s 1j, s 2j,..., s mj ), s a i - wartości przyjmowane przez argument A, H - współczynnik entropii. Zysk inforacyjny Gain(A) = H(s 1, s 2,..., s m ) E(A) A = {a 1, a 2,..., a k } Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

38 Entropia i zysk informacyjny - przykład Rozważmy tabelę: Niech atrybutem decyzyjnym będzie atrybut kupi komputer. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

39 Entropia i zysk informacyjny - przykład Atrybut kupi komputer przyjmuje dwie wartości, stąd otrzymujemy dwie klasy: C 1 - kupi komputer= tak, zawiera 9 elementów, C 2 - kupi komputer= nie, zawiera 5 elementów. Obliczmy współczynnik entropi dla zmiennej kupi komputer: H(9, 5) = 9 14 log 2( 9 14 ) 5 14 log 2( 5 ) = 0, Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

40 Entropia i zysk informacyjny - przykład Następnie obliczmy entropię dla zmiennych. Przyjżyjmy się zmiennej Dochód, widzimy że przyjmuje 3 wartości więc musimy obliczyć trzy następujące współczynniki entropi. wysoki s 11 = 2-ilość osób z wysokim dochodem, które kupią komputer, s 21 = 2-ilość osób z wysokim dochodem, które nie kupią komputera H(2, 2) = 1 średni s 12 = 4, s 22 = 2 H(4, 2) = 0, 918 niski s 13 = 3, s 23 = 1 H(3, 1) = 0, 811 Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

41 Entropia i zysk informacyjny - przykład Entropię dla dochodu wynosi: E( Dochód ) = , , 811 = 0, Kolejno podstawiamy otrzymane wartości do wzoru na zysk informacyjny: Gain( Dochód ) = 0, 94 0, 911 = 0, 029 Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

42 Entropia i zysk informacyjny - przykład Analogicznie liczymy zysk informacyjny dla pozostałych zmiennych: Zysk informacyjny Gain( Wiek ) = 0, 277 Gain( student ) = 0, 151 Gain( Status ) = 0, 048 Jako pierwszy wybieramy atrybut z największym zyskiem informacyjnym. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

43 Entropia i zysk informacyjny - przykład Więc pierwszego podziału dokonamy dla zmiennej Wiek. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

44 Entropia i zysk informacyjny - przykład Dalej postępując analogicznie obliczamy zysk informacyjny dla pozostałych zmiennych dla zmiennej Wiek przyjmującej wartość 30 oraz > 40. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

45 Drzewa decyzyjne Ustawienia drzewa Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

46 Drzewa decyzyjne Score Ranking Overlay Jest to porównanie wykresów wzrostu lift(korzysci, pozytywnych odpowiedzi) dla zbioru treningowego i walidacyjnego. Obie krzywe nie powinny dużo różnić się od siebie, jesli tak jest, świadczy to o przetrenowaniu lub niedotrenowaniu modelu. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

47 Drzewa decyzyjne Score Ranking Overlay Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

48 Drzewa decyzyjne Statystyki liściowe Kolejne kryterium to statystyki liściowe. Poniższy wykres porównuje w tym przypadku udział procentowy wartości Unknown zmiennej objasnianej we wszystkich lisciach dla danych treningowych i walidacyjnych. Jeżeli są duże różnice w wysokościach słupków, to dany liść należy przyciąć. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

49 Frame Title Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

50 Drzewa decyzyjne Fit Statistics Kolejnym elementem, który omówimy sa statystyki dopasowania. Poniższa tabela pokazuje porównanie statystyk dopasowania w zbiorze treningowym i walidacyjnym. Duże różnice w wartościach statystyk dopasowania mogą wskazywać na przetrenowanie lub niedotrenowanie modelu. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

51 Drzewa decyzyjne Mapa drzewa Wykres pokazuje strukturę drzewa. Powierzchnia prostokątów odpowiada liczebności w danych węzłach drzewa. Kolory wskazują jednorodność populacji w węzłach (czerwone najbardziej jednorodne) Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

52 Drzewa decyzyjne Mapa drzewa Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

53 Drzewa decyzyjne Drzewo Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

54 Drzewa decyzyjne Interpretacja Na wykresie widzimy nazwę zmiennej oraz warunek według, których dokonywany jest podział. Widzimy również procentowy rozkład danych w zbiorze uczącym i walidacyjnym informuje nas o tym także kolor węzła (im ciemniejszy tym mniej różnorodne dane). Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

55 Regresja Węzeł Regresja umożliwia dopasowanie do danych zarówno modeli regresji liniowej, jak i logistycznej. Jako danych wejściowych można używać zmiennych ciągłych i dyskretnych. Węzeł obsługuje metody wybierania krokowego, do przodu i do tyłu. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

56 Regresja Przygotowanie danych Zanim przejdziemy do regresji musimy odpowiednio przygotować dane. Zatem na początek za pomocą węzła Imputacja uzupełnimy braki danych. Można to zrobic na kilka sposobów: Wykorystująć miary tendencji centralnej, czyli średnią,modę, medianę, Wylosowując wartości zgodnie z rozkładem zmiennej, Wykorzystując drzewo decyzyjne, W tym przykładzie do zastąpienia braków danych zastosowano medianę. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

57 Regresja Przygotowanie danych Aby zastosować regresje logistyczną, ważne jest żeby rozkład zmiennych ciągłych miał skośność bliską zeru. Jeśli w statystykach opisowych wartości skośności wyszły powyżej 5 trzeba zastosować węzęł Przekształcenie zmiennych Dla węzła Przekształcenia zmiennych wszelkie ustawienia pozastawiamy domyślne. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

58 Regresja Często przy dużej ilości zmiennych klasyfikujących możemy mieć problem z ich optymalnym doborem do modelu. Można je wyselekcjonować następującymi metodami: Krokowa wprzód(forward)-najpierw dobieramy wyraz wolny, następnie dobieramy pojedynczo zmienne, Krokowa wstecz(backward)- Zaczynamy od doboru wszystich zmiennych i usuwamy kolejno najmniej istotne, Krokowa- Metoda analogiczna do metody Forward, z różnicą, że po każdym kroku bada się istotność zmiennych obecnych już w modelu. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

59 Regresja Ustawienia modelu Dodatkowo z naszego modelu regresji wyrzucamy zmienne tekstowe. W tym celu klikamy prawym przyciskiem na węzeł Regresja Edytuj zmienne dla zmiennych IMP JOB wybieramy w kolumnie użyj - Nie. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

60 Regresja Skumulowany lift Tak jak w przypadku drzew decyzyjnych tak i w tym przypadku obie krzywe nie powinny znacząco różnić się od siebie. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

61 Regresja Wykres wyników Wykres efektów pokazuje wartości współczynników regresji. Zaznaczone są osobnymi kolorami współczynniki dodatnie i ujemne. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

62 Regresja Statystyki dopasowania Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

63 Regresja Ostateczny wzór modelu Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

64 Sieci neuronowe Definicja Zbiór połączonych ze sobą jednostek wejściowo-wyjściowych. Z każdym połączeniem skojarzona jest waga, która może zostać zmieniona w trakcie uczenia. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

65 Sieci neuronowe W założeniu są to obiekty, które swoim działaniem naśladują aktywność rzeczywistych układów nerwowych w mózgach organizmów żywych. W skutek połączenia szeregu neuronów o stosunkowo prostej budowie i niewielkich możliwościach uzyskuje się strukturę zdolną do przeprowadzania bardzo skomplikowanych procesów rozpoznawania wzorców i klasyfkacji. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

66 Sieci neuronowe Prosta sieć neuronowa składa się z warstwy wejściowej zawierającej n neuronów (odpowiadających zmiennym) oraz warstwy wyjściowej sumującej ważone impulsy i transformującą je do skali oryginalnej zmiennej Y. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

67 Sieci neuronowe Podstawowym rozszerzeniem tak opisanej architektury jest model perceptronu wielowarstwowego (MLP - Multi Layer Perceptron), który dodatkowo zawiera warstwę ukrytą. Składa się ona z określonej ilości neuronów, które nieliniowo przekształcają kombinację liniową otrzymanych sygnałów. Pojedynczy neuron z warstwy ukrytej składa się z dwóch elementów: sumatora i funkcji aktywacji. Pierwszy z nich dokonuje sumowania ważonych sygnałów z warstwy wejściowej oraz wyrazu wolnego, drugi tak otrzymaną sumę przekształca przy użyciu określonej funkcji ciągłej. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

68 Sieci neuronowe Schemat sieci neuronowej z jedną warstwą ukrytą zawierającą n neuronów. Model opisany dla m zmiennych objaśniających Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

69 Sieci neuronowe Ustawienia Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

70 Sieci neuronowe Ustawienia Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

71 Sieci neuronowe Wyniki Tak jak w poprzednich modelach, również tu wyświetla nam się wykres skumulowanego liftu. Najlepiej jakby obie krzywe nie różniły się znacząco od siebie. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

72 Sieci neuronowe Wyniki Kolejnym wykresem jaki się ukazuje jest wykres błędu średnokwadratowego. Pionowa kreska pokazuje nam w którym kroku iteracyjnym osiągnięto najlepszy model. W tym przupadku jest to 6 krok. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

73 Sieci neuronowe Wyniki Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

74 Porównywanie modeli Statystyki dopasowania Po wybudowaniu kilku modeli należy wybrać, który z nich jest najlepszy i może być wukorystany dla danych. Dopasowanie modelu może być ocenione za pomocą stytystyk dopasowania, oto niektóre z nich Skuteczność klasyfkacji - odsetek poprawnie zaklasyfikowanych przypadków. Miara często używana do oceny modeli klasyfikacyjnych wtedy, gdy każdy z obserwowanych przypadków można traktować z równą wagą. Błąd średniokwadratowy - średnia wartość kwadratu różnicy pomiędzy predykcją a rzeczywistą wartością. W przypadku binarnych zagadnień klasyfikacyjnych wartością przewidywaną jest prawdopodobieństwo, a wartością rzeczywistą 0 lub 1. Maksymalny błąd bezwzględny - wartość bezwzględna największej różnicy pomiędzy wartością przewidywaną a rzeczywistą. Miara oceniająca maksymalny spodziewany błąd predykcji. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

75 Porównywanie modeli Statystyki dopasowania Statystyka Kołmogorowa-Smirnowa - określa, jak dobrze dwie klasy zmiennej objaśnianej są rozróżniane przez model. Jej wartość obliczana jest jako: max t F 1 (t) F 0 (t) gdzie F 1 (t), F 0 (t) wartości dystrybuanty empirycznej predykcji dla grup obserwacji, w których zmienna objaśniana przyjmuje odpowiednio wartoci 0 i 1. Im większa wartość tej statystyki, tym większe różnice w prawdopodobieństwach przydzielanych obu grupom, a więc tym większa moc dyskryminacyjna modelu. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

76 Porównywanie modeli Statystyki dopasowania Wzrost (Lift) - miara dla określonego odsetka populacji będącej przedmiotem zagadnienia klasyfikacyjnego. Obliczana jest poprzez podzielenie odsetka zaobserwowanych zdarzeń w górnych n % populacji posortowanej malejąco według przewidywanych prawdopodobieństw przez procent tych samych zdarzeń w całej populacji. Indeks ROC - miara określająca skuteczność modelu w rozpoznawaniu różnic pomiędzy podpopulacjami o różnych wartościach zmiennej objaśnianej. Powstaje poprzez obliczenie pola pod krzywą ROC, im bardziej wykres krzywej skierowany jest w stronę lewego górnego rogu, tym lepsze własności klasyfikacyjne badanego modelu. Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

77 Porównanie modeli Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

78 Porównanie modeli Wykres ROC Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

79 Porównanie modeli Lift Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca / 79

Statystyka w SAS. Data Mining. Krzysztof Glapiak, Mateusz Borsuk, Jakub Gierasimczyk, Arkadiusz Gałecki. 15 czerwca Matematyka Finansowa

Statystyka w SAS. Data Mining. Krzysztof Glapiak, Mateusz Borsuk, Jakub Gierasimczyk, Arkadiusz Gałecki. 15 czerwca Matematyka Finansowa Statystyka w SAS Krzysztof Glapiak, Mateusz Borsuk, Jakub Gierasimczyk, Arkadiusz Gałecki Matematyka Finansowa 15 czerwca 2015 Plan prezentacji 1 Wstęp - czym jest 2 3 4 5 Sieci neuronowe 6 Czym jest?

Bardziej szczegółowo

Drzewa decyzyjne w SAS Enterprise Miner

Drzewa decyzyjne w SAS Enterprise Miner Drzewa decyzyjne w SAS Enterprise Miner Aneta Ptak-Chmielewska Instytut Statystyki i Demografii Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych www.sgh.waw.pl/zaklady/zahziaw 1 struktura ćwiczeń

Bardziej szczegółowo

Data Mining. Statystyka w SAS. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 1 / 98

Data Mining. Statystyka w SAS. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 1 / 98 Data Mining Klaudia Malinowska Simona Pikuła Statystyka w SAS Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 1 / 98 Plan prezentacji 1 Data Mining-co to jest? 2 Metodologia SEMMA 3 Analiza

Bardziej szczegółowo

Eksploracja danych. Definicja (Eksploracja danych)

Eksploracja danych. Definicja (Eksploracja danych) Data mining Stefania Wietrzykowska, Piotr Lebiedź Politechnika Gdańska Wydział Fizyki Technicznej i Matematyki Stosowanej 11 czerwca 2017 tefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data

Bardziej szczegółowo

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład Data Mining Wykład 5 Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny Indeks Gini Popularnym kryterium podziału, stosowanym w wielu produktach komercyjnych, jest indeks Gini Algorytm SPRINT

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

Projekt Sieci neuronowe

Projekt Sieci neuronowe Projekt Sieci neuronowe Chmielecka Katarzyna Gr. 9 IiE 1. Problem i dane Sieć neuronowa miała za zadanie nauczyć się klasyfikować wnioski kredytowe. W projekcie wykorzystano dane pochodzące z 110 wniosków

Bardziej szczegółowo

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej

Bardziej szczegółowo

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006 SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu

Bardziej szczegółowo

ALGORYTMY SZTUCZNEJ INTELIGENCJI

ALGORYTMY SZTUCZNEJ INTELIGENCJI ALGORYTMY SZTUCZNEJ INTELIGENCJI Sieci neuronowe 06.12.2014 Krzysztof Salamon 1 Wstęp Sprawozdanie to dotyczy ćwiczeń z zakresu sieci neuronowych realizowanym na przedmiocie: Algorytmy Sztucznej Inteligencji.

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2

Klasyfikacja. Indeks Gini Zysk informacyjny. Eksploracja danych. Klasyfikacja wykład 2 Klasyfikacja Indeks Gini Zysk informacyjny Klasyfikacja wykład 2 Kontynuujemy prezentacje metod klasyfikacji. Na wykładzie zostaną przedstawione dwa podstawowe algorytmy klasyfikacji oparte o indukcję

Bardziej szczegółowo

Zastosowania sieci neuronowych

Zastosowania sieci neuronowych Zastosowania sieci neuronowych aproksymacja LABORKA Piotr Ciskowski zadanie 1. aproksymacja funkcji odległość punktów źródło: Żurada i in. Sztuczne sieci neuronowe, przykład 4.4, str. 137 Naucz sieć taką

Bardziej szczegółowo

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania

Bardziej szczegółowo

Temat: Sztuczne Sieci Neuronowe. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE

Temat: Sztuczne Sieci Neuronowe. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE Temat: Sztuczne Sieci Neuronowe Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE Dr inż. Barbara Mrzygłód KISiM, WIMiIP, AGH mrzyglod@ agh.edu.pl 1 Wprowadzenie Sztuczne sieci neuronowe

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015 Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner rok akademicki 2014/2015 Sieci neuronowe Sieci neuronowe w SAS Enterprise Miner Węzeł Neural Network Do

Bardziej szczegółowo

SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU)

SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU) SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU) 1. Opis problemu - ocena końcowa projektu Projekt jako nowe, nietypowe przedsięwzięcie wymaga właściwego zarządzania. Podjęcie się realizacji

Bardziej szczegółowo

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015 Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner rok akademicki 2014/2015 Sieci Kohonena Sieci Kohonena Sieci Kohonena zostały wprowadzone w 1982 przez fińskiego

Bardziej szczegółowo

Próba własności i parametry

Próba własności i parametry Próba własności i parametry Podstawowe pojęcia Zbiorowość statystyczna zbiór jednostek (obserwacji) nie identycznych, ale stanowiących logiczną całość Zbiorowość (populacja) generalna skończony lub nieskończony

Bardziej szczegółowo

Badanie zależności skala nominalna

Badanie zależności skala nominalna Badanie zależności skala nominalna I. Jak kształtuje się zależność miedzy płcią a wykształceniem? II. Jak kształtuje się zależność między płcią a otyłością (opis BMI)? III. Jak kształtuje się zależność

Bardziej szczegółowo

Zmienne zależne i niezależne

Zmienne zależne i niezależne Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }

Bardziej szczegółowo

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x ZJAZD 4 KORELACJA, BADANIE NIEZALEŻNOŚCI, ANALIZA REGRESJI Analiza korelacji i regresji jest działem statystyki zajmującym się badaniem zależności i związków pomiędzy rozkładami dwu lub więcej badanych

Bardziej szczegółowo

Analiza składowych głównych. Wprowadzenie

Analiza składowych głównych. Wprowadzenie Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących

Bardziej szczegółowo

MODELE LINIOWE. Dr Wioleta Drobik

MODELE LINIOWE. Dr Wioleta Drobik MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą

Bardziej szczegółowo

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22 Spis treści Przedmowa do wydania pierwszego.... 11 Przedmowa do wydania drugiego.... 15 Wykaz symboli.... 17 Litery alfabetu greckiego wykorzystywane w podręczniku.... 17 Symbole wykorzystywane w zagadnieniach

Bardziej szczegółowo

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na Podstawowe pojęcia Zbiorowość statystyczna zbiór jednostek (obserwacji) nie identycznych, ale stanowiących logiczną całość Zbiorowość (populacja) generalna skończony lub nieskończony zbiór jednostek, które

Bardziej szczegółowo

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych; STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych; - badanie skuteczności nowego leku; - badanie stopnia zanieczyszczenia gleb metalami

Bardziej szczegółowo

Elementy statystyki wielowymiarowej

Elementy statystyki wielowymiarowej Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych

Bardziej szczegółowo

5. Model sezonowości i autoregresji zmiennej prognozowanej

5. Model sezonowości i autoregresji zmiennej prognozowanej 5. Model sezonowości i autoregresji zmiennej prognozowanej 1. Model Sezonowości kwartalnej i autoregresji zmiennej prognozowanej (rząd istotnej autokorelacji K = 1) Szacowana postać: y = c Q + ρ y, t =

Bardziej szczegółowo

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji Statystyka i opracowanie danych Ćwiczenia 5 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ MODEL REGRESJI LINIOWEJ Analiza regresji

Bardziej szczegółowo

Rozkład materiału nauczania

Rozkład materiału nauczania Dział/l.p. Ilość godz. Typ szkoły: TECHNIKUM Zawód: TECHNIK USŁUG FRYZJERSKICH Rok szkolny 2017/2018 Przedmiot: MATEMATYKA Klasa: III 60 godzin numer programu T5/O/5/12 Rozkład materiału nauczania Temat

Bardziej szczegółowo

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ Korelacja oznacza fakt współzależności zmiennych, czyli istnienie powiązania pomiędzy nimi. Siłę i kierunek powiązania określa się za pomocą współczynnika korelacji

Bardziej szczegółowo

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii SPIS TREŚCI Przedmowa... 11 Wykaz symboli... 15 Litery alfabetu greckiego wykorzystywane w podręczniku... 15 Symbole wykorzystywane w zagadnieniach teorii mnogości (rachunku zbiorów)... 16 Symbole stosowane

Bardziej szczegółowo

You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com)

You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com) Prezentacja materiału statystycznego Szeroko rozumiane modelowanie i prognozowanie jest zwykle kluczowym celem analizy danych. Aby zbudować model wyjaśniający relacje pomiędzy różnymi aspektami rozważanego

Bardziej szczegółowo

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu Wykład 11-12 Centralne twierdzenie graniczne Statystyka matematyczna: Estymacja parametrów rozkładu Centralne twierdzenie graniczne (CTG) (Central Limit Theorem - CLT) Centralne twierdzenie graniczne (Lindenberga-Levy'ego)

Bardziej szczegółowo

Regresja linearyzowalna

Regresja linearyzowalna 1 z 5 2007-05-09 23:22 Medycyna Praktyczna - portal dla lekarzy Regresja linearyzowalna mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie Data utworzenia:

Bardziej szczegółowo

Wydział Matematyki. Testy zgodności. Wykład 03

Wydział Matematyki. Testy zgodności. Wykład 03 Wydział Matematyki Testy zgodności Wykład 03 Testy zgodności W testach zgodności badamy postać rozkładu teoretycznego zmiennej losowej skokowej lub ciągłej. Weryfikują one stawiane przez badaczy hipotezy

Bardziej szczegółowo

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska Anna Stankiewicz Izabela Słomska Wstęp- statystyka w politologii Rzadkie stosowanie narzędzi statystycznych Pisma Karla Poppera

Bardziej szczegółowo

Sieci neuronowe w Statistica

Sieci neuronowe w Statistica http://usnet.us.edu.pl/uslugi-sieciowe/oprogramowanie-w-usk-usnet/oprogramowaniestatystyczne/ Sieci neuronowe w Statistica Agnieszka Nowak - Brzezińska Podstawowym elementem składowym sztucznej sieci neuronowej

Bardziej szczegółowo

Wojciech Skwirz

Wojciech Skwirz 1 Regularyzacja jako metoda doboru zmiennych objaśniających do modelu statystycznego. 2 Plan prezentacji 1. Wstęp 2. Część teoretyczna - Algorytm podziału i ograniczeń - Regularyzacja 3. Opis wyników badania

Bardziej szczegółowo

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, 2018 Spis treści Przedmowa 13 O Autorach 15 Przedmowa od Tłumacza 17 1. Wprowadzenie i statystyka opisowa 19 1.1.

Bardziej szczegółowo

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74 3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15

Bardziej szczegółowo

Sieci neuronowe w Statistica. Agnieszka Nowak - Brzezioska

Sieci neuronowe w Statistica. Agnieszka Nowak - Brzezioska Sieci neuronowe w Statistica Agnieszka Nowak - Brzezioska Podstawowym elementem składowym sztucznej sieci neuronowej jest element przetwarzający neuron. Schemat działania neuronu: x1 x2 w1 w2 Dendrites

Bardziej szczegółowo

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18 Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)

Bardziej szczegółowo

Wprowadzenie do analizy dyskryminacyjnej

Wprowadzenie do analizy dyskryminacyjnej Wprowadzenie do analizy dyskryminacyjnej Analiza dyskryminacyjna to zespół metod statystycznych używanych w celu znalezienia funkcji dyskryminacyjnej, która możliwie najlepiej charakteryzuje bądź rozdziela

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia

Bardziej szczegółowo

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta Stan dotychczasowy OCENA KLASYFIKACJI w diagnostyce Wybraliśmy metodę uczenia maszynowego (np. sieć neuronowa lub drzewo decyzyjne), która będzie klasyfikować nieznane przypadki Na podzbiorze dostępnych

Bardziej szczegółowo

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, 诲 瞴瞶 瞶 ƭ0 ƭ 瞰 parametrów strukturalnych modelu Y zmienna objaśniana, = + + + + + X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, α 0, α 1, α 2,,α k parametry strukturalne modelu, k+1 parametrów

Bardziej szczegółowo

Regresja logistyczna (LOGISTIC)

Regresja logistyczna (LOGISTIC) Zmienna zależna: Wybór opcji zachodniej w polityce zagranicznej (kodowana jako tak, 0 nie) Zmienne niezależne: wiedza o Unii Europejskiej (WIEDZA), zamieszkiwanie w regionie zachodnim (ZACH) lub wschodnim

Bardziej szczegółowo

Jak przekształcać zmienne jakościowe?

Jak przekształcać zmienne jakościowe? Data Preparation Jak przekształcać zmienne jakościowe? Marta Płonka Predictive Solutions W ostatnim artykule zobaczyliśmy, jak sprawdzić, czy między wybranymi przez nas predyktorami a zmienną przewidywaną

Bardziej szczegółowo

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej LABORATORIUM 3 Przygotowanie pliku (nazwy zmiennych, export plików.xlsx, selekcja przypadków); Graficzna prezentacja danych: Histogramy (skategoryzowane) i 3-wymiarowe; Wykresy ramka wąsy; Wykresy powierzchniowe;

Bardziej szczegółowo

4. Średnia i autoregresja zmiennej prognozowanej

4. Średnia i autoregresja zmiennej prognozowanej 4. Średnia i autoregresja zmiennej prognozowanej 1. Średnia w próbie uczącej Własności: y = y = 1 N y = y t = 1, 2, T s = s = 1 N 1 y y R = 0 v = s 1 +, 2. Przykład. Miesięczna sprzedaż żelazek (szt.)

Bardziej szczegółowo

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa. TESTY NIEPARAMETRYCZNE 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa. Standardowe testy równości średnich wymagają aby badane zmienne losowe

Bardziej szczegółowo

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej Paweł Cibis pawel@cibis.pl 23 lutego 2007 1 Regresja liniowa 2 wzory funkcje 3 Korelacja liniowa

Bardziej szczegółowo

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe PB, 2009 2010 Sztuczna Inteligencja Tematy projektów Sieci Neuronowe Projekt 1 Stwórz projekt implementujący jednokierunkową sztuczną neuronową złożoną z neuronów typu sigmoidalnego z algorytmem uczenia

Bardziej szczegółowo

Sposoby prezentacji problemów w statystyce

Sposoby prezentacji problemów w statystyce S t r o n a 1 Dr Anna Rybak Instytut Informatyki Uniwersytet w Białymstoku Sposoby prezentacji problemów w statystyce Wprowadzenie W artykule zostaną zaprezentowane podstawowe zagadnienia z zakresu statystyki

Bardziej szczegółowo

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie: ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość

Bardziej szczegółowo

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość Dwie metody Klasyczna metoda histogramu jako narzędzie do postawienia hipotezy, jaki rozkład prawdopodobieństwa pasuje do danych Indukcja drzewa decyzyjnego jako metoda wykrycia klasyfikatora ukrytego

Bardziej szczegółowo

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Algorytmy metaheurystyczne Wykład 11. Piotr Syga Algorytmy metaheurystyczne Wykład 11 Piotr Syga 22.05.2017 Drzewa decyzyjne Idea Cel Na podstawie przesłanek (typowo zbiory rozmyte) oraz zbioru wartości w danych testowych, w oparciu o wybrane miary,

Bardziej szczegółowo

Wykład 4 Związki i zależności

Wykład 4 Związki i zależności Wykład 4 Związki i zależności Rozważmy: Dane z dwiema lub więcej zmiennymi Zagadnienia do omówienia: Zmienne objaśniające i zmienne odpowiedzi Wykres punktowy Korelacja Prosta regresji Słownictwo: Zmienna

Bardziej szczegółowo

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp tel.: +48 662 635 712 Liczba stron: 15 Data: 20.07.2010r OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA z wykorzystaniem programu obliczeniowego Q maxp DŁUGIE

Bardziej szczegółowo

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona; LABORATORIUM 4 Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona; dwie zmienne zależne mierzalne małe próby duże próby rozkład normalny

Bardziej szczegółowo

Statystyka i analiza danych pomiarowych Podstawowe pojęcia statystyki cz. 2. Tadeusz M. Molenda Instytut Fizyki, Uniwersytet Szczeciński

Statystyka i analiza danych pomiarowych Podstawowe pojęcia statystyki cz. 2. Tadeusz M. Molenda Instytut Fizyki, Uniwersytet Szczeciński Statystyka i analiza danych pomiarowych Podstawowe pojęcia statystyki cz. 2. Tadeusz M. Molenda Instytut Fizyki, Uniwersytet Szczeciński Opracowanie materiału statystycznego Szereg rozdzielczy częstości

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

Statystyka opisowa. Wykład VI. Analiza danych jakośiowych

Statystyka opisowa. Wykład VI. Analiza danych jakośiowych Statystyka opisowa. Wykład VI. e-mail:e.kozlovski@pollub.pl Spis treści Rangowanie 1 Rangowanie 3 Rangowanie Badaniu statystycznemu czasami podlegają cechy niemierzalne jakościowe), np. kolor włosów, stopień

Bardziej szczegółowo

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007 Modele regresji wielorakiej - dobór zmiennych, szacowanie Paweł Cibis pawel@cibis.pl 1 kwietnia 2007 1 Współczynnik zmienności Współczynnik zmienności wzory Współczynnik zmienności funkcje 2 Korelacja

Bardziej szczegółowo

Drzewa decyzyjne i lasy losowe

Drzewa decyzyjne i lasy losowe Drzewa decyzyjne i lasy losowe Im dalej w las tym więcej drzew! ML Gdańsk http://www.mlgdansk.pl/ Marcin Zadroga https://www.linkedin.com/in/mzadroga/ 20 Czerwca 2017 WPROWADZENIE DO MACHINE LEARNING CZYM

Bardziej szczegółowo

SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy

SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy Załącznik nr 4 do Uchwały Senatu nr 430/01/2015 SYLABUS Dotyczy cyklu kształcenia 2014-2018 Realizacja w roku akademickim 2016/2017 1.1. PODSTAWOWE INFORMACJE O PRZEDMIOCIE/MODULE Nazwa przedmiotu/ modułu

Bardziej szczegółowo

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Kompresja danych Streszczenie Studia Dzienne Wykład 10, 1 Kwantyzacja wektorowa Kompresja danych Streszczenie Studia Dzienne Wykład 10, 28.04.2006 Kwantyzacja wektorowa: dane dzielone na bloki (wektory), każdy blok kwantyzowany jako jeden element danych. Ogólny

Bardziej szczegółowo

Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego

Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego Dorota Witkowska Szkoła Główna Gospodarstwa Wiejskiego w Warszawie Wprowadzenie Sztuczne

Bardziej szczegółowo

Przykład Rezygnacja z usług operatora

Przykład Rezygnacja z usług operatora Przykład Rezygnacja z usług operatora Zbiór CHURN Zbiór zawiera dane o 3333 klientach firmy telefonicznej razem ze wskazaniem, czy zrezygnowali z usług tej firmy Dane pochodzą z UCI Repository of Machine

Bardziej szczegółowo

Rozkład materiału nauczania

Rozkład materiału nauczania Dział/l.p. Ilość godz. Typ szkoły: TECHNIKUM Zawód: TECHNIK USŁUG FRYZJERSKICH Rok szkolny 2015/2016 Przedmiot: MATEMATYKA Klasa: III 2 godz/tyg 30 = 60 godzin Rozkład materiału nauczania Temat I. LOGARYTMY

Bardziej szczegółowo

Uczenie się pojedynczego neuronu. Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z<0 y=1 gdy z>=0. Wówczas: W 1 x 1 + w 2 x 2 + = 0

Uczenie się pojedynczego neuronu. Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z<0 y=1 gdy z>=0. Wówczas: W 1 x 1 + w 2 x 2 + = 0 Uczenie się pojedynczego neuronu W0 X0=1 W1 x1 W2 s f y x2 Wp xp p x i w i=x w+wo i=0 Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z=0 Wówczas: W 1 x 1 + w 2 x 2 + = 0 Algorytm

Bardziej szczegółowo

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty

Bardziej szczegółowo

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41 Statystyka Wykład 4 Magdalena Alama-Bućko 13 marca 2017 Magdalena Alama-Bućko Statystyka 13 marca 2017 1 / 41 Na poprzednim wykładzie omówiliśmy następujace miary rozproszenia: Wariancja - to średnia arytmetyczna

Bardziej szczegółowo

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę) PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5. Testy parametryczne (na

Bardziej szczegółowo

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy Załącznik nr 7 do Zarządzenia Rektora nr../12 z dnia.... 2012r. KARTA MODUŁU / KARTA PRZEDMIOTU Kod modułu Nazwa modułu Nazwa modułu w języku angielskim Obowiązuje od roku akademickiego 2017/2018 STATYSTYKA

Bardziej szczegółowo

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Zadanie 1 Eksploracja (EXAMINE) Informacja o analizowanych danych Obserwacje Uwzględnione Wykluczone Ogółem

Bardziej szczegółowo

Testowanie modeli predykcyjnych

Testowanie modeli predykcyjnych Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności

Bardziej szczegółowo

Algorytmy klasyfikacji

Algorytmy klasyfikacji Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe

Bardziej szczegółowo

8. Neuron z ciągłą funkcją aktywacji.

8. Neuron z ciągłą funkcją aktywacji. 8. Neuron z ciągłą funkcją aktywacji. W tym ćwiczeniu zapoznamy się z modelem sztucznego neuronu oraz przykładem jego wykorzystania do rozwiązywanie prostego zadania klasyfikacji. Neuron biologiczny i

Bardziej szczegółowo

Rozkład materiału nauczania

Rozkład materiału nauczania Dział/l.p. Ilość godz. Typ szkoły: TECHNIKUM Zawód: TECHNIK USŁUG FRYZJERSKICH Rok szkolny 2016/2017 Przedmiot: MATEMATYKA Klasa: IV 67 godzin numer programu T5/O/5/12 Rozkład materiału nauczania Temat

Bardziej szczegółowo

Ćwiczenie 6. Transformacje skali szarości obrazów

Ćwiczenie 6. Transformacje skali szarości obrazów Politechnika Wrocławska Wydział Elektroniki Mikrosystemów i Fotoniki Przetwarzanie sygnałów laboratorium ETD5067L Ćwiczenie 6. Transformacje skali szarości obrazów 1. Obraz cyfrowy Obraz w postaci cyfrowej

Bardziej szczegółowo

Analiza autokorelacji

Analiza autokorelacji Analiza autokorelacji Oblicza się wartości współczynników korelacji między y t oraz y t-i (dla i=1,2,...,k), czyli współczynniki autokorelacji różnych rzędów. Bada się statystyczną istotność tych współczynników.

Bardziej szczegółowo

Wprowadzenie do uczenia maszynowego

Wprowadzenie do uczenia maszynowego Wprowadzenie do uczenia maszynowego Agnieszka Ławrynowicz 12 stycznia 2017 Co to jest uczenie maszynowe? dziedzina nauki, która zajmuje się sprawianiem aby komputery mogły uczyć się bez ich zaprogramowania

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska BUDOWA DRZEW DECYZYJNYCH Drzewa decyzyjne są metodą indukcyjnego

Bardziej szczegółowo

Analiza składowych głównych

Analiza składowych głównych Analiza składowych głównych Wprowadzenie (1) W przypadku regresji naszym celem jest predykcja wartości zmiennej wyjściowej za pomocą zmiennych wejściowych, wykrycie związku między wielkościami wejściowymi

Bardziej szczegółowo

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl

Bardziej szczegółowo

3. Modele tendencji czasowej w prognozowaniu

3. Modele tendencji czasowej w prognozowaniu II Modele tendencji czasowej w prognozowaniu 1 Składniki szeregu czasowego W teorii szeregów czasowych wyróżnia się zwykle następujące składowe szeregu czasowego: a) składowa systematyczna; b) składowa

Bardziej szczegółowo

Systemy uczące się Lab 4

Systemy uczące się Lab 4 Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego

Bardziej szczegółowo

Analiza regresji - weryfikacja założeń

Analiza regresji - weryfikacja założeń Medycyna Praktyczna - portal dla lekarzy Analiza regresji - weryfikacja założeń mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof.

Bardziej szczegółowo

Niestandardowa tabela częstości

Niestandardowa tabela częstości raportowanie Niestandardowa tabela częstości Przemysław Budzewski Predictive Solutions Do czego dążymy W Generalnym Sondażu Społecznym USA w 1991 roku badaniu poddano respondentów należących do szeregu

Bardziej szczegółowo

Grupowanie materiału statystycznego

Grupowanie materiału statystycznego Grupowanie materiału statystycznego Materiał liczbowy, otrzymany w wyniku przeprowadzonej obserwacji statystycznej lub pomiaru, należy odpowiednio usystematyzować i pogrupować. Doskonale nadają się do

Bardziej szczegółowo

Systemy uczące się wykład 2

Systemy uczące się wykład 2 Systemy uczące się wykład 2 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 19 X 2018 Podstawowe definicje Fakt; Przesłanka; Konkluzja; Reguła; Wnioskowanie. Typy wnioskowania

Bardziej szczegółowo

Monte Carlo, bootstrap, jacknife

Monte Carlo, bootstrap, jacknife Monte Carlo, bootstrap, jacknife Literatura Bruce Hansen (2012 +) Econometrics, ze strony internetowej: http://www.ssc.wisc.edu/~bhansen/econometrics/ Monte Carlo: rozdział 8.8, 8.9 Bootstrap: rozdział

Bardziej szczegółowo