Data Mining. Statystyka w SAS. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 1 / 98
|
|
- Jakub Morawski
- 6 lat temu
- Przeglądów:
Transkrypt
1 Data Mining Klaudia Malinowska Simona Pikuła Statystyka w SAS Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 1 / 98
2 Plan prezentacji 1 Data Mining-co to jest? 2 Metodologia SEMMA 3 Analiza danych Sample Explore Modyfikowanie danych Badanie i przygotowanie danych Ocena i wybór modelu Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 2 / 98
3 Data Mining-co to jest? Data mining jest to proces analityczny, służący do odkrywania nietrywialnych, dotychczas nieznanych zależności, trendów w dużych bazach danych, wykorzystując przy tym między innymi metody statystyczne. Gromadzonych danych jest coraz więcej, dlatego też problemem jest wydobycie z nich jak największej ilości informacji. Data mining, jako złożony proces selekcji i transformacji danych, ułatwia interpretacje uzyskanych wyników. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 3 / 98
4 Główne zastosowania W procesie data mining możemy wyróżnić sześć podstawowych zastosowań. opis szacowanie klasyfikacja grupowanie odkrywanie reguł odkrywanie anomalii. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 4 / 98
5 Metodologie Aby eksploracja danych przebiegła sprawnie, stworzono metodologie, które uporządkowują poszczególne etapy analizy. Do najbardziej popularnych należą: CRISP-DM SEMMA Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 5 / 98
6 CRISP-DM Rysunek: Etapy metodologii CRISP-DM Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 6 / 98
7 SEMMA W tej prezentacji wykorzystamy drugą z metodologii SEMMA, która składa się z 5 etapów: Sample-przygotowanie i podział wejściowej próby danych, Explore-eksploracja danych, służąca ocenie ich jakości oraz wstępnej identyfikacji zależności pomiędzy zmiennymi, Modify-modyfikacja danych, służąca poprawie ich jakości, spełnieniu założeń metod modelowania lub zwiększaniu ich elastyczności poprzez transformację zmiennych, Model- modelowanie przy użyciu takich metod jak drzewa decyzyjne, regresja czy sieci neuronowe, Asses-ocena jakości budowanych modeli i wybór najlepszego z nich, a następnie monitorowanie jego skuteczności na nowo napływających danych. W systemie SAS model SEMMA realizowany jest w oparciu o tzw. diagramy przepływu, które można tworzyć przy użyciu wygodnego GUI Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 7 / 98
8 SEMMA Została ona stworzona z myślą o oprogramowaniu Enterprise Miner. Koncentruje się na opracowywaniu modeli i kładzie mniejszy nacisk na początkowe fazy planowania objęte CRISP-DM (Rozumienie biznesowe i fazy Zrozumienia Danych) oraz całkowicie pomija fazę wdrożenia. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 8 / 98
9 Cel Firma świadcząca usługi finansowe oferuje swoim klientom kredyt hipoteczny. Firma rozszerzyła w przeszłości kilka tysięcy linii kredytowych, a wiele z nich, które zaakceptowali wnioskodawcy (około 20 %) zalegają z pożyczkami. Używając zmiennych geograficznych, demograficznych i finansowych, firma chce zbudować model aby przewidzieć, czy wnioskodawca się nie wywiąże. Po przeanalizowaniu danych firma wybrała podzbiór 12 predyktorów zmiennych do modelowania. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 9 / 98
10 Opis danych BAD - zmienna celu - przyjmuje wartość 1, gdy kredytobiorca nie spłacił kredytu CLAGE- długość trwania najdłuższego z aktywnych zobowiązań kredytowych zaciągniętych przez kredytobiorcę (w miesiącach) CLNO - ilość aktywnych zobowiązań kredytowych DEBTINC - współczynnik zadłużenia do przychodu DELINQ - historyczna liczba zaległości kredytowych DEROG - ilość negatywnych informacji kredytowych JOB - wykonywany zawód LOAN - kwota pozostała do spłaty MORTDUE - kwota do spłaty bieżącej hipoteki NINQ - ilość ostatnio złożonych wniosków kredytowych REASON - przyjmuje wartość DebCon, gdy kredyt jest przeznaczony na konsolidację innego kredytu, wartość Homelmp, gdy jest przeznaczony na zwiększenie wartości hipoteki VALUE - wartość obecna hipoteki YOJ - staż w obecnej pracy (w latach) Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 10 / 98
11 Rodzaj i rola zmiennych W zakresie ról zmiennych najczęściej wykorzystywanymi są: Wejściowa (Input) - zmienna objaśniająca Zmienna celu (Target) - zmienna objaśniana Odrzucona (Rejected) - nie bierze udziału w analizie ID - identyfikator Dostępne jest pięć skal pomiarowych: Przedziałowa (Interval) - zmienna ciągła Nominalna (Nominal) Porządkowa (Ordinal) Binarna (Binary) Unarna (Unary) - zmienna o jednej wartości Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 11 / 98
12 Sample Węzeł Sample umożliwia pobieranie losowych, podzielonych losowo i klastrowych próbek zestawów danych. Pierwszy etap medodologii SEMMA składa się z trzech części: Importowanie danych Dobór próby (Sampling) Partycjonowanie. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 12 / 98
13 Import danych Ten węzeł może wykonać następujące działania: Dla każdej zmiennej tworzy metadane pobierając losowo 2000 obserwacji. W przypadku danych mających mniej niż 2000 obserwacji SAS wykorzystuje wszystkie dane. Na podstawie metadanych sprawdza poziom zmiennych oraz ich granice. Tworzy statystyki opisowe dla każdych zmiennych(na podstawie pobranych metadanych). Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 13 / 98
14 Sampling Próbkowanie jest zalecane w przypadku bardzo dużych baz danych, ponieważ może znacznie zmniejszyć czas szkolenia modeli. Jeśli próbka jest wystarczająco reprezentatywna, można oczekiwać, że relacje znalezione w próbce będą uogólniane do pełnego zestawu danych. Sampling polega na doborze próby z większego zbioru w taki sposób, aby dobór próby był reprezentatywny.można tego dokonać na kilka sposobów: N pierwszych Losowanie zwykłe-każda obserwacja ma to samo prawdopodobieństwo zostania wylosowanej. Losowanie warstwowe- losowanie to ma następujące kryteria: proporcjonalne (Udział obserwacji na każdej z warstw będzie taki sam w populacji) równe(węzeł losuje tę samą liczbę obserwacji z każdej z warstw) optymalne (Udział obserwacji na warstwach jak i wariancja będą takie same jak w populacji) Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 14 / 98
15 Partycjonowanie Partycjonowanie polega na podziale zbioru na 3 części: Uczący-Służy do zbudowania modelu.próba powinna być liczebności % próby wejściowej Walidacyjna-Wykorzystuje się ją do porównywania skuteczności różnych modeli między sobą, powinna być między % próby wejściowej. Testowa-próba używana do ostatecznej oceny modelu wybranego na podstawie danych walidacyjnych, powinna być między 20-30% próby wejściowej. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 15 / 98
16 Metody partycjonowania Wyróżniamy następujące metody: losowanie warstwowe (Stratified) - pozwala utrzymać rozkład zmiennej objaśnianej w powstających próbach losowanie klastrowe (Cluster) - losowanie proporcjonalne z klastrów wykrytych w badanej populacji prosta próba losowa (Simple random) Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 16 / 98
17 Identyfikacja danych wejściowych Rozpoczynamy od dodania źródła danych do projektu. Źródło: tabela SASowa Z biblioteki SAMPSIO wybieramy zbiór HMEQ W opcji Metadane kolumn dokonujemy następujących zmian: Rysunek: Metadane kolumn Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 17 / 98
18 Identyfikacja danych wejściowych Przetwarzanie decyzji - opcja Nie jest wybierana automatycznie. Oznacza to, że SAS nie podejmie decyzji co do przetwarzania danych dla tego źródła. Utwórz próbkę - opcja Nie jest wybierana automatycznie. Oznacza to, że próbka nie zostanie utworzona. Zamiast tego wykorzystywany jest cały zestaw danych do analizy. Atrybuty źródła danych - można zmienić nazwę pliku źródła danych, zmienić jego rolę, posegmentować źródło danych lub dodać uwagi. Nasz zbiór HMEQ zawiera znane wartości binarnej zmiennej docelowej BAD, czyli użyjemy danych do szkolenia naszego modelu predykcyjnego. Ustawiamy rolę źródła danych na Uczące. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 18 / 98
19 Dodawanie węzłów i partycjonowanie Prawym przyciskiem klikamy na Diagramy a następnie Utwórz diagram. Aby dodać dane wejściowe przeciągamy zestaw danych HMEQ z sekcji Źródła danych do obszaru roboczego diagramu. Aby wykonać partycjonowanie przeciągamy ikonę Partycjonowania na pole diagramu łączymy węzeł Zbioru danych z węzłem Partycjonowania uruchamiamy. Rysunek: Partycjonowanie Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 19 / 98
20 Eksploracja danych W tym etapie będziemy starać się zrozumieć dane. Będziemy badać rozkłady poszczególnych zmiennych oraz ich statystyki opisowe, a także analizować zależności występujące między nimi. Sprawdzimy, czy występują braki danych, a także czy w zbiorze nie ma obserwacji odstających (błędy w danych) Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 20 / 98
21 Sprawdzanie dystrybucji Możesz sprawdzić rozkład wartości w zestawie danych wejściowych dla każdej zmiennej. Aby wyświetlić dystrybucję dla zmiennej BAD, wykonaj następujące kroki: 1. Dodaj Eksploracja wykresów. 2. W oknie Zmienne wybierz zmienną BAD. 3. Kliknij ikonę Eksploruj w prawym dolnym rogu ekranu. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 21 / 98
22 Na wykresie słupkowym widać, że około 80% obserwacji w BAD mają wartość 0, a 20% ma wartość 1. Oznacza to, że około 20% klientów z tego przykładu danych nie wywiązała się ze swoich pożyczek. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 22 / 98
23 Badanie statystyki opisowej Do naszego diagramu dorzucamy węzeł Eksploracja statystyk znajdujący się w zakładce Eksploracja. Węzeł ten umożliwia obliczenie podstawowych statystyk opisowych oraz wstępną analizę współzależności zmiennych. Aby badane korelacje pomiędzy zmienną zależną a zmiennymi niezależnymi obliczane były jedną metodą, należy umożliwić obliczenie statystyk Chi-kwadrat również dla zmiennych ciągłych (przedziałowych). Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 23 / 98
24 Współczynnik V Cramera Umożliwi to zastosowanie współczynnika V Cramera, przyjmującego wartości od 0 do 1. Współczynnik ten jest unormowaną miarą współzależności zmiennych. Współczynnik V Cramera oblicza się w następujący sposób: χ 2 = (n i,j n i n j n )2 n i n j i,j n V = ϕ 2 min(k 1, r 1) = χ 2 /n min(k 1, r 1) Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 24 / 98
25 Rezultaty Rysunek: Wykres współzależności zmiennych niezależnych ze zmienną zależną Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 25 / 98
26 Rezultaty Rysunek: Statystyki opisowe dla zmiennych klasyfikujących Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 26 / 98
27 Rezultaty Rysunek: Statystyki opisowe dla zmiennych przedziałowych Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 27 / 98
28 Rezultaty Na tym etapie widzimy, że wszystkie zmienne są istotne. Rysunek: Wartości statystyki Chi-kwadrat wraz z wartościami p Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 28 / 98
29 Modyfikowanie danych Modyfikacja to etap w którym należy przygotować dane do modelowania. Przygotowanie danych do budowy drzew decyzyjnych różni się od przygotowywania ich do regresji i sieci neuronowych. Podstawowa modyfikacja danych którą można zastosować zarówno do drzew,regresji oraz sieci neuronowych polega na: Porzuceniu nieistotnych dla budowy modelu oraz silnie skorelowanych zmiennych Sprawdzeniu obserwacji pod kątem zakodowanych braków danych Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 29 / 98
30 Regresja 1 Stworzymy teraz pierwszy model regresji. Przeciągamy węzeł Regresja do diagramu i łączymy z Partycjonowaniem. Węzły modelowania wymagają zmiennej docelowej. Naszą zmienną docelową jest zmienna BAD, która jest binarna. Dlatego domyślnym modelem będzie regresja logistyczna. Uruchamiamy. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 30 / 98
31 Regresja 1 - rezultaty Rysunek: Rezultaty-Regresja 1 Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 31 / 98
32 Regresja 1 - rezultaty Okno wykresu efektów zawiera wykres słupkowy bezwzględnej wartości efektów modelu. Im większa wartość, tym ważniejsza jest zmienna dla regresji. W tym przykładzie najważniejsze zmienne prognostyczne to DELINQ, JOB, NINQ, DEROG. Okno nakładka rankingów wyników punktowych umożliwia przeglądanie wykresów oceny. Domyślny wykres przedstawia skumulowany lift. Innym jest np. skumulowana odpowiedź procentowa. Ten wykres rozmieszcza obserwacje w decylach na podstawie ich przewidywanego prawdopodobieństwa odpowiedzi. To kreśli rzeczywisty odsetek badanych. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 32 / 98
33 Regresja 1 - rezultaty W tym przykładzie osoby posortowane są w malejącej kolejności ich przewidywanych prawdopodobieństw niewypłacalności kredytu. Okno wyniki wyświetla informacje zarówno dla zestawów danych treningowych, jak i walidacyjnych. Przypomnijmy, że zmienna DEBTINC ma wysoki procent brakujących wartości. Z tego powodu niewłaściwym jest stosowanie domyślnego modelu regresji bezpośrednio do danych treningowych. Powinniśmy rozważyć węzeł imputancji przed dopasowaniem modelu regresji. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 33 / 98
34 Imputancja Węzeł Imputancja umożliwia przypisywanie brakujących wartości danych wejściowych. Aby model był wiarygodny, należy pozbyć się braków danych. W tym węźle mamy możliwość określenia metody imputancji, która zastępuje każdą brakująca wartość pewną statystyką. Domyślnie zmienne przedziałowe są zastępowane przez średnią tej zmiennej. Zmienne klasowe są zastępowane przez najczęściej występującą wartość. W tym przykładzie użyjemy domyślnych wartości. Na karcie Modyfikacja przeciągamy węzeł Imputancja do diagramu. Łączymy z węzłem Partycjonowanie. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 34 / 98
35 Regresja 2 Budujemy model regresji oparty na imputowanym zbiorze danych. Przeciągamy węzeł Regresja do diagramu i łączymy z węzłem Imputancja. Użyjemy domyślnych ustawień węzła regresji. Model regresji pasuje do modeli zmiennych docelowych, porządkowych, nominalnych i binarnych. Ponieważ zmienna BAD jest zmienną binarną, domyślnym modelem jest regresja logistyczna. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 35 / 98
36 Rezultaty Ten wykres rozmieszcza obserwacje w decylach na podstawie ich przewidywanego prawdopodobieństwa odpowiedzi. Nakreśla rzeczywisty odsetek respondentów. Jeśli najedziemy kursorem na miejsce przecięcia się wykresów, będziemy mogli odczytać, że przy 10% najlepszych danych około 69% pożyczkobiorców nie wywiązuje się z zaciągniętej pożyczki. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 36 / 98
37 Rezultaty Wykresy lift przedstawiają te same informacje, ale w innej skali. Jak wspomniałyśmy wcześniej, ogólny odsetek respondentów wynosi 20%. Odsetek respondentów w pierwszym decylu wynosił 69%. Więc wzrost dla tego decyla wynosi = 3, 44. Jak ustawimy kursor na wykresie na pierwszym decylu, możemy zobaczyć, że wartość dla tego punktu wynosi 3,4. Wskazuje to na to, że odsetek respondentów w pierwszym decylu jest ponad 3 razy większy niż odsetek respondentów w populacji. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 37 / 98
38 Rezultaty Można wyświetlić również wykres efektów dla tego modelu. Wykres efektów zawiera wartości dla zmiennych z wartościami imputowanymi. Zmiennymi imputowanymi są identyfikowane przez prefiks IMP. Zauważmy, że w tym modelu najważniejsze zmienne w Wykresie efektów to DELINQ (IMP DELINQ), JOB (IMP JOBOFFICE, IMP JOBSALES, IMP JOBPROFEXE, IMP JOBMGR), DEROG (IMP DEROG), NINQ (IMP NINQ) i REASON (IMP REASONDEBTCON). Rysunek: Wykres efektów Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 38 / 98
39 Wstępne badanie Aby zbadać rozkład wszystkich zmiennych w zbiorze, należy kliknąć na węzeł Partycjonowanie, a następnie w właściwościach w nagłówku Uczenie na trzy kropki przy Zmienne. Zaznaczamy wszystkie zmienne i klikamy Eksploruj. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 39 / 98
40 Wstępne badanie Okno podglądu zawiera próbki statystyk dla wszystkich zmiennych, histogram dla zmiennych interwałowych i wykresy słupkowe dla każdej klasy zmiennych. Rysunek: Eksploracja zmiennych Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 40 / 98
41 Wstępne badanie Okno właściwości próby zawiera informacje o próbkach zbioru danych, które użyto do statystyk i grafik w oknie podglądu. Wielkość pobrania wskazuje liczbę obserwacji użytych w próbce. Okno próbek statystycznych pokazuje obliczoną średnią,minimum, maksimum dla zmiennych interwałowych i liczbę poziomu klas, wartość modalną, oraz procent obserwacji w wartości modalnej dla zmiennej klasowej. Procent brakującej zmiennej jest obliczany dla każdej zmiennej. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 41 / 98
42 Wstępne badanie Zmienna CLAGE długość trwania najstarszej linii kredytowej klienta w miesiącu. Szary słupek w lewej części histogramu prezentuje brakujące wartości. Zauważmy, że zdecydowana większość obserwacji jest mniejsza od 350. Zbiór danych CLAGE jest przekrzywiony w prawo. Rysunek: CLAGE Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 42 / 98
43 Wstępne badanie Okno przyczyn pokazuje podane powody, dla których klient wziął pożyczkę. Nieopisany słupek pokazuje brakujące wartości.zauważmy, że więcej ludzi bierze pożyczkę na kredyt konsolidacyjny niż ulepszanie domu. Rysunek: REASON Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 43 / 98
44 Przekształcanie zmiennych Po przejrzeniu próbek statystycznych i zmiennych dystrybucyjnych, możemy zauważyć,że rozkład niektórych zmiennych ma asymetrię. W tym rozkładzie mały procent danych możne mieć duży wpływ na końcowy model. Czasami wykonując transformacje na wejściowej zmiennej można otrzymać lepsze dopasowanie modelu. Do diagramu dorzucamy węzeł Przekształcanie zmiennych w module Modyfikacja i łączymy z Partycjonowaniem. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 44 / 98
45 Przekształcanie zmiennych Skośność wskazuje poziom i kierunek asymetrii. Wartość skośności równa zero mówi, że rozkład jest perfekcyjnie symetryczny. Dodatnia wartość skośności pokazuje że ma prawostronną asymetrię, co opisuje wszystkie zmienne w tym zbiorze danych. Ujemna wartość skośności wskazuje, że rozkład ma lewostronną asymetrię. Kurtoza pokazuje spłaszczenie rozkładu. Jednakże ten przykład skupia się tylko na skośności statystycznej. Węzeł przekształconych zmiennych umożliwia szybkie przekształcenie zmiennych interwałowych używając standardowych przekształceń. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 45 / 98
46 Przekształcanie zmiennych Aby zmniejszyć skośność w naszych zmiennych, klikamy na węzeł Przekształcanie zmiennych. Po lewej stronie we właściwościach odnajdujemy Metody domyślne i przy Przedziałowe zmienne wejściowe zmieniamy na Logarytmiczna. Następnie uruchamiamy węzeł. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 46 / 98
47 Przekształcanie zmiennych W oknie Statystyki przekształceń znajdują się statystyki dla oryginalnych zmiennych i przekształconych. Kolumna Formuła wskazuje wyrażenie użyte do przekształcenia każdej zmiennej. Zauważmy,że wartość bezwzględna skośności statystycznej dla przekształconej zmiennej jest typowo mniejsza niż dla oryginalnej zmiennej. Rysunek: Statystyki-skośność Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 47 / 98
48 Interakcyjne dzielenie na klasy Dodatkową techniką procesowa przed modelowaniem jest interaktywne dzielenie, do którego odnosi się grupowanie. Metoda ta pozwala automatycznie grupować zmienne w klasy na podstawie ustawień węzła. Przez używanie interaktywnego grupowania węzła, można kontrolować liczbę grup zmiennych, udoskonalić moc przewidywania zmiennej, wybrać zmienne przewidujące, generować wagi danych dla każdej grupy zmiennych (WOE-Weight of evidence) oraz sprawić by zmieniało się płynnie przez grupy. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 48 / 98
49 Interakcyjne dzielenie na klasy WOE dla grup zdefiniowane jest jako logarytm stosunku proporcji nieważnych obserwacji w grupie przez proporcje ważnych obserwacji w grupie. Dla binarnego celu zmiennej BAD w tym przykładzie, BAD= 1 jest poziomem ważnym, a BAD= 0 jest poziomem nieważnym. WOE mierzy relatywne ryzyko grup. Wysokie negatywne wartości WOE odnoszą się do wysokiego ryzyka domyślnej pożyczki. Wysokie pozytywne wartości odnoszą się do niskiego ryzyka. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 49 / 98
50 Interakcyjne dzielenie na klasy Po dzieleniu interakcyjnym wartości zdefiniowanej zmiennej można oszacować jej moc predykcyjną. Moc przewidywań jest umiejętnością zmiennej do rozróżniania zdarzeń i nieistniejących obserwacji. W naszym przykładzie jest to umiejętność oddzielenia złych od dobrych klientów kredytowych. Siłę predykcyjną możemy ocenić za pomocą jednego z następujących kryteriów: wartość informacji - jest ważoną sumą WOE w stosunku do grup. Waga jest różnicą między proporcją nieistniejących elementów i proporcją zdarzeń w każdej grupie, współczynnik Giniego - jest taki sam jak współczynnik Giniego w drzewach decyzyjnych. Zmienne WOE są zwykle używane jako dane wejściowe w kolejnych węzłach modelujących. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 50 / 98
51 Interakcyjne dzielenie na klasy Zmienna NINQ była to ilość ostatnio złożonych indywidualnych wniosków kredytowych. NINQ jest zmienną obliczeniową, ale większość obserwacji ma wartość zarówno 0, 1 albo 2. Może być to użyteczne przy tworzeniu zgrupowanej wersji NINQ, gdzie wartości są większe od 2, na nowy poziom 2+ Taki zabieg stworzy nową 3-poziomową zmienną grupującą z NINQ. Prawdą jest że tworzenie zgrupowanej zmiennej, która kondensuje wiele poziomów w jeden złożony poziom może skutkować utratą informacji o dokładnej liczbie zapytań kredytowych. Jednakże taki zabieg umożliwia obsługę nieliniowości w relacji pomiędzy NINQ a zmienną odpowiadająca. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 51 / 98
52 Interakcyjne dzielenie na klasy By dokonać podziału NINQ, dodajemy Interakcyjne dzielenie na klasy do diagramu. Jednakże nie wolno transformować za pomocą tego węzła. Należy zablokować tę funkcje. Używamy tej funkcji do ręcznego podziału zmiennych wejściowych. Prawym przyciskiem myszy klikamy na węzeł Przekształcanie zmiennych i wybieramy opcje Edytuj zmienne. Zmieniamy metodę przy NINQ na Brak. Węzeł ten nie przekształci wtedy tej zmiennej. Uruchamiamy węzeł. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 52 / 98
53 Interakcyjne dzielenie na klasy Przed podziałem NINQ, zauważmy że większość zmiennych ma Wyliczaną rolę Rejected (Odrzucony). W celu użycia tych zmiennych w procesie eksploracji danych, należy ustawić im nową role jako wejście. Rysunek: Interakcyjne dzielenie na klasy Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 53 / 98
54 Interakcyjne dzielenie na klasy W właściwościach uczenie klikamy na trzy kropki przy Interakcyjnych dzieleniach na klasy. Zaznaczamy wszystkie zmienne i prawym przyciskiem myszy klikając na Nową rolę zmieniamy na Input. Rysunek: Interakcyjne dzielenie na klasy-wejście Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 54 / 98
55 Interakcyjne dzielenie na klasy Następnie klikamy na zakładkę Grupowanie, aby wyświetlić poszczególne podziały zmiennych. Rysunek: Grupowanie Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 55 / 98
56 Interakcyjne dzielenie na klasy Węzeł interakcyjnego dzielenia tworzy pięć grup dla NINQ. Zauważmy ze 2 grupy zawierają odpowiednio brakujące i ujemne wartości. Grupa zawierająca ujemne wartości jest pusta. Dla rozpatrywanego przykładu oznacza to, że ostatnio żadne wnioski kredytowe nie zostały złożone. Dlatego chcemy połączyć te dwie grupy w trzecią. Prawym przyciskiem myszy klikamy na grupę 1 a następnie Przypisz do i wybieramy grupę 3. Zauważmy, że grupy zostały ponownie ponumerowane. Następnie powtarzamy ten proces dla pustej grupy zawierającej wartości ujemne, z tym, że przypisujemy to do grupy 2. Nasze grupy ponownie zostają ponumerowane. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 56 / 98
57 Interakcyjne dzielenie na klasy Mamy teraz trzy grupy dla zmiennej NINQ. Chcemy dodać czwartą grupę, która zawiera wszystkie wartości > 2 i zachowuje grupę zawierającą tylko 2. Rysunek: Grupowanie Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 57 / 98
58 Interakcyjne dzielenie na klasy Aby to zrobić, wybieramy wiersz NINQ>= 2 i klikamy prawym przyciskiem myszy. Następnie Podziel klasę. Nazwę nowego obcięcia wpisujemy 2.5 (ponieważ wartości NINQ to tylko liczby całkowite, możemy wybrać dowolną wartość między 2 a 3). Tworzy to nowy zbiór, ale wciąż należy on do tej samej grupy. Aby stworzyć z niego nową grupę klikamy prawym przyciskiem myszy na 2.5 >=NINQ i Grupa= 4. Aby wprowadzić zmiany klikamy Zastosuj w lewym dolnym rogu. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 58 / 98
59 Regresja 3 Wykonamy teraz kolejny model regresji. Przeciągamy węzeł Regresja do diagramu i łączymy z Interakcyjnym dzieleniem na klasy. We właściwościach odszukujemy Wybór modelu. Możemy wybrać jedną z następujących opcji: wsteczna-uczenie rozpoczyna się przy obecności w modelu wszystkich kandydujących efektów. Usuwanie efektów trwa aż do osiągnięcia poziomu istotności pozostania lub spełnienia kryterium stopu. postępująca-uczenie rozpoczyna się przy nieobecności w modelu wszystkich kandydujących efektów i towarzyszy mu dodawanie efektów aż do osiągnięcia poziomu istotności wejścia lub spełnienia kryterium stopu. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 59 / 98
60 Regresja 3 krokowa- uczenie rozpoczyna się jak w modelu Postępującym, lecz może towarzyszyć mu usuwanie efektów już istniejących w modelu. I tak aż do osiągnięcia poziomu istotności pozostania lub spełnienia kryterium stopu. brak-do dopasowania modelu użyte zostaną wszystkie dane wejściowe. W tym przykładzie wybierzemy model Postępujący. W opcji Użyj wyborów domyślnych wybieramy Nie. Opcje wyboru stają się dostępne. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 60 / 98
61 Regresja 3 Rysunek: Opcje wyboru Okno Opcje wyboru otwiera okienko służące do dostosowania ustawień wyboru do własnych potrzeb. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 61 / 98
62 Regresja 3 Rysunek: Opcje wyboru W tym przykładzie ustawiamy wartość poziomu istotności pozostania na 0.025, a początkową liczbę zmiennych na 10 (zapewnia to użycie co najmniej 10 efektów modelu regresji). Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 62 / 98
63 Regresja 3 Analizę tej regresji możemy wykonać analogicznie jak w poprzednich przykładach. Ocenę tego modelu przedstawimy na końcu, podczas porównania wszystkich modeli. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 63 / 98
64 Drzewa decyzyjne W praktycznych zastosowaniach modeli predykcyjnych istotna jest łatwość interpretacji i wyjaśnienia generowanych wyników. Bardzo pomocne są przy tym drzewa decyzyjne, które generują zależności w postaci zbioru warunków logicznych. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 64 / 98
65 Budowa drzewa Budowę drzewa zaczynamy od podziału korzenia.w pierwszym kroku poszukujemy podziału,który pozwoli odnaleźć grupy charakteryzujące się dużą jednorodnością ze względu na wartość zmiennej objaśnianej.warunkiem koniecznym jest poprawa stopnia takiej jednorodności względem elementu,który jest dzielony.szukany jest podział,który zmaksymalizuje różnicę: Z = Z 0 r i=1 n i n 0 Z i gdzie: Z 0 -stopień niejednorodności dzielonego elementu; Z i -stopień niejednorodności i-tego elementu powstającego w wyniku podziału; n 0 -liczebność dzielonego elementu; n i -liczebność i-tego elementu powstającego w wyniku podziału; r-liczba elementów powstających w wyniku podziału; Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 65 / 98
66 Stopień niejednorodności Stopień niejednorodności (zanieczyszczenia) może być oceniany przy użyciu następujących miar: Współczynnik Diniego k Z = 1 pi 2 i=1 gdzie k - liczba kategorii przyjmowanych przez zmienną objaśnianą, p i - odsetek obserwacji przyjmujących i-tą wartość zmiennej objaśnianej. Współczynnik entropii Z = H(p 1,.., p k ) = k p i log 2 (p i ) i=1 Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 66 / 98
67 Węzeł drzewa decyzyjnego W zakładce Modelowanie wybieramy ikonę Drzewa decyzyjne i przeciągamy na pole diagramu analogicznie jak w przypadku Partycjonowania łączymy węzeł Drzewa decyzyjnego z węzłem Partycjonowania. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 67 / 98
68 Nakładka rankingów ocen punktowych Porównanie wykresów wzrostu liftu dla zbioru treningowego i walidacyjnego. Jeżeli krzywe się istotnie różnią,to świadczy to o przetrenowaniu lub niedotrenowaniu modelu. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 68 / 98
69 Statystyki liściowe Wykres porównuje procentowy udział wartości zmiennej objaśnianej równej 1 we wszystkich liściach dla danych treningowych i walidacyjnych.duże różnice w wysokości słupków wskazują, że dany liść należy przyciąć. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 69 / 98
70 Mapa drzewa Mapa drzewa pokazuje jego strukturę,powierzchnia prostokątów odpowiada liczebności w danych węzłach drzewa.natężenie koloru pokazuje stopień jednorodności populacji w danym węźle. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 70 / 98
71 Statystyki dopasowania Tabela pokazuje statystyki dopasowania na zbiorach treningowym, walidacyjnym i ewentualnie testowym. Duże różnice w wartościach statystyk dopasowania mogą wskazywać na przetrenowanie lub niedotrenowanie modelu. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 71 / 98
72 Wynik W wyniku warto zwrócić uwagę na tabelę klasyfkacji,pokazującą udział dobrze i źle sklasyfkowanych obserwacji na zbiorach treningowym i walidacyjnym. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 72 / 98
73 Analiza danych-drzewo 1 Wartość zmiennej objaśnianej. 2 Dane treningowe. 3 Dane walidacyjne. 4 Liczba obserwacji. 5 Udział procentowy dla każdej wartości zmiennej objaśnianej. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 73 / 98
74 Drzewo Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 74 / 98
75 Interpretacja fragmentu drzewa W zbiorze jest 19,94% zadłużonych ludzi, zaś w podzbiorze ludzi o wysokim współczynniku zadłużenia mniejszym niż jest 7,25%. Dzieląc dalej ten podzbiór poprzez wartość obecną hipoteki dostajemy, że spośród zadłużonych ludzi 6.55% z nich ma wartość hipoteki mniejszą niż Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 75 / 98
76 Wykres Klasyfikacji Wybieramy Rezultaty Widok Ocena Wykres klasyfikacji. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 76 / 98
77 Budowa odpowiedniego drzewa Zbyt złożone drzewo (wielokrotnść podziałów,duża głębokość i ilość liści) jest nadmiernie dopasowane do zależności charakterystycznych dla zbioru treningowego,przez co jest bardziej niestabilne (przetrenowanie).zbyt małe drzewo ma większy odsetek błędnych klasyfikacji.optymalną wielkość drzewa możemy wybrać posługując się wykresem błędu średniokwadratowego lub skuteczności klasyfkacji względem liczby liści drzewa. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 77 / 98
78 MSE W rezultatach klikamy: widok model wykres oceny poddrzewa Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 78 / 98
79 Sieci neuronowe Definicja1 Zbiór prostych jednostek obliczeniowych przetwarzających dane, komunikujących się ze sobą i pracujących równolegle. Definicja2 Zbiór połączonych ze sobą jednostek wejściowo-wyjściowych. Z każdym połączeniem skojarzona jest waga, która może zostać zmieniona w trakcie uczenia. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 79 / 98
80 Czym jest sieć neuronowa? Sieci neuronowe w założeniu są to obiekty, które swoim działaniem naśladują aktywność rzeczywistych układów nerwowych w mózgach organizmów żywych.w skutek połączenia szeregu neuronów o stosunkowo prostej budowie i niewielkich możliwościach uzyskuje się strukturę zdolną do przeprowadzania bardzo skomplikowanych procesów rozpoznawania wzorców i klasyfikacji. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 80 / 98
81 Poniżej jest przedstawiony prosty model regresyjny w postaci sieci neuronowej. Warstwa wejściowa zawiera n neuronów (odpowiadających zmiennym) oraz warstwę wyjściową sumującą ważone impulsy i transformującą je do skali oryginalnej zmiennej Y. Rysunek: Przykład sieci neuronowej Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 81 / 98
82 Sieci neuronowe Rozszerzeniem tak opisanej architektury jest model perceptronu wielowarstwowego (MLP - Multi Layer Perceptron), który dodatkowo zawiera warstwę ukrytą. Składa się ona z określonej ilości neuronów, które nieliniowo przekształcają kombinację liniową otrzymanych sygnałów.pojedynczy neuron z warstwy ukrytej składa się z dwóch elementów: sumatora (funkcji łączenia) funkcji aktywacji Pierwszy z nich dokonuje sumowania ważonych sygnałów z warstwy wejściowej oraz wyrazu wolnego, drugi tak otrzymaną sumę przekształca przy użyciu określonej funkcji ciągłej. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 82 / 98
83 Rysunek: Przykład sieci neuronowej Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 83 / 98
84 Funkcja łączenia odpowiada za wytworzenie jednej wartości wejściowej dla danego neuronu z wartości jego poprzedników. Duża część dostępnych w SAS Enterprise Miner funkcji opiera się na radialnej funkcji bazowej - jest to funkcja, której wartości zależą tylko od odległości od ustalonego punktu. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 84 / 98
85 Rodzaj funkcji łączenia addytywna liniowa EQSlopes EQRadial EHRadial Charakterystyka sumuje wszystkie wartości wejściowe stanowi kombinację liniową wartości wejściowych i wag stanowi kombinację liniową wartości wejściowych i wag, przy czym w danej warstwie używa się tej samej wagi, dodając inną wartość współczynnika przesunięcia( ang.bias) dla każdej wartości wejściowej radialna funkcja bazowa z równymi wysokościami i szerokościami w obrębie warstwy radialna funkcja bazowa z równymi wysokościami i nierównymi szerokościami w obrębie warstwy Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 85 / 98
86 Rodzaj funkcji aktywacji Wzór tożsamościowa g liniowa g weight + b wykładnicza exp(g) 1 odwrotna g kwadratowa g 2 1 logistyczna 1+e g Gaussa exp( g 2 ) sinus sin g Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 86 / 98
87 Przetwarzanie informacji w neuronach Pobudzeniem neuronu p domyślnie jest liniowa funkcja sygnałów wejściowych z wagami połączeń jako współczynnikami (combination function). gdzie: x i - wartość zmiennej; w i - waga zmiennej. n p = w i x i, i=1 Sygnał wyjściowy y jest zależny od całkowitego pobudzenia neuronu, transformowanego przez funkcję aktywacji. Pozwala to wprowadzić nieliniowość. y = f (p) = f ( n w i x i ) Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 87 / 98 i=1
88 Węzeł sieci neuronowej Węzeł sieci neuronowej umożliwia konstruowanie, szkolenie i sprawdzanie wielowarstwowych sieci neuronowych feedforward. Użytkownicy mogą wybierać spośród kilku predefiniowanych architektur lub ręcznie wybierać funkcje i opcje wejściowe, ukryte i docelowe warstwy. Dołączamy do diagramu węzeł Sieć neuronowa i łączymy z węzłem Interakcyjne dzielenie na klasy, a następnie uruchamiamy. Domyślnie węzeł ten tworzy wielowarstwowy model perceptonu (MLP-multilayer percepton) bez bezpośrednich połączeń, a liczba ukrytych warstw zależy od danych. Uruchamiamy węzeł. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 88 / 98
89 Sieć neuronowa - rezultaty Okno Statystyki dopasowania wyświetla różne obliczone statystyki dla modelu sieci neuronowej. Okno Wykres iteracji wyświetla różne statystyki, które zostały obliczone w każdej iteracji podczas tworzenia sieci neuronowej. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 89 / 98
90 Sieć neuronowa - rezultaty Wybieramy Widok Ocena Wykres klasyfikacji. Rysunek: Wykres klasyfikacji Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 90 / 98
91 Ocena i porównanie modeli W zakładce Ocena wybieramy Porównanie modeli przeciągamy na pole diagramu i łączymy z węzłami wszystkich prezentowanych metod. Rysunek: Porównanie modeli Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 91 / 98
92 Ocena i porównanie modeli Po wybudowaniu wielu konkurencyjnych modeli predykcyjnych pozostaje zagadnienie wyboru najlepszego z nich, który będzie mógł być zastosowany dla nowo napływających danych. Dopasowanie modelu może być ocenione przy użyciu różnych statystyk. Przykładowe z nich to: Skuteczność klasyfkacji - odsetek poprawnie zaklasyfikowanych przypadków. Miara często używana do oceny modeli klasyfikacyjnych wtedy, gdy każdy z obserwowanych przypadków można traktować z równą wagą. Błąd średniokwadratowy - średnia wartość kwadratu różnicy pomiędzy predykcją a rzeczywistą wartością. W przypadku binarnych zagadnień klasyfikacyjnych wartością przewidywaną jest prawdopodobieństwo, a wartością rzeczywistą 0 lub 1. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 92 / 98
93 Statystyki dopasowania Maksymalny błąd bezwzględny - wartość bezwzględna największej różnicy pomiędzy wartością przewidywaną a rzeczywistą. Miara oceniająca maksymalny spodziewany błąd predykcji. Statystyka Kołmogorowa-Smirnowa - określa, jak dobrze dwie klasy zmiennej objaśnianej są rozróżniane przez model. Jej wartość obliczana jest jako: max F 1 (t) F 0 (t) t F 0 (t), F 1 (t) - wartości dystrybuanty empirycznej predykcji dla grup obserwacji, w których zmienna objaśniana przyjmuje odpowiednio wartości 0 i 1. Im większa wartość tej statystyki, tym większe różnice w prawdopodobieństwach przydzielanych obu grupom, a więc tym większa moc dyskryminacyjna modelu. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 93 / 98
94 Wzrost (Lift) - miara dla określonego odsetka populacji będącej przedmiotem zagadnienia klasyfikacyjnego. Obliczana jest poprzez podzielenie odsetka zaobserwowanych zdarzeń w górnych n% populacji posortowanej malejąco według przewidywanych prawdopodobieństw przez procent tych samych zdarzeń w całej populacji. Indeks ROC - miara określająca skuteczność modelu w rozpoznawaniu różnic pomiędzy popopulacjami o różnych wartościach zmiennej objaśnianej. Powstaje poprzez obliczenie pola pod krzywą ROC, która konstruowana jest w następujący sposób: z populacji posortowanej malejąco według przydzielonych prawdopodobieństw wybierane jest górne k% obserwacji; przy założeniu, że w wybranej podpopulacji znajduje się x jedynek i y zer oraz oznaczając przez n 1 in 0 liczności tych klas w całej rozpatrywanej próbie, obliczane są następujące wartości: 1-specyficzność= y n 0 wrażliwość = x n 1 Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 94 / 98
95 tak opisane operacje powtarzane są dla różnych wartości k, a otrzymane wartości łączone są w krzywą. W związku z powyższym im bardziej wykres krzywej skierowany jest w stronę lewego górnego rogu, tym lepsze własności klasyfikacyjne badanego modelu. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 95 / 98
96 Krzywa ROC Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 96 / 98
97 Skumulowany lift Wykres przyrostu pokazuje o ile częściej niż w danych źródłowych przewidywana klasa występuje w próbie wskazanej przez dany model. Uzyskana w ten sposób krzywa powinna gładko spadać od największej wartości do 1. Gwałtowne skoki w górę sugerują, że model jest nieodpowiedni (oznaczają one, że model niezgodnie z rzeczywistością przewiduje szansę przynależności do klasy: tam gdzie według modelu jest ona mniejsza, w rzeczywistości jest większa). Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 97 / 98
98 Statystyki dopasowania Na podstawie przedstawionych statystyk najlepszym modelem jest drzewo decyzyjne. Klaudia Malinowska, Simona Pikuła Data Mining Statystyka w SAS 98 / 98
Statystyka w SAS. Data Mining. Krzysztof Glapiak, Mateusz Borsuk, Jakub Gierasimczyk, Arkadiusz Gałecki. 15 czerwca Matematyka Finansowa
Statystyka w SAS Krzysztof Glapiak, Mateusz Borsuk, Jakub Gierasimczyk, Arkadiusz Gałecki Matematyka Finansowa 15 czerwca 2015 Plan prezentacji 1 Wstęp - czym jest 2 3 4 5 Sieci neuronowe 6 Czym jest?
Drzewa decyzyjne w SAS Enterprise Miner
Drzewa decyzyjne w SAS Enterprise Miner Aneta Ptak-Chmielewska Instytut Statystyki i Demografii Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych www.sgh.waw.pl/zaklady/zahziaw 1 struktura ćwiczeń
Data mining. Wydział Fizyki Technicznej i Matematyki Stosowanej Politechnika Gdańska. 14 czerwca 2018
Data mining Maciej Jędrzejczyk Paulina Konecka Wydział Fizyki Technicznej i Matematyki Stosowanej Politechnika Gdańska 14 czerwca 2018 Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 1
Sieci neuronowe w Statistica
http://usnet.us.edu.pl/uslugi-sieciowe/oprogramowanie-w-usk-usnet/oprogramowaniestatystyczne/ Sieci neuronowe w Statistica Agnieszka Nowak - Brzezińska Podstawowym elementem składowym sztucznej sieci neuronowej
SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006
SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu
Projekt Sieci neuronowe
Projekt Sieci neuronowe Chmielecka Katarzyna Gr. 9 IiE 1. Problem i dane Sieć neuronowa miała za zadanie nauczyć się klasyfikować wnioski kredytowe. W projekcie wykorzystano dane pochodzące z 110 wniosków
Sieci neuronowe w Statistica. Agnieszka Nowak - Brzezioska
Sieci neuronowe w Statistica Agnieszka Nowak - Brzezioska Podstawowym elementem składowym sztucznej sieci neuronowej jest element przetwarzający neuron. Schemat działania neuronu: x1 x2 w1 w2 Dendrites
ALGORYTM RANDOM FOREST
SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM
Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.
ANALIZA SKUPIEŃ Metoda k-means I. Cel zadania Zadaniem jest analiza zbioru danych, gdzie zmiennymi są poziomy ekspresji genów. Podczas badań pobrano próbki DNA od 36 różnych pacjentów z chorobą nowotworową.
SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU)
SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU) 1. Opis problemu - ocena końcowa projektu Projekt jako nowe, nietypowe przedsięwzięcie wymaga właściwego zarządzania. Podjęcie się realizacji
MODELE LINIOWE. Dr Wioleta Drobik
MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą
Niestandardowa tabela częstości
raportowanie Niestandardowa tabela częstości Przemysław Budzewski Predictive Solutions Do czego dążymy W Generalnym Sondażu Społecznym USA w 1991 roku badaniu poddano respondentów należących do szeregu
Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007
Modele regresji wielorakiej - dobór zmiennych, szacowanie Paweł Cibis pawel@cibis.pl 1 kwietnia 2007 1 Współczynnik zmienności Współczynnik zmienności wzory Współczynnik zmienności funkcje 2 Korelacja
Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej
Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej Paweł Cibis pawel@cibis.pl 23 lutego 2007 1 Regresja liniowa 2 wzory funkcje 3 Korelacja liniowa
Jak przekształcać zmienne jakościowe?
Data Preparation Jak przekształcać zmienne jakościowe? Marta Płonka Predictive Solutions W ostatnim artykule zobaczyliśmy, jak sprawdzić, czy między wybranymi przez nas predyktorami a zmienną przewidywaną
( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:
ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość
Wykład 5: Statystyki opisowe (część 2)
Wykład 5: Statystyki opisowe (część 2) Wprowadzenie Na poprzednim wykładzie wprowadzone zostały statystyki opisowe nazywane miarami położenia (średnia, mediana, kwartyle, minimum i maksimum, modalna oraz
Wprowadzenie do analizy dyskryminacyjnej
Wprowadzenie do analizy dyskryminacyjnej Analiza dyskryminacyjna to zespół metod statystycznych używanych w celu znalezienia funkcji dyskryminacyjnej, która możliwie najlepiej charakteryzuje bądź rozdziela
Eksploracja danych. Definicja (Eksploracja danych)
Data mining Stefania Wietrzykowska, Piotr Lebiedź Politechnika Gdańska Wydział Fizyki Technicznej i Matematyki Stosowanej 11 czerwca 2017 tefania Wietrzykowska, Piotr Lebiedź (Politechnika Gdańska Data
ALGORYTMY SZTUCZNEJ INTELIGENCJI
ALGORYTMY SZTUCZNEJ INTELIGENCJI Sieci neuronowe 06.12.2014 Krzysztof Salamon 1 Wstęp Sprawozdanie to dotyczy ćwiczeń z zakresu sieci neuronowych realizowanym na przedmiocie: Algorytmy Sztucznej Inteligencji.
5. Model sezonowości i autoregresji zmiennej prognozowanej
5. Model sezonowości i autoregresji zmiennej prognozowanej 1. Model Sezonowości kwartalnej i autoregresji zmiennej prognozowanej (rząd istotnej autokorelacji K = 1) Szacowana postać: y = c Q + ρ y, t =
Temat: Sztuczne Sieci Neuronowe. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE
Temat: Sztuczne Sieci Neuronowe Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE Dr inż. Barbara Mrzygłód KISiM, WIMiIP, AGH mrzyglod@ agh.edu.pl 1 Wprowadzenie Sztuczne sieci neuronowe
You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com)
Prezentacja materiału statystycznego Szeroko rozumiane modelowanie i prognozowanie jest zwykle kluczowym celem analizy danych. Aby zbudować model wyjaśniający relacje pomiędzy różnymi aspektami rozważanego
Regresja linearyzowalna
1 z 5 2007-05-09 23:22 Medycyna Praktyczna - portal dla lekarzy Regresja linearyzowalna mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie Data utworzenia:
Wykład 4: Statystyki opisowe (część 1)
Wykład 4: Statystyki opisowe (część 1) Wprowadzenie W przypadku danych mających charakter liczbowy do ich charakterystyki można wykorzystać tak zwane STATYSTYKI OPISOWE. Za pomocą statystyk opisowych można
STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;
STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych; - badanie skuteczności nowego leku; - badanie stopnia zanieczyszczenia gleb metalami
Badanie zależności skala nominalna
Badanie zależności skala nominalna I. Jak kształtuje się zależność miedzy płcią a wykształceniem? II. Jak kształtuje się zależność między płcią a otyłością (opis BMI)? III. Jak kształtuje się zależność
Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski
Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Zadanie 1 Eksploracja (EXAMINE) Informacja o analizowanych danych Obserwacje Uwzględnione Wykluczone Ogółem
Dopasowywanie modelu do danych
Tematyka wykładu dopasowanie modelu trendu do danych; wybrane rodzaje modeli trendu i ich właściwości; dopasowanie modeli do danych za pomocą narzędzi wykresów liniowych (wykresów rozrzutu) programu STATISTICA;
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner rok akademicki 2014/2015 Sieci Kohonena Sieci Kohonena Sieci Kohonena zostały wprowadzone w 1982 przez fińskiego
INSTRUKCJA DO PROGRAMU EPANET 2.0 PL
Wprowadzenie danych INSTRUKCJA DO PROGRAMU EPANET 2.0 PL 1. Klikamy prawy przyciskiem myszy na mapie. Następnie Opcje/Oznaczenia i zaznaczamy Wyświetl identyfikatory węzłów, Wyświetl identyfikatory rur.
LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej
LABORATORIUM 3 Przygotowanie pliku (nazwy zmiennych, export plików.xlsx, selekcja przypadków); Graficzna prezentacja danych: Histogramy (skategoryzowane) i 3-wymiarowe; Wykresy ramka wąsy; Wykresy powierzchniowe;
Instrukcja obsługi programu Do-Exp
Instrukcja obsługi programu Do-Exp Autor: Wojciech Stark. Program został utworzony w ramach pracy dyplomowej na Wydziale Chemicznym Politechniki Warszawskiej. Instrukcja dotyczy programu Do-Exp w wersji
Analiza składowych głównych. Wprowadzenie
Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących
Wprowadzenie do analizy korelacji i regresji
Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
Podstawowe definicje statystyczne
Podstawowe definicje statystyczne 1. Definicje podstawowych wskaźników statystycznych Do opisu wyników surowych (w punktach, w skali procentowej) stosuje się następujące wskaźniki statystyczne: wynik minimalny
Analiza Statystyczna
Lekcja 5. Strona 1 z 12 Analiza Statystyczna Do analizy statystycznej wykorzystać można wbudowany w MS Excel pakiet Analysis Toolpak. Jest on instalowany w programie Excel jako pakiet dodatkowy. Oznacza
W1. Wprowadzenie. Statystyka opisowa
W1. Wprowadzenie. Statystyka opisowa dr hab. Jerzy Nakielski Zakład Biofizyki i Morfogenezy Roślin Plan wykładu: 1. O co chodzi w statystyce 2. Etapy badania statystycznego 3. Zmienna losowa, rozkład
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6 Metody sprawdzania założeń w analizie wariancji: -Sprawdzanie równości (jednorodności) wariancji testy: - Cochrana - Hartleya - Bartletta -Sprawdzanie zgodności
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner rok akademicki 2014/2015 Sieci neuronowe Sieci neuronowe w SAS Enterprise Miner Węzeł Neural Network Do
Regresja logistyczna (LOGISTIC)
Zmienna zależna: Wybór opcji zachodniej w polityce zagranicznej (kodowana jako tak, 0 nie) Zmienne niezależne: wiedza o Unii Europejskiej (WIEDZA), zamieszkiwanie w regionie zachodnim (ZACH) lub wschodnim
Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii
SPIS TREŚCI Przedmowa... 11 Wykaz symboli... 15 Litery alfabetu greckiego wykorzystywane w podręczniku... 15 Symbole wykorzystywane w zagadnieniach teorii mnogości (rachunku zbiorów)... 16 Symbole stosowane
Aproksymacja funkcji a regresja symboliczna
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą
TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.
TESTY NIEPARAMETRYCZNE 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa. Standardowe testy równości średnich wymagają aby badane zmienne losowe
Analiza współzależności zjawisk
Analiza współzależności zjawisk Informacje ogólne Jednostki tworzące zbiorowość statystyczną charakteryzowane są zazwyczaj za pomocą wielu cech zmiennych, które nierzadko pozostają ze sobą w pewnym związku.
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny
Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski
Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej
TWORZENIE I STOSOWANIE MODELU DATA MINING ZA POMOCĄ PRZEPISÓW STATISTICA DATA MINER NA PRZYKŁADZIE WYKRYWANIA NADUŻYĆ
TWORZENIE I STOSOWANIE MODELU DATA MINING ZA POMOCĄ PRZEPISÓW STATISTICA DATA MINER NA PRZYKŁADZIE WYKRYWANIA NADUŻYĆ Tomasz Demski, StatSoft Polska Sp. z o.o. Narzędzia zgłębiania danych (data mining)
Algorytmy metaheurystyczne Wykład 11. Piotr Syga
Algorytmy metaheurystyczne Wykład 11 Piotr Syga 22.05.2017 Drzewa decyzyjne Idea Cel Na podstawie przesłanek (typowo zbiory rozmyte) oraz zbioru wartości w danych testowych, w oparciu o wybrane miary,
Próba własności i parametry
Próba własności i parametry Podstawowe pojęcia Zbiorowość statystyczna zbiór jednostek (obserwacji) nie identycznych, ale stanowiących logiczną całość Zbiorowość (populacja) generalna skończony lub nieskończony
Sposoby prezentacji problemów w statystyce
S t r o n a 1 Dr Anna Rybak Instytut Informatyki Uniwersytet w Białymstoku Sposoby prezentacji problemów w statystyce Wprowadzenie W artykule zostaną zaprezentowane podstawowe zagadnienia z zakresu statystyki
Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41
Statystyka Wykład 4 Magdalena Alama-Bućko 13 marca 2017 Magdalena Alama-Bućko Statystyka 13 marca 2017 1 / 41 Na poprzednim wykładzie omówiliśmy następujace miary rozproszenia: Wariancja - to średnia arytmetyczna
Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu
Wykład 11-12 Centralne twierdzenie graniczne Statystyka matematyczna: Estymacja parametrów rozkładu Centralne twierdzenie graniczne (CTG) (Central Limit Theorem - CLT) Centralne twierdzenie graniczne (Lindenberga-Levy'ego)
Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22
Spis treści Przedmowa do wydania pierwszego.... 11 Przedmowa do wydania drugiego.... 15 Wykaz symboli.... 17 Litery alfabetu greckiego wykorzystywane w podręczniku.... 17 Symbole wykorzystywane w zagadnieniach
Zadanie Wstaw wykres i dokonaj jego edycji dla poniższych danych. 8a 3,54 8b 5,25 8c 4,21 8d 4,85
Zadanie Wstaw wykres i dokonaj jego edycji dla poniższych danych Klasa Średnia 8a 3,54 8b 5,25 8c 4,21 8d 4,85 Do wstawienia wykresu w edytorze tekstu nie potrzebujemy mieć wykonanej tabeli jest ona tylko
Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy)
Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy) Co na dzisiejszym wykładzie: definicje, sposoby wyznaczania i interpretacja STATYSTYK OPISOWYCH prezentacja
Testy nieparametryczne
Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów
Zmienne zależne i niezależne
Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }
Aby przejść do edycji w tym module należy wybrać zakładkę "Dla Pracowników" -> "Sprawdziany".
Sprawdziany Sprawdziany Moduł "Sprawdziany" oferuje osobom prowadzącym zajęcia wygodny sposób informowania studentów o wynikach/ocenach jakie uzyskali (np. z kartkówek, różnego rodzaju zadań, ogólne jakie
Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji, współczynnik korelacji wielorakiej. Paweł Cibis
Regresja liniowa, współczynnik zmienności, współczynnik korelacji, współczynnik korelacji wielorakiej Paweł Cibis pcibis@o2.pl 9 marca 2006 1 Regresja liniowa 2 wzory funkcje 3 Korelacja liniowa wzory
Rozkład materiału nauczania
Dział/l.p. Ilość godz. Typ szkoły: TECHNIKUM Zawód: TECHNIK USŁUG FRYZJERSKICH Rok szkolny 2017/2018 Przedmiot: MATEMATYKA Klasa: III 60 godzin numer programu T5/O/5/12 Rozkład materiału nauczania Temat
w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(), zwaną funkcją aproksymującą
Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część
Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część populacji, którą podaje się badaniu statystycznemu
Stochastyczne Metody Analizy Danych. PROJEKT: Analiza kluczowych parametrów turbin wiatrowych
PROJEKT: Analiza kluczowych parametrów turbin wiatrowych Projekt jest wykonywany z wykorzystaniem pakietu statystycznego STATISTICA. Praca odbywa się w grupach 2-3 osobowych. Aby zaliczyć projekt, należy
-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak
Wzory dla szeregu szczegółowego: Wzory dla szeregu rozdzielczego punktowego: ->Średnia arytmetyczna ważona -> Średnia arytmetyczna (5) ->Średnia harmoniczna (1) ->Średnia harmoniczna (6) (2) ->Średnia
ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x
ZJAZD 4 KORELACJA, BADANIE NIEZALEŻNOŚCI, ANALIZA REGRESJI Analiza korelacji i regresji jest działem statystyki zajmującym się badaniem zależności i związków pomiędzy rozkładami dwu lub więcej badanych
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość
Dwie metody Klasyczna metoda histogramu jako narzędzie do postawienia hipotezy, jaki rozkład prawdopodobieństwa pasuje do danych Indukcja drzewa decyzyjnego jako metoda wykrycia klasyfikatora ukrytego
Ć w i c z e n i e 3 : W i z u a l i z a c j a d a n y c h - w y k r e s y S t r o n a 1
Ć w i c z e n i e 3 : W i z u a l i z a c j a d a n y c h - w y k r e s y S t r o n a 1 Zadanie 1. Tworzenie wykresów zmiennych jakościowych wyrażonych w skali nominalnej i porządkowej. Utworzyć wykres
1. Właściwości kosztorysu Współczynniki i narzuty dla kosztorysu
1. Właściwości kosztorysu Współczynniki i narzuty dla kosztorysu W oknie Właściwości kosztorysu na zakładce Współczynniki i narzuty definiujemy globalne współczynniki i narzuty dla kosztorysu. Dane wprowadzane
Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na
Podstawowe pojęcia Zbiorowość statystyczna zbiór jednostek (obserwacji) nie identycznych, ale stanowiących logiczną całość Zbiorowość (populacja) generalna skończony lub nieskończony zbiór jednostek, które
WYKRESY SPORZĄDZANE W UKŁADZIE WSPÓŁRZĘDNYCH:
WYKRESY SPORZĄDZANE W UKŁADZIE WSPÓŁRZĘDNYCH: Zasada podstawowa: Wykorzystujemy możliwie najmniej skomplikowaną formę wykresu, jeżeli to możliwe unikamy wykresów 3D (zaciemnianie treści), uwaga na kolory
Elementy statystyki wielowymiarowej
Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych
Ćwiczenia nr 4. Arkusz kalkulacyjny i programy do obliczeń statystycznych
Ćwiczenia nr 4 Arkusz kalkulacyjny i programy do obliczeń statystycznych Arkusz kalkulacyjny składa się z komórek powstałych z przecięcia wierszy, oznaczających zwykle przypadki, z kolumnami, oznaczającymi
Optymalizacja ciągła
Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej
Wojciech Skwirz
1 Regularyzacja jako metoda doboru zmiennych objaśniających do modelu statystycznego. 2 Plan prezentacji 1. Wstęp 2. Część teoretyczna - Algorytm podziału i ograniczeń - Regularyzacja 3. Opis wyników badania
Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW
Założenia do analizy wariancji dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW anna_rajfura@sggw.pl Zagadnienia 1. Normalność rozkładu cechy Testy: chi-kwadrat zgodności, Shapiro-Wilka, Kołmogorowa-Smirnowa
Grupowanie materiału statystycznego
Grupowanie materiału statystycznego Materiał liczbowy, otrzymany w wyniku przeprowadzonej obserwacji statystycznej lub pomiaru, należy odpowiednio usystematyzować i pogrupować. Doskonale nadają się do
UNIWERSYTET RZESZOWSKI KATEDRA INFORMATYKI
UNIWERSYTET RZESZOWSKI KATEDRA INFORMATYKI LABORATORIUM TECHNOLOGIA SYSTEMÓW INFORMATYCZNYCH W BIOTECHNOLOGII Aplikacja bazodanowa: Cz. II Rzeszów, 2010 Strona 1 z 11 APLIKACJA BAZODANOWA MICROSOFT ACCESS
1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:
Wprowadzenie Statystyka opisowa to dział statystyki zajmujący się metodami opisu danych statystycznych (np. środowiskowych) uzyskanych podczas badania statystycznego (np. badań terenowych, laboratoryjnych).
Zastosowania sieci neuronowych
Zastosowania sieci neuronowych aproksymacja LABORKA Piotr Ciskowski zadanie 1. aproksymacja funkcji odległość punktów źródło: Żurada i in. Sztuczne sieci neuronowe, przykład 4.4, str. 137 Naucz sieć taką
3. Modele tendencji czasowej w prognozowaniu
II Modele tendencji czasowej w prognozowaniu 1 Składniki szeregu czasowego W teorii szeregów czasowych wyróżnia się zwykle następujące składowe szeregu czasowego: a) składowa systematyczna; b) składowa
1. Otwórz pozycję Piston.iam
1. Otwórz pozycję Piston.iam 2. Wybierz z drzewa wyboru poziomego Środowisko następnie Symulacja Dynamiczna 3. Wybierz Ustawienia Symulacji 4. W ustawieniach symulacji dynamicznej zaznacz: - Automatycznie
Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )
Statystyka Rozkład prawdopodobieństwa Testowanie hipotez Wykład III (04.01.2016) Rozkład t-studenta Rozkład T jest rozkładem pomocniczym we wnioskowaniu statystycznym; stosuje się go wyznaczenia przedziału
ZARZĄDZANIE DANYMI W STATISTICA
Wprowadzenie do STATISTICA Krzysztof Regulski AGH, WIMiIP ZARZĄDZANIE DANYMI W STATISTICA 1) Zastosowanie: STATISTICA umożliwia w zakresie zarządzania danymi m.in.: scalanie plików sprawdzanie danych sortowanie
weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)
PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5. Testy parametryczne (na
Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski
Literatura STATYSTYKA OPISOWA A. Aczel, Statystyka w Zarządzaniu, PWN, 2000 A. Obecny, Statystyka opisowa w Excelu dla szkół. Ćwiczenia praktyczne, Helion, 2002. A. Obecny, Statystyka matematyczna w Excelu
Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.
Ćwiczenie: Wybrane zagadnienia z korelacji i regresji. W statystyce stopień zależności między cechami można wyrazić wg następującej skali: Skala Guillforda Przedział Zależność Współczynnik [0,00±0,20)
4. Średnia i autoregresja zmiennej prognozowanej
4. Średnia i autoregresja zmiennej prognozowanej 1. Średnia w próbie uczącej Własności: y = y = 1 N y = y t = 1, 2, T s = s = 1 N 1 y y R = 0 v = s 1 +, 2. Przykład. Miesięczna sprzedaż żelazek (szt.)
Testowanie modeli predykcyjnych
Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności
Statystyka i analiza danych pomiarowych Podstawowe pojęcia statystyki cz. 2. Tadeusz M. Molenda Instytut Fizyki, Uniwersytet Szczeciński
Statystyka i analiza danych pomiarowych Podstawowe pojęcia statystyki cz. 2. Tadeusz M. Molenda Instytut Fizyki, Uniwersytet Szczeciński Opracowanie materiału statystycznego Szereg rozdzielczy częstości
Arkusz kalkulacyjny MS EXCEL ĆWICZENIA 4
Arkusz kalkulacyjny MS EXCEL ĆWICZENIA 4 Uwaga! Każde ćwiczenie rozpoczynamy od stworzenia w katalogu Moje dokumenty swojego własnego katalogu roboczego, w którym będziecie Państwo zapisywać swoje pliki.
Statystyka matematyczna i ekonometria
Statystyka matematyczna i ekonometria prof. dr hab. inż. Jacek Mercik B4 pok. 55 jacek.mercik@pwr.wroc.pl (tylko z konta studenckiego z serwera PWr) Konsultacje, kontakt itp. Strona WWW Elementy wykładu.
4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74
3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15