- wykład 1/41 wykład - wykład Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska 27 października 2016
- wykład 2/41 wykład 1 2 3 4 5
- wykład 3/41 CRISP-DM - standaryzacja wykład
- wykład 4/41 Przykładowe metody wykład Zadanie opis szacowanie przewidywanie odkrywanie reguł klasyfikacja grupowanie Przykładowe metody eksploracyjna analiza reguły asocjacyjne drzewa decyzyjne podejście podejście reguły asocjacyjne algorytm k-najbliższych sąsiadów drzewa decyzyjne sieci neuronowe grupowanie hierarch. i metoda k-średnich sieci Kohonena
- wykład 5/41 Metody wykład metody jednowymiarowe estymacja statystyczna estymacja punktowa przedział ufności prosta regresji liniowej regresja wielokrotna
- wykład 6/41 Miary środka I wykład Miary środka są szczególnym przypadkiem miar położenia, miarami ilościowych podsumowań, które wskazują, gdzie na osi leży dana charakterystyka zmiennej. Wyróżniamy podstawowe miary środka: Średnia arytmetyczna zmiennej x = n i=1 x n ;
- wykład 7/41 Miary środka II wykład Mediana - wartość cechy w szeregu uporządkowanym, powyżej i poniżej której znajduje się jednakowa liczba obserwacji. By obliczyć medianę ze zbioru n obserwacji, sortujemy je w kolejności od najmniejszej do największej i numerujemy od 1 do n. Następnie, jeśli n jest nieparzyste, medianą jest wartość obserwacji w środku (czyli obserwacji numer n+1 2 ). Jeśli natomiast n jest parzyste, wynikiem jest średnia arytmetyczna między dwiema środkowymi obserwacjami, czyli obserwacją numer n 2 i obserwacją numer n 2 + 1. Dominanta (dominanta, wartość modalna) - wartość o największym prawdopodobieństwie wystąpienia, lub wartość najczęściej występująca w próbie.
- wykład 8/41 Przykład - portfel akcji - współczynnik cena zysk wykład Portfel akcji A Portfel akcji B 1 7 11 8 11 11 11 11 16 13
- wykład 9/41 Miary zmienności i rozrzutu I wykład Miary zmienności i rozrzutu określaja jak bardzo dane są rozrzucone. Wyróżniamy: Zakres (max min) Odchylenie standardowe s = n (x i x) 2 n i=1 Średnie odchylenie bezwzględne D = ni=1 x i x n
- wykład 10/41 Miary zmienności i rozrzutu II wykład odstęp międzykwartylowy (kwartylny, ćwiartkowy) - różnica między kwartylem górnym (wartość w zestawie, od której większych jest 25% wartości z tego zestawu) i kwartylem dolnym (wartość w zestawie, od której mniejszych jest 25% wartości z tego zestawu).
- wykład 11/41 Wnioskowanie I wykład Wnioskowanie składa się z metod szacowania i testowania hipotez o cechach populacji na podstawie informacji zawartych w próbce. Populacja jest zbiorem wszystkich elementów (osób, rzeczy, ) dotyczących danego badania. Parametr jest cechą charakterystyczną populacji.
- wykład 12/41 Wnioskowanie II wykład Próbka jest reprezentatywnym podzbiorem populacji (jeżeli próbka nie jest reprezentaywna - charakterystyka próbki odbiega od charakterystyki populacji - nie należy stosować wnioskowania go). Statystyka jest charakterystyką próbki. Szacowanie wartości punktu użycie pojedynczej znanej wartości statystyki do szacowania parametru populacji. Obserwowana wartość statystyki jest nazywana punktem szacunkowym.
- wykład 13/41 Wnioskowanie III wykład Statystyka...szacuje... parametr próbki populacji średnia x µ odchylenie s σ standardowe procent p π
- wykład 14/41 Wiarygodność szacowania wykład Błąd próbkowania - różnica pomiędzy obserwowaną wartością szacowanego punktu, a nieznaną wartością parametru celu, zdefiniowana jako statystyka - parametr. Przedział ufności - przedział liczb stworzonych przez estymację punktu, razem z poziomem ufności, określającym prawdopodobieństwo tego, że przedział zawiera parametr.
- wykład 15/41 Przedział ufności wykład Większość przedziałów ufności przybiera postać: szacowany punkt ± margines błędu Na przykład: x ± t α/2 (s/ n)
- wykład 16/41 Metody nadzorowane i nienadzorowane wykład Metody nienadzorowane charakteryzują się niezdefiniowaną zmienną celu. Algorytm poszukuje wzorców i struktur wśród wszystkich zmiennych (np. grupowanie, reguły asocjacyjne). Metody nadzorowane określona zmienna celu jest wiele przykładów ze znaną wartością zmiennej celu - algorytm może nauczyc się, które wartości zmiennej celu są powiązane, z którymi wartościami zmiennych opisujących (np. regresja, drzewa decyzyjne, algorytm k-najbliższych sąsiadów).
- wykład 17/41 Metodologia modelu nadzorowanego wykład
- wykład 18/41 Optymalny poziom złożoności modelu wykład
- wykład 19/41 Kompromis obciążeniowo-wariacyjny I wykład
- wykład 20/41 Kompromis obciążeniowo-wariacyjny II wykład
- wykład 21/41 Kompromis obciążeniowo-wariacyjny III wykład Model o dużej złożoności ma małe obciążenie (pod względem współczynnika błędu na zbiorze uczącym), za to ma dużą wariancję. Model o małej złożoności ma duże obciążenie i małą wariancję.
- wykład 22/41 wykład metoda estymowania wartości oczekiwanej zmiennej ŷ przy znanych wartościach innej zmiennej lub zmiennych x. Szukana zmienna ŷ jest tradycyjnie nazywana zmienną objaśnianą, lub zależną. Inne zmienne x nazywa się zmiennymi objaśniającymi lub niezależnymi. Zarówno zmienne objaśniane, jak i objaśniające, mogą być wielkościami skalarnymi lub wektorami. Równanie regresji: ŷ = b 0 + b 1 x ŷ - szacowana wartość zmiennej celu b 0 - punkt przecięcia linii regresji z osią y b 1 - nachylenie linii regresji b 0 i b 1 - wspólczynniki regresji
- wykład 23/41 wykład Zalety: Wady: bardzo szybka (działa w czasie stałym - generalnie nie zależy od wielkości wejściowych), łatwo zrozumieć model, mniej podatna na nadmierne dopasowanie. nie pozwala na modelowanie skomplikowanych relacji, nie pozwala na wychwycenie nieliniowych zależności bez wcześniejszego przetworzenia wejściowych. Dobra w: bliższym przyjżeniu się danym, numerycznych zawierających wiele atrybutów.
- wykład 24/41 Prosta regresji liniowej I wykład
- wykład 25/41 Prosta regresji liniowej II wykład
- wykład 26/41 wielokrotna I wykład
- wykład 27/41 wielokrotna II wykład
- wykład 28/41 dwóch zmiennych wykład Dane zawierające 47 próbek: powierzchni domu (pow, stopy kwadratowe), liczby sypialni (ll), rzeczywistej wartości domu (USD). 2104,3,399900 1600,3,329900 2400,3,369000 1416,2,232000 3000,4,539900 1985,4,299900 1534,3,314900... Dane dostępne na: https://github.com/emersonmoretto/mlclass-ex1
- wykład 29/41 Wczytywanie, równanie normalne wykład data = csvread( ex1data2.txt ); X = data(:, 1:2); y = data(:, 3); m = length(y); %% [X sr sigma] = standaryzacja(x); X = [ones(m, 1) X]; % Wyznaczenie parametrow b z rownania normalnego b = zeros(size(x, 2), 1); b = pinv(x *X)*X *y;
- wykład 30/41 Metoda najmniejszych kwadratów wykład Mamy dane równanie w postaci macierzowej: Xb = y wykorzystujemy metodę najmniejszych kwadratów korzystając z układu równań normalnych (minimaluzje sumę kwadratów po obu stronach równania) X T Xb = X T y, gdzie: X - wektor n-elementowy zmiennych niezależnych, b - wektor niewiadomych czyli współczynniki regresji y - wartości zmiennej celu, wartośći funkcji, X [20, 3] b[3, 1] = y[20, 1] X T [3, 20] X [20, 3] b[3, 1] = X T [3, 20] y[20, 1] Przekształcenie: Xb = y ==> X 1 Xb = X 1 y ==> b = X 1 y X T Xb = X T y ==> (X T X ) 1 (X T X )b = (X T X ) 1 X T y b = (X T X ) 1 X T y ==> zgadza się :)
- wykład 31/41 Standaryzacja wykład standaryzacja wartości zmiennych w macierzy X wartość średnia każdej ze zmiennych wynosi 0 odchylenie standardowe wynosi 1 function [X_std, sr, sigma] = standaryzacja(x) X_std = X; sr = zeros(1, size(x, 2)); sigma = zeros(1, size(x, 2)); sr = mean(x); sigma = std(x); for i=1:(size(sr))+1, X_std(:,i) = (X(:,i).- sr(i)) / sigma(i); end end
- wykład 32/41 Wykresy rozrzutu wykład figure( Position,[200,300,1000,700]); subplot (2, 1, 1) plot(x(:,2),y, r*, MarkerSize, 10); xlabel( powierzchnia ); ylabel( cena ); subplot (2, 1, 2) plot(x(:,3),y, r*, MarkerSize, 10); xlabel( liczba lazienek ); ylabel( cena );
- wykład 33/41 Wykresy rozrzutu wykład
- wykład 34/41 Obliczenia i wynik wykład Bez standaryzacji Współczynniki regresji (b 0, b 1, b 2 ): 89597.91, 139.21, -8738.02 Równanie regresji: ŷ = 89597.91 + 139.21 pow 8738.02 ll Po standaryzacji Współczynniki regresji (b 0, b 1, b 2 ): 340412.66, 110631.05, -6649.47 Równanie regresji: ŷ = 340412.66 + 110631.05 pow 6649.47 ll
- wykład 35/41 Wykres regresji dwóch zmiennych wykład zz=zeros(m,1); for k=1:m zz(k)=b(1)*x(k,1) + b(2)*x(k,2) + b(3)*x(k,3); end plot3(x(:,2),x(:,3),y, r*, MarkerSize, 10); xlabel( powierzchnia ); ylabel( liczba lazienek ); hold on plot3(x(:,2),x(:,3),zz, bd, MarkerSize, 10); hold off
- wykład 36/41 Wykresy wykład
- wykład 37/41 Wykresy wykład
- wykład 38/41 Wykresy wykład
- wykład 39/41 wielokrotna wykład sz=length(pow); for p=1:sz cenapow(p)=b(1)*1.0 + b(2)*pow(p); end for l=1:sz cenall(l)=b(1)*1.0 + b(3)*ll(l); end subplot (1, 2, 1) plot(x(:,2),y, r*, MarkerSize, 10); hold on xlabel( powierzchnia ); ylabel( cena ); plot(pow,cenapow, k- ); hold off; subplot (1, 2, 2) plot(x(:,3),y, r*, MarkerSize, 10); hold on plot(ll,cenall, k- ); xlabel( liczba lazienek ); ylabel( cena ); hold off;
- wykład 40/41 wielokrotna wykład
- wykład 41/41 wykład W wykładzie wykorzystano materiały: D. Hand, H. Mannila, P. Smyth,, WNT, Warszawa 2005 D. T. Larose, Odkrywanie Wiedzy z Danych, Wydawnictwo Naukowe PWN, Warszawa 2006 http://pl.wikipedia.org/wiki/wikipedia: Skarbnica_Wikipedii/Przegl%C4%85d_zagadnie%C5% 84_z_zakresu_statystyki