Metody eksploracji danych 3. Ocena modeli. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017
|
|
- Sylwia Amalia Kubiak
- 6 lat temu
- Przeglądów:
Transkrypt
1 Metody eksploracji danych 3. Ocena modeli Piotr Szwed Katedra Informatyki Stosowanej AGH 2017
2 Zagadnienie regresji Dane: Zbiór uczący: D = {(x i, y i )} i=1,m Obserwacje: (x i, y i ), wektor cech x i R n Wartość wyjściowa jest skalarem y i R Zadanie: dobór funkcji f x : R n R, która pozwoli przewidzieć wartość wyjściową y = f(x) odpowiadającą x x Model f(x) y P. Szwed: Metody eksploracji danych (2017) 2
3 Przebieg procesu uczenia Dane Ekstrakcja cech x i Model y=f(x) ŷ i q opt parametry modelu Algorytm y i Wskaźnik jakości ŷ i Wskaźnik jakości służy do porównania: o y i - wartości wyjściowej zapisanych w zbiorze uczącym z o y i - wartości przewidywanej przez model dla x i Wskaźnik jakości steruje przebiegiem algorytmu lub jest wykorzystywany w jego konstrukcji P. Szwed: Metody eksploracji danych (2017) 3
4 Wielkości statystyczne Wartość średnia dla próby losowej Y = {y 1, y 2,, y m } m i=1 y = 1 y m i. Kiedy m, y E[Y] Wariancja dla próby losowej m σ 2 Y = 1 y m i y 2 i=1 E Y E Y 2 = E Y 2 E Y 2 Kowariancja dla dwóch prób losowych X = x 1, x 2,, x m i Y = {y 1, y 2,, y m } m σ X, Y = 1 m i=1 E(X E[X]) Y E Y x i x y i y = E XY E X E[Y] P. Szwed: Metody eksploracji danych (2017) 4
5 Współczynnik korelacji Pearsona σ X, Y r X, Y = σ X σ Y = x i x y i y m x i x 2 m i=1 i=1 y i y 2 Współczynnik korelacji Persona r ma następującą własność: r X, Y = r ax + b, cy + d czyli skalowanie lub przesuwanie wartości nie zmienia korelacji próbek. Jeżeli próbki są przesunięte tak, aby x = 0 i y = 0, wówczas r X, Y może być interpretowane jako iloczyn skalarny dwóch m-wymiarowych wektorów x i y podzielonych przez ich długości (normy). x y cos φ = x y Odpowiada to kosinusowi kąta pomiędzy wektorami. Wartość 1 lub -1 oznacza, że próbki są silnie skorelowane. Wartość bliska 0 brak korelacji. m i=1 Przykłady korelacji [ P. Szwed: Metody eksploracji danych (2017) 5
6 Współczynnik korelacji Pearsona - zastosowania Jeżeli dwa atrybuty A k i A l odpowiadające zmiennym x[k] i x[l] zbioru uczącego są silnie skorelowane, wówczas zapewne jedną z nich można odrzucić i zmniejszyć złożoność modelu. Idealna korelacja 1/-1 mogłaby być przyczyną błędów numerycznych Przykład: dla zbioru kc_house_data r(sqft_living, sqft_above) = sqft_above sqft_living - Square footage of the apartments interior living space sqft_above - The square footage of the interior housing space that is above ground level sqft_living P. Szwed: Metody eksploracji danych (2017) 6
7 Współczynnik korelacji Pearsona - zastosowania Korelacja pomiędzy atrybutem A k (odpowiadającym zmiennej x[k]) i zmienną wyjściową y uzasadnia użycie atrybutu w modelu r(yr_built, price) = r(bedrooms, price) = r(bathrooms, price) = r(sqft_living, price) = 0.70 P. Szwed: Metody eksploracji danych (2017) 7
8 Ocena jakości predykcji Dla zbioru uczącego D = {(x i, y i )} i=1,m i modelu f(x), niech y i = f(x). Współczynnik Pearsona może zostać obliczony dla próbek y i y dla oceny korelacji pomiędzy obserwacjami zmiennych wyjściowych y oraz y. Współczynnik determinacji (ang. coefficient of determination) W praktyce do oceny jakości modelu zamiast r y, y używa się r 2 y, y. Współczynnik może być obliczony przez podniesienie r y, y do kwadratu lub wprost ze wzoru: m r 2 i=1 y i y 2 = m i=1 y i y 2 Współczynnik determinacji mierzy jakość dopasowania regresji. r 2 1 dobre dopasowanie r słabe dopasowanie r 2 < 0.5 dopasowanie niezadawalające Wartość 1 r 2 określa jaka część zmienności wartości wyjściowej (zmiennej objaśnianej) nie jest wyjaśniona przez atrybuty użyte w regresji (zmienne objaśniające). Więcej informacji: Daniel T. Larose Data Mining Methods And Models/Metody i modele eksploracji danych P. Szwed: Metody eksploracji danych (2017) 8
9 Python Klasa LinearRegression (oraz Ridge i Lasso) mają metodę score() wyznaczającą współczynnik determinacji r 2. Parametrami są m n macierz X oraz wektor y. from sklearn import linear_model x, y = np.loadtxt(inp, delimiter='\t', usecols=(0, 1), unpack=true,skiprows=0) features3 = np.stack((x,np.power(x,2),np.power(x,3)),axis=-1) regr3 = linear_model.linearregression() regr3.fit(features3, y) print (regr3.score(features3,y)) fx=np.linspace(0,6000,100) fy = regr3.predict(np.stack((fx,np.power(fx,2),np.power(fx,3)),axis=-1)) plt.plot(fx,fy,linewidth=2,color='b',label='3 st') P. Szwed: Metody eksploracji danych (2017) 9
10 Przykład Wielomian Pearson: r Wspólczynnik determinacji r 2 3 stopnia (niebieski) stopnia (zielony) stopnia (czerwony) P. Szwed: Metody eksploracji danych (2017) 10
11 Metryki oceny modelu: MSE Średni błąd kwadratowy (mean squared error) MSE = 1 m m i=1 y i y i 2 Względny średni błąd kwadratowy m y i y 2 i=1 i RelMSE = y i y 2 m i=1 = m i=1 y i y i 2 σ 2 Zauważmy, że MSE = 1 RSS. ( RSS jest funkcją celu minimalizowaną podczas m regresji). P. Szwed: Metody eksploracji danych (2017) 11
12 Funkcje oceny modelu: MSE Metryka MSE jest chętnie stosowana w każdej dziedzinie, gdzie ocenę można przeprowadzić przez porównanie dwóch ciągów wartości, np. ocena jakości modelu, ocena jakości i wierności sygnału. jest prosta do obliczenia jest miarą odległości: nieujemna MSE X, Y 0 zachowuje identyczność MSE X, Y = 0 jeśli X = Y symetryczna MSE X, Y = MSE Y, X nierówność trójkąta: MSE X, Z MSE X, Y + MSE Y, Z może mieć interpretacją fizyczną (np. jako energia błędu sygnału) idealna dla optymalizacji w wielu dziedzinach jest używana z przyzwyczajenia P. Szwed: Metody eksploracji danych (2017) 12
13 Funkcje oceny modelu: MSE Zastosowanie MSE do oceny szeregów czasowych (sygnałów) bywa krytykowane. [Zhou Wang and Alan C. Bovik: Mean Squared Error: Love It or Leave It? IEEE SIGNAL PROCESSING MAGAZINE [98] JANUARY 2009] P. Szwed: Metody eksploracji danych (2017) 13
14 Funkcje oceny modelu: RMSE RMSE (root mean square error) jest zdefinowana jako: RMSE = 1 m m y i y i 2 i=1 Podobnie można zdefiniować względną wartość: RelRMSE = m i=1 m i=1 y i y i 2 y i y 2 RMSE jest wyrażana w jednostkach zmiennych wyjściowych Jest też nazywana standardowym błędem regresji/estymaty Pozwala określić przedziały ufności. Jeśli y jest estymowaną wartością dla x, to prawdziwa wartość f true (x): Z prawdopodobieństwem 0.68 jest w przedziale y RMSE, y + RMSE Z prawdopodobieństwem 0.95 jest w przedziale [y 2RMSE, y + 2RMSE] RMSE może być wrażliwa na przypadkowe duże wartości y P. Szwed: Metody eksploracji danych (2017) 14
15 Przykład interpretacji RMSE Zbiór kc_house_data P. Szwed: Metody eksploracji danych (2017) 15
16 Funkcje oceny modelu wykorzystujące wartości bezwzględne Średni błąd bezwględny MAE (mean absolute error) MAE = 1 m m i=1 y i y i Średni błąd względny (relative mean absolute error) m i=1 y i y i RelMAE = y i y m i=1 Średni bezwzględny błąd procentowy MAPE (mean absolute percentage error) MAPE = 100 m m i=1 y i y i y i P. Szwed: Metody eksploracji danych (2017) 16
17 Funkcje oceny modelu wykorzystujące wartości bezwzględne Mediana błędu bezwzględnego (median absolute error) MedianAE = median({ y i y i : i = 1,, m}) Miary wykorzystujące wartości bezwzględne są mniej wrażliwe na obserwacje z przypadkowymi dużymi wartościami (nie są podnoszone do kwadratu). Miara medianowa jest szczególnie odporna Na ogół MAE < RMSE (błąd absolutny mniejszy od pierwiastka kwadratowego) MSE = $ 2 RelMSE = RMSE = $ RelRMSE = MAE = $ RelMAE = MAPE = 34.73% MedianAE = $ P. Szwed: Metody eksploracji danych (2017) 17
18 Porównanie która krzywa jest najlepsza? 3 stopień MSE= RelMSE= RMSE= RelRMSE= MAE= RelMAE= MAPE= MedAE= stopień MSE= RelMSE= RootMSE= RelRootMSE= MAE= RelMAE= MAPE= MedAE= stopień MSE= RelMSE= RootMSE= RelRootMSE= MAE= RelMAE= MAPE= MedAE= P. Szwed: Metody eksploracji danych (2017) 18
19 Błąd uczenia Błąd uczenia Niezależnie od miary, błąd uczenia będzie na ogół malał wraz ze wzrostem złożoności modelu i = 0 funkcja stała, y = y i = 1 prosta i = n wielomian n-tego stopnia Złożoność: i y=å w i x i P. Szwed: Metody eksploracji danych (2017) 19
20 Czy błąd uczenia można zredukować do zera? Model MSE 1 stopnia stopnia stopnia stopnia W ogólnym przypadku nie Jeżeli zbiór uczący zawiera punkty przypisujące tym samym x różne wartości wyjściowe y, błąd uczenia zawsze pozostanie P. Szwed: Metody eksploracji danych (2017) 20
21 Zastosowanie modelu do predykcji Podczas predykcji model jest stosowany, aby przewidzieć wartość wyjściową dla nieznanych danych. Czy błąd uczenia pozwala ocenić jakość modelu podczas predykcji? Czy różnica pomiędzy cenami domów 1 i 2 powinny być tak duża? 1 2 Błąd uczenia jest bardzo optymistycznym oszacowaniem, ponieważ w wyniku optymalizacji krzywa została dopasowana do danych uczących. Niska wartość błędu uczenia nie pociąga za sobą dobrych własności predykcyjnych (chyba, że model był uczony na wszystkich kombinacjach danych wejściowych) P. Szwed: Metody eksploracji danych (2017) 21
22 Błąd generalizacji Niech f n będzie modelem wyznaczonego na podstawie zbioru uczącego D. Błąd generalizacji jest to wartość oczekiwana błędu dla nieznanych danych. L f n = E xy L f n x, y = L f n x, y X Y p x, y dxdy L f n to wartość oczekiwana funkcji oceny L(, ) dla wszystkich kombinacji wartości wejściowych i wyjściowych ze zbioru X Y. Wartość oczekiwana musi także uwzględniać rozkład prawdopodobieństwa p x, y wystąpienia pary (x, y). Dla rzeczywistych danych, a nie np. danych wygenerowanych sztucznie, rozkład ten jest nieznany. P. Szwed: Metody eksploracji danych (2017) 22
23 Błąd generalizacji Najczęściej błąd generalizacji jest definiowany jako prawdziwy błąd G = L f n = true error Wówczas pojęcia błędu generalizacji G i prawdziwego błędu L f n używane są zamiennie Inne podejście Dla modelu f n i zbioru danych D może zostać wyznaczony błąd uczenia (empiryczny): m L D f n = 1 m L f n x i, y i i=1 Błąd generalizacji modelu f n jest zdefiniowany jako: G = L f n L D f n = true error learning error P. Szwed: Metody eksploracji danych (2017) 23
24 Błąd generalizacji Na ogół wraz ze wzrostem złożoności prawdziwy błąd modelu początkowo maleje, a następnie rośnie. Błąd generalizacji (true error) Złożoność modelu P. Szwed: Metody eksploracji danych (2017) 24
25 Błąd testowy Prawdziwy błąd L f n jest na ogół niemożliwy do wyznaczenia, ale można go przybliżyć testując model f n na nieznanych danych. W tym celu dostępny zbiór danych dzielony jest na dwa rozłączne podzbiory: D train dane użyte do uczenia D test dane testowe D D train ~70% Model jest uczony dla obserwacji ze zbioru D train Obserwacje ze zbioru D train mogą być użyte do oceny błędu uczenia Podczas oceny używa się wyłącznie obserwacji w zbiorze D test k D test ~30% L test (f n ) = 1 L f k n x i, y i i=1 Oczekuje się, że L f n ~L test (f n ) P. Szwed: Metody eksploracji danych (2017) 25
26 Błąd uczenia, testowy i generalizacji Błąd generalizacji (true error) błąd generalizacji błąd testowy błąd uczenia Złożoność modelu P. Szwed: Metody eksploracji danych (2017) 26
27 Wyznazanie błędu testowego Przykładowy zbiór danych: okręgi zbiór uczący trójkąty zbiór testowy P. Szwed: Metody eksploracji danych (2017) 27
28 Wyznaczanie błędu testowego 1 stopień 3 stopień 4 stopień 7 stopień MSE= RMSE= MAE= MedAE= MSE= RMSE= MAE= MedAE= MSE= RMSE= MAE= MedAE= MSE= RMSE= MAE= MedAE= P. Szwed: Metody eksploracji danych (2017) 28
29 Wyznaczanie błędu testowego Krzywe bardziej złożonych modeli coraz lepiej przybliżają dane użyte do uczenia Równocześnie stają się coraz bardziej skomplikowane (wiele ekstremów, na ogół pomiędzy punktami danych) W tym przypadku: jeżeli modele są testowane na danych nie użytych do uczenia, wszystkie miary rosną wraz ze złożonością modelu Nie jest to zależność ogólna (nie zawsze model prostszy jest lepszy), ale wybierając pomiędzy równie dobrymi modelami, powinniśmy wybrać prostszy (William Ockham XIII w) Essentially, all models are wrong, but some are useful. [Wszystkie modele są złe, ale niektóre są użyteczne.] George Box P. Szwed: Metody eksploracji danych (2017) 29
30 Niedostateczne i nadmierne dopasowanie Błąd generalizacji (true error) błąd generalizacji błąd testowy niedostateczne dopasowanie (underfitting) błąd uczenia nadmierne dopasowanie (overfitting) Złożoność modelu P. Szwed: Metody eksploracji danych (2017) 30
31 Przebieg uczenia dane uczące λ i dane testowe Wybór i uczenie modelu y = f(θ(λ i ), x) θ (λ i ) {θ (λ i ): i = 1,, k} Ocena modelu L(f(θ (λ i ), x)) Wybór najlepszego modelu θ (λ ) Wybór i uczenie modelu wybierana jest złożoność (postać) modelu λ i (np. stopień wielomianu) podczas uczenia (minimalizacja funkcji oceny, np. RSS) wyznaczany optymalny zestaw parametrówθ (λ i ) Ocena modelu: Błąd generalizacji L(f(θ (λ i ), x)) określany na podstawie danych testowych Wybierany jest najlepszy model f(θ (λ ), x) P. Szwed: Metody eksploracji danych (2017) 31
32 Przebieg uczenia Uczenie jest procesem optymalizacji w dwóch kierunkach λ i θ : wybór postaci modelu i złożoności λ (dyskretny) i ocena z użyciem D test optymalizacja parametrów modelu θ λ i i ocena z użyciem D train q (l) θ λ l l 1 l 2 l 3 Czy L f θ λ, x jest dobrym oszacowaniem błędu generalizacji? W ogólnym przypadku jest zbyt optymistyczne. Podczas optymalizacji w obu kierunkach możliwe jest nadmierne dopasowanie do zbioru uczącego i zbioru testowego P. Szwed: Metody eksploracji danych (2017) 32
33 Rozwiązanie - dwa zbiory testowe Zbiór uczący (training set) Zbiór do walidacji modelu (validation set) Zbiór testowy (test set) Dobór θ (λ i ) Ocena modelu i wybór optymalnego λ Ocena błędu generalizacji dla f θ λ, x Wybór λ minimalizującego błąd z użyciem zbioru walidacyjnego Aproksymacja błędu generalizacji modelu f θ λ, x z użyciem zbioru testowego Typowe podziały: uczący: 80%, walidacyjny: 10%, testowy: 10% uczący: 50%, walidacyjny: 25%, testowy: 25% P. Szwed: Metody eksploracji danych (2017) 33
34 Sposób podziału zbioru danych Pozostałe Zbiór dane danych Zbiór testowy Wydzielamy zbiór testowy z całego zbioru danych Powinien on w miarę możliwości reprezentować różnorodne dane (np. dobrany losowo) P. Szwed: Metody eksploracji danych (2017) 34
35 Sposób podziału zbioru danych Zbiór uczący Pozostałe dane Zbiór walidacjyjny Zbiór testowy Pozostałe dane dzielimy na zbiór uczący i zbiór walidacyjny Zbiór walidacyjny służy do oceny jakości modelu f θ λ i, x w zależności od parametru sterującego złożonością λ i. Jest z reguły niewielki. P. Szwed: Metody eksploracji danych (2017) 35
36 Sposób podziału zbioru danych Zbiór walidacjyjny Zbiór Zbiór uczący walidacjyjny Zbiór walidacjyjny Zbiór testowy Do walidacji modelu może zostać wykorzystany dowolny podzbiór danych Ocena błędu będzie najbardziej wiarygodna, jeśli użyte zostaną wszystkie dane i ocena zostanie uśredniona Zauważmy, że wszystkie metryki, poza RMSE są addytywne: MSE = 1 m m i=1 m y i y i 2 MAE = 1 m y i y i i=1 P. Szwed: Metody eksploracji danych (2017) 36
37 k-krotna walidacja krzyżowa Angielski termin k-fold cross validation tłumaczony jest jako walidacja krzyżowa, sprawdzian krzyżowy lub kroswalidacja. Pozostałe dane Przetwarzanie wstępne dane są dzielone losowo na k grup, każda liczy m k elementów podział jest zachowywany w kolejnych etapach P. Szwed: Metody eksploracji danych (2017) 37
38 k-krotna walidacja krzyżowa Zbiór walidacyjny (3) Wejście: zbiór danych podzielony na k rozłącznych bloków Parametr λ sterujący złożonością modelu for i = 1,, k: Wyznacz θ i (λ) posługując się danymi z bloków {1,, k}\{i} Oszacuj i-ty wskaźnik błędu: L(θ i (λ)) Oblicz sumaryczny błąd: θ i (λ) L(θ i L λ = 1 k k i P. Szwed: Metody eksploracji danych (2017) 38 L θ i λ (λ))
39 k-krotna walidacja krzyżowa Jeżeli walidacja krzyżowa ma na celu wybór spośród różnych postaci modeli λ 1,, λ r, wybierany jest model, dla którego L λ i osiąga minimalną wartość. Wyznaczanych jest k r modeli. Jeżeli walidacji poddany jest tylko jeden typ modelu (λ), wyznaczanych jest k modeli, dla każdego z nich L(θ i (λ)) i wartość jest uśredniana. Weka: ostatecznie model o złożoności λ jest wyznaczany dla całego dostępnego zbioru. P. Szwed: Metody eksploracji danych (2017) 39
40 Wybór k Jakość oszacowania błędu rośnie wraz z k (liczbą bloków) Teoretycznie, najlepszą wartością jest k = m, czyli wydzielane są bloki jednoelementowe: leave one out cross validation Kosztowne obliczeniowo: wymaga wyznaczenia tylu modeli, ile jest obserwacji Typowe wartości: k = 10 lub k = 5 (ang: ten fold cross validation) Walidacja krzyżowa jest częstą metodą oceny prototypowych algorytmów: 1. zaimplementuj nowy algorytm 2. wybierz zbiór danych z UCI Machine Learning Repository 3. zastosuj walidację krzyżową dla całego zbioru 4. porównaj wyniki z innymi P. Szwed: Metody eksploracji danych (2017) 40
41 Kompromis pomiędzy bias i variance Wybór modelu w problemach uczenia nadzorowanego (nie tylko regresji) wiąże się z realizacją dwóch sprzecznych celów: Model powinien być dobrze dopasowany do danych uczących, aby uchwycić zależności pomiędzy danymi Model powinien też dobrze przybliżać nieznane dane (zapewniać mały błąd generalizacji) Modele złożone dobrze dopasowują się do danych wyjściowych, ale charakteryzują się dużą zmiennością (variance) wartości wyjściowych. Ryzykiem jest nadmierne dopasowanie (overfitting) Modele prostsze są obciążone dużym błędem systematycznym (bias) i ich zastosowanie niesie ryzyko niewystarczającego dopasowania (underfitting). Trzecim składnikiem błędów generalizacji jest nieredukowalny błąd związany ze zmiennością danych P. Szwed: Metody eksploracji danych (2017) 41
42 Kompromis pomiędzy bias i variance Dla zagadnienia regresji i średniokwadratowej funkcji oceny MSE można przeprowadzić formalną dekompozycję na trzy składniki: bias (odchylenie systematyczne) variance (wariancja związana z modelem) σ 2 - wariancja błędów danych Zagadnienie regresji Dany jest zbiór uczący D train = {(x i, y i )} i=1,m Poszukiwana jest prawdziwa funkcja y = f(x), przy założeniu, że y i = f x i + ε i oraz ε=n 0, σ 2 - wartość oczekiwana E ε = 0, wariancja σ 2. P. Szwed: Metody eksploracji danych (2017) 42
43 Kompromis pomiędzy bias i variance Załóżmy, że w wyniku uczenia wyznaczona została funkcja y = f x. Jak funkcja zachowa się na nieznanych danych D = x i, y i : i = 1, k? Trzy składniki: gdzie: MSE = E D y f x 2 = Bias D f x 2 + Var D f x + σ D 2 Bias D f x = E D [f x f(x)] Var D f x = E D [f x 2 ] E f x 2 σ D 2 = E y 2 E y 2 (wariancja danych w D) Komponent bias (odchylenie systematyczne) spada ze wzrostem złożoności modelu. Skrajnym przypadkiem jest funkcja stała. Komponent variance jest zerowy dla funkcji stałej i wraz ze wzrostem złożoności modelu rośnie (przebiegi f x stają się coraz bardziej skomplikowane i dla nieznanych danych wartości są bardzo zmienne) Komponent σ D 2 opisuje szum (zmienność danych): na wejście estymatora można dostarczyć dowolnie zaszumione dane, które wpłyną na wynik końcowy. P. Szwed: Metody eksploracji danych (2017) 43
44 Błąd Kompromis pomiędzy bias i variance bias MSE variance Złożoność modelu optymalny wybór P. Szwed: Metody eksploracji danych (2017) 44
45 Zależność błędu od liczby obserwacji w zbiorze uczącym błąd Słaba aproksymacja dla kilku punktów błąd generalizacji Zbieżność (bias & noise) Dokładne dopasowanie dla kilku punktów błąd uczenia m liczba obserwacji P. Szwed: Metody eksploracji danych (2017) 45
46 Porównanie modeli 1 Szare krzyżyki rzeczywiste dane (w tym te nieznane) Niebieskie kropki dane użyte do budowy modelu (uczenia) P. Szwed: Metody eksploracji danych (2017) 46
47 Porównanie modeli 2 P. Szwed: Metody eksploracji danych (2017) 47
48 Porównanie modeli 3 P. Szwed: Metody eksploracji danych (2017) 48
49 Porównanie modeli 4 P. Szwed: Metody eksploracji danych (2017) 49
50 Regularyzacja Dla regresji wielomianowej algorytm będzie starał się dobrze dopasować krzywą do obserwacji. Im większy stopień wielomianu tym więcej jest możliwych zagięć krzywej Równocześnie krzywizny stają się coraz chudsze, co z reguły odpowiada wysokim wartościom wag P. Szwed: Metody eksploracji danych (2017) 50
51 Regularyzacja 2 f 1 x = x f 2 x = x x f 3 x = x x x f 4 (x) = x x x x P. Szwed: Metody eksploracji danych (2017) 51
52 Dlaczego duże wagi są złe? Dla regresji wielomianowej jednej zmiennej nie jest to oczywiste cechy są dość mocno skorelowane, więc wpływ dużej wagi w i może skorygowany przez wpływ innej dużej wagi w j Dla niezależnych cech duża wartość wagi w i oznacza dużą wrażliwość funkcji regresji na drobne fluktuacje i-tej cechy h i x Dla blisko położonych obserwacji x k oraz x l różnice wartości funkcji f(x k ) i f(x l ) mogą być bardzo duże. Model bardzo dobrze dopasowany do danych uczących może nie sprawdzić się dla nieznanych danych Lepszym rozwiązaniem jest gorsze dopasowanie do danych uczących przy równoczesnym ograniczeniu parametrów świadczących o potencjalnie dużym błędzie generalizacji czyli zmniejszeniu wartości wag. P. Szwed: Metody eksploracji danych (2017) 52
53 Regularyzacja L2 (Ridge Regression) W przypadku zwykłej regresji liniowej szukane są wagi minimalizujące funkcję celu postaci m J w = y i w T 2 i=1 x i Dla regresji grzbietowej dodany jest składnik (funkcja kary) ograniczający wartości wag m J w = y i w T 2 i=1 x i + λ w 2 Czynnik w 2 to tzw. norma L 2, czyli po prostu: n w T w = w i 2 i=1 Nieujemna stała λ określa udział składnika w 2 w funkcji celu. P. Szwed: Metody eksploracji danych (2017) 53
54 Regularyzacja L2 (Ridge Regression) Na poprzednim wykładzie pokazane było rozwiązanie analityczne polegające na Obliczeniu gradientu funkcji celu RSS i przyrównanie do 0: 2X T y + 2X T Xw = 0 Znalezieniu rozwiązaniu równania postaci: w = (X T X) 1 X T y W tym przypadku analogiczne operacje to: Obliczenie gradientu: J(w) = 2X T y + 2X T Xw + 2λw = 0 Wyznaczenie rozwiązania: w = X T X + λi 1 X T y Jeżeli w X jest wiele mocno skorelowanych atrybutów macierz (X T X) 1 może nie istnieć (liniowa zależność kolumn). Dodanie wystarczająco dużej wartości λ na przekątnej X T X + λi usuwa osobliwość macierzy. P. Szwed: Metody eksploracji danych (2017) 54
55 Regularyzacja L2 (Ridge Regression) -ilustracja J w = y i w T x i 2 m i=1 + λ w 2 Składnik RSS Składnik λ L2 Źródło: Tutaj: β 1 i β 2 to wagi w P. Szwed: Metody eksploracji danych (2017) 55
56 Regularyzacja L2 analiza lambda m J w = y i w T 2 i=1 x i + λ w 2 Jeżeli λ = 0, funkcja celu jest taka sama, jak dla zwykłej regresji Dla małych wartości λ wpływ czynnika regularyzującego będzie mniejszy wagi będą się powiększać Dla dużych wartości λ wagi będą bliskie zeru (i większości przypadków błąd RSS będzie duży) Czasami współczynnik oznaczany jest jako α P. Szwed: Metody eksploracji danych (2017) 56
57 Regularyzacja L2 analiza lambda Wagi maleją do zera, ale nie osiągają wartości 0 P. Szwed: Metody eksploracji danych (2017) 57
58 Regularyzacja L1 (Lasso) W przypadku regularyzacji L1 składnikiem regularyzującym jest norma L1 (czyli suma wartości bezwzględnych wag) m J w = y i w T x i 2 i=1 n + λ w i Funkcja ta nie jest różniczkowalna w zerze, więc nie istnieje rozwiązanie analityczne i=1 Mimo tego można zastosować gradientowe metody optymalizacji Gradient = 1 Gradient = 1 P. Szwed: Metody eksploracji danych (2017) 58
59 Regularyzacja L1 (Lasso) -ilustracja m J w = y i w T 2 n i=1 x i + λ i=1 w i w 2 Składnik RSS w 1 Składnik λ L1 Optymalne wagi zawsze w rogu rombu, tu w 2 = 0 Źródło: P. Szwed: Metody eksploracji danych (2017) 59
60 Regularyzacja L1 analiza lambda Dla L1 wraz ze wzrostem lambda kolejne wagi będą znikać (przyjmować wartość 0) Dla L2 wagi będą stawały się dowolnie małe, ale nie zanikały zupełnie Lasso działa więc jak mechanizm wyboru cech (ang. feature selection). Stopniowo odrzuca współliniowe atrybuty, pozostawia zbiór najbardziej istotnych (tych, które najlepiej objaśniają zmienność wartości wyjściowych). P. Szwed: Metody eksploracji danych (2017) 60
Rozpoznawanie obrazów
Rozpoznawanie obrazów Laboratorium Python Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest implementacja liniowego zadania
Bardziej szczegółowoMetody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017
Metody eksploracji danych 2. Metody regresji Piotr Szwed Katedra Informatyki Stosowanej AGH 2017 Zagadnienie regresji Dane: Zbiór uczący: D = {(x i, y i )} i=1,m Obserwacje: (x i, y i ), wektor cech x
Bardziej szczegółowoMetody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z liniowym zadaniem najmniejszych
Bardziej szczegółowoStatystyka opisowa. Wykład V. Regresja liniowa wieloraka
Statystyka opisowa. Wykład V. e-mail:e.kozlovski@pollub.pl Spis treści 1 Prosta regresji cechy Y względem cech X 1,..., X k. 2 3 Wyznaczamy zależność cechy Y od cech X 1, X 2,..., X k postaci Y = α 0 +
Bardziej szczegółowoEkonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej
Ekonometria Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Wykład 4 Prognozowanie, stabilność 1 / 17 Agenda
Bardziej szczegółowoSZTUCZNA INTELIGENCJA
SZTUCZNA INTELIGENCJA WYKŁAD 4. UCZENIE SIĘ INDUKCYJNE Częstochowa 24 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska WSTĘP Wiedza pozyskana przez ucznia ma charakter odwzorowania
Bardziej szczegółowoEkonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota
Ekonometria ćwiczenia 3 Prowadzący: Sebastian Czarnota Strona - niezbędnik http://sebastianczarnota.com/sgh/ Normalność rozkładu składnika losowego Brak normalności rozkładu nie odbija się na jakości otrzymywanych
Bardziej szczegółowoRozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów
Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,
Bardziej szczegółowoStan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta
Stan dotychczasowy OCENA KLASYFIKACJI w diagnostyce Wybraliśmy metodę uczenia maszynowego (np. sieć neuronowa lub drzewo decyzyjne), która będzie klasyfikować nieznane przypadki Na podzbiorze dostępnych
Bardziej szczegółowoZJAZD 4. gdzie E(x) jest wartością oczekiwaną x
ZJAZD 4 KORELACJA, BADANIE NIEZALEŻNOŚCI, ANALIZA REGRESJI Analiza korelacji i regresji jest działem statystyki zajmującym się badaniem zależności i związków pomiędzy rozkładami dwu lub więcej badanych
Bardziej szczegółowoStatystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący
Bardziej szczegółowoAnaliza współzależności zjawisk
Analiza współzależności zjawisk Informacje ogólne Jednostki tworzące zbiorowość statystyczną charakteryzowane są zazwyczaj za pomocą wielu cech zmiennych, które nierzadko pozostają ze sobą w pewnym związku.
Bardziej szczegółowoAnaliza składowych głównych. Wprowadzenie
Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących
Bardziej szczegółowoMetody eksploracji danych Laboratorium 2. Weka + Python + regresja
Metody eksploracji danych Laboratorium 2 Weka + Python + regresja KnowledgeFlow KnowledgeFlow pozwala na zdefiniowanie procesu przetwarzania danych Komponenty realizujące poszczególne czynności można konfigurować,
Bardziej szczegółowoWybór modelu i ocena jakości klasyfikatora
Wybór modelu i ocena jakości klasyfikatora Błąd uczenia i błąd testowania Obciążenie, wariancja i złożoność modelu (klasyfikatora) Dekompozycja błędu testowania Optymizm Estymacja błędu testowania AIC,
Bardziej szczegółowoOptymalizacja ciągła
Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej
Bardziej szczegółowoRozdział 8. Regresja. Definiowanie modelu
Rozdział 8 Regresja Definiowanie modelu Analizę korelacji można traktować jako wstęp do analizy regresji. Jeżeli wykresy rozrzutu oraz wartości współczynników korelacji wskazują na istniejąca współzmienność
Bardziej szczegółowoSTATYSTYKA I DOŚWIADCZALNICTWO Wykład 5
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y
Bardziej szczegółowoSTATYSTYKA I DOŚWIADCZALNICTWO Wykład 7
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y
Bardziej szczegółowoWprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe
Wprowadzenie do teorii ekonometrii Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Zajęcia Wykład Laboratorium komputerowe 2 Zaliczenie EGZAMIN (50%) Na egzaminie obowiązują wszystkie informacje
Bardziej szczegółowoPDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com
Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych
Bardziej szczegółowoSystemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016
Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład I dr inż. Bogumil.Konopka@pwr.edu.pl 2015/2016 1 Wykład I - plan Sprawy organizacyjne Uczenie maszynowe podstawowe pojęcia Proces modelowania
Bardziej szczegółowoEksploracja danych OCENA KLASYFIKATORÓW. Wojciech Waloszek. Teresa Zawadzka.
Eksploracja danych OCENA KLASYFIKATORÓW Wojciech Waloszek wowal@eti.pg.gda.pl Teresa Zawadzka tegra@eti.pg.gda.pl Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika
Bardziej szczegółowoWprowadzenie do teorii prognozowania
Wprowadzenie do teorii prognozowania I Pojęcia: 1. Prognoza i zmienna prognozowana (przedmiot prognozy). Prognoza punktowa i przedziałowa. 2. Okres prognozy i horyzont prognozy. Prognozy krótkoterminowe
Bardziej szczegółowoESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA
ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA Jan Mielniczuk Wisła, grudzień 2009 PLAN Błędy predykcji i ich podstawowe estymatory Estymacja błędu predykcji w modelu liniowym. Funkcje kryterialne Własności
Bardziej szczegółowoSystemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018
Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład II bogumil.konopka@pwr.edu.pl 2017/2018 Określenie rzeczywistej dokładności modelu Zbiór treningowym vs zbiór testowy Zbiór treningowy
Bardziej szczegółowoWIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA
WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA Powtórka Powtórki Kowiariancja cov xy lub c xy - kierunek zależności Współczynnik korelacji liniowej Pearsona r siła liniowej zależności Istotność
Bardziej szczegółowoTablica Wzorów Rachunek Prawdopodobieństwa i Statystyki
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Spis treści I. Wzory ogólne... 2 1. Średnia arytmetyczna:... 2 2. Rozstęp:... 2 3. Kwantyle:... 2 4. Wariancja:... 2 5. Odchylenie standardowe:...
Bardziej szczegółowoElementy modelowania matematycznego
Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski
Bardziej szczegółowoWspółczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ
Współczynnik korelacji Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Własności współczynnika korelacji 1. Współczynnik korelacji jest liczbą niemianowaną 2. ϱ 1,
Bardziej szczegółowoMotto. Czy to nie zabawne, że ci sami ludzie, którzy śmieją się z science fiction, słuchają prognoz pogody oraz ekonomistów? (K.
Motto Cz to nie zabawne, że ci sami ludzie, którz śmieją się z science fiction, słuchają prognoz pogod oraz ekonomistów? (K. Throop III) 1 Specfika szeregów czasowch Modele szeregów czasowch są alternatwą
Bardziej szczegółowoEkonometria Wykład 4 Prognozowanie, sezonowość. Dr Michał Gradzewicz Katedra Ekonomii I KAE
Ekonometria Wykład 4 Prognozowanie, sezonowość Dr Michał Gradzewicz Katedra Ekonomii I KAE Plan wykładu Prognozowanie Założenia i własności predykcji ekonometrycznej Stabilność modelu ekonometrycznego
Bardziej szczegółowoWeryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta
Bardziej szczegółowoStanisław Cichocki. Natalia Nehrebecka. Wykład 4
Stanisław Cichocki Natalia Nehrebecka Wykład 4 1 1. Własności hiperpłaszczyzny regresji 2. Dobroć dopasowania równania regresji. Współczynnik determinacji R 2 Dekompozycja wariancji zmiennej zależnej Współczynnik
Bardziej szczegółowoZależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),
Zależność przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna), funkcyjna stochastyczna Korelacja brak korelacji korelacja krzywoliniowa korelacja dodatnia korelacja ujemna Szereg korelacyjny numer
Bardziej szczegółowo3. Modele tendencji czasowej w prognozowaniu
II Modele tendencji czasowej w prognozowaniu 1 Składniki szeregu czasowego W teorii szeregów czasowych wyróżnia się zwykle następujące składowe szeregu czasowego: a) składowa systematyczna; b) składowa
Bardziej szczegółowoPorównanie błędu predykcji dla różnych metod estymacji współczynników w modelu liniowym, scenariusz p bliskie lub większe od n
Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu iowym, scenariusz p bliskie lub większe od n Przemyslaw.Biecek@gmail.com, MIM Uniwersytet Warszawski Plan prezentacji: 1 Motywacja;
Bardziej szczegółowoSPOTKANIE 3: Regresja: Regresja liniowa
Wrocław University of Technology SPOTKANIE 3: Regresja: Regresja liniowa Adam Gonczarek Studenckie Koło Naukowe Estymator adam.gonczarek@pwr.wroc.pl 22.11.2013 Rozkład normalny Rozkład normalny (ang. normal
Bardziej szczegółowoStanisław Cichocki. Natalia Nehrebecka. Wykład 9
Stanisław Cichocki Natalia Nehrebecka Wykład 9 1 1. Dodatkowe założenie KMRL 2. Testowanie hipotez prostych Rozkład estymatora b Testowanie hipotez prostych przy użyciu statystyki t 3. Przedziały ufności
Bardziej szczegółowoTestowanie modeli predykcyjnych
Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności
Bardziej szczegółowoWeryfikacja hipotez statystycznych, parametryczne testy istotności w populacji
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki
Bardziej szczegółowoKlasyfikacja LDA + walidacja
Klasyfikacja LDA + walidacja Dr hab. Izabela Rejer Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Plan wykładu 1. Klasyfikator 2. LDA 3. Klasyfikacja wieloklasowa 4. Walidacja
Bardziej szczegółowoALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH
1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Wnioskowanie statystyczne dla zmiennych numerycznych Porównywanie dwóch średnich Boot-strapping Analiza
Bardziej szczegółowoPrawdopodobieństwo i statystyka
Wykład XV: Zagadnienia redukcji wymiaru danych 2 lutego 2015 r. Standaryzacja danych Standaryzacja danych Własności macierzy korelacji Definicja Niech X będzie zmienną losową o skończonym drugim momencie.
Bardziej szczegółowoStatystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34
Statystyka Wykład 9 Magdalena Alama-Bućko 24 kwietnia 2017 Magdalena Alama-Bućko Statystyka 24 kwietnia 2017 1 / 34 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia
Bardziej szczegółowoTechniki Optymalizacji: Metody regresji
Techniki Optymalizacji: Metody regresji Wojciech Kotłowski Instytut Informatyki Politechniki Poznańskiej email: imię.nazwisko@cs.put.poznan.pl pok. 2 (CW) tel. (61)665-2936 konsultacje: piątek 15:10-16:40
Bardziej szczegółowoAnaliza składowych głównych
Analiza składowych głównych Wprowadzenie (1) W przypadku regresji naszym celem jest predykcja wartości zmiennej wyjściowej za pomocą zmiennych wejściowych, wykrycie związku między wielkościami wejściowymi
Bardziej szczegółowoAproksymacja funkcji a regresja symboliczna
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą
Bardziej szczegółowoWYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 9 i 10 1 / 30 TESTOWANIE HIPOTEZ STATYSTYCZNYCH
Bardziej szczegółowoStanisław Cichocki. Natalia Nehrebecka. Wykład 12
Stanisław Cichocki Natalia Nehrebecka Wykład 1 1 1. Testy diagnostyczne Testowanie stabilności parametrów modelu: test Chowa. Heteroskedastyczność Konsekwencje Testowanie heteroskedastyczności 1. Testy
Bardziej szczegółowoKORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y. 2. Współczynnik korelacji Pearsona
KORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y 2. Współczynnik korelacji Pearsona 3. Siła i kierunek związku między zmiennymi 4. Korelacja ma sens, tylko wtedy, gdy związek między zmiennymi
Bardziej szczegółowoStatystyka matematyczna dla leśników
Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 03/04 Wykład 5 Testy statystyczne Ogólne zasady testowania hipotez statystycznych, rodzaje
Bardziej szczegółowoJEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY
JEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY Będziemy zapisywać wektory w postaci (,, ) albo traktując go jak macierz jednokolumnową (dzięki temu nie będzie kontrowersji przy transponowaniu wektora ) Model
Bardziej szczegółowoZmienne zależne i niezależne
Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }
Bardziej szczegółowoStosowana Analiza Regresji
Stosowana Analiza Regresji Wykład VI... 16 Listopada 2011 1 / 24 Jest to rozkład zmiennej losowej rozkład chi-kwadrat Z = n i=1 X 2 i, gdzie X i N(µ i, 1) - niezależne. Oznaczenie: Z χ 2 (n, λ), gdzie:
Bardziej szczegółowoAnaliza statystyczna trudności tekstu
Analiza statystyczna trudności tekstu Łukasz Dębowski ldebowsk@ipipan.waw.pl Problem badawczy Chcielibyśmy mieć wzór matematyczny,...... który dla dowolnego tekstu...... na podstawie pewnych statystyk......
Bardziej szczegółowoMetoda najmniejszych kwadratów
Własności algebraiczne Model liniowy Zapis modelu zarobki = β 0 + β 1 plec + β 2 wiek + ε Oszacowania wartości współczynników zarobki = b 0 + b 1 plec + b 2 wiek + e Model liniowy Tabela: Oszacowania współczynników
Bardziej szczegółowoFunkcje charakterystyczne zmiennych losowych, linie regresji 1-go i 2-go rodzaju
Funkcje charakterystyczne zmiennych losowych, linie regresji -go i 2-go rodzaju Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki
Bardziej szczegółowoEksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18
Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)
Bardziej szczegółowoROZKŁAD MATERIAŁU DO II KLASY LICEUM (ZAKRES ROZSZERZONY) A WYMAGANIA PODSTAWY PROGRAMOWEJ.
ROZKŁAD MATERIAŁU DO II KLASY LICEUM (ZAKRES ROZSZERZONY) A WYMAGANIA PODSTAWY PROGRAMOWEJ. LICZBA TEMAT GODZIN LEKCYJNYCH Potęgi, pierwiastki i logarytmy (8 h) Potęgi 3 Pierwiastki 3 Potęgi o wykładnikach
Bardziej szczegółowoparametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,
诲 瞴瞶 瞶 ƭ0 ƭ 瞰 parametrów strukturalnych modelu Y zmienna objaśniana, = + + + + + X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, α 0, α 1, α 2,,α k parametry strukturalne modelu, k+1 parametrów
Bardziej szczegółowoStatystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31
Statystyka Wykład 8 Magdalena Alama-Bućko 10 kwietnia 2017 Magdalena Alama-Bućko Statystyka 10 kwietnia 2017 1 / 31 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia
Bardziej szczegółowoStatystyka i eksploracja danych
Wykład XII: Zagadnienia redukcji wymiaru danych 12 maja 2014 Definicja Niech X będzie zmienną losową o skończonym drugim momencie. Standaryzacją zmiennej X nazywamy zmienną losową Z = X EX Var (X ). Definicja
Bardziej szczegółowoRozpoznawanie obrazów
Rozpoznawanie obrazów Laboratorium Python Zadanie nr 3 Regresja logistyczna autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest zaimplementowanie modelu
Bardziej szczegółowoSTATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010
STATYSTYKA MATEMATYCZNA WYKŁAD 14 18 stycznia 2010 Model statystyczny ROZKŁAD DWUMIANOWY ( ) {0, 1,, n}, {P θ, θ (0, 1)}, n ustalone P θ {K = k} = ( ) n θ k (1 θ) n k, k k = 0, 1,, n Geneza: Rozkład Bernoulliego
Bardziej szczegółowoAnaliza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817
Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817 Zadanie 1: wiek 7 8 9 1 11 11,5 12 13 14 14 15 16 17 18 18,5 19 wzrost 12 122 125 131 135 14 142 145 15 1 154 159 162 164 168 17 Wykres
Bardziej szczegółowoAlgorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta
Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta www.michalbereta.pl Sieci radialne zawsze posiadają jedną warstwę ukrytą, która składa się z neuronów radialnych. Warstwa wyjściowa składa
Bardziej szczegółowo5. Model sezonowości i autoregresji zmiennej prognozowanej
5. Model sezonowości i autoregresji zmiennej prognozowanej 1. Model Sezonowości kwartalnej i autoregresji zmiennej prognozowanej (rząd istotnej autokorelacji K = 1) Szacowana postać: y = c Q + ρ y, t =
Bardziej szczegółowoAkademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki
Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki Przetwarzanie Sygnałów Studia Podyplomowe, Automatyka i Robotyka. Wstęp teoretyczny Zmienne losowe Zmienne losowe
Bardziej szczegółowoAgnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Bardziej szczegółowo4. Średnia i autoregresja zmiennej prognozowanej
4. Średnia i autoregresja zmiennej prognozowanej 1. Średnia w próbie uczącej Własności: y = y = 1 N y = y t = 1, 2, T s = s = 1 N 1 y y R = 0 v = s 1 +, 2. Przykład. Miesięczna sprzedaż żelazek (szt.)
Bardziej szczegółowoWstęp do sieci neuronowych, wykład 13-14, Walidacja jakości uczenia. Metody statystyczne.
Wstęp do sieci neuronowych, wykład 13-14,. Metody statystyczne. M. Czoków, J. Piersa Faculty of Mathematics and Computer Science, Nicolaus Copernicus University, Toruń, Poland 2011.01.11 1 Przykład Przeuczenie
Bardziej szczegółowoStosowana Analiza Regresji
prostej Stosowana Wykład I 5 Października 2011 1 / 29 prostej Przykład Dane trees - wyniki pomiarów objętości (Volume), średnicy (Girth) i wysokości (Height) pni drzew. Interesuje nas zależność (o ile
Bardziej szczegółowoMetody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 3 Detekcja twarzy autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba Cel zadania Celem zadania jest zaimplementowanie algorytmów
Bardziej szczegółowoStanisław Cichocki Natalia Nehrebecka. Zajęcia 8
Stanisław Cichocki Natalia Nehrebecka Zajęcia 8 1. Testy diagnostyczne 2. Testowanie prawidłowości formy funkcyjnej modelu 3. Testowanie normalności składników losowych 4. Testowanie stabilności parametrów
Bardziej szczegółowoMETODY INŻYNIERII WIEDZY
METODY INŻYNIERII WIEDZY WALIDACJA KRZYŻOWA dla ZAAWANSOWANEGO KLASYFIKATORA KNN ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
Bardziej szczegółowoAgnieszka Nowak Brzezińska
Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia
Bardziej szczegółowoIdea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość
Idea Niech θ oznacza parametr modelu statystycznego. Dotychczasowe rozważania dotyczyły metod estymacji tego parametru. Teraz zamiast szacować nieznaną wartość parametru będziemy weryfikowali hipotezę
Bardziej szczegółowoInteligentna analiza danych
Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki
Bardziej szczegółowoWażne rozkłady i twierdzenia c.d.
Ważne rozkłady i twierdzenia c.d. Funkcja charakterystyczna rozkładu Wielowymiarowy rozkład normalny Elipsa kowariacji Sploty rozkładów Rozkłady jednostajne Sploty z rozkładem normalnym Pobieranie próby
Bardziej szczegółowoĆwiczenie 5 PROGNOZOWANIE
Ćwiczenie 5 PROGNOZOWANIE Prognozowanie jest procesem przewidywania przyszłych zdarzeń. Obszary zastosowań prognozowania obejmują np. analizę danych giełdowych, przewidywanie zapotrzebowania na pracowników,
Bardziej szczegółowoProjekt Sieci neuronowe
Projekt Sieci neuronowe Chmielecka Katarzyna Gr. 9 IiE 1. Problem i dane Sieć neuronowa miała za zadanie nauczyć się klasyfikować wnioski kredytowe. W projekcie wykorzystano dane pochodzące z 110 wniosków
Bardziej szczegółowoSYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
Bardziej szczegółowoSTATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2
STATYSTYKA Rafał Kucharski Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2 Zależność przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna), funkcyjna stochastyczna
Bardziej szczegółowoTestowanie hipotez statystycznych.
Statystyka Wykład 10 Wrocław, 22 grudnia 2011 Testowanie hipotez statystycznych Definicja. Hipotezą statystyczną nazywamy stwierdzenie dotyczące parametrów populacji. Definicja. Dwie komplementarne w problemie
Bardziej szczegółowoKombinacja jądrowych estymatorów gęstości w klasyfikacji - testy na sztucznych danych
Kombinacja jądrowych estymatorów gęstości w klasyfikacji - testy na sztucznych danych Mateusz Kobos, 25.11.2009 Seminarium Metody Inteligencji Obliczeniowej 1/25 Spis treści Dolne ograniczenie na wsp.
Bardziej szczegółowoZastosowania sieci neuronowych
Zastosowania sieci neuronowych aproksymacja LABORKA Piotr Ciskowski zadanie 1. aproksymacja funkcji odległość punktów źródło: Żurada i in. Sztuczne sieci neuronowe, przykład 4.4, str. 137 Naucz sieć taką
Bardziej szczegółowoSzczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
Bardziej szczegółowoInterpolacja. Marcin Orchel. Drugi przypadek szczególny to interpolacja trygonometryczna
Interpolacja Marcin Orchel 1 Wstęp Mamy daną funkcję φ (x; a 0,..., a n ) zależną od n + 1 parametrów a 0,..., a n. Zadanie interpolacji funkcji φ polega na określeniu parametrów a i tak aby dla n + 1
Bardziej szczegółowoALGORYTM RANDOM FOREST
SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM
Bardziej szczegółowoWojciech Skwirz
1 Regularyzacja jako metoda doboru zmiennych objaśniających do modelu statystycznego. 2 Plan prezentacji 1. Wstęp 2. Część teoretyczna - Algorytm podziału i ograniczeń - Regularyzacja 3. Opis wyników badania
Bardziej szczegółowoPrawdopodobieństwo i rozkład normalny cd.
# # Prawdopodobieństwo i rozkład normalny cd. Michał Daszykowski, Ivana Stanimirova Instytut Chemii Uniwersytet Śląski w Katowicach Ul. Szkolna 9 40-006 Katowice E-mail: www: mdaszyk@us.edu.pl istanimi@us.edu.pl
Bardziej szczegółowow analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(), zwaną funkcją aproksymującą
Bardziej szczegółowoStatystyczna analiza danych
Statystyczna analiza danych Korelacja i regresja Ewa Szczurek szczurek@mimuw.edu.pl Instytut Informatyki Uniwersytet Warszawski 1/30 Ostrożnie z interpretacją p wartości p wartości zależą od dwóch rzeczy
Bardziej szczegółowoMonte Carlo, bootstrap, jacknife
Monte Carlo, bootstrap, jacknife Literatura Bruce Hansen (2012 +) Econometrics, ze strony internetowej: http://www.ssc.wisc.edu/~bhansen/econometrics/ Monte Carlo: rozdział 8.8, 8.9 Bootstrap: rozdział
Bardziej szczegółowoStatystyka i eksploracja danych
Wykład II: i charakterystyki ich rozkładów 24 lutego 2014 Wartość oczekiwana Dystrybuanty Słowniczek teorii prawdopodobieństwa, cz. II Wartość oczekiwana Dystrybuanty Słowniczek teorii prawdopodobieństwa,
Bardziej szczegółowoRÓWNOWAŻNOŚĆ METOD BADAWCZYCH
RÓWNOWAŻNOŚĆ METOD BADAWCZYCH Piotr Konieczka Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska Równoważność metod??? 2 Zgodność wyników analitycznych otrzymanych z wykorzystaniem porównywanych
Bardziej szczegółowoĆwiczenia IV
Ćwiczenia IV - 17.10.2007 1. Spośród podanych macierzy X wskaż te, których nie można wykorzystać do estymacji MNK parametrów modelu ekonometrycznego postaci y = β 0 + β 1 x 1 + β 2 x 2 + ε 2. Na podstawie
Bardziej szczegółowoWstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.
Wstęp do sieci neuronowych, wykład 3 Warstwy, jednostka Adaline. Maja Czoków, Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 211-1-18 1 Pomysł Przykłady Zastosowanie 2
Bardziej szczegółowoKlasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną
Bardziej szczegółowo