Spis treści. Wstęp. Regresja

Wielkość: px
Rozpocząć pokaz od strony:

Download "Spis treści. Wstęp. Regresja"

Transkrypt

1 Spis treści 1 Wstęp 2 Regresja 2.1 Regresja liniowa Przykład: Dopasowanie prostej do punktów (zakładamy jednakową wariancję Y dla każdego X) Ocena jakości dopasownia Współczynnik Test F dla hipotezy o braku korelacji Przedziały ufności dla parametrów Przedziały ufności dla modelu Przedziały ufności dla obserwacji Test 2.2 Dopasowanie krzywej do danych gdy wariancje dla poszczególnych punktów pomiarowych są różne Dopasowanie dowolnej funkcji Dopasowanie wielomianu Wstęp Załóżmy, że mamy dwie zmienne losowe ciągłe i. Chcielibyśmy wykorzystać wiedzę o wartościach zmiennej do przewidywania wartości zmiennej. Mówimy, że zmienna jest niezależna, a zmienna zależna. W fizyce taką wiedzę opisujemy przy pomocy równań. Równania fizyczne często wyrażają związki przyczynowo-skutkowe. W takim wypadku, która zmienna jest zależna, a która niezależna ma głębszy sens. Jednak nie zawsze tak musi być. Wartości dwóch zmiennych mogą zależeć od trzeciej nieobserwowanej zmiennej. W tej sytuacji wiedza o wartości jednej z tych zmiennych może być wykorzystana do przewidywania wartości drugiej, ale nie ma między nimi związku przyczynowo-skutkowego. Regresja W ogólności, dla każdej wartości zmiennej mamy rozkład wartości zmiennej. # -*- coding: utf-8 -*- import scipy.stats as st import pylab as py import numpy as np Przykład: rozkłady Y dla każdego punktu X # symuowana zależność ma następującą postać y = b0 + b1*x # wartości parametrów b0 = 1 b1 = 3

2 X = np.arange(, 10,0.5) # będę symulował zbieranie n wartości Y dlakażdego X[i], zakładam to samo odchylenie standardowe odch_std = 1 n = 30 Y = np.zeros((n,len(x))) for i in range(len(x)): Y[:,i] = b0 + b1*x[i] + st.norm.rvs(size = n, loc=, scale = odch_std) # narysujmy ten zbiór punktów for j in range(len(x)): py.plot(x, Y[j,:],'b,') # wyróżnimy średnie py.plot(x,np.mean(y,),'ro') # i odchykenia standardowe: py.errorbar(x,np.mean(y,),odch_std,ecolor = 'k',elinewidth = 8) py.show() Regresja liniowa Dalej będziemy rozważać regresję liniową, tzn. założymy, że punkty model liniowy o następującym równaniu: są generowane przez współczynniki i można wyestymować stosując metodę największej wiarygodności: Z tymi współczynnikami otrzymujemy równanie opisujące prostą regresji: Zakłądając, że pochodzi z rozkładu normalnego o wariancji estymowane współczynniki są zmiennymi losowymi pochodzącymi z rozkładów normalnego o średniej takiej jak wyestymowany współczynnik i wariancji odpowiednio:

3 Wariancję można estymować przez: Warto tu zwrócić uwagę na prosty fakt, że niepewność oszacowania współczynników można zmniejszyć zwiększając zakres zmiennej. Funkcję estymującą parametry i ich standardowe odchylenia można zaimplementować w pythonie następująco: # -*- coding: utf-8 -*- import scipy.stats as st import pylab as py import numpy as np def regresja_liniowa(x,y): '''równanie dopasowywanej prostej to y = b0 + b1*x argumenty: X - zmienna niezależna Y - zmienna zależna funkcja zwraca: b0, b1, - estymaty parametrów s_b0, s_b1, - estymaty standardowego odchylenia parametrów residua - różnice między punktami pomiarowymi a punktami na dopasowanej prostej ''' N = len(x) x_sr = np.mean(x) y_sr = np.mean(y) # estymatory parametrów # korzystamy z tego że numpy wykonuje odejmowania i potęgowania dla każdego elementu tablicy X i Y b1 = np.sum((x-x_sr)*(y-y_sr))/np.sum((x-x_sr)**2) b0 = y_sr - b1*x_sr modelu # teraz liczymy kilka rzeczy przydatnych do oceny jakości modelu Y_reg = b0 + b1*x # wartości Y przewidywane przez model residua = Y - Y_reg # residua, czyli zmienność Y nie wynikająca z

4 sse = np.sum(residua**2) # estymator wariancji residuów, bywa nazywany średnim błędem kwadratowym regresji : v_e = sse/(n-2) # estymatory standardowych błędów parametrów s_b0 = np.sqrt(v_e) * np.sqrt(1.0/n + x_sr**2/np.sum( (X-x_sr)**2)) s_b1 = np.sqrt(v_e) * np.sqrt( 1.0/np.sum( (X -x_sr)**2 )) return (b0, b1, s_b0, s_b1, residua ) Przykład: Dopasowanie prostej do punktów (zakładamy jednakową wariancję Y dla każdego X) Wytwórzmy dane zgodnie z modelem: i : # symulowana zależność ma następującą postać y = b0 + b1*x # wartości parametrów b0 = b1 = 3.0 X = np.arange(30, 70, 0.5) sigma = 19.0 n = 1 Y = np.zeros(len(x)) for i in range(len(x)): Y[i] = b0 + b1*x[i] + st.norm.rvs(size = n, loc=, scale = sigma) Korzystając ze zdefiniowanej powyżej funkcji regresja_liniowa estymujemy parametry i ich odchylenia standardowe: (b0, b1, s_b0, s_b1, residua ) = regresja_liniowa(x,y) print('równanie prostej: y = b0 + b1*x') print('dopasowane współczynniki: b0 = %.3f, b1 = %.3f' %(b0, b1)) print('s_b0 = %.4f, s_b1= %.4f '%(s_b0, s_b1)) py.errorbar(x,y,sigma, fmt = None) Y_reg = b0 + b1*x py.plot(x,y_reg)

5 py.show() Ocena jakości dopasownia Współczynnik Aby wyrazić współczynnik miarą zmienności. potrzebujemy następujących wyrażeń - sum kwadratów (ss). Są one - całkowita suma kwadratów - proporcjonalna do wariancji próby, - suma kwadratów regresji - zwana też wyjaśnioną sumą kwadratów, - suma kwadratów residuów - niewyjaśniona suma kwadratów. Poszczególne składniki wymienionych powyżej sum kwadratów są zilustrowane na poniższym rysunku. Plik:Regresja1.svg Dla wybranego punktu zaznaczono różnice będące składnikami poszczególnych sum kwadratów Implementacja: y_sr = np.mean(y) ss_tot = np.sum( (Y - y_sr)**2 ) ss_reg = np.sum( (Y_reg - y_sr)**2 ) ss_err = np.sum( (residua)**2 ) mając te sumy definiujemy jako: R2 = 1 - ss_err/ss_tot print('r2 = %.2f' %(R2)) W przypadku regresji liniowej numerycznie:. Możemy to sprawdzić analitycznie i print('ss_tot = %.3f' %(ss_tot)) print('ss_reg + ss_err =%.3f'%(ss_reg+ss_err))

6 czyli, można więc interpretować jako frakcję zmienności Y tłumaczoną przez model. W przypadku regresji liniowej współczynnik równy jest kwadratowi współczynnika korelacji (dowód) Test F dla hipotezy o braku korelacji Często interesujące jest zweryfikowanie hipotezy o istotności zależności między Y a X (proszę nie mylić tego z istnieniem związku przyczynowo-skutkowego). Matematycznie równoważne jest to postawieniu hipotezy: albo: Wykorzystamy do tego test równości wariancji oparty o rozkład F. Jeśli zgodnie z to prosta regresji jest pozioma i wariancja wyjaśniona przez regresję (proporcjonalna do ) jest równa wariancji niewyjaśnionej (proporcjonalna do ). Wariancje te można estymować dzieląc odpowiednie sumy kwadratów zdefiniowane w poprzednim paragrafie przez odpowiadającą im liczbę stopni swobody. Jeśli mamy N punktów danych, to: Zatem: liczba stopni swobody dla jest, poniważ jeden stopień swobody jest tracony na obliczenie średniej, liczba stopni swobody dla jest, ponieważ do policzenia tej sumy kwadratów musimy wyznaczyć dwa parametry prostej, liczba stopni swobody odpowiadająca jest 1, bo jest związana jest z poprzednimi sumami kwadratów równaniem, czyli swobody jest tyle ile wynosi różnica w stopniach swobody tamtych sum. estymator wariancji wyjaśnionej:

7 estymator wariancji niewyjaśnionej: Wielkość podlega rozkładowi F o stopniach swobody. W naszym przykładzie: # test F N = len(x) F = (ss_reg *(N-2))/ss_err p_f = 1-st.f.cdf(F,1,N-2) print('f = %.2f, p_f = %.2f'%(F, p_f)) Wnioskowanie: Jeśli p_f jest duże to nie mamy powodu aby odrzucić hipotezę zerową. Jeśli zaś jest ono mniejsze niż ustalony poziom istotności to odrzucamy hipotezę zerową i przyjmujemy alternatywną. Przedziały ufności dla parametrów Przedziały ufności dla parametrów i pokazują zakres, w jakim z zadanym prawdopodobieństwem znajdują się ich "prawdziwe" wartości. Jeśli residua mają rozkład normalny, to estymatory parametrów i również będą miały rozkład normalny. Zmienne: podlegają rozkładowi t z (N 2) stopniami swobody. Używając powyższych statystyk t można skonstruować przedziały ufności w standardowy sposób (porównaj z przykładem). Jeśli przedział ma mieć poziom ufności to potrzebna nam będzie wartość krytyczna z rozkładu większej od niej jest. Wówczas: taka, że prawdopodobieństwo zaobserwowania wartości t nie

8 oraz Implementacja: # przedziały ufności: alpha = 0.05 # zakładam 95% przedział ufności # wartość krytyczna w rozkładzie t t_kryt = st.t.ppf(alpha/2, N-2) b0_l = b0 + s_b0*t_kryt b0_h = b0 - s_b0*t_kryt b1_l = b1 + s_b1*t_kryt b1_h = b1 - s_b1*t_kryt print('%.1f procentowe przedziały ufności parametrów:'%((1-alpha)*100)) print('b0: [%.2f %.2f ] '%(b0_l, b0_h)) print('b1: [%.2f %.2f ] '%(b1_l, b1_h)) Przedziały ufności dla modelu Widzieliśmy, że parametry dopasowanej prostej nie są wyznaczone dokładnie. Tzn. jeśli dostalibyśmy inne realizacje danych (X,Y) to ta sama procedura regresji zwraca nieco inne parametry modelu. Jak widzieliśmy powyżej można wyznaczyć przedziały ufności wewnątrz których parametry te znajdują się z określonym prawdopodobieństwem. Różnym parametrom odpowiadają różne proste. Proste te wyznaczają na płaszczyźnie (x,y) pewien obszar. Obszar ten to przedział ufności dla modelu. Jego granice można wyznaczyć obliczając dla każdej wartości x błąd standardowy regresji ze wzoru: odległość krzywej wyznaczającej obszar ufności od prostej regresji znajdujemy mnożąc ten błąd standardowy przez odpowiednią wartość krytyczną z rozkładu : Implementacja: # Przedział ufności modelu: alpha = 0.05 # zakładam 95% przedział ufności # wartość krytyczna w rozkładzie t t_kryt = st.t.ppf(alpha/2, N-2) sse = np.sum(residua**2)

9 # estymator wariancji residuów, bywa nazywany średnim błędem kwadratowym regresji : v_e = sse/(n-2) x_sr = np.mean(x) # Odległość brzegów przedziału ufności od prostej regresji d = t_kryt*np.sqrt(v_e)*np.sqrt(1.0/n + (X- x_sr)**2/np.sum((x-x_sr)**2)) # Ilustracja: dla każdego X cieniujemy obszar pomiędzy Y_reg-d,Y_reg+d i nadajemy mu przezroczystość 0.5 py.fill_between(x,y_reg-d,y_reg+d,alpha=0.5) Przedziały ufności dla obserwacji Przedział zmienności dla modelu nie mówi nam wiele o tym jak daleko od wyznaczonej prostej mogą pojawiać się nowe obserwacje (x,y). Aby zobrazować obszar, w którym z określonym prawdopodobieństwem mogą wystąpić nowe obserwacje potrzebujemy przedziału ufności dla obserwacji. Jego granice można wyznaczyć obliczając dla każdej wartości x błąd standardowy ze wzoru: odległość krzywej wyznaczającej obszar ufności od prostej regresji znajdujemy mnożąc ten błąd standardowy przez odpowiednią wartość krytyczną z rozkładu : # przedział ufności na obserwacje d = t_kryt*np.sqrt(v_e)*np.sqrt(1+1.0/n + (X- x_sr)**2/np.sum((x-x_sr)**2)) py.fill_between(x,y_reg-d,y_reg+d, facecolor='gray',alpha=0.5) Test Jeśli znamy wariancję błędu pomiarowego można zastosować test do oceny jakości dopasowania. Po pierwsze powinniśmy przetestować czy residua mają rozkład normalny W, p =st.shapiro(residua) print('test normalności residuów: p = %.3f'%(p)) Jeśli tak to zmienna:

10 podlega rozkładowi o ilości stopni swobody (n - ilość estymowanych parametrów), czyli u nas N-2. Możemy zbadać jakie jest prawdopodobieństwo zaobserwowania takiej ( ), bądź bardziej ekstremalnej wartości : chi2 = np.sum(residua**2)/sigma**2 N = len(x) if chi2 < N-2: p_chi2 = st.chi2.cdf(chi2, N-2) else: p_chi2 = 1 - st.chi2.cdf(chi2, N-2) print('chi2 = %.2f, p_chi2 = %.3f' %(chi2, p_chi2)) Czasem używamy zredukowanego, czyli podzielonego przez liczbę stopni swobody : Jeśli jest on znacząco większy niż 1 to model nie pasuje do danych, lub nie doszacowaliśmy standardowego odchylenia. Jeśli jest sporo mniejszy niż 1 to prawdopodobnie oszacowane przez nas jest większe niż rzeczywiste. To jakościowe porównanie można uściślić szacując prawdopodobieństwo zaobserwowania wartości bardziej ekstremalnych niż otrzymane w dopasowaniu. Zmienna podlega innemu rozkładowi prawdopodobieństwa niż, możemy go jednak łatwo wyznaczyć w drodze symulacji: chi2_zred = chi2/(n-2) # potrzebny jest nam rozkład chi2_zred: N_dist = dist_chi2_zred = np.sum(st.norm.rvs(size=(n-2,n_dist))**2,)/(n-2) if chi2_zred>1: p_chi2_zred = np.sum(dist_chi2_zred>=chi2_zred)/float(n_dist) else: p_chi2_zred = np.sum(dist_chi2_zred<=chi2_zred)/float(n_dist) print('chi2_zred = %.2f, p_chi2_zred = %.3f' %(chi2_zred, p_chi2_zred)) Dopasowanie krzywej do danych gdy wariancje dla poszczególnych punktów pomiarowych są różne Często w fizyce potrzebujemy dopasować jakąś bardziej skomplikowaną zależność niż prosta. Często też potrafimy oszacować błędy pomiarowe dla różnych wartości zmiennej niezależnej, przy czym może się zdarzyć, że błędy te nie są jednakowe dla różnych wartości zmiennej niezależnej. Do

11 dopasowania współczynników używamy zasady największej wiarygodności, która prowadzi do procedur minimalizacji ważonego średniego błędu kwadratowego. Możemy wówczas użyć standardowych procedur minimalizacji gradientowej. Należy jednak pamiętać, że metody gradientowe znajdują najbliższe minimum lokalne analizowanej funkcji. W przypadku funkcji nieliniowych skutkiem tego jest zależność wyniku od punktu startu minimalizacji. Dopasowanie dowolnej funkcji Poniżej rozważymy przykład dopasowania zależności wykładniczej. # -*- coding: utf-8 -*- import scipy.stats as st import scipy.optimize as opt import pylab as py import numpy as np # funkcja używana do symulowania danych def zanik(x, amp, wykladnik, blad_wzgledny): '''Definicja funkcji zaniku wykładniczego. Użyjemy jej do wytworzenia danych''' y = amp * (x**wykladnik) # idealne dane sigma = blad_wzgledny * y # zakładamy, że stały jest błąd względny pomiaru # przeliczamy go na standardowe odchylenie symulowanego błędu # symulujemy szum z obliczonym odchyleniem standardowym i dodajemy go do danych idealnych y += st.norm.rvs(size=num_points) * sigma return (y, sigma) # Funkcja, którą chcemy dopasować do danych: def funkcja_do_fitowania(x,a,b): y = a*x**b return y def funkcja_bledu(x, y, funkcja, params, err): '''Suma kwadratów tej funkcji jest minimalizowana w procesie optymalizacji parametrów. Nam przyda się do obliczenia residuów.''' y_fit = funkcja(x, *params) # aktualne wartości y z dopasowania residuum = y-y_fit # residua wchodzą do sumy kwadratów z wagą odwrotnie proporcjonalną do standardowego odchylenia residuum_wazone = residuum/ err return residuum_wazone # Generujemy punkty z szumem

12 num_points = 20 X = np.linspace(1.1, 10.1, num_points) Y, sigma = zanik(x, 10.0, -2.0, 0.1) # symulowane dane # Dopasowujemy parametry # nie musimy podawać wartości startowych (params_init) dla procedury minimalizacji (wtedy funkcja zakłada wartości startowe równe 1) # jednak zazwyczaj dobrze jest podpowiedzieć algorytmowi, gdzie powinien zacząć # nie musimy również podawać wartości sigma, ale jeśli są one różne dla różnych punktów, to podanie ich sprawi, że algorytm będzie się bardziej troszczył # o dopasowanie do punktów pomiarowych zmierzonych z dobrą dokładnością, a bardziej swobodnie podejdzie do tych o dużych niepewnościach params_init = [2.0, -1.0] params_final, covar = opt.curve_fit(funkcja_do_fitowania,x,y,params_init,sigma) print("dopasowane parametry",params_final) print("macierz kowariancji\n",covar) # dopasowane parametry amp=params_final[] wykladnik=params_final[1] # standardowe błędy dopasowania amp_err = np.sqrt(covar[][]) wykladnik_err = np.sqrt(covar[1][1]) # test chi2 dobroci dopasowania. # Jeśli znamy wariancję błędu pomiarowego można zastosować test chi2 do oceny jakości dopasowania. # Po pierwsze powinniśmy przetestować czy residua mają rozkład normalny residua = funkcja_bledu(x, Y, funkcja_do_fitowania, params_final, sigma)# tym razem residua już są podzielone przez standardowe odchylenie, każde przez swoje W, p =st.shapiro(residua) print('test normalności residuów: p = %.3f'%(p)) # jeśli tak to zmienna: chi2 = np.sum(residua**2) # podlega rozkładowi chi-kwadrat o N - n ilości stopni swobody (n - ilość fitowanych parametrów), czyli u nas N-2 # możemy zbadać jakie jest prawdopodobieństwo zaobserwowania takiej, bądź bardziej ekstremalnej wartości chi2:

13 N = len (X) liczba_stopni_swobody = N-len(params_final) # liczba punktów - liczba parametrów if chi2 < liczba_stopni_swobody: p_chi2 = st.chi2.cdf(chi2, liczba_stopni_swobody) else: p_chi2 = st.chi2.sf(chi2, liczba_stopni_swobody) # równoważne 1- st.chi2.cdf(chi2, N-2), ale sf ma lepszą dokładność dla małych wartości print('chi2 = %.2f, p_chi2 = %.3f' %(chi2, p_chi2)) # czasem używamy zredukowanego chi2, czyli podzielonego przez ilość stopni swobody chi2_zred = chi2/liczba_stopni_swobody # jeśli jest on znacząco większy niż 1 to model nie pasuje do danych, lub nie doszacowaliśmy sigmy, # jeśli jest sporo mniejszy niż 1 to prawdopodobnie oszacowane przez nas sigma jest większe niż rzeczywiste # potrzebny jest nam rozkład chi2_zred: N_dist = dist_chi2_zred = np.sum(st.norm.rvs(size=(liczba_stopni_swobody,n_dist))**2,)/liczba_stopni_swobody p_chi2_zred = np.sum(dist_chi2_zred>=chi2_zred)/float(n_dist) print('chi2_zred = %.2f, p_chi2_zred = %.3f' %(chi2_zred, p_chi2_zred)) ########## # wykres ########## py.subplot(2,1,1) py.plot(x, funkcja_do_fitowania(x,amp,wykladnik)) # Fit py.errorbar(x, Y, yerr=sigma, fmt='k.') # Dane i błędy py.text(5, 6.5, 'amplituda = %5.2f +/- %5.2f' % (amp, amp_err)) py.text(5, 5.5, u'wykładnik = %5.2f +/- %5.2f' % (wykladnik, wykladnik_err)) py.title(u'dopasowanie metodą najmniejszych kwadratów') py.xlabel('x') py.ylabel('y') py.xlim(1, 11) py.subplot(2,1,2) py.plot(x, residua) # residua py.xlabel('x') py.ylabel('dy') py.title(u'wykres residuów') py.show() Dopasowanie wielomianu Poniżej rozważymy przykład dopasowania zależności wielomianowej.

14 # -*- coding: utf-8 -*- import scipy.stats as st import pylab as py import numpy as np # funkcja używana do symulowania danych def wielomian_z_szumem(x, wspolczynniki,blad_wzgledny): '''Definicja funkcji wielomianowej. Użyjemy jej do wytworzenia danych''' W = np.poly1d(wspolczynniki) # funkcja zwracająca obiekt wielomianu o zadanych wspolczynnikach #można go używać tak, jak zwykłej funkcji, ale obsługuje też działania na wielomianach y = W(X)# idealne dane sigma = blad_wzgledny * y # zakładamy, że stały jest błąd względny pomiaru # przeliczamy go na standardowe odchylenie symulowanego błędu # symulujemy szum z obliczonym odchyleniem standardowym i dodajemy go do danych idealnych y += st.norm.rvs(size=num_points) * sigma return (y, sigma) def funkcja_bledu_dla_wielomianow(x, y, wspolczynniki, err): '''Suma kwadratów tej funkcji jest minimalizowana w procesie optymalizacji parametrów. Nam przyda się do obliczenia residuów.''' W = np.poly1d(wspolczynniki) y_fit = W(x) # aktualne wartości y z dopasowania residuum = y-y_fit # residua wchodzą do sumy kwadratów z wagą odwrotnie proporcjonalną do standardowego odchylenia residuum_wazone = residuum/ err return residuum_wazone # Generujemy punkty z szumem num_points = 20 X = np.linspace(-4, 6, num_points) wspolczynniki_wielomianu= (0.3,1,-2,4) stopien_wielomianu=len(wspolczynniki_wielomianu)-1 blad_wzgledny_pomiaru=0.1 Y, sigma = wielomian_z_szumem(x, wspolczynniki_wielomianu, blad_wzgledny_pomiaru) # symulowane dane # Dopasowujemy parametry # tym razem skorzystamy z funkcji np.polyfit, która nie potrzebuje parametrów początkowych, ani zdefiniowanej funkcji, którą ma dopasować

15 # podajemy jej tylko nasze dane oraz stopień wielomianu, który ma dopasować oraz opcjonalne wagi # UWAGA! Tym razem wagi muszą być odwrotnością odchyleń standardowych (1/sigma, a nie sigma, jak w curve_fit) # funkcja ta domyślnie zwraca tylko dopasowane parametry (wspolczynniki wielomianu), a nie zwraca macierzy kowariancji, # jeśli jest nam ona potrzebna, to musimy jej zarządać poprzez dodanie opcji cov=true (full=false, ale to jest domyślnie) params_final, covar=np.polyfit(x, Y, deg=stopien_wielomianu, w=1/sigma, cov=true) print("dopasowane wspolczynniki wielomianu",params_final) print("macierz kowariancji\n",covar) # standardowe błędy dopasowania niepewnosci=[] for i in range(len(params_final)): niepewnosci.append(np.sqrt(covar[i][i])) print(niepewnosci) # test chi2 dobroci dopasowania. # Jeśli znamy wariancję błędu pomiarowego można zastosować test chi2 do oceny jakości dopasowania. # Po pierwsze powinniśmy przetestować czy residua mają rozkład normalny residua = funkcja_bledu_dla_wielomianow(x, Y, params_final, sigma)# tym razem residua już są podzielone przez standardowe odchylenie, każde przez swoje W, p =st.shapiro(residua) print('test normalności residuów: p = %.3f'%(p)) # jeśli tak to zmienna: chi2 = np.sum(residua**2) # podlega rozkładowi chi-kwadrat o N - n ilości stopni swobody (n - ilość fitowanych parametrów), czyli u nas N-2 # możemy zbadać jakie jest prawdopodobieństwo zaobserwowania takiej, bądź bardziej ekstremalnej wartości chi2: N = len (X) liczba_stopni_swobody = N-len(params_final) # liczba punktów - liczba parametrów if chi2 < liczba_stopni_swobody: p_chi2 = st.chi2.cdf(chi2, liczba_stopni_swobody) else: p_chi2 = st.chi2.sf(chi2, liczba_stopni_swobody) # równoważne 1- st.chi2.cdf(chi2, N-2), ale sf ma lepszą dokładność dla małych wartości

16 print('chi2 = %.2f, p_chi2 = %.3f' %(chi2, p_chi2)) # czasem używamy zredukowanego chi2, czyli podzielonego przez ilość stopni swobody chi2_zred = chi2/liczba_stopni_swobody # jeśli jest on znacząco większy niż 1 to model nie pasuje do danych, lub nie doszacowaliśmy sigmy, # jeśli jest sporo mniejszy niż 1 to prawdopodobnie oszacowane przez nas sigma jest większe niż rzeczywiste # potrzebny jest nam rozkład chi2_zred: N_dist = dist_chi2_zred = np.sum(st.norm.rvs(size=(liczba_stopni_swobody,n_dist))**2,)/liczba_stopni_swobody p_chi2_zred = np.sum(dist_chi2_zred>=chi2_zred)/float(n_dist) print('chi2_zred = %.2f, p_chi2_zred = %.3f' %(chi2_zred, p_chi2_zred)) ########## # wykres ########## py.subplot(2,1,1) W=np.poly1d(params_final) py.plot(x, W(X)) # Fit py.errorbar(x, Y, yerr=sigma, fmt='k.') # Dane i błędy py.title(u'dopasowanie metodą najmniejszych kwadratów') py.text(-4.6, 92, u'dopasowane współczynniki = '+str(np.round(params_final,3))) py.text(-4.6, 86, u'niepewności współczynników = '+str(np.round(niepewnosci,3))) py.text(-4.6, 80, u'prawdziwe współczynniki = '+str(np.round(wspolczynniki_wielomianu,3))) py.xlabel('x') py.ylabel('y') py.xlim(x.min()-1, X.max()+1) py.subplot(2,1,2) py.plot(x, residua) # residua py.xlabel('x') py.ylabel('dy') py.title(u'wykres residuów') py.show() py.show()

Zadania z rysowania i dopasowania funkcji

Zadania z rysowania i dopasowania funkcji Spis treści 1 Zadania z rysowania i dopasowania funkcji 1.1 Znajdowanie miejsca zerowego funkcji 1.2 Wczytywanie danych i wykres 1.3 Dopasowywanie krzywej do danych i wykres 1.3.1 Wskazówki Zadania z rysowania

Bardziej szczegółowo

Rozdział 8. Regresja. Definiowanie modelu

Rozdział 8. Regresja. Definiowanie modelu Rozdział 8 Regresja Definiowanie modelu Analizę korelacji można traktować jako wstęp do analizy regresji. Jeżeli wykresy rozrzutu oraz wartości współczynników korelacji wskazują na istniejąca współzmienność

Bardziej szczegółowo

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y

Bardziej szczegółowo

KORELACJE I REGRESJA LINIOWA

KORELACJE I REGRESJA LINIOWA KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y

Bardziej szczegółowo

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie: ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1. tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1

Bardziej szczegółowo

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34 Statystyka Wykład 9 Magdalena Alama-Bućko 24 kwietnia 2017 Magdalena Alama-Bućko Statystyka 24 kwietnia 2017 1 / 34 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia

Bardziej szczegółowo

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Spis treści Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis treści Spis treści 1 Wstęp Bardzo często interesujący

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9 Stanisław Cichocki Natalia Nehrebecka Wykład 9 1 1. Dodatkowe założenie KMRL 2. Testowanie hipotez prostych Rozkład estymatora b Testowanie hipotez prostych przy użyciu statystyki t 3. Przedziały ufności

Bardziej szczegółowo

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW ODRZUCANIE WYNIKÓW OJEDYNCZYCH OMIARÓW W praktyce pomiarowej zdarzają się sytuacje gdy jeden z pomiarów odstaje od pozostałych. Jeżeli wykorzystamy fakt, że wyniki pomiarów są zmienną losową opisywaną

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Bioinformatyka Wykład 9 Wrocław, 5 grudnia 2011 Temat. Test zgodności χ 2 Pearsona. Statystyka χ 2 Pearsona Rozpatrzmy ciąg niezależnych zmiennych losowych X 1,..., X n o jednakowym dyskretnym rozkładzie

Bardziej szczegółowo

Wykład 3 Hipotezy statystyczne

Wykład 3 Hipotezy statystyczne Wykład 3 Hipotezy statystyczne Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu obserwowanej zmiennej losowej (cechy populacji generalnej) Hipoteza zerowa (H 0 ) jest hipoteza

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna Regresja wieloraka Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna zmienna niezależna (można zobrazować

Bardziej szczegółowo

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Spis treści I. Wzory ogólne... 2 1. Średnia arytmetyczna:... 2 2. Rozstęp:... 2 3. Kwantyle:... 2 4. Wariancja:... 2 5. Odchylenie standardowe:...

Bardziej szczegółowo

Wprowadzenie do technik analitycznych Metoda najmniejszych kwadratów

Wprowadzenie do technik analitycznych Metoda najmniejszych kwadratów Wprowadzenie do technik analitycznych Instytut Sterowania i Systemów Informatycznych Uniwersytet Zielonogórski Wykład 2 Korelacja i regresja Przykład: Temperatura latem średnia liczba napojów sprzedawanych

Bardziej szczegółowo

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, 诲 瞴瞶 瞶 ƭ0 ƭ 瞰 parametrów strukturalnych modelu Y zmienna objaśniana, = + + + + + X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, α 0, α 1, α 2,,α k parametry strukturalne modelu, k+1 parametrów

Bardziej szczegółowo

WYKŁAD 8 ANALIZA REGRESJI

WYKŁAD 8 ANALIZA REGRESJI WYKŁAD 8 ANALIZA REGRESJI Regresja 1. Metoda najmniejszych kwadratów-regresja prostoliniowa 2. Regresja krzywoliniowa 3. Estymacja liniowej funkcji regresji 4. Testy istotności współczynnika regresji liniowej

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

166 Wstęp do statystyki matematycznej

166 Wstęp do statystyki matematycznej 166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej

Bardziej szczegółowo

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Współczynnik korelacji Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Własności współczynnika korelacji 1. Współczynnik korelacji jest liczbą niemianowaną 2. ϱ 1,

Bardziej szczegółowo

Prawdopodobieństwo i rozkład normalny cd.

Prawdopodobieństwo i rozkład normalny cd. # # Prawdopodobieństwo i rozkład normalny cd. Michał Daszykowski, Ivana Stanimirova Instytut Chemii Uniwersytet Śląski w Katowicach Ul. Szkolna 9 40-006 Katowice E-mail: www: mdaszyk@us.edu.pl istanimi@us.edu.pl

Bardziej szczegółowo

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31 Statystyka Wykład 8 Magdalena Alama-Bućko 10 kwietnia 2017 Magdalena Alama-Bućko Statystyka 10 kwietnia 2017 1 / 31 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Testowanie hipotez statystycznych. Wnioskowanie statystyczne Testowanie hipotez statystycznych Wnioskowanie statystyczne Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Hipotezy

Bardziej szczegółowo

Wstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński

Wstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński Wstęp do teorii niepewności pomiaru Danuta J. Michczyńska Adam Michczyński Podstawowe informacje: Strona Politechniki Śląskiej: www.polsl.pl Instytut Fizyki / strona własna Instytutu / Dydaktyka / I Pracownia

Bardziej szczegółowo

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp tel.: +48 662 635 712 Liczba stron: 15 Data: 20.07.2010r OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA z wykorzystaniem programu obliczeniowego Q maxp DŁUGIE

Bardziej szczegółowo

SMOP - wykład. Rozkład normalny zasady przenoszenia błędów. Ewa Pawelec

SMOP - wykład. Rozkład normalny zasady przenoszenia błędów. Ewa Pawelec SMOP - wykład Rozkład normalny zasady przenoszenia błędów Ewa Pawelec 1 iepewność dla rozkładu norm. Zamiast dodawania całych zakresów uwzględniamy prawdopodobieństwo trafienia dwóch wartości: P x 1, x

Bardziej szczegółowo

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817 Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817 Zadanie 1: wiek 7 8 9 1 11 11,5 12 13 14 14 15 16 17 18 18,5 19 wzrost 12 122 125 131 135 14 142 145 15 1 154 159 162 164 168 17 Wykres

Bardziej szczegółowo

Analiza wariancji. dr Janusz Górczyński

Analiza wariancji. dr Janusz Górczyński Analiza wariancji dr Janusz Górczyński Wprowadzenie Powiedzmy, że badamy pewną populację π, w której cecha Y ma rozkład N o średniej m i odchyleniu standardowym σ. Powiedzmy dalej, że istnieje pewien czynnik

Bardziej szczegółowo

WSKAZÓWKI DO WYKONANIA SPRAWOZDANIA Z WYRÓWNAWCZYCH ZAJĘĆ LABORATORYJNYCH

WSKAZÓWKI DO WYKONANIA SPRAWOZDANIA Z WYRÓWNAWCZYCH ZAJĘĆ LABORATORYJNYCH WSKAZÓWKI DO WYKONANIA SPRAWOZDANIA Z WYRÓWNAWCZYCH ZAJĘĆ LABORATORYJNYCH Dobrze przygotowane sprawozdanie powinno zawierać następujące elementy: 1. Krótki wstęp - maksymalnie pół strony. W krótki i zwięzły

Bardziej szczegółowo

Przykład 1 ceny mieszkań

Przykład 1 ceny mieszkań Przykład ceny mieszkań Przykład ceny mieszkań Model ekonometryczny zaleŝności ceny mieszkań od metraŝu - naleŝy do klasy modeli nieliniowych. - weryfikację empiryczną modelu przeprowadzono na przykładzie

Bardziej szczegółowo

Analizy wariancji ANOVA (analysis of variance)

Analizy wariancji ANOVA (analysis of variance) ANOVA Analizy wariancji ANOVA (analysis of variance) jest to metoda równoczesnego badania istotności różnic między wieloma średnimi z prób pochodzących z wielu populacji (grup). Model jednoczynnikowy analiza

Bardziej szczegółowo

Stosowana Analiza Regresji

Stosowana Analiza Regresji prostej Stosowana Wykład I 5 Października 2011 1 / 29 prostej Przykład Dane trees - wyniki pomiarów objętości (Volume), średnicy (Girth) i wysokości (Height) pni drzew. Interesuje nas zależność (o ile

Bardziej szczegółowo

Rozpoznawanie obrazów

Rozpoznawanie obrazów Rozpoznawanie obrazów Laboratorium Python Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest implementacja liniowego zadania

Bardziej szczegółowo

KADD Metoda najmniejszych kwadratów funkcje nieliniowe

KADD Metoda najmniejszych kwadratów funkcje nieliniowe Metoda najmn. kwadr. - funkcje nieliniowe Metoda najmniejszych kwadratów Funkcje nieliniowe Procedura z redukcją kroku iteracji Przykłady zastosowań Dopasowanie funkcji wykładniczej Dopasowanie funkcji

Bardziej szczegółowo

Oszacowanie i rozkład t

Oszacowanie i rozkład t Oszacowanie i rozkład t Marcin Zajenkowski Marcin Zajenkowski () Oszacowanie i rozkład t 1 / 31 Oszacowanie 1 Na podstawie danych z próby szacuje się wiele wartości w populacji, np.: jakie jest poparcie

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka. Wykład 4

Stanisław Cichocki. Natalia Nehrebecka. Wykład 4 Stanisław Cichocki Natalia Nehrebecka Wykład 4 1 1. Własności hiperpłaszczyzny regresji 2. Dobroć dopasowania równania regresji. Współczynnik determinacji R 2 Dekompozycja wariancji zmiennej zależnej Współczynnik

Bardziej szczegółowo

Pochodna i różniczka funkcji oraz jej zastosowanie do obliczania niepewności pomiarowych

Pochodna i różniczka funkcji oraz jej zastosowanie do obliczania niepewności pomiarowych Pochodna i różniczka unkcji oraz jej zastosowanie do obliczania niepewności pomiarowych Krzyszto Rębilas DEFINICJA POCHODNEJ Pochodna unkcji () w punkcie określona jest jako granica: lim 0 Oznaczamy ją

Bardziej szczegółowo

Kolokwium ze statystyki matematycznej

Kolokwium ze statystyki matematycznej Kolokwium ze statystyki matematycznej 28.05.2011 Zadanie 1 Niech X będzie zmienną losową z rozkładu o gęstości dla, gdzie 0 jest nieznanym parametrem. Na podstawie pojedynczej obserwacji weryfikujemy hipotezę

Bardziej szczegółowo

Estymacja parametrów, przedziały ufności etc

Estymacja parametrów, przedziały ufności etc Estymacja parametrów, przedziały ufności etc Liniowa MNK przypomnienie Wariancja parametrów Postulat Bayesa: rozkłady p-stwa dla parametrów Przypadek nieliniowy Przedziały ufności Rozkłady chi-kwadrat,

Bardziej szczegółowo

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona; LABORATORIUM 4 Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona; dwie zmienne zależne mierzalne małe próby duże próby rozkład normalny

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Wnioskowanie statystyczne dla zmiennych numerycznych Porównywanie dwóch średnich Boot-strapping Analiza

Bardziej szczegółowo

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( ) Statystyka Rozkład prawdopodobieństwa Testowanie hipotez Wykład III (04.01.2016) Rozkład t-studenta Rozkład T jest rozkładem pomocniczym we wnioskowaniu statystycznym; stosuje się go wyznaczenia przedziału

Bardziej szczegółowo

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8 Stanisław Cichocki Natalia Nehrebecka Zajęcia 8 1. Testy diagnostyczne 2. Testowanie prawidłowości formy funkcyjnej modelu 3. Testowanie normalności składników losowych 4. Testowanie stabilności parametrów

Bardziej szczegółowo

Regresja logistyczna (LOGISTIC)

Regresja logistyczna (LOGISTIC) Zmienna zależna: Wybór opcji zachodniej w polityce zagranicznej (kodowana jako tak, 0 nie) Zmienne niezależne: wiedza o Unii Europejskiej (WIEDZA), zamieszkiwanie w regionie zachodnim (ZACH) lub wschodnim

Bardziej szczegółowo

Zawartość. Zawartość

Zawartość. Zawartość Opr. dr inż. Grzegorz Biesok. Wer. 2.05 2011 Zawartość Zawartość 1. Rozkład normalny... 3 2. Rozkład normalny standardowy... 5 3. Obliczanie prawdopodobieństw dla zmiennych o rozkładzie norm. z parametrami

Bardziej szczegółowo

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka Statystyka opisowa. Wykład V. e-mail:e.kozlovski@pollub.pl Spis treści 1 Prosta regresji cechy Y względem cech X 1,..., X k. 2 3 Wyznaczamy zależność cechy Y od cech X 1, X 2,..., X k postaci Y = α 0 +

Bardziej szczegółowo

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Analiza zależności cech ilościowych regresja liniowa (Wykład 13) Analiza zależności cech ilościowych regresja liniowa (Wykład 13) dr Mariusz Grządziel semestr letni 2012 Przykład wprowadzajacy W zbiorze danych homedata (z pakietu R-owskiego UsingR) można znaleźć ceny

Bardziej szczegółowo

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ Dana jest populacja generalna, w której dwuwymiarowa cecha (zmienna losowa) (X, Y ) ma pewien dwuwymiarowy rozk lad. Miara korelacji liniowej dla zmiennych (X, Y

Bardziej szczegółowo

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa Weryfikacja hipotez statystycznych Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o prawdziwości lub fałszywości którego wnioskuje się na podstawie

Bardziej szczegółowo

Estymacja parametrów, przedziały ufności etc

Estymacja parametrów, przedziały ufności etc Estymacja parametrów, przedziały ufności etc Liniowa MNK przypomnienie Wariancja parametrów Postulat Bayesa: rozkłady p-stwa dla parametrów Przypadek nieliniowy Przedziały ufności Rozkłady chi-kwadrat,

Bardziej szczegółowo

DOKUMENTACJA SYSTEMU ZARZĄDZANIA LABORATORIUM. Procedura szacowania niepewności

DOKUMENTACJA SYSTEMU ZARZĄDZANIA LABORATORIUM. Procedura szacowania niepewności DOKUMENTACJA SYSTEMU ZARZĄDZANIA LABORATORIUM Procedura szacowania niepewności Szacowanie niepewności oznaczania / pomiaru zawartości... metodą... Data Imię i Nazwisko Podpis Opracował Sprawdził Zatwierdził

Bardziej szczegółowo

Statystyka i Analiza Danych

Statystyka i Analiza Danych Warsztaty Statystyka i Analiza Danych Gdańsk, 20-22 lutego 2014 Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych Janusz Wątroba StatSoft Polska Centrum Zastosowań Matematyki -

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych Testowanie hipotez statystycznych Wyk lad 8 Natalia Nehrebecka Stanis law Cichocki 29 listopada 2015 Plan zajeć 1 Rozk lad estymatora b Rozk lad sumy kwadratów reszt 2 Hipotezy proste - test t Badanie

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych round Testowanie hipotez statystycznych Wyk lad 9 Natalia Nehrebecka Stanis law Cichocki 13 grudnia 2014 Plan zajeć 1 Rozk lad estymatora b Rozk lad sumy kwadratów reszt 2 Hipotezy proste - test t Badanie

Bardziej szczegółowo

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 9 i 10 1 / 30 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Bardziej szczegółowo

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x ZJAZD 4 KORELACJA, BADANIE NIEZALEŻNOŚCI, ANALIZA REGRESJI Analiza korelacji i regresji jest działem statystyki zajmującym się badaniem zależności i związków pomiędzy rozkładami dwu lub więcej badanych

Bardziej szczegółowo

Statystyka Matematyczna Anna Janicka

Statystyka Matematyczna Anna Janicka Statystyka Matematyczna Anna Janicka wykład IX, 25.04.2016 TESTOWANIE HIPOTEZ STATYSTYCZNYCH Plan na dzisiaj 1. Hipoteza statystyczna 2. Test statystyczny 3. Błędy I-go i II-go rodzaju 4. Poziom istotności,

Bardziej szczegółowo

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/ Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/ Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Głęboka 28, bud. CIW, p. 221 e-mail: zdzislaw.otachel@up.lublin.pl

Bardziej szczegółowo

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów

Bardziej szczegółowo

Rozkłady statystyk z próby

Rozkłady statystyk z próby Rozkłady statystyk z próby Rozkłady statystyk z próby Przypuśćmy, że wykonujemy serię doświadczeń polegających na 4 krotnym rzucie symetryczną kostką do gry, obserwując liczbę wyrzuconych oczek Nr kolejny

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2 STATYSTYKA I DOŚWIADCZALNICTWO Wykład Parametry przedziałowe rozkładów ciągłych określane na podstawie próby (przedziały ufności) Przedział ufności dla średniej s X t( α;n 1),X + t( α;n 1) n s n t (α;

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA, LISTA 3

STATYSTYKA MATEMATYCZNA, LISTA 3 STATYSTYKA MATEMATYCZNA, LISTA 3 1. Aby zweryfikować hipotezę o symetryczności monety; H: p = 0.5 przeciwko K: p 0.5 wykonano nią n = 100 rzutów. Wyznaczyć obszar krytyczny i zweryfikować hipotezę H gdy

Bardziej szczegółowo

Zmienne zależne i niezależne

Zmienne zależne i niezależne Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }

Bardziej szczegółowo

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych. Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl Hipotezy i Testy statystyczne Każde

Bardziej szczegółowo

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Regresja wielokrotna Model dla zależności liniowej: Y=a+b 1 X 1 +b 2 X 2 +...+b n X n Cząstkowe współczynniki regresji wielokrotnej: b 1,..., b n Zmienne niezależne (przyczynowe): X 1,..., X n Zmienna

Bardziej szczegółowo

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński Mikroekonometria 13 Mikołaj Czajkowski Wiktor Budziński Endogeniczność regresja liniowa W regresji liniowej estymujemy następujące równanie: i i i Metoda Najmniejszych Kwadratów zakłada, że wszystkie zmienne

Bardziej szczegółowo

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Zadanie 1 Eksploracja (EXAMINE) Informacja o analizowanych danych Obserwacje Uwzględnione Wykluczone Ogółem

Bardziej szczegółowo

Analiza niepewności pomiarów

Analiza niepewności pomiarów Teoria pomiarów Analiza niepewności pomiarów Zagadnienia statystyki matematycznej Dr hab. inż. Paweł Majda www.pmajda.zut.edu.pl Podstawy statystyki matematycznej Histogram oraz wielobok liczebności zmiennej

Bardziej szczegółowo

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej

Bardziej szczegółowo

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N = HISTOGRAM W pewnych przypadkach interesuje nas nie tylko określenie prawdziwej wartości mierzonej wielkości, ale także zbadanie całego rozkład prawdopodobieństwa wyników pomiarów. W takim przypadku wyniki

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Regresja liniowa Korelacja Modelowanie Analiza modelu Wnioskowanie Korelacja 3 Korelacja R: charakteryzuje

Bardziej szczegółowo

AKADEMIA GÓRNICZO-HUTNICZA Wydział Matematyki Stosowanej ROZKŁAD NORMALNY ROZKŁAD GAUSSA

AKADEMIA GÓRNICZO-HUTNICZA Wydział Matematyki Stosowanej ROZKŁAD NORMALNY ROZKŁAD GAUSSA AKADEMIA GÓRNICZO-HUTNICZA Wydział Matematyki Stosowanej KATEDRA MATEMATYKI TEMAT PRACY: ROZKŁAD NORMALNY ROZKŁAD GAUSSA AUTOR: BARBARA MARDOSZ Kraków, styczeń 2008 Spis treści 1 Wprowadzenie 2 2 Definicja

Bardziej szczegółowo

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi Piotr Konieczka Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska D syst D śr m 1 3 5 2 4 6 śr j D 1

Bardziej szczegółowo

Analiza współzależności zjawisk

Analiza współzależności zjawisk Analiza współzależności zjawisk Informacje ogólne Jednostki tworzące zbiorowość statystyczną charakteryzowane są zazwyczaj za pomocą wielu cech zmiennych, które nierzadko pozostają ze sobą w pewnym związku.

Bardziej szczegółowo

Komputerowa Analiza Danych Doświadczalnych

Komputerowa Analiza Danych Doświadczalnych Komputerowa Analiza Danych Doświadczalnych dr inż. Adam Kisiel kisiel@if.pw.edu.pl pokój 117b (12b) 1 Materiały do wykładu Transparencje do wykładów: http://www.if.pw.edu.pl/~kisiel/kadd/kadd.html Literatura

Bardziej szczegółowo

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd. Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru

Bardziej szczegółowo

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego Współczynnik korelacji opisuje siłę i kierunek związku. Jest miarą symetryczną. Im wyższa korelacja tym lepiej potrafimy

Bardziej szczegółowo

Statystyczne Metody Opracowania Wyników Pomiarów

Statystyczne Metody Opracowania Wyników Pomiarów Statystyczne Metody Opracowania Wyników Pomiarów dla studentów Ochrony Środowiska Teresa Jaworska-Gołąb 2017/18 Co czytać [1] H. Szydłowski, Pracownia fizyczna, PWN, Warszawa 1999. [2] A. Zięba, Analiza

Bardziej szczegółowo

Wnioskowanie statystyczne. Statystyka w 5

Wnioskowanie statystyczne. Statystyka w 5 Wnioskowanie statystyczne tatystyka w 5 Rozkłady statystyk z próby Próba losowa pobrana z populacji stanowi realizacje zmiennej losowej jak ciąg zmiennych losowych (X, X,... X ) niezależnych i mających

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA Zadanie 0.1 Zmienna losowa X ma rozkład określony funkcją prawdopodobieństwa: x k 0 4 p k 1/3 1/6 1/ obliczyć EX, D X. (odp. 4/3;

Bardziej szczegółowo

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski Narzędzia statystyczne i ekonometryczne Wykład 1 dr Paweł Baranowski Informacje organizacyjne Wydział Ek-Soc, pok. B-109 pawel@baranowski.edu.pl Strona: baranowski.edu.pl (w tym materiały) Konsultacje:

Bardziej szczegółowo

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość Idea Niech θ oznacza parametr modelu statystycznego. Dotychczasowe rozważania dotyczyły metod estymacji tego parametru. Teraz zamiast szacować nieznaną wartość parametru będziemy weryfikowali hipotezę

Bardziej szczegółowo

Procedura szacowania niepewności

Procedura szacowania niepewności DOKUMENTACJA SYSTEMU ZARZĄDZANIA LABORATORIUM Procedura szacowania niepewności Stron 7 Załączniki Nr 1 Nr Nr 3 Stron Symbol procedury PN//xyz Data Imię i Nazwisko Podpis Opracował Sprawdził Zatwierdził

Bardziej szczegółowo

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4. Testowanie hipotez Niech X = (X 1... X n ) będzie próbą losową na przestrzeni X zaś P = {P θ θ Θ} rodziną rozkładów prawdopodobieństwa określonych na przestrzeni próby X. Definicja 1. Hipotezą zerową Θ

Bardziej szczegółowo

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota Ekonometria ćwiczenia 3 Prowadzący: Sebastian Czarnota Strona - niezbędnik http://sebastianczarnota.com/sgh/ Normalność rozkładu składnika losowego Brak normalności rozkładu nie odbija się na jakości otrzymywanych

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów STATYSTYKA MATEMATYCZNA WYKŁAD 4 Testowanie hipotez Estymacja parametrów WSTĘP 1. Testowanie hipotez Błędy związane z testowaniem hipotez Etapy testowana hipotez Testowanie wielokrotne 2. Estymacja parametrów

Bardziej szczegółowo

Regresja i Korelacja

Regresja i Korelacja Regresja i Korelacja Regresja i Korelacja W przyrodzie często obserwujemy związek między kilkoma cechami, np.: drzewa grubsze są z reguły wyższe, drewno iglaste o węższych słojach ma większą gęstość, impregnowane

Bardziej szczegółowo

Podstawy opracowania wyników pomiarów z elementami analizy niepewności pomiarowych

Podstawy opracowania wyników pomiarów z elementami analizy niepewności pomiarowych Podstawy opracowania wyników pomiarów z elementami analizy niepewności pomiarowych dla studentów Chemii 2007 Paweł Korecki 2013 Andrzej Kapanowski Po co jest Pracownia Fizyczna? 1. Obserwacja zjawisk i

Bardziej szczegółowo

Przykład 1. (A. Łomnicki)

Przykład 1. (A. Łomnicki) Plan wykładu: 1. Wariancje wewnątrz grup i między grupami do czego prowadzi ich ocena 2. Rozkład F 3. Analiza wariancji jako metoda badań założenia, etapy postępowania 4. Dwie klasyfikacje a dwa modele

Bardziej szczegółowo

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25 Testowanie hipotez Marcin Zajenkowski Marcin Zajenkowski () Testowanie hipotez 1 / 25 Testowanie hipotez Aby porównać ze sobą dwie statystyki z próby stosuje się testy istotności. Mówią one o tym czy uzyskane

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Statystyka Wykład 10 Wrocław, 22 grudnia 2011 Testowanie hipotez statystycznych Definicja. Hipotezą statystyczną nazywamy stwierdzenie dotyczące parametrów populacji. Definicja. Dwie komplementarne w problemie

Bardziej szczegółowo

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA Powtórka Powtórki Kowiariancja cov xy lub c xy - kierunek zależności Współczynnik korelacji liniowej Pearsona r siła liniowej zależności Istotność

Bardziej szczegółowo