Nieparametryczne estymatory jądrowe regresji w zastosowaniach ekonomicznych

Wielkość: px
Rozpocząć pokaz od strony:

Download "Nieparametryczne estymatory jądrowe regresji w zastosowaniach ekonomicznych"

Transkrypt

1 Uniwersytet Ekonomiczny w Krakowie Praca magisterska Nieparametryczne estymatory jądrowe regresji w zastosowaniach ekonomicznych Anna Węgrzynkiewicz Kierunek: Informatyka i Ekonometria Specjalność: Modelowanie i prognozowanie procesów gospodarczych Nr albumu: Promotor dr hab. Daniel Kosiorowski Wydział Zarządzania Kraków 2013

2 Spis treści Wprowadzenie Regresja nieparametryczna Nieparametryczne estymatory funkcji gęstości Regresja Nadaraya-Watsona Regresja lokalnie wielomianowa Regresje nieparametryczne w prognozowaniu szeregów czasowych Własności metod Zagadnienia towarzyszące estymacji regresji nieparametrycznych Metody oceny jakości dopasowania krzywej regresji Symulacje komputerowe Przykład empiryczny Opis przykładu Estymacja regresji Wyniki i wnioski Wnioski końcowe A. Podstawowe definicje związane z zagadnieniem złożoności obliczeniowej B. Symulacje komputerowe - kody w języku R Literatura Spis rysunków Spis tabel

3 Wprowadzenie Analiza regresji jest jednym z podstawowych narzędzi wykorzystywanych do ilościowego opisywania zjawisk ekonomicznych. Jej zadaniem jest określenie typowej zależności pomiędzy zmiennymi w populacji na podstawie dostępnej próby. Analiza regresji umożliwia weryfikację wpływu różnych czynników na badane zjawiska, ich prognozy oraz empiryczną weryfikację twierdzeń ekonomii. Regresja parametryczna dostarcza eleganckich z punktu widzenia wnioskowania statystycznego wyników. W jej przypadku do dyspozycji mamy cały szereg testów parametrycznych, przedziały ufności i oszacowania błędów. Co więcej, sama zależność pomiędzy zmiennymi przedstawiona jest w formie równania (równań). Ceną takich rozwiązań są silne założenia nakładane na analizowane zmienne. Typowe założenia to liniowość modelu ze względu na parametry, nieskorelowanie zmiennych niezależnych oraz postulaty dotyczące składnika resztowego. W klasycznym modelu regresji liniowej przyjmuje się, że błędy modelu są niezależne o rozkładzie normalnym, z zerową wartością oczekiwaną i stałą, skończoną wariancją. Niespełnienie założeń nie zawsze ma znaczący wpływ na otrzymane rezultaty. Jest jednak argumentem mogącym posłużyć do podważenia wiarygodności analizy. W praktyce założenia modeli parametrycznych są rzadko spełnione. Przystępując do analizy często nie posiadamy dostatecznej wiedzy na temat bada- 2

4 Wprowadzenie 3 nego zjawiska, próby zawierają obserwacje odstające lub są generowane przez rozkłady nietypowe lub złośliwe. Metody nieparametryczne są bardziej elastycznym narzędziem analizy danych. Po pierwsze, nie czynią tak restrykcyjnych założeń dotyczących badanego zbioru danych, jak ma to miejsce w przypadku regresji parametrycznych. Ponadto, lepiej radzą sobie z danymi generowanymi przez mieszaniny rozkładów. Do poprawności ich działania nie wymaga się, żeby analizowane dane posiadały momenty, w szczególności wartość oczekiwaną. Przedstawione w niniejszej pracy metody nieparametrycznej analizy regresji opierają się na założeniu, że obserwacje leżące blisko siebie w przestrzeni rozpiętej przez zmienne objaśniające, cechują się podobnymi wartościami zmiennej objaśnianej. Dlatego ważnym zagadnieniem jest określenie bliskości obserwacji. Härdle (1990) wyróżnia cztery podstawowe zadania stojące przed metodami nieparametrycznymi. Pierwsze z nich, to poznanie ogólnej zależności pomiędzy zmiennymi. Celem może być tutaj także wstępna eksploracja danych, ułatwiająca wybór postaci modelu parametrycznego. Drugim zadaniem jest umożliwienie predykcji bez odnoszenia się do ustalonego modelu parametrycznego. Dzięki badaniu wpływu pojedynczych punktów na oszacowanie regresji, możliwe staje się też wykrywanie obserwacji odstających. Regresje nieparametryczne są także elastycznym narzędziem do interpolacji wartości brakujących obserwacji. Regresje nieparametryczne niosą ze sobą pewne utrudnienia analizy. Po pierwsze, wnioskowanie statystyczne nie jest podparte formalnym równaniem określającym zależność pomiędzy zmiennymi. Relacja ta zwykle przedstawiona jest w formie wykresu. Regresja szacowana jest lokalnie, stąd też wariancja estymatorów nieparametrycznych przewyższa wariancję estymatorów parametrycznych. Ponadto krzywe regresji nieparametrycznej cechują się obciążeniem w okolicach ekstremów funkcji generującej obserwacje i na brzegach nośnika danych (ang. edge bias). Metody te mają ograniczone zastosowanie do zagad-

5 Wprowadzenie 4 nień wielowymiarowych oraz mogą być uciążliwe ze względu na dużą złożoność obliczeniową. W niniejszej pracy podjęto próbę zbadania wlasności regresji lokalnie wielomianowej. Szczególną uwagę poświęcono jej prostemu przypadkowi - regresji Nadaraya-Watsona. Pierwszy rozdział zawiera teorię związaną z tymi zagadnieniami. W drugim przedstawiono związane z nimi dylematy oraz za pomocą symulacji komputerowych zbadano własności metod. Trzeci rozdział pokazuje wyniki zastosowania regresji lokalnie wielomianowej do analizy przychodów i wydatków gospodarstw domowych. Wszystkie obliczenia i symulacje w niniejszej pracy przeprowadzono w programie R. Kody służące do generowania obserwacji z procesów wykorzystanych w pracy znajdują się w dodatku B. Dodatek A zawiera podstawowe definicje związane z zagadnieniem złożoności obliczeniowej.

6 Rozdział 1 Regresja nieparametryczna W niniejszym rozdziale przedstawiono ideę regresji nieparametrycznych. Opisano nieparametryczne metody szacowania funkcji gęstości - histogram i estymatory jądrowe. Następnie omówiono regresje lokalnie wielomianowe dla prostego równania regresji. Szczególną uwagę poświęcono estymatorowi Nadaraya-Watsona. Ostatnim zagadnieniem tego rozdziału jest wykorzystanie metod nieparametrycznych do prognozowania szeregów czasowych Nieparametryczne estymatory funkcji gęstości Najprostszym nieparametrycznym estymatorem funkcji gęstości zmiennych ciągłych jest histogram. Metoda ta wymaga podziału przestrzeni, z której pochodzą dane. W przypadku jednowymiarowym przestrzeń R dzielona jest na przedziały o długości [x 0 +mh, x 0 +(m+1)h), zwane też celami. W następnym kroku zliczane są obserwacje wpadające do każdej z cel - ich liczba odpowiada za wysokość słupka odpowiadającego każdemu przedziałowi. Histogramy, których przedziały są równej szerokości, można zdefiniować za pomocą wzoru: ˆf(x) = 1 nh n 1(X i C(x)), (1.1) i=1 gdzie n to liczba obserwacji, h - szerokość przedziału, a C(x) oznacza celę, do której należy x. Funkcja 1 jest funkcją charakterystyczną, która przyjmuje 5

7 1.1. Nieparametryczne estymatory funkcji gęstości 6 wartość 1, gdy obserwacja należy do wskazanej celi i 0 w przeciwnym przypadku. Rysunek 1.1 przedstawia histogram dla rocznej stopy bezrobocia w Stanach Zjednoczonych. Dane obejmujące okres 40 lat zostały opublikowane przez amerykańskie ministerstwo pracy i pochodzą z podręcznika Applied Business Statistics: Making Better Business Decisions (Black, 2010). Stany Zjednoczone Gęstość Stopa bezrobocia [%] Rysunek 1.1: Oszacowanie funkcji gęstości za pomocą histogramu Źródło: Obliczenia własne - R Project Stosowanie metody histogramowej umożliwia szybką wizualizację danych oraz pozwala na łatwą aktualizację oszacowania przy pojawieniu się nowych danych. Metoda ta niesie jednak ze sobą szereg wad. Zły dobór wielkości przedziałów sprawia, że funkcja gęstości modelu populacji, z której pochodzi próba, jest źle odwzorowana przez histogram. W przypadku zbyt małych cel jest to zbyt duże zróżnicowanie, w przypadku zbyt dużych - nadmierne wypłaszczenie. Ponadto histogram ma ograniczone możliwości zastosowania dla danych więcej niż dwuwymiarowych (Bishop, 2006). Bardzo ważną wadą histogramu jest to,

8 1.1. Nieparametryczne estymatory funkcji gęstości 7 że przybliżona za jego pomocą funkcja gęstości jest nieciągła. Kontury wykresu mogą zostać wygładzone przez zmniejszenie szerokości cel, jednak histogram w dalszym ciągu pozostanie nieróżniczkowalnym estymatorem funkcji gęstości. Estymatory jądrowe radzą sobie z tą wadą histogramu przez zastąpienie funkcji charakterystycznej z równania (1.1) funkcją jądrową posiadającą określone własności. Załóżmy, że dysponujemy zbiorem X, składającym się z n obserwacji z przestrzeni d wymiarowej, generowanych przez rozkład p(x). Rozważmy najprostszy przypadek, gdzie d = 1. Następnie wybierzmy ze zbioru X jeden punkt x i rozważmy wokół niego małe otoczenie O tak, żeby x znajdował się w jego centrum. W ogólnym przypadku jest ono hiperkostką o objętości h d, zatem w rozważanej sytuacji będzie to odcinek o długości h. Otoczenie O ma taką właściwość, że p(x)dx = P. (1.2) O Prawdopodobieństwo, że l z n obserwacji należy do obszaru O zależy od wielkości n i P. Dla dostatecznie dużego n możemy przybliżyć l w następujący sposób: l n P. (1.3) Z danych odczytujemy l oraz n i na tej podstawie obliczamy P jako iloraz tych dwóch wartości. Przy bardzo małym h możemy przyjąć, że p(x) jest stałe nad obszarem O, zatem Łącząc równania (1.3) i (1.4) otrzymujemy: P p(x) h. (1.4) p(x) l n h, (1.5)

9 1.1. Nieparametryczne estymatory funkcji gęstości 8 co stanowi przybliżenie wartości funkcji gęstości w punkcie x. Żeby oszacować estymator funkcji gęstości dla badanego zbioru danych, przesuwamy się po obserwacjach ruchomym oknem (otoczeniem) i w każdym z nich wyliczamy p(x). Metoda najbliższych sąsiadów zakłada stałą liczbę l. Szerokość okna jest dobierana tak, aby do każdego z okien wpadało dokładnie tyle samo obserwacji. Szerokość tych okien jest zatem zmienna i zależy od ułożenia obserwacji. W przypadku jądrowych estymatorów gęstości szerokość otoczenia jest stała, natomiast zmienia się liczba l. Jednostajna funkcja jądrowa Trójkątna funkcja jądrowa K(u) K(u) u u Funkcja jądrowa Epanechnikova Gausowska funkcja jądrowa K(u) K(u) u u Rysunek 1.2: Przykłady funkcji jądrowych Źródło: Obliczenia własne - R Project Wpływ punktów należących do okna można ważyć za pomocą funkcji jądrowej. Musi być ona mierzalna, symetryczna wokół zera i posiadająca w zerze

10 1.2. Regresja Nadaraya-Watsona 9 swoje maksimum globalne. Ponadto całka z takiej funkcji musi wynosić 1. Typowe funkcje jądrowe przedstawia rysunek 1.2. Dla zbiorów pochodzących z przestrzeni wielowymiarowych można przyjąć, że ich jądrem jest iloczyn jąder jednowymiarowych: K(u 1, u 2 ) = K 1 (u 1 ) K 2 (u 2 ). (1.6) Przy zadanej postaci funkcji jądrowej K liczbę l można wyliczyć za wzoru: l = n i=1 K( x x i h d ). (1.7) Odjęcie wartości x i od parametru x przesuwa maksimum funkcji jądrowej z zera do x i. Podzielenie różnicy x x i przez parametr h ma na celu odpowiednie wymodelowanie kształtu funkcji K. Wpływ parametru h na kształt funkcji jądrowej opisany został w rozdziale 2.1. Po podstawieniu wzoru (1.7) do równania (1.5) otrzymujemy wzór na estymator gęstości w d-wymiarowej przestrzeni: p(x) = 1 n h d n i=1 K( x x i h d ), (1.8) zwany także estymatorem Rosenblatta-Parzena. Rysunek 1.3 przedstawia jądrowy estymator funkcji gęstości dla danych dotyczących stopy bezrobocia w Stanach Zjednoczonych na tle histogramu. Znając przybliżenie funkcji gęstości rozkładu, można wyliczać takie wielkości, jak warunkowa średnia oraz mediana, warunkowa wariancja, czy też warunkowe kwantyle. Stanowi też ona podstawę dla regresji jądrowej Regresja Nadaraya-Watsona Przyjmijmy, że dysponujemy próbą {y i, x i } n i=1 taką, że y i R oraz x i R d, d 1. Łączna gęstość próby to f(y, x). Po wycałkowaniu z niej y otrzymujemy

11 1.2. Regresja Nadaraya-Watsona 10 Stany Zjednoczone Gęstość Stopa bezrobocia [%] Rysunek 1.3: Histogram i jądrowy estymator funkcji gęstości Źródło: Obliczenia własne - R Project brzegową gęstość x, oznaczaną jako f x (x). Do prognozowania wartości zmiennej y potrzebna nam będzie warunkowa gęstość y dana wzorem: g(y x) = f(y, x) f x (x). (1.9) Stosując estymator jądrowy funkcji gęstości otrzymujemy: ĝ(y x) = 1 h y n i=1 K y ( y i y h y ) K x ( x i x ni=1 K x ( x i x h x ) h x ). (1.10) Po obliczeniu całki y ĝ(y x)dy otrzymujemy estymator warunkowej wartości oczekiwanej E(y x): m(x) = ni=1 y i K x ( x x i h x ) ni=1 K x ( x x, (1.11) i h x )

12 1.2. Regresja Nadaraya-Watsona 11 czyli Estymator Nadaraya-Watsona. Jest to średnia ważona zmiennej zależnej, gdzie wagi zależą od regresorów w następujący sposób: w i = K x( x x i h x ) ni=1 K x ( x x i h x ) (1.12) i przyjmują najwyższe wartości dla obserwacji najbliższych ze względu na wartość zmiennej objaśniającej do badanego punktu. Na rysunku 1.4 zestawiono wyniki regresji Nadaraya-Watsona i regresji liniowej oszacowanej metodą najmniejszych kwadratów. Wartość stopy bezrobocia w Stanach Zjednoczonych uzależniono od czasu. Stany Zjednoczone Stopa bezrobocia [%] N-W MNK Czas Rysunek 1.4: Regresja Nadaraya-Watsona i regresja liniowa Źródło: Obliczenia własne - R Project W przedstawionym przykładzie regresja Nadaraya-Watsona wierniej niż regresja liniowa oddaje zależność stopy bezrobocia od czasu. Estymator ten ma jednak swoje wady. Jedną z nich jest wypłaszczanie ekstremów wynikające z charakteru średniej. Problemem jest też obciążenie oszacowania na brzegach

13 1.3. Regresja lokalnie wielomianowa 12 próby, spowodowane asymetrią jądra w tych obszarach. Zazwyczaj wartość teoretyczna w punkcie jest średnią ważoną obserwacji wcześniejszych i późniejszych w stosunku do danego punktu. Inaczej jest w przypadku obserwacji początkowych i końcowych. Na przykład, w okresie t = 1 wszystkie obserwacje z których wyliczana jest średnia należą do przyszłości. Sytuacja ta może mieć także miejsce wewnątrz zbioru danych, w miejscach, gdzie obserwacje są od siebie tak oddalone, że niewiele z nich wpada do sąsiedztwa punktów. Odpowiedzią na ten problem może być regresja lokalnie wielomianowa, której estymator Nadaraya-Watsona jest szczególnym przypadkiem Regresja lokalnie wielomianowa Estymator Nadaraya-Watsona każdemu punktowi dziedziny przyporządkowuje wartość teoretyczną będącą średnią ważoną wartości zmiennej objaśnianej ze znajdujących się w jego otoczeniu punktów. Jest to najprostszy przypadek regresji lokalnie wielomianowej, nazywany regresją lokalnie stałą. Stopień wielomianu wynosi w tym przypadku zero. Zastępując średnią wielomianem wyższych stopni, otrzymujemy estymator, który nie jest obciążony w skrajnych wartościach zmiennej objaśniającej. Regresja lokalnie wielomianowa z wielomianem stopnia pierwszego nazywana jest regresją lokalnie liniową. Zakładając, że istnieje druga pochodna funkcji gęstości g(x) w małym otoczeniu x, możemy równanie regresji lokalnie liniowej w punkcie x 0 zapisać w następujący sposób: g(x 0 ) g(x) + g(x) x (x 0 x) = a + b(x 0 x). (1.13) W następnym kroku wykorzystuje się metodę najmniejszych kwadratów. Estymacja regresji lokalnie liniowej opiera się na znalezieniu w każdym badanym punkcie parametrów a oraz b, spełniających kryterium:

14 1.3. Regresja lokalnie wielomianowa 13 min n a(x 0 ),b(x 0 ) i=1 (y i a b(x i x)) 2 K( x i x ). (1.14) h W wyniku takiego działania otrzymujemy w każdym punkcie średnią (parametr a) oraz efekt krańcowy (parametr b) - wartość, której nie daje estymator regresji lokalnej stałej. Ponieważ mamy tu do czynienia z szacowaniem w każdym punkcie równania regresji, możemy także wyliczać lokalną wartość błędu standardowego regresji, jako pierwiastek kwadratowy estymatora wariancji składnika losowego. Dla regresji z wyrazem wolnym i jednym regresorem szacowanej metodą najmniejszych kwadratów zgodnym i nieobciążonym estymatorem wariancji składnika losowego jest: S 2 = 1 n 2 n (y i ŷ i ) 2, (1.15) i=1 gdzie n to liczba obserwacji wykorzystanych do oszacowania regresji, y i to wartość empiryczna zmiennej objaśnianej w punkcie i, a ŷ i to jej wartość teoretyczna w tym punkcie. Krzywe regresji lokalnie wielomianowej rzędu 1 i 2 zostały przedstawione na rysunku 1.5. Zastosowanie wielomianów wyższych rzędów zmniejsza obciążenie na brzegach zbioru danych. Ogranicza także wypłaszczanie ekstremów. Częściej jednak napotykamy w ich przypadku na problemy numeryczne wynikające ze zbyt dużego rozproszenia obserwacji. Należy też pamiętać o tym, że wraz ze stopniem wielomianu wzrasta także wariancja estymatora.

15 1.4. Regresje nieparametryczne w prognozowaniu szeregów 14 Stany Zjednoczone Stopa bezrobocia [%] N-W (LW rzędu 0) LW rzędu 1 Lw rzędu Czas Rysunek 1.5: Regresje lokalnie wielomianowe Źródło: Obliczenia własne - R Project 1.4. Regresje nieparametryczne w prognozowaniu szeregów czasowych Mimo że początkowo regresje nieparametryczne były dedykowane głównie danym przekrojowym, okazało się, że wykazują one korzystne własności z punktu widzenia analizy szeregów czasowych. Po pierwsze, mogą okazać się pomocne tam, gdzie klasyczne metody parametryczne nakładają na modele zbyt wiele restrykcji, żeby wyjaśnić obserwowane zjawisko. Ponadto metody nieparametryczne oferują sposoby do radzenia sobie z zależnością w zbiorze danych. Dla funkcji jądrowych o ograniczonych nośnikach zależność pomiędzy obserwacjami ogranicza się tylko do rozpatrywanego w danym punkcie okna. Dzięki temu zmniejsza się zależność estymatora regresji pomiędzy punktami - nawet jeśli X 1 i X 2 są zależne, to oszacowania 1 h K( x 1 x h ) i 1 K( x 2 x) są prawie h h

16 1.4. Regresje nieparametryczne w prognozowaniu szeregów 15 niezależne. Umożliwia to stosowanie technik wypracowanych dla danych niezależnych. Własność ta jest znana w literaturze jako uniezależnianie za pomocą ruchomego okna (ang. whithening by windowing principle, Hart, 1996). Rozważmy nieparametryczny estymator modelu autoregresyjnego. Oprócz opóźnień rzędu p zmiennej objaśnianej możemy włączyć do niego także inne zmienne objaśniające lub trend. Dodawanie zmiennych do modelu musi jednak być dokonywane z ostrożnością, gdyż przy zbyt dużej ich liczbie można napotkać opisany w rozdziale 2.1 problem, zwany przekleństwem wielowymiarowości. Estymator Nadaraya-Watsona jest w modelu autoregresyjnym średnią, ważoną funkcją jądrową, ze wszystkich obserwacji z przeszłości, które były podobne do p ostatnich obserwacji (Heiler, 1999). W rozważanym przypadku przyjmijmy, że jedynymi predyktorami są opóźnienia rzędu 1 zmiennej objaśnianej. Zatem nasz model wygląda następująco: x t = m(x t 1 ) + ε t, (1.16) gdzie {ε t } W N. Zakładając, że dysponujemy obserwacjami X = {x 1, x 2,..., x T }, wartość na jeden okres wprzód prognozujemy według formuły: m(x T +1 ) = Tt=1 y t K( x x T h ) Tt=1 K( x x T h ). (1.17) Prognoza na kilka okresów wprzód następuje sekwencyjnie. W każdym kroku dokonywana jest predykcja na jeden okres w przód. Oszacowana w ten sposób wartość wchodzi do zbioru obserwacji zmiennej objaśniającej, które wezmą udział w prognozowaniu wartości na kolejny okres.

17 Rozdział 2 Własności metod W tym rozdziale przedstawiono własności opisanych wcześniej metod. W pierwszej części poruszono kwestie dylematów związanych z estymatorami jądrowymi, a zatem wybór funkcji jądrowej i parametrów regresji, złożoność obliczeniowa zagadnień oraz przekleństwo wielowymiarowości. Następnie opisano metody oceniania jakości predykcji. W ostatniej części własności estymatorów regresji Nadaraya-Watsona i regresji lokalnie wielomianowej zostały sprawdzone za pomocą symulacji komputerowych Zagadnienia towarzyszące estymacji regresji nieparametrycznych Jednym z pierwszych wyborów, jakich należy dokonać stosując estymatory jądrowe jest wybór odpowiedniej funkcji ważącej obserwacje, czyli jądra. Jego podstawowym zadaniem jest zapewnienie estymatorowi ciągłości, będącej warunkiem koniecznym jego różniczkowalności. Jednym z mierników jakości estymatora jest błąd średniokwadratowy (ang. Mean Squared Error), rozumiany jako wartość oczekiwana kwadratu błędu estymacji. W przypadku regresji nieparametrycznych składa się na nią nie tylko wariancja estymatora, ale także jego obciążenie. Załóżmy, że dysponujemy próbą {y i, x i } n i=1 taką, że y i R oraz x i R d, 16

18 2.1. Zagadnienia towarzyszące estymacji regresji 17 na której podstawie wyliczamy teoretyczne wartości zmiennej objaśnianej jako ŷ. Błąd średniokwadratowy jest tu sumą wariancji oraz kwadratu obciążenia estymatora: MSE = E((ŷ y) 2 ) = [E(ŷ) y] 2 + V (ŷ). (2.1) Bardziej globalnym miernikiem jakości oszacowania jest scałkowany błąd średniokwadratowy (ang. Mean Integrated Squared Error), będący całką z kwadratu błędu estymacji w każdym punkcie przestrzeni z której pochodzą obserwacje. W przypadku jednowymiarowym jest on zatem dany formułą: MISE = E([ˆp(x) p(x)] 2 dx, (2.2) R gdzie p(x) to model populacji, z której pochodzą dane, a ˆp(x) to jego oszacowanie. Na ogół p(x) nie jest znane. Hodges i Lehman w 1956 roku wykazali, że jądro Epanechnikowa (por. rysunek 1.2) minimalizuje wartość scałkowanego błędu średniokwadratowego dla różniczkowalnych p(x). Jest to jądro o ograniczonym nośniku, co często jest pożądaną własnością. Funkcje jądrowe o nieskończonych nośnikach - na przykład jądro normalne - przypisują niektórym obserwacjom bardzo małe wagi, co może powodować wystąpienie błędów numerycznych. Ponadto, ze względu na fakt, że w ich przypadku w obliczaniu wartości estymatora w punkcie biorą udział wszystkie dostępne obserwacje, modele z jądrami o nieograniczonych nośnikach, są bardziej uciążliwe obliczeniowo. Wiele funkcji jądrowych ma zbliżoną efektywność, dlatego wybór funkcji jądrowej, jako decyzja nie mająca bardzo istotnego wpływu na jakość oszacowań, jest często dokonywany w taki sposób, żeby wybrane jądro upraszczało obliczenia (Racine, 2008). Z punktu widzenia analizy znacznie ważniejszy pozostaje dobór współczynnika wygładzającego h. Zmiany tego parametru wpływają zarówno na obciążenie, jak i wariancję estymatora. W przypadku funkcji jądrowych o ograniczo-

19 2.1. Zagadnienia towarzyszące estymacji regresji 18 nych nośnikach parametr ten jest równy promieniowi otoczenia, na podstawie którego szacuje się wartość estymatora w danym punkcie. Dla estymatorów wykorzystujących jądro normalne, jest to odchylenie standardowe funkcji jądrowej. Przy stosowaniu metod definiujących szerokość okna nie przez odległość w przestrzeni, ale liczbę otaczających punktów, parametr ten wyznacza liczbę uwzględnianych w danym punkcie najbliższych sąsiadów. Dla jąder drugiego rzędu (ang. second order kernels), czyli spełniających warunki: K(u)du = 1, uk(u)du = 0, u 2 K(u)du = k <, (2.3) gdzie u = x x i h (por. rozdział 1.1). Optymalna wartość parametru wygładzania ze względu na minimalizację scałkowanego błędu średniokwadratowego dana jest wzorem (Racine, 2008): { }1 K 2 / (u)du 5 1 h opt = ( u 2 K(u)du) 2 n / 5. {p (x)} 2 (2.4) dx Jest ona zatem zależna od funkcji gęstości rozkładu generującego dane, która na ogół nie jest znana. Wybór parametru wygładzania zależy od tego, jaki cel ma nasza analiza. Jeżeli celem wygładzania ma być poznanie struktury danych danych lub ich wstępna eksploracja przed estymacją modelu parametrycznego, wskazane będzie zastosowanie większych wartości parametru h, w celu mocniejszego ich wygładzenia. Jeżeli z kolei chcemy uzyskać krzywą regresji, która ma uwydatnić lokalne właściwości danych, lepsze będą niższe wartości h, które zapobiegną nadmiernemu wypłaszczeniu. W praktyce często dokonuje się wstępnego oszacowania krzywej regresji dla jednej lub kilku wybranych wartości parametru wygładzania. Przykładowo, domyślną wartością parametru wygładzania w funkcji ksmooth pakietu R jest 0.5, a w funkcji loess Kiedy rozważana jest przestrzeń o małej liczbie wymia-

20 2.1. Zagadnienia towarzyszące estymacji regresji 19 rów, takie wstępne oszacowanie krzywej regresji dla wybranych parametrów pozwala zorientować się w strukturze danych. W przypadku małych wartości parametru wygładzania średnia lub lokalna krzywa regresji jest obliczana na podstawie niewielkiej liczby obserwacji. Jest tak dlatego, że okno, na podstawie którego szacowana jest regresja w danym punkcie jest wąskie i obejmuje tylko bardzo bliskie temu punktowi obserwacje. Dlatego też wariancja estymatora będzie duża, zbliżona do wariancji zbioru danych. Jego obciążenie będzie z kolei bardzo małe, zakładając, że wartości zmiennych objaśniających punktów leżących ze względu na wartość cech objaśniających blisko badanego, są zbliżone do jego rzeczywistej wartości. Zastosowanie dużego współczynnika wygładzającego, a zatem przyjęcie do obliczeń dużego okna, powoduje znaczne ograniczenie wariancji estymatora w stosunku do wariancji rzeczywistych danych. Obciążenie estymatora jest jednak większe, ponieważ tym razem w obliczaniu jego wartości w danym punkcie biorą udział także obserwacje oddalone od tego punktu, których właściwości mogą się od niego znacznie różnić. Im wyższa jest wartość parametru wygładzania, tym bardziej estymator regresji Nadaraya-Watsona dąży do wartości średniej z próby. Regresja lokalnie wielomianowa w przypadku okna o nieskończonej szerokości jest równoważna wielomianowi odpowiedniego stopnia dopasowanemu do pełnego zbioru danych. W przypadku regresji jądrowych istnieje ryzyko przeuczenia modelu (ang. overfitting). Zjawisko to występuje wtedy, kiedy krzywa regresji zbyt dobrze dopasuje się do danych, na których jest estymowana. Obserwacje wykorzystywane w procesie szacowania regresji zawierają szum, który zaburza kształt modelu populacji. Zbyt dobre dopasowanie się do nich ogranicza możliwości predykcyjne modelu na nowe obserwacje. Rysunek 2.1 pokazuje, dlaczego w doborze współczynnika wygładzania nie powinno się kierować tylko dopasowaniem do danych z próby uczącej. Czerwona krzywa to regresja lokalnej stałej oszacowana z wykorzystaniem zbyt niskiego współczynnika wygładzającego. Jej współczynnik R 2 jest bliski 1

21 2.1. Zagadnienia towarzyszące estymacji regresji 20 y x szerokie okno wąskie okno punkty dostępne w czasie estymacji nowe punkty Rysunek 2.1: Przykład przeuczenia modelu Źródło: Obliczenia własne - R Project i jest znacznie wyższy, niż w przypadku krzywej szarej, oszacowanej na podstawie szerszego okna. W momencie szacowania obu krzywych dostępne były tylko obserwacje oznaczone kolorem czarnym. Nowe obserwacje, to punkty czerwone. Widać, że krzywa szara lepiej oddaje charakter pełnego zbioru danych, zawierającego zarówno stare, jak i nowe obserwacje. Żeby zabezpieczyć się przed nadmiernym dopasowaniem modelu do danych, do wyboru optymalnej wartości współczynnika wygładzającego stosuje się, na przykład, metody typu cross validation. Metoda Leave One Out Cross Validation polega w przypadku liczącego n obserwacji zbioru danych na szacowaniu n modeli dla każdej z rozważanych wartości współczynnika wygłądzającego. Każdy z modeli estymowany jest na podstawie pełnego zbioru danych z pominięciem jednej obserwacji, zatem otrzymujemy nh następujących oszacowań:

22 2.1. Zagadnienia towarzyszące estymacji regresji 21 ˆm h,i (x i ) = 1 n 1 w hi (x j ) y j, (2.5) j i gdzie, i = 1, 2,..., n, j = 1, 2,..., n, a w hi (x j ) jest zależną od rozważanej wartości parametru h wagą j-tej obserwacji w i-tym modelu. Wagi te wyliczane są zgodnie ze wzorem (1.12). Następnie dla każdej obserwacji sprawdzony zostaje błąd predykcji w modelu, w którego szacowaniu nie brała ona udziału. Jako minimalizowaną wartość przyjąć można sumę kwadratów tych błędów. W obrębie każdej z rozważanych wartości współczynnika wygładzającego sumuje się kwadraty błędów i za optymalną wartość h przyjmuje się tą, dla której suma ta była najmniejsza. Metoda ta jest bardzo złożona obliczeniowo. Dostarcza estymatorów o małym obciążeniu, gdyż w estymacji każdego z modeli służących do wyznaczenia szukanej wartości parametru bierze udział n 1 obserwacji, czyli tylko jedna mniej w porównaniu do ostatecznego modelu. Suma kwadratów reszt w modelu ostatecznym, to jest szacowanym na pełnym zbiorze danych, będzie zatem niewiele większa od tej oszacowanej w trakcie wyznaczania parametru. Z drugiej strony, błąd predykcji liczony jest na podstawie jednej tylko obserwacji, co sprawia, że wariancja oszacowania błędu jest duża. Metodą mniej złożoną obliczeniowo, bo nie wymagającą estymowania tak wielu modeli jest k-fold cross validation. Polega ona na podzieleniu dostępnych obserwacji na k podzbiorów. Dla każdego z nich wybraną miarą oblicza się błąd predykcji w modelu oszacowanym na podstawie wszystkich dostępnych obserwacji oprócz tych, które do niego należą. Błędy te sumuje się w obrębie każdej z rozważanych wartości współczynnika wygładzającego i przyjmuje tę, dla której były one najmniejsze. Oszacowanie błędu tą metodą ma mniejszą wariancję, niż w przypadku LOOCV, jest jednak bardziej obciążone. Innymi metodami wykorzystywanymi do wyboru współczynnika wygładzającego są opisane przez Racine metody przybliżone (m.in. metoda reference rule-of-thumb) oraz znajdująca zastosowanie tylko w przestrzeni jednowymiarowej metoda podstawień (ang. plug-in method), (2008).

23 2.1. Zagadnienia towarzyszące estymacji regresji 22 Kolejnym parametrem, który wymaga ustalenia, jest rząd wielomianu. Regresja lokalnie stała dostarcza estymatora obciążonego na brzegach nośnika danych oraz w okolicach ekstremów. Przejście do regresji lokalnie liniowej pozwala na zmniejszenie tego obciążenia, z niewielką stratą w wysokości wzrostu wariancji. Regresje wielomianowe wyższych rzędów także zmniejszają obciążenie estymatora, jednak wzrost wariancji w ich przypadku jest dużo większy. Wielomiany parzystych stopni przyczyniają się do zmniejszenia obciążenia głównie wewnątrz zbioru danych, w okolicach ekstremów. Wielomiany stopni nieparzystych z kolei lepiej dopasowują się do danych na brzegach dziedziny. Jak dowodzi Hastie (2001) asymptotycznie błąd estymatora jest zdominowany przez obciążenie na brzegach zbioru danych, dlatego też większą popularnością cieszą się regresje lokalnie wielomianowe rzędów nieparzystych. Następnym dylematem związanym ze stosowaniem metod nieparametrycznych jest złożoność obliczeniowa zagadnień. Podstawowe definicje z nim związane znajdują się w dodatku A. Na zbiorze danych liczącym N obserwacji złożoność obliczeniowa zadania, jakim jest wyznaczenie estymatora regresji Nadaraya-Watsona z jądrem normalnym w jednym punkcie wynosi O(N). Zatem oszacowanie krzywej regresji w każdym punkcie tego zbioru oznacza O(N 2 ) operacji. Zastąpienie jądra normalnego innym, takim, którego nośnik ograniczony jest do jakiegoś przedziału, powoduje spadek złożoności obliczeniowej. Uśredniane są wtedy tylko obserwacje wpadające do otoczenia punktu x. Dodatkowo w implementacjach lokalnych regresji często stosuje się uproszczenia. Przykładowo funkcja loess pakietu R dokonuje oszacowania regresji tylko w wyselekcjonowanych M < N punktach zbioru, a następnie interpoluje punkty pośrednie. Zmniejsza to złożoność zagadnienia do O(NM) operacji. Metody zmniejszania złożoności obliczeniowej w przypadku regresji jądrowych zostały przedstawione przez Härdle (1990). Dodatkowym obciążeniem w przypadku regresji jądrowych jest też stosowanie złożonych obliczeniowo metod typu cross validation. W regresjach wyższych wymiarów napotkać można barierę nazywaną prze-

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota Ekonometria ćwiczenia 3 Prowadzący: Sebastian Czarnota Strona - niezbędnik http://sebastianczarnota.com/sgh/ Normalność rozkładu składnika losowego Brak normalności rozkładu nie odbija się na jakości otrzymywanych

Bardziej szczegółowo

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna Regresja wieloraka Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna zmienna niezależna (można zobrazować

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

3. Modele tendencji czasowej w prognozowaniu

3. Modele tendencji czasowej w prognozowaniu II Modele tendencji czasowej w prognozowaniu 1 Składniki szeregu czasowego W teorii szeregów czasowych wyróżnia się zwykle następujące składowe szeregu czasowego: a) składowa systematyczna; b) składowa

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Wprowadzenie do teorii ekonometrii Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Zajęcia Wykład Laboratorium komputerowe 2 Zaliczenie EGZAMIN (50%) Na egzaminie obowiązują wszystkie informacje

Bardziej szczegółowo

MODELE LINIOWE. Dr Wioleta Drobik

MODELE LINIOWE. Dr Wioleta Drobik MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą

Bardziej szczegółowo

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp. Sprawdzian 2. Zadanie 1. Za pomocą KMNK oszacowano następującą funkcję produkcji: Gdzie: P wartość produkcji, w tys. jp (jednostek pieniężnych) K wartość kapitału zaangażowanego w proces produkcji, w tys.

Bardziej szczegółowo

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych

Bardziej szczegółowo

Rozdział 8. Regresja. Definiowanie modelu

Rozdział 8. Regresja. Definiowanie modelu Rozdział 8 Regresja Definiowanie modelu Analizę korelacji można traktować jako wstęp do analizy regresji. Jeżeli wykresy rozrzutu oraz wartości współczynników korelacji wskazują na istniejąca współzmienność

Bardziej szczegółowo

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej Ekonometria Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych Jakub Mućk Katedra Ekonomii Ilościowej Jakub Mućk Ekonometria Wykład 4 Prognozowanie, stabilność 1 / 17 Agenda

Bardziej szczegółowo

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,

Bardziej szczegółowo

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński Mikroekonometria 5 Mikołaj Czajkowski Wiktor Budziński Zadanie 1. Wykorzystując dane me.medexp3.dta przygotuj model regresji kwantylowej 1. Przygotuj model regresji kwantylowej w którym logarytm wydatków

Bardziej szczegółowo

Analiza regresji - weryfikacja założeń

Analiza regresji - weryfikacja założeń Medycyna Praktyczna - portal dla lekarzy Analiza regresji - weryfikacja założeń mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof.

Bardziej szczegółowo

4. Średnia i autoregresja zmiennej prognozowanej

4. Średnia i autoregresja zmiennej prognozowanej 4. Średnia i autoregresja zmiennej prognozowanej 1. Średnia w próbie uczącej Własności: y = y = 1 N y = y t = 1, 2, T s = s = 1 N 1 y y R = 0 v = s 1 +, 2. Przykład. Miesięczna sprzedaż żelazek (szt.)

Bardziej szczegółowo

Analiza składowych głównych. Wprowadzenie

Analiza składowych głównych. Wprowadzenie Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących

Bardziej szczegółowo

5. Model sezonowości i autoregresji zmiennej prognozowanej

5. Model sezonowości i autoregresji zmiennej prognozowanej 5. Model sezonowości i autoregresji zmiennej prognozowanej 1. Model Sezonowości kwartalnej i autoregresji zmiennej prognozowanej (rząd istotnej autokorelacji K = 1) Szacowana postać: y = c Q + ρ y, t =

Bardziej szczegółowo

Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński Mikroekonometria 6 Mikołaj Czajkowski Wiktor Budziński Metody symulacyjne Monte Carlo Metoda Monte-Carlo Wykorzystanie mocy obliczeniowej komputerów, aby poznać charakterystyki zmiennych losowych poprzez

Bardziej szczegółowo

Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki

Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki Przetwarzanie Sygnałów Studia Podyplomowe, Automatyka i Robotyka. Wstęp teoretyczny Zmienne losowe Zmienne losowe

Bardziej szczegółowo

Estymacja w regresji nieparametrycznej

Estymacja w regresji nieparametrycznej Estymacja w regresji nieparametrycznej Jakub Kolecki Politechnika Gdańska 28 listopada 2011 1 Wstęp Co to jest regresja? Przykład regresji 2 Regresja nieparametryczna Założenia modelu Estymacja i jej charakterystyki

Bardziej szczegółowo

Estymacja punktowa i przedziałowa

Estymacja punktowa i przedziałowa Temat: Estymacja punktowa i przedziałowa Kody znaków: żółte wyróżnienie nowe pojęcie czerwony uwaga kursywa komentarz 1 Zagadnienia 1. Statystyczny opis próby. Idea estymacji punktowej pojęcie estymatora

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl

Bardziej szczegółowo

Metody numeryczne I Równania nieliniowe

Metody numeryczne I Równania nieliniowe Metody numeryczne I Równania nieliniowe Janusz Szwabiński szwabin@ift.uni.wroc.pl Metody numeryczne I (C) 2004 Janusz Szwabiński p.1/66 Równania nieliniowe 1. Równania nieliniowe z pojedynczym pierwiastkiem

Bardziej szczegółowo

Spis treści 3 SPIS TREŚCI

Spis treści 3 SPIS TREŚCI Spis treści 3 SPIS TREŚCI PRZEDMOWA... 1. WNIOSKOWANIE STATYSTYCZNE JAKO DYSCYPLINA MATEMATYCZNA... Metody statystyczne w analizie i prognozowaniu zjawisk ekonomicznych... Badania statystyczne podstawowe

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1. tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1

Bardziej szczegółowo

Analiza współzależności zjawisk

Analiza współzależności zjawisk Analiza współzależności zjawisk Informacje ogólne Jednostki tworzące zbiorowość statystyczną charakteryzowane są zazwyczaj za pomocą wielu cech zmiennych, które nierzadko pozostają ze sobą w pewnym związku.

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y

Bardziej szczegółowo

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31 Statystyka Wykład 8 Magdalena Alama-Bućko 10 kwietnia 2017 Magdalena Alama-Bućko Statystyka 10 kwietnia 2017 1 / 31 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia

Bardziej szczegółowo

Regresja i Korelacja

Regresja i Korelacja Regresja i Korelacja Regresja i Korelacja W przyrodzie często obserwujemy związek między kilkoma cechami, np.: drzewa grubsze są z reguły wyższe, drewno iglaste o węższych słojach ma większą gęstość, impregnowane

Bardziej szczegółowo

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie: ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość

Bardziej szczegółowo

Rozpoznawanie obrazów

Rozpoznawanie obrazów Rozpoznawanie obrazów Laboratorium Python Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest implementacja liniowego zadania

Bardziej szczegółowo

7.4 Automatyczne stawianie prognoz

7.4 Automatyczne stawianie prognoz szeregów czasowych za pomocą pakietu SPSS Następnie korzystamy z menu DANE WYBIERZ OBSERWACJE i wybieramy opcję WSZYSTKIE OBSERWACJE (wówczas wszystkie obserwacje są aktywne). Wreszcie wybieramy z menu

Bardziej szczegółowo

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41 Statystyka Wykład 4 Magdalena Alama-Bućko 13 marca 2017 Magdalena Alama-Bućko Statystyka 13 marca 2017 1 / 41 Na poprzednim wykładzie omówiliśmy następujace miary rozproszenia: Wariancja - to średnia arytmetyczna

Bardziej szczegółowo

Statystyka matematyczna dla leśników

Statystyka matematyczna dla leśników Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 03/04 Wykład 5 Testy statystyczne Ogólne zasady testowania hipotez statystycznych, rodzaje

Bardziej szczegółowo

Oszacowanie i rozkład t

Oszacowanie i rozkład t Oszacowanie i rozkład t Marcin Zajenkowski Marcin Zajenkowski () Oszacowanie i rozkład t 1 / 31 Oszacowanie 1 Na podstawie danych z próby szacuje się wiele wartości w populacji, np.: jakie jest poparcie

Bardziej szczegółowo

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Spis treści Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis treści Spis treści 1 Wstęp Bardzo często interesujący

Bardziej szczegółowo

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu Wykład 11-12 Centralne twierdzenie graniczne Statystyka matematyczna: Estymacja parametrów rozkładu Centralne twierdzenie graniczne (CTG) (Central Limit Theorem - CLT) Centralne twierdzenie graniczne (Lindenberga-Levy'ego)

Bardziej szczegółowo

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka Statystyka opisowa. Wykład V. e-mail:e.kozlovski@pollub.pl Spis treści 1 Prosta regresji cechy Y względem cech X 1,..., X k. 2 3 Wyznaczamy zależność cechy Y od cech X 1, X 2,..., X k postaci Y = α 0 +

Bardziej szczegółowo

Dopasowywanie modelu do danych

Dopasowywanie modelu do danych Tematyka wykładu dopasowanie modelu trendu do danych; wybrane rodzaje modeli trendu i ich właściwości; dopasowanie modeli do danych za pomocą narzędzi wykresów liniowych (wykresów rozrzutu) programu STATISTICA;

Bardziej szczegółowo

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd. Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru

Bardziej szczegółowo

Aproksymacja funkcji a regresja symboliczna

Aproksymacja funkcji a regresja symboliczna Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą

Bardziej szczegółowo

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej 7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej Definicja 1 n-elementowa losowa próba prosta nazywamy ciag n niezależnych zmiennych losowych o jednakowych rozkładach

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z liniowym zadaniem najmniejszych

Bardziej szczegółowo

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów: Na dzisiejszym wykładzie omówimy najważniejsze charakterystyki liczbowe występujące w statystyce opisowej. Poszczególne wzory będziemy podawać w miarę potrzeby w trzech postaciach: dla szeregu szczegółowego,

Bardziej szczegółowo

Monte Carlo, bootstrap, jacknife

Monte Carlo, bootstrap, jacknife Monte Carlo, bootstrap, jacknife Literatura Bruce Hansen (2012 +) Econometrics, ze strony internetowej: http://www.ssc.wisc.edu/~bhansen/econometrics/ Monte Carlo: rozdział 8.8, 8.9 Bootstrap: rozdział

Bardziej szczegółowo

Komputerowa Analiza Danych Doświadczalnych

Komputerowa Analiza Danych Doświadczalnych Komputerowa Analiza Danych Doświadczalnych Prowadząca: dr inż. Hanna Zbroszczyk e-mail: gos@if.pw.edu.pl tel: +48 22 234 58 51 konsultacje: poniedziałek, 10-11, środa: 11-12 www: http://www.if.pw.edu.pl/~gos/students/kadd

Bardziej szczegółowo

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb Współzależność Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb (x i, y i ). Geometrycznie taką parę

Bardziej szczegółowo

KORELACJE I REGRESJA LINIOWA

KORELACJE I REGRESJA LINIOWA KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem

Bardziej szczegółowo

Stanisław Cichocki. Natalia Neherbecka. Zajęcia 13

Stanisław Cichocki. Natalia Neherbecka. Zajęcia 13 Stanisław Cichocki Natalia Neherbecka Zajęcia 13 1 1. Kryteria informacyjne 2. Testowanie autokorelacji 3. Modele dynamiczne: modele o rozłożonych opóźnieniach (DL) modele autoregresyjne o rozłożonych

Bardziej szczegółowo

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N = HISTOGRAM W pewnych przypadkach interesuje nas nie tylko określenie prawdziwej wartości mierzonej wielkości, ale także zbadanie całego rozkład prawdopodobieństwa wyników pomiarów. W takim przypadku wyniki

Bardziej szczegółowo

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część populacji, którą podaje się badaniu statystycznemu

Bardziej szczegółowo

Estymacja parametrów w modelu normalnym

Estymacja parametrów w modelu normalnym Estymacja parametrów w modelu normalnym dr Mariusz Grządziel 6 kwietnia 2009 Model normalny Przez model normalny będziemy rozumieć rodzine rozkładów normalnych N(µ, σ), µ R, σ > 0. Z Centralnego Twierdzenia

Bardziej szczegółowo

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1 Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie

Bardziej szczegółowo

KADD Metoda najmniejszych kwadratów funkcje nieliniowe

KADD Metoda najmniejszych kwadratów funkcje nieliniowe Metoda najmn. kwadr. - funkcje nieliniowe Metoda najmniejszych kwadratów Funkcje nieliniowe Procedura z redukcją kroku iteracji Przykłady zastosowań Dopasowanie funkcji wykładniczej Dopasowanie funkcji

Bardziej szczegółowo

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej

Bardziej szczegółowo

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9 Stanisław Cichocki Natalia Nehrebecka Wykład 9 1 1. Dodatkowe założenie KMRL 2. Testowanie hipotez prostych Rozkład estymatora b Testowanie hipotez prostych przy użyciu statystyki t 3. Przedziały ufności

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Wnioskowanie statystyczne dla zmiennych numerycznych Porównywanie dwóch średnich Boot-strapping Analiza

Bardziej szczegółowo

Wstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński

Wstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński Wstęp do teorii niepewności pomiaru Danuta J. Michczyńska Adam Michczyński Podstawowe informacje: Strona Politechniki Śląskiej: www.polsl.pl Instytut Fizyki / strona własna Instytutu / Dydaktyka / I Pracownia

Bardziej szczegółowo

Zadania ze statystyki, cz.6

Zadania ze statystyki, cz.6 Zadania ze statystyki, cz.6 Zad.1 Proszę wskazać, jaką część pola pod krzywą normalną wyznaczają wartości Z rozkładu dystrybuanty rozkładu normalnego: - Z > 1,25 - Z > 2,23 - Z < -1,23 - Z > -1,16 - Z

Bardziej szczegółowo

Wnioskowanie statystyczne. Statystyka w 5

Wnioskowanie statystyczne. Statystyka w 5 Wnioskowanie statystyczne tatystyka w 5 Rozkłady statystyk z próby Próba losowa pobrana z populacji stanowi realizacje zmiennej losowej jak ciąg zmiennych losowych (X, X,... X ) niezależnych i mających

Bardziej szczegółowo

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, 诲 瞴瞶 瞶 ƭ0 ƭ 瞰 parametrów strukturalnych modelu Y zmienna objaśniana, = + + + + + X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, α 0, α 1, α 2,,α k parametry strukturalne modelu, k+1 parametrów

Bardziej szczegółowo

Rozkłady statystyk z próby

Rozkłady statystyk z próby Rozkłady statystyk z próby Rozkłady statystyk z próby Przypuśćmy, że wykonujemy serię doświadczeń polegających na 4 krotnym rzucie symetryczną kostką do gry, obserwując liczbę wyrzuconych oczek Nr kolejny

Bardziej szczegółowo

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007 Modele regresji wielorakiej - dobór zmiennych, szacowanie Paweł Cibis pawel@cibis.pl 1 kwietnia 2007 1 Współczynnik zmienności Współczynnik zmienności wzory Współczynnik zmienności funkcje 2 Korelacja

Bardziej szczegółowo

Regresja nieparametryczna series estimator

Regresja nieparametryczna series estimator Regresja nieparametryczna series estimator 1 Literatura Bruce Hansen (2018) Econometrics, rozdział 18 2 Regresja nieparametryczna Dwie główne metody estymacji Estymatory jądrowe Series estimators (estymatory

Bardziej szczegółowo

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno WSTĘP DO REGRESJI LOGISTYCZNEJ Dr Wioleta Drobik-Czwarno REGRESJA LOGISTYCZNA Zmienna zależna jest zmienną dychotomiczną (dwustanową) przyjmuje dwie wartości, najczęściej 0 i 1 Zmienną zależną może być:

Bardziej szczegółowo

Własności statystyczne regresji liniowej. Wykład 4

Własności statystyczne regresji liniowej. Wykład 4 Własności statystyczne regresji liniowej Wykład 4 Plan Własności zmiennych losowych Normalna regresja liniowa Własności regresji liniowej Literatura B. Hansen (2017+) Econometrics, Rozdział 5 Własności

Bardziej szczegółowo

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć: Wprowadzenie Statystyka opisowa to dział statystyki zajmujący się metodami opisu danych statystycznych (np. środowiskowych) uzyskanych podczas badania statystycznego (np. badań terenowych, laboratoryjnych).

Bardziej szczegółowo

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, 2018 Spis treści Przedmowa 13 O Autorach 15 Przedmowa od Tłumacza 17 1. Wprowadzenie i statystyka opisowa 19 1.1.

Bardziej szczegółowo

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński Mikroekonometria 13 Mikołaj Czajkowski Wiktor Budziński Endogeniczność regresja liniowa W regresji liniowej estymujemy następujące równanie: i i i Metoda Najmniejszych Kwadratów zakłada, że wszystkie zmienne

Bardziej szczegółowo

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Spis treści I. Wzory ogólne... 2 1. Średnia arytmetyczna:... 2 2. Rozstęp:... 2 3. Kwantyle:... 2 4. Wariancja:... 2 5. Odchylenie standardowe:...

Bardziej szczegółowo

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego Współczynnik korelacji opisuje siłę i kierunek związku. Jest miarą symetryczną. Im wyższa korelacja tym lepiej potrafimy

Bardziej szczegółowo

166 Wstęp do statystyki matematycznej

166 Wstęp do statystyki matematycznej 166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej

Bardziej szczegółowo

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej) Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej) 1 Podział ze względu na zakres danych użytych do wyznaczenia miary Miary opisujące

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7 Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y

Bardziej szczegółowo

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Współczynnik korelacji Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Własności współczynnika korelacji 1. Współczynnik korelacji jest liczbą niemianowaną 2. ϱ 1,

Bardziej szczegółowo

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi Piotr Konieczka Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska D syst D śr m 1 3 5 2 4 6 śr j D 1

Bardziej szczegółowo

Zmienne zależne i niezależne

Zmienne zależne i niezależne Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }

Bardziej szczegółowo

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski Literatura STATYSTYKA OPISOWA A. Aczel, Statystyka w Zarządzaniu, PWN, 2000 A. Obecny, Statystyka opisowa w Excelu dla szkół. Ćwiczenia praktyczne, Helion, 2002. A. Obecny, Statystyka matematyczna w Excelu

Bardziej szczegółowo

Biostatystyka, # 3 /Weterynaria I/

Biostatystyka, # 3 /Weterynaria I/ Biostatystyka, # 3 /Weterynaria I/ dr n. mat. Zdzisław Otachel Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Głęboka 28, p. 221 bud. CIW, e-mail: zdzislaw.otachel@up.lublin.pl

Bardziej szczegółowo

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( ) Statystyka Rozkład prawdopodobieństwa Testowanie hipotez Wykład III (04.01.2016) Rozkład t-studenta Rozkład T jest rozkładem pomocniczym we wnioskowaniu statystycznym; stosuje się go wyznaczenia przedziału

Bardziej szczegółowo

Statystyka matematyczna i ekonometria

Statystyka matematyczna i ekonometria Statystyka matematyczna i ekonometria prof. dr hab. inż. Jacek Mercik B4 pok. 55 jacek.mercik@pwr.wroc.pl (tylko z konta studenckiego z serwera PWr) Konsultacje, kontakt itp. Strona WWW Elementy wykładu.

Bardziej szczegółowo

KADD Minimalizacja funkcji

KADD Minimalizacja funkcji Minimalizacja funkcji Poszukiwanie minimum funkcji Foma kwadratowa Metody przybliżania minimum minimalizacja Minimalizacja w n wymiarach Metody poszukiwania minimum Otaczanie minimum Podział obszaru zawierającego

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Bioinformatyka Wykład 9 Wrocław, 5 grudnia 2011 Temat. Test zgodności χ 2 Pearsona. Statystyka χ 2 Pearsona Rozpatrzmy ciąg niezależnych zmiennych losowych X 1,..., X n o jednakowym dyskretnym rozkładzie

Bardziej szczegółowo

LABORATORIUM Z FIZYKI

LABORATORIUM Z FIZYKI LABORATORIUM Z FIZYKI LABORATORIUM Z FIZYKI I PRACOWNIA FIZYCZNA C w Gliwicach Gliwice, ul. Konarskiego 22, pokoje 52-54 Regulamin pracowni i organizacja zajęć Sprawozdanie (strona tytułowa, karta pomiarowa)

Bardziej szczegółowo

Wykład 5: Statystyki opisowe (część 2)

Wykład 5: Statystyki opisowe (część 2) Wykład 5: Statystyki opisowe (część 2) Wprowadzenie Na poprzednim wykładzie wprowadzone zostały statystyki opisowe nazywane miarami położenia (średnia, mediana, kwartyle, minimum i maksimum, modalna oraz

Bardziej szczegółowo

Testy nieparametryczne

Testy nieparametryczne Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów

Bardziej szczegółowo

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne. W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne. dr hab. Jerzy Nakielski Katedra Biofizyki i Morfogenezy Roślin Plan wykładu: 1. Etapy wnioskowania statystycznego 2. Hipotezy statystyczne,

Bardziej szczegółowo

2. Założenie niezależności zakłóceń modelu - autokorelacja składnika losowego - test Durbina - Watsona

2. Założenie niezależności zakłóceń modelu - autokorelacja składnika losowego - test Durbina - Watsona Sprawdzanie założeń przyjętych o modelu (etap IIIC przyjętego schematu modelowania regresyjnego) 1. Szum 2. Założenie niezależności zakłóceń modelu - autokorelacja składnika losowego - test Durbina - Watsona

Bardziej szczegółowo

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Regresja wielokrotna Model dla zależności liniowej: Y=a+b 1 X 1 +b 2 X 2 +...+b n X n Cząstkowe współczynniki regresji wielokrotnej: b 1,..., b n Zmienne niezależne (przyczynowe): X 1,..., X n Zmienna

Bardziej szczegółowo

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów

Bardziej szczegółowo

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych. Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(), zwaną funkcją aproksymującą

Bardziej szczegółowo

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 9 marca 2007

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 9 marca 2007 , transformacja liniowa i estymacja modelu KMNK Paweł Cibis pawel@cibis.pl 9 marca 2007 1 Miary dopasowania modelu do danych empirycznych Współczynnik determinacji Współczynnik zbieżności Skorygowany R

Bardziej szczegółowo

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych: W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych: Zmienne losowe skokowe (dyskretne) przyjmujące co najwyżej przeliczalnie wiele wartości Zmienne losowe ciągłe

Bardziej szczegółowo