Nieparametryczne estymatory jądrowe regresji w zastosowaniach ekonomicznych

Wielkość: px
Rozpocząć pokaz od strony:

Download "Nieparametryczne estymatory jądrowe regresji w zastosowaniach ekonomicznych"

Transkrypt

1 Uniwersytet Ekonomiczny w Krakowie Praca magisterska Nieparametryczne estymatory jądrowe regresji w zastosowaniach ekonomicznych Anna Węgrzynkiewicz Kierunek: Informatyka i Ekonometria Specjalność: Modelowanie i prognozowanie procesów gospodarczych Nr albumu: Promotor dr hab. Daniel Kosiorowski Wydział Zarządzania Kraków 2013

2 Spis treści Wprowadzenie Regresja nieparametryczna Nieparametryczne estymatory funkcji gęstości Regresja Nadaraya-Watsona Regresja lokalnie wielomianowa Regresje nieparametryczne w prognozowaniu szeregów czasowych Własności metod Zagadnienia towarzyszące estymacji regresji nieparametrycznych Metody oceny jakości dopasowania krzywej regresji Symulacje komputerowe Przykład empiryczny Opis przykładu Estymacja regresji Wyniki i wnioski Wnioski końcowe A. Podstawowe definicje związane z zagadnieniem złożoności obliczeniowej B. Symulacje komputerowe - kody w języku R Literatura Spis rysunków Spis tabel

3 Wprowadzenie Analiza regresji jest jednym z podstawowych narzędzi wykorzystywanych do ilościowego opisywania zjawisk ekonomicznych. Jej zadaniem jest określenie typowej zależności pomiędzy zmiennymi w populacji na podstawie dostępnej próby. Analiza regresji umożliwia weryfikację wpływu różnych czynników na badane zjawiska, ich prognozy oraz empiryczną weryfikację twierdzeń ekonomii. Regresja parametryczna dostarcza eleganckich z punktu widzenia wnioskowania statystycznego wyników. W jej przypadku do dyspozycji mamy cały szereg testów parametrycznych, przedziały ufności i oszacowania błędów. Co więcej, sama zależność pomiędzy zmiennymi przedstawiona jest w formie równania (równań). Ceną takich rozwiązań są silne założenia nakładane na analizowane zmienne. Typowe założenia to liniowość modelu ze względu na parametry, nieskorelowanie zmiennych niezależnych oraz postulaty dotyczące składnika resztowego. W klasycznym modelu regresji liniowej przyjmuje się, że błędy modelu są niezależne o rozkładzie normalnym, z zerową wartością oczekiwaną i stałą, skończoną wariancją. Niespełnienie założeń nie zawsze ma znaczący wpływ na otrzymane rezultaty. Jest jednak argumentem mogącym posłużyć do podważenia wiarygodności analizy. W praktyce założenia modeli parametrycznych są rzadko spełnione. Przystępując do analizy często nie posiadamy dostatecznej wiedzy na temat bada- 2

4 Wprowadzenie 3 nego zjawiska, próby zawierają obserwacje odstające lub są generowane przez rozkłady nietypowe lub złośliwe. Metody nieparametryczne są bardziej elastycznym narzędziem analizy danych. Po pierwsze, nie czynią tak restrykcyjnych założeń dotyczących badanego zbioru danych, jak ma to miejsce w przypadku regresji parametrycznych. Ponadto, lepiej radzą sobie z danymi generowanymi przez mieszaniny rozkładów. Do poprawności ich działania nie wymaga się, żeby analizowane dane posiadały momenty, w szczególności wartość oczekiwaną. Przedstawione w niniejszej pracy metody nieparametrycznej analizy regresji opierają się na założeniu, że obserwacje leżące blisko siebie w przestrzeni rozpiętej przez zmienne objaśniające, cechują się podobnymi wartościami zmiennej objaśnianej. Dlatego ważnym zagadnieniem jest określenie bliskości obserwacji. Härdle (1990) wyróżnia cztery podstawowe zadania stojące przed metodami nieparametrycznymi. Pierwsze z nich, to poznanie ogólnej zależności pomiędzy zmiennymi. Celem może być tutaj także wstępna eksploracja danych, ułatwiająca wybór postaci modelu parametrycznego. Drugim zadaniem jest umożliwienie predykcji bez odnoszenia się do ustalonego modelu parametrycznego. Dzięki badaniu wpływu pojedynczych punktów na oszacowanie regresji, możliwe staje się też wykrywanie obserwacji odstających. Regresje nieparametryczne są także elastycznym narzędziem do interpolacji wartości brakujących obserwacji. Regresje nieparametryczne niosą ze sobą pewne utrudnienia analizy. Po pierwsze, wnioskowanie statystyczne nie jest podparte formalnym równaniem określającym zależność pomiędzy zmiennymi. Relacja ta zwykle przedstawiona jest w formie wykresu. Regresja szacowana jest lokalnie, stąd też wariancja estymatorów nieparametrycznych przewyższa wariancję estymatorów parametrycznych. Ponadto krzywe regresji nieparametrycznej cechują się obciążeniem w okolicach ekstremów funkcji generującej obserwacje i na brzegach nośnika danych (ang. edge bias). Metody te mają ograniczone zastosowanie do zagad-

5 Wprowadzenie 4 nień wielowymiarowych oraz mogą być uciążliwe ze względu na dużą złożoność obliczeniową. W niniejszej pracy podjęto próbę zbadania wlasności regresji lokalnie wielomianowej. Szczególną uwagę poświęcono jej prostemu przypadkowi - regresji Nadaraya-Watsona. Pierwszy rozdział zawiera teorię związaną z tymi zagadnieniami. W drugim przedstawiono związane z nimi dylematy oraz za pomocą symulacji komputerowych zbadano własności metod. Trzeci rozdział pokazuje wyniki zastosowania regresji lokalnie wielomianowej do analizy przychodów i wydatków gospodarstw domowych. Wszystkie obliczenia i symulacje w niniejszej pracy przeprowadzono w programie R. Kody służące do generowania obserwacji z procesów wykorzystanych w pracy znajdują się w dodatku B. Dodatek A zawiera podstawowe definicje związane z zagadnieniem złożoności obliczeniowej.

6 Rozdział 1 Regresja nieparametryczna W niniejszym rozdziale przedstawiono ideę regresji nieparametrycznych. Opisano nieparametryczne metody szacowania funkcji gęstości - histogram i estymatory jądrowe. Następnie omówiono regresje lokalnie wielomianowe dla prostego równania regresji. Szczególną uwagę poświęcono estymatorowi Nadaraya-Watsona. Ostatnim zagadnieniem tego rozdziału jest wykorzystanie metod nieparametrycznych do prognozowania szeregów czasowych Nieparametryczne estymatory funkcji gęstości Najprostszym nieparametrycznym estymatorem funkcji gęstości zmiennych ciągłych jest histogram. Metoda ta wymaga podziału przestrzeni, z której pochodzą dane. W przypadku jednowymiarowym przestrzeń R dzielona jest na przedziały o długości [x 0 +mh, x 0 +(m+1)h), zwane też celami. W następnym kroku zliczane są obserwacje wpadające do każdej z cel - ich liczba odpowiada za wysokość słupka odpowiadającego każdemu przedziałowi. Histogramy, których przedziały są równej szerokości, można zdefiniować za pomocą wzoru: ˆf(x) = 1 nh n 1(X i C(x)), (1.1) i=1 gdzie n to liczba obserwacji, h - szerokość przedziału, a C(x) oznacza celę, do której należy x. Funkcja 1 jest funkcją charakterystyczną, która przyjmuje 5

7 1.1. Nieparametryczne estymatory funkcji gęstości 6 wartość 1, gdy obserwacja należy do wskazanej celi i 0 w przeciwnym przypadku. Rysunek 1.1 przedstawia histogram dla rocznej stopy bezrobocia w Stanach Zjednoczonych. Dane obejmujące okres 40 lat zostały opublikowane przez amerykańskie ministerstwo pracy i pochodzą z podręcznika Applied Business Statistics: Making Better Business Decisions (Black, 2010). Stany Zjednoczone Gęstość Stopa bezrobocia [%] Rysunek 1.1: Oszacowanie funkcji gęstości za pomocą histogramu Źródło: Obliczenia własne - R Project Stosowanie metody histogramowej umożliwia szybką wizualizację danych oraz pozwala na łatwą aktualizację oszacowania przy pojawieniu się nowych danych. Metoda ta niesie jednak ze sobą szereg wad. Zły dobór wielkości przedziałów sprawia, że funkcja gęstości modelu populacji, z której pochodzi próba, jest źle odwzorowana przez histogram. W przypadku zbyt małych cel jest to zbyt duże zróżnicowanie, w przypadku zbyt dużych - nadmierne wypłaszczenie. Ponadto histogram ma ograniczone możliwości zastosowania dla danych więcej niż dwuwymiarowych (Bishop, 2006). Bardzo ważną wadą histogramu jest to,

8 1.1. Nieparametryczne estymatory funkcji gęstości 7 że przybliżona za jego pomocą funkcja gęstości jest nieciągła. Kontury wykresu mogą zostać wygładzone przez zmniejszenie szerokości cel, jednak histogram w dalszym ciągu pozostanie nieróżniczkowalnym estymatorem funkcji gęstości. Estymatory jądrowe radzą sobie z tą wadą histogramu przez zastąpienie funkcji charakterystycznej z równania (1.1) funkcją jądrową posiadającą określone własności. Załóżmy, że dysponujemy zbiorem X, składającym się z n obserwacji z przestrzeni d wymiarowej, generowanych przez rozkład p(x). Rozważmy najprostszy przypadek, gdzie d = 1. Następnie wybierzmy ze zbioru X jeden punkt x i rozważmy wokół niego małe otoczenie O tak, żeby x znajdował się w jego centrum. W ogólnym przypadku jest ono hiperkostką o objętości h d, zatem w rozważanej sytuacji będzie to odcinek o długości h. Otoczenie O ma taką właściwość, że p(x)dx = P. (1.2) O Prawdopodobieństwo, że l z n obserwacji należy do obszaru O zależy od wielkości n i P. Dla dostatecznie dużego n możemy przybliżyć l w następujący sposób: l n P. (1.3) Z danych odczytujemy l oraz n i na tej podstawie obliczamy P jako iloraz tych dwóch wartości. Przy bardzo małym h możemy przyjąć, że p(x) jest stałe nad obszarem O, zatem Łącząc równania (1.3) i (1.4) otrzymujemy: P p(x) h. (1.4) p(x) l n h, (1.5)

9 1.1. Nieparametryczne estymatory funkcji gęstości 8 co stanowi przybliżenie wartości funkcji gęstości w punkcie x. Żeby oszacować estymator funkcji gęstości dla badanego zbioru danych, przesuwamy się po obserwacjach ruchomym oknem (otoczeniem) i w każdym z nich wyliczamy p(x). Metoda najbliższych sąsiadów zakłada stałą liczbę l. Szerokość okna jest dobierana tak, aby do każdego z okien wpadało dokładnie tyle samo obserwacji. Szerokość tych okien jest zatem zmienna i zależy od ułożenia obserwacji. W przypadku jądrowych estymatorów gęstości szerokość otoczenia jest stała, natomiast zmienia się liczba l. Jednostajna funkcja jądrowa Trójkątna funkcja jądrowa K(u) K(u) u u Funkcja jądrowa Epanechnikova Gausowska funkcja jądrowa K(u) K(u) u u Rysunek 1.2: Przykłady funkcji jądrowych Źródło: Obliczenia własne - R Project Wpływ punktów należących do okna można ważyć za pomocą funkcji jądrowej. Musi być ona mierzalna, symetryczna wokół zera i posiadająca w zerze

10 1.2. Regresja Nadaraya-Watsona 9 swoje maksimum globalne. Ponadto całka z takiej funkcji musi wynosić 1. Typowe funkcje jądrowe przedstawia rysunek 1.2. Dla zbiorów pochodzących z przestrzeni wielowymiarowych można przyjąć, że ich jądrem jest iloczyn jąder jednowymiarowych: K(u 1, u 2 ) = K 1 (u 1 ) K 2 (u 2 ). (1.6) Przy zadanej postaci funkcji jądrowej K liczbę l można wyliczyć za wzoru: l = n i=1 K( x x i h d ). (1.7) Odjęcie wartości x i od parametru x przesuwa maksimum funkcji jądrowej z zera do x i. Podzielenie różnicy x x i przez parametr h ma na celu odpowiednie wymodelowanie kształtu funkcji K. Wpływ parametru h na kształt funkcji jądrowej opisany został w rozdziale 2.1. Po podstawieniu wzoru (1.7) do równania (1.5) otrzymujemy wzór na estymator gęstości w d-wymiarowej przestrzeni: p(x) = 1 n h d n i=1 K( x x i h d ), (1.8) zwany także estymatorem Rosenblatta-Parzena. Rysunek 1.3 przedstawia jądrowy estymator funkcji gęstości dla danych dotyczących stopy bezrobocia w Stanach Zjednoczonych na tle histogramu. Znając przybliżenie funkcji gęstości rozkładu, można wyliczać takie wielkości, jak warunkowa średnia oraz mediana, warunkowa wariancja, czy też warunkowe kwantyle. Stanowi też ona podstawę dla regresji jądrowej Regresja Nadaraya-Watsona Przyjmijmy, że dysponujemy próbą {y i, x i } n i=1 taką, że y i R oraz x i R d, d 1. Łączna gęstość próby to f(y, x). Po wycałkowaniu z niej y otrzymujemy

11 1.2. Regresja Nadaraya-Watsona 10 Stany Zjednoczone Gęstość Stopa bezrobocia [%] Rysunek 1.3: Histogram i jądrowy estymator funkcji gęstości Źródło: Obliczenia własne - R Project brzegową gęstość x, oznaczaną jako f x (x). Do prognozowania wartości zmiennej y potrzebna nam będzie warunkowa gęstość y dana wzorem: g(y x) = f(y, x) f x (x). (1.9) Stosując estymator jądrowy funkcji gęstości otrzymujemy: ĝ(y x) = 1 h y n i=1 K y ( y i y h y ) K x ( x i x ni=1 K x ( x i x h x ) h x ). (1.10) Po obliczeniu całki y ĝ(y x)dy otrzymujemy estymator warunkowej wartości oczekiwanej E(y x): m(x) = ni=1 y i K x ( x x i h x ) ni=1 K x ( x x, (1.11) i h x )

12 1.2. Regresja Nadaraya-Watsona 11 czyli Estymator Nadaraya-Watsona. Jest to średnia ważona zmiennej zależnej, gdzie wagi zależą od regresorów w następujący sposób: w i = K x( x x i h x ) ni=1 K x ( x x i h x ) (1.12) i przyjmują najwyższe wartości dla obserwacji najbliższych ze względu na wartość zmiennej objaśniającej do badanego punktu. Na rysunku 1.4 zestawiono wyniki regresji Nadaraya-Watsona i regresji liniowej oszacowanej metodą najmniejszych kwadratów. Wartość stopy bezrobocia w Stanach Zjednoczonych uzależniono od czasu. Stany Zjednoczone Stopa bezrobocia [%] N-W MNK Czas Rysunek 1.4: Regresja Nadaraya-Watsona i regresja liniowa Źródło: Obliczenia własne - R Project W przedstawionym przykładzie regresja Nadaraya-Watsona wierniej niż regresja liniowa oddaje zależność stopy bezrobocia od czasu. Estymator ten ma jednak swoje wady. Jedną z nich jest wypłaszczanie ekstremów wynikające z charakteru średniej. Problemem jest też obciążenie oszacowania na brzegach

13 1.3. Regresja lokalnie wielomianowa 12 próby, spowodowane asymetrią jądra w tych obszarach. Zazwyczaj wartość teoretyczna w punkcie jest średnią ważoną obserwacji wcześniejszych i późniejszych w stosunku do danego punktu. Inaczej jest w przypadku obserwacji początkowych i końcowych. Na przykład, w okresie t = 1 wszystkie obserwacje z których wyliczana jest średnia należą do przyszłości. Sytuacja ta może mieć także miejsce wewnątrz zbioru danych, w miejscach, gdzie obserwacje są od siebie tak oddalone, że niewiele z nich wpada do sąsiedztwa punktów. Odpowiedzią na ten problem może być regresja lokalnie wielomianowa, której estymator Nadaraya-Watsona jest szczególnym przypadkiem Regresja lokalnie wielomianowa Estymator Nadaraya-Watsona każdemu punktowi dziedziny przyporządkowuje wartość teoretyczną będącą średnią ważoną wartości zmiennej objaśnianej ze znajdujących się w jego otoczeniu punktów. Jest to najprostszy przypadek regresji lokalnie wielomianowej, nazywany regresją lokalnie stałą. Stopień wielomianu wynosi w tym przypadku zero. Zastępując średnią wielomianem wyższych stopni, otrzymujemy estymator, który nie jest obciążony w skrajnych wartościach zmiennej objaśniającej. Regresja lokalnie wielomianowa z wielomianem stopnia pierwszego nazywana jest regresją lokalnie liniową. Zakładając, że istnieje druga pochodna funkcji gęstości g(x) w małym otoczeniu x, możemy równanie regresji lokalnie liniowej w punkcie x 0 zapisać w następujący sposób: g(x 0 ) g(x) + g(x) x (x 0 x) = a + b(x 0 x). (1.13) W następnym kroku wykorzystuje się metodę najmniejszych kwadratów. Estymacja regresji lokalnie liniowej opiera się na znalezieniu w każdym badanym punkcie parametrów a oraz b, spełniających kryterium:

14 1.3. Regresja lokalnie wielomianowa 13 min n a(x 0 ),b(x 0 ) i=1 (y i a b(x i x)) 2 K( x i x ). (1.14) h W wyniku takiego działania otrzymujemy w każdym punkcie średnią (parametr a) oraz efekt krańcowy (parametr b) - wartość, której nie daje estymator regresji lokalnej stałej. Ponieważ mamy tu do czynienia z szacowaniem w każdym punkcie równania regresji, możemy także wyliczać lokalną wartość błędu standardowego regresji, jako pierwiastek kwadratowy estymatora wariancji składnika losowego. Dla regresji z wyrazem wolnym i jednym regresorem szacowanej metodą najmniejszych kwadratów zgodnym i nieobciążonym estymatorem wariancji składnika losowego jest: S 2 = 1 n 2 n (y i ŷ i ) 2, (1.15) i=1 gdzie n to liczba obserwacji wykorzystanych do oszacowania regresji, y i to wartość empiryczna zmiennej objaśnianej w punkcie i, a ŷ i to jej wartość teoretyczna w tym punkcie. Krzywe regresji lokalnie wielomianowej rzędu 1 i 2 zostały przedstawione na rysunku 1.5. Zastosowanie wielomianów wyższych rzędów zmniejsza obciążenie na brzegach zbioru danych. Ogranicza także wypłaszczanie ekstremów. Częściej jednak napotykamy w ich przypadku na problemy numeryczne wynikające ze zbyt dużego rozproszenia obserwacji. Należy też pamiętać o tym, że wraz ze stopniem wielomianu wzrasta także wariancja estymatora.

15 1.4. Regresje nieparametryczne w prognozowaniu szeregów 14 Stany Zjednoczone Stopa bezrobocia [%] N-W (LW rzędu 0) LW rzędu 1 Lw rzędu Czas Rysunek 1.5: Regresje lokalnie wielomianowe Źródło: Obliczenia własne - R Project 1.4. Regresje nieparametryczne w prognozowaniu szeregów czasowych Mimo że początkowo regresje nieparametryczne były dedykowane głównie danym przekrojowym, okazało się, że wykazują one korzystne własności z punktu widzenia analizy szeregów czasowych. Po pierwsze, mogą okazać się pomocne tam, gdzie klasyczne metody parametryczne nakładają na modele zbyt wiele restrykcji, żeby wyjaśnić obserwowane zjawisko. Ponadto metody nieparametryczne oferują sposoby do radzenia sobie z zależnością w zbiorze danych. Dla funkcji jądrowych o ograniczonych nośnikach zależność pomiędzy obserwacjami ogranicza się tylko do rozpatrywanego w danym punkcie okna. Dzięki temu zmniejsza się zależność estymatora regresji pomiędzy punktami - nawet jeśli X 1 i X 2 są zależne, to oszacowania 1 h K( x 1 x h ) i 1 K( x 2 x) są prawie h h

16 1.4. Regresje nieparametryczne w prognozowaniu szeregów 15 niezależne. Umożliwia to stosowanie technik wypracowanych dla danych niezależnych. Własność ta jest znana w literaturze jako uniezależnianie za pomocą ruchomego okna (ang. whithening by windowing principle, Hart, 1996). Rozważmy nieparametryczny estymator modelu autoregresyjnego. Oprócz opóźnień rzędu p zmiennej objaśnianej możemy włączyć do niego także inne zmienne objaśniające lub trend. Dodawanie zmiennych do modelu musi jednak być dokonywane z ostrożnością, gdyż przy zbyt dużej ich liczbie można napotkać opisany w rozdziale 2.1 problem, zwany przekleństwem wielowymiarowości. Estymator Nadaraya-Watsona jest w modelu autoregresyjnym średnią, ważoną funkcją jądrową, ze wszystkich obserwacji z przeszłości, które były podobne do p ostatnich obserwacji (Heiler, 1999). W rozważanym przypadku przyjmijmy, że jedynymi predyktorami są opóźnienia rzędu 1 zmiennej objaśnianej. Zatem nasz model wygląda następująco: x t = m(x t 1 ) + ε t, (1.16) gdzie {ε t } W N. Zakładając, że dysponujemy obserwacjami X = {x 1, x 2,..., x T }, wartość na jeden okres wprzód prognozujemy według formuły: m(x T +1 ) = Tt=1 y t K( x x T h ) Tt=1 K( x x T h ). (1.17) Prognoza na kilka okresów wprzód następuje sekwencyjnie. W każdym kroku dokonywana jest predykcja na jeden okres w przód. Oszacowana w ten sposób wartość wchodzi do zbioru obserwacji zmiennej objaśniającej, które wezmą udział w prognozowaniu wartości na kolejny okres.

17 Rozdział 2 Własności metod W tym rozdziale przedstawiono własności opisanych wcześniej metod. W pierwszej części poruszono kwestie dylematów związanych z estymatorami jądrowymi, a zatem wybór funkcji jądrowej i parametrów regresji, złożoność obliczeniowa zagadnień oraz przekleństwo wielowymiarowości. Następnie opisano metody oceniania jakości predykcji. W ostatniej części własności estymatorów regresji Nadaraya-Watsona i regresji lokalnie wielomianowej zostały sprawdzone za pomocą symulacji komputerowych Zagadnienia towarzyszące estymacji regresji nieparametrycznych Jednym z pierwszych wyborów, jakich należy dokonać stosując estymatory jądrowe jest wybór odpowiedniej funkcji ważącej obserwacje, czyli jądra. Jego podstawowym zadaniem jest zapewnienie estymatorowi ciągłości, będącej warunkiem koniecznym jego różniczkowalności. Jednym z mierników jakości estymatora jest błąd średniokwadratowy (ang. Mean Squared Error), rozumiany jako wartość oczekiwana kwadratu błędu estymacji. W przypadku regresji nieparametrycznych składa się na nią nie tylko wariancja estymatora, ale także jego obciążenie. Załóżmy, że dysponujemy próbą {y i, x i } n i=1 taką, że y i R oraz x i R d, 16

18 2.1. Zagadnienia towarzyszące estymacji regresji 17 na której podstawie wyliczamy teoretyczne wartości zmiennej objaśnianej jako ŷ. Błąd średniokwadratowy jest tu sumą wariancji oraz kwadratu obciążenia estymatora: MSE = E((ŷ y) 2 ) = [E(ŷ) y] 2 + V (ŷ). (2.1) Bardziej globalnym miernikiem jakości oszacowania jest scałkowany błąd średniokwadratowy (ang. Mean Integrated Squared Error), będący całką z kwadratu błędu estymacji w każdym punkcie przestrzeni z której pochodzą obserwacje. W przypadku jednowymiarowym jest on zatem dany formułą: MISE = E([ˆp(x) p(x)] 2 dx, (2.2) R gdzie p(x) to model populacji, z której pochodzą dane, a ˆp(x) to jego oszacowanie. Na ogół p(x) nie jest znane. Hodges i Lehman w 1956 roku wykazali, że jądro Epanechnikowa (por. rysunek 1.2) minimalizuje wartość scałkowanego błędu średniokwadratowego dla różniczkowalnych p(x). Jest to jądro o ograniczonym nośniku, co często jest pożądaną własnością. Funkcje jądrowe o nieskończonych nośnikach - na przykład jądro normalne - przypisują niektórym obserwacjom bardzo małe wagi, co może powodować wystąpienie błędów numerycznych. Ponadto, ze względu na fakt, że w ich przypadku w obliczaniu wartości estymatora w punkcie biorą udział wszystkie dostępne obserwacje, modele z jądrami o nieograniczonych nośnikach, są bardziej uciążliwe obliczeniowo. Wiele funkcji jądrowych ma zbliżoną efektywność, dlatego wybór funkcji jądrowej, jako decyzja nie mająca bardzo istotnego wpływu na jakość oszacowań, jest często dokonywany w taki sposób, żeby wybrane jądro upraszczało obliczenia (Racine, 2008). Z punktu widzenia analizy znacznie ważniejszy pozostaje dobór współczynnika wygładzającego h. Zmiany tego parametru wpływają zarówno na obciążenie, jak i wariancję estymatora. W przypadku funkcji jądrowych o ograniczo-

19 2.1. Zagadnienia towarzyszące estymacji regresji 18 nych nośnikach parametr ten jest równy promieniowi otoczenia, na podstawie którego szacuje się wartość estymatora w danym punkcie. Dla estymatorów wykorzystujących jądro normalne, jest to odchylenie standardowe funkcji jądrowej. Przy stosowaniu metod definiujących szerokość okna nie przez odległość w przestrzeni, ale liczbę otaczających punktów, parametr ten wyznacza liczbę uwzględnianych w danym punkcie najbliższych sąsiadów. Dla jąder drugiego rzędu (ang. second order kernels), czyli spełniających warunki: K(u)du = 1, uk(u)du = 0, u 2 K(u)du = k <, (2.3) gdzie u = x x i h (por. rozdział 1.1). Optymalna wartość parametru wygładzania ze względu na minimalizację scałkowanego błędu średniokwadratowego dana jest wzorem (Racine, 2008): { }1 K 2 / (u)du 5 1 h opt = ( u 2 K(u)du) 2 n / 5. {p (x)} 2 (2.4) dx Jest ona zatem zależna od funkcji gęstości rozkładu generującego dane, która na ogół nie jest znana. Wybór parametru wygładzania zależy od tego, jaki cel ma nasza analiza. Jeżeli celem wygładzania ma być poznanie struktury danych danych lub ich wstępna eksploracja przed estymacją modelu parametrycznego, wskazane będzie zastosowanie większych wartości parametru h, w celu mocniejszego ich wygładzenia. Jeżeli z kolei chcemy uzyskać krzywą regresji, która ma uwydatnić lokalne właściwości danych, lepsze będą niższe wartości h, które zapobiegną nadmiernemu wypłaszczeniu. W praktyce często dokonuje się wstępnego oszacowania krzywej regresji dla jednej lub kilku wybranych wartości parametru wygładzania. Przykładowo, domyślną wartością parametru wygładzania w funkcji ksmooth pakietu R jest 0.5, a w funkcji loess Kiedy rozważana jest przestrzeń o małej liczbie wymia-

20 2.1. Zagadnienia towarzyszące estymacji regresji 19 rów, takie wstępne oszacowanie krzywej regresji dla wybranych parametrów pozwala zorientować się w strukturze danych. W przypadku małych wartości parametru wygładzania średnia lub lokalna krzywa regresji jest obliczana na podstawie niewielkiej liczby obserwacji. Jest tak dlatego, że okno, na podstawie którego szacowana jest regresja w danym punkcie jest wąskie i obejmuje tylko bardzo bliskie temu punktowi obserwacje. Dlatego też wariancja estymatora będzie duża, zbliżona do wariancji zbioru danych. Jego obciążenie będzie z kolei bardzo małe, zakładając, że wartości zmiennych objaśniających punktów leżących ze względu na wartość cech objaśniających blisko badanego, są zbliżone do jego rzeczywistej wartości. Zastosowanie dużego współczynnika wygładzającego, a zatem przyjęcie do obliczeń dużego okna, powoduje znaczne ograniczenie wariancji estymatora w stosunku do wariancji rzeczywistych danych. Obciążenie estymatora jest jednak większe, ponieważ tym razem w obliczaniu jego wartości w danym punkcie biorą udział także obserwacje oddalone od tego punktu, których właściwości mogą się od niego znacznie różnić. Im wyższa jest wartość parametru wygładzania, tym bardziej estymator regresji Nadaraya-Watsona dąży do wartości średniej z próby. Regresja lokalnie wielomianowa w przypadku okna o nieskończonej szerokości jest równoważna wielomianowi odpowiedniego stopnia dopasowanemu do pełnego zbioru danych. W przypadku regresji jądrowych istnieje ryzyko przeuczenia modelu (ang. overfitting). Zjawisko to występuje wtedy, kiedy krzywa regresji zbyt dobrze dopasuje się do danych, na których jest estymowana. Obserwacje wykorzystywane w procesie szacowania regresji zawierają szum, który zaburza kształt modelu populacji. Zbyt dobre dopasowanie się do nich ogranicza możliwości predykcyjne modelu na nowe obserwacje. Rysunek 2.1 pokazuje, dlaczego w doborze współczynnika wygładzania nie powinno się kierować tylko dopasowaniem do danych z próby uczącej. Czerwona krzywa to regresja lokalnej stałej oszacowana z wykorzystaniem zbyt niskiego współczynnika wygładzającego. Jej współczynnik R 2 jest bliski 1

21 2.1. Zagadnienia towarzyszące estymacji regresji 20 y x szerokie okno wąskie okno punkty dostępne w czasie estymacji nowe punkty Rysunek 2.1: Przykład przeuczenia modelu Źródło: Obliczenia własne - R Project i jest znacznie wyższy, niż w przypadku krzywej szarej, oszacowanej na podstawie szerszego okna. W momencie szacowania obu krzywych dostępne były tylko obserwacje oznaczone kolorem czarnym. Nowe obserwacje, to punkty czerwone. Widać, że krzywa szara lepiej oddaje charakter pełnego zbioru danych, zawierającego zarówno stare, jak i nowe obserwacje. Żeby zabezpieczyć się przed nadmiernym dopasowaniem modelu do danych, do wyboru optymalnej wartości współczynnika wygładzającego stosuje się, na przykład, metody typu cross validation. Metoda Leave One Out Cross Validation polega w przypadku liczącego n obserwacji zbioru danych na szacowaniu n modeli dla każdej z rozważanych wartości współczynnika wygłądzającego. Każdy z modeli estymowany jest na podstawie pełnego zbioru danych z pominięciem jednej obserwacji, zatem otrzymujemy nh następujących oszacowań:

22 2.1. Zagadnienia towarzyszące estymacji regresji 21 ˆm h,i (x i ) = 1 n 1 w hi (x j ) y j, (2.5) j i gdzie, i = 1, 2,..., n, j = 1, 2,..., n, a w hi (x j ) jest zależną od rozważanej wartości parametru h wagą j-tej obserwacji w i-tym modelu. Wagi te wyliczane są zgodnie ze wzorem (1.12). Następnie dla każdej obserwacji sprawdzony zostaje błąd predykcji w modelu, w którego szacowaniu nie brała ona udziału. Jako minimalizowaną wartość przyjąć można sumę kwadratów tych błędów. W obrębie każdej z rozważanych wartości współczynnika wygładzającego sumuje się kwadraty błędów i za optymalną wartość h przyjmuje się tą, dla której suma ta była najmniejsza. Metoda ta jest bardzo złożona obliczeniowo. Dostarcza estymatorów o małym obciążeniu, gdyż w estymacji każdego z modeli służących do wyznaczenia szukanej wartości parametru bierze udział n 1 obserwacji, czyli tylko jedna mniej w porównaniu do ostatecznego modelu. Suma kwadratów reszt w modelu ostatecznym, to jest szacowanym na pełnym zbiorze danych, będzie zatem niewiele większa od tej oszacowanej w trakcie wyznaczania parametru. Z drugiej strony, błąd predykcji liczony jest na podstawie jednej tylko obserwacji, co sprawia, że wariancja oszacowania błędu jest duża. Metodą mniej złożoną obliczeniowo, bo nie wymagającą estymowania tak wielu modeli jest k-fold cross validation. Polega ona na podzieleniu dostępnych obserwacji na k podzbiorów. Dla każdego z nich wybraną miarą oblicza się błąd predykcji w modelu oszacowanym na podstawie wszystkich dostępnych obserwacji oprócz tych, które do niego należą. Błędy te sumuje się w obrębie każdej z rozważanych wartości współczynnika wygładzającego i przyjmuje tę, dla której były one najmniejsze. Oszacowanie błędu tą metodą ma mniejszą wariancję, niż w przypadku LOOCV, jest jednak bardziej obciążone. Innymi metodami wykorzystywanymi do wyboru współczynnika wygładzającego są opisane przez Racine metody przybliżone (m.in. metoda reference rule-of-thumb) oraz znajdująca zastosowanie tylko w przestrzeni jednowymiarowej metoda podstawień (ang. plug-in method), (2008).

23 2.1. Zagadnienia towarzyszące estymacji regresji 22 Kolejnym parametrem, który wymaga ustalenia, jest rząd wielomianu. Regresja lokalnie stała dostarcza estymatora obciążonego na brzegach nośnika danych oraz w okolicach ekstremów. Przejście do regresji lokalnie liniowej pozwala na zmniejszenie tego obciążenia, z niewielką stratą w wysokości wzrostu wariancji. Regresje wielomianowe wyższych rzędów także zmniejszają obciążenie estymatora, jednak wzrost wariancji w ich przypadku jest dużo większy. Wielomiany parzystych stopni przyczyniają się do zmniejszenia obciążenia głównie wewnątrz zbioru danych, w okolicach ekstremów. Wielomiany stopni nieparzystych z kolei lepiej dopasowują się do danych na brzegach dziedziny. Jak dowodzi Hastie (2001) asymptotycznie błąd estymatora jest zdominowany przez obciążenie na brzegach zbioru danych, dlatego też większą popularnością cieszą się regresje lokalnie wielomianowe rzędów nieparzystych. Następnym dylematem związanym ze stosowaniem metod nieparametrycznych jest złożoność obliczeniowa zagadnień. Podstawowe definicje z nim związane znajdują się w dodatku A. Na zbiorze danych liczącym N obserwacji złożoność obliczeniowa zadania, jakim jest wyznaczenie estymatora regresji Nadaraya-Watsona z jądrem normalnym w jednym punkcie wynosi O(N). Zatem oszacowanie krzywej regresji w każdym punkcie tego zbioru oznacza O(N 2 ) operacji. Zastąpienie jądra normalnego innym, takim, którego nośnik ograniczony jest do jakiegoś przedziału, powoduje spadek złożoności obliczeniowej. Uśredniane są wtedy tylko obserwacje wpadające do otoczenia punktu x. Dodatkowo w implementacjach lokalnych regresji często stosuje się uproszczenia. Przykładowo funkcja loess pakietu R dokonuje oszacowania regresji tylko w wyselekcjonowanych M < N punktach zbioru, a następnie interpoluje punkty pośrednie. Zmniejsza to złożoność zagadnienia do O(NM) operacji. Metody zmniejszania złożoności obliczeniowej w przypadku regresji jądrowych zostały przedstawione przez Härdle (1990). Dodatkowym obciążeniem w przypadku regresji jądrowych jest też stosowanie złożonych obliczeniowo metod typu cross validation. W regresjach wyższych wymiarów napotkać można barierę nazywaną prze-

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

MODELE LINIOWE. Dr Wioleta Drobik

MODELE LINIOWE. Dr Wioleta Drobik MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą

Bardziej szczegółowo

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota Ekonometria ćwiczenia 3 Prowadzący: Sebastian Czarnota Strona - niezbędnik http://sebastianczarnota.com/sgh/ Normalność rozkładu składnika losowego Brak normalności rozkładu nie odbija się na jakości otrzymywanych

Bardziej szczegółowo

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej

Bardziej szczegółowo

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp. Sprawdzian 2. Zadanie 1. Za pomocą KMNK oszacowano następującą funkcję produkcji: Gdzie: P wartość produkcji, w tys. jp (jednostek pieniężnych) K wartość kapitału zaangażowanego w proces produkcji, w tys.

Bardziej szczegółowo

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych

Bardziej szczegółowo

3. Modele tendencji czasowej w prognozowaniu

3. Modele tendencji czasowej w prognozowaniu II Modele tendencji czasowej w prognozowaniu 1 Składniki szeregu czasowego W teorii szeregów czasowych wyróżnia się zwykle następujące składowe szeregu czasowego: a) składowa systematyczna; b) składowa

Bardziej szczegółowo

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1. tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1

Bardziej szczegółowo

Estymacja w regresji nieparametrycznej

Estymacja w regresji nieparametrycznej Estymacja w regresji nieparametrycznej Jakub Kolecki Politechnika Gdańska 28 listopada 2011 1 Wstęp Co to jest regresja? Przykład regresji 2 Regresja nieparametryczna Założenia modelu Estymacja i jej charakterystyki

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

Spis treści 3 SPIS TREŚCI

Spis treści 3 SPIS TREŚCI Spis treści 3 SPIS TREŚCI PRZEDMOWA... 1. WNIOSKOWANIE STATYSTYCZNE JAKO DYSCYPLINA MATEMATYCZNA... Metody statystyczne w analizie i prognozowaniu zjawisk ekonomicznych... Badania statystyczne podstawowe

Bardziej szczegółowo

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie: ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Regresja i Korelacja

Regresja i Korelacja Regresja i Korelacja Regresja i Korelacja W przyrodzie często obserwujemy związek między kilkoma cechami, np.: drzewa grubsze są z reguły wyższe, drewno iglaste o węższych słojach ma większą gęstość, impregnowane

Bardziej szczegółowo

Dopasowywanie modelu do danych

Dopasowywanie modelu do danych Tematyka wykładu dopasowanie modelu trendu do danych; wybrane rodzaje modeli trendu i ich właściwości; dopasowanie modeli do danych za pomocą narzędzi wykresów liniowych (wykresów rozrzutu) programu STATISTICA;

Bardziej szczegółowo

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej 7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej Definicja 1 n-elementowa losowa próba prosta nazywamy ciag n niezależnych zmiennych losowych o jednakowych rozkładach

Bardziej szczegółowo

KADD Metoda najmniejszych kwadratów funkcje nieliniowe

KADD Metoda najmniejszych kwadratów funkcje nieliniowe Metoda najmn. kwadr. - funkcje nieliniowe Metoda najmniejszych kwadratów Funkcje nieliniowe Procedura z redukcją kroku iteracji Przykłady zastosowań Dopasowanie funkcji wykładniczej Dopasowanie funkcji

Bardziej szczegółowo

Statystyka matematyczna dla leśników

Statystyka matematyczna dla leśników Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 03/04 Wykład 5 Testy statystyczne Ogólne zasady testowania hipotez statystycznych, rodzaje

Bardziej szczegółowo

Monte Carlo, bootstrap, jacknife

Monte Carlo, bootstrap, jacknife Monte Carlo, bootstrap, jacknife Literatura Bruce Hansen (2012 +) Econometrics, ze strony internetowej: http://www.ssc.wisc.edu/~bhansen/econometrics/ Monte Carlo: rozdział 8.8, 8.9 Bootstrap: rozdział

Bardziej szczegółowo

Oszacowanie i rozkład t

Oszacowanie i rozkład t Oszacowanie i rozkład t Marcin Zajenkowski Marcin Zajenkowski () Oszacowanie i rozkład t 1 / 31 Oszacowanie 1 Na podstawie danych z próby szacuje się wiele wartości w populacji, np.: jakie jest poparcie

Bardziej szczegółowo

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć: Wprowadzenie Statystyka opisowa to dział statystyki zajmujący się metodami opisu danych statystycznych (np. środowiskowych) uzyskanych podczas badania statystycznego (np. badań terenowych, laboratoryjnych).

Bardziej szczegółowo

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, 诲 瞴瞶 瞶 ƭ0 ƭ 瞰 parametrów strukturalnych modelu Y zmienna objaśniana, = + + + + + X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, α 0, α 1, α 2,,α k parametry strukturalne modelu, k+1 parametrów

Bardziej szczegółowo

KORELACJE I REGRESJA LINIOWA

KORELACJE I REGRESJA LINIOWA KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem

Bardziej szczegółowo

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów: Na dzisiejszym wykładzie omówimy najważniejsze charakterystyki liczbowe występujące w statystyce opisowej. Poszczególne wzory będziemy podawać w miarę potrzeby w trzech postaciach: dla szeregu szczegółowego,

Bardziej szczegółowo

Rozkłady statystyk z próby

Rozkłady statystyk z próby Rozkłady statystyk z próby Rozkłady statystyk z próby Przypuśćmy, że wykonujemy serię doświadczeń polegających na 4 krotnym rzucie symetryczną kostką do gry, obserwując liczbę wyrzuconych oczek Nr kolejny

Bardziej szczegółowo

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński Mikroekonometria 13 Mikołaj Czajkowski Wiktor Budziński Endogeniczność regresja liniowa W regresji liniowej estymujemy następujące równanie: i i i Metoda Najmniejszych Kwadratów zakłada, że wszystkie zmienne

Bardziej szczegółowo

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część populacji, którą podaje się badaniu statystycznemu

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Wnioskowanie statystyczne dla zmiennych numerycznych Porównywanie dwóch średnich Boot-strapping Analiza

Bardziej szczegółowo

166 Wstęp do statystyki matematycznej

166 Wstęp do statystyki matematycznej 166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Bioinformatyka Wykład 9 Wrocław, 5 grudnia 2011 Temat. Test zgodności χ 2 Pearsona. Statystyka χ 2 Pearsona Rozpatrzmy ciąg niezależnych zmiennych losowych X 1,..., X n o jednakowym dyskretnym rozkładzie

Bardziej szczegółowo

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007 Modele regresji wielorakiej - dobór zmiennych, szacowanie Paweł Cibis pawel@cibis.pl 1 kwietnia 2007 1 Współczynnik zmienności Współczynnik zmienności wzory Współczynnik zmienności funkcje 2 Korelacja

Bardziej szczegółowo

Statystyka matematyczna i ekonometria

Statystyka matematyczna i ekonometria Statystyka matematyczna i ekonometria prof. dr hab. inż. Jacek Mercik B4 pok. 55 jacek.mercik@pwr.wroc.pl (tylko z konta studenckiego z serwera PWr) Konsultacje, kontakt itp. Strona WWW Elementy wykładu.

Bardziej szczegółowo

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów

Bardziej szczegółowo

Często spotykany jest również asymetryczny rozkład gamma (Г), opisany za pomocą parametru skali θ i parametru kształtu k:

Często spotykany jest również asymetryczny rozkład gamma (Г), opisany za pomocą parametru skali θ i parametru kształtu k: Statystyczne opracowanie danych pomiarowych W praktyce pomiarowej często spotykamy się z pomiarami wielokrotnymi, gdy podczas pomiaru błędy pomiarowe (szumy miernika, czynniki zewnętrzne) są na tyle duże,

Bardziej szczegółowo

Wykład 3 Hipotezy statystyczne

Wykład 3 Hipotezy statystyczne Wykład 3 Hipotezy statystyczne Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu obserwowanej zmiennej losowej (cechy populacji generalnej) Hipoteza zerowa (H 0 ) jest hipoteza

Bardziej szczegółowo

Ważne rozkłady i twierdzenia c.d.

Ważne rozkłady i twierdzenia c.d. Ważne rozkłady i twierdzenia c.d. Funkcja charakterystyczna rozkładu Wielowymiarowy rozkład normalny Elipsa kowariacji Sploty rozkładów Rozkłady jednostajne Sploty z rozkładem normalnym Pobieranie próby

Bardziej szczegółowo

Analiza Statystyczna

Analiza Statystyczna Lekcja 5. Strona 1 z 12 Analiza Statystyczna Do analizy statystycznej wykorzystać można wbudowany w MS Excel pakiet Analysis Toolpak. Jest on instalowany w programie Excel jako pakiet dodatkowy. Oznacza

Bardziej szczegółowo

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp tel.: +48 662 635 712 Liczba stron: 15 Data: 20.07.2010r OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA z wykorzystaniem programu obliczeniowego Q maxp DŁUGIE

Bardziej szczegółowo

Testy nieparametryczne

Testy nieparametryczne Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów

Bardziej szczegółowo

Wykład 4: Statystyki opisowe (część 1)

Wykład 4: Statystyki opisowe (część 1) Wykład 4: Statystyki opisowe (część 1) Wprowadzenie W przypadku danych mających charakter liczbowy do ich charakterystyki można wykorzystać tak zwane STATYSTYKI OPISOWE. Za pomocą statystyk opisowych można

Bardziej szczegółowo

R-PEARSONA Zależność liniowa

R-PEARSONA Zależność liniowa R-PEARSONA Zależność liniowa Interpretacja wyników: wraz ze wzrostem wartości jednej zmiennej (np. zarobków) liniowo rosną wartości drugiej zmiennej (np. kwoty przeznaczanej na wakacje) czyli np. im wyższe

Bardziej szczegółowo

WYKŁAD 8 ANALIZA REGRESJI

WYKŁAD 8 ANALIZA REGRESJI WYKŁAD 8 ANALIZA REGRESJI Regresja 1. Metoda najmniejszych kwadratów-regresja prostoliniowa 2. Regresja krzywoliniowa 3. Estymacja liniowej funkcji regresji 4. Testy istotności współczynnika regresji liniowej

Bardziej szczegółowo

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Regresja wielokrotna Model dla zależności liniowej: Y=a+b 1 X 1 +b 2 X 2 +...+b n X n Cząstkowe współczynniki regresji wielokrotnej: b 1,..., b n Zmienne niezależne (przyczynowe): X 1,..., X n Zmienna

Bardziej szczegółowo

LABORATORIUM Z FIZYKI

LABORATORIUM Z FIZYKI LABORATORIUM Z FIZYKI LABORATORIUM Z FIZYKI I PRACOWNIA FIZYCZNA C w Gliwicach Gliwice, ul. Konarskiego 22, pokoje 52-54 Regulamin pracowni i organizacja zajęć Sprawozdanie (strona tytułowa, karta pomiarowa)

Bardziej szczegółowo

Aproksymacja. funkcji: ,a 2. ,...,a m. - są funkcjami bazowymi m+1 wymiarowej podprzestrzeni liniowej X m+1

Aproksymacja. funkcji: ,a 2. ,...,a m. - są funkcjami bazowymi m+1 wymiarowej podprzestrzeni liniowej X m+1 Założenie: f(x) funkcja którą aproksymujemy X jest przestrzenią liniową Aproksymacja liniowa funkcji f(x) polega na wyznaczeniu współczynników a 0,a 1,a 2,...,a m funkcji: Gdzie: - są funkcjami bazowymi

Bardziej szczegółowo

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW ODRZUCANIE WYNIKÓW OJEDYNCZYCH OMIARÓW W praktyce pomiarowej zdarzają się sytuacje gdy jeden z pomiarów odstaje od pozostałych. Jeżeli wykorzystamy fakt, że wyniki pomiarów są zmienną losową opisywaną

Bardziej szczegółowo

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH RÓWNOWAŻNOŚĆ METOD BADAWCZYCH Piotr Konieczka Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska Równoważność metod??? 2 Zgodność wyników analitycznych otrzymanych z wykorzystaniem porównywanych

Bardziej szczegółowo

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1 Zadanie 1 a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1 b) W naszym przypadku populacja są inżynierowie w Tajlandii. Czy można jednak przypuszczać, że na zarobki kobiet-inżynierów

Bardziej szczegółowo

AKADEMIA GÓRNICZO-HUTNICZA Wydział Matematyki Stosowanej ROZKŁAD NORMALNY ROZKŁAD GAUSSA

AKADEMIA GÓRNICZO-HUTNICZA Wydział Matematyki Stosowanej ROZKŁAD NORMALNY ROZKŁAD GAUSSA AKADEMIA GÓRNICZO-HUTNICZA Wydział Matematyki Stosowanej KATEDRA MATEMATYKI TEMAT PRACY: ROZKŁAD NORMALNY ROZKŁAD GAUSSA AUTOR: BARBARA MARDOSZ Kraków, styczeń 2008 Spis treści 1 Wprowadzenie 2 2 Definicja

Bardziej szczegółowo

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI Test zgodności i analiza wariancji Analiza wariancji Test zgodności Chi-kwadrat Sprawdza się za jego pomocą ZGODNOŚĆ ROZKŁADU EMPIRYCZNEGO Z PRÓBY Z ROZKŁADEM HIPOTETYCZNYM

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska Anna Stankiewicz Izabela Słomska Wstęp- statystyka w politologii Rzadkie stosowanie narzędzi statystycznych Pisma Karla Poppera

Bardziej szczegółowo

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd. Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru

Bardziej szczegółowo

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Testowanie hipotez statystycznych. Wnioskowanie statystyczne Testowanie hipotez statystycznych Wnioskowanie statystyczne Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Hipotezy

Bardziej szczegółowo

0 + 0 = 0, = 1, = 1, = 0.

0 + 0 = 0, = 1, = 1, = 0. 5 Kody liniowe Jak już wiemy, w celu przesłania zakodowanego tekstu dzielimy go na bloki i do każdego z bloków dodajemy tak zwane bity sprawdzające. Bity te są w ścisłej zależności z bitami informacyjnymi,

Bardziej szczegółowo

Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne)

Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne) Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne) Przygotował: Dr inż. Wojciech Artichowicz Katedra Hydrotechniki PG Zima 2014/15 1 TABLICE ROZKŁADÓW... 3 ROZKŁAD

Bardziej szczegółowo

Indeksy dynamiki (o stałej i zmiennej podstawie)

Indeksy dynamiki (o stałej i zmiennej podstawie) Indeksy dynamiki (o stałej i zmiennej podstawie) Proste indeksy dynamiki określają tempo zmian pojedynczego szeregu czasowego. Wyodrębnia się dwa podstawowe typy indeksów: indeksy o stałej podstawie; indeksy

Bardziej szczegółowo

PROGNOZOWANIE I SYMULACJE EXCEL 1 AUTOR: MARTYNA MALAK PROGNOZOWANIE I SYMULACJE EXCEL 1 AUTOR: MARTYNA MALAK

PROGNOZOWANIE I SYMULACJE EXCEL 1 AUTOR: MARTYNA MALAK PROGNOZOWANIE I SYMULACJE EXCEL 1 AUTOR: MARTYNA MALAK 1 PROGNOZOWANIE I SYMULACJE 2 http://www.outcome-seo.pl/excel1.xls DODATEK SOLVER WERSJE EXCELA 5.0, 95, 97, 2000, 2002/XP i 2003. 3 Dodatek Solver jest dostępny w menu Narzędzia. Jeżeli Solver nie jest

Bardziej szczegółowo

Niestacjonarne zmienne czasowe własności i testowanie

Niestacjonarne zmienne czasowe własności i testowanie Materiał dla studentów Niestacjonarne zmienne czasowe własności i testowanie (studium przypadku) Część 3: Przykłady testowania niestacjonarności Nazwa przedmiotu: ekonometria finansowa I (22204), analiza

Bardziej szczegółowo

Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego

Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego Ze względu na jakość uzyskiwanych ocen parametrów strukturalnych modelu oraz weryfikację modelu, metoda najmniejszych

Bardziej szczegółowo

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych dr Piotr Sulewski POMORSKA AKADEMIA PEDAGOGICZNA W SŁUPSKU KATEDRA INFORMATYKI I STATYSTYKI Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych Wprowadzenie Obecnie bardzo

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8 Regresja wielokrotna Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X 1, X 2, X 3,...) na zmienną zależną (Y).

Bardziej szczegółowo

Estymacja parametrów, przedziały ufności etc

Estymacja parametrów, przedziały ufności etc Estymacja parametrów, przedziały ufności etc Liniowa MNK przypomnienie Wariancja parametrów Postulat Bayesa: rozkłady p-stwa dla parametrów Przypadek nieliniowy Przedziały ufności Rozkłady chi-kwadrat,

Bardziej szczegółowo

Wiadomości ogólne o ekonometrii

Wiadomości ogólne o ekonometrii Wiadomości ogólne o ekonometrii Materiały zostały przygotowane w oparciu o podręcznik Ekonometria Wybrane Zagadnienia, którego autorami są: Bolesław Borkowski, Hanna Dudek oraz Wiesław Szczęsny. Ekonometria

Bardziej szczegółowo

STATYSTYKA

STATYSTYKA Wykład 1 20.02.2008r. 1. ROZKŁADY PRAWDOPODOBIEŃSTWA 1.1 Rozkład dwumianowy Rozkład dwumianowy, 0 1 Uwaga: 1, rozkład zero jedynkowy. 1 ; 1,2,, Fakt: Niech,, będą niezależnymi zmiennymi losowymi o jednakowym

Bardziej szczegółowo

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 23 marca 2006

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 23 marca 2006 , transformacja liniowa i estymacja modelu KMNK Paweł Cibis pcibis@o2.pl 23 marca 2006 1 Miary dopasowania modelu do danych empirycznych Współczynnik determinacji Współczynnik zbieżności 2 3 Etapy transformacji

Bardziej szczegółowo

Matematyka licea ogólnokształcące, technika

Matematyka licea ogólnokształcące, technika Matematyka licea ogólnokształcące, technika Opracowano m.in. na podstawie podręcznika MATEMATYKA w otaczającym nas świecie zakres podstawowy i rozszerzony Funkcja liniowa Funkcję f: R R określoną wzorem

Bardziej szczegółowo

Zakładamy, że są niezależnymi zmiennymi podlegającymi (dowolnemu) rozkładowi o skończonej wartości oczekiwanej i wariancji.

Zakładamy, że są niezależnymi zmiennymi podlegającymi (dowolnemu) rozkładowi o skończonej wartości oczekiwanej i wariancji. Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Centralne Twierdzenie Graniczne 1.1 Twierdzenie Lindeberga Levy'ego 1.2 Dowód 1.2.1 funkcja tworząca sumy zmiennych niezależnych 1.2.2 pochodna funkcji

Bardziej szczegółowo

EKONOMETRIA STOSOWANA PRZYKŁADOWE ZADANIA EGZAMINACYJNE

EKONOMETRIA STOSOWANA PRZYKŁADOWE ZADANIA EGZAMINACYJNE EKONOMETRIA STOSOWANA PRZYKŁADOWE ZADANIA EGZAMINACYJNE ZADANIE 1 Oszacowano zależność między luką popytowa a stopą inflacji dla gospodarki niemieckiej. Wyniki estymacji są następujące: Estymacja KMNK,

Bardziej szczegółowo

Pobieranie prób i rozkład z próby

Pobieranie prób i rozkład z próby Pobieranie prób i rozkład z próby Marcin Zajenkowski Marcin Zajenkowski () Pobieranie prób i rozkład z próby 1 / 15 Populacja i próba Populacja dowolnie określony zespół przedmiotów, obserwacji, osób itp.

Bardziej szczegółowo

Funkcje wymierne. Jerzy Rutkowski. Działania dodawania i mnożenia funkcji wymiernych określa się wzorami: g h + k l g h k.

Funkcje wymierne. Jerzy Rutkowski. Działania dodawania i mnożenia funkcji wymiernych określa się wzorami: g h + k l g h k. Funkcje wymierne Jerzy Rutkowski Teoria Przypomnijmy, że przez R[x] oznaczamy zbiór wszystkich wielomianów zmiennej x i o współczynnikach rzeczywistych Definicja Funkcją wymierną jednej zmiennej nazywamy

Bardziej szczegółowo

Analiza zdarzeń Event studies

Analiza zdarzeń Event studies Analiza zdarzeń Event studies Dobromił Serwa akson.sgh.waw.pl/~dserwa/ef.htm Leratura Campbell J., Lo A., MacKinlay A.C.(997) he Econometrics of Financial Markets. Princeton Universy Press, Rozdział 4.

Bardziej szczegółowo

POLITECHNIKA OPOLSKA

POLITECHNIKA OPOLSKA POLITECHNIKA OPOLSKA WYDZIAŁ MECHANICZNY Katedra Technologii Maszyn i Automatyzacji Produkcji Laboratorium Podstaw Inżynierii Jakości Ćwiczenie nr 4 Temat: Analiza korelacji i regresji dwóch zmiennych

Bardziej szczegółowo

Hierarchiczna analiza skupień

Hierarchiczna analiza skupień Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA Zadanie 0.1 Zmienna losowa X ma rozkład określony funkcją prawdopodobieństwa: x k 0 4 p k 1/3 1/6 1/ obliczyć EX, D X. (odp. 4/3;

Bardziej szczegółowo

Rachunek prawdopodobieństwa WZ-ST1-AG--16/17Z-RACH. Liczba godzin stacjonarne: Wykłady: 15 Ćwiczenia: 30. niestacjonarne: Wykłady: 9 Ćwiczenia: 18

Rachunek prawdopodobieństwa WZ-ST1-AG--16/17Z-RACH. Liczba godzin stacjonarne: Wykłady: 15 Ćwiczenia: 30. niestacjonarne: Wykłady: 9 Ćwiczenia: 18 Karta przedmiotu Wydział: Wydział Zarządzania Kierunek: Analityka gospodarcza I. Informacje podstawowe Nazwa przedmiotu Rachunek prawdopodobieństwa Nazwa przedmiotu w j. ang. Język prowadzenia przedmiotu

Bardziej szczegółowo

Wstęp do analizy matematycznej

Wstęp do analizy matematycznej Wstęp do analizy matematycznej Andrzej Marciniak Zajęcia finansowane z projektu "Rozwój i doskonalenie kształcenia na Politechnice Poznańskiej w zakresie technologii informatycznych i ich zastosowań w

Bardziej szczegółowo

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy Wykład Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy Zbiorowość statystyczna - zbiór elementów lub wyników jakiegoś procesu powiązanych ze sobą logicznie (tzn. posiadających wspólne cechy

Bardziej szczegółowo

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji. Ćwiczenie: Wybrane zagadnienia z korelacji i regresji. W statystyce stopień zależności między cechami można wyrazić wg następującej skali: Skala Guillforda Przedział Zależność Współczynnik [0,00±0,20)

Bardziej szczegółowo

1.1 Klasyczny Model Regresji Liniowej

1.1 Klasyczny Model Regresji Liniowej 1.1 Klasyczny Model Regresji Liniowej Klasyczny model Regresji Liniowej jest bardzo użytecznym narzędziem służącym do analizy danych empirycznych. Analiza regresji zajmuje się opisem zależności między

Bardziej szczegółowo

9. BADANIE PRZEBIEGU ZMIENNOŚCI FUNKCJI

9. BADANIE PRZEBIEGU ZMIENNOŚCI FUNKCJI BADANIE PRZEBIEGU ZMIENNOŚCI FUNKCJI Ekstrema i monotoniczność funkcji Oznaczmy przez D f dziedzinę funkcji f Mówimy, że funkcja f ma w punkcie 0 D f maksimum lokalne (minimum lokalne), gdy dla każdego

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4 Inne układy doświadczalne 1) Układ losowanych bloków Stosujemy, gdy podejrzewamy, że może występować systematyczna zmienność między powtórzeniami np. - zmienność

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin. Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Zadania analityczne (1) Analiza przewiduje badanie podobieństw

Bardziej szczegółowo

ANALIZA REGRESJI SPSS

ANALIZA REGRESJI SPSS NLIZ REGRESJI SPSS Metody badań geografii społeczno-ekonomicznej KORELCJ REGRESJ O ile celem korelacji jest zmierzenie siły związku liniowego między (najczęściej dwoma) zmiennymi, o tyle w regresji związek

Bardziej szczegółowo

Pochodna funkcji. Pochodna funkcji w punkcie. Różniczka funkcji i obliczenia przybliżone. Zastosowania pochodnych. Badanie funkcji.

Pochodna funkcji. Pochodna funkcji w punkcie. Różniczka funkcji i obliczenia przybliżone. Zastosowania pochodnych. Badanie funkcji. Pochodna funkcji Pochodna funkcji w punkcie. Różniczka funkcji i obliczenia przybliżone. Zastosowania pochodnych. Badanie funkcji. Małgorzata Wyrwas Katedra Matematyki Wydział Informatyki Politechnika

Bardziej szczegółowo

Ekonometria. Regresja liniowa, dobór postaci analitycznej, transformacja liniowa. Paweł Cibis 24 marca 2007

Ekonometria. Regresja liniowa, dobór postaci analitycznej, transformacja liniowa. Paweł Cibis 24 marca 2007 Regresja liniowa, dobór postaci analitycznej, transformacja liniowa Paweł Cibis pawel@cibis.pl 24 marca 2007 1 Regresja liniowa 2 Metoda aprioryczna Metoda heurystyczna Metoda oceny wzrokowej rozrzutu

Bardziej szczegółowo

Statystyka i eksploracja danych

Statystyka i eksploracja danych Wykład II: i charakterystyki ich rozkładów 24 lutego 2014 Wartość oczekiwana Dystrybuanty Słowniczek teorii prawdopodobieństwa, cz. II Wartość oczekiwana Dystrybuanty Słowniczek teorii prawdopodobieństwa,

Bardziej szczegółowo

Pochodna i różniczka funkcji oraz jej zastosowanie do obliczania niepewności pomiarowych

Pochodna i różniczka funkcji oraz jej zastosowanie do obliczania niepewności pomiarowych Pochodna i różniczka unkcji oraz jej zastosowanie do obliczania niepewności pomiarowych Krzyszto Rębilas DEFINICJA POCHODNEJ Pochodna unkcji () w punkcie określona jest jako granica: lim 0 Oznaczamy ją

Bardziej szczegółowo

Wprowadzenie do teorii prognozowania

Wprowadzenie do teorii prognozowania Wprowadzenie do teorii prognozowania I Pojęcia: 1. Prognoza i zmienna prognozowana (przedmiot prognozy). Prognoza punktowa i przedziałowa. 2. Okres prognozy i horyzont prognozy. Prognozy krótkoterminowe

Bardziej szczegółowo

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak Wzory dla szeregu szczegółowego: Wzory dla szeregu rozdzielczego punktowego: ->Średnia arytmetyczna ważona -> Średnia arytmetyczna (5) ->Średnia harmoniczna (1) ->Średnia harmoniczna (6) (2) ->Średnia

Bardziej szczegółowo

Przedmiot statystyki. Graficzne przedstawienie danych. Wykład-26.02.07. Przedmiot statystyki

Przedmiot statystyki. Graficzne przedstawienie danych. Wykład-26.02.07. Przedmiot statystyki Przedmiot statystyki. Graficzne przedstawienie danych. Wykład-26.02.07 Statystyka dzieli się na trzy części: Przedmiot statystyki -zbieranie danych; -opracowanie i kondensacja danych (analiza danych);

Bardziej szczegółowo

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej Paweł Cibis pawel@cibis.pl 23 lutego 2007 1 Regresja liniowa 2 wzory funkcje 3 Korelacja liniowa

Bardziej szczegółowo

Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji

Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji Wykład 11. Metoda najmniejszych kwadratów Szukamy zależności Dane są wyniki pomiarów dwóch wielkości x i y: (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ). Przypuśćmy, że nanieśliśmy je na wykres w układzie

Bardziej szczegółowo

Rozkład normalny, niepewność standardowa typu A

Rozkład normalny, niepewność standardowa typu A Podstawy Metrologii i Technik Eksperymentu Laboratorium Rozkład normalny, niepewność standardowa typu A Instrukcja do ćwiczenia nr 1 Zakład Miernictwa i Ochrony Atmosfery Wrocław, listopad 2010 r. Podstawy

Bardziej szczegółowo

Przedmiotowy system oceniania wraz z określeniem wymagań edukacyjnych klasa druga zakres rozszerzony

Przedmiotowy system oceniania wraz z określeniem wymagań edukacyjnych klasa druga zakres rozszerzony Przedmiotowy system oceniania wraz z określeniem wymagań edukacyjnych klasa druga zakres rozszerzony Wymagania konieczne (K) dotyczą zagadnień elementarnych, stanowiących swego rodzaju podstawę, zatem

Bardziej szczegółowo

Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11,

Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11, 1 Kwantyzacja skalarna Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11, 10.05.005 Kwantyzacja polega na reprezentowaniu dużego zbioru wartości (być może nieskończonego) za pomocą wartości

Bardziej szczegółowo

SPIS TEŚCI CZĘŚĆ I RACHUNEK PRAWDOPODOBIEŃSTWA

SPIS TEŚCI CZĘŚĆ I RACHUNEK PRAWDOPODOBIEŃSTWA SPIS TEŚCI PRZEDMOWA...13 CZĘŚĆ I RACHUNEK PRAWDOPODOBIEŃSTWA 1. ZDARZENIA LOSOWE I PRAWDOPODOBIEŃSTWO...17 1.1. UWAGI WSTĘPNE... 17 1.2. ZDARZENIA LOSOWE... 17 1.3. RELACJE MIĘDZY ZDARZENIAMI... 18 1.4.

Bardziej szczegółowo