dr Tomasz Jurkiewicz mgr Krzysztof Najman Katedra Statystyki Wydział Zarządzania Uniwersytet Gdański

Wielkość: px
Rozpocząć pokaz od strony:

Download "dr Tomasz Jurkiewicz mgr Krzysztof Najman Katedra Statystyki Wydział Zarządzania Uniwersytet Gdański K.Najman@panda.bg.univ.gda.pl"

Transkrypt

1 Propozycja zastosowania metody klasyfikacji k-średnich oraz sieci neuronowej typu SOM do poprawy efektywności estymacji dla małych domen w reprezentacyjnym badaniu małych i średnich przedsiębiorstw dr Tomasz Jurkiewicz mgr Krzysztof Najman Katedra Statystyki Wydział Zarządzania Uniwersytet Gdański K.Najman@panda.bg.univ.gda.pl SOPOT 2002

2 Streszczenie Problem zbyt małej liczby obserwacji w próbie, reprezentującej określoną domenę populacji, może być rozwiązany między innymi poprzez zastosowanie takich estymatorów, które do szacowania parametrów w określonej supopulacji (małym obszarze, domenie) mogłyby wykorzystać informacje o innych jednostkach w próbie, które pochodzą spoza określonej części populacji. Jedna z metod estymacji dla małych domen zwana estymacją syntetyczną zakłada, że rozkład w badanej małej domenie jest identyczny z rozkładem całej populacji. Założenie to pozostaje zazwyczaj niespełnione, zwłaszcza w przypadku specyficznych domen, co skutkuje dużymi błędami estymacji. Autorzy przedstawiają propozycję dwuetapowego procesu estymacji. W pierwszym etapie za pomocą sieci neuronowych typu SOM oraz za pomocą metody klasyfikacji k- średnich określa się podobieństwa jednostek należących do małej domeny do jednostek z pozostałej części próby. Drugim krokiem jest wykorzystanie w estymacji, za pomocą odpowiednio skonstruowanych wag, informacji tylko z tych domen, które są podobne do badanej małej domeny. Autorzy przedstawiają rezultaty zastosowania podanej procedury w analizie branży budowlanej na podstawie wyników reprezentacyjnego badania małych i średnich przedsiębiorstw. Podjęli także próbę oszacowania błędów tak zmodyfikowanej metody estymacji syntetycznej. Wprowadzenie Rozwój gospodarczy i społeczny powoduje wzrost zapotrzebowania na informacje statystyczne dotyczące nie tylko całych zbiorowości, ale także ich wydzielonych części. Jednym ze skutecznych narzędzi zaspokajania tych potrzeb okazały się badania reprezentacyjne. Ze względów organizacyjnych i finansowych nie są one jednak w stanie dostarczyć wiarygodnych danych dla bardziej szczegółowego podziału populacji na subpopulacje (domeny studiów). Zbyt mała liczba obserwacji pochodzących z określonej domeny może być przeszkodą w zastosowaniu niektórych technik wnioskowania statystycznego, albo też może prowadzić do dużych błędów estymacji (por. Bracha (1996)). Jedną z możliwych metod rozwiązania tego problemu jest skonstruowania takich estymatorów, które do szacowania parametrów w określonej subpopulacji (małym obszarze, domenie) byłyby w stanie wykorzystać informacje o innych jednostkach w próbie, które pochodzą spoza określonej części populacji lub też dodatkowych informacji spoza próby. Małą domenę (mały obszar) można zdefiniować jako dziedzinę studiów, dla której informacje są istotne z punktu widzenia użytkownika danych oraz informacji tych nie można uzyskać metodą bezpośredniej estymacji ze względu na zbyt małą liczebność próby, bądź też informacje uzyskane za pomocą metod pośrednich będą bardziej wiarygodne. Nie ma powodów, aby zakres statystyki małych obszarów miał być ograniczany do jednostek terytorialnych, z metodologicznego punktu widzenia nie ma różnicy czy za małą domenę będziemy uważać podpopulację pochodzącą z jednego terytorium czy też podpopulację wyodrębnioną w inny sposób. Głównym celem pracy jest próba określenia właściwości modyfikowanego estymatora syntetycznego. Równoległym celem badania jest empiryczna weryfikacja przydatności modyfikowanego estymatora syntetycznego w warunkach konkretnego badania próbkowego.

3 Estymatory małych domen Istotą estymacji pośredniej jest pożyczenie informacji dla wzmocnienia oszacowania w interesującej statystyka domenie. Źródłem dodatkowych danych w przypadku badania reprezentacyjnego mogą być: inne domeny w próbie; informacja o liczebnościach poszczególnych warstw i domen w badanej populacji; informacja o wartościach dodatkowej cechy w próbie, silnie związanej z cechą badaną i co najmniej równie wiarygodnej; informacja o wartościach dodatkowej cechy w badanej populacji; inne dostępne informacje, np. dane z badań z innych okresów. Bezpośrednim estymatorem nieznanego parametru ΘY d w małej domenie jest estymator Horvitza-Thompsona, zwany estymatorem ekspansyjnym. Wykorzystuje on wyłącznie dane o wylosowanych jednostkach w próbie należących do małej domeny. Estymator HT jest wprawdzie nieobciążony, ale z uwagi na małą liczebność próby jego wariancja jest zazwyczaj wysoka. Dla parametru proporcji estymator będzie miał postać: k d HT p d = (1) nd gdzie k d i n d są odpowiednio liczebnością elementów wyróżnionych w domenie d i liczebnością małej domeny d. Estymacja syntetyczna stanowi jedną z pierwszych propozycji rozwiązania głównego problemu estymacji dla małych domen, jakim są niewystarczająca liczebność próby. W tym celu przyjmuje się pewne założenia odnośnie do badanej zbiorowości, aby do oszacowań dla domeny móc wykorzystać informacje z całej próby. Podstawowym założeniem w konstrukcji estymatorów syntetycznych jest podobieństwo struktury populacji do struktury badanej domeny czy domen. Może być ono przy tym ograniczone w pewnych przypadkach do podobieństwa niektórych tylko parametrów w populacji i domenie. Przykładowo podstawą konstrukcji estymatora syntetycznego zwykłego jest założenie, że średnie badanej cechy w populacji i domenie nie różnią się istotnie. Dla proporcji postać estymatora przedstawia statystyka: k syn p d = (2) n gdzie k i n są odpowiednio liczebnością elementów wyróżnionych w próbie i liczebnością całej próby. Stosując estymację syntetyczną należy zwrócić baczną uwagę na problem poprawności przyjętego modelu. Im bardziej założenia będące podstawą estymacji odbiegają od rzeczywistości, tym większe jest obciążenie estymatorów. Należy przy tym pamiętać, że obciążenie to po pierwsze może być znaczne, a po drugie nie jest ono w żaden sposób uwzględniane przez wzory na średnie błędy kwadratowe i estymatory błędów.

4 Modyfikowany Estymator Syntetyczny Założenie o zgodności struktur populacji i domeny pozostaje zazwyczaj niespełnione, zwłaszcza w przypadku specyficznych domen, co skutkuje dużymi błędami estymacji. Rozwiązaniem problemu może być taka modyfikacja estymatora, aby do wzmocnienia oszacowania w małej domenie wykorzystywane były informacje od jednostek czy też domen podobnych do badanej. Proponowana procedura estymacji przebiega w dwóch etapach. Pierwszym krokiem jest ustalenie, które jednostki czy też domeny są podobne do badanej. W zależności od stopnia podobieństwa czy też odległości ustalane są wagi dla dodatkowej informacji. I tak dane z jednostek podobnych będą miały stosunkowo wysoką wartość wagi, natomiast dane z jednostek odległych odpowiednio mniejszą lub nie będą w ogóle uwzględniane. Postać estymatora proporcji można zapisać: MES p d kd + = n + d n ~ d i= n yiwi 1 (3) gdzie w i wagi dla jednostek spoza małej domeny y i wartości badanej cechy zero-jedynkowej. Ustalenie podobieństwa badanej domeny do innych domen w populacji może zostać przeprowadzone między innymi za pomocą metod analizy wielowymiarowej. W pracy posłużono się metodą grupowania k-średnich. Jako alternatywną metodę klasyfikacji wykorzystano sieć neuronową typu Self Organizing Map (SOM), a następnie na uzyskanej mapie neuronów przeprowadzono grupowanie metodą k-średnich. Liczbę klas grupowania ustalono wykorzystując jako kryterium wartość indeksu Davies-Boulding (clustering evaluation index) postaci: DB c k = = 1 ~ d i= 1 w k; c Si + S j k i= j= i+ M max 1; 1 ij c gdzie: S i odchylenie standardowe w i-tej klasie; M ij odległość między klasami; c liczba klas. Indeks DB opiera się na ilorazie wariancji wewnątrz klas i odległości między klasami. Ustalenie optymalnej liczby klas polega na policzeniu wartości indeksu dla wszystkich wariantów ilości klas i wybraniu wariantu z minimalną wartością indeksu DB. Przy ustalaniu wag dla jednostek spoza małej domeny przyjęto założenie, iż waga powinna być wprost proporcjonalna do odsetka jednostek z małej domeny, które znalazły się w danej klasie. Wagę można zapisać jako: ndi nd wi = ndi max i nd gdzie n di liczba jednostek należących do domeny d które znalazły się w klasie i, γ współczynnik normujący z przedziału (0,1) określający maksymalną wartość wagi. γ i (4) (5)

5 Przykładowo, jeżeli w i-tej klasie znalazło się dwukrotnie więcej jednostek niż w j-tej, to wszystkie jednostki spoza małej domeny z i-tej klasy będą miały taką samą wagę i będzie to waga dwukrotnie wyższa niż jednostek z j-tej klasy. Warto zwrócić uwagę na jedną z zalet estymatora MES, którą jest możliwość wykorzystania informacji pochodzących spoza badania. Można mianowicie przy ustalaniu podobieństwa między domenami wykorzystywać dane z zupełnie innych, np. wcześniejszych badań bądź też dostępne informacje o populacji. W takim przypadku możliwej jest także wyznaczenie oszacowań parametrów dla domeny, która nie jest reprezentowana w próbie. Ocena własności estymatora MES Do oceny estymatora MES wykorzystano metodę bootstrapową. W kolejnych powtórzeniach losowano niezależnie 224 jednostki, traktując jako populację jednostki, które znalazły się pierwotnie w próbie. Wykonanych zostało 1000 symulacji. Dla każdej symulacji prowadzono grupowanie metodą k-średnich dla 5 klas i 20 iteracji oraz grupowanie za pomocą sieci neuronowej SOM przy założeniu sieci 12x12 z funkcją sąsiedztwa bubble i liczbą skupisk ustalaną z przedziału (2, 9) na podstawie indeksu DB. Powyższe założenia były optymalne dla danych z pierwotnej próby. Wyszukiwanie optymalnych parametrów grupowania dla każdej próby bootstrapowej mogłoby poprawić ostateczne wyniki estymacji, jednakże ze względu na długi czas pojedynczej symulacji zdecydowano się zachować jednolite parametry we wszystkich symulacjach. Aby ocenić własności estymatorów parametru ΘY d posługiwano się w niniejszym badaniu średnim obciążeniem estymatora we wszystkich s eksperymentach obliczanym według następującej formuły: s ( Pf, i ΘYd ) i= 1 BIAS f = s 100 (6) gdzie: P f,i jest wartością f-tego estymatora w i-tym eksperymencie; ΘY d jest rzeczywistą wartością proporcji cechy Y w domenie d. Drugim elementem oceny był pierwiastek średniego błędu kwadratowego, obliczany według wzoru: s 2 ( Pf, i ΘYd ) i= 1 sqr( MSE f ) = s 100 (7) Badaną charakterystyką były wskaźniki struktury, dlatego też obciążenie i średni błąd wyrażono dla przejrzystości w procentach. Po eksperymencie obliczano także wartość względnego momentu trzeciego, czyli miary skośności rozkładu uzyskanych wartości oszacowań oraz czwartego momentu względnego, będącego miarą spłaszczenia rozkładu.

6 Badanie reprezentacyjne małych przedsiębiorstw w województwie pomorskim Badanie sektora małych przedsiębiorstw w województwie pomorskim i lubelskim przeprowadzone zostało przez międzynarodowy zespół naukowców 1. Populację badania stanowiły małe przedsiębiorstwa w województwie pomorskim, liczące od 10 do 49 zatrudnionych zarejestrowane w rejestrze REGON na dzień 30 czerwca Z populacji zostały wykluczone niektóre branże, pominięto sekcję E energetykę oraz administrację publiczną, ochronę zdrowia i edukację. Liczebność próby dla województwa pomorskiego określono na poziomie 237 przedsiębiorstw, to jest ok. 5% populacji badania. Skonstruowana dla potrzeb badania ankieta obejmowała 58 pytań i składała się z sześciu działów. Otrzymana w wyniku przeprowadzonych wywiadów próba liczyła 239 jednostek. Dla potrzeb niniejszej pracy odrzucono z próby 15 jednostek, które nie spełniały niektórych postawionych przy projektowaniu badania kryteriów. Odrzucono firmy, które według podanego numeru REGON pochodziły z innych niż wybrane kategorii działalności gospodarczej oraz firmy, w ankietach których znajdowało się dużo braków odpowiedzi. Sektor budownictwa jest jednym z najistotniejszych działów każdej gospodarki. Bardzo często wyniki finansowe i wielkość produkcji tego sektora traktowane są jako barometr gospodarki. W publikacjach dotyczących sytuacji gospodarczej obok zmian wielkości produkcji dla całej gospodarki podawane są także zmiany wielkości produkcji budowlano-montażowej. W badanej grupie 224 przedsiębiorstw w województwie pomorskim 19 firm (8,5%) należało do sektora budownictwa (kod EKD zaczynający się od 45). Liczebność ta jest dalece niewystarczająca do wiarygodnego opisu sektora budownictwa przy pomocy estymatorów bezpośrednich. Wynika to z potencjalnie bardzo dużej wartość przeciętnego błędu oszacowania, który osiągać może nawet 11,5%. A zatem opis tego sektora powinien być oparty o inne, dające bardziej wiarygodne wyniki, metody estymacji. Jedną z takich możliwości jest uznanie tego działu jako małej domeny i zastosowanie metod estymacji dla małych domen. Wyniki badania W tablicy 2 prezentowane są wartości pierwiastka z MSE dla oszacowań przykładowych sześciu zmiennych: odsetka firm powstałych po 1994 roku; firm upatrujących swojej przewagi nad konkurencją w atrakcyjności produktów; firm upatrujących swojej przewagi nad konkurencją w wysokiej jakości; firm, które poniosły wydatki na inwestycje rzeczowe w 1999 r.; firm upatrujących swoich szans w wysokich kwalifikacjach pracowników; firm upatrujących swoich szans w dobrej znajomości rynku. Dwie ostatnie zmienne charakteryzowały się dość zbliżonym poziomem w populacji i domenie. Pierwsze cztery zmienne charakteryzowały się dość dużą różnicą między wartością w domenie i populacji sięgającą dla drugiej cechy ponad 20 punktów procentowych. 1 W skład zespołu badawczego wchodzili pracownicy Katedry Statystyki Uniwersytetu Gdańskiego dr hab. A. Balicki, dr hab. M. Szreder, mgr T. Jurkiewicz, Politechniki Gdańskiej dr hab. F. Bławat, dr hab. J. Ossowski, mgr K. Zięba i partnerzy zagraniczni z Kingston University (W. Brytania) i Panteion University (Ateny, Grecja). Część badania, obejmującą małe przedsiębiorstwa w województwie pomorskim, sfinansowana została ze środków programu Komisji Europejskiej Phare ACE Programme 1997 contract no. P R oraz środków przyznanych na badanie własne BW autorowi.

7 Można zauważyć, że o ile wariancja estymatora MES (tablica 1) jest w stosunku do estymatora HT sporo niższa, to na skutek obciążenia średni błąd kwadratowy jest przeważnie większy. Jedynie dla oszacowań dwóch ostatnich zmiennych estymator MES okazuje się efektywniejszy, ale tylko przy parametrze γ mniejszym niż 0,5. Tablica 1. Wariancja estymatorów (pierwiastek) wykorzystujących sieci neuronowe typu SOM w zależności od maksymalnej wagi γ MESp 1 MES p 2 MES p 3 MES p 4 MES p 5 MES p 6 1 3,89% 5,06% 5,18% 5,98% 5,24% 4,88% 0,5 3,99% 4,90% 5,28% 5,78% 5,19% 4,86% 0,3 4,28% 5,07% 5,65% 5,86% 5,40% 5,06% 0,2 4,68% 5,49% 6,18% 6,17% 5,79% 5,41% 0,1 5,60% 6,66% 7,48% 7,22% 6,89% 6,33% HT 8,59% 10,64% 11,72% 11,50% 10,83% 9,73% Tablica 2. Średni błąd kwadratowy (pierwiastek) estymatorów wykorzystujących sieci neuronowe typu SOM w zależności od maksymalnej wagi γ MESp 1 MES p 2 MES p 3 MES p 4 MES p 5 MES p ,73% 15,81% 21,29% 13,30% 11,05% 11,40% 0,5 15,74% 13,95% 18,94% 11,86% 9,84% 10,19% 0,3 13,74% 12,10% 16,56% 10,40% 8,62% 8,96% 0,2 11,89% 10,42% 14,35% 9,04% 7,49% 7,80% 0,1 8,55% 7,41% 10,32% 6,53% 5,42% 5,68% HT * 7,5% 9,0% 8,2% 9,5% 9,4% 9,8% syn * 12,4% 12,2% 20,6% 17,0% 3,3% 3,8% * wartości przybliżone Tablica 3. Średni błąd kwadratowy (pierwiastek) estymatorów wykorzystujących metodę grupowania k-średnich w zależności od maksymalnej wagi γ MESp 1 MES p 2 MES p 3 MES p 4 MES p 5 MES p ,12% 14,11% 24,22% 14,12% 10,83% 11,28% 0,5 15,47% 12,76% 21,87% 12,78% 9,82% 10,21% 0,3 13,74% 11,34% 19,40% 11,35% 8,76% 9,08% 0,2 12,07% 9,98% 17,03% 9,98% 7,73% 7,99% 0,1 8,90% 7,37% 12,53% 7,35% 5,74% 5,91% Tablica 4. Różnica błędów estymatorów z wykorzystaniem SOM i estymatorów z wykorzystaniem k-średnich γ MESp 1 MES p 2 MES p 3 MES p 4 MES p 5 MES p 6 1 0,61% 1,70% -2,93% -0,82% 0,22% 0,12% 0,5 0,27% 1,18% -2,93% -0,91% 0,02% -0,02% 0,3 0,00% 0,76% -2,84% -0,95% -0,13% -0,13% 0,2-0,18% 0,44% -2,68% -0,94% -0,23% -0,19% 0,1-0,35% 0,04% -2,21% -0,82% -0,32% -0,23%

8 Porównując wyniki uzyskane przy różnych metodach grupowania można stwierdzić, że uzyskane oszacowania nie różnią się zbyt mocno (patrz wykres 1). Najwyższa zaobserwowana różnica wynosi 4,8 punktu procentowego dla piątej zmiennej przy parametrze γ = 1. Efektywność estymatorów także pozostaje na zbliżonym poziomie, aczkolwiek w przypadku trzeciej zmiennej metoda grupowania k-średnich okazała się zdecydowanie mniej efektywna. Wykres 1. Wartości estymatorów wykorzystujących sieci neuronowe typu SOM i metodę grupowania k-średnich w zależności od maksymalnej wagi 80% 70% 60% 50% 40% 30% 20% 10% 0% p KS(0,1) KS(0,2) KS(0,3) KS(0,5) KS(1) p SOM(0,1) SOM(0,2) SOM(0,3) SOM(0,5) SOM(1) Na wykresie 2 przedstawiono przykłady uzyskanych rozkładów estymatorów MES dla różnych wartości szacowanego parametru p d. Rozkłady estymatorów charakteryzują się w miarę normalnym spłaszczeniem, α 4 w większości przypadków był bliski zeru i zdecydowanej większości dodatni, co oznacza, że rozkłady estymatorów są bardziej wysmukłe w porównaniu do rozkładu normalnego. Dla najbardziej spłaszczonego rozkładu wartość α 4 wynosiła ok. 0,2. Uzyskane rozkłady były także w przybliżeniu symetryczne, przy czym wielkość asymetrii rosła wraz ze zmniejszaniem parametru γ. Ponadto przy stosunkowo dużych wartościach parametru γ rozkłady można było uznać za normalne (test χ 2 przy podziale na 18 klas). Pewne zniekształcenia widoczne na wykresie wynikają z niedużej ilości powtórzeń symulacji.

9 Wykres 2. Przykładowe rozkłady modyfikowanych estymatorów syntetycznych oraz aproksymacja rozkładu normalnego p d 0,3 p d 0,5 p d 0,05

10 Wnioski Zastosowanie modyfikowanego estymatora syntetycznego MES wydaje się być dobrą alternatywą do szacowania parametrów rozkładów w małych domenach, w szczególności w tych domenach, które dość mocno różnią się od populacji. Charakteryzuje się on bowiem stosunkowo niską wariancją, jego obciążenie może być wprawdzie znaczne, jednak w zdecydowanej większości przypadków mniejsze niż estymatora syntetycznego. Rozkład estymatora w wielu przypadkach można uznać za normalny bądź bliski normalnemu. Wybór metody grupowania wydaje się mieć drugorzędne znaczenie, wprawdzie zaobserwować można różnice w efektywności, jednak wartości oszacowań parametrów są na zbliżonym poziomie. Ważnym elementem jest ustalenie sposobu ważenia informacji dodatkowych. Zmiana parametru γ, ustalającego maksymalną wartość wagi powodowała dość istotne zmiany zarówno oszacowań parametrów jak i efektywności estymatorów. W pracy przyjęto wagi uzależnione od ilości wystąpień jednostek z małej domeny w klasie. Wydaje się, że lepszym rozwiązaniem byłoby ustalanie wagi dla każdej obserwacji pochodzącej spoza małej domeny indywidualnie na podstawie odległości danej jednostki od jednostek należących do małej domeny. Metoda ta wymaga jednak obecności w próbie odpowiedniej ilości jednostek z małej domeny.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd. Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Badania sondażowe. Schematy losowania. Agnieszka Zięba. Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa

Badania sondażowe. Schematy losowania. Agnieszka Zięba. Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa Badania sondażowe Schematy losowania Agnieszka Zięba Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa 1 Próba jako miniatura populacji CELOWA subiektywny dobór jednostek

Bardziej szczegółowo

Statystyka matematyczna dla leśników

Statystyka matematyczna dla leśników Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 03/04 Wykład 5 Testy statystyczne Ogólne zasady testowania hipotez statystycznych, rodzaje

Bardziej szczegółowo

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część populacji, którą podaje się badaniu statystycznemu

Bardziej szczegółowo

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności: Zadania ze statystyki cz. 7. Zad.1 Z populacji wyłoniono próbę wielkości 64 jednostek. Średnia arytmetyczna wartość cechy wyniosła 110, zaś odchylenie standardowe 16. Należy wyznaczyć przedział ufności

Bardziej szczegółowo

Wnioskowanie statystyczne. Statystyka w 5

Wnioskowanie statystyczne. Statystyka w 5 Wnioskowanie statystyczne tatystyka w 5 Rozkłady statystyk z próby Próba losowa pobrana z populacji stanowi realizacje zmiennej losowej jak ciąg zmiennych losowych (X, X,... X ) niezależnych i mających

Bardziej szczegółowo

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu Wykład 11-12 Centralne twierdzenie graniczne Statystyka matematyczna: Estymacja parametrów rozkładu Centralne twierdzenie graniczne (CTG) (Central Limit Theorem - CLT) Centralne twierdzenie graniczne (Lindenberga-Levy'ego)

Bardziej szczegółowo

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd. Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych Agenda Instytut Matematyki Politechniki Łódzkiej 2 stycznia 2012 Agenda Agenda 1 Wprowadzenie Agenda 2 Hipoteza oraz błędy I i II rodzaju Hipoteza alternatywna Statystyka testowa Zbiór krytyczny Poziom

Bardziej szczegółowo

Statystyka Małych Obszarów w badaniach próbkowych

Statystyka Małych Obszarów w badaniach próbkowych Statystyka Małych Obszarów w badaniach próbkowych Łukasz Wawrowski l.wawrowski@stat.gov.pl Urząd Statystyczny w Poznaniu SKN Estymator, UEP 5.03.2012 1 Wprowadzenie Podstawowe pojęcia Badanie 2 Estymator

Bardziej szczegółowo

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel: Wariancja z populacji: Podstawowe miary rozproszenia: 1 1 s x x x x k 2 2 k 2 2 i i n i1 n i1 Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel: 1 k 2 s xi x n 1 i1 2 Przykład 38,

Bardziej szczegółowo

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl

Bardziej szczegółowo

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/ Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/ Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Głęboka 28, bud. CIW, p. 221 e-mail: zdzislaw.otachel@up.lublin.pl

Bardziej szczegółowo

Pobieranie prób i rozkład z próby

Pobieranie prób i rozkład z próby Pobieranie prób i rozkład z próby Marcin Zajenkowski Marcin Zajenkowski () Pobieranie prób i rozkład z próby 1 / 15 Populacja i próba Populacja dowolnie określony zespół przedmiotów, obserwacji, osób itp.

Bardziej szczegółowo

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zad. 1 Średnia ocen z semestru letniego w populacji studentów socjologii w roku akademickim 2011/2012

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Wnioskowanie statystyczne dla zmiennych numerycznych Porównywanie dwóch średnich Boot-strapping Analiza

Bardziej szczegółowo

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów: Na dzisiejszym wykładzie omówimy najważniejsze charakterystyki liczbowe występujące w statystyce opisowej. Poszczególne wzory będziemy podawać w miarę potrzeby w trzech postaciach: dla szeregu szczegółowego,

Bardziej szczegółowo

Zadania ze statystyki, cz.6

Zadania ze statystyki, cz.6 Zadania ze statystyki, cz.6 Zad.1 Proszę wskazać, jaką część pola pod krzywą normalną wyznaczają wartości Z rozkładu dystrybuanty rozkładu normalnego: - Z > 1,25 - Z > 2,23 - Z < -1,23 - Z > -1,16 - Z

Bardziej szczegółowo

Kolokwium ze statystyki matematycznej

Kolokwium ze statystyki matematycznej Kolokwium ze statystyki matematycznej 28.05.2011 Zadanie 1 Niech X będzie zmienną losową z rozkładu o gęstości dla, gdzie 0 jest nieznanym parametrem. Na podstawie pojedynczej obserwacji weryfikujemy hipotezę

Bardziej szczegółowo

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI Test zgodności i analiza wariancji Analiza wariancji Test zgodności Chi-kwadrat Sprawdza się za jego pomocą ZGODNOŚĆ ROZKŁADU EMPIRYCZNEGO Z PRÓBY Z ROZKŁADEM HIPOTETYCZNYM

Bardziej szczegółowo

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH RÓWNOWAŻNOŚĆ METOD BADAWCZYCH Piotr Konieczka Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska Równoważność metod??? 2 Zgodność wyników analitycznych otrzymanych z wykorzystaniem porównywanych

Bardziej szczegółowo

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( ) Statystyka Rozkład prawdopodobieństwa Testowanie hipotez Wykład III (04.01.2016) Rozkład t-studenta Rozkład T jest rozkładem pomocniczym we wnioskowaniu statystycznym; stosuje się go wyznaczenia przedziału

Bardziej szczegółowo

166 Wstęp do statystyki matematycznej

166 Wstęp do statystyki matematycznej 166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej

Bardziej szczegółowo

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej) Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej) 1 Podział ze względu na zakres danych użytych do wyznaczenia miary Miary opisujące

Bardziej szczegółowo

Estymacja punktowa i przedziałowa

Estymacja punktowa i przedziałowa Temat: Estymacja punktowa i przedziałowa Kody znaków: żółte wyróżnienie nowe pojęcie czerwony uwaga kursywa komentarz 1 Zagadnienia 1. Statystyczny opis próby. Idea estymacji punktowej pojęcie estymatora

Bardziej szczegółowo

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41 Statystyka Wykład 4 Magdalena Alama-Bućko 13 marca 2017 Magdalena Alama-Bućko Statystyka 13 marca 2017 1 / 41 Na poprzednim wykładzie omówiliśmy następujace miary rozproszenia: Wariancja - to średnia arytmetyczna

Bardziej szczegółowo

IV WYKŁAD STATYSTYKA. 26/03/2014 B8 sala 0.10B Godz. 15:15

IV WYKŁAD STATYSTYKA. 26/03/2014 B8 sala 0.10B Godz. 15:15 IV WYKŁAD STATYSTYKA 26/03/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 4 Populacja generalna, próba, losowanie próby, estymatory Statystyka (populacja generalna, populacja próbna, próbka mała, próbka duża, reprezentatywność,

Bardziej szczegółowo

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów

Bardziej szczegółowo

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa. TESTY NIEPARAMETRYCZNE 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa. Standardowe testy równości średnich wymagają aby badane zmienne losowe

Bardziej szczegółowo

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi Piotr Konieczka Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska D syst D śr m 1 3 5 2 4 6 śr j D 1

Bardziej szczegółowo

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1. tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1

Bardziej szczegółowo

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne. W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne. dr hab. Jerzy Nakielski Katedra Biofizyki i Morfogenezy Roślin Plan wykładu: 1. Etapy wnioskowania statystycznego 2. Hipotezy statystyczne,

Bardziej szczegółowo

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa Weryfikacja hipotez statystycznych Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o prawdziwości lub fałszywości którego wnioskuje się na podstawie

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

METODY STATYSTYCZNE W BIOLOGII

METODY STATYSTYCZNE W BIOLOGII METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Bioinformatyka Wykład 4 Wrocław, 17 października 2011 Temat. Weryfikacja hipotez statystycznych dotyczących wartości oczekiwanej w dwóch populacjach o rozkładach normalnych. Model 3. Porównanie średnich

Bardziej szczegółowo

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34 Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34 Def. Charakterystyki liczbowe to wielkości wyznaczone na podstawie danych statystycznych, charakteryzujące własności badanej cechy. Klasyfikacja

Bardziej szczegółowo

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA Statystyka opisowa PRZEDMIOT: PODSTAWY STATYSTYKI PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA Statystyka opisowa = procedury statystyczne stosowane do opisu właściwości próby (rzadziej populacji) Pojęcia:

Bardziej szczegółowo

Statystyczne metody analizy danych

Statystyczne metody analizy danych Statystyczne metody analizy danych Statystyka opisowa Wykład I-III Agnieszka Nowak - Brzezińska Definicje Statystyka (ang.statistics) - to nauka zajmująca się zbieraniem, prezentowaniem i analizowaniem

Bardziej szczegółowo

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne Wykład 4 Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym 2. Rozkłady próbkowe 3. Centralne twierdzenie graniczne Przybliżenie rozkładu dwumianowego rozkładem normalnym Niech Y ma rozkład

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów STATYSTYKA MATEMATYCZNA WYKŁAD 4 Testowanie hipotez Estymacja parametrów WSTĘP 1. Testowanie hipotez Błędy związane z testowaniem hipotez Etapy testowana hipotez Testowanie wielokrotne 2. Estymacja parametrów

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin. Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Zadania analityczne (1) Analiza przewiduje badanie podobieństw

Bardziej szczegółowo

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY SIGMA KWADRAT CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY Weryfikacja hipotez statystycznych Statystyka i demografia PROJEKT DOFINANSOWANY ZE ŚRODKÓW NARODOWEGO BANKU POLSKIEGO URZĄD STATYSTYCZNY

Bardziej szczegółowo

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1. Zadania ze statystyki cz. 8 I rok socjologii Zadanie 1. W potocznej opinii pokutuje przekonanie, że lepsi z matematyki są chłopcy niż dziewczęta. Chcąc zweryfikować tę opinię, przeprowadzono badanie w

Bardziej szczegółowo

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych Wnioskowanie statystyczne i weryfikacja hipotez statystycznych Wnioskowanie statystyczne Wnioskowanie statystyczne obejmuje następujące czynności: Sformułowanie hipotezy zerowej i hipotezy alternatywnej.

Bardziej szczegółowo

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE 1 W trakcie badania obliczono wartości średniej (15,4), mediany (13,6) oraz dominanty (10,0). Określ typ asymetrii rozkładu. 2 Wymień 3 cechy rozkładu Gauss

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA STATYSTYKA MATEMATYCZNA 1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5.

Bardziej szczegółowo

Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński Mikroekonometria 6 Mikołaj Czajkowski Wiktor Budziński Metody symulacyjne Monte Carlo Metoda Monte-Carlo Wykorzystanie mocy obliczeniowej komputerów, aby poznać charakterystyki zmiennych losowych poprzez

Bardziej szczegółowo

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8 Stanisław Cichocki Natalia Nehrebecka Zajęcia 8 1. Testy diagnostyczne 2. Testowanie prawidłowości formy funkcyjnej modelu 3. Testowanie normalności składników losowych 4. Testowanie stabilności parametrów

Bardziej szczegółowo

Analiza współzależności zjawisk

Analiza współzależności zjawisk Analiza współzależności zjawisk Informacje ogólne Jednostki tworzące zbiorowość statystyczną charakteryzowane są zazwyczaj za pomocą wielu cech zmiennych, które nierzadko pozostają ze sobą w pewnym związku.

Bardziej szczegółowo

Próbkowanie. Wykład 4 Próbkowanie i rozkłady próbkowe. Populacja a próba. Błędy w póbkowaniu, cd, Przykład 1 (Ochotnicy)

Próbkowanie. Wykład 4 Próbkowanie i rozkłady próbkowe. Populacja a próba. Błędy w póbkowaniu, cd, Przykład 1 (Ochotnicy) Wykład 4 Próbkowanie i rozkłady próbkowe µ = średnia w populacji, µ=ey, wartość oczekiwana zmiennej Y σ= odchylenie standardowe w populacji, σ =(Var Y) 1/2, pierwiastek kwadratowy wariancji zmiennej Y,

Bardziej szczegółowo

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych Statystyka matematyczna. Wykład IV. e-mail:e.kozlovski@pollub.pl Spis treści 1 2 3 Definicja 1 Hipoteza statystyczna jest to przypuszczenie dotyczące rozkładu (wielkości parametru lub rodzaju) zmiennej

Bardziej szczegółowo

ESTYMACJA PRZEDZIAŁOWA WYBRANYCH PARAMETRÓW

ESTYMACJA PRZEDZIAŁOWA WYBRANYCH PARAMETRÓW ESTYMACJA PRZEDZIAŁOWA WYBRANYCH PARAMETRÓW POPULACJI Szkic wykładu Wprowadzenie 1 Wprowadzenie 2 3 4 Przypomnienie dotychczasowych rozważań Przedziałem ufności nazywamy przedział losowy, o którym przypuszczamy

Bardziej szczegółowo

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej cechy. Średnia arytmetyczna suma wartości zmiennej wszystkich

Bardziej szczegółowo

Oszacowanie i rozkład t

Oszacowanie i rozkład t Oszacowanie i rozkład t Marcin Zajenkowski Marcin Zajenkowski () Oszacowanie i rozkład t 1 / 31 Oszacowanie 1 Na podstawie danych z próby szacuje się wiele wartości w populacji, np.: jakie jest poparcie

Bardziej szczegółowo

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy MIARY POŁOŻENIA Opisują średni lub typowy poziom wartości cechy. Określają tą wartość cechy, wokół której skupiają się wszystkie pozostałe wartości badanej cechy. Wśród nich można wyróżnić miary tendencji

Bardziej szczegółowo

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Stanisław Cichocki Natalia Nehrebecka. Wykład 7 Stanisław Cichocki Natalia Nehrebecka Wykład 7 1 1. Metoda Największej Wiarygodności MNW 2. Założenia MNW 3. Własności estymatorów MNW 4. Testowanie hipotez w MNW 2 1. Metoda Największej Wiarygodności

Bardziej szczegółowo

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4. Testowanie hipotez Niech X = (X 1... X n ) będzie próbą losową na przestrzeni X zaś P = {P θ θ Θ} rodziną rozkładów prawdopodobieństwa określonych na przestrzeni próby X. Definicja 1. Hipotezą zerową Θ

Bardziej szczegółowo

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Testowanie hipotez statystycznych. Wnioskowanie statystyczne Testowanie hipotez statystycznych Wnioskowanie statystyczne Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Hipotezy

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap Magdalena Frąszczak Wrocław, 21.02.2018r Tematyka Wykładów: Próba i populacja. Estymacja parametrów z wykorzystaniem metody

Bardziej szczegółowo

Jeśli powyższy opis nie jest zrozumiały należy powtórzyć zagadnienie standaryzacji zanim przejdzie się dalej!

Jeśli powyższy opis nie jest zrozumiały należy powtórzyć zagadnienie standaryzacji zanim przejdzie się dalej! CO POWINNIŚMY WIEDZIEĆ (I ROZUMIEĆ) ZABIERAJĄC SIĘ DO CZYTANIA 1. Jeśli mamy wynik (np. z kolokwium) podany w wartościach standaryzowanych (np.: z=0,8) to wiemy, że aby ustalić jaki był wynik przed standaryzacją

Bardziej szczegółowo

Metody probabilistyczne

Metody probabilistyczne Metody probabilistyczne 13. Elementy statystki matematycznej I Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 17.01.2019 1 / 30 Zagadnienia statystki Przeprowadzamy

Bardziej szczegółowo

Grupowanie materiału statystycznego

Grupowanie materiału statystycznego Grupowanie materiału statystycznego Materiał liczbowy, otrzymany w wyniku przeprowadzonej obserwacji statystycznej lub pomiaru, należy odpowiednio usystematyzować i pogrupować. Doskonale nadają się do

Bardziej szczegółowo

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński Mikroekonometria 5 Mikołaj Czajkowski Wiktor Budziński Zadanie 1. Wykorzystując dane me.medexp3.dta przygotuj model regresji kwantylowej 1. Przygotuj model regresji kwantylowej w którym logarytm wydatków

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela

Statystyka w pracy badawczej nauczyciela Statystyka w pracy badawczej nauczyciela Wykład 1: Terminologia badań statystycznych dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka (1) Statystyka to nauka zajmująca się zbieraniem, badaniem

Bardziej szczegółowo

Wykład 5: Statystyki opisowe (część 2)

Wykład 5: Statystyki opisowe (część 2) Wykład 5: Statystyki opisowe (część 2) Wprowadzenie Na poprzednim wykładzie wprowadzone zostały statystyki opisowe nazywane miarami położenia (średnia, mediana, kwartyle, minimum i maksimum, modalna oraz

Bardziej szczegółowo

STATYSTYKA MAŁYCH OBSZARÓW I. WPROWADZENIE

STATYSTYKA MAŁYCH OBSZARÓW I. WPROWADZENIE 1 STATYSTYKA MAŁYCH OBSZARÓW I. WPROWADZENIE 1.1 Podejścia w statystyce małych obszarów Randomizacyjne Wektor wartości badanej cechy traktowany jest jako nielosowy. Szacowana charakterystyka jest nielosowa

Bardziej szczegółowo

Statystyka Matematyczna Anna Janicka

Statystyka Matematyczna Anna Janicka Statystyka Matematyczna Anna Janicka wykład I, 22.02.2016 STATYSTYKA OPISOWA, cz. I Kwestie techniczne Kontakt: ajanicka@wne.uw.edu.pl Dyżur: strona z materiałami z przedmiotu: wne.uw.edu.pl/azylicz akson.sgh.waw.pl/~aborata

Bardziej szczegółowo

3. Wojewódzkie zróżnicowanie zatrudnienia w ochronie zdrowia w latach Opis danych statystycznych

3. Wojewódzkie zróżnicowanie zatrudnienia w ochronie zdrowia w latach Opis danych statystycznych 3. Wojewódzkie zróżnicowanie zatrudnienia w ochronie zdrowia w latach 1995-2005 3.1. Opis danych statystycznych Badanie zmian w potencjale opieki zdrowotnej można przeprowadzić w oparciu o dane dotyczące

Bardziej szczegółowo

Spis treści 3 SPIS TREŚCI

Spis treści 3 SPIS TREŚCI Spis treści 3 SPIS TREŚCI PRZEDMOWA... 1. WNIOSKOWANIE STATYSTYCZNE JAKO DYSCYPLINA MATEMATYCZNA... Metody statystyczne w analizie i prognozowaniu zjawisk ekonomicznych... Badania statystyczne podstawowe

Bardziej szczegółowo

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010 STATYSTYKA MATEMATYCZNA WYKŁAD 14 18 stycznia 2010 Model statystyczny ROZKŁAD DWUMIANOWY ( ) {0, 1,, n}, {P θ, θ (0, 1)}, n ustalone P θ {K = k} = ( ) n θ k (1 θ) n k, k k = 0, 1,, n Geneza: Rozkład Bernoulliego

Bardziej szczegółowo

Wydział Matematyki. Testy zgodności. Wykład 03

Wydział Matematyki. Testy zgodności. Wykład 03 Wydział Matematyki Testy zgodności Wykład 03 Testy zgodności W testach zgodności badamy postać rozkładu teoretycznego zmiennej losowej skokowej lub ciągłej. Weryfikują one stawiane przez badaczy hipotezy

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Bioinformatyka Wykład 6 Wrocław, 7 listopada 2011 Temat. Weryfikacja hipotez statystycznych dotyczących proporcji. Test dla proporcji. Niech X 1,..., X n będzie próbą statystyczną z 0-1. Oznaczmy odpowiednio

Bardziej szczegółowo

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35 Statystyka Wykład 7 Magdalena Alama-Bućko 16 kwietnia 2017 Magdalena Alama-Bućko Statystyka 16 kwietnia 2017 1 / 35 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia

Bardziej szczegółowo

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak Wzory dla szeregu szczegółowego: Wzory dla szeregu rozdzielczego punktowego: ->Średnia arytmetyczna ważona -> Średnia arytmetyczna (5) ->Średnia harmoniczna (1) ->Średnia harmoniczna (6) (2) ->Średnia

Bardziej szczegółowo

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski Literatura STATYSTYKA OPISOWA A. Aczel, Statystyka w Zarządzaniu, PWN, 2000 A. Obecny, Statystyka opisowa w Excelu dla szkół. Ćwiczenia praktyczne, Helion, 2002. A. Obecny, Statystyka matematyczna w Excelu

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Przykład. Producent pewnych detali twierdzi, że wadliwość jego produkcji nie przekracza 2%. Odbiorca pewnej partii tego produktu chce sprawdzić, czy może wierzyć producentowi.

Bardziej szczegółowo

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1 Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie

Bardziej szczegółowo

Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa.

Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa. Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa. Paweł Strawiński Uniwersytet Warszawski Wydział Nauk Ekonomicznych 16 stycznia 2006 Streszczenie W artykule analizowane są właściwości

Bardziej szczegółowo

Propensity score matching (PSM)

Propensity score matching (PSM) Propensity score matching (PSM) Jerzy Mycielski Uniwersytet Warszawski Maj 2010 Jerzy Mycielski (Uniwersytet Warszawski) Propensity score matching (PSM) Maj 2010 1 / 18 Badania ewaluacyjne Ocena wpływu

Bardziej szczegółowo

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych. Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl Hipotezy i Testy statystyczne Każde

Bardziej szczegółowo

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej 7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej Definicja 1 n-elementowa losowa próba prosta nazywamy ciag n niezależnych zmiennych losowych o jednakowych rozkładach

Bardziej szczegółowo

Natalia Neherbecka. 11 czerwca 2010

Natalia Neherbecka. 11 czerwca 2010 Natalia Neherbecka 11 czerwca 2010 1 1. Konsekwencje heteroskedastyczności i autokorelacji 2. Uogólniona MNK 3. Stosowalna Uogólniona MNK 4. Odporne macierze wariancji i kowariancji b 2 1. Konsekwencje

Bardziej szczegółowo

Miary statystyczne w badaniach pedagogicznych

Miary statystyczne w badaniach pedagogicznych Miary statystyczne w badaniach pedagogicznych Szeregi statystyczne Szczegółowy - gdzie materiał uporządkowany jest rosnąco lub malejąco Rozdzielczy - gdzie poszczególnym wariantom zmiennej przyporządkowane

Bardziej szczegółowo

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego Współczynnik korelacji opisuje siłę i kierunek związku. Jest miarą symetryczną. Im wyższa korelacja tym lepiej potrafimy

Bardziej szczegółowo

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć: Wprowadzenie Statystyka opisowa to dział statystyki zajmujący się metodami opisu danych statystycznych (np. środowiskowych) uzyskanych podczas badania statystycznego (np. badań terenowych, laboratoryjnych).

Bardziej szczegółowo

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) PODSTAWY STATYSTYKI. Teoria prawdopodobieństwa i elementy kombinatoryki. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5. Testy parametryczne (na

Bardziej szczegółowo

Statystyka. Opisowa analiza zjawisk masowych

Statystyka. Opisowa analiza zjawisk masowych Statystyka Opisowa analiza zjawisk masowych Typy rozkładów empirycznych jednej zmiennej Rozkładem empirycznym zmiennej nazywamy przyporządkowanie kolejnym wartościom zmiennej (x i ) odpowiadających im

Bardziej szczegółowo

POJĘCIA WSTĘPNE. STATYSTYKA - nauka traktująca o metodach ilościowych badania prawidłowości zjawisk (procesów) masowych.

POJĘCIA WSTĘPNE. STATYSTYKA - nauka traktująca o metodach ilościowych badania prawidłowości zjawisk (procesów) masowych. [1] POJĘCIA WSTĘPNE STATYSTYKA - nauka traktująca o metodach ilościowych badania prawidłowości zjawisk (procesów) masowych. BADANIE STATYSTYCZNE - ogół prac mających na celu poznanie struktury określonej

Bardziej szczegółowo

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych

Bardziej szczegółowo

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej LABORATORIUM 3 Przygotowanie pliku (nazwy zmiennych, export plików.xlsx, selekcja przypadków); Graficzna prezentacja danych: Histogramy (skategoryzowane) i 3-wymiarowe; Wykresy ramka wąsy; Wykresy powierzchniowe;

Bardziej szczegółowo

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie. SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:

Bardziej szczegółowo

Matematyka - Statystyka matematyczna Mathematical statistics 2, 2, 0, 0, 0

Matematyka - Statystyka matematyczna Mathematical statistics 2, 2, 0, 0, 0 Nazwa przedmiotu: Kierunek: Matematyka - Statystyka matematyczna Mathematical statistics Inżynieria materiałowa Materials Engineering Rodzaj przedmiotu: Poziom studiów: forma studiów: obowiązkowy studia

Bardziej szczegółowo

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Statystyka opisowa. Wykład I. Elementy statystyki opisowej Statystyka opisowa. Wykład I. e-mail:e.kozlovski@pollub.pl Spis treści Elementy statystyku opisowej 1 Elementy statystyku opisowej 2 3 Elementy statystyku opisowej Definicja Statystyka jest to nauka o

Bardziej szczegółowo

Porównanie dwóch rozkładów normalnych

Porównanie dwóch rozkładów normalnych Porównanie dwóch rozkładów normalnych Założenia: 1. X 1 N(µ 1, σ 2 1), X 2 N(µ 2, σ 2 2) 2. X 1, X 2 są niezależne Ocena µ 1 µ 2 oraz σ 2 1/σ 2 2. Próby: X 11,..., X 1n1 ; X 21,..., X 2n2 X 1, varx 1,

Bardziej szczegółowo

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0 Testowanie hipotez Każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy nazywamy hipotezą statystyczną. Hipoteza określająca jedynie wartości nieznanych parametrów liczbowych badanej cechy

Bardziej szczegółowo