dr Tomasz Jurkiewicz mgr Krzysztof Najman Katedra Statystyki Wydział Zarządzania Uniwersytet Gdański

Save this PDF as:
 WORD  PNG  TXT  JPG

Wielkość: px
Rozpocząć pokaz od strony:

Download "dr Tomasz Jurkiewicz mgr Krzysztof Najman Katedra Statystyki Wydział Zarządzania Uniwersytet Gdański K.Najman@panda.bg.univ.gda.pl"

Transkrypt

1 Propozycja zastosowania metody klasyfikacji k-średnich oraz sieci neuronowej typu SOM do poprawy efektywności estymacji dla małych domen w reprezentacyjnym badaniu małych i średnich przedsiębiorstw dr Tomasz Jurkiewicz mgr Krzysztof Najman Katedra Statystyki Wydział Zarządzania Uniwersytet Gdański SOPOT 2002

2 Streszczenie Problem zbyt małej liczby obserwacji w próbie, reprezentującej określoną domenę populacji, może być rozwiązany między innymi poprzez zastosowanie takich estymatorów, które do szacowania parametrów w określonej supopulacji (małym obszarze, domenie) mogłyby wykorzystać informacje o innych jednostkach w próbie, które pochodzą spoza określonej części populacji. Jedna z metod estymacji dla małych domen zwana estymacją syntetyczną zakłada, że rozkład w badanej małej domenie jest identyczny z rozkładem całej populacji. Założenie to pozostaje zazwyczaj niespełnione, zwłaszcza w przypadku specyficznych domen, co skutkuje dużymi błędami estymacji. Autorzy przedstawiają propozycję dwuetapowego procesu estymacji. W pierwszym etapie za pomocą sieci neuronowych typu SOM oraz za pomocą metody klasyfikacji k- średnich określa się podobieństwa jednostek należących do małej domeny do jednostek z pozostałej części próby. Drugim krokiem jest wykorzystanie w estymacji, za pomocą odpowiednio skonstruowanych wag, informacji tylko z tych domen, które są podobne do badanej małej domeny. Autorzy przedstawiają rezultaty zastosowania podanej procedury w analizie branży budowlanej na podstawie wyników reprezentacyjnego badania małych i średnich przedsiębiorstw. Podjęli także próbę oszacowania błędów tak zmodyfikowanej metody estymacji syntetycznej. Wprowadzenie Rozwój gospodarczy i społeczny powoduje wzrost zapotrzebowania na informacje statystyczne dotyczące nie tylko całych zbiorowości, ale także ich wydzielonych części. Jednym ze skutecznych narzędzi zaspokajania tych potrzeb okazały się badania reprezentacyjne. Ze względów organizacyjnych i finansowych nie są one jednak w stanie dostarczyć wiarygodnych danych dla bardziej szczegółowego podziału populacji na subpopulacje (domeny studiów). Zbyt mała liczba obserwacji pochodzących z określonej domeny może być przeszkodą w zastosowaniu niektórych technik wnioskowania statystycznego, albo też może prowadzić do dużych błędów estymacji (por. Bracha (1996)). Jedną z możliwych metod rozwiązania tego problemu jest skonstruowania takich estymatorów, które do szacowania parametrów w określonej subpopulacji (małym obszarze, domenie) byłyby w stanie wykorzystać informacje o innych jednostkach w próbie, które pochodzą spoza określonej części populacji lub też dodatkowych informacji spoza próby. Małą domenę (mały obszar) można zdefiniować jako dziedzinę studiów, dla której informacje są istotne z punktu widzenia użytkownika danych oraz informacji tych nie można uzyskać metodą bezpośredniej estymacji ze względu na zbyt małą liczebność próby, bądź też informacje uzyskane za pomocą metod pośrednich będą bardziej wiarygodne. Nie ma powodów, aby zakres statystyki małych obszarów miał być ograniczany do jednostek terytorialnych, z metodologicznego punktu widzenia nie ma różnicy czy za małą domenę będziemy uważać podpopulację pochodzącą z jednego terytorium czy też podpopulację wyodrębnioną w inny sposób. Głównym celem pracy jest próba określenia właściwości modyfikowanego estymatora syntetycznego. Równoległym celem badania jest empiryczna weryfikacja przydatności modyfikowanego estymatora syntetycznego w warunkach konkretnego badania próbkowego.

3 Estymatory małych domen Istotą estymacji pośredniej jest pożyczenie informacji dla wzmocnienia oszacowania w interesującej statystyka domenie. Źródłem dodatkowych danych w przypadku badania reprezentacyjnego mogą być: inne domeny w próbie; informacja o liczebnościach poszczególnych warstw i domen w badanej populacji; informacja o wartościach dodatkowej cechy w próbie, silnie związanej z cechą badaną i co najmniej równie wiarygodnej; informacja o wartościach dodatkowej cechy w badanej populacji; inne dostępne informacje, np. dane z badań z innych okresów. Bezpośrednim estymatorem nieznanego parametru ΘY d w małej domenie jest estymator Horvitza-Thompsona, zwany estymatorem ekspansyjnym. Wykorzystuje on wyłącznie dane o wylosowanych jednostkach w próbie należących do małej domeny. Estymator HT jest wprawdzie nieobciążony, ale z uwagi na małą liczebność próby jego wariancja jest zazwyczaj wysoka. Dla parametru proporcji estymator będzie miał postać: k d HT p d = (1) nd gdzie k d i n d są odpowiednio liczebnością elementów wyróżnionych w domenie d i liczebnością małej domeny d. Estymacja syntetyczna stanowi jedną z pierwszych propozycji rozwiązania głównego problemu estymacji dla małych domen, jakim są niewystarczająca liczebność próby. W tym celu przyjmuje się pewne założenia odnośnie do badanej zbiorowości, aby do oszacowań dla domeny móc wykorzystać informacje z całej próby. Podstawowym założeniem w konstrukcji estymatorów syntetycznych jest podobieństwo struktury populacji do struktury badanej domeny czy domen. Może być ono przy tym ograniczone w pewnych przypadkach do podobieństwa niektórych tylko parametrów w populacji i domenie. Przykładowo podstawą konstrukcji estymatora syntetycznego zwykłego jest założenie, że średnie badanej cechy w populacji i domenie nie różnią się istotnie. Dla proporcji postać estymatora przedstawia statystyka: k syn p d = (2) n gdzie k i n są odpowiednio liczebnością elementów wyróżnionych w próbie i liczebnością całej próby. Stosując estymację syntetyczną należy zwrócić baczną uwagę na problem poprawności przyjętego modelu. Im bardziej założenia będące podstawą estymacji odbiegają od rzeczywistości, tym większe jest obciążenie estymatorów. Należy przy tym pamiętać, że obciążenie to po pierwsze może być znaczne, a po drugie nie jest ono w żaden sposób uwzględniane przez wzory na średnie błędy kwadratowe i estymatory błędów.

4 Modyfikowany Estymator Syntetyczny Założenie o zgodności struktur populacji i domeny pozostaje zazwyczaj niespełnione, zwłaszcza w przypadku specyficznych domen, co skutkuje dużymi błędami estymacji. Rozwiązaniem problemu może być taka modyfikacja estymatora, aby do wzmocnienia oszacowania w małej domenie wykorzystywane były informacje od jednostek czy też domen podobnych do badanej. Proponowana procedura estymacji przebiega w dwóch etapach. Pierwszym krokiem jest ustalenie, które jednostki czy też domeny są podobne do badanej. W zależności od stopnia podobieństwa czy też odległości ustalane są wagi dla dodatkowej informacji. I tak dane z jednostek podobnych będą miały stosunkowo wysoką wartość wagi, natomiast dane z jednostek odległych odpowiednio mniejszą lub nie będą w ogóle uwzględniane. Postać estymatora proporcji można zapisać: MES p d kd + = n + d n ~ d i= n yiwi 1 (3) gdzie w i wagi dla jednostek spoza małej domeny y i wartości badanej cechy zero-jedynkowej. Ustalenie podobieństwa badanej domeny do innych domen w populacji może zostać przeprowadzone między innymi za pomocą metod analizy wielowymiarowej. W pracy posłużono się metodą grupowania k-średnich. Jako alternatywną metodę klasyfikacji wykorzystano sieć neuronową typu Self Organizing Map (SOM), a następnie na uzyskanej mapie neuronów przeprowadzono grupowanie metodą k-średnich. Liczbę klas grupowania ustalono wykorzystując jako kryterium wartość indeksu Davies-Boulding (clustering evaluation index) postaci: DB c k = = 1 ~ d i= 1 w k; c Si + S j k i= j= i+ M max 1; 1 ij c gdzie: S i odchylenie standardowe w i-tej klasie; M ij odległość między klasami; c liczba klas. Indeks DB opiera się na ilorazie wariancji wewnątrz klas i odległości między klasami. Ustalenie optymalnej liczby klas polega na policzeniu wartości indeksu dla wszystkich wariantów ilości klas i wybraniu wariantu z minimalną wartością indeksu DB. Przy ustalaniu wag dla jednostek spoza małej domeny przyjęto założenie, iż waga powinna być wprost proporcjonalna do odsetka jednostek z małej domeny, które znalazły się w danej klasie. Wagę można zapisać jako: ndi nd wi = ndi max i nd gdzie n di liczba jednostek należących do domeny d które znalazły się w klasie i, γ współczynnik normujący z przedziału (0,1) określający maksymalną wartość wagi. γ i (4) (5)

5 Przykładowo, jeżeli w i-tej klasie znalazło się dwukrotnie więcej jednostek niż w j-tej, to wszystkie jednostki spoza małej domeny z i-tej klasy będą miały taką samą wagę i będzie to waga dwukrotnie wyższa niż jednostek z j-tej klasy. Warto zwrócić uwagę na jedną z zalet estymatora MES, którą jest możliwość wykorzystania informacji pochodzących spoza badania. Można mianowicie przy ustalaniu podobieństwa między domenami wykorzystywać dane z zupełnie innych, np. wcześniejszych badań bądź też dostępne informacje o populacji. W takim przypadku możliwej jest także wyznaczenie oszacowań parametrów dla domeny, która nie jest reprezentowana w próbie. Ocena własności estymatora MES Do oceny estymatora MES wykorzystano metodę bootstrapową. W kolejnych powtórzeniach losowano niezależnie 224 jednostki, traktując jako populację jednostki, które znalazły się pierwotnie w próbie. Wykonanych zostało 1000 symulacji. Dla każdej symulacji prowadzono grupowanie metodą k-średnich dla 5 klas i 20 iteracji oraz grupowanie za pomocą sieci neuronowej SOM przy założeniu sieci 12x12 z funkcją sąsiedztwa bubble i liczbą skupisk ustalaną z przedziału (2, 9) na podstawie indeksu DB. Powyższe założenia były optymalne dla danych z pierwotnej próby. Wyszukiwanie optymalnych parametrów grupowania dla każdej próby bootstrapowej mogłoby poprawić ostateczne wyniki estymacji, jednakże ze względu na długi czas pojedynczej symulacji zdecydowano się zachować jednolite parametry we wszystkich symulacjach. Aby ocenić własności estymatorów parametru ΘY d posługiwano się w niniejszym badaniu średnim obciążeniem estymatora we wszystkich s eksperymentach obliczanym według następującej formuły: s ( Pf, i ΘYd ) i= 1 BIAS f = s 100 (6) gdzie: P f,i jest wartością f-tego estymatora w i-tym eksperymencie; ΘY d jest rzeczywistą wartością proporcji cechy Y w domenie d. Drugim elementem oceny był pierwiastek średniego błędu kwadratowego, obliczany według wzoru: s 2 ( Pf, i ΘYd ) i= 1 sqr( MSE f ) = s 100 (7) Badaną charakterystyką były wskaźniki struktury, dlatego też obciążenie i średni błąd wyrażono dla przejrzystości w procentach. Po eksperymencie obliczano także wartość względnego momentu trzeciego, czyli miary skośności rozkładu uzyskanych wartości oszacowań oraz czwartego momentu względnego, będącego miarą spłaszczenia rozkładu.

6 Badanie reprezentacyjne małych przedsiębiorstw w województwie pomorskim Badanie sektora małych przedsiębiorstw w województwie pomorskim i lubelskim przeprowadzone zostało przez międzynarodowy zespół naukowców 1. Populację badania stanowiły małe przedsiębiorstwa w województwie pomorskim, liczące od 10 do 49 zatrudnionych zarejestrowane w rejestrze REGON na dzień 30 czerwca Z populacji zostały wykluczone niektóre branże, pominięto sekcję E energetykę oraz administrację publiczną, ochronę zdrowia i edukację. Liczebność próby dla województwa pomorskiego określono na poziomie 237 przedsiębiorstw, to jest ok. 5% populacji badania. Skonstruowana dla potrzeb badania ankieta obejmowała 58 pytań i składała się z sześciu działów. Otrzymana w wyniku przeprowadzonych wywiadów próba liczyła 239 jednostek. Dla potrzeb niniejszej pracy odrzucono z próby 15 jednostek, które nie spełniały niektórych postawionych przy projektowaniu badania kryteriów. Odrzucono firmy, które według podanego numeru REGON pochodziły z innych niż wybrane kategorii działalności gospodarczej oraz firmy, w ankietach których znajdowało się dużo braków odpowiedzi. Sektor budownictwa jest jednym z najistotniejszych działów każdej gospodarki. Bardzo często wyniki finansowe i wielkość produkcji tego sektora traktowane są jako barometr gospodarki. W publikacjach dotyczących sytuacji gospodarczej obok zmian wielkości produkcji dla całej gospodarki podawane są także zmiany wielkości produkcji budowlano-montażowej. W badanej grupie 224 przedsiębiorstw w województwie pomorskim 19 firm (8,5%) należało do sektora budownictwa (kod EKD zaczynający się od 45). Liczebność ta jest dalece niewystarczająca do wiarygodnego opisu sektora budownictwa przy pomocy estymatorów bezpośrednich. Wynika to z potencjalnie bardzo dużej wartość przeciętnego błędu oszacowania, który osiągać może nawet 11,5%. A zatem opis tego sektora powinien być oparty o inne, dające bardziej wiarygodne wyniki, metody estymacji. Jedną z takich możliwości jest uznanie tego działu jako małej domeny i zastosowanie metod estymacji dla małych domen. Wyniki badania W tablicy 2 prezentowane są wartości pierwiastka z MSE dla oszacowań przykładowych sześciu zmiennych: odsetka firm powstałych po 1994 roku; firm upatrujących swojej przewagi nad konkurencją w atrakcyjności produktów; firm upatrujących swojej przewagi nad konkurencją w wysokiej jakości; firm, które poniosły wydatki na inwestycje rzeczowe w 1999 r.; firm upatrujących swoich szans w wysokich kwalifikacjach pracowników; firm upatrujących swoich szans w dobrej znajomości rynku. Dwie ostatnie zmienne charakteryzowały się dość zbliżonym poziomem w populacji i domenie. Pierwsze cztery zmienne charakteryzowały się dość dużą różnicą między wartością w domenie i populacji sięgającą dla drugiej cechy ponad 20 punktów procentowych. 1 W skład zespołu badawczego wchodzili pracownicy Katedry Statystyki Uniwersytetu Gdańskiego dr hab. A. Balicki, dr hab. M. Szreder, mgr T. Jurkiewicz, Politechniki Gdańskiej dr hab. F. Bławat, dr hab. J. Ossowski, mgr K. Zięba i partnerzy zagraniczni z Kingston University (W. Brytania) i Panteion University (Ateny, Grecja). Część badania, obejmującą małe przedsiębiorstwa w województwie pomorskim, sfinansowana została ze środków programu Komisji Europejskiej Phare ACE Programme 1997 contract no. P R oraz środków przyznanych na badanie własne BW autorowi.

7 Można zauważyć, że o ile wariancja estymatora MES (tablica 1) jest w stosunku do estymatora HT sporo niższa, to na skutek obciążenia średni błąd kwadratowy jest przeważnie większy. Jedynie dla oszacowań dwóch ostatnich zmiennych estymator MES okazuje się efektywniejszy, ale tylko przy parametrze γ mniejszym niż 0,5. Tablica 1. Wariancja estymatorów (pierwiastek) wykorzystujących sieci neuronowe typu SOM w zależności od maksymalnej wagi γ MESp 1 MES p 2 MES p 3 MES p 4 MES p 5 MES p 6 1 3,89% 5,06% 5,18% 5,98% 5,24% 4,88% 0,5 3,99% 4,90% 5,28% 5,78% 5,19% 4,86% 0,3 4,28% 5,07% 5,65% 5,86% 5,40% 5,06% 0,2 4,68% 5,49% 6,18% 6,17% 5,79% 5,41% 0,1 5,60% 6,66% 7,48% 7,22% 6,89% 6,33% HT 8,59% 10,64% 11,72% 11,50% 10,83% 9,73% Tablica 2. Średni błąd kwadratowy (pierwiastek) estymatorów wykorzystujących sieci neuronowe typu SOM w zależności od maksymalnej wagi γ MESp 1 MES p 2 MES p 3 MES p 4 MES p 5 MES p ,73% 15,81% 21,29% 13,30% 11,05% 11,40% 0,5 15,74% 13,95% 18,94% 11,86% 9,84% 10,19% 0,3 13,74% 12,10% 16,56% 10,40% 8,62% 8,96% 0,2 11,89% 10,42% 14,35% 9,04% 7,49% 7,80% 0,1 8,55% 7,41% 10,32% 6,53% 5,42% 5,68% HT * 7,5% 9,0% 8,2% 9,5% 9,4% 9,8% syn * 12,4% 12,2% 20,6% 17,0% 3,3% 3,8% * wartości przybliżone Tablica 3. Średni błąd kwadratowy (pierwiastek) estymatorów wykorzystujących metodę grupowania k-średnich w zależności od maksymalnej wagi γ MESp 1 MES p 2 MES p 3 MES p 4 MES p 5 MES p ,12% 14,11% 24,22% 14,12% 10,83% 11,28% 0,5 15,47% 12,76% 21,87% 12,78% 9,82% 10,21% 0,3 13,74% 11,34% 19,40% 11,35% 8,76% 9,08% 0,2 12,07% 9,98% 17,03% 9,98% 7,73% 7,99% 0,1 8,90% 7,37% 12,53% 7,35% 5,74% 5,91% Tablica 4. Różnica błędów estymatorów z wykorzystaniem SOM i estymatorów z wykorzystaniem k-średnich γ MESp 1 MES p 2 MES p 3 MES p 4 MES p 5 MES p 6 1 0,61% 1,70% -2,93% -0,82% 0,22% 0,12% 0,5 0,27% 1,18% -2,93% -0,91% 0,02% -0,02% 0,3 0,00% 0,76% -2,84% -0,95% -0,13% -0,13% 0,2-0,18% 0,44% -2,68% -0,94% -0,23% -0,19% 0,1-0,35% 0,04% -2,21% -0,82% -0,32% -0,23%

8 Porównując wyniki uzyskane przy różnych metodach grupowania można stwierdzić, że uzyskane oszacowania nie różnią się zbyt mocno (patrz wykres 1). Najwyższa zaobserwowana różnica wynosi 4,8 punktu procentowego dla piątej zmiennej przy parametrze γ = 1. Efektywność estymatorów także pozostaje na zbliżonym poziomie, aczkolwiek w przypadku trzeciej zmiennej metoda grupowania k-średnich okazała się zdecydowanie mniej efektywna. Wykres 1. Wartości estymatorów wykorzystujących sieci neuronowe typu SOM i metodę grupowania k-średnich w zależności od maksymalnej wagi 80% 70% 60% 50% 40% 30% 20% 10% 0% p KS(0,1) KS(0,2) KS(0,3) KS(0,5) KS(1) p SOM(0,1) SOM(0,2) SOM(0,3) SOM(0,5) SOM(1) Na wykresie 2 przedstawiono przykłady uzyskanych rozkładów estymatorów MES dla różnych wartości szacowanego parametru p d. Rozkłady estymatorów charakteryzują się w miarę normalnym spłaszczeniem, α 4 w większości przypadków był bliski zeru i zdecydowanej większości dodatni, co oznacza, że rozkłady estymatorów są bardziej wysmukłe w porównaniu do rozkładu normalnego. Dla najbardziej spłaszczonego rozkładu wartość α 4 wynosiła ok. 0,2. Uzyskane rozkłady były także w przybliżeniu symetryczne, przy czym wielkość asymetrii rosła wraz ze zmniejszaniem parametru γ. Ponadto przy stosunkowo dużych wartościach parametru γ rozkłady można było uznać za normalne (test χ 2 przy podziale na 18 klas). Pewne zniekształcenia widoczne na wykresie wynikają z niedużej ilości powtórzeń symulacji.

9 Wykres 2. Przykładowe rozkłady modyfikowanych estymatorów syntetycznych oraz aproksymacja rozkładu normalnego p d 0,3 p d 0,5 p d 0,05

10 Wnioski Zastosowanie modyfikowanego estymatora syntetycznego MES wydaje się być dobrą alternatywą do szacowania parametrów rozkładów w małych domenach, w szczególności w tych domenach, które dość mocno różnią się od populacji. Charakteryzuje się on bowiem stosunkowo niską wariancją, jego obciążenie może być wprawdzie znaczne, jednak w zdecydowanej większości przypadków mniejsze niż estymatora syntetycznego. Rozkład estymatora w wielu przypadkach można uznać za normalny bądź bliski normalnemu. Wybór metody grupowania wydaje się mieć drugorzędne znaczenie, wprawdzie zaobserwować można różnice w efektywności, jednak wartości oszacowań parametrów są na zbliżonym poziomie. Ważnym elementem jest ustalenie sposobu ważenia informacji dodatkowych. Zmiana parametru γ, ustalającego maksymalną wartość wagi powodowała dość istotne zmiany zarówno oszacowań parametrów jak i efektywności estymatorów. W pracy przyjęto wagi uzależnione od ilości wystąpień jednostek z małej domeny w klasie. Wydaje się, że lepszym rozwiązaniem byłoby ustalanie wagi dla każdej obserwacji pochodzącej spoza małej domeny indywidualnie na podstawie odległości danej jednostki od jednostek należących do małej domeny. Metoda ta wymaga jednak obecności w próbie odpowiedniej ilości jednostek z małej domeny.

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Statystyka matematyczna dla leśników

Statystyka matematyczna dla leśników Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 03/04 Wykład 5 Testy statystyczne Ogólne zasady testowania hipotez statystycznych, rodzaje

Bardziej szczegółowo

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd. Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru

Bardziej szczegółowo

Badania sondażowe. Schematy losowania. Agnieszka Zięba. Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa

Badania sondażowe. Schematy losowania. Agnieszka Zięba. Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa Badania sondażowe Schematy losowania Agnieszka Zięba Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa 1 Próba jako miniatura populacji CELOWA subiektywny dobór jednostek

Bardziej szczegółowo

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część populacji, którą podaje się badaniu statystycznemu

Bardziej szczegółowo

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu Wykład 11-12 Centralne twierdzenie graniczne Statystyka matematyczna: Estymacja parametrów rozkładu Centralne twierdzenie graniczne (CTG) (Central Limit Theorem - CLT) Centralne twierdzenie graniczne (Lindenberga-Levy'ego)

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych Agenda Instytut Matematyki Politechniki Łódzkiej 2 stycznia 2012 Agenda Agenda 1 Wprowadzenie Agenda 2 Hipoteza oraz błędy I i II rodzaju Hipoteza alternatywna Statystyka testowa Zbiór krytyczny Poziom

Bardziej szczegółowo

Statystyka Małych Obszarów w badaniach próbkowych

Statystyka Małych Obszarów w badaniach próbkowych Statystyka Małych Obszarów w badaniach próbkowych Łukasz Wawrowski l.wawrowski@stat.gov.pl Urząd Statystyczny w Poznaniu SKN Estymator, UEP 5.03.2012 1 Wprowadzenie Podstawowe pojęcia Badanie 2 Estymator

Bardziej szczegółowo

Pobieranie prób i rozkład z próby

Pobieranie prób i rozkład z próby Pobieranie prób i rozkład z próby Marcin Zajenkowski Marcin Zajenkowski () Pobieranie prób i rozkład z próby 1 / 15 Populacja i próba Populacja dowolnie określony zespół przedmiotów, obserwacji, osób itp.

Bardziej szczegółowo

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl

Bardziej szczegółowo

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd. Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Wnioskowanie statystyczne dla zmiennych numerycznych Porównywanie dwóch średnich Boot-strapping Analiza

Bardziej szczegółowo

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zad. 1 Średnia ocen z semestru letniego w populacji studentów socjologii w roku akademickim 2011/2012

Bardziej szczegółowo

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI Test zgodności i analiza wariancji Analiza wariancji Test zgodności Chi-kwadrat Sprawdza się za jego pomocą ZGODNOŚĆ ROZKŁADU EMPIRYCZNEGO Z PRÓBY Z ROZKŁADEM HIPOTETYCZNYM

Bardziej szczegółowo

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów: Na dzisiejszym wykładzie omówimy najważniejsze charakterystyki liczbowe występujące w statystyce opisowej. Poszczególne wzory będziemy podawać w miarę potrzeby w trzech postaciach: dla szeregu szczegółowego,

Bardziej szczegółowo

Kolokwium ze statystyki matematycznej

Kolokwium ze statystyki matematycznej Kolokwium ze statystyki matematycznej 28.05.2011 Zadanie 1 Niech X będzie zmienną losową z rozkładu o gęstości dla, gdzie 0 jest nieznanym parametrem. Na podstawie pojedynczej obserwacji weryfikujemy hipotezę

Bardziej szczegółowo

166 Wstęp do statystyki matematycznej

166 Wstęp do statystyki matematycznej 166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej

Bardziej szczegółowo

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH RÓWNOWAŻNOŚĆ METOD BADAWCZYCH Piotr Konieczka Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska Równoważność metod??? 2 Zgodność wyników analitycznych otrzymanych z wykorzystaniem porównywanych

Bardziej szczegółowo

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów

Bardziej szczegółowo

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1. tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1

Bardziej szczegółowo

IV WYKŁAD STATYSTYKA. 26/03/2014 B8 sala 0.10B Godz. 15:15

IV WYKŁAD STATYSTYKA. 26/03/2014 B8 sala 0.10B Godz. 15:15 IV WYKŁAD STATYSTYKA 26/03/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 4 Populacja generalna, próba, losowanie próby, estymatory Statystyka (populacja generalna, populacja próbna, próbka mała, próbka duża, reprezentatywność,

Bardziej szczegółowo

Statystyczne metody analizy danych

Statystyczne metody analizy danych Statystyczne metody analizy danych Statystyka opisowa Wykład I-III Agnieszka Nowak - Brzezińska Definicje Statystyka (ang.statistics) - to nauka zajmująca się zbieraniem, prezentowaniem i analizowaniem

Bardziej szczegółowo

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34 Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34 Def. Charakterystyki liczbowe to wielkości wyznaczone na podstawie danych statystycznych, charakteryzujące własności badanej cechy. Klasyfikacja

Bardziej szczegółowo

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi Piotr Konieczka Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska D syst D śr m 1 3 5 2 4 6 śr j D 1

Bardziej szczegółowo

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY SIGMA KWADRAT CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY Weryfikacja hipotez statystycznych Statystyka i demografia PROJEKT DOFINANSOWANY ZE ŚRODKÓW NARODOWEGO BANKU POLSKIEGO URZĄD STATYSTYCZNY

Bardziej szczegółowo

Analiza współzależności zjawisk

Analiza współzależności zjawisk Analiza współzależności zjawisk Informacje ogólne Jednostki tworzące zbiorowość statystyczną charakteryzowane są zazwyczaj za pomocą wielu cech zmiennych, które nierzadko pozostają ze sobą w pewnym związku.

Bardziej szczegółowo

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych Wnioskowanie statystyczne i weryfikacja hipotez statystycznych Wnioskowanie statystyczne Wnioskowanie statystyczne obejmuje następujące czynności: Sformułowanie hipotezy zerowej i hipotezy alternatywnej.

Bardziej szczegółowo

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej cechy. Średnia arytmetyczna suma wartości zmiennej wszystkich

Bardziej szczegółowo

Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński Mikroekonometria 6 Mikołaj Czajkowski Wiktor Budziński Metody symulacyjne Monte Carlo Metoda Monte-Carlo Wykorzystanie mocy obliczeniowej komputerów, aby poznać charakterystyki zmiennych losowych poprzez

Bardziej szczegółowo

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8 Stanisław Cichocki Natalia Nehrebecka Zajęcia 8 1. Testy diagnostyczne 2. Testowanie prawidłowości formy funkcyjnej modelu 3. Testowanie normalności składników losowych 4. Testowanie stabilności parametrów

Bardziej szczegółowo

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy MIARY POŁOŻENIA Opisują średni lub typowy poziom wartości cechy. Określają tą wartość cechy, wokół której skupiają się wszystkie pozostałe wartości badanej cechy. Wśród nich można wyróżnić miary tendencji

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Bioinformatyka Wykład 4 Wrocław, 17 października 2011 Temat. Weryfikacja hipotez statystycznych dotyczących wartości oczekiwanej w dwóch populacjach o rozkładach normalnych. Model 3. Porównanie średnich

Bardziej szczegółowo

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne Wykład 4 Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym 2. Rozkłady próbkowe 3. Centralne twierdzenie graniczne Przybliżenie rozkładu dwumianowego rozkładem normalnym Niech Y ma rozkład

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin. Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Zadania analityczne (1) Analiza przewiduje badanie podobieństw

Bardziej szczegółowo

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4. Testowanie hipotez Niech X = (X 1... X n ) będzie próbą losową na przestrzeni X zaś P = {P θ θ Θ} rodziną rozkładów prawdopodobieństwa określonych na przestrzeni próby X. Definicja 1. Hipotezą zerową Θ

Bardziej szczegółowo

ESTYMACJA PRZEDZIAŁOWA WYBRANYCH PARAMETRÓW

ESTYMACJA PRZEDZIAŁOWA WYBRANYCH PARAMETRÓW ESTYMACJA PRZEDZIAŁOWA WYBRANYCH PARAMETRÓW POPULACJI Szkic wykładu Wprowadzenie 1 Wprowadzenie 2 3 4 Przypomnienie dotychczasowych rozważań Przedziałem ufności nazywamy przedział losowy, o którym przypuszczamy

Bardziej szczegółowo

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa Weryfikacja hipotez statystycznych Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o prawdziwości lub fałszywości którego wnioskuje się na podstawie

Bardziej szczegółowo

Oszacowanie i rozkład t

Oszacowanie i rozkład t Oszacowanie i rozkład t Marcin Zajenkowski Marcin Zajenkowski () Oszacowanie i rozkład t 1 / 31 Oszacowanie 1 Na podstawie danych z próby szacuje się wiele wartości w populacji, np.: jakie jest poparcie

Bardziej szczegółowo

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć: Wprowadzenie Statystyka opisowa to dział statystyki zajmujący się metodami opisu danych statystycznych (np. środowiskowych) uzyskanych podczas badania statystycznego (np. badań terenowych, laboratoryjnych).

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

Statystyka Matematyczna Anna Janicka

Statystyka Matematyczna Anna Janicka Statystyka Matematyczna Anna Janicka wykład I, 22.02.2016 STATYSTYKA OPISOWA, cz. I Kwestie techniczne Kontakt: ajanicka@wne.uw.edu.pl Dyżur: strona z materiałami z przedmiotu: wne.uw.edu.pl/azylicz akson.sgh.waw.pl/~aborata

Bardziej szczegółowo

Spis treści 3 SPIS TREŚCI

Spis treści 3 SPIS TREŚCI Spis treści 3 SPIS TREŚCI PRZEDMOWA... 1. WNIOSKOWANIE STATYSTYCZNE JAKO DYSCYPLINA MATEMATYCZNA... Metody statystyczne w analizie i prognozowaniu zjawisk ekonomicznych... Badania statystyczne podstawowe

Bardziej szczegółowo

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Testowanie hipotez statystycznych. Wnioskowanie statystyczne Testowanie hipotez statystycznych Wnioskowanie statystyczne Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Hipotezy

Bardziej szczegółowo

Próbkowanie. Wykład 4 Próbkowanie i rozkłady próbkowe. Populacja a próba. Błędy w póbkowaniu, cd, Przykład 1 (Ochotnicy)

Próbkowanie. Wykład 4 Próbkowanie i rozkłady próbkowe. Populacja a próba. Błędy w póbkowaniu, cd, Przykład 1 (Ochotnicy) Wykład 4 Próbkowanie i rozkłady próbkowe µ = średnia w populacji, µ=ey, wartość oczekiwana zmiennej Y σ= odchylenie standardowe w populacji, σ =(Var Y) 1/2, pierwiastek kwadratowy wariancji zmiennej Y,

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010 STATYSTYKA MATEMATYCZNA WYKŁAD 14 18 stycznia 2010 Model statystyczny ROZKŁAD DWUMIANOWY ( ) {0, 1,, n}, {P θ, θ (0, 1)}, n ustalone P θ {K = k} = ( ) n θ k (1 θ) n k, k k = 0, 1,, n Geneza: Rozkład Bernoulliego

Bardziej szczegółowo

Miary statystyczne w badaniach pedagogicznych

Miary statystyczne w badaniach pedagogicznych Miary statystyczne w badaniach pedagogicznych Szeregi statystyczne Szczegółowy - gdzie materiał uporządkowany jest rosnąco lub malejąco Rozdzielczy - gdzie poszczególnym wariantom zmiennej przyporządkowane

Bardziej szczegółowo

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak Wzory dla szeregu szczegółowego: Wzory dla szeregu rozdzielczego punktowego: ->Średnia arytmetyczna ważona -> Średnia arytmetyczna (5) ->Średnia harmoniczna (1) ->Średnia harmoniczna (6) (2) ->Średnia

Bardziej szczegółowo

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych. Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl Hipotezy i Testy statystyczne Każde

Bardziej szczegółowo

Statystyka. Opisowa analiza zjawisk masowych

Statystyka. Opisowa analiza zjawisk masowych Statystyka Opisowa analiza zjawisk masowych Typy rozkładów empirycznych jednej zmiennej Rozkładem empirycznym zmiennej nazywamy przyporządkowanie kolejnym wartościom zmiennej (x i ) odpowiadających im

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Przykład. Producent pewnych detali twierdzi, że wadliwość jego produkcji nie przekracza 2%. Odbiorca pewnej partii tego produktu chce sprawdzić, czy może wierzyć producentowi.

Bardziej szczegółowo

3. Wojewódzkie zróżnicowanie zatrudnienia w ochronie zdrowia w latach Opis danych statystycznych

3. Wojewódzkie zróżnicowanie zatrudnienia w ochronie zdrowia w latach Opis danych statystycznych 3. Wojewódzkie zróżnicowanie zatrudnienia w ochronie zdrowia w latach 1995-2005 3.1. Opis danych statystycznych Badanie zmian w potencjale opieki zdrowotnej można przeprowadzić w oparciu o dane dotyczące

Bardziej szczegółowo

Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa.

Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa. Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa. Paweł Strawiński Uniwersytet Warszawski Wydział Nauk Ekonomicznych 16 stycznia 2006 Streszczenie W artykule analizowane są właściwości

Bardziej szczegółowo

Dokładne i graniczne rozkłady statystyk z próby

Dokładne i graniczne rozkłady statystyk z próby Dokładne i graniczne rozkłady statystyk z próby Przypomnijmy Populacja Próba Wielkość N n Średnia Wariancja Odchylenie standardowe 4.2 Rozkład statystyki Mówimy, że rozkład statystyki (1) jest dokładny,

Bardziej szczegółowo

Wydział Matematyki. Testy zgodności. Wykład 03

Wydział Matematyki. Testy zgodności. Wykład 03 Wydział Matematyki Testy zgodności Wykład 03 Testy zgodności W testach zgodności badamy postać rozkładu teoretycznego zmiennej losowej skokowej lub ciągłej. Weryfikują one stawiane przez badaczy hipotezy

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela

Statystyka w pracy badawczej nauczyciela Statystyka w pracy badawczej nauczyciela Wykład 1: Terminologia badań statystycznych dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka (1) Statystyka to nauka zajmująca się zbieraniem, badaniem

Bardziej szczegółowo

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Statystyka opisowa. Wykład I. Elementy statystyki opisowej Statystyka opisowa. Wykład I. e-mail:e.kozlovski@pollub.pl Spis treści Elementy statystyku opisowej 1 Elementy statystyku opisowej 2 3 Elementy statystyku opisowej Definicja Statystyka jest to nauka o

Bardziej szczegółowo

METODOLOGIA BADAŃ HUMANISTYCZNYCH METODYKA NAUCZANIA JĘZYKA OBCEGO CZ.II

METODOLOGIA BADAŃ HUMANISTYCZNYCH METODYKA NAUCZANIA JĘZYKA OBCEGO CZ.II METODOLOGIA BADAŃ HUMANISTYCZNYCH METODYKA NAUCZANIA JĘZYKA OBCEGO CZ.II Podział zmiennych Zmienne zależne zmienne, które są przedmiotem badania, których związki z innymi zmiennymi chcemy określić Zmienne

Bardziej szczegółowo

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0 Testowanie hipotez Każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy nazywamy hipotezą statystyczną. Hipoteza określająca jedynie wartości nieznanych parametrów liczbowych badanej cechy

Bardziej szczegółowo

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

POJĘCIA WSTĘPNE. STATYSTYKA - nauka traktująca o metodach ilościowych badania prawidłowości zjawisk (procesów) masowych.

POJĘCIA WSTĘPNE. STATYSTYKA - nauka traktująca o metodach ilościowych badania prawidłowości zjawisk (procesów) masowych. [1] POJĘCIA WSTĘPNE STATYSTYKA - nauka traktująca o metodach ilościowych badania prawidłowości zjawisk (procesów) masowych. BADANIE STATYSTYCZNE - ogół prac mających na celu poznanie struktury określonej

Bardziej szczegółowo

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych

Bardziej szczegółowo

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) PODSTAWY STATYSTYKI. Teoria prawdopodobieństwa i elementy kombinatoryki. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5. Testy parametryczne (na

Bardziej szczegółowo

Wykład 5: Statystyki opisowe (część 2)

Wykład 5: Statystyki opisowe (część 2) Wykład 5: Statystyki opisowe (część 2) Wprowadzenie Na poprzednim wykładzie wprowadzone zostały statystyki opisowe nazywane miarami położenia (średnia, mediana, kwartyle, minimum i maksimum, modalna oraz

Bardziej szczegółowo

Testowanie hipotez statystycznych cd.

Testowanie hipotez statystycznych cd. Temat Testowanie hipotez statystycznych cd. Kody znaków: żółte wyróżnienie nowe pojęcie pomarańczowy uwaga kursywa komentarz 1 Zagadnienia omawiane na zajęciach 1. Przykłady testowania hipotez dotyczących:

Bardziej szczegółowo

Matematyka - Statystyka matematyczna Mathematical statistics 2, 2, 0, 0, 0

Matematyka - Statystyka matematyczna Mathematical statistics 2, 2, 0, 0, 0 Nazwa przedmiotu: Kierunek: Matematyka - Statystyka matematyczna Mathematical statistics Inżynieria materiałowa Materials Engineering Rodzaj przedmiotu: Poziom studiów: forma studiów: obowiązkowy studia

Bardziej szczegółowo

Estymacja parametrów rozkładu cechy

Estymacja parametrów rozkładu cechy Estymacja parametrów rozkładu cechy Estymujemy parametr θ rozkładu cechy X Próba: X 1, X 2,..., X n Estymator punktowy jest funkcją próby ˆθ = ˆθX 1, X 2,..., X n przybliżającą wartość parametru θ Przedział

Bardziej szczegółowo

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak Redakcja i korekta Bogdan Baran Projekt graficzny okładki Katarzyna Juras Copyright by Wydawnictwo Naukowe Scholar, Warszawa 2011 ISBN

Bardziej szczegółowo

Janusz Wywiał Katedra Statystyki Akademia Ekonomiczna w Katowicach

Janusz Wywiał Katedra Statystyki Akademia Ekonomiczna w Katowicach Janusz Wywiał Katedra Statystyki Akademia Ekonomiczna w Katowicac Analiza dokładności ocen wartości średnic cec małyc firm W niniejszej pracy przedstawiono na odpowiednim materiale statystycznym praktyczny

Bardziej szczegółowo

Rozstęp Pozycyjne Odchylenie ćwiartkowe Współczynnik zmienności

Rozstęp Pozycyjne Odchylenie ćwiartkowe Współczynnik zmienności Miary zmienności: Miary zmienności Klasyczne Wariancja Odchylenie standardowe Odchylenie przeciętne Współczynnik zmienności Rozstęp Pozycyjne Odchylenie ćwiartkowe Współczynnik zmienności 2 Spróbujmy zastanowić

Bardziej szczegółowo

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25 Testowanie hipotez Marcin Zajenkowski Marcin Zajenkowski () Testowanie hipotez 1 / 25 Testowanie hipotez Aby porównać ze sobą dwie statystyki z próby stosuje się testy istotności. Mówią one o tym czy uzyskane

Bardziej szczegółowo

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej 7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej Definicja 1 n-elementowa losowa próba prosta nazywamy ciag n niezależnych zmiennych losowych o jednakowych rozkładach

Bardziej szczegółowo

Porównaj płace pracowników obu zakładów, dokonując kompleksowej analizy struktury. Zastanów się, w którym zakładzie jest korzystniej pracować?

Porównaj płace pracowników obu zakładów, dokonując kompleksowej analizy struktury. Zastanów się, w którym zakładzie jest korzystniej pracować? 1 Zadanie 1.1 W dwóch zakładach produkcyjnych Złomex I i Złomex II, należących do tego samego przedsiębiorstwa Złomowanie na zawołanie w ostatnim miesiącu następująco kształtowały się wynagrodzenia pracowników.

Bardziej szczegółowo

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie. SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:

Bardziej szczegółowo

Projekt Sieci neuronowe

Projekt Sieci neuronowe Projekt Sieci neuronowe Chmielecka Katarzyna Gr. 9 IiE 1. Problem i dane Sieć neuronowa miała za zadanie nauczyć się klasyfikować wnioski kredytowe. W projekcie wykorzystano dane pochodzące z 110 wniosków

Bardziej szczegółowo

Ćwiczenia 1-2 Analiza rozkładu empirycznego

Ćwiczenia 1-2 Analiza rozkładu empirycznego Ćwiczenia 1-2 Zadanie 1. Z kolokwium z ekonometrii studenci otrzymali następujące oceny: 5 osób dostało piątkę, 20 os. dostało czwórkę, 10 os. trójkę, a 3 osoby nie zaliczyły tego kolokwium. Należy w oparciu

Bardziej szczegółowo

Statystyka i Analiza Danych

Statystyka i Analiza Danych Warsztaty Statystyka i Analiza Danych Gdańsk, 20-22 lutego 2014 Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych Janusz Wątroba StatSoft Polska Centrum Zastosowań Matematyki -

Bardziej szczegółowo

Testy nieparametryczne

Testy nieparametryczne Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów

Bardziej szczegółowo

Zadania ze statystyki cz.8. Zadanie 1.

Zadania ze statystyki cz.8. Zadanie 1. Zadania ze statystyki cz.8. Zadanie 1. Wykonano pewien eksperyment skuteczności działania pewnej reklamy na zmianę postawy. Wylosowano 10 osobową próbę studentów, których poproszono o ocenę pewnego produktu,

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2 STATYSTYKA I DOŚWIADCZALNICTWO Wykład Parametry przedziałowe rozkładów ciągłych określane na podstawie próby (przedziały ufności) Przedział ufności dla średniej s X t( α;n 1),X + t( α;n 1) n s n t (α;

Bardziej szczegółowo

WNIOSKOWANIE STATYSTYCZNE

WNIOSKOWANIE STATYSTYCZNE STATYSTYKA WNIOSKOWANIE STATYSTYCZNE ESTYMACJA oszacowanie z pewną dokładnością wartości opisującej rozkład badanej cechy statystycznej. WERYFIKACJA HIPOTEZ sprawdzanie słuszności przypuszczeń dotyczących

Bardziej szczegółowo

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28 Statystyka #5 Testowanie hipotez statystycznych Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik rok akademicki 2016/2017 1 / 28 Testowanie hipotez statystycznych 2 / 28 Testowanie hipotez statystycznych

Bardziej szczegółowo

zbieranie porządkowanie i prezentacja (tabele, wykresy) analiza interpretacja (wnioskowanie statystyczne)

zbieranie porządkowanie i prezentacja (tabele, wykresy) analiza interpretacja (wnioskowanie statystyczne) STATYSTYKA zbieranie porządkowanie i prezentacja (tabele, wykresy) analiza interpretacja (wnioskowanie statystyczne) DANYCH STATYSTYKA MATEMATYCZNA analiza i interpretacja danych przy wykorzystaniu metod

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA STATYSTYKA MATEMATYCZNA 1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez statystycznych

Bardziej szczegółowo

LABORATORIUM Z FIZYKI

LABORATORIUM Z FIZYKI LABORATORIUM Z FIZYKI LABORATORIUM Z FIZYKI I PRACOWNIA FIZYCZNA C w Gliwicach Gliwice, ul. Konarskiego 22, pokoje 52-54 Regulamin pracowni i organizacja zajęć Sprawozdanie (strona tytułowa, karta pomiarowa)

Bardziej szczegółowo

WYKŁAD 5 TEORIA ESTYMACJI II

WYKŁAD 5 TEORIA ESTYMACJI II WYKŁAD 5 TEORIA ESTYMACJI II Teoria estymacji (wyznaczanie przedziałów ufności, błąd badania statystycznego, poziom ufności, minimalna liczba pomiarów). PRÓBA Próba powinna być reprezentacyjna tj. jak

Bardziej szczegółowo

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy Wykład Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy Zbiorowość statystyczna - zbiór elementów lub wyników jakiegoś procesu powiązanych ze sobą logicznie (tzn. posiadających wspólne cechy

Bardziej szczegółowo

Analiza wariancji. dr Janusz Górczyński

Analiza wariancji. dr Janusz Górczyński Analiza wariancji dr Janusz Górczyński Wprowadzenie Powiedzmy, że badamy pewną populację π, w której cecha Y ma rozkład N o średniej m i odchyleniu standardowym σ. Powiedzmy dalej, że istnieje pewien czynnik

Bardziej szczegółowo

R ozkład norm alny Bardzo często używany do modelowania symetrycznych rozkładów zmiennych losowych ciągłych

R ozkład norm alny Bardzo często używany do modelowania symetrycznych rozkładów zmiennych losowych ciągłych R ozkład norm alny Bardzo często używany do modelowania symetrycznych rozkładów zmiennych losowych ciągłych Przykłady: Błąd pomiarowy Wzrost, wydajność Temperatura ciała Zawartość różnych składników we

Bardziej szczegółowo

Rodzaje badań statystycznych

Rodzaje badań statystycznych Rodzaje badań statystycznych Zbieranie danych, które zostaną poddane analizie statystycznej nazywamy obserwacją statystyczną. Dane uzyskuje się na podstawie badania jednostek statystycznych. Badania statystyczne

Bardziej szczegółowo

Rozkłady statystyk z próby

Rozkłady statystyk z próby Rozkłady statystyk z próby Rozkłady statystyk z próby Przypuśćmy, że wykonujemy serię doświadczeń polegających na 4 krotnym rzucie symetryczną kostką do gry, obserwując liczbę wyrzuconych oczek Nr kolejny

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

Metody Statystyczne. Metody Statystyczne.

Metody Statystyczne. Metody Statystyczne. gkrol@wz.uw.edu.pl #4 1 Sprawdzian! 5 listopada (ok. 45-60 minut): - Skale pomiarowe - Zmienne ciągłe i dyskretne - Rozkład teoretyczny i empiryczny - Miary tendencji centralnej i rozproszenia - Standaryzacja

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych 9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :

Bardziej szczegółowo

KURS STATYSTYKA. Lekcja 2 Przedziały ufności i estymacja przedziałowa ZADANIE DOMOWE. www.etrapez.pl Strona 1

KURS STATYSTYKA. Lekcja 2 Przedziały ufności i estymacja przedziałowa ZADANIE DOMOWE. www.etrapez.pl Strona 1 KUR TATYTYKA Lekcja Przedziały ufności i estymacja przedziałowa ZADANIE DOMOWE www.etrapez.pl trona 1 Część 1: TET Zaznacz poprawną odpowiedź (tylko jedna jest prawdziwa). Pytanie 1 We wnioskowaniu statystycznym

Bardziej szczegółowo

Analiza statystyczna w naukach przyrodniczych

Analiza statystyczna w naukach przyrodniczych Analiza statystyczna w naukach przyrodniczych Po co statystyka? Człowiek otoczony jest różnymi zjawiskami i próbuje je poznać, dowiedzieć się w jaki sposób funkcjonują, jakie relacje między nimi zachodzą.

Bardziej szczegółowo

POLITECHNIKA OPOLSKA

POLITECHNIKA OPOLSKA POLITECHNIKA OPOLSKA WYDZIAŁ MECHANICZNY Katedra Technologii Maszyn i Automatyzacji Produkcji Laboratorium Podstaw Inżynierii Jakości Ćwiczenie nr 4 Temat: Analiza korelacji i regresji dwóch zmiennych

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Statystyka Wykład 10 Wrocław, 22 grudnia 2011 Testowanie hipotez statystycznych Definicja. Hipotezą statystyczną nazywamy stwierdzenie dotyczące parametrów populacji. Definicja. Dwie komplementarne w problemie

Bardziej szczegółowo