Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki Szczecińskiej
18. Elementy statystyki opisowej Statystyka z łac. status (państwo) od niemieckiego uczonego Gottfrieda Achenwalla z połowy XVIII w. oznaczało gromadzenie przetwarzanie wykorzystywanie danych przez państwo Wykorzystanie spisów ludności i zasobów materialnych do celów fiskalnych i wojennych ( Chiny 2000 lat p.n.e. oraz starożytny Rzym) Cel analizy statystycznej przetworzenie dużej liczby danych do przejrzystej postaci interpretacja danych uogólnienie danych
Populacja generalna Populacja (zbiorowość) generalna zbiór elementów (jednostek statystycznych), podlegających badaniu ze względu na jedną lub więcej cech, o ile istnieje co najmniej jedna właściwość (cecha) wspólna dla wszystkich jego elementów, kwalifikująca je do tego zbioru istnieje co najmniej jedna właściwość, ze względu na którą elementy tego zbioru mogą różnić się między sobą
Cechy statystyczne Rodzaje cech statystycznych mierzalne (ilościowe) np. wzrost, waga, wiek dadzą wyrazić się za pomocą jednostek miary w skali przedziałowej jednostki można uporządkować i określić różnice między nimi ilorazowej jednostki można uporządkować i określić różnice oraz stosunki między nimi niemierzalne (jakościowe) nie dadzą się jednoznacznie scharakteryzować za pomocą liczb, można je wyrazić w skali nominalnej jednostki są przydzielane do odpowiednich kategorii np. płeć, miejsce pracy, miejsce urodzenia, grupa krwi porządkowej jednostki można uporządkować np. wykształcenie, czy cechy, których natężenie określane jest stopniowaniem przymiotników
Badania statystyczne Rodzaje badań statystycznych kompletne (pełne, całkowite, wyczerpujące) zbadane są wszystkie jednostki danej populacji np. spis powszechny, ewidencja urodzeń i zgonów częściowe (niepełne) zbadany jest skończony podzbiór populacji generalnej, zwany populacją próbną lub próbką Wady badań kompletnych kosztowność czasochłonność niecelowość przy badaniach niszczących niewykonalność z powodu nieskończonej liczby jednostek zbiorowości generalnej, np. w statystyce demograficznej
Populacja próbna Populacja próbna stanowi dobrą reprezentację populacji generalnej, gdy zróżnicowanie wartości cechy w populacji próbnej i generalnej jest podobne Osiąga się to przez losowanie, które może być niezależne (ze zwracaniem) zależne (bez zwracania) indywidualne (losujemy jeden element) zespołowe (losujemy grupę elementów) jednostopniowe wielostopniowe nieograniczone (z całej populacji) ograniczone (z części populacji) Próbka losowa prosta losowanie jednostek populacji jest indywidualne, nieograniczone i niezależne
Szereg statystyczny, statystyka opisowa Szereg statystyczny, próbka wartości cechy, n-elementowa próbka statystyczna skończony ciąg wartości cechy (x 1,, x n ) otrzymany dla próbki losowej Szereg statystyczny prosty szereg statystyczny uporządkowany niemalejąco Szereg rozdzielczy punktowy różnym wartościom cechy skokowej przyporządkowujemy liczbę ich wystąpień lub częstości względne Szereg rozdzielczy przedziałowy wartościom cechy ciągłej przyporządkowujemy liczbę ich wystąpień w określonych przedziałach zmienności lub częstości względne 1 Liczba klas k 2 n, n lub k 5ln n lub k 1+ 3,322ln n Statystyka opisowa wstępne opracowanie próbki bez posługiwania się rachunkiem prawdopodobieństwa Opis statystyczny jest badaniem wystarczającym, gdy zbadana jest cała zbiorowość generalna
Statystyka a rachunek prawdopodobieństwa Tablica 18.1. Analogie statystyki i rachunku prawdopodobieństwa Rachunek prawdopodobieństwa Zbiór zdarzeń elementarnych Zmienna losowa Prawdopodobieństwo Funkcja gęstości Dystrybuanta Statystyka Populacja generalna Cecha mierzalna Częstość względna Łamana częstości Dystrybuanta empiryczna
19. Podstawowe pojęcia i rozkłady statystyki matematycznej Statystyka matematyczna opis i analiza zjawisk masowych przy użyciu metod rachunku prawdopodobieństwa Założenia i cel brak pełnej znajomości rozkładu zmiennej losowej (cechy statystycznej) uogólnienie wyników badania próbnego na całą populację Najważniejsze formy wnioskowania statystycznego estymacja (ocena) nieznanych parametrów, bądź ich funkcji, które charakteryzują rozkład badanej cechy populacji na podstawie rozkładu empirycznego weryfikacja hipotez statystycznych, tj. sprawdzanie określonych przypuszczeń wysuniętych w stosunku do parametrów lub rozkładów populacji generalnej
Statystyczna próba i próbka X zmienna losowa, określona na przestrzeni probabilistycznej Ciąg zmiennych losowych (X 1,, X n ) nazywamy n-elementową statystyczna próbą prostą dla zmiennej losowej X, jeśli (19.1) zmienne X 1,, X n są niezależne (19.2) rozkład każdej zmiennej X n, i = 1,,n jest taki sam jak rozkład zmiennej X Ciąg (x 1,, x n ) dowolnych wartości zmiennych losowych X 1,, X n nazywamy n-elementową statystyczną próbką
Pojęcie statystyki (X 1,, X n ) próba statystyczna dla zmiennej losowej X Statystyka to dowolna funkcja tej próby, tj. zmienna losowa U n = g (X 1,, X n ) n gdzie g : R R jest funkcją borelowską Pewne założenia pozwalają określić rozkłady niektórych statystyk (19.3) Twierdzenie Jeśli X 1,, X n są niezależnymi zmiennymi losowymi o rozkładzie N(m,σ), to średnia arytmetyczna z próby 1 n X = X i σ ma rozkład normalny N m, n (19.4) Wniosek i= 1 n Ze wzrostem liczebności próby, odchylenie standardowe statystyki X maleje
Rozkłady niektórych statystyk Jeśli U 1,, U n są niezależnymi zmiennymi losowymi o rozkładzie N(0,1), to statystyka 2 2 2 2 χ = U + U + + U 1 2... n jest zmienną losową o rozkładzie χ 2 z n stopniami swobody a) b) (19.5) Własności 2 Eχ = n 2 2 D χ = 2n c) Rozkład χ 2 jest zbieżny do rozkładu normalnego f ( x) n =1 n = 3 n duże 0 Rys.19.1. Wykres gęstości rozkładu χ 2 w zależności od n x
Rozkłady niektórych statystyk U zmienna losowa o rozkładzie normalnym N(0,1), Z 2 zmienna losowa o rozkładzie χ 2 z n stopniami swobody Jeśli zmienne U i Z są niezależne, to zmienna losowa U t = n Z ma rozkład Studenta z n stopniami swobody a) (19.6) Własności Et = 0 b) Rozkład Studenta jest zbieżny do rozkładu normalnego N(0,1) gęstość rozkładu Studenta f ( x) 0 N(0,1) Rys.19.2. Porównanie rozkładu normalnego i Studenta x
Rozkłady niektórych statystyk (19.7) Twierdzenie Jeśli X 1,, X n są niezależnymi zmiennymi losowymi o rozkładzie normalnym N(m,σ) oraz X 1 n 2 1 n = X i S ( ) 2 1 i = X X i= 1 i i= n n to zmienna losowa X m t = n 1 S ma rozkład Studenta z n 1 stopniami swobody (19.8) Wniosek Gosset (pod pseudonimem Student) umożliwił badanie średniej arytmetycznej z próby bez znajomości odchylanie standardowego σ
Rozkłady niektórych statystyk 2 2 Jeśli Z1 i Z 2 są zmiennymi losowymi o rozkładzie χ 2 z n 1 i n 2 stopniami swobody odpowiednio, to zmienna 2 n2z1 f ( x) F = 2 n1z 2 ma rozkład Fishera-Snedecora z n 1 i n 2 stopniami swobody (19.9) Własność n2 E( F) = dla n2 > 2 n2 2 (19.10) Twierdzenie 0 x Rys.19.3. Gęstość rozkładu F-S Jeśli t jest zmienną losową o rozkładzie Studenta z n stopniami swobody, to zmienna losowa 2 F = t ma rozkład Fishera-Snedecora z n 1 = 1 i n 2 = n stopniami swobody
Dziękuję za uwagę