Statystyka. dla studentów z programem STAT_STUD 1.0. Jacek Bia ek Adam Depta

Podobne dokumenty
Statystyka w pracy badawczej nauczyciela

Podstawowe pojęcia statystyczne

Badania Statystyczne

W1. Wprowadzenie. Statystyka opisowa

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Wykład ze statystyki. Maciej Wolny

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

POJĘCIA WSTĘPNE. STATYSTYKA - nauka traktująca o metodach ilościowych badania prawidłowości zjawisk (procesów) masowych.

Statystyka matematyczna. dr Katarzyna Góral-Radziszewska Katedra Genetyki i Ogólnej Hodowli Zwierząt

Rodzaje badań statystycznych

STATYSTYKA. dr Agnieszka Figaj

Wykład z dnia 8 lub 15 października 2014 roku

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Wprowadzenie Pojęcia podstawowe Szeregi rozdzielcze STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP.

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Rozdział 1. Analiza Struktury. Jan Żółtowski. Problem 1.1. Lp. Pytanie Odpowiedź

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Statystyka matematyczna i ekonometria

Statystyka. Wykład 1. Magdalena Alama-Bućko. 26 lutego Magdalena Alama-Bućko Statystyka 26 lutego / 34

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Zagadnienia: wprowadzenie podstawowe pojęcia. Doświadczalnictwo. Anna Rajfura

Doświadczalnictwo leśne. Wydział Leśny SGGW Studia II stopnia

Statystyka. Wykład 1. Magdalena Alama-Bućko. 20 lutego Magdalena Alama-Bućko Statystyka 20 lutego / 19

Statystyka Matematyczna Anna Janicka

Sposoby prezentacji problemów w statystyce

Spis treści 3 SPIS TREŚCI

SPIS TEŚCI CZĘŚĆ I RACHUNEK PRAWDOPODOBIEŃSTWA

Testy nieparametryczne

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Wykład Prezentacja materiału statystycznego. 2. Rodzaje szeregów statystycznych.

TREŚCI NAUCZANIA z przedmiotu pracowania ekonomiczno - informatyczna na podstawie programu nr 341[02]/MEN/ klasa 3 TE

Po drugie jest to dyscyplina naukowa, traktująca o metodach liczbowego opisu i wnioskowania o prawidłowościach występujących w procesach masowych.

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

Statystyka i opracowanie danych W5: Wprowadzenie do statystycznej analizy danych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl

Statystyka opisowa SYLABUS A. Informacje ogólne

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Wprowadzenie do analizy korelacji i regresji

zbieranie porządkowanie i prezentacja (tabele, wykresy) analiza interpretacja (wnioskowanie statystyczne)

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

166 Wstęp do statystyki matematycznej

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

SPIS TREŚCI. Do Czytelnika... 7

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Graficzna prezentacja danych statystycznych

Pozyskiwanie wiedzy z danych

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Próba własności i parametry

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

Plan wynikowy i przedmiotowy system oceniania

Statystyka i analiza danych pomiarowych Podstawowe pojęcia statystyki Cz. 1. Tadeusz M. Molenda Instytut Fizyki, Uniwersytet Szczeciński

Matematyka - Statystyka matematyczna Mathematical statistics 2, 2, 0, 0, 0

Wykład 3: Prezentacja danych statystycznych

Rok akademicki: 2013/2014 Kod: ZIE n Punkty ECTS: 6. Poziom studiów: Studia I stopnia Forma i tryb studiów: -

Przypomnienie: Ćwiczenie 1.

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

STATYSTYKA wykład 1. Wanda Olech. Katedra Genetyki i Ogólnej Hodowli Zwierząt

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Z poprzedniego wykładu

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

Opis przedmiotu: Probabilistyka I

przedmiot podstawowy obowiązkowy polski drugi

dr Jerzy Pusz, st. wykładowca, Wydział Matematyki i Nauk Informacyjnych Politechniki Warszawskiej B. Ogólna charakterystyka przedmiotu

Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

Metodologia badań psychologicznych

kod nr w planie ECTS Przedmiot studiów PODSTAWY STATYSTYKI 7 2

Z-LOGN1-006 Statystyka Statistics

Transport II stopień (I stopień / II stopień) Ogólnoakademicki (ogólno akademicki / praktyczny) Studia stacjonarne (stacjonarne / niestacjonarne)

STATYSTYKA OPISOWA. Wykład 1

Statystyka. Tematyka wykładów. Przykładowe pytania. dr Tomasz Giętkowski wersja /13:40

Wykład 5: Statystyki opisowe (część 2)

Opis przedmiotu. Karta przedmiotu - Probabilistyka I Katalog ECTS Politechniki Warszawskiej

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Statystyka. Wykład 10. Magdalena Alama-Bućko. 15 maja Magdalena Alama-Bućko Statystyka 15 maja / 32

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

Policealna Szkoła Handlowa Rok I Wymiar godzin: 30 jednostek dydaktycznych Nr programu nauczania: 341(06)/SP/MEN/ (technik rachunkowości)

Z-ZIPN1-004 Statystyka. Zarządzanie i Inżynieria Produkcji I stopień Ogólnoakademicki Niestacjonarne Wszystkie Katedra Matematyki dr Zdzisław Piasta

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Wnioskowanie statystyczne. Statystyka w 5

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

STRESZCZENIE. rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne.

Data wydruku: Dla rocznika: 2015/2016. Opis przedmiotu

Wstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Rozkłady statystyk z próby

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

KARTA KURSU. (do zastosowania w roku akademickim 2015/16) Kod Punktacja ECTS* 3. Dr hab. Tadeusz Sozański

Transkrypt:

Statystyka dla studentów z programem STAT_STUD 1.0 Jacek Bia ek Adam Depta

Statystyka dla studentów z programem STAT_STUD 1.0

Statystyka dla studentów z programem STAT_STUD 1.0 Jacek Bia ek Adam Depta WYDAWNICTWO C.H. BECK WARSZAWA 2010

Wydawca: Dorota Ostrowska-Furmanek Redakcja merytoryczna: Janusz Kamiński-Hass Recenzent: prof. dr hab. Mariola Piłatowska Projekt okładki i stron tytułowych: Maryna Wiśniewska Ilustracja na okładce: c Mark Evans/iStockphoto.com Seria: Metody ilościowe Złożono programem TEX c Wydawnictwo C.H. Beck 2010 Wydawnictwo C.H. Beck Sp. z o.o. ul. Bonifraterska 17, 00-203 Warszawa Skład i łamanie: Wydawnictwo C.H. Beck Druk i oprawa: Poznańskie Zakłady Graficzne ISBN 978-83-255-1098-5

Spis treści Przedmowa..................................... 7 Informacje o programie STAT_STUD....................... 9 Rozdział 1. Wprowadzenie do statystyki..................... 11 1.1. Podstawowe pojęcia............................. 11 1.2. Etapy badania statystycznego........................ 14 Rozdział 2. Statystyka opisowa.......................... 22 2.1. Analiza struktury.............................. 22 2.1.1. Miary położenia........................... 23 2.1.2. Miary zmienności (dyspersji).................... 27 2.1.3. Miary asymetrii (skośności)..................... 31 2.1.4. Miary koncentracji (skupienia)................... 34 2.2. Analiza korelacji.............................. 51 2.2.1. Szereg korelacyjny w przypadku cech mierzalnych......... 54 2.2.2. Szereg korelacyjny w przypadku cech niemierzalnych....... 55 2.2.3. Tablica korelacyjna......................... 58 2.3. Analiza regresji............................... 69 2.3.1. Szacowanie parametrów równania regresji............. 69 2.3.2. Szacowanie dokładności funkcji regresji.............. 70 2.4. Analiza dynamiki.............................. 78 2.4.1. Indeksy indywidualne........................ 78 2.4.2. Indeksy agregatowe dla wielkości absolutnych........... 79 2.4.3. Analiza trendu i sezonowości.................... 87 Zadania...................................... 98 Rozdział 3. Elementy rachunku prawdopodobieństwa............. 104 3.1. Podstawowe własności prawdopodobieństwa................ 104 3.1.1. Klasyczna definicja prawdopodobieństwa.............. 106 3.1.2. Prawdopodobieństwo jako miara.................. 108 3.1.3. Podstawowe twierdzenia....................... 111 3.2. Zmienna losowa jednowymiarowa..................... 114 3.2.1. Rozkłady zmiennych losowych i ich charakterystyki........ 115 3.2.2. Wybrane rozkłady dyskretne.................... 124 3.2.3. Wybrane rozkłady ciągłe...................... 126 3.2.4. Przekształcenia zmiennej losowej.................. 131 3.3. Zmienna losowa wielowymiarowa..................... 133 3.3.1. Rozkłady brzegowe......................... 135 3.3.2. Rozkłady warunkowe........................ 137 5

Spis treści 3.4. Twierdzenia graniczne........................... 141 3.4.1. Twierdzenia lokalne......................... 141 3.4.2. Twierdzenia integralne....................... 142 3.4.3. Prawa wielkich liczb......................... 144 Zadania...................................... 150 Rozdział 4. Statystyka matematyczna...................... 153 4.1. Estymacja punktowa............................ 153 4.2. Estymacja przedziałowa........................... 154 4.2.1. Przedział ufności dla średniej.................... 155 4.2.2. Przedział ufności dla odchylenia standardowego i wariancji.... 160 4.2.3. Przedział ufności dla wskaźnika struktury............. 163 4.2.4. Przedział ufności dla współczynnika korelacji liniowej....... 164 4.2.5. Przedziały ufności dla współczynników regresji liniowej...... 166 4.3. Weryfikacja hipotez statystycznych..................... 167 4.3.1. Testy nieparametryczne....................... 169 4.3.2. Testy parametryczne......................... 188 Zadania...................................... 223 Tablice....................................... 225 Bibliografia..................................... 247

Przedmowa Podręcznik Statystyka dla studentów z programem STAT_STUD 1.0 jest przeznaczony przede wszystkim dla słuchaczy wykładów ze statystyki, zarówno opisowej, jak i matematycznej, na wszystkich kierunkach ekonomicznych. Niektóre partie materiału wykraczają nawet poza program obowiązujący na tych kierunkach. W pewnym stopniu książka będzie również przydatna dla dydaktyków, prowadzących wykłady ze statystyki. Do książki jest bowiem dołączony autorski program statystyczny, dzięki któremu można nie tylko przeliczyć wszystkie omówione tutaj typy zadań ze statystyki, ale również prześledzić etapy ich realizacji. Podręcznik został skonstruowany w taki sposób, aby mógł być wykorzystywany w ramach zajęć o różnym stopniu zaawansowania, np. na studiach zaocznych czy dziennych. Książka składa się z czterech rozdziałów. Pierwszy z nich Wprowadzenie do statystyki obejmuje elementarny wykład na temat poszczególnych składowych prawidłowo przeprowadzonego badania statystycznego. Czytelnik znajdzie tu podstawowe pojęcia i definicje z zakresu statystyki, które będą wykorzystywane również w dalszej części podręcznika. Kolejny rozdział Statystyka opisowa omawia cztery główne zagadnienia, którymi zajmuje się ta część statystyki, mianowicie: analizę struktury, analizę korelacji, analizę regresji i analizę dynamiki. Rozdział ten, poza niezbędnym wykładem teoretycznym, zawiera liczne, całkowicie rozwiązane przykłady i szczegółowe omówienie (wraz z interpretacją) każdej prezentowanej tu miary. Wszystkie przykłady są rozwiązane także w programie STAT_STUD dzięki temu można poznać możliwości tego programu i nauczyć się jego obsługi. Formalizm tego rozdziału sprowadzono do niezbędnego minimum. Zrezygnowano tu np. z dowodów przytaczanych własności miar, dzięki czemu czytelnik nie musi biegle posługiwać się narzędziami matematycznymi. Rozdział ten jest przeznaczony dla studentów każdego kierunku studiów, choć przykłady pochodzą głównie z obszarów szeroko rozumianej ekonomii. Rozdział Elementy rachunku prawdopodobieństwa będzie przydatny zarówno dla tych czytelników, którzy są słuchaczami wykładów z rachunku prawdopodobieństwa, jak i tych, którzy studiują statystykę matematyczną. W zamyśle autorów rozdział ten ma stanowić płynne przejście od statystyki opisowej do statystyki matematycznej, korzystającej z osiągnięć teorii rachunku prawdopodobieństwa. 7

Przedmowa W rozdziale tym pewne fragmenty są pisane tak, by były przystępne dla mniej zmatematyzowanego czytelnika, jednak aby zrozumieć go w pełni konieczna jest znajomość podstaw analizy matematycznej. Dlatego rozdział ten jest przeznaczony dla studentów kierunków matematycznych i oczywiście wszystkich tych studentów, którzy swobodnie posługują się pojęciami z zakresu analizy matematycznej. W jego ramach omówiono: zmienne losowe jednowymiarowe, wielowymiarowe, prawa wielkich liczb i twierdzenia graniczne. Ostatni rozdział książki Statystyka matematyczna obejmuje trzy główne nurty tej dyscypliny: estymację punktową, estymację przedziałową i teorię weryfikacji hipotez statystycznych. Podobnie jak poprzednio, zrezygnowano tu z przeprowadzania dowodów prezentowanych twierdzeń (odsyłając zainteresowanego czytelnika do stosownej literatury) na poczet dużej liczby przykładów z rozwiązaniami i pełną interpretacją uzyskanych wyników. Każdy rozwiązany przykład przeliczono ponownie w programie STAT_STUD. Forma i język tej części książki odpowiada rozdziałowi Statystyka opisowa, stąd materiał tu wykładany będzie zrozumiały również dla studentów kierunków niematematycznych. W książce umieszczono tablice statystyczne do omówionych testów statystycznych. Jednakże tzw. wartości krytyczne statystyk testowych, które one zawierają, można również wygenerować w programie STAT_STUD. Wyrażamy głęboką nadzieję, iż niniejszy podręcznik spotka się z życzliwym przyjęciem przez czytelników. * * * Chcielibyśmy serdecznie podziękować prof. Czesławowi Domańskiemu za szeroką edukację statystyczną, której doświadczyliśmy, będąc doktorantami profesora. Dziękujemy Panie Profesorze w szczególności za to, iż nauczył nas Pan języka liczb i pokazał, jak wiele mówią one o otaczającym świecie. Autorzy

Informacje o programie STAT_STUD Program STAT_STUD 1.0 został napisany w środowisku Turbo C++ Explorer Edition w 2008 roku przez dr. inż. Jacka Białka z Uniwersytetu Łódzkiego. Program jest przeznaczony dla studentów i dydaktyków do nauki oraz nauczania statystyki. STAT_STUD składa się z następujących modułów: statystyka opisowa, statystyka matematyczna, kalkulator i generator. Zamysłem autora było, aby użytkownik za pomocą programu mógł w sposób łatwy i przejrzysty wykonywać obliczenia oparte na metodach statystycznych omówionych w niniejszej książce. Zatem STAT_STUD obejmuje swoimi możliwościami niemal cały zakres materiału, jaki wykłada się w ramach przedmiotu statystyka. Poniżej podajemy kilka przydatnych informacji dotyczących programu STAT_STUD. Pierwsze uruchomienie programu. Folder STAT_STUD_1.0 kopiujemy z płyty CD do dowolnej lokalizacji na komputerze. Przed pierwszym uruchomieniem należy za pomocą klucza wygenerować specjalny plik o nazwie klucz.txt, który będzie odtąd charakterystyczny i unikatowy dla twojego komputera. Jest to warunek konieczny do pracy w programie STAT_STUD. W tym celu uruchamiamy znajdujący się w folderze STAT_STUD_1.0 program klucz.exe, wprowadzamy podany na zdrapce przyklejonej do III strony okładki książki numer seryjny i klikamy na przycisku GENERUJ KOD KLUCZA I ZAPISZ W PLIKU. Następnie uruchamiamy program STAT_STUD, klikając na ikonie KMS. Od tej chwili uruchamianie programu na twoim komputerze nie będzie wymagało już generowania klucza. Pamiętaj jednak, iż wygenerowany klucz będzie działał tylko na twoim komputerze. Folder STAT_STUD_1.0 zawiera trzy inne foldery i cztery pliki (razem niespełna 4 MB pamięci). Oto ich krótka charakterystyka: Folder dane: w programie STAT_STUD jedynie w przypadku szeregu szczegółowego (Statystyka opisowa Analiza struktury) przewidziano możliwość pobierania danych z pliku. Aby to uczynić, dane (zapisane w pliku tekstowym dane.txt) powinny być oddzielone średnikami i za ostatnią należy postawić kropkę. Plik z tak zapisanymi danymi należy przed pobraniem umieścić właśnie w folderze dane. 9

Informacje o programie STAT_STUD Folder obrazy zawiera rysunki i obrazy, z których korzysta STAT_STUD. Nie są one niezbędne do prawidłowej pracy programu. Folder raporty w programie STAT_STUD wyniki przeprowadzanych analiz można zapisywać do pliku (w zależności od modułu są to pliki z rozszerzeniami doc lub xls). W folderze raporty program umieszcza pliki z raportami. Plik info.txt zawiera krótką charakterystykę programu STAT_STUD. Plik klucz.exe jest to aplikacja służąca do wygenerowania pliku klucz.txt, bez którego praca z programem STAT_STUD jest niemożliwa. Plik klucz.txt plik powstały w wyniku uruchomienia aplikacji klucz.exe. To na podstawie tego pliku program STAT_STUD przed uruchomieniem sprawdza zgodność numeru seryjnego, nadanego wraz z licencją na używanie programu. Licencję na używanie programu posiada każdy, kto zakupi niniejszą książkę. Plik KMS.exe główny plik wykonywalny programu. Program należy uruchomić po wcześniejszym wygenerowaniu klucza (patrz: pierwsze uruchomienie programu). Zalety programu STAT_STUD: niewielki rozmiar (całość zajmuje niespełna 4MB pamięci komputera); napisany w polskiej wersji językowej, maksymalnie uproszczony, bardzo intuicyjny; powstał z myślą o dydaktyce zawiera pouczenia, objaśnienia, wskazówki, procedury kontroli założeń modeli i błędów przy wprowadzaniu danych; zawiera pewną dozę teorii (np. opis konstrukcji zbiorów krytycznych); zawiera odnośniki do pozycji w literaturze z jakich korzystają wybrane metody; zawiera generator wartości krytycznych podstawowych rozkładów (alternatywa dla tablic statystycznych); zawiera generator rozkładów (umożliwi to prezentację podczas zajęć praw wielkich liczb bądź tworzenie histogramów dla prób z populacji o danym rozkładzie); zawiera kalkulator, m.in.dla testu Shapiro Wilka; pozwala raportować dane do plików w formacie doc i xls.

Rozdział 1. Wprowadzenie do statystyki 1.1. Podstawowe pojęcia Przedmiotem statystyki są ilościowe metody badania zjawisk masowych. Ze zjawiskami masowymi mamy do czynienia, gdy badaniu podlega duża liczba jednostek. Zjawiskami masowymi są między innymi procesy społeczne, demograficzne i gospodarcze. W zjawiskach tych można zaobserwować określone prawidłowości, jakich nie można zaobserwować w przypadku pojedynczego zjawiska nazywamy je prawidłowościami statystycznymi. Każde zjawisko podlega wpływowi dwóch kategorii przyczyn: przyczynom głównym i przyczynom ubocznym. Przyczyny główne (podstawowe, typowe, systematyczne) to te, które występują stale w danym zespole zjawisk i wpływają na powstawanie prawidłowości. Natomiast przyczyny uboczne (przypadkowe, nietypowe, indywidualne) pojawiają się tylko w szczególnych, indywidualnych przypadkach. Przedmiotem badań statystycznych są określone zbiorowości osób, rzeczy, zjawisk lub faktów. Zbiorowość statystyczna (zwana inaczej populacją statystyczną lub masą statystyczną) jest zbiorem dowolnych elementów (osób, rzeczy, zjawisk lub faktów) objętych badaniem statystycznym. Zbiorowości statystyczne mogą być: skończone (składające się z określonej, przeliczalnej liczby elementów) lub nieskończenie liczne (liczba elementów jest nieograniczona); statyczne (elementy są obserwowane w określonym momencie) lub dynamiczne (elementy są obserwowane w pewnym przedziale czasu); jednowymiarowe (elementy są badane ze względu na jedną cechę) lub wielowymiarowe (w przypadku rozpatrywania wielu cech); jednorodne (na wszystkie elementy działają te same przyczyny główne i jednocześnie różne przyczyny uboczne) lub niejednorodne. Zbiorowość generalna (populacja generalna) jest to zbiór dowolnych elementów podobnych, ale nieidentycznych, pod względem badanej cechy. W przypadku, gdy elementy zbiorowości generalnej poddaje się badaniu ze względu na jedną cechę, to zbiorowość tę nazywa się jednowymiarową (jednocechową). Zbiorowość nazywa się wielowymiarową (wielocechową), jeżeli rozpatruje się wiele cech. 11

Rozdział 1. Wprowadzenie do statystyki Zbiorowość próbna (próba) to część elementów populacji generalnej wybranych w pewien ustalony sposób. Próba podlega badaniu statystycznemu, a wyniki badania są uogólniane na zbiorowość generalną. Jednostki statystyczne to elementy składowe zbiorowości (obiekty badania), które podlegają bezpośredniej obserwacji i pomiarowi. Cechy statystyczne to właściwości, którymi odznaczają się jednostki wchodzące w skład badanej zbiorowości. Aby uzyskać porównywalny materiał statystyczny, należy określić wszystkie jednostki pod względem: rzeczowym (co lub kogo poddajemy badaniu statystycznemu); przestrzennym (obszar/terytorium badania); czasowym (jaki okres obejmuje badanie lub w jakim momencie się ono odbywa). Wymienione powyżej własności cech są określane jako tzw. cechy stałe, które dzielimy na cechy rzeczowe, przestrzenne i czasowe. Są one wspólne wszystkim jednostkom danej zbiorowości statystycznej nie podlegają pomiarowi, a jedynie decydują o zaliczeniu jednostki do określonej zbiorowości. Cechy zmienne to własności, które różnią poszczególne jednostki statystyczne. Podlegają one obserwacji, czyli pomiarowi. Występują u poszczególnych jednostek w formie jednego z k możliwych wariantów (rodzajów), przy czym k 2. Możemy je podzielić na dwie grupy: cechy mierzalne (inaczej ilościowe, kwantytatywne, wymierne); cechy niemierzalne (inaczej jakościowe, kwalitatywne, niewymierne). Cechy mierzalne to takie własności, które można zmierzyć i wyrazić liczbą za pomocą określonej jednostki miary (np. wiek w latach, długość w metrach, ilość w sztukach). Cechy niemierzalne to takie, których nie można zmierzyć, a jedynie stwierdza się występowanie lub niewystępowanie określonego ich wariantu. Zwykle są one opisywane słownie. W zależności od liczby wariantów badanej cechy niemierzalnej wyróżnia się klasyfikację dwudzielną (dychotomiczną) w przypadku występowania dwóch wariantów cechy (np. płeć), oraz klasyfikację wielodzielną (politomiczną) w przypadku liczby wariantów większej niż dwa (np. stopień posiadanego wykształcenia). Do cech mierzalnych zalicza się cechy quasi-ilościowe, zwane porządkowymi. Na ogół cechy te kwantyfikują natężenie badanej właściwości przedstawionej w sposób opisowy, porządkując w ten sposób zbiorowość (np. ocena wiadomości studenta: bardzo dobra, dobra lub krócej 5, 4 itp.). Cechy mierzalne dzieli się na: skokowe (dyskretne, punktowe), czyli takie, które mają skończony lub przeliczalny zbiór wartości na danej skali liczbowej, przy czym jest to najczęściej zbiór liczb całkowitych dodatnich (np. liczba osób w gospodarstwie domowym); 12

1.1. Podstawowe pojęcia ciągłe, czyli takie, które mogą przyjmować każdą wartość z określonego przedziału liczbowego, a liczba miejsc po przecinku jest uzależniona od stopnia dokładności dokonywanego pomiaru (np. wzrost 165,14 cm). Można ponadto wyróżnić cechy quasi-ciągłe są to cechy skokowe, które traktuje się jako ciągłe z uwagi na to, że skala wartości, jakie te cechy mogą przyjmować, jest bardzo duża (np. płace w Polsce 1,5 tys. zł, 20,7 tys. zł, wiek 8 lat, 8 1 / 2 roku, 8 1 / 4 roku). Cechy (zmienne) mierzalne oznacza się dużymi literami X, Y, Z, a wartości cech (informujące o natężeniu badanej cechy) małymi literamix i,y i,z i. Do pomiaru cech statystycznych stosuje się cztery podstawowe skale pomiarowe: skala nominalna (obowiązująca relacja: równe lub różne) taka, w której pomiar polega na podzieleniu całego zbioru wyników na podzbiory rozłączne i zidentyfikowaniu jednostki ze względu na posiadanie lub nieposiadanie określonego typu cechy. W skali tej klasyfikujemy jednostkę statystyczną do określonej kategorii, a poszczególnym kategoriom jakościowym badanych cech przypisujemy liczbę lub nazwę. Szczególnymi przypadkami tej skali są: skala dychotomiczna, gdy mamy do czynienia z dwoma wariantami cechy (np. płeć: kobieta/mężczyzna) i skala trychotomiczna, gdy są trzy warianty cechy (np. studenci według rodzaju ukończonych studiów: prawnicze/ekonomiczne/medyczne); skala porządkowa (inaczej rangowa; obowiązująca relacja: większe lub mniejsze) umożliwia uporządkowanie jednostek zbiorowości w pewne podzbiory, według stopnia natężenia występowania badanej cechy. Uporządkowanie to może być rosnące lub malejące i jest nazywane rangowaniem. Przykładem zmiennej mierzonej według skali porządkowej może być poziom wykształcenia (np. podstawowe, zawodowe, średnie, wyższe); skala przedziałowa (interwałowa) występuje wówczas, gdy pomiary badanych cech są wyrażone w postaci liczb rzeczywistych. W skali tej jest możliwe porównywanie jednostek analizy przez określenie różnicy wartości cech, czyli odległości (dystansu) pomiędzy poszczególnymi jednostkami. Skala przedziałowa posiada jednostkę miary, ale w skali tej punkt zerowy jest ustalony arbitralnie (brak zera absolutnego). Można np. stwierdzić, że temperatura w danym dniu jest o 5 C wyższa niż dnia poprzedniego. Punkt zerowy w tym przypadku jest ustalony umownie jako temperatura zamarzania wody nie można zatem stwierdzić, że temperatura 10 C jest dwukrotnie wyższa od 5 C, można tylko określić różnicę równą 5 C; skala ilorazowa (stosunkowa) jest zaliczana do skal najmocniejszych (posiada wszystkie własności poprzednich skal i dodatkowo zero absolutne, co pozwala na tej skali wykonywać dowolne działania arytmetyczne łącznie z dzieleniem). Występowanie zera absolutnego oznacza, że jeżeli cecha przyjmuje wartość zero, to jest jednoznaczne z tym, że ona nie występuje. Wykorzystywana jest do pomiaru cech mierzalnych, zarówno ciągłych, jak i skokowych. W tej 13

Rozdział 1. Wprowadzenie do statystyki skali można porównać jednostki za pomocą względnych charakterystyk, np. waga 80 kg jest dwukrotnie większa od 40 kg. Skale nominalna i porządkowa należą do słabych skal pomiarowych, a skale przedziałowa i ilorazowa należą do skal mocnych, co wiąże się z typem działań, jakie można w ich ramach wykonywać, a tym samym ze stopniem precyzji opisu badanych jednostek. Skale słabe są najczęściej stosowane do zmiennych jakościowych, a skale mocne do zmiennych mierzalnych skokowych i ciągłych. 1.2. Etapy badania statystycznego Badaniem statystycznym nazywamy ogół czynności mających na celu wykrycie prawidłowości statystycznych w zakresie: struktury rozkładu zbiorowości ze względu na wybraną cechę lub cechy; współzależności (związków) występujących pomiędzy wyróżnionymi zmiennymi w badanej zbiorowości; zmian zachodzących w czasie (dynamiki) w danej zbiorowości czy zbiorowościach. Można wyróżnić następujące etapy badania statystycznego: I. projektowanie (inaczej przygotowanie) badania statystycznego; II. obserwacja statystyczna (zbieranie i zliczanie danych); III. opracowanie zebranego materiału statystycznego i prezentacja wyników; IV. analiza zebranego materiału statystycznego (opis statystyczny i wnioskowanie statystyczne). Etap I projektowanie badania statystycznego obejmuje: 1) Sprecyzowanie celu badania statystycznego poprzez określenie celu diagnostycznego (co i dlaczego chcemy badać), celu praktycznego (komu i czemu ma służyć badanie) oraz sformułowanie hipotez roboczych. 2) Określenie przedmiotu badania tzn. a) zdefiniowanie jednostki statystycznej (osoby, rzeczy, zjawiska czy faktu), b) zdefiniowanie zbiorowości statystycznej jako zbioru jednostek statystycznych. Jednostka statystyczna i zbiorowość statystyczna powinny być określone po względem: rzeczowym (co lub kogo się bada), przestrzennym (gdzie się bada w jakim miejscu lub na jakim obszarze), czasowym (kiedy się bada na jaki moment przeprowadza się badanie lub za jaki okres). 3) Określenie zakresu badania, czyli ustalenie cech ilościowych i jakościowych, które powinny być poddane badaniu oraz określenie skal, jakie powinny być zastosowane do ich pomiaru. 4) Wybór metod badania. Badanie statystyczne ze względu na metody badania można podzielić na całkowite (pełne, wyczerpujące) obejmujące wszystkie jednostki badanej zbiorowości statystycznej oraz częściowe, obejmujące 14

1.2. Etapy badania statystycznego swoim zasięgiem część jednostek zbiorowości. Badania pełne i częściowe mogą być badaniami: a) ciągłymi wtedy zjawiska zmieniające się w czasie są obserwowane i analizowane nieprzerwanie, np. badanie budżetów gospodarstw domowych, ewidencja zgonów i urodzeń, b) okresowymi na ogół są przeprowadzane regularnie, w ściśle określonych odstępach czasu, np. spisy ludności przeprowadzane co 10 lat, inwentaryzacje przeprowadzane na koniec roku, c) doraźnymi są podejmowane w pewnych okolicznościach spowodowanych nieprzewidzianymi przyczynami, np. badania dotyczące ustalenia strat materialnych (spowodowanych pożarem, kradzieżą), albo w celu weryfikacji wyników badania ciągłego. Przeprowadzenie badania pełnego nie zawsze jest możliwe i uzasadnione. Dlatego w wielu przypadkach stosuje się badanie częściowe, np. w sytuacji, gdy: a) proces badania spowodowałby zniszczenie lub zmniejszenie wartości użytkowej badanych jednostek, b) zbiorowość generalna jest nieosiągalna lub nieskończenie liczna, c) badanie jest bardzo praco-, koszto- i czasochłonne. Pozyskiwanie danych o zbiorowości w badaniach częściowych może odbywać się poprzez: Badanie reprezentacyjne polegające na tym, że z całej zbiorowości generalnej pobiera się próbę w sposób losowy i przeprowadza się badanie jednostek wchodzących w jej skład, a następnie uogólnia się wnioski z badania próby na całą populację. Aby uzyskane wnioski można przenosić na całą populację generalną, badana część zbiorowości musi być reprezentatywna, czyli struktura pobranej próby musi odwzorowywać strukturę całej zbiorowości. Dokładność badania metodą reprezentacyjną zależy m.in. od struktury badanej zbiorowości, zastosowanej metody losowania i liczebności próby (próba musi być dostatecznie duża). Badanie monograficzne polegające na wszechstronnym opisie i analizie wybranej jednostki statystycznej (np. szkoły, przedsiębiorstwa, wsi, gminy, miasta, województwa) lub jednostek zbiorowości statystycznej. W badaniu tym wybiera się w sposób świadomy zazwyczaj jednostki typowe lub wyróżniające się. Badanie monograficzne obejmuje szeroki zakres zagadnień, co przyczynia się do wnikliwej analizy i pogłębienia wiedzy o badanym procesie masowym. Wartość poznawcza tego badania zależy od poprawnego doboru jednostki czy jednostek, ponieważ ich właściwości (cechy) z reguły uogólnia się na całą zbiorowość statystyczną. Badanie ankietowe ma miejsce wówczas, gdy informacje o zbiorowości lub zjawiskach gromadzi się za pomocą ankiety odnoszącej się do ściśle wybranej grupy osób, instytucji, przedsiębiorstw lub też do bliżej nieznanych respondentów. Ankieta jest techniką pośrednią zdobywania 15

Rozdział 1. Wprowadzenie do statystyki informacji pisemną bądź ustną (np. w ankiecie telefonicznej). Badaniami ankietowymi, dotyczącymi głównie opinii i postaw w Polsce, zajmują się m.in.: OBOP, CBOS, OBOS, PBS i PENTOR. 5) Wybór metod obserwacji statystycznej, czyli gromadzenie danych. W przypadku badania pełnego wyróżnia się tu: a) spis statystyczny, b) inwentaryzację, c) rejestrację bieżącą, d) sprawozdawczość statystyczną. Spis statystyczny to badanie statystyczne okresowe lub doraźne, obejmujące wszystkie jednostki na danym obszarze, mające na celu ustalenie stanu i struktury badanej zbiorowości w ściśle określonym momencie czasu. Najczęściej przeprowadzane spisy to spisy ludnościowe oraz rolne. Inwentaryzacja jest to specjalny spis, który ujmuje faktyczny stan wartości majątkowych określonej jednostki gospodarczej lub administracyjnej. Stan oraz strukturę majątku będącego w posiadaniu danego właściciela przedstawia się w ujęciu ilościowym i wartościowym. Rejestracja bieżąca polega na ewidencjonowaniu w sposób ciągły ściśle określonych faktów będących przedmiotem badania w momencie ich zaistnienia (np. ewidencja urodzeń, zgonów, małżeństw, ruchu naturalnego ludności, przychodu i rozchodu towarów w magazynie itp.). Sprawozdawczość statystyczna polega na sporządzaniu sprawozdań statystycznych na jednolitych formularzach, zawierających dane o wynikach osiągniętych w różnych dziedzinach działalności, składanych w określonym trybie i z określoną częstotliwością. Etap II obserwacja statystyczna obejmuje: 1) Kontrolę zebranego materiału statystycznego, która jest przeprowadzana w celu wykrycia błędów. Stosuje się kontrolę formalną w celu sprawdzenia kompletności, pełności i zupełności danego materiału statystycznego, oraz kontrolę merytoryczną w celu wykrycia ewentualnych błędów i nieścisłości zapisów (np. czy treść rubryk formularza odpowiada rzeczywistości). 2) Grupowanie statystyczne (klasyfikację statystyczną). Jest to ogół czynności związanych z wyodrębnieniem jednorodnych lub prawie jednorodnych grup w ramach większej i zróżnicowanej zbiorowości statystycznej. Wyróżnia się dwa rodzaje grupowania: a) grupowanie typologiczne, b) grupowanie wariancyjne. Grupowanie typologiczne (jakościowe) polega na wydzieleniu ze zbiorowości statystycznej jednorodnych grup na podstawie wariantów cech jakościowej lub ilościowej, mierzonych według słabych skal pomiarowych (nominalnej i porządkowej). Przykładem grupowania typologicznego wykonanego na pod- 16

1.2. Etapy badania statystycznego stawie wariantów cechy jakościowej może być grupowanie bezrobotnych według poziomu wykształcenia. Grupowanie wariancyjne polega na wyodrębnieniu ze zbiorowości statystycznej jednorodnych grup na podstawie wariantów cechy ilościowej, mierzonej według silnych skal pomiarowych (przedziałowej i stosunkowej). Jednostki grupuje się w klasy lub przedziały wartości liczbowych. Przykładem takiego grupowania jest podział pracowników według stażu pracy na grupy: 0 3, 3 6, 6 9, 9 12, 12 15 lat. 3) Zliczanie danych statystycznych. Po przeprowadzeniu podziału badanej zbiorowości na grupy, zlicza się jednostki w poszczególnych grupach. Rodzaj wykorzystywanej metody zależy od liczebności zbiorowości. Etap III prezentacja wyników obejmuje: 1) Budowę szeregów statystycznych, które służą one do prezentacji opracowanego materiału. Szereg statystyczny jest to zbiór wyników obserwacji jednostek statystycznych prowadzonych pod kątem interesującej badacza cechy. Wartości czy też warianty cechy, spisane według kolejności badania jednostek, tworzą nieuporządkowany szereg statystyczny. Jeśli te same wartości lub warianty uporządkuje się w pewien ustalony sposób (np. rosnąco), to w wyniku powstanie uporządkowany szereg statystyczny. Do wykrywania prawidłowości w zakresie struktury zjawisk służą szeregi szczegółowe i rozdzielcze. Szereg szczegółowy przedstawia materiał statystyczny uporządkowany według wartości badanej cechy, najczęściej w kolejności rosnącej lub malejącej. Szereg rozdzielczy powstaje w wyniku podziału zbiorowości statystycznej na grupy (klasy) według wariantów badanej cechy ilościowej lub jakościowej, z podaniem liczebności lub częstości występowania każdego z wyodrębnionych wariantów. Tworząc szeregi rozdzielcze na podstawie cechy mierzalnej, warianty tej cechy można określić punktowo (w przypadku cechy skokowej, patrz przykład 2.1.2) lub przedziałowo (w przypadku zarówno cechy skokowej, jak i ciągłej, patrz przykład 2.1.3) Budując szeregi rozdzielcze przedziałowe, musimy na samym początku zdecydować o liczbie przedziałów klasowych, o ich rozpiętości i sposobie określania granic przedziałów. Szereg musi być tak zbudowany, aby poszczególne przedziały nie nachodziły na siebie i jednocześnie obejmowały wszystkie jednostki badanej zbiorowości. Liczba przedziałów (klas) w szeregu jest uzależniona od obszaru zmienności cechy, liczebności zbiorowości i celu badania. Im większy obszar zmienności i liczniejsza zbiorowość, tym więcej powinno być przedziałów. Zbyt mała liczba przedziałów sprawia, iż materiał statystyczny jest zbyt skondensowany. Zbyt duża liczba przedziałów spowoduje nadmierną 17

Rozdział 1. Wprowadzenie do statystyki szczegółowość i tym samym utrudni analizę. Najczęściej przyjmuje się, iż liczba przedziałów k jest wyznaczana na podstawie liczebności badanej zbiorowościnnastępująco:k 1+3,322logn bądźk n. Niektórzy autorzy, jak Yule czy Kendall, proponują aby liczba klas mieściła się w granicach 15 25 (nie mniej niż 10). Podanych możliwości nie należy jednak traktować jako bezwzględnie obowiązujących, gdyż ustalając liczbę klas należy kierować się zdrowym rozsądkiem, znajomością celu badania oraz doświadczeniem. Jeśli nie ma uzasadnionych przeciwwskazań, interwały przedziałowe powinny być jednakowe (choć niekiedy celowo tak ich się nie dobiera). Gdy rozpiętości przedziałów są takie same, ich liczbę uzyskuje się, dzieląc rozpiętość przez liczbę przedziałów. Szeregi czasowe (dynamiczne, chronologiczne) przedstawiają, jak badane zjawiska zmieniają się w czasie. Wyróżnia się dwa rodzaje szeregów czasowych: szereg czasowy momentów charakteryzujący zbiorowość w pewnych ściśle określonych momentach (np. stan zatrudnienia na początku roku 1 I lub na końcu roku 31 XII), oraz szereg czasowy okresów, który charakteryzuje zbiorowość w pewnych okresach czasu (np. liczba niemowląt urodzonych w latach 2000 2006). Szeregi korelacyjne stanowią taką formę prezentacji materiału statystycznego, która umożliwia wykrycie prawidłowości w zakresie współzależności pomiędzy dwoma badanymi cechami statystycznymi. Szeregi przestrzenne (geograficzne, terytorialne) służą do prezentacji rozmieszczenia badanych zjawisk według jednostek administracyjnych (gmin, powiatów, województw, regionów gospodarczych, krajów, części świata itp.). Źródło: opracowanie własne. Rysunek 1.2.1. Klasyfikacja szeregów statystycznych 18

1.2. Etapy badania statystycznego 2) Budowę tablic statystycznych służących do prezentacji danych statystycznych uporządkowanych według przyjętego kryterium w sposób zwięzły i przejrzysty. Tablica statystyczna powinna zawierać: a) tytuł określający treść tablicy oraz zakres rzeczowy, czasowy i przestrzenny przedstawionej w niej zbiorowości; b) boczek oraz główkę, czyli słowne oznaczenie kolumn i wierszy, c) źródło danych statystycznych, d) jednostki miary wyrażające badane wielkości, e) uwagi i odsyłacze dotyczące prezentowanych wielkości, o ile jest konieczność ich zamieszczenia, f) znaki umowne do oznaczania niewypełnionych pól w tablicy, wielkości nieuwzględnionych oraz uzupełnionych i poprawionych. Najczęściej stosowanymi znakami umownymi są: ( ) zjawisko nie wystąpiło, (0) zjawisko istnieje, ale wielkość jego jest mniejsza od liczb podanych w tablicy, (.) zupełny brak informacji albo brak informacji wiarygodnych, ( ) wypełnienie pozycji jest niemożliwe lub niecelowe. Tablice statystyczne ze względu na sposób budowy dzieli się na: proste i złożone (kombinowane), robocze i wynikowe. Tablice proste opisują zbiorowość według jednej cechy, zawierają tylko jeden szereg statystyczny. Tablice złożone opisują badaną zbiorowość według kilku cech lub kilka zbiorowości według jednej cechy. Prezentują one zespół szeregów statystycznych. Narzędziem zliczania i grupowania danych są tablice robocze, a ostateczne rezultaty badania zamieszcza się w tablicy wynikowej. 3) Budowę wykresów statystycznych stanowiących graficzną formę prezentacji szeregów statystycznych. Podstawowymi elementami wykresu statystycznego są: tytuł, obraz graficzny, legenda zawierająca objaśnienia kolorów, linii, znaków itp., źródło danych statystycznych, na podstawie którego został sporządzony wykres. Istnieją różne rodzaje wykresów. Najczęściej stosowane to: wykresy liniowe, wykresy powierzchniowe, wykresy mapowe. Do prezentacji kształtowania się zjawisk w czasie na ogół wykorzystuje się wykresy liniowe, które charakteryzują badaną zbiorowość lub jej cechy za pomocą linii (prostej, krzywej, łamanej, ciągłej, przerywanej). Wykresy te mogą być budowane na skali dziesiętnej, logarytmicznej i półlogarytmicznej 19