Statystyka Wykład 1 Magdalena Alama-Bućko 26 lutego 2018 Magdalena Alama-Bućko Statystyka 26 lutego 2018 1 / 34
Wykład : 30h Laboratoria : 30h egzamin w sesji letniej (po uprzednim zaliczeniu ćwiczeń) kontakt mailowy: mbucko@utp.edu.pl konsultacje odbywać będa się w poniedziałki: 7:30-8:30 aula 1B, AN, (na Kaliskiego) 11:00-11:30 s.111, WZ, (przed wykładem) wszystkie wykłady i materiały będa umieszczane na stronie: matfiz.utp.edu.pl/m-alama-bucko/ albo imif.utp.edu.pl/m-alama-bucko/ Magdalena Alama-Bućko Statystyka 26 lutego 2018 2 / 34
Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia miary zmienności miary asymetrii miary koncentracji. Analiza współzależności zjawisk. Analiza dynamiki zjawisk. Magdalena Alama-Bućko Statystyka 26 lutego 2018 3 / 34
Literatura Amir D. Aczel, Statystyka w zarzadzaniu Wydawnictwo Naukowe PWN 2007 Janina Jóźwiak, Jarosław Podgórski, Statystyka od podstaw Wydawnictwo: PWE Wydanie VI zmienione 2006 Jerzy Greń, Statystyka matematyczna modele i zadania, PWN 1980 Podgórski J., Statystyka dla studiów licencjackich, Warszawa 2001 Roszkiewicz M., Statystyka: kurs podstawowy, Warszawa 2002 Sobczyk M., Statystyka, Warszawa 2000 Pułaska-Turyna B., Statystyka dla ekonomistów, Warszawa 2005 Magdalena Alama-Bućko Statystyka 26 lutego 2018 4 / 34
Statystyka jest nauka zajmujac a się zbieraniem danych opisujacych zjawiska masowe (tzn. zjawiska o dużej liczebności obserwacji) i wydobywaniem informacji zawartej w tych danych. Statystykę można podzielić na dwie części: statystykę opisowa, statystykę matematyczna Statystyka opisowa zajmuje się opracowaniem zebranych informacji (danych) posługujac się głównie metodami opisowymi. Statystyka matematyczna: zajmuje się teoria, opisem i analiza zjawisk masowych (zjawisk o dużej liczebności) głównie przy użyciu metod matematycznych, a szczególnie rachunku prawdopodobieństwa. W ramach niniejszego wykładu będziemy zajmować się Statystyka opisowa. Magdalena Alama-Bućko Statystyka 26 lutego 2018 5 / 34
Podstawowe pojęcia eksperymentu zbiorowość statystyczna jednostka statystyczna cecha statystyczna Magdalena Alama-Bućko Statystyka 26 lutego 2018 6 / 34
Podstawowe pojęcia eksperymentu: zbiorowość zbiorowość statystyczna (populacja generalna): zbiór elementów określony co do przestrzeni oraz czasu, podlegajacych badaniu lub obserwacji jednostki te maja co najmniej jedna cechę wspólna i co najmniej jedna cechę różniac a np. studenci pewnej uczelni, studenci pewnego rocznika, produkty wyprodukowane/sprzedane w danym roku itp. Magdalena Alama-Bućko Statystyka 26 lutego 2018 7 / 34
Podstawowe pojęcia eksperymentu: jednostka jednostka statystyczna: najmniejszy element podlegajacy obserwacji lub badaniu, np. student, produkt itp. Magdalena Alama-Bućko Statystyka 26 lutego 2018 8 / 34
Podstawowe pojęcia eksperymentu: cecha cecha statystyczna: właściwość ze względu na która prowadzi się badanie; np. wzrost, waga, kolor oczu, czas do pierwszego popsucia, liczba sprzedanych produktów... Magdalena Alama-Bućko Statystyka 26 lutego 2018 9 / 34
Cechy statystyczne dziela się na: ilościowe (liczbowe) np. ilość, liczba, czas, długość jakościowe (werbalne) Magdalena Alama-Bućko Statystyka 26 lutego 2018 10 / 34
Cechy statystyczne ilościowe czyli mierzalne (przedstawiane za pomoca liczb) dzielimy na: skokowe (inaczej dyskretne) (przyjmuja wartości z pewnego określonego zbioru możliwych wartości, najczęściej całkowitych; od jednej do drugiej wartości następuje pewien skok) np. liczba dzieci w rodzinie, liczba samochodów w firmie, cena towaru itp. ciagłe (przyjmuja wartości rzeczywiste z pewnego przedziału) np. wzrost dorosłej kobiety, temperatura powietrza, koszty stałe itp. quasi (niby) ciagłe (cecha skokowa, która przyjmuje bardzo duża liczbę wariantów i dlatego traktujemy ja jak cechę ciagł a), np. cena towaru Magdalena Alama-Bućko Statystyka 26 lutego 2018 11 / 34
Cechy statystyczne jakościowe czyli niemierzalne - przedstawiane sa za pomoca opisu werbalnego. np. płeć, wykształcenie, kolor oczu, marka samochodu, miejsce zamieszkania,... Magdalena Alama-Bućko Statystyka 26 lutego 2018 12 / 34
Ze względu na porównywanie wartości cech między soba wyróżnia się cztery skale pomiarowe cech statystycznych: nominalna porzadkowa przedziałowa stosunkowa Magdalena Alama-Bućko Statystyka 26 lutego 2018 13 / 34
Cecha nominalna jesteśmy w stanie stwierdzić czy dwie wartości sa takie same czy różnia się od siebie nie można wartości uporzadkować nie można stwierdzić że jedna wartość jest większa/mniejsza (o ile) od innej wartości np. płeć, kolor oczu, kolor włosów, Magdalena Alama-Bućko Statystyka 26 lutego 2018 14 / 34
Cecha porzadkowa można uporzadkować wartości cechy potrafimy stwierdzić, czy dwie wartości sa takie same czy różnia się od siebie można stwierdzić, że jedna wartość jest mniejsza badź równa (większa badź równa) od innej wartości nie można stwierdzić o ile jedna wartość jest większa/mniejsza (o ile) od innej wartości np. wykształcenie Magdalena Alama-Bućko Statystyka 26 lutego 2018 15 / 34
Cecha przedziałowa można uporzadkować wartości cechy można stwierdzić o ile jedna wartość jest mniejsza badź równa (większa badź równa) od innej wartości nie zawsze można stwierdzić ile razy jedna wartość jest większa/mniejsza od innej wartości (gdy np. w punkcie odniesienia jest temperatura 0 stopni) np. pomiar temperatury Magdalena Alama-Bućko Statystyka 26 lutego 2018 16 / 34
Cecha stosunkowa można uporzadkować wartości cechy można stwierdzić o ile jedna wartość jest mniejsza badź równa (większa badź równa) od innej wartości można stwierdzać, ile razy jedna wartość jest większa/mniejsza od innej wartości długość, masa, liczebność zbiorów np. liczba mieszkańców Magdalena Alama-Bućko Statystyka 26 lutego 2018 17 / 34
Rodzaje badań statystycznych Analizowane przez nas dane sa wynikiem przeprowadzonych badań statystycznych. Wyróżniamy trzy metody badań: badania pełne badania niepełne badania szacunkowe Magdalena Alama-Bućko Statystyka 26 lutego 2018 18 / 34
badania pełne trzeba przebadać cała populację bardzo kosztowne albo wręcz niemożliwe (bo cała badana populacja mogłaby zostać zniszczona podczas badania) Narodowy spis ludności, Spis rolny rejestracja bieżaca prowadzona przez główne urzędy, np. USC (urodzenia, zgony, małżeństwa, rozwody) Magdalena Alama-Bućko Statystyka 26 lutego 2018 19 / 34
badania niepełne (inaczej częściowe) badanie tylko części populacji ankiety dokładne przebadanie określonej "grupy" badanych obiektów badania reprezentacyjne (próba reprezentatywna stanowi mini-obraz całej populacji) GUS - Główny Urzad Statystyczny CBOS - Centrum Badań Opini Społecznej Magdalena Alama-Bućko Statystyka 26 lutego 2018 20 / 34
badania szacunkowe czasami możemy wartość pewnej cechy oszacować na podstawie innych cech (np. ilość czasu spędzanego w kinie przez klientów można określić za pomoca liczby sprzedanych biletów ) Magdalena Alama-Bućko Statystyka 26 lutego 2018 21 / 34
Po przeprowadzeniu badań statystycznych, a zatem uzyskaniu danych, można przeprowadzić następujace analizy: Analiza struktury zbiorowości (badania poszczególnych cech) miary położenia miary zmienności miary asymetrii miary koncentracji. Analiza współzależności zjawisk. (badanie czy występuje zależność pomiędzy kilkoma cechami) Analiza dynamiki zjawisk. (badanie jak zmienia się wartość zjawiska w czasie) Magdalena Alama-Bućko Statystyka 26 lutego 2018 22 / 34
W wyniku przeprowadzenia doświadczenia otrzymujemy pewien wynik zwany próbka. Próba losowa (próbka) ma postać x 1, x 2,..., x n Za pomoca tej próby chcemy wyciagn ać wnioski dotyczace całej populacji. Jeżeli próba była wybrana w sposób reprezentatywny - na podstawie tej próby można wyciagać wnioski dotyczace całej populacji. Próba uważana jest za próbę reprezentatywna wtedy i tylko wtedy jeśli została wybrana w sposób losowy i jest dostatecznie liczna. Magdalena Alama-Bućko Statystyka 26 lutego 2018 23 / 34
Przykład Studenci 1 roku FIR 2017/2018 UTP moga być badani ze względu na: wiek - cecha ilościowa, 19,20,... płeć - cecha jakościowa, K,M wzrost - cecha ilościowa (ciagła) kolor oczu - cecha jakościowa, niebieskie, piwne, zielone, itp. ilość rodzeństwa - cecha ilościowa (skokowa), 0, 1, 2,... Magdalena Alama-Bućko Statystyka 26 lutego 2018 24 / 34
Prezentacja danych Załóżmy, że mamy dane podane następujaco {x 1, x 2,..., x n }, czyli w postaci pewnego ciagu liczb. n zazwyczaj jest duże (nawet bardzo duże!!!) Pytanie Jak można te dane zapisać w bardziej przystępny sposób? dane można zapisać w postaci szeregów statystycznych Magdalena Alama-Bućko Statystyka 26 lutego 2018 25 / 34
Szereg szczegółowy (albo prosty) to uporzadkowany rosnaco ciag wartości badanej cechy, czyli próbę (x 1, x 2,..., x n ) porzadkujemy od najmniejszej do największej i otrzymujemy czyli x (1) x (2)... x (n) (x (1), x (2),..., x (n) ) x (j) to wartość na j tej pozycji w takim uporzadkowanym ciagu liczb x (1) to wartość najmniejsza x (n) - wartość największa Przykład Jeśli próba podstawowa ma postać (1, 3, 2, 1, 1, 2, 5), to po uporzadkowaniu otrzymujemy: (1, 1, 1, 2, 2, 3, 5). Magdalena Alama-Bućko Statystyka 26 lutego 2018 26 / 34
Szereg rozdzielczy punktowy Jeżeli po uporzadkowaniu obserwacji wiele z nich się powtarza (i w rezultacie w ciagu n obserwacji mamy N różnych wartości), to dane te można zapisać w postaci zbiorczej tabeli. dla każdej z występujacych wartości x j zliczamy ilość jej wystapień n j i zapisujemy x j n j x 1 n 1 x 2 n 2...... x N n N oczywiście n 1 + n 2 +... + n N = n Magdalena Alama-Bućko Statystyka 26 lutego 2018 27 / 34
Przykład Uporzadkowana próba: (1, 1, 1, 2, 2, 3, 5) może być zapisana w postaci tabeli: x j n j 1 3 2 2 3 1 5 1 W przypadku dużej liczby obserwacji i niewielkiej liczby kategorii szereg rozdzielczy punktowy jest bardzo przejrzystym przedstawieniem danych. Szereg rozdzielczy punktowy zawiera w sobie tę sama informację co szereg szczegółowy. Magdalena Alama-Bućko Statystyka 26 lutego 2018 28 / 34
Przykład Zapytano 1000 studentów pewnej uczelni o liczbę posiadanego rodzeństwa. 350 osób nie ma wcale rodzeństwa, 330 - ma 1, 209-2, 100-3, 10-4 a 1 badany ma 6 rodzeństwa. Szereg rozdzielczy punktowy dla takiej próby ma postać: x j n j 0 350 1 330 2 209 3 100 4 10 6 1 Magdalena Alama-Bućko Statystyka 26 lutego 2018 29 / 34
W przypadku dużej liczby obserwacji i dość dużej liczby kategorii szereg rozdzielczy punktowy nie jest "przejrzysty". Przykład: 1000 obserwacji ale aż 150 kategorii. Wówczas należy połaczyć w grupy kilka kategorii, by otrzymać ich mniej. Magdalena Alama-Bućko Statystyka 26 lutego 2018 30 / 34
Szereg rozdzielczy przedziałowy Stosowany w przypadku dość dużej liczby kategorii albo gdy cecha jest ciagła. Wyznacza się liczbę klas, a następnie zlicza liczbę obserwacji należacych do danej klasy (przedziału). rozstęp z próby : R = x max x min w literaturze jest wiele propozycji wyznaczania liczby klas k i postaci przedziału poczatkowego liczba klas: (zależy od liczby obserwacji) k = n długość pojedynczej klasy: l = R k przedział n j [x min, x min + l] n 1 (x min + l, x min + 2l] n 2...... (x max l, x max ] n k Magdalena Alama-Bućko Statystyka 26 lutego 2018 31 / 34
Przykład W celu scharakteryzowania rozkładu wysokości drzew pewnego drzewostanu dokonano pomiaru 69 drzew, uzyskujac następujace wyniki w metrach. (tutaj już dane uporzadkowane) 4.12 4.25 4.36 4.45 4.50 4.53 4.68 4.70 4.79 4.82 4.90 4.93 5.03 5.06 5.18 5.21 5.29 5.35 5.36 5.40 5.41 5.43 5.49 5.50 5.53 5.59 5.60 5.64 5.70 5.72 5.75 5.76 5.80 5.81 5.89 5.90 5.90 5.92 5.93 6.00 6.05 6.18 6.20 6.25 6.27 6.30 6.35 6.42 6.45 6.49 6.50 6.55 6.60 6.61 6.75 6.78 6.81 6.85 6.91 7.00 7.05 7.21 7.24 7.30 7.35 7.36 7.41 7.46 7.50 x min = 4.12, x max = 7.50, R = 3.38 69 = 8.3 zatem przyjmujemy k = 8 rozpiętość pojedynczej klasy: l = R k = 3.38 8 = 0.43 Magdalena Alama-Bućko Statystyka 26 lutego 2018 32 / 34
przedział n j [4.12, 4.12 + 0.43] = [4.12, 4.55] 6 (4.55, 4.55 + 0.43] = (4.55, 4.98] 6 (4.98, 4.98 + 0.43] = (4.98, 5.41] 9 (5.41, 5.41 + 0.43] = (5.41, 5.84] 13 (5.84, 5.84 + 0.43] = (5.84, 6.27] 11 (6.27, 6.27 + 0.43] = (6.27, 6.7] 9 (6.7, 6.7 + 0.43] = (6.7, 7.13] 7 (7.13, 7.13 + 0.43] = (7.13, 7.56] 8 n =69 4.12 4.25 4.36 4.45 4.50 4.53 4.68 4.70 4.79 4.82 4.90 4.93 5.03 5.06 5.18 5.21 5.29 5.35 5.36 5.40 5.41 5.43 5.49 5.50 5.53 5.59 5.60 5.64 5.70 5.72 5.75 5.76 5.80 5.81 5.89 5.90 5.90 5.92 5.93 6.00 6.05 6.18 6.20 6.25 6.27 6.30 6.35 6.42 6.45 6.49 6.50 6.55 6.60 6.61 6.75 6.78 6.81 6.85 6.91 7.00 7.05 7.21 7.24 7.30 7.35 7.36 7.41 7.46 7.50 Magdalena Alama-Bućko Statystyka 26 lutego 2018 33 / 34
Dziękuję za uwagę! Magdalena Alama-Bućko Statystyka 26 lutego 2018 34 / 34