I WYKŁAD STATYSTYKA 5/03/2014 B8 sala 0.10B Godz. 15:15
STATYSTYKA WYKŁAD I 1. Organizacja zajęć 2. Wstęp do statystyki Prowadzący: Wykłady: 1.prof. Mieczysław Rękas - A-3 IV p. p. 404; rekas@agh.edu.pl Laboratorium: 1. Prof. Mieczysław Rękas - A-3 IV p. p. 404 rekas@agh.edu.pl 2. Dr Małgorzata Dziubaniuk - A-3 IVp ; p.406 dziubaniuk@o2.pl 3. Mgr inż. Agata Smalec - A-3 IV p. p. 416a smalec.agata@gmail.com 4. Mgr inż Małgorzata Wolska A-3 IV p. p. 405 wolska.malgorzata@op.pl 5. Mgr inż. Leszek Cabaj A-3 IV p. p. 415 leszek.cabaj@gmail,com
1.Wstęp 2. Cel przedmiotu 3. Organizacja zajęć: STATYSTYKA A) Wykłady (obecność nieobowiązkowa) środy 15:15-16:45, B8 0.10B B) Laboratorium (obecność obowiązkowa) B6 IV p. 404 a) W semestrze 5 kolokwiów, każde na 0-20 punktów b) Warunek zaliczenia przedmiotu: minimum 50 % (50 pkt) Na następne zajęcia laboratoryjne należy przynieść dysk CD lub pen-drive do wielokrotnych nagrywań
STATYSTYKA LABORATORIUM 1.Podział na grupy w każdej grupie liczba studentów winna wynosić najwyżej 24. Wszelkie zmiany przynależności w poszczególnych grupach mogą zachodzić na drodze pojedynczych (parami) wymian. 2. Organizacja ćwiczeń (laboratorium): Każdy student ma dostarczyć CD ( do wielokrotnego nagrywania) do zapisu rozwiązań zadań (podpisany niezmywalnym pisakiem). Po każdych zajęciach dyski te pozostają pod opieką prowadzących laboratorium. Przeciętnie co 2 gi -3 ci tydzień odbędzie się kolokwium obejmujące samodzielne rozwiązywanie zadań przez studentów z zakresu omawianego na wykładach. Planowane jest 5 kolokwiów w semestrze. Podczas kolokwium dozwolone jest korzystanie z notatek (ściąg), podręczników. Natomiast zabronione są rozmowy z sąsiadami i telefoniczne oraz korzystanie z internetu. Każde kolokwium będzie ocenione w skali od 1 do 20 pkt, ocena pozytywna minimum 10 pkt. Warunkiem uzyskania zaliczenia jest uzyskanie minimum 50 % punktów, tj. : 10* liczba kolokwiów
STATYSTYKA LABORATORIUM (c.d) Nie ma możliwości odrabiania zajęć. Tylko usprawiedliwione nieobecności stanowią podstawę do osiągnięcia wymaganej liczby punktów (osoby te będą dopuszczone do kolokwium zaliczeniowego ). Nieobecności należy usprawiedliwiać bezpośrednio po pierwszym pojawieniu się na zajęciach. Wszelkie reklamacje będą rozpatrywane tylko na podstawie zapisu na CD, brak zapisu na CD jest równoznaczny z oceną: 0 pkt ( studenci muszą zadbać by właściwe zapisy znalazły się na CD!!). 3. Sprawy bieżące można załatwiać następująco: Na zajęciach Po wykładzie Na konsultacjach.
STATYSTYKA LABORATORIUM (c.d) 4. Zajęcia laboratoryjne odbywać się będą w podanych na harmonogramie terminach w sali 404, Bud. B6 5. Wymagana jest od studentów umiejętność posługiwania się komputerem w tym program EXCEL oraz wiedza z zakresu statystyki prezentowana na wykładach. 6. Zadania na kolokwium obejmują : zakres materiału z wykładów, które odbyły się minimum 5 dni wcześniej oraz materiał przerabiany na wcześniejszych ćwiczeniach.
Cel przedmiotu pomoc w opracowaniu wyników pomiarów Erare humanum est (łac) czyli: Błądzić jest rzeczą ludzką, ale ale do tego, żeby naprawdę solidnie naknocić, potrzebny jest komputer
C.d. Człowiek wciąż jest najbardziej niezwykłym ze wszystkich komputerów John F. Kennedy
WYKŁAD 1 1. Przedmiot statystyki 2. Graficzna prezentacja danych typy danych, szereg rozdzielczy, histogram, poligon, częstość skumulowana (dystrybuanta empiryczna) 3. Numeryczne parametry opisowe- miary położenia i rozproszenia
LITERATURA Literatura zalecana: 1. J.Godziszewski, R.Mania, R.Pampuch. Zasady planowania doświadczeń i opracowywania wyników pomiarów, Skrypt uczelniany nr 1093, wyd. II, Wydawnictwo AGH, Kraków 1987 2. John R.Taylor, Wstęp do analizy błędu pomiarowego, PWN Warszawa 1995 3. L.Gajek, M.Kałuszka, Wnioskowanie statystyczne WNT Warszawa 1996 4.C. Gren, Statystyka matematyczna. Modele i zadania, PWN Warszawa 1981 5. G. Keller, B. Warrack, H. Bartel, Statistics for menagement and economics Duxbury Press, Belmont California 1994
Przedmiot statystyki Statystyka zajmuje się metodami zbierania informacji (liczbowych) oraz ich analizą i interpretacją. STATYSTYKA OPISOWA- ANALIZA DANYCH (DESCRIPTIVE STATISTICS) ORGANIZACJA DANYCH PODSUMOWANIE DANYCH PREZENTACJA DANYCH DEDUKCYJNA- MODELOWANIE STOCHASTYCZNE (INFERENTIAL STATISTICS) Podaje metody formułowania wniosków dotyczącej obiektu badań (populacji generalnej) w oparciu o mniej liczny zbiór (próbę) GRAFICZNA NUMERYCZNA
Przedmiot statystyki (c.d) Statystyka opiera się na dziale matematyki zwanym RACHUNKIEM PRAWDOPODOBIEŃSTWA Aktualnie (nie historycznie) rachunek prawdopodobieństwa traktuje się jako część statystyki. Pokrewne przedmioty: MECHANIKA STATYSTYCZNA (zajmuje się licznymi zbiorami takich obiektów jak: cząsteczkami, elektronami, cząstkami elementarnymi itp.) KLASYCZNA (obiekty są rozróżnialne) ROZKŁAD MAXWELLA-BOLTZMANNA KWANTOWA (obiekty są nierozróżnialne) ROZKŁAD FERMIEGO DIRACA ( dla fermionów, podlegających zakazowi Pauliego) ROZKŁAD BOSEGO-EINSTEINA (dla bosonów, niepodlegających zakazowi Pauliego) TERMODYNAMIKA STATYSTYCZNA opiera się na postulacie Boltzmanna, nadający sens fizyczny entropii: S= k ln W
KONIEC Części I
Graficzna prezentacja danych TYPY DANYCH ILOŚCIOWE (QUANTITATIVE, NUMERICAL) Przykłady: Zbiór ludzi: wiek, wzrost, waga, wysokość zarobków (wartości liczbowe) Obliczanie pewnych parametrów jak np. średnia arytmetyczna ma sens JAKOŚCIOWE (QUALITATIVE, CATEGORICAL) Przykłady: Zbiór ludzi: płeć, stan cywilny ( poszczególnym cechom można arbitralnie przypisać wartości liczbowe) Obliczanie parametrów nie ma sensu, można jedynie podawać np. udział procentowy
JAKOŚCIOWE x częstość bezwzględna częstość względna 1 3 2 5 3 10 4 4 5 1 ------------- 23 3/23 = 0,1304 5/23 = 0,2174 10/23=0,4348 4/23= 0,1739 1/23= 0,0435 1,0000
ILOŚCIOWE Wyniki 34 pomiarów (np. wielkość ziaren w [nm], temperatura w kolejnych dniach o godz. 11:00 w [deg.c], czas rozmów telefonicznych w [min] itp. 3,6 11,2 10,2 5,5 13,5 15,3 4,8 12,3 9,1 16,6 15,3 11,7 6,2 9,6 6,2 15,3 8,9 8,3 6,8 6,2 6,2 12,1 8,1 15,3 18,7 15,3 19,5 11,8 8,5 10,4 11,4 7,2 8,2 2,3 Tak podane wartości są mało czytelne!!
HISTOGRAM Sporządzanie wykresu (histogramu): 1. Uporządkować zbiór wg. rosnących (lub malejących ) wartości program Exel ma taką opcję. 2. Wyniki próby (o liczebności n ) stanowią zbiór n-liczb ( niekoniecznie różniących się od siebie). Celem ich ilustracji dzieli się je na klasy, tworząc tzw. szereg rozdzielczy. 3. Szerokość poszczególnych klas nie musi być taka sama, chociaż zwykle stosuje się klasy o tej samej szerokości. 4. Ilość klas nie może być zbyt mała (rys a, b) ani też zbyt liczna (rys c). Najbardziej optymalną liczbę klas, k, określa reguła Sturge sa : n=34 => k= 5.59 6 Liczebność próbki, n Poniżej 50 50-200 200-500 500-1 000 1 000-5 000 5 000-50 000 Powyżej 50 000 Liczba klas, k 5-7 7-9 9-10 10-11 11-13 13-17 17-20
HISTOGRAM -PRZYKŁADY
HISTOGRAM -PRZYKŁADY
HISTOGRAM -PRZYKŁADY
HISTOGRAM -PRZYKŁADY
HISTOGRAM -PRZYKŁADY
HISTOGRAM -PRZYKŁADY reguła Sturge sa : Pierwotny zbiór (nieuporządkowany) 3,6 11,2 10,2 5,5 13,5 12,3 9,1 16,6 15,3 11,7 6,2 15,3 8,9 8,3 6,8 12,1 8,1 15,3 18,7 15,3 8,5 10,4 11,4 7,2 8,2 4,8 9,6 6,2 2,3 11,8 15,3 6,2 6,2 19,5 n=34 => k= 5.59 6 K L A S Y cz.bezwzgl cz.wzgl od do nk nk/34 Zbiór uporządkowany 2,3 3,6 4,8 5,5 6,2 6,2 6,2 6,2 6,8 7,2 8,1 8,2 8,3 8,5 8,9 9,1 9,6 10,2 10,4 11,2 11,4 11,7 11,8 12,1 12,3 13,5 15,3 15,3 15,3 15,3 15,3 16,6 18,7 19,5-2 0 0 2 5 3 0,088 5 8 7 0,206 8 11 9 0,265 11 14 7 0,206 14 17 6 0,176 17 20 2 0,059
HISTOGRAM -PRZYKŁADY reguła Sturge sa n=34 => k= 5.59 6
HISTOGRAM Drugi Przykład Przykład 2 ( wyniki x przyjmują wartości całkowite) Wyniki x [kg] z 18 pomiarów (n=18): 20, 19, 16, 18, 24, 18,19, 21,19, 22, 18, 19, 19, 20, 19, 20, 21, 20 Porządkujemy (np. rosnąco): 16, 18,18,18, 19,19,19,19,19,19, 20,20,20, 20,21,21,22,24 W Tabeli zestawiamy różne wartości x k podając liczbę n k określającą, ile razy występuje dana wartość: Tabela 1 Różne wartości x k 16 17 18 19 20 21 22 23 24 Krotności ich 1 0 3 6 4 2 1 0 1 występowania n k Częstości w k 0,056 0,000 0,167 0,333 0,222 0,111 0,056 0,000 0,056
HISTOGRAM Drugi Przykład (c.d) Sporządzamy wykres w k = f(x k ) HISTOGRAM SŁUPKOWY
HISTOGRAM Wyznaczanie średniej z szeregu rozdzielczego Średnią arytmetyczną wyników można obliczać następująco: w k częstość wyniku k, łatwo zauważyć: - warunek normalizacji
HISTOGRAM Trzeci Przykład (c.d) Przykład3 Wyniki x [m] z 10 pomiarów (n=10): 26,4; 23,9; 25,1; 24,6; 22,7; 23,8; 25,1; 23,9; 25,3 25,4 Wyniki dzielimy na przedziały (komórki). Szerokość k-tej komórki oznaczamy przez Δ k ( szerokości te nie muszą być sobie równe). Ilość przedziałów ani zbyt mała, ani też zbyt duża. Jeżeli zdarzy się, że wartość leży dokładnie na granicy pomiędzy dwoma komórkami, to należy przypisać połowy pomiaru do każdej komórki (oznacza to, że n k nie musi być całkowite!) Przedział 22-23 23-24 24-25 25-26 26-27 27-28 Liczba pomiarów w przedziale, n k 1 3 1 4 1 0 Szerokość komórki, Δ k 1 1 1 1 1 1 Częstość pomiarów w przedziale, w k =n k /n 0,1 0,3 0,1 0,4 0,1 0,0 Wysokość prostokąta, f k =w k / Δ k 0,1 0,3 0,1 0,4 0,1 0,0
HISTOGRAM Trzeci Przykład HISTOGRAM KOMÓRKOWY
ROZKŁAD GRANICZNY
ROZKŁAD NORMALNY
Rys. 5 Rozkład Gaussa dla X=4, σ=2 : N(4,2)
POLIGON od do n k f k x srodkowy - 2 0 0-2 5 3 0,088 3,5 5 8 7 0,206 6,5 8 11 9 0,265 9,5 11 14 7 0,206 12,5 14 17 6 0,176 15,5 17 20 2 0,059 18,5
POLIGON
POLIGON &HISTOGRAM
DYSTRYBUANTA EMPIRYCZNA od do n k f k x srodkowy Σf k - 2 0 0-0 2 5 3 0,088 3,5 0,088 5 8 7 0,206 6,5 0,294 8 11 9 0,265 9,5 0,559 11 14 7 0,206 12,5 0,765 14 17 6 0,176 15,5 0,941 17 20 2 0,059 18,5 1,000
DYSTRYBUANTA EMPIRYCZNA
Stem and leaf display (Pokaz pnia i liści) Przykład: roczne zarobki 30 pracowników [k$] 19.1 19.8 18.0 19.2 19.5 17.3 20.0 20.3 19.6 18.5 18.1 19.7 18.4 17.6 21.2 19.7 22.2 19.1 21.1 19.3 20.8 21.2 21.0 18.7 19.9 18.7 22.1 17.2 18.4 21.4 STEM- cyfry przed przecinkiem, LEAF- cyfry po przecinku, np. dla 3 pierwszych pozycji: INCOME STEM LEAF 19.1 19.8 19 18 18.0 18 0 Dla wszystkich danych: STEM 17 18 19 20 21 22 LEAF 623 4705147 1983627571 038 12204 12
Stem and leaf display dla: 1-ego przykładu (histogram) Wyniki 34 pomiarów 3,6 11,2 10,2 5,5 13,5 15,3 4,8 12,3 9,1 16,6 15,3 11,7 6,2 9,6 6,2 15,3 8,9 8,3 6,8 6,2 6,2 12,1 8,1 15,3 18,7 15,3 19,5 11,8 8,5 10,4 11,4 7,2 8,2 2,3 STEM 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 LEAF 3 6 8 5 22822 2 93152 16 24 2784 31 5 33333 6 7 5
NUMERYCZNE MIARY OPISOWE MIARY (PARAMETRY) OPISOWE POŁOŻENIA ŚREDNIA MEDIANA MODA ROZPROSZENIA WARIANCJA (ODCHYLENIE STANDARDOWE) ROZSTĘP
NUMERYCZNE MIARY OPISOWE Średnia Arytmetyczna A) Parametry położenia x i elementy zbioru n-elementowego (niekoniecznie różnych). Jeśli wiele elementów w zbiorze ma tę samą wartość, wówczas dzieląc zbiór na klasy zawierające identyczne elementy o liczebnościach n k mamy: gdzie:, p liczba klas (p n) łatwo zauważyć: jest to tzw. warunek normalizacji
NUMERYCZNE MIARY OPISOWE Srednia arytmetyczna c.d Przykład 1: Średnia ze zbioru 6-ciu pomiarów (n=6) : 7, 3, 9, -2, 4, 6 wynosi: Przykład 2: Średnia z pomiarów zestawionych w tabeli: x k n k f k 11,3 1 0,04545 12,5 3 0,13636 10,7 2 0,09091 13 5 0,22727 13,9 4 0,18182 14,1 1 0,04545 14,4 2 0,09091 14,9 2 0,09091 15,1 1 0,04545 15,5 1 0,04545 Suma 22 1.0000
NUMERYCZNE MIARY OPISOWE Mediana, Moda Mediana uporządkowanego zbioru n- pomiarów jest to wartość środkowa. Gdy n jest nieparzyste to mediana jest równa wartości środkowej x k, dla n parzystego jest średnią dwu środkowych wartości x. Przykład 1. Dla zbioru: 26, 26, 28, 29, 30, 32, 60 mediana= 29 Przykład 2: Dla zbioru: 26, 26, 28, 29, 30, 32 mediana =(28+29)/2 = 28,5 Moda zbioru pomiarów jest to wartość, która pojawia się najczęściej (gdy na wykresie częstości : f k = f(x k ) pojawiają się 2 maxima zbiór dwumodalny, itd
NUMERYCZNE MIARY OPISOWE A) Parametry położenia
NUMERYCZNE MIARY OPISOWE B) Parametry rozproszenia DUŻE ROZPROSZENIE NISKIE ROZPROSZENIE
NUMERYCZNE MIARY OPISOWE B) Parametry rozproszenia- rozstęp ROZSTĘP = x max - x min
NUMERYCZNE MIARY OPISOWE B) Parametry rozproszenia ROZSTEP = x max - x min
NUMERYCZNE MIARY OPISOWE B) Parametry rozproszenia- wariancja Wariancja z próby (n- elementowej): Wariancja z populacji (N- elementowej): µ -średnia z populacji (wartość oczekiwana) Pożyteczny wzór:
NUMERYCZNE MIARY OPISOWE B) Parametry rozproszenia-odchylenie standardowe Odchylenie standardowe próby Lub: Błąd standardowy Odchylenie standardowe (populacji)
FUNKCJE STATYSTYCZNE EXCEL EXCEL Formuły Wstaw funkcję Statystyczne MEDIANA MAX MIN ROZSTĘP= MAX-MIN ODCH.STANDARDOWE ŚREDNIA WARIANCJA