Adam Zaborski - Statystyka

Podobne dokumenty
1 Podstawy rachunku prawdopodobieństwa

Analiza niepewności pomiarów

Weryfikacja hipotez statystycznych

Pobieranie prób i rozkład z próby

Podstawy opracowania wyników pomiarów z elementami analizy niepewności statystycznych

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

INFORMATYKA W CHEMII Dr Piotr Szczepański

Wstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński

LABORATORIUM Z FIZYKI

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Podstawy opracowania wyników pomiarów z elementami analizy niepewności pomiarowych

Metody probabilistyczne

Statystyczne Metody Opracowania Wyników Pomiarów

Rozkłady statystyk z próby

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Określanie niepewności pomiaru

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Metody Statystyczne. Metody Statystyczne.

Wnioskowanie statystyczne. Statystyka w 5

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Podstawy opracowania wyników pomiarów z elementami analizy niepewności pomiarowych. Wykład tutora na bazie wykładu prof. Marka Stankiewicza

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

WSKAZÓWKI DO WYKONANIA SPRAWOZDANIA Z WYRÓWNAWCZYCH ZAJĘĆ LABORATORYJNYCH

Estymacja punktowa i przedziałowa

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Oszacowanie i rozkład t

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Wykład 9 Wnioskowanie o średnich

AKADEMIA GÓRNICZO-HUTNICZA Wydział Matematyki Stosowanej ROZKŁAD NORMALNY ROZKŁAD GAUSSA

PODSTAWY OPRACOWANIA WYNIKÓW POMIARÓW Z ELEMENTAMI ANALIZY NIEPEWNOŚCI POMIAROWYCH

Rozkład Gaussa i test χ2

Podstawy opracowania wyników pomiarów z elementami analizy niepewności pomiarowych. Wykład tutora na bazie wykładu prof. Marka Stankiewicza

Niepewność pomiaru. Wynik pomiaru X jest znany z możliwa do określenia niepewnością. jest bledem bezwzględnym pomiaru

Często spotykany jest również asymetryczny rozkład gamma (Г), opisany za pomocą parametru skali θ i parametru kształtu k:

SMOP - wykład. Rozkład normalny zasady przenoszenia błędów. Ewa Pawelec

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

STATYSTYKA MATEMATYCZNA

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

STATYSTYKA MATEMATYCZNA narzędzie do opracowywania i interpretacji wyników pomiarów

Prawdopodobieństwo i rozkład normalny cd.

Rozkłady statystyk z próby. Statystyka

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi

Podstawy opracowania wyników pomiarów z elementami analizy niepewności pomiarowych

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

METODY STATYSTYCZNE W BIOLOGII

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyczne Metody Opracowania Wyników Pomiarów

Z Wikipedii, wolnej encyklopedii.

PODSTAWOWE ROZKŁADY PRAWDOPODOBIEŃSTWA. Piotr Wiącek

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

Statystyczne metody analizy danych

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Zadania ze statystyki cz.8. Zadanie 1.

Teoria błędów. Wszystkie wartości wielkości fizycznych obarczone są pewnym błędem.

Analiza statystyczna w naukach przyrodniczych

Estymacja przedziałowa. Przedział ufności

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

BADANIE POWTARZALNOŚCI PRZYRZĄDU POMIAROWEGO

STATYSTYKA MATEMATYCZNA WYKŁAD 3. Populacje i próby danych

Testowanie hipotez statystycznych

Jeśli powyższy opis nie jest zrozumiały należy powtórzyć zagadnienie standaryzacji zanim przejdzie się dalej!

Próbkowanie. Wykład 4 Próbkowanie i rozkłady próbkowe. Populacja a próba. Błędy w póbkowaniu, cd, Przykład 1 (Ochotnicy)

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

Rozkład normalny, niepewność standardowa typu A

Podstawy opracowania wyników pomiarów

Z poprzedniego wykładu

Zawartość. Zawartość

Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n)

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Spis treści 3 SPIS TREŚCI

W1. Wprowadzenie. Statystyka opisowa

Hipotezy statystyczne

Wykład 3 Hipotezy statystyczne

RACHUNEK PRAWDOPODOBIEŃSTWA I STATYSTYKA MATEMATYCZNA

Wykład 5: Statystyki opisowe (część 2)

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyczne Metody Opracowania Wyników Pomiarów

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Analiza i monitoring środowiska

Hipotezy statystyczne

Testowanie hipotez statystycznych.

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

Transkrypt:

STATYSTYKA Statystyka jest nauką dotyczącą gromadzenia, organizacji i interpretacji danych, dostarczającą narzędzi do przewidywania i prognozowania na podstawie danych i modeli statystycznych. Istnieją trzy rodzaje kłamstw: kłamstwa, cholerne kłamstwa i statystyka. Statystyka jest jak bikini: pokazuje to co sugestywne a zakrywa to co życiowe. Bardzo łatwo można manipulować wynikami poprzez wybór odpowiedniej próbki. Takie manipulacje niekoniecznie muszą być zamierzone i celowe, mogą wynikać z nieuświadomionych uprzedzeń badających. Wykresy używane do podsumowania danych również mogą być mylące. Różnica statystycznie znacząca może nie mieć praktycznego znaczenia. Na przykład, chcemy zapalić silnik. Zauważamy, że za każdym razem gdy nie możemy uruchomić silnika nie możemy włączyć także świateł. Możliwy jest zatem wniosek, że awaria świateł powoduje niemożność uruchomienia silnika. Ale przecież oba zjawiska naprawdę są spowodowane rozładowaniem akumulatora (i prawdopodobnie złym działaniem alternatora). Wybrany podzbiór z całej populacji nazywany jest próbką.

Jeśli próbka ma posłużyć do odwzorowania całej populacji, istotne jest aby była reprezentatywna. Najczęściej badana jest jedynie próbka z całej populacji a wnioski są wyciągane odnośnie całej populacji. Statystyka opisowa podsumowuje dane numerycznie lub graficznie (np. średnia, odchylenie standardowe dla wielkości ciągłych, częstość i procentowość dla danych dyskretnych czy kategoryzowanych). Statystka wnioskowania dostarcza wniosków odnośnie całej populacji: odpowiedzi tak/nie na zapytania, oszacowanie liczbowe charakterystyk, opis korelacji, modelowanie zależności (regresji), ekstrapolacja, interpolacja i inne techniki modelowania. Powszechnym błędem jest przyjmowanie częstości statystycznej (wyrażonej w %) jako prawdopodobieństwa (również w %). Taka sama jednostka obu zmiennych nie oznacza jednak że zmienne są takie same. Na przykład, w statystyce 95 % oznacza, że coś wydarzy się w 95% na 100 powtórzeń. To niedokładnie to samo co 95% prawdopodobieństwo zdarzenia,

Dokładność i precyzja Czy zawsze potrzebujemy dokładnej wartości jakiejś wielkości? Oczywiście że nie. Czasem potrzebujemy jedynie jakościowych informacji albo zgrubne oszacowanie nam wystarcza. Weźmy pod uwagę osiadanie budynku. Załóżmy że obok budynku wykonywano głębokie wykopy. Chcemy jedynie informacji czy osiadanie przebiega nadal, czy jest to proces zakończony. Odpowiedź na to pytanie możemy uzyskać drogą prostego doświadczenia naklejenia markerów a niekoniecznie działania zasługującego na miano pomiaru. Dokładność pomiaru to stopień zbliżenia pomiaru do rzeczywistej wartości mierzonej wielkości. Precyzja, zwana też powtarzalnością lub odtwarzalnością, to stopień w jakim powtarzane pomiary w niezmienionych warunkach dają takie same wyniki. Choć w języku potocznym oba słowa oznaczają to samo, są celowo rozróżniane w kontekście naukowych metod badawczych.

System pomiarowy może być dokładny ale nieprecyzyjny, precyzyjny ale niedokładny, dokładny i precyzyjny albo niedokładny i nieprecyzyjny. Na przykład, jeśli jakiś pomiar zawiera błąd systematyczny, dokładność jest niewielka. Pomiar jest uznawany za prawidłowy jeśli jest zarówno dokładny jak i precyzyjny. Związane z tym określenia to szum (dla wielkości nielosowych) oraz błąd (zmienność losowa). Dokładność to poprawność pomiaru, precyzja to możliwość odnotowania mniejszych różnic.

Najlepiej dokładność i precyzję obrazuje analogia do tarczy strzeleckiej: Duża dokładność, mała precyzja i duża precyzja, mała dokładność Poza dokładnością i precyzją mamy jeszcze czułość, czyli najmniejszą zmianę mierzonej wielkości wychwytywaną pomiarem. Uwaga: nie wolno sztucznie zawyżać czułość przyrządu pomiarowego ponad ustaloną przez wytwórcę: zazwyczaj jeśli nie powiedziano inaczej jest to najmniejsza działka na skali przyrządu. Powszechną konwencją w nauce i technice jest wyrażanie dokładności i precyzji poprzez liczbę cyfr znaczących. Na przykład:: 8 x 10 3 m oznacza 800 metrów (margines błędu nieznany, nieokreślony) 8.0 x 10 3 oznacza margines błędu 50 metrów 8.00 x 10 3 oznacza margines błędu 5 metrów

8.000 x 10 3 oznacza margines błędu 50 centymetrów. Rozkład normalny (rozkład Gaussa) jest ciągłym rozkładem prawdopodobieństwa w postaci krzywej dzwonowej z maksimum dla wartości średniej: f ( x µ ) 1 2 2σ ( x) = e gdzie: 2 2πσ µ średnia, określa położenie centralnego maksimum krzywej 2 σ wariancja, określa szerokość krzywej, niektórzy używają odwrotności nazywanej precyzją, jeśli jest równa zero, funkcja gęstości prawdopodobieństwa nie istnieje: jest wtedy funkcją delta-diraca, równą nieskończoność dla średniej i zero wszędzie indziej. Rozkład o średniej 0 i wariancji 1 nazywany jest rozkładem normalnym standardowym: pole pod krzywą jest równe 1 i ½ w wykładniku daje szerokość krzywej (połowa odległości pomiędzy punktami przegięcia) również równą 1.

Rozkład normalny funkcji gęstości prawdopodobieństwa Rozkład normalny jest często używany do opisu, przynajmniej przybliżonego, zmiennych które wykazują tendencję skupiania się wokół średniej. Zakłada się że błąd obserwacji podlega rozkładowi normalnemu, i rozrzut jest obliczany przy takim założeniu. Na podstawie centralnego twierdzenia granicznego, pod pewnymi założeniami suma pewnej liczby zmiennych losowych ze skończoną wartością średniej i wariancji zmierza do rozkładu normalnego przy rosnącej liczbie zmiennych.

Ze wszystkich rozkładów, rozkład normalny odpowiada maksimum entropii. Dwa estymatory σ i s różnią się poprzez (n-1) zamiast n (dla całej populacji). Kiedy na wynik pomiaru wpływa duża liczba niewielkich efektów addytywnych i niezależnych, ich rozkład losowy jest bliski normalnemu. Błędy pomiaru w fizyce eksperymentalnej są często przyjmowane według rozkładu normalnego. Niektóre inne rozkłady: dwumianowy, Poissona, chi-kwadrat, Studenta, mogą być aproksymowane rozkładem normalnym, jeśli próbka jest duża. Średnia - arytmetyczna, (AM): średnia arytmetyczna wartości; niekoniecznie to samo co wartość środkowa (mediana), albo największa (moda); na przykład średni dochód jest zawyżony przez niewielką liczbę osób o wysokich dochodach, tak że większość ma dochody poniżej średniej; mediana dochodu jest poziomem dochodu takim, że połowa populacji ma dochody powyżej a połowa poniżej tej wartości; moda dochodu to najpowszechniej występujący dochód, faworyzuje liczną grupę osób z niższym dochodem

- średnia geometryczna, (GM), jest użyteczna dla zbiorów dodatnich liczb interpretowanych zgodnie z ich iloczynem a nie sumą, np. szybkość wzrostu - harmoniczna średnia, (HM), używana jest dla zbiorów liczb definiowanych w relacji do pewnej jednostki, np. prędkość - powyższe średnie spełniają nierówności: (AM) >= (GM) >= (HM). Średnia populacji a średnia próbki: - Średnia populacji jest wielkością losową a nie stałą. - Średnia próbki może się różnić od średniej populacji, zwłaszcza dla małych próbek, ale z prawa wielkich liczb wynika że im większa próbka tym bardziej średnia próbki będzie bliższa średniej populacji. Wariancja Opisuje rozrzut wartości od wartości średniej. Jednostką wariancji jest pierwiastek z jednostki zmiennej. Z tego powodu częściej używa się odchylenia standardowego.

Odchylenie standardowe Jest to pierwiastek kwadratowy z wariancji, stanowi miarę zmienności czy rozrzutu; czy dane są bardzo blisko średniej czy bardziej rozrzucone. Odchylenie standardowe jest często używane do określania przedziału ufności we wnioskowaniu statystycznym. SD, przeciwnie do wariancji ma jednostkę taką samą jak zmienna. Krzywa dzwonowa. Każde pasmo ma szerokość równą SD (68%, 95%, 99.7%)

Przedział ufności Używany jest do wskazania wiarygodności oszacowania. Zwiększając poziom ufności, zwiększamy przedział ufności. Przedział ufności jest zawsze określany poprzez określony poziom ufności, zwykle wyrażony w procentach; mówi się o 95% przedziale ufności. Punkty skrajne tego przedziału nazywa się granicami ufności. Formalnie 95% przedział ufności oznacza, że przy powtarzaniu próbkowania w niezmiennych warunkach, przedział będzie zawierał prawdziwe wartości w 95 % przypadków. Nie oznacza to, że prawdopodobieństwo iż prawdziwa wartość jest w przedziale ufności wynosi 95%. (Jest To prawda dla tzw. przedziałów zaufania w statystyce Bayesa). Obliczenie przedziału ufności wymaga założeń odnośnie do natury procesu oszacowania, np. że rozkład populacji z której pobrano próbkę jest rozkładem normalnym. Cechami pożądanymi są: - stabilność (przedział ufności nie zmienia się)

- optymalność (przedział ufności określa się z jak największej ilości danych) - niezmienności (niezależność od współrzędnych) Skośność Jest to miara asymetrii rozkładu prawdopodobieństwa zmiennej wokół średniej.

Rozkład t-studenta Jest to ciągły rozkład prawdopodobieństwa używany w problemach określania średniej dla populacji o rozkładzie normalnym przy małej próbce. Używamy go, gdy (jak to jest prawie w każdym zadaniu statystyki) odchylenie standardowe populacji nie jest znane i ma być wyznaczone na podstawie danych. Są ogólnie dwa rodzaje problemów: 1. rozmiar próbki jest tak duży, że można traktować wariancję jako pewną wartość 2. odchylenie standardowe jest nieznane. Rozkład funkcji gęstości prawdopodobieństwa rozkładu t-studenta przypomina krzywą dzwonową o średniej 0 i wariancji 1, choć jest nieco niżej i szerzej. Gdy liczba stopni swobody rośnie, rozkład t-studenta zbliża się do rozkładu normalnego o średniej 0 i wariancji 1.

Funkcja gęstości prawdopodobieństwa

Często ustala się liczbę stopni swobody na niewielkim poziomie i szacuje się inne parametry przyjmując stopnie swobody jako zadane. Niektórzy autorzy podają że już wartości pomiędzy 3 a 9 są często dobrym wyborem. Praktyczne wzory wartość średnia x m xi = n odchylenie standardowe próbki z populacji: i S x = i S x przedział ufności = t( n 1) α, n gdzie t - współczynnik rozkładu t-studenta ( n 1) α ( x x ) i n 1 Wynik ze spodziewaną częstością α% jest zawarty w przedziale: m 2 x = x m ±.

Wzory i kolejność obliczeń: Pomiar bezpośredni wartość średnia x m odchylenie standardowe S x przedział ufności końcowy wynik x = ± x m Pomiar pośredni jednej zmiennej y = f ( x) wartość średnia y = f ( x ) m odchylenie standardowe S = f ' ( x) S m y x przedział ufności y końcowy wynik y = y m ± Pomiar pośredni wielu wartości. Dla funkcji wielu zmiennych y = f ( x,, x k ) 1 K

wartość średnia y m dla i = 1, K, k odchylenie standardowe S xi dla i = 1, K, k przedział ufności xi dla i = 1, K, k f f przedział ufności y = x xk + + x 1 K x końcowe wyniki y = y m ± y 1 2 2 k TABLICA ROZKŁADU t STUDENTA (DLA POZIOMU UFNOŚCI 95 %) r t rα r t rα r t rα r t rα r t rα 1 12.706 9 2.262 17 2.110 25 2.060 60 2.000 2 4.303 10 2.228 18 2.101 26 2.056 3 3.182 11 2.201 19 2.093 27 2.052 100 1.980 4 2.776 12 2.179 20 2.086 28 2.048 5 2.571 13 2.160 21 2.080 29 2.045 1.960 6 2.447 14 2.145 22 2.074 30 2.042 7 2.365 15 2.131 23 2.069 8 2.306 16 2.120 24 2.064 40 2.021 r = n - 1

Przykład P a l P a b h M Mamy 4 pomiary dla obciążania4 dla odciążania dla obu czujników, 16 pomiarów w sumie. Obliczamy różnice(zmianę wskazań czujników), notują wyniki: 1.06, 1.08, 1.03, 1.04, 1.06, 1.07, 1.08, 1.09, 1.05, 1.06, 1.05, 1.07, 1.07, 1.07, 1.05, 1.04, 1.06 Mamy wzór końcowy: Obliczamy: - średnia x = 1. 060 mm,

- średnia E = 208 GPa - odchylenie standardowe dla pomiaru ugięć:: S = 0. 01633 mm - odchylenie standardowe dla pomiaru pośredniego modułu Younga: S = 3. 208 GPa - przedział ufności: GPa - końcowy wynik zapisujemy: GPa x E