Wprowadzenie do statystyki oraz analizy danych

Podobne dokumenty
Wprowadzenie do statystyki oraz analizy danych

Wprowadzenie do statystyki oraz analizy danych

Wprowadzenie do statystyki oraz analizy danych

Weryfikacja hipotez statystycznych

Metody Statystyczne. Metody Statystyczne.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Ważne rozkłady i twierdzenia c.d.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Komputerowa Analiza Danych Doświadczalnych

Rozkłady statystyk z próby

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Testowanie hipotez statystycznych

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Wnioskowanie statystyczne. Statystyka w 5

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Spis treści 3 SPIS TREŚCI

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Pobieranie prób i rozkład z próby

STATYSTYKA MATEMATYCZNA

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Estymacja punktowa i przedziałowa

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Wynik pomiaru jako zmienna losowa

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

WSKAZÓWKI DO WYKONANIA SPRAWOZDANIA Z WYRÓWNAWCZYCH ZAJĘĆ LABORATORYJNYCH

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

Statystyczne Metody Opracowania Wyników Pomiarów

Podstawy opracowania wyników pomiarów z elementami analizy niepewności pomiarowych. Wykład tutora na bazie wykładu prof. Marka Stankiewicza

KORELACJE I REGRESJA LINIOWA

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Rozkłady statystyk z próby. Statystyka

METODY STATYSTYCZNE W BIOLOGII

Oszacowanie i rozkład t

Prawdopodobieństwo i rozkład normalny cd.

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

WYKŁAD 2. Zdarzenia losowe i prawdopodobieństwo Zmienna losowa i jej rozkłady

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Testowanie hipotez statystycznych. Wprowadzenie

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Testowanie hipotez statystycznych.

Zadania ze statystyki, cz.6

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW

Podstawy opracowania wyników pomiarów z elementami analizy niepewności pomiarowych. Wykład tutora na bazie wykładu prof. Marka Stankiewicza

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 1) Dariusz Gozdowski

Statystyka matematyczna dla leśników

Statystyka w analizie i planowaniu eksperymentu

WYKŁAD 5 TEORIA ESTYMACJI II

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Statystyka w analizie i planowaniu eksperymentu

Podstawy opracowania wyników pomiarów z elementami analizy niepewności statystycznych

Dokładne i graniczne rozkłady statystyk z próby

Testowanie hipotez statystycznych.

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Metoda największej wiarygodności

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

STATYSTYKA MATEMATYCZNA. rachunek prawdopodobieństwa

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

Ważne rozkłady i twierdzenia

1 Podstawy rachunku prawdopodobieństwa

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Estymacja parametrów, przedziały ufności etc

Zmienne losowe, statystyki próbkowe. Wrocław, 2 marca 2015

LABORATORIUM Z FIZYKI

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

Rachunek Prawdopodobieństwa i Statystyka

Wstęp do probabilistyki i statystyki. Wykład 4. Statystyki i estymacja parametrów

Testowanie hipotez statystycznych

Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe

STATYSTYKA wykład 5-6

Metoda najmniejszych kwadratów

O ŚREDNIEJ ARYTMETYCZNEJ I MEDIANIE

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

1 Estymacja przedziałowa

Statystyka w przykładach

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Elektrotechnika II [ Laboratorium Grupa 1 ] 2016/2017 Zimowy. [ Laboratorium Grupa 2 ] 2016/2017 Zimowy

IV WYKŁAD STATYSTYKA. 26/03/2014 B8 sala 0.10B Godz. 15:15

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

STATYSTYKA I DOŚWIADCZALNICTWO

Wstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński

Metody probabilistyczne

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

Transkrypt:

Wprowadzenie do statystyki oraz analizy danych Marcin Wolter IFJ PAN 9 lipca 2015 1

Statystyka Statystyka nauka, która bada i opisuje zjawiska losowe. Pierwsze prace أبو يوسف يعقوب بن إسحاق الصبباح الكندي Al-Kindi (801-873) użył statystyki do złamania szyfru Cezara, badał częstość występowania poszczególnych liter. 2

Szyfr Cezara Każdą literę tekstu zastępujemy inną przesuniętą o n liter: A B C D E C D E F G Ogólnie szyfr podstawieniowy (każdą literę zastępujemy inną, zawsze tą samą) A B C D E Z D P G T Analiza częstościowa badamy częstość występowania poszczególnych liter. Częstość występowania poszczególnych liter w języku angielskim. 3

Statystyka Impuls do rozwoju dały badania demograficzne oraz nad grami losowymi. 1663 John Graunt Natural and Political Observations upon the Bills of Mortality. 4

Co to jest zdarzenie oraz prawdopodobieństwo? Zdarzeniem elementarnym będziemy nazywać każdy wynik eksperymentu (doświadczenia), którego wartość będzie zależeć od przypadku. Jest to pojęcie pierwotne teorii prawdopodobieństwa. Prawdopodobieństwem (w sensie definicji częstościowej) zdarzenia A nazywamy granicę (przy N dążącym do nieskończoności) stosunku liczby prób n przy której zaszło zdarzenie A do liczby wykonanych prób N: n P ( A)= lim N N Jakie jest prawdopodobieństwo wyrzucenia 6 w rzucie kostką? Takie, jaka część nieskończonej serii rzutów da nam w wyniku 6. Definicja pochodzi od Abrahama de Moivre a (1667-1754) napisał pierwszy podręcznik statystyki The Doctrine of Chances (1718). 5

Definicja Bayesa Prawdopodobieństwo a priori, czyli bezwarunkowe, jest rozumiane jako miara przekonania, opartego na racjonalnych przesłankach, że dane wydarzenie nastąpi. W następnym dopiero kroku wykonujemy doświadczenia, czyli obserwacje, a ich wyniki pozwalają zmodyfikować wstępne oczekiwania. Otrzymujemy prawdopodobieństwo a posteriori, czyli prawdopodobieństwo wynikowe, które jest miarą oczekiwania wystąpienia danego zdarzenia po zanalizowaniu przeprowadzonych obserwacji. Zwolennikami podejścia Bayesa byli P. S. Laplace, H. Poincare czy też znany ekonomista John Keynes, argumentując, że w taki właśnie sposób przebiega nasze poznawanie świata. Thomas Bayes (1702-1761) brytyjski matematyk i duchowny prezbiteriański. Najistotniejsze dzieło: Essay Towards Solving a Problem in the Doctrine of Chances. 6

Definicja Bayesa Zdarzenie niepowtarzalne: jakie mamy prawdopodobieństwo zdać egzamin? Na podstawie niepełnej wiedzy szacujemy: ½ (prawdopodobieństwo a priori). Jeśli wszystkie cztery osoby przed nami nie zdały egzaminu, a szacujemy że nasz zasób wiedzy nie jest znacząco większy, to czy w wyniku eksperymentu nie zweryfikujemy naszego oszacowania? 7

Inne definicje prawdopodobieństwa Prawdopodobieństwo możemy definiować na wiele sposobów, niekoniecznie tak, jak de Moivre... Андреей Николаеевич Колмогоеров (1903-1987) Definicja aksjomatyczna Kołmogorowa: prawdopodobieństwem nazywamy taką funkcję P zdefiniowaną na przestrzeni zdarzeń elementarnych, która każdemu zdarzeniu A przyporządkowuje liczbę P(A), taką że: P(A) 0 dla każdego zdarzenia A P(A)=1 dla zdarzenia pewnego A P ( A B)= P( A )+P(B) wykluczają się). gdy zdarzenia A i B są rozłączne (wzajemnie 8

Błędy pomiarów Każdy pomiar wielkości fizycznej obarczony jest pewnym błędem. Błąd systematyczny polega na systematycznym odchyleniu wyniku pomiaru względem rzeczywistej wartości wielkości mierzonej. Czasami daje się uwzględnić istnienie tego błędu i otrzymany wynik skorygować numerycznie po pomiarze. Zawsze należy go oszacować. Mierzymy czas biegu na 100m stoperem, który systematycznie spieszy. Każdy zawodnik ma czas trochę dłuższy od rzeczywistego. Błąd przypadkowy (statystyczny) jest miarą rozrzutu otrzymywanych wyników wokół wartości najbardziej prawdopodobnej. Błąd taki wynika albo z metody wykonywania pomiaru albo z samej natury zjawiska (np. liczba impulsów zliczanych przez detektor promieniowania). Ręczny stoper włączamy trochę wcześniej lub trochę później, za każdym razem nieco inaczej. Gdyby naraz kilka osób mierzyło czas stoperem, to średni zmierzony czas byłby dobrym estymatorem rzeczywistego czasu biegu. 9

Analiza błędów Analiza błędów powie nam, czy i w jakim stopniu obserwowany efekt jest znaczący (np. odkrycie bozonu Higgsa), jaki jest błąd pomiaru, jakie jest prawdopodobieństwo, że dana wielkość naprawdę zawarta jest w danym przedziale. Bozon Higgsa czy tylko fluktuacja? 10

Czy statystyka to tylko analiza błędów? Opis i parametry zjawisk o charakterze losowym. Związki i korelacje pomiędzy kilkoma zjawiskami losowymi. procent poparcia dla partii, Testowanie hipotez statystycznych. czy istnieje związek pomiędzy wzrostem pracownika a wynagrodzeniem? Szacowanie parametrów populacji na podstawie losowo wybranej próbki. średnia płaca, rozkłady płacy w funkcji różnych zmiennych itp. czy średni wzrost Polaków i Rosjan jest taki sam? Prognozowanie. zmniejszenie zużycia węgla o X powinno spowodować wzrost zużycia ropy oy 11

Jednowymiarowa zmienna losowa Funkcją rozkładu (dystrybuantą) zmiennej losowej X0 nazywamy taką funkcję F(X0), że: F ( X )=P( X < X ) < X < 0 0 0 gdzie X wylosowane z rozkładu. Funkcja F(X0) podaje prawdopodobieństwo, że X<X0. F(200zł) - szansa, że na zakupach wydamy mniej niż 200zł Gęstością prawdopodobieństwa ciągłej zmiennej losowej X, nazywamy funkcję f(x): df( X ) f ( X )= dx f(200zł) szansa, że wydamy dokładnie 200 zł 12

Rozkłady prawdopodobieństwa Johann Karl Friedrich Gauss (1777 1855) Rozkład normalny (Gaussa) 13

Opis rozkładu Momentem zwykłym rzędu k zmiennej losowej X nazywamy: dla zmiennej losowej dyskretnej α k = x ik pi dla zmiennej losowej ciągłej αk = i x =+ x k f ( x)dx x = Momentem centralnym rzędu k zmiennej losowej X nazywamy: k dla zmiennej losowej dyskretnej μk = (x i α 1) pi dla zmiennej losowej ciągłej μk = i x=+ (x α 1)k f ( x)dx x= Średnia: α1, wariancja: μ2. Nie są to zmienne losowe, mają konkretną, dokładnie określoną wartość liczbową! Zmiennymi losowymi mogą być ich estymatory ustalone na podstawie losowej próby. Odchyleniem standardowym zmiennej losowej X nazywamy pierwiastek kwadratowy z wariancji: σ= μ2. Jest miarą rozrzutu zmiennej losowej. 14

Średnia i odchylenie standardowe 15

Estymatory wielkości Pytanie: jaki jest średni wzrost dorosłych Polaków? Bierzemy wszystkich dorosłych Polaków, mierzymy wzrost każdego z nich, liczymy średnią. Postępowanie tyleż proste co bezużyteczne. Ale: TYLKO TA METODA POZWOLI ZNALEŹĆ RZECZYWISTY ŚREDNI WZROST POLAKÓW, każda inna jest oszacowaniem na podstawie wylosowanej próby, a zatem obarczona błędem. Nie znamy przecież gęstości prawdopodobieństwa w funkcji wzrostu: f(wzrost). Losujemy przypadkową próbę 100 Polaków, używamy estymatora średniej: x =1/n x i i UWAGA: próba powinna być nieobciążona, nie wybierać do pomiaru drużyny koszykówki ani zespołu dżokejów! Staramy się uzyskać informacje o nieznanym rozkładzie prawdopodobieństwa na podstawie skończonej próby pomiarów. 16

Estymator średniej Estymator średniej x =1/n x i jest nieobciążony, czyli jego wartość i oczekiwana jest zgodna z prawdziwą wartością średniej. Dla dużej próby otrzymamy estymowaną wartość średniej równą prawdziwej średniej. Jaki jest rozkład prawdopodobieństwa estymowanej średniej dla niewielkiej próby? Zróbmy eksperyment losując wielokrotnie 10 przypadków z rozkładu jednorodnego i licząc dla średnią dla każdej próby. 17

Estymator średniej Błąd estymacji średniej maleje ze wzrostem statystyki σ x = σx n Zauważmy, że rozkład średniej wygląda jak rozkład normalny (Gaussa), pomimo że wyjściowy rozkład był rozkładem jednorodnym. Okazuje się, że tak będzie dla każdego rozkładu wyjściowego centralne twierdzenie graniczne. 18

Estymator wariancji Podobnie na podstawie skończonej próby możemy estymować wariancję rozkładu: μ2 = 1 ( x i x )2 n 1 i Estymator ten jest nieobciążony i zgodny. Estymator odchylenia standardowego: σ = μ2 = 1 2 ( x i x ) n 1 i jest zgodny, ale obciążony. Estymator nieobciążony - wartość oczekiwana uzyskana z rozkładu wartości estymatora zawsze (dla dowolnego n) pokrywa się z parametrem estymowanym. Estymator zgodny - przy duży próbach losowych prawdopodobieństwo, że wartość estymatora będzie się znacząco różnić od estymowanego parametru jest zerowe. 19

Centralne twierdzenie graniczne Jedno z najważniejszych twierdzeń rachunku prawdopodobieństwa, uzasadniające powszechne występowanie w przyrodzie rozkładów zbliżonych do rozkładu normalnego (rozkładu Gaussa). Jeśli Xi są niezależnymi zmiennymi losowymi o jednakowym rozkładzie, takiej samej wartości oczekiwanej (średniej) x i skończonej wariancji σ 2 większej od zera to zmienna losowa o postaci: ( X i x ) Y= i σ n zbiega się do rozkładu normalnego, gdy n rośnie do nieskończoności. W skrócie: jeśli zsumujemy odpowiednio dużo dowolnych niezależnych rozkładów, to otrzymamy rozkład zbliżony do rozkładu Gaussa. 20

Centralne twierdzenie graniczne 1 2 3 4 5 6 21

Test χ2 Test χ2 mówi nam, jak dobrze wielkości mierzone xi pasują do naszej hipotezy, czyli wielkości oczekiwanych E i. 2 χ = i ( x i E i σi 2 ) Duże wartości χ2 świadczą, że hipoteza nie pasuje do danych, zbyt małe, że pasuje zbyt dobrze. Średnia wartość rozkładu χ2 równa się liczbie stopni swobody k, a więc spodziewamy się χ2/k=1. 22

Dopasowanie funkcji Zadanie: do punktów doświadczalnych jak najlepiej dopasować funkcję zadanej klasy. Sprawdzić, czy funkcja opisuje dane doświadczalne. Najczęściej używana metoda: znaleźć takie parametry funkcji, aby zminimalizować wartość χ2 metoda najmniejszych kwadratów. W przypadku funkcji liniowej można to zrobić algebraicznie (przepis podał Gauss), przy bardziej skomplikowanych funkcjach numerycznie (np. minimalizacja metodą największego gradientu). 23

Dopasowanie funkcji 24

Dopasowanie funkcji 25

Odkrycie bozonu Higgsa Clear evidence for the production of a neutral boson with a measured mass of 126.0 ± 0.4 (stat) ± 0.4 (sys) GeV is presented. This observation, which has a significance of 5.9 standard deviations, corresponding to a background fluctuation probability of 1.7 10 9, is compatible with the production and decay of the Standard ModelHiggs boson. Observation of a New Particle in the Search for the Standard Model Higgs Boson with the ATLAS Detector at the LHC, ATLAS Collaboration 26

Rozkład normalny a przedziały ufności Przedziałem ufności na poziomie ufności 1-α dla nieznanego parametru Q nazywamy taki przedział (Q1, Q2), dla którego prawdopodobieństwo, że przedział ten zawiera w sobie rzeczywistą wartość estymowanego parametru Q wynosi 1-α: P (Q 1 <Q <Q2 )=1 α 27

Dwie zmienne - korelacje Zmienne x i y są niezależne, jeśli zachodzi związek: f ( x, y)=g (x) h( y) czyli wartość jednej zmiennej nie zmienia prawdopodobieństwa wystąpienia danej wartości drugiej zmiennej. cov (x, y)= ( x x )( y y ) f (x, y )dx dy Kowariancją nazywamy: a współczynnikiem korelacji (liniowej): Estymator kowariancji: cov (x, y)= cov ( x, y) ρ( x, y)= σ ( x) σ ( y) 1 (x i x )( y i y ) N 1 i UWAGA: zmienne niezależne mają zerowy współczynnik korelacji, ale zmienne nieskorelowane mogą być zależne! 28

Korelacje Nieskorelowane, niezależne Skorelowane Skorelowane Nieskorelowane, zależne 29

Analiza wielowymiarowa separacja sygnału i tła Dzisiejsze ćwiczenie za pomocą cięć na zmiennych x1...x7 można bardzo silnie zredukować tło i wydobyć z danych sygnał. Czy cięcia to optymalna metoda selekcji? 30

Cięcie vs separacja nieliniowa Cięcia Separacja nieliniowa? Np. sieci neuronowe, boosted decision trees, itd 31

Jak działa algorytm uczący się? Np. Sieć neuronowa, czy BDT. Potrzebne są dane treningowe, dla których znamy poprawną odpowiedź, czy jest to sygnał czy tło, dzielimy je na zbiór treningowy i testowy. Znajdujemy funkcję f(x) najlepiej opisującą prawdopodobieństwo, że dany przypadek jest klasy sygnał - minimalizacja tzw. funkcji straty (np. 2). Poszczególne algorytmy różnią się: klasą funkcji f(x) (np. liniowe, nieliniowe), funkcją straty, sposobem jej minimalizacji. Wszystkie aproksymują nieznaną bayesowską funkcję decyzyjną BDF na podstawie skończonego zbioru danych treningowych. BDF -idealna funkcja klasyfikująca, określona przez nieznane gęstości prawdopodobieństwa sygnału i tła. 32

Popularne metody Metody liniowe Cięcia Dyskryminanty Fishera Wzmocnione drzewa decyzyjne (Boosted Decision Trees), Maszyna wektorów wspierających(support Vector Machine). Metody nieliniowe Naiwny klasyfikator bayesowski, Estymatory gęstości prawdopodobieństwa, (Probability Density Estimator), Metoda najbliższych sąsiadów, PDE_RS, Sieci neuronowe I wiele innych... analiza składowych, niezależnych (Independant Component Analysis) analiza składowych głównych. Wszystkie opierają się na tej samej zasadzie: poszukują najlepszej funkcji dyskryminującej w oparciu o próbkę treningową. 33

Identyfikacja hadronowych rozpadów leptonów tau w eksperymencie ATLAS Szereg zmiennych identyfikujących, żadna z nich pojedynczo nie daje dobrej identyfikacji. Użycie metod wielu zmiennych zwiększa skuteczność identyfikacji. 34

Podsumowanie (jeśli jeszcze wszyscy nie śpią) Trochę statystyki jest niezbędne, aby prawidłowo zinterpretować dane pomiarowe 35

Dodatkowe transparencje 36

Applet pokazujący działanie różnych metod klasyfikujących http://www.cs.technion.ac.il/~rani/locboost/ 37

Estymatory parę definicji Estymator zgodny - przy duży próbach losowych prawdopodobieństwo, że wartość estymatora będzie się znacząco różnić od estymowanego parametru jest zerowe. Estymator konsystentny - przy dużych próbach rozkład wartości estymatora staje się bardzo wąski, aż przy n dążącym do nieskończoności rozkład staje się nieskończenie wąską "szpilką". Estymator nieobciążony - wartość oczekiwana uzyskana z rozkładu wartości estymatora zawsze (dla dowolnego n) pokrywa się z parametrem estymowanym. 38

Przedział ufności Przedziałem ufności na poziomie ufności 1-α dla nieznanego parametru Q nazywamy taki przedział (Q1, Q2), dla którego prawdopodobieństwo, że przedział ten zawiera w sobie rzeczywistą wartość estymowanego parametru Q wynosi 1-α: P (Q 1 <Q <Q2 )=1 α Poszukujemy takich dwóch wartości Q1 i Q2, aby przedział przez nie wyznaczony z zadanym prawdopodobieństwem zawierał w sobie rzeczywistą wartość parametru Q: Q ma konkretną wartość, choć nieznaną. Wyznaczamy Q1 i Q2 dla każdej próby statystycznej. Chcemy, aby z prawdopodobieństwem 1α w tak wyznaczonym przedziale znajdował się nieznany parametr Q. 39