Metody eksploracji danych

Wielkość: px
Rozpocząć pokaz od strony:

Download "Metody eksploracji danych"

Transkrypt

1 Metody eksploracji danych Adam Pelikant DEDUKCJA Rozumowanie polegające na wyprowadzeniu z pewnych zdań (prawdziwych przesłanek) wynikającego z nich logicznie następstwa (prawdziwego wniosku) Rozumowanie polegające na dobieraniu następstwa do danej racji logicznej Rozumowanie polegające na uzasadnieniu następstwa za pomocą prawdziwej racji logicznej 1

2 INDUKCJA w filozofii Jedna z metod poznania i ustalania prawdy Wnioskowanie, polegające na wyprowadzeniu ogólnych wniosków z przesłanek, które są poszczególnymi przypadkami tych wniosków INDUKCJA według Sokratesa ( p.n.e.) Metoda ustalania prawdy na podstawie: uzgadniania cech ogólnych w różnorodności i rozbieżności wyprowadzenia pojęcia zawierającego wiedzę pewną i powszechną Powszechna metoda dochodzenia do definiowania pojęć

3 INDUKCJA według Epikurejczyków Amynomachos z Aten Metrodoros z Lampsakos (ok p.n.e.) Polyajnos z Lampsaku Hermachos z Mityleny Epikur ( p.n.e.) Zenon z Sydonu (150 p.n.e.. 70 p.n.e.), Filodemos z Gadary (110 p.n.e p.n.e.) Lukrecjusz Titus Lucretius Carus (99 p.n.e., 55 p.n.e.) Wnioskowanie przez podobieństwa Logiczne uogólnienia indukcji obejmują nie tylko dostępne nam zjawiska, ale także rzeczy niedostępne INDUKCJA nauki empiryczne Metoda polegająca na wprowadzeniu uogólnień na podstawie eksperymentów i obserwacji faktów, formułowaniu i weryfikacji hipotez Zaczątki indukcji w sensie nowożytnym stworzył Fransis acon, który uznał, że indukcja i eksperyment to dwie skuteczne metody ustalania prawdy 3

4 DEDUKCJA A INDUKCJA Dedukcja: wyprowadzanie sądów szczegółowych z sądów ogólnych, przechodzenie od ogółu do szczegółu Indukcja: wyprowadzanie sądów ogólnych ze szczegółowych, przechodzenie od szczegółu do ogółu LUDZKA INTELIGENCJA Praktyczna: umiejętność rozwiązywania konkretnych zagadnień Abstrakcyjna: zdolność operowania symbolami i pojęciami Społeczna: umiejętność zachowania się w grupie Test ineta ok Iloraz inteligencji (IQ) 4

5 SZTUCZNA INTELIGENCJA (ARTIFICIAL INTELLIGENCE) Allen Newell, Herbert Simon (Uniwersytet Carnegie Mellon) John McCarthy (Massachusetts Institute of Technology) Konstruowanie maszyn, o których działaniu dałoby się powiedzieć, że są podobne do ludzkich przejawów inteligencji Dział informatyki, którego przedmiot to: badanie reguł rządzących inteligentnymi zachowaniami człowieka tworzenie modeli formalnych zachowań człowieka tworzenie programów komputerowych symulujących zachowania człowieka Test Turinga (1950 Alan Turing) Nagroda Loebnera - od 1990 dla programu, który skutecznie przejdzie Test Turinga. Konkurs Loebnera najlepszy program do konwersacji ELIZA program symulujący psychoanalityka, Josepha Weizenbauma 1966 r. ALICE - nazwa najskuteczniejszego obecnie programu starającego naśladować ludzką konwersację (projekt Open Source - pomysłodawca Richard Wallace) SYSTEMY UCZĄCE SIĘ Systemy posiadające zdolność poprawiania jakości swojego działania poprzez zdobywanie nowych doświadczeń, które są następnie wykorzystywane podczas kolejnych interakcji ze środowiskiem 5

6 SYSTEMY EKSPERTOWE Systemy te starają się zastąpić fachowca w jednej szczególnej dziedzinie wiedzy Wzorują się one na procesach dedukcyjnych, podobnych do tych, jakie stosuje każdy na co dzień, nie zdając sobie nawet z tego sprawy AZY WIEDZY Systemy ekspertowe opierają się zwykle na bazach wiedzy, czyli zbiorach reguł zapisanych w formie implikacji azy wiedzy mogą powstawać: automatycznie, w oparciu o inteligentną analizę danych eksperymentalnych w wyniku interaktywnego procesu komunikowania się eksperta z interfejsem podszytym sztuczną inteligencją 6

7 PRZYKŁAD Fakty F1: Andrzej ma rybki F: Andrzej ma grzałkę Reguły R1: IF x ma rybki THEN x ma akwarium AZA WIEDZY R: IF x ma grzałkę AND x ma akwarium THEN x ma rybki żyjące Wnioski W1: Andrzej ma akwarium W: Rybki Andrzeja żyją MODUS PONENS Modus ponendo ponens (łac. sposób potwierdzający przez potwierdzenie) - tautologia rachunku zdań mówiąca, że jeśli uznajemy prawdziwość poprzednika prawdziwej implikacji, to musimy uznać też prawdziwość jej następnika: [( p q) p] q Reguła ta może być zapisana także w ten sposób: ( P Q), P Q Reguła odrywania: α α β β Reguła odrywania z podstawieniem: ( R( x) A( x) ) R( a) x A( a) Inny zapis 7

8 MODUS TOLLENS modus tollendo tollens, (łac. sposób zaprzeczający przy pomocy zaprzeczenia) wnioskowanie logiczne, reguła logiki mówiąca, że jeśli zaakceptujemy że z X wynika Y, oraz że Y jest fałszywe, to musimy zaakceptować też fałszywość X. [( p q) q] p Tablica prawdy a b XOR

9 Podstawowe prawa logiczne P (Q R) (P Q) R P (Q R) (P Q) R P Q Q P P Q Q P P (Q R) (P Q) (P R) P (Q R) (P Q) (P R) (P Q) P Q (P Q) P Q P Q Q P P P P Q P Q P Q (P Q) (Q P) P Q (P Q) ( P Q) P P False P P True Zadanie odkrywania wiedzy 1. Na podstawie analizy dostępnych danych odkryć występujące w nich regularności.. Dane - zazwyczaj z bazy danych, w postaci zbioru rekordów charakteryzowanych przez pewne atrybuty. 3. Regularności mogą polegać na zależności pewnych atrybutów od innych lub korelacji występujących między atrybutami (w szczególności współwystępowaniu pewnych wartości atrybutów). 4. Rregularności mogą występować nie tylko dla atrybutów pierwotnie występujących w danych, lecz także dla nowych atrybutów zdefiniowanych w procesie odkrywania (np. atrybutach agregujących pewne pierwotne atrybuty). 5. Odkryte regularności muszą być statystycznie istotne (zweryfikowane przez odpowiednie testy statystyczne). 6. Odkryte regularności muszą być interesujące, przydatne dla posiadacza danych (np. dotyczyć interesujących atrybutów). 7. Odkryte regularności należy sformułować w postaci umożliwiającej ich wykorzystanie do wnioskowania przez człowieka lub automatycznego 9

10 Rodzaje metod odkrywania wiedzy Klasyfikacja: jak przynależność do pewnych kategorii (klas) zależy od atrybutów (drzewa decyzyjne, reguły, klasyfikacja bayesowska). Aproksymacja: jak wartość pewnej funkcji zależy od atrybutów. (algorytmy uczenia się aproksymacji i statystyczne metody regresji) Zależności przyczynowe:, jakie zależności przyczynowe występują między różnymi atrybutami. Uogólnienie klasyfikacji na dowolną liczbę atrybutów zależnych, która dotyczy zależności jednego atrybutu (kategorii) - (sieci bayesowskie). Zależności funkcyjne: jakimi wzorami najlepiej wyrażają się zależności występujące między atrybutami o wartościach liczbowych. Uogólnienie aproksymacji na dowolną liczbę atrybutów zależnych (metody odkrywania równań). Podobieństwo: jakie w analizowanych danych występują grupy rekordów podobnych i jak to podobieństwo zależy od poszczególnych atrybutów, co umożliwia wnioskowanie (metody grupowania). Asocjacje: jakie wartości różnych atrybutów często współwystępują w danych (reguły asocjacyjne). Przykładowe zastosowania Profilowanie klientów - określanie profilu zachowań klienta (banku, operatora telekomunikacyjnego) na podstawie jego historii (transakcji bankowych, połączeń itp.) w celu wykrywania zachowań podejrzanych. Adresowanie ofert - określanie, od jakich cech klienta zależy prawdopodobieństwo jego pozytywnej odpowiedzi na ofertę nowego produktu w celu bardziej efektywnego adresowania ofert. Lojalność klientów - określanie, od jakich cech klienta lub używanych przez niego produktów zależy lojalność wobec firmy w celu minimalizacji prawdopodobieństwa przejścia do firmy konkurencyjnej. Analiza koszyka sklepowego - określanie, jakie grupy towarów są często kupowane łącznie lub w bliskiej sekwencji czasowej. Przewidywanie obciążenia - określanie, jak zapotrzebowanie na dostawy (energii, surowca itp.) zależy od czynników zewnętrznych (pora roku, miesiąca, tygodnia, dnia, pogoda itp.) i ostatniej historii zapotrzebowania, w celu przewidywania przyszłego zapotrzebowania. 10

11 Odkrywanie wiedzy Identyfikacja i zdefiniowanie problemu Uzyskanie i wstępne przetworzenie danych Ekstrakcja wiedzy Ocena i interpretacja wyników Wykorzystanie odkrytej wiedzy Proces odkrywania wiedzy w bazach danych 1. Selekcja danych wybór relacji i krotek, które będą eksplorowane, definicja sposobu łączenia relacji. Transformacja danych konwersja typów atrybutów, definicja atrybutów wywiedzionych, dyskretyzacja wartości ciągłych 3. Eksploracja ekstrakcja wiedzy z danych: generowanie reguł, drzew decyzyjnych, sieci neuronowych itp. 4. Interpretacja wyników wybór najbardziej interesującej wiedzy, logiczna i graficzna wizualizacja wyników Selekcja Transformacja Eksploracja Interpretacja 11

12 Etapy eksploracji danych Analiza problemu dane Selekcja i czyszczenie danych dane wyselekcjonowane Transformacja danych Wybór strategii co do badania danych Konwersja Dyskretyzacja Zmiana reprezentacji z relacyjnej na transakcyjną dane przetworzone Etapy eksploracji danych Wybór narzędzi Wybór algorytmów Zastosowania ich Eksploracja danych wzorce Przygotowanie wyników 50 do oceny 10 0 Obróbka graficzna Analiza wyników A C dane wygodne do analizowania Zastosowanie uzyskanej wiedzy w praktyce 1

13 Stwórz, wybierz bazę danych A dokładniej... Wybierz techn. próbkowania i próbkuj dane Dostarcz brakujące wartości Usuń szumy Normalizuj wartości Przetwórz wartości Utwórz wywiedzione atrybuty Znajdź ważne atrybuty i zakresy wartości Wybierz zadania eksploracji danych Wybierz metodę eksploracji danych Wyekstrahuj wiedzę Sprawdź wiedzę Udoskonal wiedzę Przetwórz do innej formy reprezentacji PUSTY 13

14 Są to zmienne, które mogą przyjmować wartości z nieprzeliczalnego zbioru wartości (przy założeniu, że będą mierzone z wystarczającą dokładnością). Zmienna ciągła jest opisywana dwoma funkcjami: funkcją gęstości f(x) dystrybuantą F(X) F ( X ) = a f ( x) dx Twierdzenie: Definicje: X ) xf ( Najważniejsze rozkłady ciągłe: prostokątny trójkątny normalny (Gaussa) (z) logarytmiczno-normalny Studenta (t) χ (chi kwadrat) Fishera-Snedecora (F) Wallace a-snedecora (R) wykładniczy ZMIENNE LOSOWE CIĄGŁE P(X=a) = O f ( a) = P( X a) E = x) dx ( V ( X ) = [ x E( X )] f ( x) dx dystrybuanta Pojęcia podstawowe funkcja gęstości Funkcja dystrybuanty Funkcja gę stoś ci f(a) dystrybuanta 1 Funkcja dystrybuanty F(a) Wartości zmiennej X Wartości zmie nnej X Interpretacja wykresu całe pole pod funkcją gęstości ma powierzchnię równą 1 wartość funkcji dystrybuanty zmienia się wraz z wartością x w sposób pokazany strzałką (prawa granica pola przesuwa się) znajomość funkcji dystrybuanty umożliwia rozwiązywanie zadań typu: P(X<a), P(X>a), P(7<X<11) itd. 14

15 Rozkład prostokątny (rozkład równomierny, jednostajny, amodalny). Jego funkcja gęstości ma stałą wartość w przedziale (a, b), natomiast dla pozostałych wartości ma wartość równą 0. f ( X ) = 1 b a Funkcja gę stości f(x) 0,14 0,1 0,1 0,08 0,06 0,04 0,0 a=0 b= Wartości zmiennej X a b E( X ) = ( b a) V ( X ) = 1 Rozkład trójkątny Rozkład ten opisują trzy wartości zmiennej: f(x) c a dystrybuanta funkcja gęstości a najmniejsza przewidywana b najbardziej prawdopodobna c największa przewidywana a b c x i X Zalety rozkładu łatwy do matematycznego przetwarzania nadaje się do modelowania wszystkich rozkładów jednomodalnych zrozumiały dla osób nie znających statystyki 15

16 Rozkład wykładniczy f(x) Zmienną losową X jest czas między zajściem dwóch zdarzeń o rozkładzie Poissona ( ) = λ λ x f X e 1 dla x 0, λ 0 X E( X ) = D( X ) = λ F ( X ) = 1 e λx Rozkład wykładniczy w praktyce wykorzystywany jest w teorii niezawodności do modelowania tzw. funkcji niezawodności R(t). Funkcja niezawodności określa prawdopodobieństwo bezawaryjnej pracy elementu w chwili t: P (T t) = 1 F(t) = R(t) λ -intensywność uszkodzenia (awarii) R(t) = e λx Jakie jest prawdopodobieństwo bezawaryjnej pracy maszyny przez co najmniej t godz. (min)? P( T t) Jaki jest średni odstęp czasu między awariami? E(X) (rozkład Gaussa lub krzywa dzwonowa). Jest to rozkład jednomodalny z funkcją gęstości prawdopodobieństwa: f ( x m) 1 σ ( ) x Rozkład normalny = e σ π Parametry rozkładu: wartością średnią m odchyleniem standardowym σ dla - <x< N (m;σ ) Funkcja gę stości f(x) m σ 0,45 0,4 0,35 0,3 0,5 0, σ 0,15 0,1 0,05 0 Wartości zmiennej X WARTOŚĆ ŚREDNIA DECYDUJE O PRZESUNIĘCIU WYKRESU W LEWO LU PRAWO ODCHYLENIE STANDARDOWE DECYDUJE O SMUKŁOŚCI WYKRESU m σ punkt przegięcia mσ Właściwości rozkładu normalnego: dla jednoznacznego określenia wystarczy podać: wartość średnią (oczekiwaną) m i odchylenie standardowe σ; punkty przegięcia funkcji gęstości występują przy wartościach zmiennej losowej równych m- σ i m σ; wartość mjest jednocześnie modą i medianą rozkładu; wartości zmiennej teoretycznie występują w przedziale od - do ; praktycznie wszystkie mieszczą się w granicach od m-3σ do m3σ (99,73% wartości); w przedziale od m-σ do mσ mieści się 95,45% wartości; w przedziale od m-σ do mσ mieści się 68,7% wartości; 1 Funkcja gęstoś ci f(z) 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0, 0, Zmienna standaryzowana Z 0 0, 0,4 0,6 0,8 1 1, 0,13% 13,59%,15% 34,14% 16

17 Rozkład normalny Rozkład normalny jest charakterystyczny dla dowolnego zbioru wartości, na które oddziaływuje wiele niezależnych i jednakowo ważnych czynników przypadkowych, z których żaden nie jest dominujący. TWIERDZENIE CENTRALNE - ogólne Które zmienne zachowują się według rozkładu normalnego? Te, które kształtują się pod wpływem wielu czynników, z których żaden nie ma charakteru dominującego. Standaryzowany rozkład normalny Aby rozwiązywać zadania z rozkładu normalnego, musimy korzystać z tablicy dystrybuanty. Tablica została przygotowana dla rozkładu znormalizowanego zmiennej standaryzowanej Z. POWIERZCHNIA CAŁEGO POLA POD FUNKCJĄ GĘSTOŚCI RÓWNA SIĘ 1 xi m zi = N(0;1) σ Prawo trzech sigm: w przedziale od (m 3σ) do (m3σ) (oś X) od 3 do 3 (oś Z) mieszczą się praktycznie wszystkie (99,74%) wartości zmiennej losowej o rozkładzie normalnym. Tablice rozkładu normalnego tablica funkcji gęstości tablice dystrybuanty tablica kwantyli (wartości krytycznych) Tablica funkcji gęstości służy do budowy wykresu funkcji gęstości (krzywej Gaussa) do odczytu P(X a) lub P(Z a) Tablice dystrybuanty: w przedziale z od 0 do 3: F(z) od 0,5 do 1 (połowa funkcji) Z 0,00 0,01 0,0 0,1... 0,5 0,6... 1,0 1,5,0 3,0 4,0 0,5000 0, ,6915 0, ,8413 0,933 0,977 0, , z ,0 0,1 0, 0,3... 1,0,0 3,0 4, Funkcja gęstoś ci f(z) 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0, 0, Zmienna standaryzowana Z 0 0, 0,4 0,6 0,8 1 1, Przechodząc ze zmiennej Z na zmienną X: x i = m z i σ 17

18 Rozkład logarytmiczno-normalny Jest to rozkład, który po zlogarytmowaniu zmiennej X staje się rozkładem normalnym. Służy do opisywania tych zjawisk, które oprócz wielu wartości małych i średnich mają również wartości bardzo duże (zanieczyszczenie środowiska, wydajność produkcji, wielkość złóż kopalin użytecznych itd.). f(x) małe średnie duże bardzo duże X Jednostki-giganty, które zglobalizowały gospodarkę światową: duże złoża węgla, ropy i gazu, wielkie zakłady produkcyjne itp. Przetwarzanie danych empirycznych w rozkład normalny 1. Podzielenie danych x i na przedziały (liczebność 8-1). Ustalenie liczebności empirycznych n ie 3. Przeliczenie liczebności na prawdopodobieństwa empiryczne p ie 4. Obliczenie parametrów x oraz s 5. Standaryzacja końców przedziałów 6. Wyznaczenie prawdopodobieństw teoretycznych p it 7. Wyliczenie liczebności teoretycznych n it 8. Ustalenie czy dwa rozkłady różnią się od siebie istotnie porównanie n ie i n it X 18

19 WNIOSKOWANIE STATYSTYCZNE Przedmiotem tego działu jest a) szacowanie nieznanych parametrów rozkładów zmiennych losowych; b) wyciąganie wniosków o rozkładzie i parametrach populacji generalnej na podstawie badania próbki (hipotezy statystyczne). Teoria estymacji zajmuje się szacowaniem parametrów populacji generalnej na podstawie próbki statystycznej. Rodzaje estymacji punktowa Sposoby pobierania próbek statystycznych przedziałowa Próbka musi być pobrana w sposób losowy, tzn. każdy element populacji (tj. zbiorowości generalnej) musi mieć jednakową szansę trafienia do próbki. losowanie systematyczne Wybór co k-tej jednostki zbiorowości generalnej. Pierwszą jednostkę wybieramy losowo (np.tablice liczb losowych) losowanie warstwowe Podział zbiorowości na podzbiory, a następnie losowanie bez zwracania w każdej warstwie (podzbiorze). Próbę stanowi suma wylosowanych jednostek. losowanie proporcjonalne Zróżnicowane prawdopodobieństwo dostania się do próby. Pojęcia z teorii estymacji parametr populacji liczbowa charakterystyka całej populacji statystyka z próby liczbowa charakterystyka próby estymator (estimator) parametru populacji statystyka z próby używana do oszacowania tego parametru. Oceną lub szacunkiem parametru jest konkretna wartość liczbowa estymatora z danej próby estymacja - podanie wartości oceny nieznanego parametru populacji Estymator jest to zmienna losowa, której realizacjami są wartości rozważanego parametru powstałe przez pobranie z populacji bardzo wielu próbek. Estymator jak każda zmienna ma swoją wartość oczekiwaną i odchylenie standardowe. Wartość oszacowana (estimate) jest to wartość danego parametru wyznaczona na podstawie jednej, rzeczywiście pobranej próbki. Statystyka z próby X Rozkłady z próby Estymatorem parametru μ x Ocena (oszacowanie) parametru μ Rozkład statystyki z próby jest rozkładem prawdopodobieństwa wszystkich możliwych wartości, jakie ta statystyka może przyjąć, jeżeli obliczamy je na podstawie badania losowych prób o tych samych rozmiarach n, pobranych z określonej populacji. 19

20 Pojęcia z teorii estymacji Zależności σ x σ = n σ x = σ n s x = s n s = ( x x) i n 1 oraz wnioski średnia estymatora równa się średniej populacji znamy wzór na błąd oszacowania średniej gdy n, σ x N( μ, ) n E ( x) σ s x = n = x μ =μ Centralne twierdzenie graniczne Jeżeli pobieramy próbę z populacji o średniej μ i skończonym odchyleniu standardowym σ, to rozkład średniej z próby X, dąży do rozkładu normalnego o średniej μ i odchyleniu standardowym σ, gdy liczebność próby wzrasta n σ nieograniczenie, czyli dla dostatecznie dużych n : X N ( μ, ) n Oznaczenia: nieobciążony Θ parametr populacji Θˆ estymator E( Θˆ ) = średnia estymatora E( Θ) ˆ μ Θ ˆ wartość oczekiwana estymatora jest równa szacowanemu parametrowi zgodny (PWL) prawdopodobieństwo, że jego wartość jest bliska wartości szacowanego parametru, wzrasta wraz ze wzrostem liczebności próby (jeśli podlega prawu wielkich liczb - tw. Kołmogorowa) gdy dla każdego ε>0 = Θ najefektywniejszy (V min ) estymator o najmniejszej wariancji Cechy dobrego estymatora lim n P { Θˆ Θ < ε} = 1 0

21 Metody uzyskiwania estymatorów: metoda momentów metoda najmniejszych kwadratów metoda największej wiarygodności Nazwa parametru Wartość średnia Odchylenie standardowe Wariancja Proporcja (struktura) Symbol dla populacji μ σ σ π Symbol dla próbki x s s p Liczba stopni swobody ν Jest to liczba określająca ile danych ze zbioru można zmienić bez zagrożenia zmianą wyznaczanego parametru (statystyki). przy obliczaniu średniej ν = n 1 ogólnie ν = n k x 1 x x 3 x 4 x 5 x 6 = Σx i /6 można można można można można nie można nie można zmieniać zmieniać zmieniać zmieniać zmieniać zmieniać zmieniać ESTYMACJA WARTOŚCI ŚREDNIEJ POPULACJI Celem jest ustalenie ile wynosi nieznana wartość μ: estymacja punktowa: μ = x estymacja przedziałowa: budowa przedziału ufności, w którym z prawdopodobieństwem 1 α znajdzie się nieznane μ Przedział ufności jest to przedział, w którym z prawdopodobieństwem 1 α znajduje się nieznana wartość średnia populacji μ. Poziom ufności (1 α) jest to prawdopodobieństwo, że nieznana wartość μ znajduje się w przedziale ufności. Poziom istotności (α) jest to prawdopodobieństwo, że nieznana wartość μ nie znajduje się wewnątrz przedziału ufności. α ustala statystyk kluczowe w statystyce matematycznej inne nazwy: margines błędu, poziom krytyczny 1

22 Przedział ufności dla nieznanej średniej dla populacji przy dużej próbce: jeśli znamy odchylenie standardowe populacji σ P( x z σ < μ < x z σ ) = 1 α α x α x jeśli nie znamy odchylenia standardowego populacji P( x z s < μ < x z ) = 1 α s α x α x Postępowanie: pobieramy próbkę, liczymy dla niej x oraz s budujemy przedział ufności (g d, g g ), w którym z prawdopodobieństwem 1 α znajduje się nieznana wartość średniej μ dla populacji Szerokość przedziału ufności dla μ zależy od: przyjętego poziomu istotności α wielkości próbki n jej odchylenia standardowego s Funkcja gę stoś ci g d α 1 α Średnia dla populacji x α g g ESTYMACJA WSKAŹNIKA STRUKTURY (PROPORCJI DLA POPULACJI) Jeżeli badana cecha ma charakter jakościowy, w wyniku badań uzyskujemy jedynie informację o tym, czy dany element populacji ma czy też nie wyróżnioną cechę jakościową. Elementy populacji możemy więc podzielić na dwie klasy: elementy wyróżnione w populacji (posiadające interesującą cechę); i niewyróżnione. Ustala się proporcję p=k/n (frakcję, wskaźnik struktury) dla próbki i po przyjęciu określonego poziomu istotności α buduje się przedział ufności dla nieznanej proporcji π dla populacji: P( p z α s p < π < p z s α p ) = 1 α s p = p(1 p) n I tym razem szerokość przedziału jest zależna od przyjętego poziomu istotności oraz od błędu oszacowania proporcji s p, który z kolei jest funkcją wielkości próbki i jej proporcji.

23 PRZEDZIAŁ UFNOŚCI DLA ŚREDNIEJ POPULACJI PRZY MAŁEJ PRÓCE W przypadku małej próbki estymator Studenta. Rozkład Studenta x μ x μ t = = s s x n zachowuje się według rozkładu Funkcja gęstości rozkładu t jest funkcją liczby stopni swobody Gdy ν dąży do, rozkład t dąży do rozkładu normalnego X ν = n 1 Rozkład normalny standaryzowany, z tablica rozkładu Studenta (Skrypt) pokazuje kwantyle rzędu α dla danego ν (wartości t odpowiadające założonemu poziomowi istotności dla danej liczby stopni swobody) Rozkład Studenta, t Parametry rozkładu μ, σ ν Średnia 0 0 Wariancja 1 ν/ν 0 rozkład normalny z rozkład Studenta t ν=8 z α/ t α/ (ν) Fragment tablicy rozkładu Studenta Stopnie swobody, ν α = 0,0 α / = 0, , , ,8 α = 0,10 α / = 0,0 5. 1,81. 1,684. 1,645 α = 0,05 α / = 0,0 5.,8.,01. 1,960 Przedział ufności dla średniej dla populacji przy małej próbce P( x t s < μ < x t s ) = 1 α α x α x ( n 1) ( n 1) rozkład Studenta daje szersze przedziały ufności niż rozkład normalny, gdyż zabezpiecza nas przed skutkami pobrania mniejszej próbki Podsumowanie estymacji wartości średniej dla populacji Typ rozkładu Wielkość zmiennej X próbki, n Odchylenie standardowe populacji, σ Znane Nieznane Granice przedziału ufności Normalny Dowolna x ± z α/ σ x Inny n 30 x ± z α/ σ x Normalny n 30 x ± z α/ s x Dowolna x ± t α/ s x Inny n 50 x ± z α/ s x n < 50 Unikać 3

24 ESTYMACJA WARIANCJI DLA POPULACJI Jeśli z populacji o rozkładzie normalnym pobierzemy bardzo wiele próbek, to estymator wariancji S będzie miał rozkład zwany chi kwadrat ( n 1) χ = s σ Rozkład χ : jest zależny od liczby stopni swobody ν jest asymetryczny: ogony nie są jednakowe przy ν >30 zbliżony do normalnego E(χ ) = ν V(χ )= ν f(χ ) ν =1 ν = 4 ν = 15 0 χ tablica rozkładu χ (SKRYPT) nie pokazuje ani funkcji gęstości, ani funkcji dystrybuanty pokazuje wartości kwantyli dla odpowiedniego rozkładu χ (dla ustalonej liczby stopni swobody) f(χ ) α / 1 α α / Liczba Lewy ogon Prawy ogon stopni swobody 0,990 0,975 0,950 0,050 0,05 0, ,053 3,816 4,575 19,68 1,9 4,7 0 χ χ 1- α / χ α / Przedział ufności dla nieznanej wariancji populacji (niesymetryczny) Mała próbka Duża próbka ( n 1) s P χ ( n 1) s < σ < χ ( α / 1 α / s s P < σ < = 1 α zα α 1 / z 1 / n n ) = 1 α 4

25 systematyczny łędy RODZAJE ŁĘDÓW losowy Pomiar wykonany w tych samych warunkach daje błąd o stałej wartości Wystąpienie błędu -a i a ma to samo prawdopodobieństwo Przy zmianie warunków błąd przyjmuje różną od zera stałą wartość Prawdopodobieństwo błędu a jest funkcją malejącą Im błąd a bliższy zera tym bardziej prawdopodobny statystycznym. mała próba populacja niejednorodna zły operator losowania obciążenie estymatora o charakterze pozastatystycznym uwikłanie wielu czynników bardzo niebezpieczny statystycznym pozastatystycznym ŁĄD SYSTEMATYCZNY łędy 0,11 0,17 0,4 0,75 0,31 0,34 0,36 0,375 0,38 0,388 Θ parametr Θˆ estymator parametru Serie1 0,11 0,17 0,4 0,75 0,31 0,34 0,36 0,375 0,38 0,388 ŁĄD LOSOWY E( Θˆ ) Θ Serie1 D( Θˆ ) Θˆ D( Θˆ ) 5

26 Wielkość błędu systematycznego to miara obciążenia estymatora E( Θ) ˆ łędy Θ absolutny błąd oceny Δ= Θ Θˆ Ponieważ nieznany jest względny błąd oceny Δ'= Θ W praktyce wyznacza się: Θ Θˆ ustalenie błędu systematycznego jest niemożliwe. poziom absolutny (d) dokładności poziom względny (δ) dokładności zakłada się prawdopodobieństwo 1 - α dotrzymania błędu d Θ lub P{ Θˆ Θ d} = P{ d Θˆ Θ d} = 1 α P{ Θ ˆ Θ > d} = α LICZNOŚĆ PRÓY DO OSZACOWANIA ŚREDNIEJ nieznane odchylenie standardowe populacji d - błąd szacunku średniej wynosi: d = tα/ t n = d s n α/ s tα/ - kwantyl rozkładu Studenta dla no-1 stopni swobody, no - liczność tzw. próby pilotażowej użytej do oszacowania odchylenia standardowego s 6

27 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH Hipoteza statystyczna to każde przypuszczenie dotyczące populacji generalnej wysnute na podstawie próbki statystycznej Hipotezy statystyczne dzielimy na: parametryczne nieparametryczne Ponieważ przy posługiwaniu się próbką nigdy nie ma pewności, stawia się dwie wykluczające się hipotezy: hipotezę zerową H 0 hipotezę alternatywną H 1 (H a ) Weryfikacja: polega na sprawdzeniu, która z nich jest prawdziwa, a która fałszywa posługujemy się testami statystycznymi (z, t, χ, F, R i inne) Kolejność czynności przy weryfikacji hipotez: 1. Sformułowanie H 0 i H 1 (H 0 : μ=4,0 H 1 : μ 4,0; lub μ>4,0; lub μ<4,0). Przyjęcie poziomu błędu I rodzaju α (α = 0,05) 3. Dobranie testu weryfikującego (statystyki, sprawdzianu hipotezy Zn) w zależności od rodzaju hipotezy 4. Ustalenie obszaru krytycznego testu (odczytanie wartości krytycznej statystyki weryfikującej z tablic dla α: z tabl, z kr, z α ) 5. Obliczenie wartości statystyki na podstawie próbki (z obl, z emp ) 6. Porównanie dwu statystyk i podjęcie decyzji o przyjęciu lub odrzuceniu hipotezy H 0 7. Interpretacja podjętej decyzji Prawidłowość podejmowanych decyzji HIPOTEZA DECYZJA STATYSTYKA ZEROWA JEST przyjąć H 0 odrzucić H 0 PRAWDZIWA Nie ma błędu łąd I rodzaju FAŁSZYWA 1 α łąd II rodzaju β α Nie ma błędu 1 β α=poziom błędu I rodzaju, β = poziom błędu II rodzaju, 1 β =moc testu α=p(h0 odrzucona/h0 jest prawdziwa) β = P(H0 nieodrzucona/h0 jest fałszywa) Obszar krytyczny testu W należy tak ustalić, aby zminimalizować błąd II rodzaju. Obszar krytyczny to zbiór wartości statystyki Z n (tj. sprawdzianu hipotezy) spełniającej warunki: P( Z n W/ H 1) 0 ) α = P( Z n W/ H1) max ) = W praktyce bierze się warunek (1) stąd szczególny rodzaj testów, zwanych testami istotności. 7

28 Hipotezy nieparametryczne Dotyczą rozkładów populacji lub cech niemierzalnych Do ich weryfikacji stosuje się następujące testy: test χ test Kołmogorowa-Smirnowa testy serii (długości i liczności serii) Przykład hipotezy nieparametrycznej: H 0 : rozkład populacji nie różni się istotnie od rozkładu normalnego H 1 : rozkład populacji różni się istotnie od rozkładu normalnego Testowanie przy użyciu testu (statystyki) χ TEST DLA ROZKŁADÓW ZMIENNEJ LOSOWEJ CIĄGŁEJ i SKOKOWEJ!!! n e liczebność empiryczna n t liczebność teoretyczna k liczba przedziałów (klas) χ = k obl i= 1 ( nie nit ) nit Reguła decyzyjna: jeżeli χ obl > χ tabl, odrzucamy H 0 na korzyść H 1 jeżeli χ obl < χ tabl, nie ma podstaw do odrzucenia H 0 Przykład Sprawdzić, czy rozkład szybkości czytania uczniów wybranego gimnazjum jest rozkładem normalnym. Do próbki wylosowano 101 uczniów ostatniej klasy gimnazjalnej jednej ze szkół w woj. Małopolskim. Przyjmij α=0,01. Szybkość czytania Liczba słów/5 min uczniów Razem 101 wartości x oraz s obliczono z szeregu dwustopniowego x = 103,6 słów/5 min s = 3,95 słów/5 min Test nieparametryczny χ H 0 : rozkład populacji nie różni się istotnie od rozkładu normalnego H 1 : rozkład populacji różni się istotnie od rozkładu normalnego 8

29 wyliczanie liczności teoretycznych na podstawie funkcji gęstości xi ni xi x zi f(zi) nit ,6 8,6 6,6,68,18 1,67 0, , , ,6 1,9 5, ,6 1,16 0, , ,6 0,66 0, , ,6 0,15 0, , ,4 0,35 0, , ,4 0,86 0,756 14, ,4 1,36 0,158 8, ,4 1,87 0, , ,4,38 0,0406 1, ,4,88 0, ,3 Razem ,0 wartości z i obliczono przez standaryzację środków przedziałów klasowych wartości f(z i ) odczytano z tablicy funkcji gęstości liczebności teoretyczne policzono według wzoru d nit = f(zi ) n s d = szerokość przedziału (d=) n = liczebność próbki (n=101) Liczebności faktyczne teoretyczne ne nt,5 5,0 10,4 16,4 0, 19, 14,1 8,1 3,6 1,5 Różnice ne nt (ne nt) (ne nt) /nt 1,5,0 4,4 0,4 11,8 0,8 6,1 4,1 0,4,5,5 4,00 19,36 0,16 139,4 0,64 37,1 16,81 0,16 6,5 0,90 0,80 1,86 0,01 6,89 0,03,64,08 0,04 4, ,0 0,0 19,4 połączono dwa pierwsze i dwa ostatnie przedziały odczytujemy χ tabl = 18,48 dla α=0,01 i ν = 7 (k=10 po połączeniu, r=) stwierdzamy, że χ obl > χ tabl odrzucamy hipotezę, że rozkład populacji jest rozkładem normalnym (decyzja obarczona błędem nie większym niż 0,01) stwierdzamy, że rozkład szybkości czytania uczniów różni się istotnie od rozkładu normalnego Test nieparametryczny χ wyliczanie liczności teoretycznych na podstawie dystrybuanty xi ni xi x zi F(zi) pt nt ,9 7,6 5,6 3,6 1,6 0,4,4 4,4 6,4 8,4 10,4 1,4,43 1,9 1,4 0,91 0,41 0,10 0,61 1,11 1,6,13,63 3,14 0,0075 0,074 0,0778 0,1814 0,3409 0,5398 0,791 0,8665 0,9474 0,9834 0,9957 1,0000 0,0075 0,0199 0,0504 0,1036 0,1595 0,1989 0,1893 0,1374 0,0809 0,0360 0,013 0,0043 0,9,0 5,1 10,5 16,1 0,1 19,1 13,9 8, 3,6 1, 0,5 Razem 101 1, połączono dwa pierwsze i dwa ostatnie przedziały odczytujemy χ tabl = 18,48 dla α = 0,01 i ν = 7 (k = 10 po połączeniu, r = ) stwierdzamy, że χ obl < χ tabl nie ma podstaw do odrzucenia hipotezy, że rozkład populacji jest rozkładem normalnym (decyzja ta jest obarczona błędem nie większym niż 0,01) stwierdzamy, że rozkład szybkości czytania uczniów nie różni się istotnie od rozkładu normalnego 9

30 Testowanie przy użyciu testu Kołmogorowa-Smirnowa TEST TYLKO DLA ROZKŁADÓW ZMIENNEJ LOSOWEJ CIĄGŁEJ!!! dane dzieli się na przedziały klasowe (klasy) do sprawdzenia, czy dana próbka może pochodzić z populacji o założonym rozkładzie, używa się dwu dystrybuant empirycznej i teoretycznej dla każdej klasy określa się wartość obu dystrybuant i określa bezwzględną wartość różnicy pomiędzy nimi znajduje się największą różnicę D i wylicza empiryczną wartość statystyki λ według wzoru λ obl = D n Test ten jest mniej dokładny niż test χ i może dać inny wynik F(X) 1 dystrybuanta empiryczna dystrybuanta teoretyczna największa różnica D z tablicy statystyki λ (SKRYPT) odczytuje się wartość λ tabl dla wybranego poziomu ufności decyzję o przyjęciu lub odrzuceniu H 0 podejmuje się jak poprzednio klasy wielkości X Przykład cd x i n i n icum F(x i) F(z i) /F(x i)-f(z i)/ ,0099 0,0396 0,0693 0,187 0,871 0,6040 0,800 0,881 0,908 0,9604 0,9901 1,0000 0,0075 0,074 0,0778 0,1814 0,3409 0,5398 0,791 0,8665 0,9474 0,9834 0,9957 1,0000 0,004 0,01 0,0085 0,057 0,0538 0,064 0,079 0,0147 0,066 0,030 0,0056 0,0000 λ obl = D n = 0,079*10,05=0,73 Razem 101 z tablicy odczytujemy wartość λ tabl = 1,63 dla α = 0,01 stwierdzamy, że λ tabl > λ 0bl nie ma podstaw do odrzucenia hipotezy, że rozkład populacji jest rozkładem normalnym (decyzja ta jest obarczona błędem nie większym niż 0,01) stwierdzamy, że rozkład szybkości czytania uczniów nie różni się istotnie od rozkładu normalnego 30

31 Testowanie przy użyciu testów serii test liczby serii test długości (najdłuższej) serii Serię tworzą elementy ułożone w kolejności rosnącej wartości, pochodzące z dwu różnych populacji: kobiety i mężczyźni (wzrost), ludzie z dwu krajów (spożycie), pracownicy dwu firm (wydajność). test liczby serii H 0 populacje nie różnią się od siebie istotnie Przykład serii: A A A A liczba elementów: 10 (n 1 =4, n =6) liczba serii: k = 6 Z tablicy testu serii dla n 1 i n odczytujemy k α Lewostronny obszar krytyczny: P(k k α ) = α Jeżeli k < k α odrzucamy H 0 Jeżeli k > k α nie ma podstaw do odrzucenia H 0 test długości (najdłuższej) serii Przykład serii: A A A A długość najdłuższej serii: l = 3 Z tablicy odczytujemy l α Prawostronny obszar krytyczny: P(l > l α ) = α Jeżeli l > l α odrzucamy H 0 l < l α Jeżeli nie ma podstaw do odrzucenia H 0 Hipotezy parametryczne dotyczą one parametrów populacji generalnej, które oznaczymy ogólnym symbolem θ hipoteza zerowa polega na przyjęciu, że nieznane θ jest równe θ 0 weryfikacja prawdziwości tej hipotezy polega na sprawdzeniu, czy wartość θ 0 znajduje się w przedziale ufności parametru θ 1. Trzy sytuacje przy weryfikacji hipotez H0 : θ = θ0 H1 : θ θ0 Przedział przyjęcia H 0 : z α/ <z obl <z α/ Przedziały odrzucenia H 0 : z obl < z α/ oraz z obl >z α/ czyli z obl > z α/ α/ 1 α α / z α/ z α/ 1 α α. H0 : θ = θ0 H1 : θ > θ0 z α Przedział przyjęcia H0 :z obl <z α Przedział odrzucenia H 0 : z obl >z α 31

32 3. Hipotezy parametryczne H0 : θ = θ0 H1 : θ < θ0 Przedział przyjęcia H 0 :z obl > z α Przedział odrzucenia H 0 : z obl < z α α 1 α z z α Rzeczywisty poziom istotności α założony poziom istotności(błąd I rodzaju) α = 0,05 z tabl = 1,645 1 α α z α 1 P P P poziom istotności rzeczywisty z obl =,0 P = 0,017 z obl HIPOTEZY O ŚREDNIEJ DLA POPULACJI I. Duża próbka stosujemy statystykę z [o rozkładzie normalnym N(0;1)] Pobieramy próbkę i liczymy x μ z 0 obl = lub σx σ s σx = sx = x μ z 0 n n obl = sx H 0 : μ = μ 0 H 0 : μ = μ 0 H 0 : μ = μ 0 H 1 : μ μ 0 H 1 : μ > μ 0 H 1 : μ < μ 0 Reguła decyzyjna Odrzucamy H 0, jeżeli... z obl >z α/ z obl >z α z obl < z α H 0 : μ=μ 0 3

33 II. Mała próbka stosujemy statystykę t (o rozkładzie Studenta) Pobieramy n-elementową próbkę i liczymy x μ t 0 obl = sx H 0 : μ = μ 0 H 0 : μ = μ 0 H 0 : μ = μ 0 H 1 : μ μ 0 H 1 : μ > μ 0 H 1 : μ < μ 0 Reguła decyzyjna Odrzucamy H 0, jeżeli... t obl >t α/(n-1) t obl >t α(n-1) t obl <t α(n-1) Przykład 15. W celu sprawdzenia, czy nowy lek jest lepszy od dotych-czasowego, zbadano jego skuteczność na 6 chorych mierząc współczyn-nik odbudowy czerwonych ciałek krwi: 6,3; 7,8; 8,1; 8,3; 8,7 i 9,4. Lek używany dotychczas daje 8,3. Sprawdź hipotezę przy poziomie istotności 0,01. Zakładamy rozkład normalny współczynnika i wybieramy test t. Parametry próbki: n = 6; x = 8,1; s = 1,04 8,1 8,3 t Hipotezy: H 0 : μ = 8,3; H 1 : μ < 8,3 obl = = 0,47 1,04 Statystyka t: t 0,01(5) = - 3,365 6 Porównanie: t obl > t tabl Wniosek: nowy lek z pewnością nie jest lepszy od dotychczasowego HIPOTEZY O WARIANCJI POPULACJI wariancja jest miarą jakości wyrobów; dla klienta jest ważniejsza niż średnia stosujemy χ tabl = χ α,n 1 zakładamy rozkład normalny populacji (n 1)s pobieramy n-elementową próbkę, dla której wyznaczamy s i liczymy χobl = σ 0 H 0 : σ = σ 0 H 0 : σ = σ 0 H 0 : σ = σ 0 H 1 : σ σ 0 H 1 : σ > σ 0 H 1 : σ < σ 0 Reguła decyzyjna Odrzucamy H 0, jeżeli... χ obl >χ α/ χ obl >χ α χ obl <χ 1- α lub χ obl <χ 1-α/ σ 0 Przykład 16. Dla sprawdzenia hipotezy, że wariancja wykonania normy =1,5(%) wylosowano 81-osobową grupę robotników, dla których wariancja równa się 11,4 (%). Przyjmij α=0,10 do zweryfikowania tej hipotezy (przy założeniu, że populacja ma rozkład normalny). H 0 : σ = 1,5 α / = 0,05 (80)(11,4) χ 73 H 1 : σ 1,5 1 α / = 0,95 obl = χ 1- α / 1,5 =60,39 χ α / =101,88 NIE MA PODSTAW DO ODRZUCENIA H 0 istotniemoże YĆ 1,5 (%) WARIANCJA normy dla POPULACJI nie różni się 33

34 HIPOTEZY O FRAKCJI W POPULACJI w przypadku dużej próby Stosujemy statystykę z [o rozkładzie normalnym N(0;1)] Pobieramy próbkę i liczymy pˆ p z = o gdzie qo = 1 po poqo / n H 0 : p = p 0 H 0 : p = p 0 H 0 : p = p 0 H 1 : p p 0 H 1 : p > p 0 H 1 : p < p 0 Reguła decyzyjna Odrzucamy H 0, jeżeli... z obl >z α/ z obl >z α z obl < z α Przykład 17. Udział pewnej spółki w rynku bardzo wyraźnie reaguje na nasilenie reklamy własnej i konkurencji. Obecnie udział w rynku wynosi 56%. Zarząd spółki chce wiedzieć czy udział ten zmienił się wskutek ostatniej kampanii reklamowej konkurentów oraz wskutek nasilenia własnej kampanii reklamowej. W pobranej próbie 500 klientów, 98 nabyło produkt spółki. Czy są podstawy do wniosku, że udział spółki w rynku nie wynosi już 56%? Przyjąć poziom istotności 0,01. z = pˆ po 0,596-0,56 = = 1,615 poqo / n 0,56 0,44/500 Wnioskowanie WNIOSKOWANIE STATYSTYCZNE Z DWU PRÓEK Eksperyment statystyczny polega na pobraniu dwu próbek: badanej, którą poddaje się działaniu danego czynnika kontrolnej, która nie podlega działaniu i służy do porównania Estymacja różnicy pomiędzy średnimi dwu populacji mamy dwie populacje o rozkładzie normalnym lub pobieramy próbki (o liczebności >30) populacje te mają średnie μ 1 i μ oraz znane wariancje σ 1 i σ pobieramy z nich próbki o liczebności n 1 i n, średniej x 1 i x, oraz wariancji s 1 i s interesuje nas nieznana różnica pomiędzy średnimi: μ 1 μ mamy do czynienia z estymatorem x 1 x, którego błąd oszacowania Gdyż z własności wariancji wynika, że σ1 σ σ x1 x = n1 n σ ( X Y ) = σ ( X ) σ (Y ) ( x 1 x ) z α/ σ x1 x dolna Granice przedziału ufności dla μ 1 μ : ( x 1 x ) z α/ σ x1 x górna σ σ σ σ P ( x 1 α < μ μ < 1 α = 1 α 1 x ) z / 1 ( x1 x ) z / n 1 n n1 n Jeżeli nie znamy wariancji obu populacji, możemy zastąpić je wariancjami próbek s 1 i s ale: jeśli rozkłady normalne oraz n 1 >30 i n >30 jeśli rozkłady nie normalne oraz n 1 >50 i n >50 34

35 TESTOWANIE HIPOTEZ H 0 : μ 1 - μ = D 0 H 0 : μ 1 - μ = D 0 H 0 : μ 1 - μ = D 0 H 1 : μ 1 - μ D 0 H 1 : μ 1 - μ >D 0 H 1 : μ 1 - μ <D 0 Reguła decyzyjna Odrzucamy H 0, jeżeli... z obl >z α/ z obl >z α z obl < z α ( x1 x ) D z 0 obl = s1 s n1 n Przykład 18. Porównujemy dwie metody sprzedaży pewnego towaru, realizowane w dwu grupach sklepów. Zmienną losową X jest tygodniowa sprzedaż wyrażona w sztukach. Wyznacz 95-procentowy przedział ufności dla rzeczywistej różnicy wielkości sprzedaży dwoma metodami. Próbka jest duża I metoda n 1 = 51 II metoda n = 54 x 1 = 6,5 x =,4 s 1 = 9,1 s = 6,7 wartość oszacowana różnicy x 1 x = 4,1 błąd oszacowania różnicy sx 1, x = P ( 1, 0 < μ1 μ < 7, ) = 0, 95 W przypadku małych próbek, pobranych z populacji o rozkładzie normalnym i o nieznanej wariancji, rozróżniamy dwa przypadki: A wariancje populacji są sobie równe wariancje populacji nie są sobie równe W przypadku A stosujemy statystykę t o (n 1 n ) stopniach swobody, zaś przedział ufności dla różnicy średnich jest dany wzorem P ( x1 x tα / s < μ1 μ < x1 x tα / s ) = 1 α n1 n n1 n gdzie s = TESTOWANIE HIPOTEZ ( n1 1 )s1 ( n 1 )s n1 n Przykład 19. Pewien koncern chemiczny bada zanieczyszczenie powietrza w dwu różnych miejscowościach (w ciągu kilku dni o ustalonej godzinie): Próbka jest mała I miasto n 1 = 8 II miasto n = 11 x 1 = 0,3 ppm s 1 = 0,07 ppm wartość oszacowana różnicy x 1 x = 0,09 ppm błąd oszacowania różnicy 0,04758 x = 0,3 ppm s = 0,1 ppm wartość statystyki t 0,05(17) =,11 dolna granica przedziału ufności ( 0,09) (,11)(0,04758) = 0,19 ppm górna granica przedziału ufności ( 0,09) (,11)(0,04758) = 0,01 ppm P ( 0, 19 < μ1 μ < 0, 01) = 0, 95 35

36 TESTOWANIE HIPOTEZ W przypadku stosujemy statystykę t Fishera-ehrensa ' s 1 s ' s < μ μ < 1 s P ( x = 1 α 1 x ) t 1 ( x1 x ) t n 1 n n1 n ' t = tα /, ν ( s1 / n1 s / n ) ( ) ( s / n s / n ) ν = 1 1 n1-1 n -1 Przykład 0. Przedsiębiorstwo rozważa, w której stacji telewizyjnej uloko-wać reklamę. Zbadano ceny wynegocjowane za 30-sekundowe spoty przez różnych klientów: Próbka jest mała I stacja n 1 = 14 II stacja n = 4 x 1 = 883 zł x = 47 zł s 1 = 13 zł s = 63 zł Szef firmy stwierdził, że decyzję podejmie w zależności od tego, czy I stacja jest średnio droższa od II tylko o 500 zł, czy o więcej. Sprawdź odpowiednie hipotezy przy poziomie istotności 0,05. H 0 : μ 1 μ = 500 ( x1 x ) 500 t obl = H 0 : μ 1 μ > 500 s1 s Jest to przypadek stosujemy statystykę t n1 n t obl =,33 t 0,05(14) = 1,761 Odrzucamy H 0 na korzyść H 1 : stacja I jest średnio droższa od stacji II o co najmniej 500 zł z prawdopodobieństwem poniżej 0,05 (rzeczywisty poziom istotności). Wariancje dwu populacji Wariancja jest wielokrotnie ważniejsza niż średnia Statystyka Fishera, dana dwoma parametrami: ν 1, ν χ1 ν F = 1 χ ν f(f) Rozkład F dla α F Liczba stopni swobody mianownika Liczba stopni swobody licznika , 19,3 3 9,1 9,01 4 α=0,05 6,39 5 5,19 6 4,53 7 4,1 8 3,84 9 5,1 4,6 3,86 3,63 3,48 Tablice rozkładu F dla każdego α oddzielna tablica! Obszar krytyczny zawsze prawostronny 36

37 Rozkład F dla α f(f) Próbki: n 1 n s 1 s α/ lub α 0 F α/ lub F α F Zawsze prawostronny obszr krytyczny testu Gdy s 1 > s ν 1 = n 1-1 ν = n -1 s F obl = s 1 Gdy s 1 < s ν 1 = n -1 ν = n 1-1 s F obl = s 1 H 0 : σ 1 = σ σ 1 = σ H 1 : σ 1 σ σ 1 > σ Reguła decyzyjna Odrzucamy H 0, jeżeli... F obl >F α/(ν1, ν) F obl >F α(ν1, ν) OIE ZMIENNE MUSZĄ MIEĆ ROZKŁAD NORMALNY Przykład Analityk ma rozstrzygnąć, czy akcje dwóch firm A i charakteryzują się tym samym ryzykiem (wariancja miarą ryzyka). Zmienną losową jest cena akcji na kolejnych sesjach giełdy. Wyniki dla dwu próbek dały następujące wyniki. Rozstrzygnij problem przy poziomie 0,05. H 0 : σ 1 = σ I: akcje A n 1 = 5 II: akcje n = 4 H 1 : σ 1 σ x 1 = 4,11 $ x = 3,35 $ s 1 = 1,85 $ s = 1,17 $ F obl =(1,85) /(1,17) =,50 F tabl(0,05;4;3) =,9 Odrzucamy hipotezę zerową. Wariancje populacji nie są sobie równe. Akcje są mniej ryzykowne; mniejsze wahania ceny (decyzja z błędem do 0,05). H 0 : σ 1 = σ F tabl(0,05;4;3) =,01 Wniosek jak powyżej H 1 : σ 1 > σ Przedział ufności dla stosunku wariancji dwu populacji (???) s dolna granica 1 s F α / ( ν, ν = 1) s s F α / ( ν1, ν ) s1 górna granica F α / ( ν, ν1 ) s W przykładzie 1: F 0,05;4;3 =,9 F 0,05;3;4 =,30 1,09<σ 1 / σ <5,75 37

38 Stosowane symbole L liczba klas T drzewo decyzyjne t węzeł drzewa T t poddrzewo drzewa T o korzeniu w węźle t T L zbiór liści drzewa T T L liczba liści drzewa T m liczba przykładów m i liczba przykładów, dla których dany atrybut przyjmuje wartość i-tą m j liczba przykładów klasy c j 38

39 Klasyfikacja jednoetapowa Podczas całego procesu decyzyjnego uwzględniane wszystkie cechy i klasy. sekwencyjna Decyzja rozłożona na szereg prostszych decyzji; w różnych etapach wykorzystywane są różne cechy i uwzględniane różne podzbiory klas. Schemat działania klasyfikatora przedstawia drzewo decyzyjne Drzewo decyzyjne Odległość < 30 km tak nie Pogoda słonecznie deszczowo Działanie klasyfikatora wieloetapowego ilustruje drzewo decyzyjne. Pojęcia: korzeń drzewa, węzeł wewnętrzny, węzeł końcowy (liść), gałąź, ścieżka. 39

40 Drzewo decyzyjne Odległość: 8 Pogoda: deszczowo Odległość < 30 km tak nie Pogoda słonecznie deszczowo Zalety drzew decyzyjnych szybka klasyfikacja zrozumiały proces decyzyjny możliwość aproksymacji złożonych powierzchni decyzyjnych możliwość stosowania cech różnego typu efektywne z punktu widzenia przechowywania w pamięci 40

41 Wady drzew decyzyjnych im więcej klas oraz im bardziej się one nakładają, tym większe drzewo decyzyjne trudno zapewnić jednocześnie wysoką jakość klasyfikacji i małe rozmiary drzewa w węzłach testowany jeden atrybut lokalna optymalizacja metody nieadaptacyjne Konstrukcja drzewa decyzyjnego y a 1 A A AA x y a 1 A A AA x a a 3 y< a 1 y< a 3 tak nie tak nie x< a x< a 1 tak nie tak nie A A 41

42 Konstrukcja drzew decyzyjnych Jeden zbiór danych wiele możliwych drzew Czym należy się kierować wybierając (konstruując) drzewo? Kryteria optymalizacji Globalne Lokalne - średnie prawdopodobieństwo błędu - średnia długość ścieżki - liczba węzłów drzewa - stopień zróżnicowania danych - przyrost informacji - współczynnik przyrostu informacji i inne 4

43 Zstępująca konstrukcja drzew decyzyjnych function Konstrukcja_drzewa(P-przykłady,t-węzeł) if not kryterium_stopu then podział_węzła t for i=a to n (n-liczba węzłów potomnych) Konstrukcja_drzewa(P i,t i ) else utworzenie_liścia t endif end function Utworzenie liścia Do węzła końcowego przypisuje się etykietę tej klasy, której obrazów najwięcej dociera do tego węzła. 43

44 Podział węzła - przykłady A. Cecha porównana z wartością progową (typowe dla atrybutów ciągłych). y i > α i tak nie. Uwzględnione wszystkie możliwe wartości danego atrybutu (typowe dla atrybutów nominalnych). y i y i1 y i y ik Podział węzła Najczęściej reguły decyzyjne budowane są na podstawie pojedynczych cech źródłowych. Prowadzi to do dzielenia przestrzeni cech hiperłaszczyznami prostopadłymi do osi cech. Wybierając cechę można się kierować jedną ze znanych miar, np. przyrostem informacji, wskaźnikiem przyrostu informacji, wskaźnikiem zróżnicowania danych itd. 44

45 Podział węzła w przypadku atrybutów nominalnych A. Dla każdego atrybutu y i oblicz wartość wybranej miary.. Wybierz atrybut optymalny w sensie powyższej miary. 3. Od danego węzła utwórz tyle gałęzi, ile różnych wartości przyjmuje atrybut y i. t y i y i1 yi y ik t 1 t t k Kryteria wyboru atrybutu mierzące różnicę między zbiorem przykładów w węźle t a zbiorami przykładów w węzłach potomnych ze względu na rozkład częstości klas; mierzące różnice między poszczególnymi zbiorami przykładów w węzłach potomnych ze względu na rozkład częstości klas; mierzące statystyczną niezależność między rozkładem klas a podziałem zbioru przykładów na podzbiory. 45

46 Kryteria wyboru atrybutu przyrost informacji Przyrost informacji IM (information measure): IM = H i ci m H = m j m j m H ci m log m j y H, m przykładów y 1 yj y k H 1,m 1 H j, m j Hk, m k Dla każdego atrybutu obliczamy wartość IM i wybieramy atrybut, dla którego wartość ta jest największa (H nie zależy od atrybutu, wystarczy porównywać drugi składnik). Miara IM preferuje atrybuty o dużej liczbie różnych wartości. Kryteria wyboru atrybutu współczynnik przyrostu informacji Współczynik przyrostu informacji GR (gain ratio): GR = IM m j m j log m m j Dla każdego atrybutu obliczamy wartość GR i wybieramy atrybut, dla którego wartość ta jest największa. Miara GR preferuje atrybuty o małej liczbie różnych wartości. 46

47 Kryteria wyboru atrybutu - miara zróżnicowania danych (Gini index) Stopień zróżnicowania danych: i = p k j k j p j = 1 j j p j = 1 Spadek zróżnicowania: m j Δi = i i m j j c m m j Dla każdego atrybutu obliczamy Δi i wybieramy atrybut, dla którego wartość ta jest największa. Kryteria wyboru atrybutu statystyka χ Statystyka χ służy do porównywania rzeczywistych rozkładów z oczekiwanymi. χ c ( m j i ij ) = E E i j ij E ij = mim m c j Dla każdego atrybutu obliczamy χ i wybieramy atrybut, dla którego wartość ta jest największa. 47

48 Eksperymenty pokazują że: Kryteria wyboru atrybutu przedstawione kryteria wyboru atrybutu nie wpływają na błąd klasyfikacji; można otrzymać równie dobre drzewa wybierając atrybuty w węzłach losowo, ale przedstawione miary wpływają na rozmiary skonstruowanego drzewa (przed przycięciem); drzewa, dla których losowano atrybuty zawierają około dwa razy więcej węzłów; przeważnie korzystając z miary GR otrzymuje się najmniejsze drzewa a za pomocą χ największe; na błąd klasyfikacji ma wpływ przycinanie drzewa. Kryterium stopu Możliwe dwa podejścia: 1. Przerwanie rozbudowy drzewa, gdy spełniony jest jeden z poniższych warunków: liczba błędnie klasyfikowanych obrazów jest mniejsza niż ustalony próg; liczba obrazów w węźle jest mniejsza niż ustalony próg; drzewo osiągnęło maksymalny dopuszczalny rozmiar (maksymalna liczba węzłów lub maksymalna wysokość).. Zbudowanie drzewa klasyfikującego poprawnie wszystkie lub prawie wszystkie przykłady, a następnie przycięcie drzewa. 48

49 Przycinanie drzew y A A AA A A A x Cel: zlikwidować nadmierne dopasowanie klasyfikatora do niepoprawnych danych. Przycinanie drzew 1 poprawność 0,8 0,6 0,4 0, zbiór uczący zbiór testowy liczba węzłów 49

50 Przycinanie drzew Na podstawie oddzielnego zbioru przycinania Na podstawie zbioru uczącego Wykorzystujące zasadę minimalnej długości kodu Przycinanie drzew Większość algorytmów przycinania (reduced error pruning, pessimistic error pruning, minimum error pruning) opiera się na następującym schemacie: repeat przeglądaj węzły wewnętrzne drzewa T if błąd dla poddrzewa T t > błąd dla liścia t then zastąp poddrzewo T t liściem przypisz do liścia t etykietę odpowiedniej klasy end if until przycinanie zmniejsza błąd Poszczególne metody różnią się sposobem szacowania błędu oraz kolejnością przeglądania węzłów drzewa. 50

51 Przycinanie drzew reduced error pruning łąd szacowany na podstawie odrębnego zbioru przycinania. Węzły przeglądane od dołu. Poddrzewo T t zastępowane liściem t gdy error(t) error(t t ). Procedura powtarzana dopóki dalsze przycinanie nie zwiększa błędu. Zalety: prostota, niski koszt obliczeniowy. Wady: konieczność poświęcenia części danych na przycinanie; czasem drzewo zostaje przycięte zbyt mocno (zwłaszcza gdy zbiór przycinania jest znacznie mniejszy niż zbiór uczący). Przycinanie drzew reduced error pruning, przykład < 0 wiek 0 typ y A tak nie Zbiór przycinania kolor wiek 1 czarny 11 biały 3 3 czarny 4 czarny 18 typ A y tak tak nie nie Klasa biały 6-1 kolor A 4 5 czarny A 7 - biały typ kolor - A -5 czarny A typ czarny 15 tak - 6 biały 7 nie 51

52 Przycinanie drzew reduced error pruning, przykład < 0 wiek 0 typ y A tak nie 6-0 biały kolor czarny kolor biały czarny A typ typ A 4 5 A 4 5 A Przycinanie drzew reduced error pruning, przykład wiek A -5 A 4 5 A typ < 0 0 tak y nie A 4 5 kolor biały czarny A typ typ A

53 Przycinanie drzew reduced error pruning, przykład < 0 wiek 0 A tak y nie kolor typ biały czarny A 8-7 A 7 - typ Przycinanie drzew reduced error pruning, przykład < 0 wiek 0 A tak y nie biały typ kolor czarny A typ A

54 Przycinanie drzew reduced error pruning, przykład < 0 wiek tak y nie biały kolor czarny A typ Przycinanie drzew pessimistic error pruning łąd szacowany na podstawie zbioru uczącego. Węzły przeglądane od korzenia. Poddrzewo T t o korzeniu w węźle t zastępowane liściem gdy error (t) error (T t ) SE(error (T t )) error (t) = error(t) ½ error (T t ) = error(t t ) ½ T tl SE(error (T t )) = [error (T t )(m(t) - error (T t )) / m(t)] ½. 54

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl

Bardziej szczegółowo

Statystyka matematyczna dla leśników

Statystyka matematyczna dla leśników Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 03/04 Wykład 5 Testy statystyczne Ogólne zasady testowania hipotez statystycznych, rodzaje

Bardziej szczegółowo

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów

Bardziej szczegółowo

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Testowanie hipotez statystycznych. Wnioskowanie statystyczne Testowanie hipotez statystycznych Wnioskowanie statystyczne Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Hipotezy

Bardziej szczegółowo

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( ) Statystyka Rozkład prawdopodobieństwa Testowanie hipotez Wykład III (04.01.2016) Rozkład t-studenta Rozkład T jest rozkładem pomocniczym we wnioskowaniu statystycznym; stosuje się go wyznaczenia przedziału

Bardziej szczegółowo

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych Statystyka matematyczna. Wykład IV. e-mail:e.kozlovski@pollub.pl Spis treści 1 2 3 Definicja 1 Hipoteza statystyczna jest to przypuszczenie dotyczące rozkładu (wielkości parametru lub rodzaju) zmiennej

Bardziej szczegółowo

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka Wnioskowanie statystyczne Weryfikacja hipotez Statystyka Co nazywamy hipotezą Każde stwierdzenie o parametrach rozkładu lub rozkładzie zmiennej losowej w populacji nazywać będziemy hipotezą statystyczną

Bardziej szczegółowo

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28 Statystyka #5 Testowanie hipotez statystycznych Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik rok akademicki 2016/2017 1 / 28 Testowanie hipotez statystycznych 2 / 28 Testowanie hipotez statystycznych

Bardziej szczegółowo

Zawartość. Zawartość

Zawartość. Zawartość Opr. dr inż. Grzegorz Biesok. Wer. 2.05 2011 Zawartość Zawartość 1. Rozkład normalny... 3 2. Rozkład normalny standardowy... 5 3. Obliczanie prawdopodobieństw dla zmiennych o rozkładzie norm. z parametrami

Bardziej szczegółowo

Spis treści 3 SPIS TREŚCI

Spis treści 3 SPIS TREŚCI Spis treści 3 SPIS TREŚCI PRZEDMOWA... 1. WNIOSKOWANIE STATYSTYCZNE JAKO DYSCYPLINA MATEMATYCZNA... Metody statystyczne w analizie i prognozowaniu zjawisk ekonomicznych... Badania statystyczne podstawowe

Bardziej szczegółowo

166 Wstęp do statystyki matematycznej

166 Wstęp do statystyki matematycznej 166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej

Bardziej szczegółowo

STATYSTYKA

STATYSTYKA Wykład 1 20.02.2008r. 1. ROZKŁADY PRAWDOPODOBIEŃSTWA 1.1 Rozkład dwumianowy Rozkład dwumianowy, 0 1 Uwaga: 1, rozkład zero jedynkowy. 1 ; 1,2,, Fakt: Niech,, będą niezależnymi zmiennymi losowymi o jednakowym

Bardziej szczegółowo

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej

Bardziej szczegółowo

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH Było: Estymacja parametrów rozkładu teoretycznego punktowa przedziałowa Przykład. Cecha X masa owocu pewnej odmiany. ZałoŜenie: cecha X ma w populacji rozkład

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta

Bardziej szczegółowo

Estymacja punktowa i przedziałowa

Estymacja punktowa i przedziałowa Temat: Estymacja punktowa i przedziałowa Kody znaków: żółte wyróżnienie nowe pojęcie czerwony uwaga kursywa komentarz 1 Zagadnienia 1. Statystyczny opis próby. Idea estymacji punktowej pojęcie estymatora

Bardziej szczegółowo

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych. Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl Hipotezy i Testy statystyczne Każde

Bardziej szczegółowo

Wykład 3 Hipotezy statystyczne

Wykład 3 Hipotezy statystyczne Wykład 3 Hipotezy statystyczne Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu obserwowanej zmiennej losowej (cechy populacji generalnej) Hipoteza zerowa (H 0 ) jest hipoteza

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu Wykład 11-12 Centralne twierdzenie graniczne Statystyka matematyczna: Estymacja parametrów rozkładu Centralne twierdzenie graniczne (CTG) (Central Limit Theorem - CLT) Centralne twierdzenie graniczne (Lindenberga-Levy'ego)

Bardziej szczegółowo

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N = HISTOGRAM W pewnych przypadkach interesuje nas nie tylko określenie prawdziwej wartości mierzonej wielkości, ale także zbadanie całego rozkład prawdopodobieństwa wyników pomiarów. W takim przypadku wyniki

Bardziej szczegółowo

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Spis treści I. Wzory ogólne... 2 1. Średnia arytmetyczna:... 2 2. Rozstęp:... 2 3. Kwantyle:... 2 4. Wariancja:... 2 5. Odchylenie standardowe:...

Bardziej szczegółowo

Wnioskowanie statystyczne. Statystyka w 5

Wnioskowanie statystyczne. Statystyka w 5 Wnioskowanie statystyczne tatystyka w 5 Rozkłady statystyk z próby Próba losowa pobrana z populacji stanowi realizacje zmiennej losowej jak ciąg zmiennych losowych (X, X,... X ) niezależnych i mających

Bardziej szczegółowo

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1 Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie

Bardziej szczegółowo

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

TESTOWANIE HIPOTEZ STATYSTYCZNYCH TETOWANIE HIPOTEZ TATYTYCZNYCH HIPOTEZA TATYTYCZNA przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Prawdziwość tego przypuszczenia jest oceniana na

Bardziej szczegółowo

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15 VI WYKŁAD STATYSTYKA 9/04/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 6 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI Weryfikacja hipotez ( błędy I i II rodzaju, poziom istotności, zasady

Bardziej szczegółowo

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI WERYFIKACJA HIPOTEZ Hipoteza statystyczna jakiekolwiek przypuszczenie dotyczące populacji generalnej- jej poszczególnych

Bardziej szczegółowo

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych Wnioskowanie statystyczne i weryfikacja hipotez statystycznych Wnioskowanie statystyczne Wnioskowanie statystyczne obejmuje następujące czynności: Sformułowanie hipotezy zerowej i hipotezy alternatywnej.

Bardziej szczegółowo

Pobieranie prób i rozkład z próby

Pobieranie prób i rozkład z próby Pobieranie prób i rozkład z próby Marcin Zajenkowski Marcin Zajenkowski () Pobieranie prób i rozkład z próby 1 / 15 Populacja i próba Populacja dowolnie określony zespół przedmiotów, obserwacji, osób itp.

Bardziej szczegółowo

Zadania ze statystyki, cz.6

Zadania ze statystyki, cz.6 Zadania ze statystyki, cz.6 Zad.1 Proszę wskazać, jaką część pola pod krzywą normalną wyznaczają wartości Z rozkładu dystrybuanty rozkładu normalnego: - Z > 1,25 - Z > 2,23 - Z < -1,23 - Z > -1,16 - Z

Bardziej szczegółowo

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1. Opracowała: Joanna Kisielińska ZMIENNE LOSOWE Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R tzn. X: R. Realizacją zmiennej losowej

Bardziej szczegółowo

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI WERYFIKACJA HIPOTEZ Hipoteza statystyczna jakiekolwiek przypuszczenie dotyczące populacji generalnej- jej poszczególnych

Bardziej szczegółowo

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW ODRZUCANIE WYNIKÓW OJEDYNCZYCH OMIARÓW W praktyce pomiarowej zdarzają się sytuacje gdy jeden z pomiarów odstaje od pozostałych. Jeżeli wykorzystamy fakt, że wyniki pomiarów są zmienną losową opisywaną

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych Agenda Instytut Matematyki Politechniki Łódzkiej 2 stycznia 2012 Agenda Agenda 1 Wprowadzenie Agenda 2 Hipoteza oraz błędy I i II rodzaju Hipoteza alternatywna Statystyka testowa Zbiór krytyczny Poziom

Bardziej szczegółowo

Wydział Matematyki. Testy zgodności. Wykład 03

Wydział Matematyki. Testy zgodności. Wykład 03 Wydział Matematyki Testy zgodności Wykład 03 Testy zgodności W testach zgodności badamy postać rozkładu teoretycznego zmiennej losowej skokowej lub ciągłej. Weryfikują one stawiane przez badaczy hipotezy

Bardziej szczegółowo

Statystyka matematyczna i ekonometria

Statystyka matematyczna i ekonometria Statystyka matematyczna i ekonometria Wykład 5 dr inż. Anna Skowrońska-Szmer zima 2017/2018 Hipotezy 2 Hipoteza zerowa (H 0 )- hipoteza o wartości jednego (lub wielu) parametru populacji. Traktujemy ją

Bardziej szczegółowo

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY SIGMA KWADRAT CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY Weryfikacja hipotez statystycznych Statystyka i demografia PROJEKT DOFINANSOWANY ZE ŚRODKÓW NARODOWEGO BANKU POLSKIEGO URZĄD STATYSTYCZNY

Bardziej szczegółowo

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych: W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych: Zmienne losowe skokowe (dyskretne) przyjmujące co najwyżej przeliczalnie wiele wartości Zmienne losowe ciągłe

Bardziej szczegółowo

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa. TESTY NIEPARAMETRYCZNE 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa. Standardowe testy równości średnich wymagają aby badane zmienne losowe

Bardziej szczegółowo

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 9 i 10 1 / 30 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Bardziej szczegółowo

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa Weryfikacja hipotez statystycznych Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o prawdziwości lub fałszywości którego wnioskuje się na podstawie

Bardziej szczegółowo

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część populacji, którą podaje się badaniu statystycznemu

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów STATYSTYKA MATEMATYCZNA WYKŁAD 4 Testowanie hipotez Estymacja parametrów WSTĘP 1. Testowanie hipotez Błędy związane z testowaniem hipotez Etapy testowana hipotez Testowanie wielokrotne 2. Estymacja parametrów

Bardziej szczegółowo

Rozkłady statystyk z próby

Rozkłady statystyk z próby Rozkłady statystyk z próby Rozkłady statystyk z próby Przypuśćmy, że wykonujemy serię doświadczeń polegających na 4 krotnym rzucie symetryczną kostką do gry, obserwując liczbę wyrzuconych oczek Nr kolejny

Bardziej szczegółowo

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407 Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl Weryfikacja hipotez dotyczących postaci nieznanego rozkładu -Testy zgodności.

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2 STATYSTYKA I DOŚWIADCZALNICTWO Wykład Parametry przedziałowe rozkładów ciągłych określane na podstawie próby (przedziały ufności) Przedział ufności dla średniej s X t( α;n 1),X + t( α;n 1) n s n t (α;

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH RÓWNOWAŻNOŚĆ METOD BADAWCZYCH Piotr Konieczka Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska Równoważność metod??? 2 Zgodność wyników analitycznych otrzymanych z wykorzystaniem porównywanych

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA STATYSTYKA MATEMATYCZNA 1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5.

Bardziej szczegółowo

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH 1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Wnioskowanie statystyczne dla zmiennych numerycznych Porównywanie dwóch średnich Boot-strapping Analiza

Bardziej szczegółowo

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

1 Podstawy rachunku prawdopodobieństwa

1 Podstawy rachunku prawdopodobieństwa 1 Podstawy rachunku prawdopodobieństwa Dystrybuantą zmiennej losowej X nazywamy prawdopodobieństwo przyjęcia przez zmienną losową X wartości mniejszej od x, tzn. F (x) = P [X < x]. 1. dla zmiennej losowej

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Statystyka Wykład 10 Wrocław, 22 grudnia 2011 Testowanie hipotez statystycznych Definicja. Hipotezą statystyczną nazywamy stwierdzenie dotyczące parametrów populacji. Definicja. Dwie komplementarne w problemie

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Weryfikacja hipotez statystycznych za pomocą testów statystycznych Weryfikacja hipotez statystycznych za pomocą testów statystycznych Weryfikacja hipotez statystycznych za pomocą testów stat. Hipoteza statystyczna Dowolne przypuszczenie co do rozkładu populacji generalnej

Bardziej szczegółowo

Statystyka matematyczna i ekonometria

Statystyka matematyczna i ekonometria Statystyka matematyczna i ekonometria Wykład 5 Anna Skowrońska-Szmer lato 2016/2017 Hipotezy 2 Hipoteza zerowa (H 0 )- hipoteza o wartości jednego (lub wielu) parametru populacji. Traktujemy ją jako prawdziwą

Bardziej szczegółowo

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne. W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne. dr hab. Jerzy Nakielski Katedra Biofizyki i Morfogenezy Roślin Plan wykładu: 1. Etapy wnioskowania statystycznego 2. Hipotezy statystyczne,

Bardziej szczegółowo

VII WYKŁAD STATYSTYKA. 30/04/2014 B8 sala 0.10B Godz. 15:15

VII WYKŁAD STATYSTYKA. 30/04/2014 B8 sala 0.10B Godz. 15:15 VII WYKŁAD STATYSTYKA 30/04/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 7 (c.d) WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI Weryfikacja hipotez ( błędy I i II rodzaju, poziom istotności,

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych Temat Testowanie hipotez statystycznych Kody znaków: Ŝółte wyróŝnienie nowe pojęcie pomarańczowy uwaga kursywa komentarz 1 Zagadnienia omawiane na zajęciach 1. Idea i pojęcia teorii testowania hipotez

Bardziej szczegółowo

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd. Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru

Bardziej szczegółowo

Analiza niepewności pomiarów

Analiza niepewności pomiarów Teoria pomiarów Analiza niepewności pomiarów Zagadnienia statystyki matematycznej Dr hab. inż. Paweł Majda www.pmajda.zut.edu.pl Podstawy statystyki matematycznej Histogram oraz wielobok liczebności zmiennej

Bardziej szczegółowo

STATYSTYKA wykład 8. Wnioskowanie. Weryfikacja hipotez. Wanda Olech

STATYSTYKA wykład 8. Wnioskowanie. Weryfikacja hipotez. Wanda Olech TATYTYKA wykład 8 Wnioskowanie Weryfikacja hipotez Wanda Olech Co nazywamy hipotezą Każde stwierdzenie o parametrach rozkładu lub rozkładzie zmiennej losowej w populacji nazywać będziemy hipotezą statystyczną

Bardziej szczegółowo

Wstęp do probabilistyki i statystyki. Wykład 4. Statystyki i estymacja parametrów

Wstęp do probabilistyki i statystyki. Wykład 4. Statystyki i estymacja parametrów Wstęp do probabilistyki i statystyki Wykład 4. Statystyki i estymacja parametrów dr hab.inż. Katarzyna Zakrzewska, prof.agh, Katedra Elektroniki, WIET AGH Wstęp do probabilistyki i statystyki. Wykład 4

Bardziej szczegółowo

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI Test zgodności i analiza wariancji Analiza wariancji Test zgodności Chi-kwadrat Sprawdza się za jego pomocą ZGODNOŚĆ ROZKŁADU EMPIRYCZNEGO Z PRÓBY Z ROZKŁADEM HIPOTETYCZNYM

Bardziej szczegółowo

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość Idea Niech θ oznacza parametr modelu statystycznego. Dotychczasowe rozważania dotyczyły metod estymacji tego parametru. Teraz zamiast szacować nieznaną wartość parametru będziemy weryfikowali hipotezę

Bardziej szczegółowo

Weryfikacja przypuszczeń odnoszących się do określonego poziomu cechy w zbiorowości (grupach) lub jej rozkładu w populacji generalnej,

Weryfikacja przypuszczeń odnoszących się do określonego poziomu cechy w zbiorowości (grupach) lub jej rozkładu w populacji generalnej, Szacownie nieznanych wartości parametrów (średniej arytmetycznej, odchylenia standardowego, itd.) w populacji generalnej na postawie wartości tych miar otrzymanych w próbie (punktowa, przedziałowa) Weryfikacja

Bardziej szczegółowo

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną Wydział: Zarządzanie i Finanse Nazwa kierunku kształcenia: Finanse i Rachunkowość Rodzaj przedmiotu: podstawowy Opiekun: prof. nadzw. dr hab. Tomasz Kuszewski Poziom studiów (I lub II stopnia): II stopnia

Bardziej szczegółowo

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę) PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5. Testy parametryczne (na

Bardziej szczegółowo

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd. Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru

Bardziej szczegółowo

Statystyka matematyczna i ekonometria

Statystyka matematyczna i ekonometria Statystyka matematyczna i ekonometria prof. dr hab. inż. Jacek Mercik B4 pok. 55 jacek.mercik@pwr.wroc.pl (tylko z konta studenckiego z serwera PWr) Konsultacje, kontakt itp. Strona WWW Elementy wykładu.

Bardziej szczegółowo

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0 Testowanie hipotez Każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy nazywamy hipotezą statystyczną. Hipoteza określająca jedynie wartości nieznanych parametrów liczbowych badanej cechy

Bardziej szczegółowo

Metody Statystyczne. Metody Statystyczne.

Metody Statystyczne. Metody Statystyczne. gkrol@wz.uw.edu.pl #4 1 Sprawdzian! 5 listopada (ok. 45-60 minut): - Skale pomiarowe - Zmienne ciągłe i dyskretne - Rozkład teoretyczny i empiryczny - Miary tendencji centralnej i rozproszenia - Standaryzacja

Bardziej szczegółowo

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi Piotr Konieczka Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska D syst D śr m 1 3 5 2 4 6 śr j D 1

Bardziej szczegółowo

IV WYKŁAD STATYSTYKA. 26/03/2014 B8 sala 0.10B Godz. 15:15

IV WYKŁAD STATYSTYKA. 26/03/2014 B8 sala 0.10B Godz. 15:15 IV WYKŁAD STATYSTYKA 26/03/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 4 Populacja generalna, próba, losowanie próby, estymatory Statystyka (populacja generalna, populacja próbna, próbka mała, próbka duża, reprezentatywność,

Bardziej szczegółowo

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4. Testowanie hipotez Niech X = (X 1... X n ) będzie próbą losową na przestrzeni X zaś P = {P θ θ Θ} rodziną rozkładów prawdopodobieństwa określonych na przestrzeni próby X. Definicja 1. Hipotezą zerową Θ

Bardziej szczegółowo

Testy nieparametryczne

Testy nieparametryczne Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów

Bardziej szczegółowo

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej LABORATORIUM 3 Przygotowanie pliku (nazwy zmiennych, export plików.xlsx, selekcja przypadków); Graficzna prezentacja danych: Histogramy (skategoryzowane) i 3-wymiarowe; Wykresy ramka wąsy; Wykresy powierzchniowe;

Bardziej szczegółowo

Gdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k 1).

Gdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k 1). PRZYKŁADY TESTÓW NIEPARAMETRYCZNYCH. Test zgodności χ 2. Ten test służy testowaniu hipotezy, czy rozważana zmienna ma pewien ustalony rozkład, czy też jej rozkład różni się od tego ustalonego. Tym testem

Bardziej szczegółowo

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy. TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy. Hipotezy dzielimy na parametryczne i nieparametryczne. Zajmiemy

Bardziej szczegółowo

Oszacowanie i rozkład t

Oszacowanie i rozkład t Oszacowanie i rozkład t Marcin Zajenkowski Marcin Zajenkowski () Oszacowanie i rozkład t 1 / 31 Oszacowanie 1 Na podstawie danych z próby szacuje się wiele wartości w populacji, np.: jakie jest poparcie

Bardziej szczegółowo

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1 Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT Anna Rajfura 1 Przykład wprowadzający Wiadomo, że 40% owoców ulega uszkodzeniu podczas pakowania automatycznego.

Bardziej szczegółowo

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności Statystyka indukcyjna pozwala kontrolować i oszacować ryzyko popełnienia błędu statystycznego

Bardziej szczegółowo

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy. TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy. Hipotezy dzielimy na parametryczne i nieparametryczne. Zajmiemy

Bardziej szczegółowo

Testowanie hipotez statystycznych. Wprowadzenie

Testowanie hipotez statystycznych. Wprowadzenie Wrocław University of Technology Testowanie hipotez statystycznych. Wprowadzenie Jakub Tomczak Politechnika Wrocławska jakub.tomczak@pwr.edu.pl 10.04.2014 Pojęcia wstępne Populacja (statystyczna) zbiór,

Bardziej szczegółowo

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap Magdalena Frąszczak Wrocław, 21.02.2018r Tematyka Wykładów: Próba i populacja. Estymacja parametrów z wykorzystaniem metody

Bardziej szczegółowo

Statystyka i opracowanie danych - W 4: Wnioskowanie statystyczne. Weryfikacja hipotez statystycznych. Dr Anna ADRIAN Paw B5, pok407

Statystyka i opracowanie danych - W 4: Wnioskowanie statystyczne. Weryfikacja hipotez statystycznych. Dr Anna ADRIAN Paw B5, pok407 Statystyka i opracowanie danych - W 4: Wnioskowanie statystyczne. Weryfikacja hipotez statystycznych. Dr Anna ADRIAN Paw B5, pok407 adan@agh.edu.pl Hipotezy i Testy statystyczne Każde badanie naukowe rozpoczyna

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska DRZEWO REGRESYJNE Sposób konstrukcji i przycinania

Bardziej szczegółowo

Wykład 9 Wnioskowanie o średnich

Wykład 9 Wnioskowanie o średnich Wykład 9 Wnioskowanie o średnich Rozkład t (Studenta) Wnioskowanie dla jednej populacji: Test i przedziały ufności dla jednej próby Test i przedziały ufności dla par Porównanie dwóch populacji: Test i

Bardziej szczegółowo

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25 Testowanie hipotez Marcin Zajenkowski Marcin Zajenkowski () Testowanie hipotez 1 / 25 Testowanie hipotez Aby porównać ze sobą dwie statystyki z próby stosuje się testy istotności. Mówią one o tym czy uzyskane

Bardziej szczegółowo

Hipotezy statystyczne

Hipotezy statystyczne Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o którego prawdziwości lub fałszywości wnioskuje się na podstawie pobranej próbki losowej. Hipotezy

Bardziej szczegółowo

Statystyka w przykładach

Statystyka w przykładach w przykładach Tomasz Mostowski Zajęcia 10.04.2008 Plan Estymatory 1 Estymatory 2 Plan Estymatory 1 Estymatory 2 Własności estymatorów Zazwyczaj w badaniach potrzebujemy oszacować pewne parametry na podstawie

Bardziej szczegółowo

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Weryfikacja hipotez statystycznych za pomocą testów statystycznych Weryfikacja hipotez statystycznych za pomocą testów statystycznych Weryfikacja hipotez statystycznych za pomocą testów stat. Hipoteza statystyczna Dowolne przypuszczenie co do rozkładu populacji generalnej

Bardziej szczegółowo

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu, z którego pochodzi próbka. Hipotezy dzielimy na parametryczne i nieparametryczne. Parametrycznymi

Bardziej szczegółowo

Weryfikacja hipotez statystycznych testy dla dwóch zbiorowości

Weryfikacja hipotez statystycznych testy dla dwóch zbiorowości Weryfikacja hipotez statystycznych testy dla dwóch zbiorowości Informatyka 007 009 aktualizacja dla 00 JERZY STEFANOWSKI Instytut Informatyki Politechnika Poznańska Plan wykładu. Przypomnienie testu dla

Bardziej szczegółowo

WNIOSKOWANIE STATYSTYCZNE

WNIOSKOWANIE STATYSTYCZNE STATYSTYKA WNIOSKOWANIE STATYSTYCZNE ESTYMACJA oszacowanie z pewną dokładnością wartości opisującej rozkład badanej cechy statystycznej. WERYFIKACJA HIPOTEZ sprawdzanie słuszności przypuszczeń dotyczących

Bardziej szczegółowo

Teoria błędów. Wszystkie wartości wielkości fizycznych obarczone są pewnym błędem.

Teoria błędów. Wszystkie wartości wielkości fizycznych obarczone są pewnym błędem. Teoria błędów Wskutek niedoskonałości przyrządów, jak również niedoskonałości organów zmysłów wszystkie pomiary są dokonywane z określonym stopniem dokładności. Nie otrzymujemy prawidłowych wartości mierzonej

Bardziej szczegółowo