Outlier to dana (punkt, obiekt, wartośd w zbiorze) znacznie odstająca od reszty. prezentacji punktów odstających jest rysunek poniżej.



Podobne dokumenty
Metody wykrywania odchyleo w danych. Metody wykrywania braków w danych. Korelacja. PED lab 4

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Wykład 10 ( ). Testowanie hipotez w rodzinie rozkładów normalnych przypadek nieznanego odchylenia standardowego

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi

Rozwiązanie n1=n2=n=8 F=(4,50) 2 /(2,11) 2 =4,55 Fkr (0,05; 7; 7)=3,79

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Statystyka matematyczna dla leśników

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Autor: Dariusz Piwczyński 1 Ćwiczenie: Doświadczenia 2-grupowe w układzie niezależnym i zależnym.

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 3

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Statystyka matematyczna i ekonometria

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Kolokwium ze statystyki matematycznej

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

STATYSTYKA MATEMATYCZNA WYKŁAD 3. Populacje i próby danych

Rozdział 8. Regresja. Definiowanie modelu

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Wykład 9 Wnioskowanie o średnich

Statystyka matematyczna i ekonometria

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

ZASTOSOWANIE TECHNIK CHEMOMETRYCZNYCH W BADANIACH ŚRODOWISKA. dr inż. Aleksander Astel

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

BADANIE POWTARZALNOŚCI PRZYRZĄDU POMIAROWEGO

Analiza i monitoring środowiska

Testowanie hipotez statystycznych.

Weryfikacja hipotez statystycznych

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Wykład 3. Rozkład normalny

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Statystyka Opisowa z Demografią oraz Biostatystyka. Aleksander Denisiuk. denisjuk@euh-e.edu.pl

Wykorzystanie testu t dla pojedynczej próby we wnioskowaniu statystycznym

1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW

Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne)

Wykład 3 Hipotezy statystyczne

KORELACJE I REGRESJA LINIOWA

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Testowanie hipotez statystycznych

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

STATYSTYKA POWTORZENIE. Dr Wioleta Drobik-Czwarno

Teoria błędów. Wszystkie wartości wielkości fizycznych obarczone są pewnym błędem.

Testowanie hipotez statystycznych.

Ćwiczenie: Badanie normalności rozkładu. Wyznaczanie przedziałów ufności.

Testowanie hipotez. 1 Testowanie hipotez na temat średniej

Ćwiczenie: Badanie normalności rozkładu. Wyznaczanie przedziałów ufności

Statystyka matematyczna

Wprowadzenie do analizy korelacji i regresji

INFORMATYKA W SELEKCJI

Zadania ze statystyki, cz.6

Wykład 4: Statystyki opisowe (część 1)

Laboratorium nr Wyznaczyć podstawowe statystyki (średnia, mediana, IQR, min, max) dla próby:

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

LABORATORIUM 9 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych

Analiza wariancji. dr Janusz Górczyński

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd

VII WYKŁAD STATYSTYKA. 30/04/2014 B8 sala 0.10B Godz. 15:15

BADANIE POWTARZALNOŚCI PRZYRZĄDU POMIAROWEGO

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Testy nieparametryczne

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Statystyka BioStatystyka

Zastosowanie Excela w matematyce

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Prawdopodobieństwo i rozkład normalny cd.

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Weryfikacja hipotez statystycznych testy dla dwóch zbiorowości

2.Wstępna analiza danych c.d.- wykład z Populacja i próba

Monte Carlo, bootstrap, jacknife

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Zadania ze statystyki cz.8. Zadanie 1.

Zawartość. Zawartość

166 Wstęp do statystyki matematycznej

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Transkrypt:

Temat: WYKRYWANIE ODCHYLEO W DANYCH Outlier to dana (punkt, obiekt, wartośd w zbiorze) znacznie odstająca od reszty. prezentacji punktów odstających jest rysunek poniżej. Przykładem Box Plot wygodną metodą wykrywania odchyleo w danych Boxploty i wykresy rozrzutu są efektywnymi technikami wizualizacji danych odstających w analizowanym zbiorze. Konstruujemy boxplot jako pudełko między Q1 a Q3 z dodatkową linią

poziomą wskazującą na medianę. Następujące obliczenia są niezbędne dla wyznaczenia wartości obserwacji odstających: 1. lower inner fence: Q1-1.5*IQ 2. upper inner fence: Q2 + 1.5*IQ 3. lower outer fence: Q1-3*IQ 4. upper outer fence: Q2 + 3*IQ Wartośd poza inner fence zarówno dolnym jak i górnym ( a więc 1 i 2) jest uznawana za łagodny outlier (mild outlier), zaś wartości poza tzw. outer fence są traktowane jako tzw. Skrajny outlier (extreme outlier). Metoda A: Wykrywanie odchyleo krok po kroku na podstawie Q1 i Q3. 1. Uporządkuj dane rosnąco. Np. dla zbioru: {4, 5, 2, 3, 15, 3, 3, 5}, będzie to zbiór {2, 3, 3, 3, 4, 5, 5, 15}. 1. Znajdź medianę a więc taką wartośd w zbiorze danych dla której połowa danych w zbiorze jest od niej większa i polowa jest mniejsza. Mogą to byd także dwie takie wartości np. 3 i 4, wtedy mediana będzie wynosiła (3 + 4) / 2 = 3.5. 2. Znajdź górny kwartyl Q3 (75 % zbioru danych jest mniejsze od tej wartości); 3. Znajdź dolny kwartyl Q1 (25 % zbioru danych jest mniejsze od tej wartości); 4. Oblicz różnicę między Q3 a Q1. To będzie tzw. Rozstęp międzykwartylny. 5. Przemnóż tę wartośd przez 1.5. Dodaj ją do Q3 i odejmij od Q1. Wszystkie wartości, które będą poza tymi wartościami będą uznane za outlier. Np. jeśli Q3 = 5, Q1 = 3, to Q3 Q1 = 2, i teraz 1.5 * 2 = 3. Teraz 3 3 = 0, a 3 + 5 = 8. Zatem każda wartośd mniejsza niż 0 i większa niż 8 będzie uznana za (łagodny) outlier. W tym przykładowym zbiorze będzie to wartośd 15. 6. Przemnóż rozstęp międzykwartylny przez 3. Dodaj do Q3 i odejmij tę wartośd tez od Q1. Każda wartośd poza tymi wartościami będzie uznana za tzw. Skrajny outlier. W tym przypadku 2 x 3 = 6, a 3 6 = -3, zaś 5 + 6 = 11. Zatem każda wartośd mniejsza niż -3 bądź większa niż 11 będzie uznana za skrajny outlier. Tak więc wartośd 15 z pewnością jest outlierem w tym zbiorze danych. Metoda B: Wykrywanie odchyleo krok po kroku na podstawie wartości średniej i odchylenia standardowego Często do wykrywania odchyleo w danych używa się wartości średniej i odchylenia standardowego. Mówi się wówczas, że jeśli jakaś wartośd jest większa bądź mniejsza o wartośd równą dwukrotnej wartości odchylenia standardowego od wartości średniej to należy ją uznad za odchylenie. Ćwiczenie 1. Zbiór danych zawiera N = 90 elementów: 30, 171, 184, 201, 212, 250, 265, 270, 272, 289, 305, 306, 322, 322, 336, 346, 351, 370, 390, 404, 409, 411, 436, 437, 439, 441, 444, 448, 451, 453, 470, 480, 482, 487, 494, 495, 499, 503, 514, 521, 522, 527, 548, 550, 559, 560, 570, 572, 574, 578, 585, 592, 592, 607, 616, 618, 621, 629, 637, 638, 640, 656, 668, 707, 709, 719, 737, 739, 752, 758, 766, 792, 792, 794, 802, 818, 830, 832, 843, 858, 860, 869, 918, 925, 953, 991, 1000, 1005, 1068, 1441 Wyznacz wartości odstające jeśli takie istnieją.

Obliczenia: Median = 559.5 Q1 = 429.75 Q3 = 742.25 Rozstęp międzykwartylny = 742.25-429.75 = 312.5 Lower inner fence = 429.75-1.5 (312.5) = -39.0 Upper inner fence = 742.25 + 1.5 (312.5) = 1211.0 Lower outer fence = 429.75-3.0 (312.5) = -507.75 Upper outer fence = 742.25 + 3.0 (312.5) = 1679.75 Zatem wygląda na to, że jedynie jedna wartośd będzie mogla byd uznana za outlier. Jest to wartośd 1441, która znacznie przekracza upper inner fence i jako taka zostaje uznana za łagodny outlier. Zaś w tym zbiorze nie ma wartośd skrajnie odstających. ćwiczenie 2. Przeprowadź sobie test umieszczony na stronie o adresie: http://henryanker.com/math/number_sense/describing_numbers/finding_the_outlier.swf Ćwiczenie 3. Napisz w Excelu formułę logiczną, którą będzie wskazywała czy dana wartośd jest odstająca czy nie, umieszczając w sąsiadującej kolumnie wartośd tekstową typu: outlier bądź not outlier. Zastosuj obie poznane metody. Podpowiedź: =IF(OR (D5>$G$5+2*$G$6, D5<$G$5-2*$G$6), "Outlier", "Not Outlier") Metoda A A1: =QUARTILE(D1:D100,1) A2: =QUARTILE(D1:D100,3) B1: =A2 - A1 Wtedy w komórce D1 możemy wykrywad skrajne odchylenia jako: =if(or(d1 < A1-3*B1, D1 > A2 + 3*B1), "outlier?", "") Metoda B A1=AVERAGE(D1:D100) B1=STDEV(D1:D100) Wtedy D1= if(or(d1 < A1-4*B1, D1 > A1 + 4*B1), "outlier?", "")

Metoda C: Test Grubbsa (test T) Test na wykrycie wyniku obarczonego błędem grubym. Przed wykonaniem testu zbiór wyników eksperymentalnych (próbka statystyczna) zostaje uszeregowany według wzrastających wartości. Błędem grubym może byd obarczona największa lub najmniejsza wartośd wyniku w próbce. Dla tych wyników obliczane są odpowiednio parametry T max i T min. Parametr o większej wartości porównywany jest następnie z parametrem krytycznym testu Grubbsa, odpowiadającym rozmiarowi próbki statystycznej i wybranemu poziomowi ufności. Wartośd krytyczna statystyki tego testu obliczana jest na podstawie paramteru t rozkładu Studenta dla zadanego poziomu ufności i liczby stopni swobody (n - 2, n - liczba pomiarów w serii). Jeśli wartośd eksperymentalna jest większa od wartości krytycznej, wówczas podejrzany wynik obarczony jest błędem grubym i można go odrzucid z zadanym poziomem ufności. Test Grubbs a polega na zdefiniowaniu hipotezy statystycznej: H 0 : Nie ma odchyleo w zbiorze danych H a : Istnieje przynajmniej jedno odchylenie w zbiorze danych Statystyka testowa Grubbs'a jest określona jako: Gdzie to średnia a to odchylenie standardowe. Statystykę Grubbsa uznaje się za największe odchylenie od średniej w zbiorze o rozkładzie normalnym. Jest to test dwustronny, ale może byd także użyty jako test jednostronny: wtedy sprawdzamy 1.czy minimalna wartośd nie jest odchyleniem: Gdzie Y min odpowiada minimalnej wartości w zbiorze. minimum value. 2. Czy maksymalna wartośd jest odchyleniem: Gdzie Y max oznacza wartośd maksymalną. Dla testu dwustronnego odrzucimy hipotezę zerową o nieistnieniu żadnych odchyleo jeśli: gdzie oznacza wartośd krytyczną rozkładu t z (N-2) stopniami swobody i poziomie istotności /(2N). Dla testu jednostronnego to będzie poziom istotności równy /N.

Przykład: Zbiór danych pod adresem: http://itl.nist.gov/div898/handbook/eda/section4/eda4281.htm ********************* ** grubbs test y ** ********************* GRUBBS TEST FOR OUTLIERS (ASSUMPTION: NORMALITY) 1. STATISTICS: NUMBER OF OBSERVATIONS = 195 MINIMUM = 9.196848 MEAN = 9.261460 MAXIMUM = 9.327973 STANDARD DEVIATION = 0.2278881E-01 GRUBBS TEST STATISTIC = 2.918673 2. PERCENT POINTS OF THE REFERENCE DISTRIBUTION FOR GRUBBS TEST STATISTIC 0 % POINT = 0.000000 50 % POINT = 2.984294 75 % POINT = 3.181226 90 % POINT = 3.424672 95 % POINT = 3.597898 97.5 % POINT = 3.763061 99 % POINT = 3.970215 100 % POINT = 13.89263 3. CONCLUSION (AT THE 5% LEVEL): THERE ARE NO OUTLIERS. W części drugiej widzimy, jak dla różnych poziomów istotności zmienia się wartośd krytyczna. Odrzucimy hipotezę zerową na określonym poziomie istotności jeśli wartośd statystyki Grubbs a jest więsza niż wartośd krytyczna wskazana w kolumnie ostatniej w części drugiej. Trzecia częśd wyników przedstawia wynik dla 95 % testu. Widzimy, że np. dla wartości 0.10 a więc 90 % wartośd krytyczna jest równa 3.42 zaś statystyka Grubbs a wyniosła 2.92. Ponieważ statystyka testowa jest mniejsza niż wartośd krytyczna, przyjmujemy hipotezę zerową na poziomie istotności 0.10.