Testowanie metod optymalizacji i hipotez statystycznych Opracowanie: Łukasz Lepak,

Podobne dokumenty
ALHE Jarosław Arabas Testowanie metod optymalizacji

Wydział Matematyki. Testy zgodności. Wykład 03

Testy nieparametryczne

Wykład 9 Testy rangowe w problemie dwóch prób

Statystyka matematyczna dla leśników

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Weryfikacja hipotez statystycznych

Jak sprawdzić normalność rozkładu w teście dla prób zależnych?

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Wykład 10 ( ). Testowanie hipotez w rodzinie rozkładów normalnych przypadek nieznanego odchylenia standardowego

Statystyka matematyczna i ekonometria

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 3

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

Wykład 14. Testowanie hipotez statystycznych - test zgodności chi-kwadrat. Generowanie liczb losowych.

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

166 Wstęp do statystyki matematycznej

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

Testowanie hipotez statystycznych.

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

ANALIZA STATYSTYCZNA WYNIKÓW BADAŃ

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

STATYSTYKA MATEMATYCZNA

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

Porównanie modeli statystycznych. Monika Wawrzyniak Katarzyna Kociałkowska

Zadanie 1. Analiza Analiza rozkładu

Statystyka Matematyczna Anna Janicka

Statystyczna analiza danych

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)

Wykład 10 Testy jednorodności rozkładów

Generowanie ciągów pseudolosowych o zadanych rozkładach przykładowy raport

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

STATYSTYKA wykład 8. Wnioskowanie. Weryfikacja hipotez. Wanda Olech

Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne)

Doświadczalnictwo leśne. Wydział Leśny SGGW Studia II stopnia

Statystyka matematyczna i ekonometria

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp

Środowisko R Założenie normalności metody nieparametryczne Wykład R4; Weryfikacja założenia o normalności rozkładu populacji

Testowanie hipotez. 1 Testowanie hipotez na temat średniej

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Zadanie 3 Oblicz jeżeli wiadomo, że liczby 8 2,, 1, , tworzą ciąg arytmetyczny. Wyznacz różnicę ciągu. Rozwiązanie:

WNIOSKOWANIE STATYSTYCZNE

Statystyka w przykładach

Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Test t-studenta dla jednej średniej

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Jednoczynnikowa analiza wariancji

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

Zawartość. Zawartość

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Wprowadzenie do analizy korelacji i regresji

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Weryfikacja hipotez statystycznych

Statystyka matematyczna i ekonometria

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

12/30/2018. Biostatystyka, 2018/2019 dla Fizyki Medycznej, studia magisterskie. Estymacja Testowanie hipotez

Rozkłady statystyk z próby

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 30 zaliczenie z oceną

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas

Testowanie hipotez statystycznych

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Spis treści. Księgarnia PWN: Bruce M. King, Edward W. Minium - Statystyka dla psychologów i pedagogów. Wstęp Wprowadzenie...

Testowanie hipotez statystycznych.

STATYSTYKA MATEMATYCZNA

Weryfikacja przypuszczeń odnoszących się do określonego poziomu cechy w zbiorowości (grupach) lub jej rozkładu w populacji generalnej,

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI TESTOWANIE HIPOTEZ PARAMETRYCZNYCH

Wyszukiwanie binarne

STATYSTYKA MATEMATYCZNA WYKŁAD 5. 2 listopada 2009

Prognozowanie na podstawie modelu ekonometrycznego

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Wykład 7 Testowanie zgodności z rozkładem normalnym

Ćwiczenia 3 ROZKŁAD ZMIENNEJ LOSOWEJ JEDNOWYMIAROWEJ

Testy post-hoc. Wrocław, 6 czerwca 2016

Wykład 3 Hipotezy statystyczne

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Testowanie hipotez statystycznych. Wprowadzenie

Transkrypt:

Testowanie metod optymalizacji i hipotez statystycznych Opracowanie: Łukasz Lepak, 277324 Po wyborze i wykorzystaniu pewnej metody optymalizacji nadchodzi czas na ocenę wytworzonych przez nią punktów. Potrzebny do tego jest ewaluator, który jest w stanie wygenerować wartość funkcji celu dla danego punktu w przestrzeni. Ewaluator taki jest wyróżniony jako osobny blok dokonujący ocen na podstawie punktów dostępnych w logu generowanym przez metodę optymalizacyjną. Możemy zatem powiedzieć, że metoda optymalizacyjna pełni rolę generatora punktów, które następnie są oceniane przez ewaluator. Jednak istnieją metody, które wykorzystują wartość funkcji celu danego punktu do podejmowania dalszych decyzji, np. symulowane wyżarzanie czy stochastyczny algorytm wspinaczkowy. W tym celu ewaluator przypisuje do zadanego punktu w logu wartość funkcji celu, która następnie może zostać wykorzystana przez metodę optymalizacyjną celem podjęcia pewnych decyzji. Powyższy opis prezentuje sposób komunikacji między metodą optymalizacyjną, a ewaluatorem. Schemat tej komunikacji dla pewnego punktu z logu jest przedstawiony na rysunku poniżej. Metoda optymalizacji 1. generacja rozwiązań 4. wykorzystanie wartości funkcji celu 2. ewaluacja rozwiązań 3.przypisanie wartości funkcji celu ewaluator

Schemat ten może być wykorzystany do wprowadzenia koncepcji optymalizacji typu czarna skrzynka (ang. black-box optimization). Zakłada ona, że metoda optymalizacji nie wie nic o optymalizowanej funkcji celu, jedyne, czego może się o niej dowiedzieć, to wartość tej funkcji dla wygenerowanej przez nią punktów. Czyni to poprzez odpytywanie ewaluatora, który jest traktowany jak czarna skrzynka podająca w jakiś, nieznany metodzie sposób wartości funkcji celu. Metoda optymalizacji ewaluator Jednym ze sposobów na przetestowanie metody optymalizacji są tzw. zadania benchmarkowe, wśród których można wyróżnić m.in. CEC (2005 2017) i BBOB (2009). Celem takich zadań jest minimalizacja wartości bardzo skomplikowanej funkcji posiadającej najczęściej wiele minimów lokalnych, której forma analityczna nie jest oczywiście znana. Na takich benchmarkach są najczęściej testowane nowe algorytmy optymalizacyjne, które chcą pokazać, że są w stanie konkurować z obecnie znanymi rozwiązaniami. Wyniki osiągnięte z wykorzystaniem metody optymalizacyjnej można zaprezentować za pomocą tzw. krzywej zbieżności. Jest to najczęściej nierosnąca krzywa prezentująca wartości funkcji celu wraz z pojawianiem się kolejnych punktów w logu. W większości zastosowań prezentuje ona najlepszy dotychczas uzyskany wynik do pewnego punktu w logu, a zatem zmiany jej wartości następują w punkcie, którego wartość funkcji celu okazała się lepsza niż do tej pory obliczona. Przykładowa krzywa zbieżności dla problemu minimalizacji jest przedstawiona poniżej. 10.2 10 9.8 q(xk) 9.6 9.4 9.2 9 0 50 100 150 200 250 300 350 400 450 500 k

Można zadać sobie pytanie, która z dostępnych metod optymalizacyjnych jest najlepsza zawsze. Nie ma jednak prawidłowej odpowiedzi na tak postawione pytanie, co potwierdza No Free Lunch Theorem (NFL). NFL mówi, że jeżeli nie znamy z góry problemu optymalizacyjnego, który przyjdzie nam rozwiązać, to nie możemy dobrać efektywnej metody jego rozwiązania. Można to zobrazować w następujący sposób mamy przed sobą dwa zegary. Pierwszy z nich stoi w miejscu i cały czas pokazuje tę samą godzinę, drugi natomiast chodzi dwie minuty spóźniony. Jak określić, który z nich jest lepszy? To zależy od tego, jak zostanie zdefiniowana lepszość. Jeśli przez lepszy zegar rozumiemy taki, który częściej pokazuje prawidłowy czas, to lepszy będzie pierwszy zegar. Jednak jeżeli zdefiniujemy lepszość jako np. średni błąd popełniany przez wskazania zegara w ciągu doby, to lepszy będzie drugi zegar. Tak samo jest z metodami optymalizacyjnymi nie wiedząc, jaki problem przyjdzie nam rozpatrywać, nie możemy jednoznacznie stwierdzić, która z metod jest lepsza. Przy zdefiniowanym problemie istnieją rozwiązanią umożliwiające porównanie dwóch metod. Do porównania dwóch losowych metod optymalizacyjnych można wykorzystać krzywe zbieżności wytworzone z logów wygenerowanych przez dane metody. Należy zauważyć, że krzywe zbieżnośći w obrębie jednej metody mogą się od siebie różnić, co może wynikać m.in. ze sposobu inicjalizacji punktu początkowego czy elementów losowości występujących w niektórych algorytmach. Przykładowe krzywe zbieżności dla dwóch losowych metod znajdują się poniżej. 11 11 10.8 10.8 10.6 10.6 10.4 10.4 10.2 10.2 q(xk) 10 9.8 q(xk) 10 9.8 9.6 9.6 9.4 9.4 9.2 9.2 9 0 50 100 150 200 250 300 350 400 450 500 9 0 50 100 150 200 250 300 350 400 450 500 k k Jak na podstawie takich dwóch zestawów krzywych określić, która z metod optymalizacji jest lepsza? Jednym ze sposobów jest dystrybuanta empiryczna. Określa ona na podstawie powyższych krzywych jak często jesteśmy w stanie osiągnąć zadany wynik po pewnym, określonym czasie. Im większa wartość dystrybuanty w danym miejscu, tym częściej dany wynik był osiagany. Interpretacja wartości dystrybuanty empirycznej jest podobna do dystrybuanty znanej z probabilistyki, czyli można ją uznać za prawdopodobieństwo osiągnięcia wartości funkcji celu nie gorszej niż sprawdzana w danym punkcie.

1.2 1.2 1 1 0.8 0.8 częstość 0.6 0.4 częstość 0.6 0.4 0.2 0.2 0 9 9.5 10 10.5 11 11.5 q(x) 0 9 9.5 10 10.5 11 11.5 q(x) Powyżej znajdują się dwie pary dystrybuant empirycznych. Załóżmy, że kolorem niebieskim jest reprezentowany algorytm A, a czerwonym algorytm B. Na podstawie lewego wykresu możemy stwierdzić, że algorytm A jest lepszy niż algorytm B. Potwierdza to położenie krzywych dystrybuant empirycznych dystrybuanta empiryczna algorytmu A znajduje się nad dystrybuantą empiryczną algorytmu B, co oznacza, że algorytm A po zadanym czasie częściej lub z taką samą częstością osiąga pewien zadany wynik niż algorytm B. Prawy wykres nie pozwala nam stwierdzić lepszośći ani gorszości żadnej z metod. Objawia się to przecięciem w wykresach dystrybuant empirycznych, co nie pozwala wskazać metody, która jest zawsze lepsza. Metoda porównywania dystrybuant empirycznych jest przykładem testu nieparametrycznego. Innym rodzajem są testy parametryczne, którego przykładem może być np. test t- Studenta. Zakłada on, że wartości funkcji celu wygenerowane przez dwie sprawdzane metody pochodzą z pewnego rozkładu normalnego. Test ten sprawdza, czy rozkłady te pochodzą z rozkładu o tej samej wartości średniej, a więc czy nie występuje między nimi statystyczna istotność między wartościami średnimi. Testy parametryczne i nieparametryczne są rodzajami testów hipotez statystycznych. Sposób działania testów statystycznych jest następujący - na początku jest stawiana tzw. hipoteza zerowa (null hypothesis). Jest to hipoteza, którą najczęściej chcemy obalić. Następnie test na podstawie przekazanych mu danych oblicza tzw. p-wartość (p-value), która określa prawdopodobieństwo zaobserwowania danych takich, jakie zostały podane do testu przy założeniu, że hipoteza zerowa jest prawdziwa. Jeśli p-wartość jest mniejsza od pewnej, założonej wartości, to hipoteza zerowa jest odrzucana. Przykładowo, dla testu t-studenta hipoteza zerowa mówi, że różnica między wartościami średnimi rozkładów, z których pochodzą przekazane dane, jest równa zero. W testach metod optymalizacyjnych potwierdzenie hipotezy zerowej oznacza, że nie jesteśmy w stanie określić, która z metod jest lepsza lub gorsza.

Przykładowymi testami statystycznymi są wyżej wymieniony test t-studenta, nieparametryczny test Wilcoxona (hipoteza zerowa mediany przekazanych do testu danych są równe), a także test chi kwadrat (hipoteza zerowa dane przekazane do testu pochodzą z rozkładu chi kwadrat). Testy te są zaimplementowane w języku R, są wywoływane przez funkcje t.test [t-studenta], wilcox.test [test Wilcoxona] oraz chisq.test [test chi kwadrat]. Dokładniejszy opis działania testów statystycznych znajduje się w książce Statystyka dla studentów kierunków technicznych i przyrodniczych Jacka Koronackiego i Jana Mielniczuka. Po przeprowadzeniu testów statystycznych między sprawdzanymi metodami optymalizacji należy w pewien sposób zagregować otrzymane wyniki. Przy porównywaniu wielu algorytmów dla jednego zadania można posłużyć się tabelką, której i-ty rząd i kolumna reprezentują i-tą metodę optymalizacyjną. Komórka i,j takiej tabeli określa, czy algorytm i był lepszy niż algorytm j przy porówaniu w parach. Następnie w rzędach tabeli sumowane są wyniki porównań, gdzie wynik lepszy ma wagę 1, gorszy ma wagę -1, a nie wiadomo - 0. Tworzy to pewien bilans punktów dla każdego algorytmu, dzięki czemu możemy uszeregować je od najlepszego do najgorszego dla zadanego problemu. Przykładowa tabelka, bilans i ranga znajdują się na rysunkach poniżej. A1 A2 A3 A4 A1. + + - A2 -. -. A3 - +. - A4 +. +. bilans ranga A1 1 2 A2-2 4 A3-1 3 A4 2 1 Porównanie algorytmów optymalizacji dla wielu zadań sprowadza się do przygotowania rang dla każdego zadań z osobna i obliczeniu średniej, co prezentuje poniższy rysunek. Z1 Z2 Z3 Z4 Z5 średnia A1 2 3 1 1 4 2.2 A2 4 2 1 2 1 2 A3 3 1 1 2 2 1.8 A4 1 1 1 3 3 1.8 Widać na nim testy 4 różnych algorytmów dla 5 różnych problemów. Rangi dla każdego problemu zostały przygotowane zgodnie ze schematem postępowania przy porównywaniu wielu algorytmów dla jednego problemu. Średnia ranga jest średnią arytmetyczną osiągniętych rang. Wygrywają algorytmy, które maja najniższą średnią rangę, czyli w powyższym przykładzie algorytmy A3 i A4.

Innym sposobem porównywania metod optymalizacyjnych są tzw. functiontarget pairs. Polega on na tym, że na podstawie średniej krzywej zbieżności - tworzy się przedziały między pewną początkową a końcową wartością funkcji celu oddalone od siebie o jakiś odstęp (odstęp może być liniowy lub logarytmiczny). Dla wartości z osi X ustala się, ile z tych przedziałów jest zawartych między zadaną początkową wartością funkcji celu, a wartością funkcji celu dla wybranego punktu z osi X. Wartość ilorazu zawartych przedziałów przez liczbę wszystkich przedziałów jest wartością, która trafia na wykres dystrybuanty empirycznej dla danej metody. W ten sposób można łatwo stworzyć dystrybuanty empiryczne dla wielu problemów i porównać je. Sposób ten można także wykorzystać do porównania wielu algorytmów na wielu problemach wystarczy po prostu uśrednić wyniki dla danej wartości z osi X. Warto wspomnieć, że w wielu rzeczywistych benchmarkach problemy są wielowymiarowe, a więc w celu ujednolicenia skali na osi X często podaje się liczbę wykonanych ewaluacji podzieloną przez liczbę wymiarów optymalizowanej funkcji (najczęściej w skali logarytmicznej).