Znaczenie sekwencyjnego sposobu podejmowania decyzji Page 1 of 21
1. Podejście klasyczne a podejście sekwencyjne do wnioskowania statystycznego W statystyce klasycznej zakłada się, że liczba obserwacji gromadzonych w przeprowadzanym eksperymencie jest z góry ustalona. Wybór tej liczby jest jednym z elementów planowania doświadczenia. Często jednak dane napływają nie jednocześnie (w jednej paczce), lecz kolejno. Na przykład, przy statystycznej kontroli jakości produkcji partie o bardzo niskiej lub bardzo wysokiej wadliwości mogą być przyjęte lub odrzucone po zbadaniu mniejszej liczby sztuk niż to jest potrzebne, w przypadku partii o wadliwości bliskiej dopuszczalnej. Nie ma matematycznego uzasadnienia kontrolowanie kolejnych produktów skoro częstości pojawiania się wadliwych elementów uzyskiwane dotychczas przemawiają za przyjęciem lub odrzuceniem produkcji przy założonej dokładności (błędzie statystycznym). W wielu badaniach medycznych, w których stosuje się zabiegi (badania) w miarę napływu pacjentów. W takim przypadku Page 2 of 21
wydaje się nieetyczne, a także zbędne, kontynuowanie zabiegów na pacjentach w celu osiągnięcia zaplanowanej wcześniej liczności próby, gdy zaobserwowane dotychczas wyniki świadczą wyraźnie o wyższości jednego z porównywanych zabiegów. Także w badaniach naukowych eksperymentator, który uzyskał niezbyt przekonywujące wyniki, skłonny jest często zwiększyć liczbę obserwacji. W podejściu sekwencyjnym nie ustala się z gory liczby obserwacji potrzebnych do analizy i przyjmuje się, że obserwacje mogą być uzyskiwane tak długo jak tego wymaga badanie. Sekwencyjne gromadzenie danych, tzn. zatrzymanie eksperymentowania w momencie wyznaczonym przez zebrane dotychczas dane, wymaga, aby wnioskowanie na podstawie tych danych przebiegało całkiem inaczej niż w statystyce klasycznej. Page 3 of 21
2. Abraham Wald i podejście sekwencyjne Twórcą podejścia sekwencyjnego do wnioskowania statystycznego i doniosłych rezultatów inicjujących ten nowy kierunek badań statystyki matematycznej był Abraham Wald (1902 1950). Zainicjował w statystyce dwa zupełnie nowe działy: analizę sekwencyjną i ogólną teorię decyzji. Był twórcą teoriodecyzyjnego podejścia sekwencyjnego do wnioskowania statystycznego. Page 4 of 21
Sekwencyjne podejście do wnioskowania statystycznego było po raz pierwszy przedmiotem systematycznych badań podczas II wojny światowej. Badania te dotyczyły jakości amunicji i prowadzone były przez Grupę Badań Statystycznych (Statistical Research Group) w Columbia University oraz przez grupę doradców okresu wojennego w Anglii. W statystyce klasycznej metoda wnioskowania (metoda estymacji, metoda testowania hipotez) zawiera przepis na wyciąganie konkluzji z danych doświadczalnych. Przepis ten pozostaje w mocy tylko wtedy, gdy dane zostały zebrane zgodnie ze schematem przewidzianym w tym przepisie, a same dane mają wpływ jedynie na końcowy wynik. W analizie sekwencyjnej dane służą zarówno do decyzji, kiedy skończyć obserwację (pobieranie danych), jak również do wyciągania faktycznych wniosków (dotyczących oszacowywanego parametru czy sprawdzanych hipotez). Page 5 of 21
Jak wynika z idei, podejście sekwencyjne wymaga wprowadzenia do matematycznego opisu procedury pojęcia reguły stopu, zwanej inaczej momentem zatrzymania. Jest to zasada, która w każdym kroku decyduje na podstawie dotychczas zebranych danych, czy zakończyć badanie i podjąć decyzję, czy też kontynuować obserwację (pobieranie danych). Reguły stopu tworzą bazę koncepcyjną analizy sekwencyjnej. Okazały się one również jednym z najbardziej owocnych pojęć współczesnej teorii prawdopodobieństwa. Wiele interesujących zagadnień można sprowadzić do problemu znalezienia najlepszej (optymalnej) reguły stopu w konkretnej sytuacji. Analiza sekwencyjna wymaga zarówno określenia momentu zatrzymania obserwacji jak i wyboru decyzji dotyczącej wnioskowania statystycznego. Największym wkładem własnym Walda do analizy sekwencyjnej było wyznaczenie reguły stopu i decyzji w pewnej ogólnej klasie problemów statystyki matematycznej. Page 6 of 21
3. Sekwencyjny test ilorazu prawdopodobieństwa Załóżmy, że mamy do czynienia z populacją (zbiorowością), której każdy element może być zakwalifikowany do jednej z dwóch kategorii, np. z partią produktów składających się z elementów dobrych i wadliwych. Przyporządkujemy wartość 0 każdemu elementowi sprawnemu i wartość 1 każdemu elementowi wadliwemu. Niech p oznacza nieznaną proporcję elementów wadliwych w populacji (tzw. wadliwość populacji). Wtedy rezultatem X badania każdego pobranego w sposób losowy elementu z populacji może być jedynie wartość 1 lub 0. Jeżeli X i oznacza rezultat badania i-tego elementu, to X i = 1 z prawdopodobieństwem p i X i = 0 z prawdopodobieństwem 1 p. Zwykle możliwa jest specyfikacja pewnej wartości p, takiej że w przypadku, gdy p p skłonni jesteśmy zaakceptować partię, a przy p > p partię odrzucimy. Zatem problem podjęcia decyzji, czy partię należy odrzucić czy przyjąć na podstawie próby losowej, można sformułować jako problem testowania hipotezy H 0 : p p przeciwko hipotezie alternatywnej H 1 : p > p. Aspekty praktyczne wskazują, że możliwa jest specyfikacja dwóch wartości p 0 i p 1 (p 0 < p, p 1 > p ), takich że Page 7 of 21
zaakceptowanie partii w przypadku, gdy p p 1 będzie traktowane jako błąd o wtórnym praktycznym znaczeniu, natomiast odrzucenie partii w przypadku, gdy p p 0 będzie uważane za błąd o istotnym praktycznym znaczeniu. Nie rozpatruje się problemu wyboru decyzji w przypadku, gdy p (p 0, p 1 ). Zatem problem kontroli jakości danej partii elementów można sformułować jako problem testowania hipotezy H 0 : p p 0 przeciwko hipotezie alternatywnej H 1 : p p 1, gdzie p 0 < p 1. Po wybraniu wartości p 0 i p 1, akceptowalne przez nas ryzyko związane z podjęciem błędnych decyzji może być określone w następujący sposób: prawdopodobieństwo odrzucenia partii nie powinno przekraczać pewnej małej ustalonej z góry wartości α w przypadku, gdy p p 0, natomiast prawdopodobieństwo akceptacji partii nie powinno przekraczać pewnej małej ustalonej z góry wartości β w przypadku, gdy p p 1. Page 8 of 21
Możliwe ryzyka w procedurze testowania, którą należy skonstruować, scharakteryzowane są poprzez cztery liczby: p 0, p 1, α, β. Wybór tych wielkości nie jest problemem statystycznym; są one określone w zależności od praktycznych aspektów każdego poszczególnego przypadku. Zakłada się, że nie ma żadnego ograniczenia co do liczby elementów pobieranych do próbki w trakcie inspekcji. Sekwencyjna procedura testowania hipotezy H 0 : p p 0 przeciwko hipotezie alternatywnej H 1 : p p 1 jest taka sama jak sekwencyjna procedura testowania hipotezy H 0 : p = p 0 przeciwko hipotezie alternatywnej H 1 : p = p 1. Wybieramy elementy w sposób niezależny tworząc próbkę (x 1,..., x n ). Prawdopodobieństwo realizacji takiego ciągu obserwacji przy hipotezie H 1 : p = p 1 wynosi p 1n = p s n 1 (1 p 1 ) n s n, gdzie s n = n i=1 x i, a przy hipotezie H 0 : p = p 0, p 0n = p s n 0 (1 p 0 ) n s n. W każdym kroku inspekcji, tzn. po zbadaniu każdego kolejnego Page 9 of 21
n-tego elementu, obliczamy iloraz L n = p 1n p 0n i postępujemy według następującej procedury: jeżeli L n A, należy zatrzymać próbkowanie i przyjąć H 0 ; jeżeli L n B, należy zatrzymać próbkowanie i przyjąć H 1 ; jeżeli A < L n < B, należy pobrać kolejną obserwację, gdzie A i B, są pewnymi liczbami, takimi że A < 1, B > 1. Uzasadnienie jest oczywiste: otrzymana wartość L n A < 1 świadczy o tym, że bardziej prawdopodobne jest to, że pobrana próbka pochodzi z populacji o wadliwości p 0 niż to, że pochodzi z populacji o wadliwości p 1. Procedura określona przez (1) i stałe A, B nazywa się sekwencyjnym testem ilorazu prawdopodobieństwa (STIP) o brzegach (barierach) zatrzymania A i B. W rozpatrywanym problemie statystycznej kontroli jakości, przyjęcie H 0 oznacza zaakceptowanie partii produktów, a przyjęcie H 1 oznacza jej odrzucenie. (1) Page 10 of 21
Ponieważ funkcja log y jest monotoniczna względem y, więc STIP można opisać w sposób równoważny zastępując we wzorze (1) wielkości L n, A, B odpowiednio wielkościami log L n, log A, log B. Następnie, korzystając z aproksymacji podanych przez Walda, STIP można przedstawić w zależności od zadanych prawdopodobieństw błędów α i β: jeżeli log L n log β 1 α, to należy zatrzymać próbkowanie i przyjąć H 0 ; jeżeli log L n log 1 β α, to należy zatrzymać próbkowanie i przyjąć H 1 ; jeżeli log β 1 α < log L n < log 1 β α, (2) to należy kontynuować badanie pobierając kolejną obserwację. Uwzględniając postać funkcji L n, ( ) sn ( ) n sn p1 1 p1 L n =, p 0 1 p 0 Page 11 of 21
obszar kontynuacji procedury, określony wzorem (2), można przedstawić w postaci a n = log β 1 α log p 1 p 0 log 1 p 1 < 1 p 0 + n log 1 β α log p 1 p 0 log 1 p 1 1 p 0 + n log 1 p 0 1 p 1 log p 1 log 1 p < s n 1 p 0 1 p 0 log 1 p 0 1 p 1 log p 1 log 1 p = r n. (3) 1 p 0 1 p 0 Page 12 of 21
Page 13 of 21 Rysunek 1: Bariery sekwencyjnego testu ilorazu prawdopodobieństwa dla prób Bernoulliego. Przyjęto p 0 = 0.1, p 1 = 0.3, α = 0.02, β = 0.03.
Jak widać, metoda wnioskowania i reguła stopu mogą być opisane łacznie przez narysowanie dwóch barier na wykresie liczby sukcesów jako funkcji liczby wykonanych obserwacji. Dopóki błądzenie losowe pozostaje między tymi barierami, należy kontynuować badanie. Jeśli trajektoria przetnie górną barierę (za dużo sukcesów za dużo wykrytych elementów wadliwych), zakończymy eksperyment i podejmiemy decyzję o odrzuceniu partii produktów. Gdy zostanie przecięta dolna bariera (za mało sukcesów), zakończymy eksperyment i podejmiemy decyzję o zaakceptowaniu danej partii. Liczby a n i r n określone we wzorze (3) nazywają się odpowiednio wartością akceptacji i wartością odrzucenia. Wald udowodnił, że procedura STIP z pewnością doprowadzi do rozstrzygnięcia w skończonej liczbie kroków. Jak łatwo zauważyć, żądanie mniejszych prawdopodobieństw błędnych decyzji powoduje szersze rozsunięcie barier i wzrost średniej liczby prób potrzebnych do podjęcia decyzji. Procedura STIP ma bardzo przekonujące wyjaśnienie. Ponieważ bariery zatrzymania są równoległymi liniami prostymi, test ten jest prosty w użyciu. Ale przede wszystkim test ten jest testem optymalnym względem pewnego kryterium. Okazało się Page 14 of 21
w praktyce, że STIP często dawał oszczędność rzędu 50% obserwacji wymaganych przez niesekwencyjną procedurę o tych samych prawdopodobieństwach błędów. Ten fakt miał taką wartość przy testowaniu amunicji, że STIP przez pewien czas był tajemnicą wojskową. Page 15 of 21
Wald i Wolfowitz (1948) udowodnili, że średnia liczba obserwacji wymagana w STIP do wydania decyzji jest mniejsza niż analogiczna średnia w jakiejkolwiek innej procedurze (sekwencyjnej lub nie) mającej te same lub mniejsze prawdopodobieństwa błędów. STIP może być skonstruowany w każdej sytuacji decyzyjnej, gdy chodzi o przyjęcie jednej z dwóch alternatyw na podstawie ciągu niezależnych obserwacji. Prowadzi to zawsze do badania błądzenia losowego (lub ogólniej, przebiegu pewnego procesu losowego) z dwiema równoległymi barierami. STIP dla ogólniejszych procesów losowych wymaga zaangażowania bardziej skomplikowanej teorii matematycznej, w szczególności teorii procesów losowych, ale idee Walda można zastosować także w takich przypadkach. Page 16 of 21
4. Obcięty i uogólniony STIP W niektórych sytuacjach (np. gdy prawdziwa wartość testowanego parametru różni się znacznie od wartości parametrów określonych przez obie hipotezy) STIP wymaga bardzo wielu obserwacji przed podjęciem decyzji. Jeżeli obserwacje są zbyt kosztowne, stosuje się często zamiast STIP tzw. obcięty STIP, w którym określa się górną granicę wielkości próbki. Na Rysunkach 2 i 3 przedstawione są bariery zatrzymania STIP, w których liczba dokonywanych obserwacji jest ograniczona. Z testami o takich barierach zatrzymania mamy do czynienia np. w sytuacjach, gdy chcemy porównać dwa leki podając je (w różnych czasach i losowej kolejności) tym samym pacjentom. Na podstawie badań każdego pacjenta uzyskujemy informację, który z tych dwóch leków okazał się bardziej skuteczny. Trajektoria wznosząca się o jednostkę do góry, gdy preferowany jest lek A i opadająca o jednostkę w dół, gdy preferowany jest lek B, tworzy symetryczne błądzenie losowe. Page 17 of 21
Zadanie polega na sprawdzeniu hipotezy, że oba leki są jednakowo skuteczne przy hipotezie alternatywnej, że jeden z nich jest lepszy od drugiego. Decyzja przyjęcia pierwszej z tych hipotez jest konsekwencją przekroczenia bariery pionowej, podczas gdy przekroczenie bariery górnej lub dolnej pociąga za sobą przyjęcie hipotezy alternatywnej. Bariera pionowa wyznacza górną granicę liczby pacjentów, którzy będą badani. Barierę pionową na Rysunku 2 można ściągnąć do linii przerywanej, ponieważ trajektoria, która przetnie linię przerywaną, w dalszym swym biegu zawsze już musi przekroczyć barierę pionową. Page 18 of 21
Page 19 of 21 Rysunek 2: Bariery ograniczonego STIP
Page 20 of 21 Rysunek 3: Bariery podwójnie trójkątnego STIP
Zmodyfikowany STIP, w którym bariery równoległe zastąpione są przez inne linie proste, tak jak na Rysunku 2 lub 3 nazywa się uogólnionym STIP. Innego rodzaju zagadnienie pojawia się w statystycznej kontroli jakości w przypadku, gdy często ze względów technicznych wygodniej jest pobierać do badania nie pojedyncze sztuki lecz całe ich zespoły (wiązki, skrzynki, paczki). Procedury sekwencyjne dopuszczające taką możliwość znajdują zastosowania w przemyśle. Przedstawiony STIP jest narzędziem w problemach decyzyjnych, w których dokonuje się wyboru jednej z dwóch decyzji. Trudniejszy problem dotyczy sytuacji, w której należy dokonać wyboru jednej spośród więcej niż dwóch decyzji. Taki problem związany jest z rozszerzeniem koncepcji Walda na ogólniejsze modele statystyczne w celu wyznaczenia nowych narzędzi statystyki matematycznej do rozwiązań wielu zadań w praktyce. Powstające przy tym problemy matematyczne dotyczą m.in. własności reguł stopu dla bardzo ogólnych barier i procesów losowych na płaszczyźnie lub w przestrzeniach o większej liczbie wymiarów. Page 21 of 21